WO2021037174A1

WO2021037174A1 - 一种神经网络模型训练方法及装置

Info

Publication number: WO2021037174A1
Application number: PCT/CN2020/111912
Authority: WO
Inventors: 张渊; 谢迪; 浦世亮
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2019-08-29
Filing date: 2020-08-27
Publication date: 2021-03-04
Also published as: CN112446461A

Abstract

一种神经网络模型训练方法及装置，获取训练样本，利用训练样本，对神经网络模型进行训练。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低运行神经网络模型需要的硬件资源开销。

Description

一种神经网络模型训练方法及装置

本申请要求于2019年08月29日提交中国专利局、申请号为201910808066.6、发明名称为“一种神经网络模型训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，特别是涉及一种神经网络模型训练方法及装置。

背景技术

深度神经网络作为机器学习研究中的一个新兴领域，通过模仿人脑的机制来解析数据，是一种通过建立和模拟人脑进行分析学习的智能模型。目前，深度神经网络，如卷积神经网络、循环神经网络、长短期记忆网络等已在很多类型的数据处理技术中得到了得到了很好的应用。例如：在视频图像处理领域中，对图像中的目标对象进行检测与分割和行为检测与识别等方面，以及音频数据处理领域中，进行语音识别等方面得到了很好的应用。

目前，由于图像数据或音频数据待处理数据本身的数据量较大，为了保证神经网络模型收敛的精度，神经网络模型的训练通常采用单精度浮点数据进行运算。但是，由于单精度浮点数据具有较高的位宽，参与运算的数据量较大，导致运行神经网络模型需要较高的硬件资源开销。

发明内容

本申请实施例的目的在于提供一种神经网络模型训练方法及装置，以降低运行神经网络模型需要的硬件资源开销。具体技术方案如下：

第一方面，本申请实施例提供了一种神经网络模型训练方法，该方法包括：

获取训练样本；

利用训练样本，对神经网络模型进行训练，其中，在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行如下步骤：

获取输入网络层的第一激活量及该网络层的网络权值；

对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据；

根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。

第二方面，本申请实施例提供了一种神经网络模型训练装置，该装置包括：

获取模块，用于获取训练样本；

训练模块，用于利用训练样本，对神经网络模型进行训练，其中，训练模块在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行如下步骤：

获取输入网络层的第一激活量及网络层的网络权值；

根据编码后的第一激活量及网络权值，计算网络层输出的第二激活量。

第三方面，本申请实施例提供了一种计算机设备，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器被机器可执行指令促使：实现本申请实施例第一方面提供的方法。

第四方面，本申请实施例提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，实现本申请实施例第一方面提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品，用于在运行时执行本申请实施例第一方面提供的方法。

本申请实施例提供的一种神经网络模型训练方法及装置，获取训练样本，利用训练样本，对神经网络模型进行训练。在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行：获取输入该网络层的第一激活量及网络层的网络权值，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低运行神经网络模型需要的硬件资源开销。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的神经网络模型训练方法的流程示意图；

图2为本申请实施例的神经网络模型训练过程示意图；

图3为本申请实施例的在对神经网络模型进行训练的过程中，针对神经网络模型中的各网络层的执行流程示意图；

图4为本申请实施例的大小为C×R×R×N的四维张量卷积核对应的张量空间结构示意图；

图5为本申请实施例的大小为C×R×R的三维张量内每个标量数值的编码方式的示意图；

图6为本申请实施例的大小为M×N的二维矩阵对应的张量空间结构示意图；

图7为本申请实施例的大小为1×N的列向量内每个标量数值的编码方式的示意图；

图8为本申请实施例的激活量和激活量梯度三维张量内每个标量数值的编码方式的示意图；

图9为本申请实施例的应用于相机的目标检测模型训练方法的流程示意图；

图10为本申请实施例的神经网络模型训练装置的结构示意图；

图11为本申请实施例的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案、及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了降低运行神经网络模型需要的硬件资源开销，本申请实施例提供了一种神经网络模型训练方法、装置、计算机设备及机器可读存储介质。下面，首先对本申请实施例所提供的神经网络模型训练方法进行介绍。

本申请实施例所提供的一种神经网络训练方法的执行主体可以为具有神经网络模型训练功能的计算机设备，也可以为实现目标检测与分割、行为检测与识别、语音识别等功能的计算机设备，还可以为具有目标检测与分割、行为检测与识别等功能的摄像机，或者具有语音识别功能的麦克风等，执行主体中至少包括具有数据处理能力的核心处理芯片。实现本申请实施例所提供的一种神经网络训练方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路的至少一种方式。

如图1所示，为本申请实施例所提供的神经网络模型训练方法，该方法可以包括如下步骤。

S101，获取训练样本。

在进行神经网络训练时，通常需要收集大量的训练样本，基于神经网络模型需要实现的功能不同，所收集的训练样本也不同。例如，如果是训练用于进行运动目标检测的检测模型，收集的训练样本为包含有运动目标的样本图像；如果是训练用于进行车辆型号识别的识别模型，收集的训练样本为包含有不同型号的车辆的样本图像；如果是训练用于进行语音识别的识别模型，收集的训练样本为音频样本数据。

S102，利用训练样本，对神经网络模型进行训练。

将训练样本输入到神经网络模型中，利用BP(Back Propagation，反向传播)算法或者其他模型训练算法，对训练样本进行运算，将运算结果和设置的标称值进行比较，基于比较结果，对神经网络模型的网络权值进行调整。通过将不同的训练样本依次输入神经网络模型，迭代执行上述步骤，对网络权值不断地进行调整，神经网络模型的输出会越来越逼近于标称值，直至神经网络模型的输出与标称值的差异足够小(小于预设阈值)，或者神经网络模型的输出收敛时，则认为对神经网络模型完成训练。

以BP算法为例，神经网络模型训练过程中主要的计算操作及数据流如图2所示，每个网络层在进行前向运算时主要进行卷积运算Y _i＝W _i*Y _i-1，每个网络层在进行反向运算时主要进行卷积运算dY _i-1＝dY _i*W _i，以及矩阵相乘运算dW _i＝dY _i*Y _i-1，其中，前向运算指的是从第一个网络层开始从前到后的运算顺序，反向运算指的是从最后一个网络层开始从后到前的运算顺序，W _i表示第 i层网络层的网络权值，如卷积层参数或全连接层参数，Y _i表示输入第i层网络层或者第i层网络层输出的激活量，dW _i表示第i层网络层对应的权值梯度，dY _i表示输入第i层网络层的激活量梯度，1≤i≤k，k为网络层的总层数。

如图2所示，在利用BP算法对神经网络模型进行训练的过程中，将训练样本X输入神经网络模型，经过神经网络模型的前向运算，k层网络层从前到后依次进行卷积运算，得到模型输出Y _k，经过损失函数将该模型的输出与标称值进行比较，得到损失值dY _k，再经过神经网络模型的反向运算，k层网络层从后到前依次进行卷积运算和矩阵相乘运算，得到每个网络层对应的权值梯度，根据权值梯度对网络权值进行调整。经过不断的迭代过程，使得神经网络模型的输出越来越逼近于标称值。

本申请实施例中，在对神经网络模型进行训练的过程中，针对神经网络模型中的各网络层，分别需要执行如图3所示的各步骤。

S301，获取输入网络层的第一激活量及网络层的网络权值。

在进行前向运算时，输入第i层网络层的第一激活量为Y _i，在进行反向运算时，输入第i层网络层的第一激活量为dY _i。

S302，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据。

对于第i层网络层，对输入该网络层的第一激活量Y _i、dY _i，以及该网络层的网络权值W _i进行整型定点编码，整型定点编码就是将浮点格式的数据编码为整型定点格式的数据。

在本申请实施例的一种实现方式中，S302具体可以为：将第一激活量及网络权值中的各标量数值分别编码为表征全局动态范围的参数值与指定位宽的整型定点值的乘积。

具体的编码方式可以是将第一激活量和网络权值中的各标量数值编码为表征全局动态范围的参数值sp与指定位宽的整型定点值ip的乘积，其中，sp＝2 ^E，E是位宽为EB的有符号二进制数，EB为设定的位宽，ip是位宽为IB的有符号二进制数，IB是根据原浮点数据的大小设定的位宽。整型定点值ip及参数值sp的计算方式为：

其中，s为二进制数x的符号位，取值为0或1，x _i为二进制数x第i位数值，取值为0或1。

在本申请实施例的一种实现方式中，若网络层为卷积层，则网络权值的大小为C×R×R×N，对于每个大小为C×R×R的三维张量中的各标量数值，对应的参数值相同；若网络层为全连接层，则网络权值的大小为M×N，对于每个大小为1×N的列向量中的各标量数值，对应的参数值相同；第一激活量中的各标量数值对应的参数值相同。

W _i为神经网络模型第i层所对应的网络权值，网络层类型为卷积层或全连接层。如果第i层为卷积层，则W _i为大小为C×R×R×N的四维张量卷积核，对应的张量空间结构如图4所示，其中，C表示卷积核输入通道方向维度大小，R表示卷积核空间维度大小，N表示卷积核输出通道方向维度大小。对每个大小为C×R×R的三维张量W _i ^p内的每个标量数值w，可以表示为：

w＝ip*sp (3)

其中，每个W _i ^p三维张量共享一个sp，每个标量数值w对应一个整型定点值ip，其中，1≤p≤N。大小为C×R×R的三维张量内每个标量数值的编码方式如图5所示，一个三维张量对应一个ip(如图5中的ip1、ip2、ip3)，所有的三维张量共享一个sp。其中，ip和sp的计算方式如公式(1)和(2)，这里不再赘述。

同理，如果第i层为全连接层，则W _i为大小为M×N的二维矩阵，对应的张量空间结构如图6所示，该矩阵可以划分为如下结构，把大小为M×N的二维矩阵切分为M个大小为1×N的列向量组成。对每个大小为1×N的列向量W _i ^q内的每个标量数值w用上述公式(3)表示，其中，1≤q≤M。每个W _i ^q列向量共享一个sp，每个标量数值w对应一个整型定点值ip。大小为1×N的列向量内每个标量数值的编码方式如图7所示。其中，ip和sp的计算方式如公式(1)和(2)，这里不再赘述。

Y _i和dY _i为神经网络模型第i层所对应的激活量及激活量梯度，是大小为C×H×W的三维张量，对该三维张量Y _i或者dY _i内的每个标量数值y或者dy，可以表示为：

y＝ip*sp (4)

dy＝ip*sp (5)

其中，每个三维张量Y _i或者dY _i共享一个sp，每个标量数值y或者dy对应一个整型定点值ip。激活量和激活量梯度三维张量内每个标量数值的编码方式如图8所示，一个三维张量对应一个ip(如图8中的ip1、ip2、ip3)，所有的三维张量共享一个sp。其中，ip和sp的计算方式如公式(1)和(2)，这里不再赘述。

S303，根据编码后的第一激活量及网络权值，计算网络层输出的第二激活量。

如上述，对第一激活量和网络权值中的各标量数值均进行了整型定点编码，编码后的数值为整型定点数值，从而使得前向运算和反向运算时，所涉及到的运算资源开销最大操作如卷积运算、矩阵乘法运算从浮点运算转变为了整型定点运算，大幅提升了神经网络在硬件平台上的训练效率。

具体的，在对神经网络模型进行训练的过程中，对于神经网络模型中的任一网络层，获取待输入该网络层的第一激活量(对于神经网络模型中的第一层网络层来讲，第一激活量即为输入神经网络模型的训练样本；对于神经网络模型中的其他网络层来讲，第一激活量即为该网络层的输入)及该网络层的网络权值；对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据；将编码后的第一激活量输入该网络层，由该网络层利用编码后的网络权值对编码后的第一激活量进行卷积运算，得到该网络层输出的第二激活量。如果该网络层不是最后一个网络层，则该第二激活量就作为待输入下一网络层的第一激活量。

在本申请实施例的一种实现方式中，S102具体可以通过如下步骤实现：

第一步，将训练样本输入神经网络模型，按照神经网络模型中各网络层从前到后的顺序，对训练样本进行前向运算，得到神经网络模型的前向运算结果，其中，在进行前向运算时，针对各网络层，分别对输入该网络层的第一激活量及该网络层的网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，并根据编码后的各网络层的第一激活量及网络权值，计算该网络层输出的第二激活量，将第二激活量作为输入下一个网络层的第一激活量进行计算，直至将最后一个网络层输出的第二激活量确定为前向运算结果。

第二步，将前向运算结果与预设的标称值进行比较，得到损失值。

第三步，将损失值输入神经网络模型，按照神经网络模型中各网络层从后到前的顺序，对损失值进行反向运算，得到神经网络模型中各网络层的权值梯度，其中，在进行反向运算时，针对各网络层，分别对输入该网络层的第一激活量、第一激活量梯度及该网络层的网络权值进行整型定点编码，将第一激活量、第一激活量梯度及网络权值编码为具有指定位宽的整型定点数据，并根据编码后的第一激活量、第一激活量梯度及网络权值，计算该网络层输出的第二激活量梯度及权值梯度，将第二激活量梯度作为输入下一个网络层的第一激活量梯度进行计算，直至计算出所有网络层的权值梯度。

第四步，根据各网络层的权值梯度，调整各网络层的网络权值。

上述第一步至第四步的过程即为BP算法的运算过程，通过不断的循环执行这四个步骤，实现神经网络模型的训练。前向运算过程为通过第一激活量与网络权值的相乘Y _i＝W _i*Y _i-1计算第二激活量Y _i，反向运算过程为通过第一激活量梯度与网络权值的相乘dY _i-1＝dY _i*W _i计算第二激活量梯度dY _i-1，以及通过第一激活量梯度与第一激活量相乘dW _i＝dY _i*Y _i-1计算权值梯度dW _i，通过上述整型定点编码，上述浮点运算变为整型定点运算：

f ₃₂(Y _k+1)＝f ₃₂(Y _k)*f ₃₂(W _k)→int _YB(Y _k+1)＝int _YB(Y _k)*int _WB(W _k) (6)

f ₃₂(dY _k-1)＝f ₃₂(dY _k)*f ₃₂(W _k)→int _dYB(dY _k-1)＝int _dYB(dY _k)*int _WB(W _k) (7)

f ₃₂(dW _k)＝f ₃₂(dY _k)*f ₃₂(Y _k-1)→int _dWB(dW _k)＝int _dYB(dY _k)*int _YB(Y _k-1) (8)

其中，YB、WB、dYB、dWB为整型位宽取值，f ₃₂()及int()表示32位浮点格式及整型定点格式。

在本申请实施例的一种实现方式中，上述第四步具体可以通过如下步骤实现：对各网络层的权值梯度进行整型定点编码，将各网络层的权值梯度编码为具有指定位宽的整型定点数据；根据编码后的各网络层的权值梯度及编码后的各网络层的网络权值，利用预设的优化算法，计算调整后各网络层的网络权值。

在计算各网络层的权值梯度之后，可以对权值梯度进行编码，具体的编码过程可以参考上述对网络权值进行编码的过程，这里不再赘述。在编码后，需要基于权值梯度对网络权值进行调整，调整的过程主要是进行矩阵加法，具体采用SGD(Stochastic Gradient Descent，随机梯度下降)等优化算法，可以将网络权值从浮点格式转换为整型定点格式。以SGD优化算法为例，网络权值的转化如公式(9)至(11)所示。

f ₃₂(dW)＝f ₃₂(dW)+f ₃₂(λ _w)·f ₃₂(W)→

int _dWB(dW)＝int _dWB(dW)+int _λB(λ _w)·int _WB(W) (9)

f ₃₂(W _old)＝f ₃₂(m)·f ₃₂(dW _old)+f ₃₂(η)·f ₃₂(dW)→

int _WB(W _old)＝int _mB(m)·int _dWB(dW _old)+int _ηB(η)·int _dWB(dW) (10)

f ₃₂(W)＝f ₃₂(W)+f ₃₂(W _old)→int _WB(W)＝int _WB(W)+int _WB(W _old) (11)

其中，dW为当前时刻该网络层的权值梯度，dW _old为上一时刻该网络层的权值梯度，W为当前时刻该网络层的网络权值，λ _w、η和m为训练超参(可以是设定的)。

在本申请实施例的一种实现方式中，在执行S303之后，本申请实施例所提供的神经网络模型训练方法还可以执行：对第二激活量进行整型定点编码，将第二激活量编码为具有指定位宽的整型定点数据。

在每个网络层的运算之后，得到的整型定点数据的位宽一般会变长，在输入到后续的网络层进行运算时，可能会因为较长的位宽导致运算效率降低，为了保证运算效率，可以将计算的第二激活量再进行一次整型定点编码，目的是降低第二激活量的位宽，使得第二激活量的位宽能够满足下一个网络层的计算要求。

应用本申请实施例，获取训练样本，利用训练样本，对神经网络模型进行训练。在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行：获取输入该网络层的第一激活量及网络层的网络权值，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，在保证神经网络模型收敛的精度下，可以大幅地降低运行神经网络模型需要的硬件资源开销。

为了便于理解，下面结合从图像中进行目标识别的具体场景，对本申请实施例的神经网络模型训练方法进行介绍。

首先，建立初始的目标识别模型，例如卷积神经网络模型，该目标识别模型包括三个卷积层和一个全连接层，每个网络层都设置有初始的网络权值。

然后，获取大量的样本图像，样本图像中标记有目标信息，任意读取出一个样本图像，得到该样本图像中各像素点的像素值(为单精度浮点数据)。将该样本图像输入该神经网络模型，得到模型输出结果。具体包括如下步骤：

A、将第一层卷积层作为当前网络层，将该样本图像中各像素点的像素值作为第一层卷积层的第一激活量；

B、对第一激活量进行整型定点编码，将第一激活量编码为具有指定位宽的整型定点数据；并且获取当前层的网络权值，对当前网络层的网络权值进行整型定点编码，将当前网络层的网络权值编码为具有指定位宽的整型定点数据；将编码后的第一激活量输入当前网络层，当前网络层利用编码后的网络权值对编码后的第一激活量进行当前层卷积运算，得到当前网络层输出的第二激活量；

C、将当前层输出的第二激活量，作为下一网络层的第一激活量，返回执行步骤B；直到得到最后一个网络层，即全连接层输出第二激活量，将该全连接层输出的第二激活量作为该目标识别模型的输出结果。

然后，经过损失函数将该目标识别模型的输出与标记的目标信息进行比较，得到损失值，再按照上述过程的反向运算过程，从后到前依次进行卷积运算和矩阵相乘运算，得到每个网络层对应的权值梯度，根据权值梯度对网络权值进行调整。经过不断的迭代过程，实现对目标识别模型的训练。

上述神经网络模型训练方法主要适用于资源受限的边缘设备，例如相机，针对于相机，相机的智能推理功能主要包括目标检测、识别等，下面以目标检测为例，对相机上部署的目标检测模型的训练方法进行介绍，如图9所示，主要包括如下步骤：

S901，开启目标检测功能。

相机可以根据用户的实际需求，在需要进行目标检测时，基于用户的选择结果，开启目标检测功能。

S902，判断是否启动模型在线训练功能，若是则执行S903，否则等待启动模型在线训练功能。

在使用目标检测模型进行目标检测之前，需要对目标检测模型进行训练，是否进行在线训练可以由用户选择，通常情况下，只有在启动模型在线训练功能后，相机才会按照图1所示实施例的步骤，对目标检测模型进行训练。

S903，利用获取的具有指定目标的训练样本，对目标检测模型进行训练。

在对目标检测模型进行训练时，输入目标检测模型的训练样本为包含指定目标的样本图像，这样，训练出来的目标检测模型可以检测出指定目标。具体对目标检测模型进行训练的方式与图3所示实施例中训练神经网络模型的方式相同，这里不再赘述。

由于相机采用图3所示实施例中的训练方式对目标检测模型进行训练，训练过程中对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低相机的硬件资源开销。在相机上进行目标检测模型的在线训练，使相机能够具备场景自适应功能。

相应于上述方法实施例，本申请实施例提供了一种神经网络模型训练装置，如图10所示，该装置可以包括：

获取模块1010，用于获取训练样本；

训练模块1020，用于利用训练样本，对神经网络模型进行训练，其中，训练模块1020在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行如下步骤：获取输入网络层的第一激活量及网络层的网络权值；对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据；根据编码后的第一激活量及网络权值，计算网络层输出的第二激活量。

在本申请实施例的一种实现方式中，该装置应用于相机；训练样本为具有指定目标的训练样本；神经网络模型为用于检测指定目标的目标检测模型；

该装置还可以包括：

开启模块，用于开启目标检测功能；

判断模块，用于判断是否启动模型在线训练功能；

训练模块1020，具体可以用于：若判断模块的判断结果为启动模型在线训练功能，则利用具有指定目标的训练样本，对目标检测模型进行训练。

在本申请实施例的一种实现方式中，训练模块1020，具体可以用于：将训练样本输入神经网络模型，按照神经网络模型中各网络层从前到后的顺序，对训练样本进行前向运算，得到神经网络模型的前向运算结果，其中，在进行前向运算时，针对各网络层，分别对输入该网络层的第一激活量及该网络层的网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，并根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量，将第二激活量作为输入下一个网络层的第一激活量进行计算，直至将最后一个网络层输出的第二激活量确定为前向运算结果；将前向运算结果与预设的标称值进行比较，得到损失值；将损失值输入神经网络模型，按照神经网络模型中各网络层从后到前的顺序，对损失值进行反向运算，得到神经网络模型中各网络层的权值梯度，其中，在进行反向运算时，针对各网络层，分别对输入该网络层的第一激活量、第一激活量梯度及该网络层的网络权值进行整型定点编码，将第一激活量、第一激活量梯度及网络权值编码为具有指定位宽的整型定点数据，并根据编码后的第一激活量、第一激活量梯度及网络权值，计算该网络层输出的第二激活量梯度及权值梯度，将第二激活量梯度作为输入下一个网络层的第一激活量梯度进行计算，直至计算出所有网络层的权值梯度；根据各网络层的权值梯度，调整各网络层的网络权值。

在本申请实施例的一种实现方式中，训练模块1020，在用于根据各网络层的权值梯度，调整各网络层的网络权值时，具体可以用于：对各网络层的权值梯度进行整型定点编码，将各网络层的权值梯度编码为具有指定位宽的整型定点数据；根据编码后的各网络层的权值梯度及编码后的各网络层的网络权值，利用预设的优化算法，计算调整后各网络层的网络权值。

在本申请实施例的一种实现方式中，训练模块1020，还可以用于：对第二激活量进行整型定点编码，将第二激活量编码为具有指定位宽的整型定点数据。

在本申请实施例的一种实现方式中，训练模块1020，在用于对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据时，具体可以用于：将第一激活量及网络权值中的各标量数值分别编码为表征全局动态范围的参数值与指定位宽的整型定点值的乘积。

应用本申请实施例，获取训练样本，利用训练样本，对神经网络模型进行训练。在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行：获取输入该网络层的第一激活量及网络层的网络权值，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低运行神经网络模型需要的硬件资源开销。

本申请实施例提供了一种计算机设备，如图11所示，可以包括处理器1101和机器可读存储介质1102，机器可读存储介质1102存储有能够被处理器1101执行的机器可执行指令，处理器1101被机器可执行指令促使：实现如上述神经网络模型训练方法的步骤。

上述机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，机器可读存储介质还可以是至少一个位于远离上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

机器可读存储介质1102与处理器1101之间可以通过有线连接或者无线连接的方式进行数据传输，并且计算机设备可以通过有线通信接口或者无线通信接口与其他的设备进行通信。图11所示的仅为处理器1101与机器可读存储介质1102之间通过总线进行数据传输的示例，不作为具体连接方式的限定。

本实施例中，处理器1101通过读取机器可读存储介质1102中存储的机器可执行指令，并通过运行该机器可执行指令，能够实现：获取训练样本，利用训练样本，对神经网络模型进行训练。在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行：获取输入该网络层的第一激活量及网络层的网络权值，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低运行神经网络模型需要的硬件资源开销。

本申请实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，实现如上述神经网络模型训练方法的步骤。

本实施例中，机器可读存储介质存储有在运行时执行本申请实施例所提供的神经网络模型训练方法的机器可执行指令，因此能够实现：获取训练样本，利用训练样本，对神经网络模型进行训练。在对神经网络模型进行训练时，针对神经网络模型中的各网络层，分别执行：获取输入该网络层的第一激活量及网络层的网络权值，对第一激活量及网络权值进行整型定点编码，将第一激活量及网络权值编码为具有指定位宽的整型定点数据，根据编码后的第一激活量及网络权值，计算该网络层输出的第二激活量。在进行神经网络模型训练时，对输入每个网络层的第一激活量和每个网络层的网络权值进行整型定点编码，编码后的第一激活量和网络权值为具有指定位宽的整型定点数据，则在进行运算时，所涉及到的矩阵乘法、矩阵加法等运算都采用整型定点格式，整型定点数据的位宽明显少于单精度浮点数据的位宽，因此，可以大幅地降低运行神经网络模型需要的硬件资源开销。

本申请实施例还提供一种计算机程序产品，用于在运行时执行上述神经网络模型训练方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD(Digital Versatile Disc，数字多功能光盘))、或者半导体介质(例如SSD(Solid State Disk，固态硬盘))等。

对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

一种神经网络模型训练方法，其特征在于，所述方法包括：

获取训练样本；

利用所述训练样本，对神经网络模型进行训练，其中，在对所述神经网络模型进行训练时，针对所述神经网络模型中的各网络层，分别执行如下步骤：

获取输入所述网络层的第一激活量及所述网络层的网络权值；

对所述第一激活量及所述网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据；

根据编码后的所述第一激活量及所述网络权值，计算所述网络层输出的第二激活量。
根据权利要求1所述的方法，其特征在于，所述方法应用于相机；所述训练样本为具有指定目标的训练样本；所述神经网络模型为用于检测所述指定目标的目标检测模型；

在所述利用所述训练样本，对神经网络模型进行训练之前，所述方法还包括：

开启目标检测功能；

判断是否启动模型在线训练功能；

所述利用所述训练样本，对神经网络模型进行训练，包括：

若启动所述模型在线训练功能，则利用所述具有指定目标的训练样本，对所述目标检测模型进行训练。
根据权利要求1所述的方法，其特征在于，所述利用所述训练样本，对神经网络模型进行训练，包括：

将所述训练样本输入神经网络模型，按照所述神经网络模型中各网络层从前到后的顺序，对所述训练样本进行前向运算，得到所述神经网络模型的前向运算结果，其中，在进行前向运算时，针对各网络层，分别对输入该网络层的第一激活量及该网络层的网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据，并根据编码后的所述第一激活量及所述网络权值，计算该网络层输出的第二激活量，将所述第二激活量作为输入下一个网络层的第一激活量进行计算，直至将最后一个网络层输出的第二激活量确定为前向运算结果；

将所述前向运算结果与预设的标称值进行比较，得到损失值；

将所述损失值输入所述神经网络模型，按照所述神经网络模型中各网络层从后到前的顺序，对所述损失值进行反向运算，得到所述神经网络模型中各网络层的权值梯度，其中，在进行反向运算时，针对各网络层，分别对输入该网络层的第一激活量、第一激活量梯度及该网络层的网络权值进行整型定点编码，将所述第一激活量、所述第一激活量梯度及所述网络权值编码为具有指定位宽的整型定点数据，并根据编码后的所述第一激活量、所述第一激活量梯度及所述网络权值，计算该网络层输出的第二激活量梯度及权值梯度，将所述第二激活量梯度作为输入下一个网络层的第一激活量梯度进行计算，直至计算出所有网络层的权值梯度；

根据所述各网络层的权值梯度，调整所述各网络层的网络权值。
根据权利要求3所述的方法，其特征在于，所述根据所述各网络层的权值梯度，调整所述各网络层的网络权值，包括：

对所述各网络层的权值梯度进行整型定点编码，将所述各网络层的权值梯度编码为具有指定位宽的整型定点数据；

根据编码后的所述各网络层的权值梯度及编码后的所述各网络层的网络权值，利用预设的优化算法，计算调整后所述各网络层的网络权值。
根据权利要求1所述的方法，其特征在于，在所述根据编码后的所述第一激活量及所述网络权值，计算所述网络层输出的第二激活量之后，所述方法还包括：

对所述第二激活量进行整型定点编码，将所述第二激活量编码为具有指定位宽的整型定点数据。
根据权利要求1所述的方法，其特征在于，所述对所述第一激活量及所述网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据，包括：

将所述第一激活量及所述网络权值中的各标量数值分别编码为表征全局动态范围的参数值与指定位宽的整型定点值的乘积。
根据权利要求6所述的方法，其特征在于，若所述网络层为卷积层，则所述网络权值的大小为C×R×R×N，对于每个大小为C×R×R的三维张量中的各标量数值，对应的所述参数值相同；

若所述网络层为全连接层，则所述网络权值的大小为M×N，对于每个大小为1×N的列向量中的各标量数值，对应的所述参数值相同；

所述第一激活量中的各标量数值对应的所述参数值相同。
一种神经网络模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练样本；

训练模块，用于利用所述训练样本，对神经网络模型进行训练，其中，所述训练模块在对所述神经网络模型进行训练时，针对所述神经网络模型中的各网络层，分别执行如下步骤：

获取输入所述网络层的第一激活量及所述网络层的网络权值；

对所述第一激活量及所述网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据；

根据编码后的所述第一激活量及所述网络权值，计算所述网络层输出的第二激活量。
根据权利要求8所述的装置，其特征在于，所述装置应用于相机；所述训练样本为具有指定目标的训练样本；所述神经网络模型为用于检测所述指定目标的目标检测模型；

所述装置还包括：

开启模块，用于开启目标检测功能；

判断模块，用于判断是否启动模型在线训练功能；

所述训练模块，具体用于：

若所述判断模块的判断结果为启动所述模型在线训练功能，则利用所述具有指定目标的训练样本，对所述目标检测模型进行训练。
根据权利要求8所述的装置，其特征在于，所述训练模块，具体用于：

将所述训练样本输入神经网络模型，按照所述神经网络模型中各网络层从前到后的顺序，对所述训练样本进行前向运算，得到所述神经网络模型的前向运算结果，其中，在进行前向运算时，针对各网络层，分别对输入该网络层的第一激活量及该网络层的网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据，并根据编码后的所述第一激活量及所述网络权值，计算该网络层输出的第二激活量，将所述第二激活量作为输入下一个网络层的第一激活量进行计算，直至将最后一个网络层输出的第二激活量确定为前向运算结果；

将所述前向运算结果与预设的标称值进行比较，得到损失值；

将所述损失值输入所述神经网络模型，按照所述神经网络模型中各网络层从后到前的顺序，对所述损失值进行反向运算，得到所述神经网络模型中各网络层的权值梯度，其中，在进行反向运算时，针对各网络层，分别对输入该网络层的第一激活量、第一激活量梯度及该网络层的网络权值进行整型定点编码，将所述第一激活量、所述第一激活量梯度及所述网络权值编码为具有指定位宽的整型定点数据，并根据编码后的所述第一激活量、所述第一激活量梯度及所述网络权值，计算该网络层输出的第二激活量梯度及权值梯度，将所述第二激活量梯度作为输入下一个网络层的第一激活量梯度进行计算，直至计算出所有网络层的权值梯度；

根据所述各网络层的权值梯度，调整所述各网络层的网络权值。
根据权利要求10所述的装置，其特征在于，所述训练模块，在用于所述根据所述各网络层的权值梯度，调整所述各网络层的网络权值时，具体用于：

对所述各网络层的权值梯度进行整型定点编码，将所述各网络层的权值梯度编码为具有指定位宽的整型定点数据；

根据编码后的所述各网络层的权值梯度及编码后的所述各网络层的网络权值，利用预设的优化算法，计算调整后所述各网络层的网络权值。
根据权利要求8所述的装置，其特征在于，所述训练模块，还用于：

对所述第二激活量进行整型定点编码，将所述第二激活量编码为具有指定位宽的整型定点数据。
根据权利要求8所述的装置，其特征在于，所述训练模块，在用于所述对所述第一激活量及所述网络权值进行整型定点编码，将所述第一激活量及所述网络权值编码为具有指定位宽的整型定点数据时，具体用于：

将所述第一激活量及所述网络权值中的各标量数值分别编码为表征全局动态范围的参数值与指定位宽的整型定点值的乘积。
根据权利要求13所述的装置，其特征在于，若所述网络层为卷积层，则所述网络权值的大小为C×R×R×N，对于每个大小为C×R×R的三维张量中的各标量数值，对应的所述参数值相同；

若所述网络层为全连接层，则所述网络权值的大小为M×N，对于每个大小为1×N的列向量中的各标量数值，对应的所述参数值相同；

所述第一激活量中的各标量数值对应的所述参数值相同。
一种计算机设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1至7中任意一项所述的方法。
一种机器可读存储介质，其特征在于，所述机器可读存储介质内存储有机器可执行指令，在被处理器调用和执行时，实现权利要求1至7中任意一项所述的方法。
一种计算机程序产品，其特征在于，用于在运行时执行：权利要求1至7中任意一项所述的方法。