WO2021128293A1

WO2021128293A1 - 模型训练方法、装置、存储介质和程序产品

Info

Publication number: WO2021128293A1
Application number: PCT/CN2019/129265
Authority: WO
Inventors: 李慧霞; 纪荣嵘; 吕宏亮; 杨帆
Original assignee: 华为技术有限公司
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-07-01
Also published as: CN114730367A

Abstract

本申请公开了一种模型训练方法、装置、存储介质和程序产品，属于数据处理技术领域。该方法包括：使用训练样本对神经网络模型进行多次迭代训练。其中，该多次迭代训练中的一次迭代训练，包括：在前向传播过程中，根据神经网络模型中的权值和网络层当前的截断值对样本数据进行处理，得到输出数据；在反向传播过程中，根据该输出数据与样本标记之间的损失值，调整神经网络模型中的权值，以及根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值。本申请中神经网络模型中的截断值是通过训练得到的，即可以在模型训练过程中自适应地调整对激活值进行量化时的上下限，从而减小了量化误差，提高了神经网络模型的性能。

Description

模型训练方法、装置、存储介质和程序产品

技术领域

本申请涉及数据处理技术领域，特别涉及一种模型训练方法、装置、存储介质和程序产品。

背景技术

神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的网络系统，可以应用于图像分类、图像检测、单图超分辨率(single image super resolution，SISR)任务等场景中。神经网络模型的训练过程可以包括前向传播过程和反向传播过程。

在前向传播过程中，将样本数据输入到神经网络模型中，根据神经网络模型中的权值对该样本数据进行处理，得到输出数据。在反向传播过程中，根据该输出数据与样本标记之间的损失值，对神经网络模型中的权值进行调整。

神经网络模型的处理过程中的中间结果可以称为激活值。神经网络模型中的激活值一般均采用高精度数据格式。为了降低神经网络模型所占用的存储空间，以及降低神经网络模型在运算过程中对硬件带宽、缓存的占用，提升神经网络运行效率，往往会在前向传播过程中对激活值采用量化技术。

目前，在对神经网络模型中的激活值进行量化时，先在模型训练之前，为神经网络模型中的网络层设置一个固定的截断值，然后在模型训练过程中，根据该网络层的截断值对该网络层的激活值进行量化。然而，由于样本数据的不确定性会带来神经网络模型中的激活值的不确定，所以对激活值的量化可能会带来较大的量化误差，从而影响最终训练得到的神经网络模型的性能。

发明内容

本申请提供了一种模型训练方法、装置、存储介质和程序产品，可以解决相关技术中训练得到的神经网络模型的性能较差的问题。所述技术方案如下：

第一方面，提供了一种模型训练方法。在该方法中，使用训练样本对神经网络模型进行多次迭代训练。其中，多次迭代训练中的一次迭代训练的操作可以为：在前向传播过程中，根据神经网络模型中的权值和网络层当前的截断值对训练样本中的样本数据进行处理，得到输出数据，其中，该网络层的截断值用于对该网络层的激活值进行量化；在反向传播过程中，根据该输出数据与该训练样本中的样本标记之间的损失值，调整神经网络模型中的权值，以及根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值。

本申请中，神经网络模型中的截断值是通过训练得到的，即可以实现在模型训练过程中自适应地调整对激活值进行量化时的上下限，进而可以减小量化误差，提高神经网络模型的性能。

需要说明的是，训练样本可以预先进行设置，该训练样本可以包括样本数据和样本标记。例如，该训练样本可以包括图像(样本数据)和该图像的标记(样本标记)，该图像的标记可以是该图像中包含的对象的类型、身份等；或者，该训练样本可以包括低分辨率(low resolution，LR)图像(样本数据)和该LR图像对应的高分辨率(high resolution，HR)图像(样本标记)。

另外，该网络层可以包括m个部分，每个部分可以共享一个截断值，m为正整数。当m为1时，该网络层共享一个截断值，即该网络层中所有的激活值均根据这一个截断值进行量化；当m为大于或等于2的整数时，该网络层包括多个部分，每个部分共享一个截断值，即每个部分的激活值均根据对应的截断值进行量化。

在一种可行的实施方式中，该网络层包括m个部分是指：可以根据该网络层的输出神经元数量或输出通道数量将该网络层的输入定义为m个部分。具体来说，当该网络层具有m个输出神经元或m个输出通道时，可以将该网络层的输入划分为与该m个输出神经元或m个输出通道一一对应的m个部分。换句话说，该网络层的m个部分是与该网络层的m个输出神经元一一对应的m组输入神经元，或者，该网络层的m个部分是与该网络层的m个输出通道一一对应的m组输入通道。

其中，根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值的操作可以为：根据该损失值和该网络层的反量化值，确定第一调整度；根据该网络层当前的截断值与激活值之间的大小关系，确定第二调整度；将第一调整度与第二调整度相乘，得到目标调整度；将该网络层当前的截断值减去学习率与目标调整度之积，得到该网络层的调整后的截断值。

需要说明的是，根据该损失值调整该网络层的截断值的操作，关键在于求取该神经网络模型的损失函数关于该截断值的偏导数(本申请中称为目标调整度)。

本申请中是根据该损失值、该网络层当前的截断值和激活值，来求取该损失函数关于该截断值的偏导数。具体是将该损失函数关于该截断值的偏导数定义为：该损失函数关于该网络层的反量化值的偏导数(本申请中称为第一调整度)与该网络层的量化函数关于该网络层的截断值的偏导数(本申请中称为第二调整度)的乘积。

其中，在求取该量化函数关于截断值的偏导数时，本申请中实际上是将量化函数关于截断值的偏导数近似为截断函数关于截断值的偏导数。截断函数关于截断值的偏导数取决于该网络层当前的截断值与该网络层的激活值之间的大小关系。

具体地，根据该网络层当前的截断值与该网络层的激活值之间的大小关系，确定第二调整度的操作可以为：当该网络层的激活值小于或等于该网络层当前的截断值的相反数时，确定第二调整度为-1；当该网络层的激活值大于该网络层当前的截断值的相反数且小于该网络层当前的截断值时，确定第二调整度为0；当该网络层的激活值大于或等于该网络层当前的截断值时，确定第二调整度为1。

应理解，该实施方式也可以为当该网络层的激活值小于该网络层当前的截断值的相反数时，确定第二调整度为-1；当该网络层的激活值大于或等于该网络层当前的截断值的相反数且小于或等于该网络层当前的截断值时，确定第二调整度为0；当该网络层的激活值大于该网络层当前的截断值时，确定第二调整度为1。或者其他类似的条件分段方式，不再赘述。

进一步地，在根据该神经网络模型的损失值对该神经网络模型中的截断值进行调整之前，可以先对该神经网络模型中的截断值进行初始化。也即是，在使用训练样本对神经网络模型进行多次迭代训练之前，可以先对该神经网络模型中的截断值进行初始化。

具体地，对该神经网络模型中的截断值进行初始化的操作可以为：使用该训练样本对该神经网络模型进行t次迭代训练，然后根据该t次迭代训练中该网络层的m个部分的激活值，确定该网络层的初始截断值。其中，t可以预先进行设置，且t可以为正整数。

本申请中，是根据该神经网络模型中的激活值的统计特征来对截断值进行初始化，从而可以提高模型稳定性并加速收敛。

其中，根据该t次迭代训练中该网络层的m个部分的激活值，确定该网络层的初始截断值的操作可以为：在该t次迭代训练中的第1次迭代训练中，获取该网络层的m个部分中每个部分的激活值中的最大激活值，将获取到的m个最大激活值的平均值作为第1个截断值；在该t次迭代训练中的第i次迭代训练中，获取该网络层的m个部分中每个部分的激活值中的最大激活值，将获取到的m个最大激活值的平均值和第i-1个截断值进行加权平均，得到第i个截断值，i为大于或等于2且小于或等于t的整数；将第t个截断值作为该网络层的m个部分中每个部分对应的初始截断值。

第二方面，提供了一种模型训练装置，所述模型训练装置具有实现上述第一方面中模型训练方法行为的功能。所述模型训练装置包括至少一个模块，所述至少一个模块用于实现上述第一方面所提供的模型训练方法。

第三方面，提供了一种模型训练装置，所述模型训练装置的结构中包括处理器和存储器，所述存储器用于存储支持模型训练装置执行上述第一方面所提供的模型训练方法的程序，以及存储用于实现上述第一方面所述的模型训练方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述模型训练装置还可以包括通信总线，所述通信总线用于在所述处理器与所述存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的模型训练方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的模型训练方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本申请提供的技术方案至少可以带来以下有益效果：

本申请中的神经网络模型中的截断值是通过训练得到的，即可以实现在模型训练过程中自适应地调整对激活值进行量化时的上下限，从而可以减小量化误差，提高最终训练得到的神经网络模型的性能。

附图说明

图1是本申请实施例提供的一种计算机设备的结构示意图；

图2是本申请实施例提供的一种模型训练方法的流程图；

图3是本申请实施例提供的一种迭代训练操作的流程图；

图4是本申请实施例提供的一种模型训练装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

图1是本申请实施例提供的一种计算机设备的结构示意图。参见图1，该计算机设备包括至少一个处理器101、通信总线102、存储器103以及至少一个通信接口104。

处理器101可以是微处理器(包括中央处理器(central processing unit，CPU)等)、特定应用集成电路(application-specific integrated circuit，ASIC)，或者可以是一个或多个用于控制本申请方案程序执行的集成电路。

通信总线102可包括一通路，用于在上述组件之间传送信息。

存储器103可以是只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、电可擦可编程只读存储器(electrically erasable programmable read-Only memory，EEPROM)、光盘(包括只读光盘(compact disc read-only memory，CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器103可以是独立存在，并通过通信总线102与处理器101相连接。存储器103也可以和处理器101集成在一起。

通信接口104使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网、无线接入网(radio access network，RAN)、无线局域网(wireless local area network，WLAN)等。

在具体实现中，作为一种实施例，处理器101可以包括一个或多个CPU，如图1中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，如图1中所示的处理器101和处理器105。这些处理器中的每一个可以是一个单核处理器，也可以是一个多核处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备106和输入设备107。输出设备106和处理器101通信，可以以多种方式来显示信息。例如，输出设备106可以是液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备107和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备107可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用计算机设备或一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑、移动手机、平板电脑、无线终端设备、通信设备或嵌入式设备，本申请实施例不限定计算机设备的类型。

其中，存储器103用于存储执行本申请方案的程序代码110，处理器101用于执行存储器103中存储的程序代码110。该计算机设备可以通过处理器101以及存储器103中的程序代码110，来实现下文图2实施例提供的模型训练方法。

图2是本申请实施例提供的一种模型训练方法的流程图。参见图2，该方法包括：

步骤201：使用训练样本对神经网络模型进行多次迭代训练。

需要说明的是，训练样本可以预先进行设置，该训练样本可以包括样本数据和样本标记。

另外，神经网络模型可以是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的网络系统。该神经网络模型可以包括多个网络层，该多个网络层中包括输入层、隐含层和输出层。输入层负责接收样本数据；输出层负责输出处理后的数据；隐含层位于输入层与输出层之间，负责处理数据，隐含层对于外部是不可见的。例如，该神经网络模型可以为深度神经网络等，且可以是深度神经网络中的卷积神经网络等。

值得说明的是，本申请实施例训练得到的神经网络模型可以应用于各种场景中，如可以应用于图像分类、图像检测、SISR任务等场景中。SISR任务的目标是从LR图像中重构对应的HR图像。

当应用于图像分类场景或图像检测场景中时，该训练样本可以包括图像(样本数据)和该图像的标记(样本标记)，该图像的标记可以是该图像中包含的对象的类型、身份等。当应用于SISR任务场景中时，该训练样本可以包括LR图像(样本数据)和该LR图像对应的HR图像(样本标记)。

其中，该多次迭代训练中的每次迭代训练至少可以包括前向传播过程，在前向传播过程中可以对样本数据进行处理，得到输出数据。在完成前向传播过程后，如果神经网络模型本次的输出数据与样本标记之间的损失值不超过规定范围，则结束迭代训练，获得满足要求的神经网络模型；如果神经网络模型本次的输出数据与样本标记之间的损失值超过规定范围，则继续进行反向传播过程来调整神经网络模型中的参数，在完成反向传播过程后，可以继续下一次迭代训练。

具体地，参见图3，该多次迭代训练中的一次迭代训练的操作可以包括如下步骤2011-步骤2014。

步骤2011：在前向传播过程中，根据神经网络模型中的权值和网络层当前的截断值对该训练样本中的样本数据进行处理，得到输出数据。

需要说明的是，该网络层的截断值用于对该网络层的激活值进行量化。

在前向传播过程中，神经网络模型的处理过程中的中间结果可以称为激活值。具体来讲，在前向传播过程中，对于输入层，可以将样本数据直接作为输入层的激活值；对于除输出层之外的任一网络层，可以对这一网络层的激活值进行处理，得到下一网络层的激活值。

神经网络模型中的激活值一般均采用高精度数据格式(如FP32等，FP32是IEEE 754定义的一种数据表示格式标准)。为了降低神经网络模型所占用的存储空间，以及降低神经网络模型在运算过程中对硬件带宽、缓存的占用，提升神经网络运行效率，往往会在前向传播过程中对激活值采用量化技术。

为了获得良好的神经网络加速性能，一种可能的量化技术是采用截断值的对称线性量化，具体可以根据如下量化函数实现：

量化函数：

其中，x是激活值；n是量化位数，可以预先设置；f(x)是截断函数，f(x)＝max(min(x,a),-a)，表示将x限制到[-a,a]内，即当x大于a时，将x截断为a，当x小于-a时，将x截断为-a；a是截断值，a是一个正数；s(n)是量化单位，

或

<>表示四舍五入到最近的整数。

值得注意的是，在本申请实施例中，在前向传播过程中对激活值采用量化技术，具体可以是：对于该神经网络模型中除输出层之外的一个网络层，根据该网络层当前的截断值对该网络层的激活值进行量化，得到该网络层的量化值；对该网络层的量化值进行处理，得到处理后的量化值；对处理后的量化值进行反量化，得到该网络层的反量化值来作为下一个网络层的激活值。

需要说明的是，该网络层可以包括m个部分，每个部分可以共享一个截断值，m为正整数。当m为1时，该网络层共享一个截断值，即该网络层中所有的激活值均根据这一个截断值进行量化；当m为大于或等于2的整数时，该网络层包括多个部分，每个部分共享一个截断值，即每个部分的激活值均根据对应的截断值进行量化。

在一种可行的实施方式中，该网络层包括m个部分是指：可以根据该网络层的输出神经元数量或输出通道数量将该网络层的输入定义为m个部分。具体来说，当该网络层具有m个输出神经元或m个输出通道时，可以将该网络层的输入划分为与该m个输出神经元或m个输出通道一一对应的m个部分。换句话说，该网络层的m个部分是与该网络层的m个输出神经元一一对应的m组输入神经元，或者，该网络层的m个部分是与该网络层的m个输出通道一一对应的m组输入通道。其中，每组输入神经元可以包括一个或多个输入神经元，每组输入通道可以包括一个或多个输入通道。

其中，根据该网络层当前的截断值对该网络层的激活值进行量化，得到该网络层的量化值的操作可以根据该网络层的量化函数实现，该网络层的量化函数中的量化位数和量化单位已经预先设置。具体地，可以将该网络层当前的截断值和激活值均代入

中，得到该网络层的量化值。

其中，对该网络层的量化值进行处理，得到处理后的量化值的操作可以根据该网络层的类型的不同而有所不同，具体操作可以参考相关技术，本申请实施例对此不进行详细阐述。例如，当该网络层具有权值和激活函数时，可以先根据该网络层中的权值对该网络层的量化值进行处理，得到第一处理结果，再根据该网络层中的激活函数对第一处理结果进行处理，得到第二处理结果来作为处理后的量化值。

其中，对处理后的量化值进行反量化，得到该网络层的反量化值的操作可以根据该网络层的量化函数实现，该网络层的量化函数中的量化位数和量化单位已经预先设置。具体地，可以将处理后的量化值与s(n)相乘，得到该网络层的反量化值。

步骤2012：判断该输出数据与该训练样本中的样本标记之间的损失值是否超过规定范围。若否，则执行如下步骤2013；若是，则执行如下步骤2014。

步骤2013：结束迭代训练，获得满足要求的神经网络模型。

步骤2014：在反向传播过程中，根据该输出数据与该训练样本中的样本标记之间的损失值，调整该神经网络模型中的权值，以及根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值。

需要说明的是，在执行步骤2014之后，可以返回步骤2011来进行下一次迭代训练。

值得说明的是，现有技术中，在反向传播过程中，是保持神经网络模型中的截断值不变，仅对神经网络模型中的权值进行调整。而本申请实施例中，在反向传播过程中，在对神经网络模型中的权值进行调整的同时，还可以对神经网络模型中的截断值进行调整。如此，神经网络模型中的截断值是通过训练得到的，即可以实现在模型训练过程中自适应地调整对激活值进行量化时的上下限，进而可以减小量化误差，提高神经网络模型的性能。

需要说明的是，在本申请实施例中，神经网络模型中的权值和截断值都可以称为神经网络模型中的参数。也即是，本申请实施例实际上是根据该神经网络模型的输出数据与该训练样本的样本标记之间的损失值，来对神经网络模型中的参数进行调整。

另外，该输出数据与该训练样本的样本标记之间的损失值可以通过该神经网络模型的损失函数得到。该损失函数可以是一般损失函数，如交叉熵损失函数、均方误差损失函数等。或者，该损失函数可以是正则化损失函数，该正则化损失函数是一般损失函数与正则函数之和。

其中，根据该输出数据与该训练样本中的样本标记之间的损失值，调整该神经网络模型中的权值的操作可以参考相关技术，本申请实施例对此不进行详细阐述。

例如，对于该神经网络模型中的任意一个权值，可以根据该损失值和这个权值，获取该神经网络模型的损失函数关于这个权值的偏导数；将这个权值减去学习率与这个权值的偏导数之积，得到调整后的权值。需要说明的是，该学习率可以预先进行设置。例如，该学习率可以为0.001、0.000001等。

其中，根据该损失值，调整该网络层的截断值的操作，关键在于求取该神经网络模型的损失函数关于该截断值的偏导数(本申请实施例中称为目标调整度)。

本申请实施例中是根据该损失值、该网络层当前的截断值和激活值，来求取该损失函数关于该截断值的偏导数。具体是将该损失函数关于该截断值的偏导数定义为：该损失函数关于该网络层的反量化值的偏导数(本申请实施例中称为第一调整度)与该网络层的量化函数关于该网络层的截断值的偏导数(本申请实施例中称为第二调整度)的乘积。

具体地，根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值的操作可以为：根据该损失值和该网络层的反量化值，确定第一调整度；根据该网络层当前的截断值与激活值之间的大小关系，确定第二调整度；将第一调整度与第二调整度相乘，得到目标调整度；将该网络层当前的截断值减去学习率与目标调整度之积，得到该网络层的调整后的截断值。

需要说明的是，该学习率可以预先进行设置，该学习率可以与调整神经网络模型中的权值时的学习率相同，也可以与调整神经网络模型中的权值时的学习率不同。例如，该学习率可以为0.001、0.000001等。

其中，本申请实施例中，求取该损失函数关于该网络层的反量化值的偏导数，即是根据该损失值和该网络层的反量化值确定第一调整度。换句话说，是根据该损失值和该网络层的反量化值，获取该损失函数关于该反量化值的偏导数来作为第一调整度。

值得注意的是，对于量化函数

而言，令

即

为对激活值进行截断后的结果。此时，可以将该量化函数重构为：

或者，

其中，在求取该量化函数关于截断值的偏导数时，即求取

时，可以令

不可导，但是可以通过straight-through estimator方法将其近似为1。因而

就可以近似为

此时实际上是将

关于a的偏导数作为x _q关于a的偏导数。

关于a的偏导数取决于a(该网络层当前的截断值)与x(该网络层的激活值)之间的大小关系。

也即是，本申请实施例中求取该量化函数关于截断值的偏导数，即是根据该网络层当前的截断值与激活值之间的大小关系，确定第二调整度。

具体地，当该网络层的激活值小于或等于该网络层当前的截断值的相反数时，确定第二调整度为-1；当该网络层的激活值大于该网络层当前的截断值的相反数且小于该网络层当前的截断值时，确定第二调整度为0；当该网络层的激活值大于或等于该网络层当前的截断值时，确定第二调整度为1。

值得注意的是，当该网络层包括m个部分，且每个部分共享一个截断值时，对于该m个部分中的任意一个部分，可以根据该损失值和这个部分的反量化值，确定这个部分对应的第一调整度；对于这个部分的所有激活值中的任意一个激活值，根据这个部分当前对应的截断值与这个激活值之间的大小关系，确定这个激活值对应的第二调整度；将这个部分的所有激活值对应的第二调整度的平均值作为这个部分对应的第二调整度；将这个部分对应的第一调整度与第二调整度的乘积作为这个部分对应的目标调整度；将这个部分当前对应的截断值减去学习率与这个部分对应的目标调整度之积，得到这个部分对应的调整后的截断值。

进一步地，在根据该神经网络模型的损失值对该神经网络模型中的截断值进行调整之前，可以先对该神经网络模型中的截断值进行初始化。也即是，在步骤201之前，可以先对该神经网络模型中的截断值进行初始化。

值得说明的是，本申请实施例中是根据该神经网络模型中的激活值的统计特征来对截断值进行初始化，从而可以提高模型稳定性并加速收敛。

其中，该t次迭代训练中的每次迭代训练的操作可以为：在前向传播过程中，根据该神经网络模型中的权值对该训练样本中的样本数据进行处理，得到输出数据；在反向传播过程中，根据该输出数据与该训练样本中的样本标记之间的损失值，调整该神经网络模型中的权值。

需要说明的是，可以预先设置该m个最大激活值的平均值的权重和第i-1个截断值的权重，这两个权重之和为1。例如，可以将第i-1个截断值的权重设置为0.9997。之后，将该m个最大激活值的平均值与其权重相乘，得到第一数值；将第i-1个截断值与其权重相乘，得到第二数值；将第一数值与第二数值相加，得到第i个截断值。

在本申请实施例中，使用训练样本对神经网络模型进行多次迭代训练。其中，对于该多次迭代训练中的一次迭代训练，在前向传播过程中，根据神经网络模型中的权值和网络层当前的截断值对训练样本中的样本数据进行处理，得到输出数据。在反向传播过程中，根据输出数据与训练样本中的样本标记之间的损失值，调整神经网络模型中的权值，以及根据该损失值、该网络层当前的截断值和激活值，调整该网络层的截断值。如此，神经网络模型中的截断值是通过训练得到的，即可以实现在模型训练过程中自适应地调整对激活值进行量化时的上下限，从而可以减小量化误差，提高最终训练得到的神经网络模型的性能。

值得说明的是，在通过上述模型训练方法完成模型训练后，可以对训练得到的神经网络模型进行应用，如可以使用该神经网络模型进行图像分类、图像检测、SISR任务等。其中，该神经网络模型中的权值和截断值均是训练得到的。

例如，在SISR场景下，可以将待重构的低分辨率图像输入该神经网络模型，获得对应的高分辨率图像。由于该神经网络模型中的截断值是通过训练得到的，所以该神经网络模型的量化误差较小、性能较好，从而通过该神经网络模型重构出的高分辨率图像的质量较高。

图4是本申请实施例提供的一种模型训练装置的结构示意图，该模型训练装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，该计算机设备可以为图1所示的计算机设备。参见图4，该装置包括：训练模块401。

第一训练模块401，用于执行上文图2实施例中的步骤201；

其中，第一训练模块401包括：

处理单元4011，用于执行上文图2实施例中的步骤2011；

调整单元4012，用于执行上文图2实施例中的步骤2014。

可选地，调整单元4012用于：

根据损失值和网络层的反量化值，确定第一调整度；

根据网络层当前的截断值与激活值之间的大小关系，确定第二调整度；

将第一调整度与第二调整度相乘，得到目标调整度；

将网络层当前的截断值减去学习率与目标调整度之积，得到网络层的调整后的截断值。

可选地，调整单元4012用于：

当网络层的激活值小于或等于网络层当前的截断值的相反数时，确定第二调整度为-1；

当网络层的激活值大于网络层当前的截断值的相反数且小于网络层当前的截断值时，确定第二调整度为0；

当网络层的激活值大于或等于网络层当前的截断值时，确定第二调整度为1。

可选地，该装置还包括：

第二训练模块，用于使用训练样本对神经网络模型进行t次迭代训练，t为正整数；

确定模块，用于根据t次迭代训练中网络层的m个部分的激活值，确定网络层的初始截断值，m为正整数。

可选地，网络层的m个部分是与网络层的m个输出神经元一一对应的m组输入神经元，或者，网络层的m个部分是与网络层的m个输出通道一一对应的m组输入通道。

可选地，样本数据为低分辨率图像，样本标记为低分辨率图像对应的高分辨率图像。

需要说明的是：上述实施例提供的模型训练装置在模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(Digital Versatile Disc，DVD))或半导体介质(例如：固态硬盘(Solid State Disk，SSD))等。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种模型训练方法，其特征在于，所述方法包括：

使用训练样本对神经网络模型进行多次迭代训练；

其中，所述多次迭代训练中的一次迭代训练，包括：

在前向传播过程中，根据所述神经网络模型中的权值和网络层当前的截断值对所述训练样本中的样本数据进行处理，得到输出数据，其中，所述网络层的截断值用于对所述网络层的激活值进行量化；

在反向传播过程中，根据所述输出数据与所述训练样本中的样本标记之间的损失值，调整所述神经网络模型中的权值，以及根据所述损失值、所述网络层当前的截断值和激活值，调整所述网络层的截断值。
如权利要求1所述的方法，其特征在于，所述根据所述损失值、所述网络层当前的截断值和激活值，调整所述网络层的截断值，包括：

根据所述损失值和所述网络层的反量化值，确定第一调整度；

根据所述网络层当前的截断值与激活值之间的大小关系，确定第二调整度；

将所述第一调整度与所述第二调整度相乘，得到目标调整度；

将所述网络层当前的截断值减去学习率与所述目标调整度之积，得到所述网络层的调整后的截断值。
如权利要求2所述的方法，其特征在于，所述根据所述网络层当前的截断值与激活值之间的大小关系，确定第二调整度，包括：

当所述网络层的激活值小于或等于所述网络层当前的截断值的相反数时，确定所述第二调整度为-1；

当所述网络层的激活值大于所述网络层当前的截断值的相反数且小于所述网络层当前的截断值时，确定所述第二调整度为0；

当所述网络层的激活值大于或等于所述网络层当前的截断值时，确定所述第二调整度为1。
如权利要求1所述的方法，其特征在于，所述使用训练样本对神经网络模型进行多次迭代训练之前，还包括；

使用所述训练样本对所述神经网络模型进行t次迭代训练，t为正整数；

根据所述t次迭代训练中所述网络层的m个部分的激活值，确定所述网络层的初始截断值，所述m为正整数。
如权利要求4所述的方法，其特征在于，所述网络层的m个部分是与所述网络层的m个输出神经元一一对应的m组输入神经元，或者，所述网络层的m个部分是与所述网络层的m个输出通道一一对应的m组输入通道。
如权利要求1-5任一所述的方法，其特征在于，所述样本数据为低分辨率图像，所述样本标记为所述低分辨率图像对应的高分辨率图像。
一种模型训练装置，其特征在于，所述装置包括：

第一训练模块，用于使用训练样本对神经网络模型进行多次迭代训练；

其中，所述第一训练模块包括：

处理单元，用于在前向传播过程中，根据所述神经网络模型中的权值和网络层当前的截断值对所述训练样本中的样本数据进行处理，得到输出数据，其中，所述网络层的截断值用于对所述网络层的激活值进行量化；

调整单元，用于在反向传播过程中，根据所述输出数据与所述训练样本中的样本标记之间的损失值，调整所述神经网络模型中的权值，以及根据所述损失值、所述网络层当前的截断值和激活值，调整所述网络层的截断值。
如权利要求7所述的装置，其特征在于，所述调整单元用于：

根据所述损失值和所述网络层的反量化值，确定第一调整度；

根据所述网络层当前的截断值与激活值之间的大小关系，确定第二调整度；

将所述第一调整度与所述第二调整度相乘，得到目标调整度；

将所述网络层当前的截断值减去学习率与所述目标调整度之积，得到所述网络层的调整后的截断值。
如权利要求8所述的装置，其特征在于，所述调整单元用于：

当所述网络层的激活值小于或等于所述网络层当前的截断值的相反数时，确定所述第二调整度为-1；

当所述网络层的激活值大于所述网络层当前的截断值的相反数且小于所述网络层当前的截断值时，确定所述第二调整度为0；

当所述网络层的激活值大于或等于所述网络层当前的截断值时，确定所述第二调整度为1。
如权利要求7所述的装置，其特征在于，所述装置还包括：

第二训练模块，用于使用所述训练样本对所述神经网络模型进行t次迭代训练，t为正整数；

确定模块，用于根据所述t次迭代训练中所述网络层的m个部分的激活值，确定所述网络层的初始截断值，所述m为正整数。
如权利要求10所述的装置，其特征在于，所述网络层的m个部分是与所述网络层的m个输出神经元一一对应的m组输入神经元，或者，所述网络层的m个部分是与所述网络层的m个输出通道一一对应的m组输入通道。
如权利要求7-11任一所述的装置，其特征在于，所述样本数据为低分辨率图像，所述样本标记为所述低分辨率图像对应的高分辨率图像。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。
一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的方法。