WO2022088063A1

WO2022088063A1 - 神经网络模型的量化方法和装置、数据处理的方法和装置

Info

Publication number: WO2022088063A1
Application number: PCT/CN2020/125370
Authority: WO
Inventors: 昌晶; 连朔; 孙方轩; 王晨曦; 周君
Original assignee: 华为技术有限公司
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-05
Also published as: CN114698395A

Abstract

一种神经网络模型量化方法与装置，以及数据处理方法与装置，属于人工智能领域。原始神经网络模型包括第一算子、第二算子和第一运算模块，第一运算模块用于对第一算子的输出和第二算子的输出进行运算，神经网络模型量化方法包括：根据第一算子的第一训练输入数据的范围和第二算子的第二训练输入数据的范围，确定数据量化参数；确定量化后的神经网络模型，量化后的神经网络模型利用数据量化参数分别对量化后的第一算子的第一输入数据、量化后的第二算子第二输入数据进行量化。量化后的第一算子的处理结果与量化后的第二算子的处理结果可以直接进行运算，在提高神经网络模型的数据处理精度的同时，提高了数据处理效率。

Description

神经网络模型的量化方法和装置、数据处理的方法和装置

技术领域

本申请涉及人工智能领域，更具体地，涉及一种神经网络模型的量化方法和装置、数据处理的方法和装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

神经网络模型应用广泛，通过对神经网络模型中的算子进行模型量化，即对算子的参数的量化和对输入数据的量化，可以将浮点数的运算转换为对定点数的运算，获得模型大小、推理速度和功耗等多方面的收益。根据算子的数据范围，确定算子的量化参数，能够提高量化后的算子的数据处理结果的精度。但是，在对量化后的多个算子的数据处理结果进行后续运算处理之前，需要对这些数据处理结果进行反量化，导致整体的处理性能较差。

发明内容

本申请提供一种神经网络模型量化方法和一种数据处理方法，能够简化神经网络模型的运算，提高神经网络模型的数据处理效率。

第一方面，提供一种神经网络模型量化方法，所述方法包括：获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据；根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述第二运算模块用于进行所述第一运算。

根据原始神经网络模型中第一算子和第二算子的输入数据的数值范围，确定数据量化参数，数据量化参数用于分别对量化后的神经网络模型中的第三算子和第四算子的输入数据进行量化。

量化后的神经网络模型能够采用相同的数据量化参数，对输入两个不同算子的数据进行量化，从而使得第三算子的处理结果与第四算子的处理结果对应的量化参数相同，可以直接对第三算子的处理结果与第四算子的处理结果进行第三运算，而无需在进行第三运算之前对第三算子的处理结果、第四算子的处理结果进行反量化等处理，简化了量化后的神经网络模型的运算，提高了神经网络模型的数据处理效率。

根据第一算子和第二算子分别处理的数据的数值范围，确定对第三算子和第四算子的输入数据进行量化的数据量化参数，提高了第三算子、第四算子的对量化后的数据的处理结果的精度，在提高神经网络模型的数据处理效率的同时，减小了量化神经网络模型对数据处理结果的准确性的影响。

结合第一方面，在一些可能的实现方式中，所述方法还包括：获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据；利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化；利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据；根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异；所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。

预设训练输出数据可以是人工设置的。预设训练输出数据也可以是原始神经网络模型对第一训练输入数据和第二训练输入数据进行处理得到的。例如，预设训练输出数据可以是运算模块的输出。

由于数据量化参数的调整方式是最小化所述量化后的神经网络模型对数据的实际训练输出数据与该数据对应的预设训练输出数据之间的差异，调整后的数据量化参数能够使得第三算子、第四算子的对量化后的数据进行处理的结果精度较高。在提高神经网络模型的数据处理效率的同时，减小了量化神经网络模型对数据处理结果的准确性的影响。

结合第一方面，在一些可能的实现方式中，所述方法还包括：根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数；利用所述算子量化参数对所述第一算子的参数进行量化，以得到所述第三算子的参数；利用所述算子量化参数对所述第二算子的参数进行量化，以得到所述第四算子的参数。

由于算子量化参数是根据第一算子的参数范围、第二算子的参数范围确定的，量化后的神经网络模型在提高数据处理效率的同时，减小了对数据处理结果的准确性和精度的影响。

结合第一方面，在一些可能的实现方式中，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；所述方法还包括：利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化；利用所述第三算子对量化后的第一训练输入数据进行处理，所述第三算子输出第一训练运算数据；利用所述第四算子对量化后的第二训练输入数据进行处理，所述第四算子输出第二训练运算数据；根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。

对第三算子和第四算子的输出采用相同的偏移参数进行数据压缩，可以提高神经网络模型数据处理效率。由于偏移参数是根据量化后的神经网络模型对训练输入数据处理得到的中间运算结果的有效位数确定的，在量化后的神经网络模型对数据进行处理时，利用偏移参数对中间运算结果进行压缩，可以减小了对最终数据处理结果的准确性和精度的影响。

第二方面，提供一种数据处理方法，所述方法包括：获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第二运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。

结合第二方面，在一些可能的实现方式中，所述数据量化参数是对初始数据量化参数进行调整得到的，所述调整使得根据实际训练输出数据与预设训练输出数据的差异最小化，所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的，所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据，所述实际训练输出数据是利用所述量化后的神经网络模型对所述第一训练输入数据和所述第二训练输入数据进行处理得到的，所述量化模块用于利用所述初始数据量化参数分别对所述第一训练输入数据、所述第二训练输入数据进行量化。

结合第二方面，在一些可能的实现方式中，所述第三算子的参数是利用算子量化参数对所述第一算子的参数进行量化得到的，所述第四算子的参数是利用所述算子量化参数对所述第二算子的参数进行量化得到的，所述算子量化参数是根据所述第一算子的参数范围、所述第二算子的参数范围确定的。

结合第二方面，在一些可能的实现方式中，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；所述偏移参数是根据第一训练运算数据的有效位数和第二训练运算数据的有效位数确定的，所述第一训练运算数据是利用所述第三算子对使用所述数据量化参数量化后的第一训练输入数据进行处理得到的，所述第二训练运算数据是利用所述第四算子对使用所述数据量化参数量化后的第二训练输入数据进行处理得到的。

第三方面，提供一种神经网络模型量化装置，所述装置包括：存储模块和处理模块，所述存储模块用于存储程序；当所述程序在所述处理模块中运行时，所述处理模块用于：获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据；根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述第二运算模块用于进行所述第一运算。

结合第三方面，在一些可能的实现方式中，所述处理模块还用于，获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据；所述处理模块还用于，利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化；所述处理模块还用于，利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据；所述处理模块还用于，根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异；所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。

结合第三方面，在一些可能的实现方式中，所述处理模块还用于，根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数；所述处理模块还用于，利用所述算子量化参数对所述第一算子的参数进行量化，以得到所述第三算子的参数；所述处理模块还用于，利用所述算子量化参数对所述第二算子的参数进行量化，以得到所述第四算子的参数。

结合第三方面，在一些可能的实现方式中，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；所述处理模块还用于，利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化；所述处理模块还用于，利用所述第三算子对量化后的第一训练输入数据进行处理，所述第三算子输出第一训练运算数据；所述处理模块还用于，利用所述第四算子对量化后的第二训练输入数据进行处理，所述第四算子输出第二训练运算数据；所述处理模块还用于，根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。

第四方面，提供一种数据处理装置，包括：存储模块和处理模块，所述存储模块用于存储程序；当所述程序在所述处理模块中运行时，所述处理模块用于：获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第二运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。

结合第四方面，在一些可能的实现方式中，所述数据量化参数是对初始数据量化参数进行调整得到的，所述调整使得根据实际训练输出数据与预设训练输出数据的差异最小化，所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的，所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据，所述实际训练输出数据是利用所述量化后的神经网络模型对所述第一训练输入数据和所述第二训练输入数据进行处理得到的，所述量化模块用于利用所述初始数据量化参数分别对所述第一训练输入数据、所述第二训练输入数据进行量化。

结合第四方面，在一些可能的实现方式中，所述第三算子的参数是利用算子量化参数对所述第一算子的参数进行量化得到的，所述第四算子的参数是利用所述算子量化参数对所述第二算子的参数进行量化得到的，所述算子量化参数是根据所述第一算子的参数范围、所述第二算子的参数范围确定的。

结合第四方面，在一些可能的实现方式中，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；所述偏移参数是根据第一训练运算数据的有效位数和第二训练运算数据的有效位数确定的，所述第一训练运算数据是利用所述第三算子对使用所述数据量化参数量化后的第一训练输入数据进行处理得到的，所述第二训练运算数据是利用所述第四算子对使用所述数据量化参数量化后的第二训练输入数据进行处理得到的。

第五方面，提供一种电子设备，包括存储器和处理器，所述存储器用于存储程序指令；当所述程序指令在所述处理器中执行时，所述处理器用于执行第一方面或第二方面所述的方法。

上述第三方面中的处理器既可以包括中央处理器(central processing unit，CPU)，也可以包括CPU与神经网络运算处理器的组合。

第六方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或第一方面中的任意一种实现方式中的方法。

第七方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第一方面中的任意一种实现方式中的方法。

第八方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或第一方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第一方面中的任意一种实现方式中的方法。

上述芯片具体可以是现场可编程门阵列(field－programmable gate array，FPGA)或者专用集成电路(application-specific integrated circuit，ASIC)。

附图说明

图1为本申请实施例提供的一种系统架构的结构示意图。

图2为本申请实施例提供的一种卷积神经网络的结构示意图。

图3为本申请实施例提供的另一种卷积神经网络的结构示意图。

图4为本申请实施例提供的一种芯片的硬件结构示意图。

图5为本申请实施例提供的一种系统架构的示意图。

图6是本申请实施例提供的一种神经网络模型量化装置的示意性结构图。

图7是本申请实施例提供的一种神经网络模型量化方法的示意性流程图。

图8是本申请实施例提供的另一种神经网络模型量化方法的示意性流程图。

图9是本申请实施例提供的一种数据处理系统的示意性结构图。

图10是本申请实施例提供的压缩前后的数据的示意图。

图11是本申请实施例提供的一种数据处理方法的示意性流程图。

图12是本申请实施例提供的另一种数据处理方法的示意性流程图。

图13是本申请实施例提供的一种处理结构识别方法的示意性流程图。

图14是本申请实施例提供的一种神经网络模型量化装置的示意性结构图。

图15是本申请实施例提供的一种数据处理装置的示意性结构图。

图16是本申请实施例的数据处理装置的硬件结构示意图。

图17是本申请实施例的神经网络模型量化装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取数据信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

(6)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

如图1所示，本申请实施例提供了一种系统架构100。在图1中，数据采集设备160用于采集训练数据。针对本申请实施例的数据处理方法来说，训练数据可以包括多个训练输入数据和每个训练输入数据对应的训练标识。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的训练输入数据进行处理，将输出的结果与该训练输入数据对应的训练标识进行对比，直到根据训练设备120输出的结果与该训练标识的差值小于一定的阈值，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的数据处理方法。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)AR/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图1中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理数据。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理数据)进行预处理，在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的数据的处理结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是本申请中的神经网络，具体的，本申请实施例使用神经网络可以为CNN，深度卷积神经网络(deep convolutional neural networks,DCNN)，循环神经网络(recurrent neural network，RNN)等等。

由于CNN是一种非常常见的神经网络，下面结合图2重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的数据作出响应。

本申请实施例的数据处理方法具体采用的神经网络的结构可以如图2所示。在图2中，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。其中，输入层210可以获取待处理数据，并将获取到的待处理数据交由卷积层/池化层220以及后面的神经网络层230进行处理，可以得到数据的处理结果。下面对图2中的CNN 200中内部的层结构进行详细的介绍。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在数据处理中的作用相当于一个从输入数据矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入数据中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在数据处理过程中，池化层的唯一目的就是减少数据的空间大小。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入数据带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括识别、分类等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

本申请实施例的数据处理方法具体采用的神经网络的结构可以如图3所示。在图3中，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。与图2相比，图3中的卷积层/池化层220中的多个卷积层/池化层并行，将分别提取的特征均输入给神经网络层230进行处理。

需要说明的是，图2和图3所示的卷积神经网络仅作为一种本申请实施例的数据处理方法的两种可能的卷积神经网络的示例，在具体的应用中，本申请实施例的数据处理方法所采用的卷积神经网络还可以以其他网络模型的形式存在。

图4为本申请实施例提供的一种芯片的硬件结构，该芯片包括神经网络处理器50。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图2和图3所示的卷积神经网络中各层的算法均可在如图4所示的芯片中得以实现。

神经网络处理器NPU 50作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路503，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)508中。

向量计算单元507可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器505(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

控制器504，用于调用指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图2和图3所示的卷积神经网络中各层的运算可以由运算电路503或向量计算单元507执行。

上文中介绍的图1中的执行设备110能够执行本申请实施例的数据处理方法的各个步骤，图2和图3所示的CNN模型和图4所示的芯片也可以用于执行本申请实施例的数据处理方法的各个步骤。下面结合附图对本申请实施例的神经网络训练的方法和本申请实施例的数据处理方法进行详细的介绍。

如图5所示，本申请实施例提供了一种系统架构300。该系统架构包括本地设备301、本地设备302以及执行设备110和数据存储系统150，其中，本地设备301和本地设备302通过通信网络与执行设备110连接。

执行设备110可以由一个或多个服务器实现。可选的，执行设备110可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备110可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备110可以使用数据存储系统150中的数据，或者调用数据存储系统150中的程序代码来实现本申请实施例的数据处理的方法。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备110进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备110进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备301、本地设备302从执行设备110获取到目标神经网络的相关参数，将目标神经网络部署在本地设备301、本地设备302上，利用该目标神经网络进行数据分类或者识别等等。

在另一种实现中，执行设备110上可以直接部署目标神经网络，执行设备110通过从本地设备301和本地设备302获取待处理数据，并根据目标神经网络对待处理数据进行分类或者其他类型的数据处理。

上述执行设备110也可以为云端设备，此时，执行设备110可以部署在云端；或者，上述执行设备110也可以为终端设备，此时，执行设备110可以部署在用户终端侧，本申请实施例对此并不限定。

目前，神经网络模型广泛应用到了图像、视频、语音等多个领域，展现出超越传统方法的能力，而神经网络模型本身计算量和参数量都很大，这给将神经网络在终端设备上的部署带来了很大的挑战。

模型量化用于对神经网络模型中算子的参数的量化和对输入数据的量化。对算子的参数的量化，可以对算子的大小进行优化，减小算子占用的资源。在此基础上，对算子的输入数据进行量化，可以将算子的浮点数运算转换为定点数运算，提高推理速度，降低功耗。相比于单精度浮点数(一般为32bit)表示的神经网络模型，8bit量化得到的量化后的神经网络模型可以将每个参数占据的存储空间缩小到四分之一，并且以更好的推理速度对数据进行处理。

在对算子进行模型量化过程中，为了提高量化后的算子的数据处理精度，需要根据每个算子的参数的范围确定算子量化参数，并根据输入数据的范围，分别数据量化参数。而不同算子的参数的范围、输入数据的范围的差异，导致各个算子对应的数据量化参数和/或算子量化参数存在差别。在对多个量化后的算子的数据处理结果进行运算之前，需要对这些数据处理结果分别进行反量化，以保证预算结果的准确性。在NPU中，用于进行反量化运算的处理单元数量有限，导致反量化的运算速率受限，使得整体处理效率较低，性能较差。对每个算子的数据处理结果分别进行反量化时使用的反量化参数可以根据该算子对应的数据量化参数和算子量化参数确定。为了解决上述问题，本申请实施例提供了一种神经网络模型量化装置，能够减少量化后的神经网络模型在后续需要进行的反量化运算的次数，提高整体处理性能。

图6是本申请实施例提供的一种神经网络模型量化装置的示意性结构图。神经网络模型量化装置1300可以位于图1所示的训练设备120或其他设备中。神经网络模型量化装置1300包括数据量化参数生成模型1310和算子量化模型1320。神经网络模型量化装置1300用于对原始神经网络模型进行量化。原始神经网络模型包括第一算子、第二算子和第一运算模块。第一算子与第二算子用于进行相同类型的运算。第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算。量化参数生成模型1310用于根据训练输入数据组中数据的范围，生成数据量化参数。训练输入数据组包括第一算子的第一训练输入数据和第二算子的第二训练输入数据。算子量化模型1320用于对第一算子、第二算子等原始神经网络模型中的运算单元进行量化。根据数据量化参数以及量化后的运算单元，可以得到量化后的神经网络模型。

量化后的神经网络模型包括量化模块、量化后的第一算子、量化后的第二算子、第二运算模块。量化模块用于利用数据量化参数分别对第一输入数据、第二输入数据进行量化。第二运算模块与原始神经网络模型中的第一运算模块相对应，用于对第一运算数据、第二运算数据进行第一运算。第一运算数据是量化后的第一算子对量化后的第一输入数据进行运算得到的。第二运算数据是量化后的第二算子对量化后的第二输入数据进行运算得到的。

图7是本申请实施例提供的一种神经网络模型量化方法的示意性流程图。该神经网络模型量化方法可以由图1所示的训练设备120或其他设备执行。

S1101，获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块。所述第一算子和第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算。可以从其他设备发送的消息中，获取原始神经网络模型。或者，也可以从存储器中获取原始神经网络模型。原始神经网络模型可以是CNN等。

第一运算与第二运算为相同类型的运算，即第一算子、第二算子为相同类型的算子。例如，第一算子、第二算子可以均为CNN中的卷子层或均为全连接层。第一运算模块可以用于对第一算子的输出和第二算子的输出进行逐位运算，例如逐位相加或逐位相乘的运算。一般情况下，第一运算模块可以用于线性运算。

神经网络模型量化方法包括步骤S1101和S1102，用于对原始神经网络模型进行量化，以得到量化后的神经网络模型。神经网络模型量化方法可以由图1所示的训练设备120或其他设备执行。

在S1102，根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据。具体地，可以根据第一算子的多个第一训练输入数据的最大值和第二算子的多个第二训练输入数据的最大值，确定平均数据范围上限。可以根据第一算子的多个第一训练输入数据的最小值和第二算子的多个第二训练输入数据的最小值，确定平均数据范围下限。可以根据平均数据范围上限和平均数据范围下限，确定数据量化参数。

平均数据范围上限可以理解为该多个第一训练输入数据的最大值和该多个第二训练输入数据的最大值的平均值。平均数据范围下限可以理解为该多个第一训练输入数据的最小值和该多个第二训练输入数据的最小值的平均值。

可以在每次训练输入数据输入时对平均数据范围上限和平均数据范围下限进行更新。从而，使得对平均数据范围上限和平均数据范围下限的计算分散的进行，与获取多个训练输入数据输入进行平均值计算的方式相比，可以减小对计算资源的要求。

可以引入权重，以实现对平均数据范围上限和平均数据范围下限的更新。具体的平均数据范围上限和平均数据范围的更新方式可以参见图8的说明。应当理解，权重的设置可以用于对随着迭代次数增加输入第一算子和/或第二算子的训练输入数据对平均数据范围上限、平均数据范围下限的影响的大小。

一般情况下，算子的量化后的输入数据的比特数(即比特位的数量)为预设值，例如，可以是8bit。当然，在一些实施例中，也可以通过人工输入信息等获取量化后的输入数据的比特数。数据量化参数可以包括步长(scale)和偏移(offset)。该比特数与数据量化参数中的scale的数量一一对应。参数scale的数量可以理解为量化后的数据的比特数能够表示的最大值，即2 ^m-1，m为量化后的数据的比特数。根据平均数据范围上限和平均数据范围下限之间的差值和scale的数量，即可得到scale。例如参数scale可以是平均数据范围上限和平均数据范围下限之间的差值除以scale的数量得到的商，或者是参数scale可以是平均数据范围上限和平均数据范围下限之间的差值加1除以scale的数量得到的商。数据量化参数中的offset可以是该平均数据范围下限与参数scale的比值。

在S1103，根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第二运算模块用于进行所述第一运算。

所述第二运算模块可以用于对第一运算数据和第二运算数据进行所述第三第一运算，所述第一运算数据是利用所述第三算子对量化后的第一输入数据进行运算得到的，所述第二运算数据是利用所述第四算子对量化后的第二输入数据进行运算得到。

也就是说，第二运算模块对应于原始神经网络模型中的第一运算模块。

通过S1101至步骤S1103，根据原始神经网络模型中第一算子和第二算子的输入数据的数值范围，确定数据量化参数，数据量化参数用于分别对量化后的神经网络模型中的第三算子和第四算子的输入数据进行量化。其中，第三算子与第一算子运用于进行相同的运算，第四算子与第二算子用于进行相同的运算，且上述第一算子和第二算子进行的运算的类型相同。

通过S1101至步骤S1103，量化后的神经网络模型能够采用相同的数据量化参数，对输入两个不同算子的数据进行量化，从而使得第三算子的处理结果与第四算子的处理结果对应的量化参数相同，可以直接对第三算子的处理结果与第四算子的处理结果进行第三运算，而无需在进行第三运算之前对第三算子的处理结果、第四算子的处理结果进行反量化等处理，简化了量化后的神经网络模型的运算，提高了神经网络模型的数据处理效率。

另外，根据第一算子和第二算子分别处理的数据的数值范围，确定对第三算子和第四算子的输入数据进行量化的数据量化参数，提高了第三算子、第四算子的对量化后的数据的处理结果的精度，在提高神经网络模型的数据处理效率的同时，减小了量化神经网络模型对数据处理结果的准确性的影响。

进一步地，可以获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据。

在S1102之后，可以利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化。可以利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据。

可以根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异。

所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。

也就是说，可以利用调整后的数据量化参数分别对第三算子的输入数据、第四算子的输入数据进行量化。

第一算子、第三算子用于进行相同的运算。第二算子、第四算子用于进行相同的运算。

两个算子用于进行相同的运算，也可以理解为两个算子对输入的数据进行相同的运算，两个算子的参数仅仅是精度不同，一个算子的参数是对另一个算子的参数进行量化得到的。通过利用量化后的算子对量化后的输入数据进行处理，能够降低计算量。

应当理解，为了使得第三算子和第四算子对输入数据的处理结果具有可比性，即可以直接运算，而无需在后续推理中进行反量化等处理，第三算子的参数和第四算子的参数可以是通过相同的算子量化参数得到的。

可以根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数。

可以利用所述算子量化参数对所述第一算子的参数进行量化以得到第三算子的参数，并利用所述算子量化参数对所述第二算子的参数进行量化以得到第四算子的参数。

为了进一步提高量化后的神经网络模型的数据处理效率，可以对第三算子输出的数据处理结果和第四算子输出的数据处理结果进行压缩。

所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，以得到所述第一运算数据和所述第二运算数据，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置。

一般情况下，在对第三算子输出的数据处理结果进行压缩得到的第一运算数据和第四算子输出的数据处理结果进行压缩得到的第二运算数据，具有相同数量的比特位。

偏移参数指示压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，通过相同的偏移参数对第三算子的输出和所述第四算子的输出进行压缩，使得第一运算数据和第二运算数据具有可比性，可以直接进行运算，而无需在后续推理中进行反量化等处理。

为了在提高神经网络模型数据处理效率的同时，减小了对数据处理结果的准确性和精度的影响，可以根据第三算子对量化后的第一训练输入数据进行处理得到的输出的有效位数，以及第四算子对量化后的第二训练输入数据进行处理得到的输出的有效位数，确定偏移参数。

也就是说，利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化。可以利用所述第三算子对量化后的第一训练输入数据进行处理，并利用所述第四算子对量化后的第二训练输入数据进行处理。其中，第三算子的输出为第一训练运算数据，第四算子的输出为第二训练运算数据。

之后，可以根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。

数据量化参数、算子量化参数、偏移参数的确定方式，具体可以参见对图8的说明。

通过S1101至S1103，可以得到量化后的神经网络模型。量化后的神经网络模型例如可以是图9所示的数据处理系统600，或者数据处理系统600可以调用量化后的神经网络模型中的各个算子或模块进行数据的处理。

图8是本申请实施例提供的一种神经网络模型量化方法的示意性流程图。

神经网络模型量化方法800也可以理解为对神经网络模型的优化方法或进一步的训练方法。训练方法800可以由图1所示的训练设备120或其他设备执行。

原始神经网络模型包括第一算子、第二算子和运算模块。运算模块用于对第一算子的输出和第二算子的输出进行运算。第一算子、第二算子用于进行相同类型的运算。

在原始神经网络模型中，第一算子和第二算子的参数通过浮点数的格式表示。

在S810，根据第一算子的参数范围和第二算子的参数范围，确定算子量化参数。

算子量化参数中的scale可以表示为s2：

其中，f _max为浮点数表示的第一算子和第二算子的最大参数值，f _min为浮点数表示的第一算子和第二算子的最小参数值，a为量化结果的位数。对于格式为int8的数据，a的取值为8。

算子量化参数中的offset可以表示为o2：

一般情况下，f _min为负数。

可以利用算子量化参数对第一算子的参数进行量化，以得到量化后的第一算子。可以利用算子量化参数对第二算子的参数进行量化，以得到量化后的第二算子。

在S820，获取训练数据集，所述训练数据集包括训练输入数据组，以及该训练输入数据组对应的预设运算结果。每组训练输入数据组包括第一训练输入数据和第二训练输入数据。

应当理解，一个预设运算结果对应于一个第一训练输入数据和一个第二训练输入数据。第一训练输入数据和第二训练输入数据对应的预设运算结果可以是对第一算子对第一训练输入数据的处理结果与第二算子对第二训练输入数据的处理结果进行运算得到的浮点数表示的运算结果。或者，第一训练输入数据和第二训练输入数据对应的预设运算结果可以是人工设置的。

在S830，根据所述第一训练输入数据的范围和所述第二训练输入数据的范围，确定所述数据量化参数。

训练数据集可以包括多个第一训练输入数据和多个第二训练输入数据。可以根据每个训练输入数据范围，确定数据量化参数。训练输入数据为第一训练输入数据或第二训练输入数据。数据量化参数可以是该多个第一训练输入数据和该多个第二训练输入数据的平均范围。

数据量化参数中的scale可以表示为s1：

其中，d _{max_t}为第t次迭代后得到的平均最大值(也可以理解为平均数据范围上限)，d _{min_t}为第t次迭代后得到的平均最小值(也可以理解为平均数据范围下限)，m用于表示对训练输入数据进行量化得到的量化结果的比特数。对于格式为int8的数据，m的取值为8。应当理解，m为预设值。

训练输入数据的平均最大值可以表示为：

其中，d _{max_t-1}为第t-1次迭代后得到的训练输入数据的平均最大值，v _{max_t}为第t次迭代对算子的输入数据统计出的最大值，c _t是随着迭代次数不断更新，c _t＝β ₁·c _t-1+1，β ₁为常数。在多次迭代过程中，算子的输入数据包括第一算子的第一训练输入数据，也包括第二算子的第二训练输入数据。

可以理解为权重。

当β ₁大于1时，随着迭代的进行，迭代次数越多，训练输入数据的最大值对平均数据范围上限的影响越小。当β ₁小于1时，随着迭代的进行，迭代次数越多，训练输入数据的最大值对平均数据范围上限的影响越大。当β ₁等于1时，每个训练输入数据的最大值对平均数据范围上限的影响相同。一般情况下，β ₁的取值略大于1，避免对平均数据范围上限的过度修正。

训练输入数据的平均最小值可以表示为：

其中，d _{min_t-1}为第t-1次迭代后得到的训练输入数据的平均最大值，v _{min_t}为第t次迭代对算子的输入数据统计出的最小值，c _t是随着迭代次数不断更新，c _t＝β ₂·c _t-1+1，β ₂为常数。在多次迭代过程中，算子的输入数据包括第一算子的第一训练输入数据，也包括第二算子的第二训练输入数据。

类似的，当β ₂大于1时，随着迭代的进行，迭代次数越多，训练输入数据的最大值对平均数据范围上限的影响越小。当β ₂小于1时，随着迭代的进行，迭代次数越多，训练输入数据的最大值对平均数据范围上限的影响越大。当β ₂等于1时，每个训练输入数据的最大值对平均数据范围上限的影响相同。一般情况下，β ₂的取值略大于1，避免对平均数据范围上限的过度修正。β ₂与β ₁可以相等或不相等。

在进行迭代之前，可以对参数c ₀、β、d _{max_0}、d _{min_0}进行设置，一般情况下，参数c ₀、均可以设置为0。v _{max_0}、v _{min_0}可以根据经验值进行设置，例如v _{min_0}可以设置为6。

在S840，对第一训练运算数据和第二训练运算数据进行运算，以得到训练输出数据，所述第一训练运算数据是利用算子量化参数量化后的第一算子对利用所述数据量化参数量化后的第一训练输入数据处理得到的，所述第二训练运算数据是利用算子量化参数量化后的第二算子对利用所述数据量化参数量化后的第二训练输入数据处理得到的。

可以利用数据量化参数分别对第一训练输入数据和第二训练输入数据进行处理，以得到量化后的第一训练输入数据和量化后的第二训练输入数据。可以将量化后的第一训练输入数据输入量化后的第一算子，以得到第一训练运算数据。可以将量化后的第二训练输入数据输入量化后的第二算子，以得到第二训练运算数据。之后，可以对第一训练运算数据和第二训练运算数据进行运算，以得到训练输出数据。

在第一训练运算数据可以是对量化后的第一算子输出的数据进行转换得到的。第一训练运算数据的位数小于量化后的第一算子输出的数据的位数。

在第二训练运算数据可以是对量化后的第二算子输出的数据进行转换得到的。第二训练运算数据的位数小于量化后的第二算子输出的数据的位数。

对于量化后的第一算子对量化后的第一训练输入数据的处理结果，以及量化后的第二算子对量化后的第二训练输入数据的处理结果，可以统计平均有效位数。

可以统计平均数据范围上限，从而得到平均有效位数。

经过t次迭代，得到平均数据范围上限可以表示为：

其中，b _t-1为第t-1次迭代后得到的平均数据范围上限，b _nt为第t次迭代对算子的输出数据统计出的范围上限，c _t是随着迭代次数不断更新，c _t＝β ₃·c _t-1+1，β ₃为常数。第t次迭代输入数据可以是第一训练输入数据或第二训练输入数据。

在进行迭代之前，可以对参数c ₀、β ₃、b ₀进行设置，一般情况下，参数b ₀、c ₀可以设置为0。

参数β ₁、β ₂、β ₃中的任一个可以随机或者根据一定规则设置，或者，参数β ₁、β ₂、β ₃中的任一个也可以是人工设置的。在迭代的过程中，参数β ₁、β ₂、β ₃中的任一个可以爆出不变，或者，也可以按照一定规则进行调整。本申请对此不做限定。

根据t次迭代得到的平均数据范围上限，可以确定偏移参数N：

N＝max(ceil(log ₂bt)-m,0)

其中，ceil为上取整函数，ceil(log ₂b _t)为b _t的有效位数，即t次迭代后的平均有效位数，m为降低位数之后的数据的位数。

以算子输出格式为int32，m的取值为16为例，N＝max(ceil(log ₂b _t)-16,0)。

对于量化后的算子的输出，对有效位数大于N的数值进行饱和运算，即以N位“1”表示有效位数大于N的数值。也就是说，当量化后的算子的输出大于N位“1”所表示的大小时，以N位“1”表示该数值。

对于量化后的算子的输出数据中的每个数值进行向右移N位。之后，可以进行饱和运算，将以为结果的值限制在m个比特位中。应当理解，m为预设数量。当向右移N位的结果大于m个比特位所能表示的数值范围时，以m个比特位的“1”作为饱和运算的结果。当向右移N位的结果小于或等于m个比特位所能表示的数值范围时，向右移N位的结果作为饱和运算的结果。

偏移参数N指示的比特位为量化后的算子的输出数据中第P个比特位，P＝Q-N。

根据偏移参数N，可以仅保留量化后的算子的输出数据中第P+1位至第P+m位(或者，可以仅保留第P位至第P+m-1位)，从而实现对量化后的算子的输出数据的压缩(即格式的转换)。

之后，可以对转换得到的第一训练运算数据和第二训练运算数据进行运算。

量化后的第一算子的对输入数据的处理可以表示为：

conv1 _out＝d1 _q1*w1 _q2

其中，conv1 _out为量化后的第一算子的输出，d1 _q1为利用数据量化参数量化得到的第一算子的输入数据，w1 _q2为利用算子量化参数量化得到的第一算子的参数。

量化后的第二算子的对输入数据的处理可以表示为：

conv2 _out＝d2 _q1*w2 _q2

其中conv2 _out为量化后的第二算子的输出，d2 _q1为利用算子量化参数量化得到的第二算子的输入数据，w2 _q2为利用算子量化参数量化得到的第二算子的参数。

以逐位累加运算(elementwise)为例，运算结果可以表示为：

R＝tr(conv1 _out,N)+tr(conv2 _out,N)

其中，R为运算结果，tr(x,N)表示对数据x进行转换，转换后的结果包括数据x右移N位之后的最低的预设数量的比特位。

在S850，根据反量化后的所述训练输出数据与所述预设运算结果的差异，调整所述数据量化参数和所述算子量化参数。

如果训练输出数据是减小比特数的转换之后得到的，可以对训练输出数据进行反转换，对反转换之后数据进行反量化。也就是说，可以在转换后的数据右侧增加比特位，以使得反转换后的数据与量化后的第一算子、第二算子的输出数据的比特位相等。应当理解，增加的比特位的值可以均为“0”。之后，可以将增加比特位之后的数据左移N位，以得到反转换后的训练输出数据。

对于第一算子与第二算子均为conv算子，对第一算子的输出和第二算子的输出进行逐位相加运算的方式得到的训练输出数据，训练输出数据的反量化，可以是对训练输出数据乘以数据量化参数中的scale与算子量化参数中的scale的乘积。

通过S810至S850，可以得到使得运算结果准确性更高的数据量化参数和算子量化参数。

利用算子量化参数，分别对第一算子和第二算子的参数进行量化。根据数据量化参数、量化后的第一算子、量化后的第二算子、偏移参数N，可以确定数据处理系统600。

在数据处理系统600中，运算模型640可以是量化前的原始神经网络模型中的运算模型，或者，运算模型640中的参数可以是对原始神经网络模型中的运算模型中的参数量化得到的。

在一些实施例中，S810至S850可以由服务器执行。服务器可以将数据量化参数、量化后的第一算子、量化后的第二算子、偏移参数等发送至终端设备。从而终端设备可以确定图9所示的数据处理系统600。

图9是本申请实施例提供的一种数据处理系统的示意性结构图。数据处理系统600可以位于执行设备110的计算模块111中，数据处理系统600可以是图1所示的目标模型/规则101。数据处理系统600可以是图1所示的训练设备120或其他装置对训练完成的神经网络模型进行量化得到的。

数据处理系统600也可以称为量化后的神经网络模型。数据处理系统600可以是图2所示的CNN 200或图3所示的CNN 300中的一部分，或者，数据处理系统600的各个组成部分可以位于一个或多个CNN中。数据处理系统600包括量化模型610、第一算子620、第二算子630和运算模型640。量化模型610用于利用数据量化参数分别对第一算子620的第一输入数据和第二算子630的第二输入数据进行量化。

第一输入数据的格式和第二输入数据的格式可以均为浮点数。例如，可以是32位(bit)的单精度浮点数(float32)，也可以是16位的半精度浮点数(float16)。量化模型610可以利用数据量化参数分别对第一输入数据和第二输入数据进行量化，以得到量化后的第一输入数据和量化后的第二输入数据。量化后的第一输入数据的格式和量化后的第二输入数据的格式可以均是8位的量化结果(int8)。

数据量化参数可以包括步长(scale)和偏移(offset)。其中，scale用于表示量化结果每增加“1”对应的浮点数的增加量，offset用于表示量化结果的最小值代表的浮点数与scale的比值。第一算子620用于对经量化模型610量化后的第一输入数据进行处理，以得到第一运算数据。第二算子630用于对经量化模型610量化后的第二输入数据进行处理，以得到第二运算数据。第一算子620的参数和第二算子630的参数是利用算子量化参数量化得到的。也就是说，在确定数据处理系统600时，利用算子量化参数，对训练完成的神经网络模型中的量化前的第一算子的参数进行量化，可以得到第一算子620的参数；利用算子量化参数，对训练完成的神经网络模型中的量化前的第二算子的参数进行量化，可以得到第二算子620的参数。

算子量化参数可以包括步长(scale)和偏移(offset)。数据量化参数的确定和算子量化参数的确定可以参见图6至图8的说明。第一算子620和第二算子630用于进行相同类型的运算。也就是说，第一算子620和第二算子630可以均为神经网络模型中相同类型的算子。例如，第一算子620和第二算子630可以均为卷积(convolutional，conv)算子，用于卷积运算，例如，第一算子620和第二算子630可以即第一算子620和第二算子630可以分别表示一个卷积层。数据处理系统600中的各个模块可以均为图2所示的CNN 200中的一部分或图3所示的CNN 300中的一部分。

第一算子620和第二算子630也可以均为全连接层。全连接层每个神经元的激励函数一般采用线性整流函数(rectified linear unit,ReLU)。第一算子620的输出和第二算子630的输出后续需要经过运算模型640的运算。在一些实施例中，第一算子620、第二算子630可以位于不同的CNN中，运算模型640可以用于对不同的CNN输出的数据进行处理。当然，第一算子620和第二算子630也可以是其他类型的神经网络模型中相同类型的算子。

当conv算子的参数和conv算子的输入数据均为int8时，该conv算子的输出为32为的量化结果(int32)。也就是说，当第一算子和第二算子可以均为conv算子，且第一算子的参数、第二算子的参数、量化后的第一输入数据、量化后的第二输入数据的格式均为int8时，第一算子和第二算子的输出数据的格式均为int32。对于conv算子，conv算子的参数也可以理解为conv算子中的权重。

对于conv算子，对量化后的输入数据d _q1(格式为int8)的处理结果conv _out(格式为int32)可以表示为：

conv _out＝d _q1*w1 _q2

其中，w1 _q2为利用算子量化参数量化得到的该算子的参数，格式也为int8。

运算模型640用于对第一运算数据和第二运算数据进行运算。运算模型640可以对第一运算数据和第二运算数据进行线性运算。运算模型640也可以对第一运算数据和第二运算数据进行逐位运算，例如逐位相加或逐位相乘的运算。

数据处理系统600利用数据量化参数，分别对两个算子的输入数据进行量化，两算子的参数是利用算子量化参数得到的，之后，可以对该两个算子的输出进行运算，避免了对该两个算子的输出进行反量化，减少了计算量，降低了运算功耗，提高了数据处理系统600的数据处理性能。

反量化运算是一种向量计算的方式。在一般的NPU中，与矩阵计算的方式相比，向量计算的方式运算能力较弱。矩阵计算的方式包括卷积运算等。神经网络模型的运算往往包括串行的多个矩阵计算和多个向量计算。一般情况下，处理器对矩阵计算的算力高于对向量计算的算力，当神经网络模型需要进行大量向量计算时，在向量计算未完成的情况下，依赖于向量计算结果的矩阵计算处于等待状态，导致流水中断，出现性能瓶颈(称为vector bound)。

通过利用相同的量化参数进行量化以得到第一算子和第二算子，并利用相同的参数对第一算子的输入数据和第二算子的输入数据进行量化，数据处理系统600的运算模块640可以对第一算子的输出和第二算子的输出进行运算，数据处理系统600能够减少神经网络模型所需的反量化运算，从而缓解了vector bound，有效提高了神经网络模型的数据处理能力。

数据处理系统600还可以包括格式转换模型650。格式转换模型650可以用于数据压缩，也可以称为压缩模型。格式转换模型650用于降低第一算子620输出的第一原始运算数据的位数，以得到第一运算数据。格式转换模型650还用于降低第二算子用于630输出的第二原始运算数据的位数，以得到第二运算数据。

例如，格式转换模型650用于分别将格式为int32的第一原始运算数据和第二原始运算数据的格式转换为int16。第一算子620输出的第一原始运算数据经过格式转换得到的int16的数据即为第一运算数据，第二算子630输出的第二原始运算数据经过格式转换得到的int16的数据即为第二运算数据。格式转换模型650可以根据偏移参数，确定所述第一运算数据和所述第二运算数据。格式转换模型650的处理过程可以理解为对数据的压缩。

如图10中的(A)所示，当所述第一算子对量化后的第一输入数据进行处理输出的第一原始运算数据中，所述偏移参数指示的比特位之前的比特位均为0时，所述第一运算数据包括所述第一原始运算数据中所述偏移参数指示的比特位以及该比特位之后的比特数一共为预设数量的比特位。

如图10中的(B)所示，当第一原始运算数据中偏移参数指示的比特位之前的比特位不是均为0，存在值为1的比特位时，第一运算数据包括的预设数量的比特位均为“1”。

类似的，当所述第二算子对量化后的第二输入数据进行处理输出的第二原始运算数据中，所述偏移参数指示的比特位之前的比特位均为0时，所述第二运算数据包括所述第二原始运算数据中所述偏移参数指示的比特位以及该比特位之后比特数一共为预设数量的比特位。

当第二原始运算数据偏移参数指示的比特位之前的比特位不是均为0，存在值为1的比特位时，第二运算数据包括的预设数量的比特位均为“1”。格式转换模型650对于第一原始运算数据或第二原始运算数据中的任一个原始运算数据，可以进行向右移位运算和饱和运算。

向右移位运算可以表示为：

其中，

为右移符号，conv _out表示原始运算结果，conv _out’表示右移运算结果，N为右移的比特数。应当理解，右移比特数N与格式转换模型650输出的数据的比特位之和小于或等于原始运算结果conv _out中的比特数。

对右移运算结果可以进行饱和运算：

conv _INT16＝clip(conv _out’,0,2 ^p-1)

其中，conv _INT16表示饱和运算结果，p为原始运算结果conv _out中的比特数与右移比特数N的差值。clip(a,b,c)运算符表示将a限制在b与c之间，当a小于b时，运算结果为b；当a大于或等于b且a小于或等于c时，运算结果为a；当a大于或等于c时，运算结果为c。

当原始运算数据的格式为int32，即原始运算数据包括32个比特位，运算结果的比特数即预设数量为16时，p＝32-N，N≤16。

运算符clip的运算结果的比特数m可以与原始运算结果的比特数相同，可以从饱和运算结果中取最低的预设数量m的比特位作为运算结果。即，饱和运算结果中最低的m个的比特位，即为该原始运算数据对应的运算数据。

也就是说，可以将原始运算数据右移N个比特位。确定与该原始运算结果比特数相同且各个比特位为1的二进制数右移N个比特位的结果与原始运算数据的右移结果的大小。当原始运算数据的右移结果较大时，取该原始运算数据的右移结果中最低位的预设数量的比特位，即为运算数据；反之，当原始运算数据的右移结果不是较大时，将预设数量的“1”作为运算结果。

第一运算数据可以是第一原始运算数据，也可以是经过对第一原始运算数据向右移位运算和饱和运算得到的数据。第二运算数据可以是第二原始运算数据，也可以是经过对第二原始运算数据向右移位运算和饱和运算运算得到的数据。

经过向右移位运算和饱和预算，格式转换模型650可以将原始运算数据转换为运算数据，将运算数据作为运算模块640的输入。

通过格式转换模型650对数据格式的转换，可以降低运算模块640的计算量，从而提高数据处理系统600的数据处理性能。

利用量化后的神经网络模型，可以实现图11或图12所述的数据处理方法。图11是本申请实施例提供的一种数据处理方法的示意性流程图。该数据处理方法可以由图1所示的执行设备110中的计算模块111中执行。

S1201，获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子用于和所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算。

S1202，利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第一运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。

所述第二运算模块可以用于对第一运算数据和第二运算数据进行所述第一运算。所述第一运算数据是利用所述第三算子对量化后的第一输入数据进行所述第一运算得到的，所述第二运算数据是利用所述第四算子对量化后的第二输入数据进行所述第二运算得到。对原始神经网络进行量化处理，得到的量化后的神经网络模型与原始神经网络模型进行相同的运算，仅是运算结果的精度变化。

数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的，从而提高了量化后的神经网络模型的数据处理精度。

通过使用数据量化参数对第一输入数据和第二输入数据进行处理，使得第二运算模块可以对第一运算数据和第二运算数据进行运算，而无需对第一运算数据和第二运算数据进行反量化之后再进行运算。其中，第一运算数据是第三算子对量化后的第一输入数据进行处理得到的，第二运算数据是第四算子对量化后的第二输入数据进行处理得到的。

通过S1201至S1202，在提高量化后的神经网络模型运算精度的同时，降低量化后的神经网络模型对反量化运算的需求，节约运算资源，提高处理效率。

可选地，所述数据量化参数是对初始数据量化参数进行调整得到的，所述调整使得根据实际训练输出数据与预设训练输出数据的差异最小化。

所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的。

所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据。

所述实际训练输出数据是利用所述量化后的神经网络模型对所述第一训练输入数据和所述第二训练输入数据进行处理得到的，所述量化模块用于利用所述初始数据量化参数分别对所述第一训练输入数据、所述第二训练输入数据进行量化。

根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定初始量化参数。利用量化后的神经网络模型对第一训练输入数据和第二训练输入数据进行处理以得到实际训练输出数据，其中，量化模块使用初始数据量化参数对第一训练输入数据、第二训练输入数据进行量化。对初始数据量化参数进行调整以最小化实际训练输出数据与预设训练输出数据之间的差异，从而得到数据量化参数。

应当理解，在量化后的神经网络模型中，第三算子用于对量化后的第一训练输入数据进行第一运算以得到第一训练运算数据；第四算子用于对量化后的第二训练输入数据进行第二运算以得到第二训练运算数据；第二运算模块用于对第一训练运算数据和第二训练运算数据进行第三运算以得到该实际训练输出数据。

由于数据量化参数使得实际训练输出数据与预设训练输出数据之间的差异最小，量化后的神经网络模型具有更高的精度。

最小化实际训练输出数据与预设训练输出数据之间的差异，可以理解为，根据实际训练输出数据与预设训练输出数据的差异来逐渐调整初始动作识别系统的初始数据量化参数，直到实际训练输出数据与预设训练输出数据之间的差异在一定的预设范围内，或者，当调整次数达到预设次数时，将此时的初始数据量化参数确定为调整后的数据量化参数。

可选地，所述第三算子的参数是利用算子量化参数对所述第一算子的参数进行量化得到的，所述第四算子的参数是利用所述算子量化参数对所述第二算子的参数进行量化得到的，所述算子量化参数是根据所述第一算子的参数范围、所述第二算子的参数范围确定的。

根据第一算子的参数范围、第二算子的参数范围确定算子量化参数，并利用算子量化参数分别对第一算子的参数、第二算子的参数进行量化，以得到第三算子的参数和第四算子的参数。在进行量化以降低运算量的情况下，提高的量化后的神经网络模型的数据处理精度。

可选地，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，以得到所述第一运算数据和所述第二运算数据，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算。

所述偏移参数是根据第一训练运算数据的有效位数和第二训练运算数据的有效位数确定的，所述第一训练运算数据是利用所述第三算子对使用所述数据量化参数量化后的第一训练输入数据进行处理得到的，所述第二训练运算数据是利用所述第四算子对使用所述数据量化参数量化后的第二训练输入数据进行处理得到的。

根据第一训练运算数据的有效位数和第二训练运算数据的有效位数，在降低运算量的同时，提高量化后的神经网络模型的数据处理精度。

图12是本申请实施例提供的一种数据处理方法的示意性流程图。

数据处理方法700包括S710至S720。数据处理方法700可以由图1所示的执行设备110中的计算模块111中执行。

在S710，利用数据量化参数分别对神经网络模型中第一算子的第一输入数据和所述神经网络模型中第二算子的第二输入数据进行量化处理。

在S720，对第一处理信息和第二处理信息进行运算。所述第一处理信息是利用所述第一算子对量化后的第一输入数据处理得到的，所述第二处理信息是利用所述第二算子对量化后的第二输入数据处理得到的。

通过S710和步骤S720，通过利用相同的数据量化参数对第一算子的第一输入数据和第二算子的第二输入数据进行量化，使得第一算子的输出和第二算子的输出可以直接进行运算，无需进行反量化等处理，提高神经网络模型的数据处理效率。

所述第一算子的第一参数和第二算子的第二参数可以是浮点数，也可以是利用算子量化参数对浮点数的参数进行量化得到的。

第一参数和第二参数是量化得到的，可以降低第一算子和第二算子的大小，减小第一算子和第二算子处理数据时对资源的占用。而第一参数的量化和第二参数的量化，均利用算子量化参数，可以使得第一算子和第二算子的数据处理结果可以直接进行计算，无需进行反量化等其他处理，提高神经网络模型的数据处理效率。

为了提高量化后的第一算子和第二算子的计算精度，算子量化参数可以是根据所述第一参数的范围和所述第二参数的范围得到的。

算子量化参数的确定可以由图1所示的训练设备120或其他设备执行。当然，确定数据量化参数的设备与执行S710至S720的设备可以是相同或不同的设备。

可以根据第一参数和第二参数中的最大值和最小值，得到算子量化参数。示例性地，算子量化参数可以包括scale和offset。可以根据量化结果的位数，对第一参数和第二参数中的最大值和最小值之间的差值进行等分，以得到算子量化参数的scale。可以根据第一参数和第二参数中的最小值与算子量化参数中的scale的比值，确定算子量化参数中的offset。

为了提高量化后的第一算子和第二算子的计算精度，可以根据第一算子和第二算子处理的数据的范围，确定数据量化参数。

数据量化参数的确定可以由图1所示的训练设备120或其他设备执行。当然，确定数据量化参数的设备与执行S710至S720的设备可以是相同或不同的设备。

具体地，可以获取训练数据集，所述训练数据集包括第一训练输入数据，第二训练输入数据。其中，第一训练输入数据为量化前的第一算子的输入数据，第二训练输入数据为量化前的第二算子的输入数据。可以根据第一训练输入数据的范围和第二训练输入数据的范围，确定所述数据量化参数。

例如，可以通过多个第一训练输入数据和多个第二训练输入数据确定数据量化参数。每个第一训练输入数据中包括多个数值，每个第二训练输入数据中包括多个数值，可以将每个第一训练输入数据和每个第二训练输入数据中的平均最大值作为数据量化参数的量化结果能够表示的最大值，将每个第一训练输入数据和每个第二训练输入数据中的平均最小值作为数据量化参数的量化结果能够表示的最小值。平均最大值可以是多个最大值的加权平均值，平均最小值可以是多个最小值的加权平均值。权重，可以理解为第一训练输入数据、第二训练输入数据中的每个训练输入数据中的最大值或最小值对数据量化参数的影响程度。具体地，可以参见图8的说明。

为了提高量化后的第一算子和第二算子的计算精度，在将数据量化参数和算子量化参数用于实际数据的处理之前，可以根据第一算子对量化后的第一训练输入数据的处理结果与第二算子对第二训练输入数据的处理结果进行运算之后的结果，与预设运算结果之间的差异，调整数据量化参数和/或算子量化参数。

具体地，所述训练数据集还包括第一训练输入数据和第二训练输入数据对应的预设运算结果。第一训练输入数据和第二训练输入数据对应的预设运算结果可以是对量化前的第一算子对第一训练输入数据的处理结果与量化前的第二算子对第二训练输入数据的处理结果进行运算得到的运算结果。或者，预设运算结果可以是人工设置的。预设运算结果的格式可以是浮点数。

可以对第一训练运算数据和第二训练运算数据进行S720中的运算，以得到训练输出数据。其中，第一训练运算数据是第一算子对利用数据量化参数量化后的第一训练输入数据处理得到的，第二训练运算数据是第二算子对利用数据量化参数量化后的第二训练输入数据处理得到的。

可以对训练输出数据进行反量化。可以根据训练输出数据的反量化结果与该预设运算结果之间的差异，调整数据量化参数和/或算子量化参数。

为了进一步降低神经网络模型的运算量，可以对第一算子的运算结果、第二算子的运算结果进行减少位数的处理。

第一算子对量化后的第一输入数据进行处理，输出第一原始运算数据。第二算子对量化后的第二输入数据进行处理，输出第二原始运算数据。

可以取第一原始运算数据中位数最高的预设数量的比特位作为第一运算结果，取第二原始运算数据中位数最高的预设数量的比特位作为第二运算数据，进行后续的运算。位数最高的预设数量的比特位，即最左端的预设数量的比特位。

或者，可以根据偏移参数，确定第一运算数据和/或第二运算数据。

当第一原始运算数据中，所述偏移参数指示的比特位之前的比特位均为0时，所述第一运算数据包括所述第一原始运算数据中所述偏移参数指示的比特位之后的预设数量的比特位。

当第一原始运算数据中偏移参数指示的比特位之前的比特位不是均为0，存在值为1的比特位时，第一运算数据包括的预设数量的比特位均为“1”。

类似的，当第二原始运算数据中，所述偏移参数指示的比特位之前的比特位均为0时，所述第二运算数据包括所述第二原始运算数据中所述偏移参数指示的比特位之后的预设数量的比特位。

当第二原始运算数据偏移参数指示的比特位之前的比特位不是均为0，存在值为1的比特位时，第二运算数据包括的预设数量的比特位均为“1”。

可选地，对第一原始运算数据和第二原始运算数据均进行减少比特位数量数的压缩处理。

应当理解，如果第一算子的处理结果或第二算子的处理结果在该偏移参数指示的比特位或更高的比特位具有有效数据，该第一算子的处理结果对应的第一运算数据或第二算子的处理结果对应的第二运算数据可以表示为预设数量的“1”。该方式也可以理解为饱和运算。也就是说，当处理结果大于偏移参数指示的比特位之后的比特位数量能够表示的最大值时，将处理结果表示为在预设数量的比特位中表示为全“1”，即该预设数量的比特位能够表示的最大值。

该偏移参数可以是根据第一算子对第一训练输入数据的处理结果、第二算子对第二训练输入数据的处理结果得到的。

可以根据第一算子对量化后的第一训练输入数据进行处理输出的数据的有效位数，以及第二所述第二算子对量化后的第二训练输入数据进行处理输出的数据的有效位数，确定该偏移参数。

例如，第一算子可以对多个量化后的第一训练参数进行处理，第一算子对每个量化后的第一训练参数的处理结果中包括多个数。该多个数可以形成矩阵或者向量等。第二算子可以对多个量化后的第二训练参数进行处理，第二算子对每个量化后的第二训练参数的处理结果中包括多个数。可以根据每个处理结果中最大的有效位数的平均值，确定偏移参数。例如，可以对该平均值进行上取整，偏移参数用于指示可以是对该平均值进行上取整得到的有效位数的最高位。

根据训练输出数据的反量化结果与该预设运算结果之间的差异，还可以调整偏移参数。从而，使得数据处理结果的精度和准确性更高。

神经网络模型对图像、音频等数据进行处理的过程中，一般需要使用多个算子。在进行本申请实施例提供的神经网络模型量化方法之前，可以遍历原始神经网络模型，以确定原始神经网络模型中包括第一算子、第二算子以及用于对第一算子的输出和第二算子的输出进行运算的运算模型的处理结构。图9以第一算子和第二算子为卷积算子，运算模型为eltwise算子为例进行说明。

图13是本申请实施例提供的一种处理结构识别方法的示意性流程图。该处理结构识别方法可以由图1所示的训练设备120或其他设备执行。

在S910，判断节点i对应的节点是否为卷积算子。如果节点i不是卷积算子，令i＝i+1，重新进行S910。如果节点i是卷积算子，进行S920。

在S920，判断节点i的输出数据是否为eltwise算子的输入。如果节点i的输出数据不是eltwise算子的输入，令i＝i+1，重新进行S910。如果节点i的输出数据是eltwise算子的输入，进行S930。

在S930，判断该eltwise算子的另一路输入是否为卷积算子的输出数据。如果该eltwise算子的另一路输入不是卷积算子的输出数据，令i＝i+1，重新进行S910。如果该eltwise算子的另一路输入是卷积算子的输出数据，将节点i作为第一算子，将提供eltwise算子的另一路输入的卷积算子第二算子，进行方法800。并且，令i＝i+1，重新进行S910。遍历神经网络中的全部节点，即i大于神经网络中模型中的节点数据量时，停止进行S910。通过方法900，可以确定神经网络模型中的所有两路卷积算子的输出结果输入一个eltwise算子的结构。

上文结合图1至图13的描述了本申请实施例提供的数据处理系统、神经网络模型量化方法以及数据处理方法，下面结合图14至图17，描述本申请实施例的装置实施例。应理解，数据处理系统、神经网络模型量化方法以及数据处理方法的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见上文的描述。

图14是本申请实施例提供的一种神经网络模型量化装置的示意性结构图。神经网络模型量化装置3000可以位于图1所示的训练设备120或其他设备中。神经网络模型量化装置3000包括存储模块3010和处理模块3020。存储模块3010用于存储程序。

当所述程序在处理模块3020中运行时，处理模块3020用于：获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子用于进行第一运算，所述第二算子用于进行第二运算，所述第一运算与所述第二运算为相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第三运算；根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据；根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述第二运算模块用于进行所述第一运算。

可选地，处理模块3020还用于，获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据。

处理模块3020还用于，利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化。处理模块3020还用于，利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据。处理模块3020还用于，根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异。

所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。可选地，处理模块3020还用于，根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数。

处理模块3020还用于，利用所述算子量化参数对所述第一算子的参数进行量化，以得到所述第三算子的参数。处理模块3020还用于，利用所述算子量化参数对所述第二算子的参数进行量化，以得到所述第四算子的参数。

可选地，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算。

处理模块3020还用于，利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化。处理模块3020还用于，利用所述第三算子对量化后的第一训练输入数据进行处理，所述第三算子输出第一训练运算数据。处理模块3020还用于，利用所述第四算子对量化后的第二训练输入数据进行处理，所述第四算子输出第二训练运算数据。处理模块3020还用于，根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。

图15是本申请实施例提供的一种数据处理装置的示意性结构图。数据处理装置2000可以位于图1所示的执行设备110或其他设备中。数据处理装置2000包括存储模块2010和处理模块2020。存储模块2010用于存储程序。

当所述程序在处理模块2020中运行时，处理模块2020用于：获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第二运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。

所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的。所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据。

图16是本申请实施例的数据处理装置的硬件结构示意图。图16所示的数据处理装置4000包括存储器4001、处理器4002、通信接口4003以及总线4004。其中，存储器4001、处理器4002、通信接口4003通过总线4004实现彼此之间的通信连接。

存储器4001可以是ROM，静态存储设备和RAM。存储器4001可以存储程序，当存储器4001中存储的程序被处理器4002执行时，处理器4002和通信接口4003用于执行本申请实施例的数据处理方法的各个步骤。

处理器4002可以采用通用的，CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的数据处理装置中的单元所需执行的功能，或者执行本申请方法实施例的数据处理方法。

处理器4002还可以是一种集成电路芯片，具有信号的处理能力，例如，可以是图4所示的芯片。在实现过程中，本申请实施例的数据处理方法的各个步骤可以通过处理器4002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器4002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器4001，处理器4002读取存储器4001中的信息，结合其硬件完成本申请实施例的数据处理装置中包括的单元所需执行的功能，或者执行本申请方法实施例的数据处理方法。

通信接口4003使用例如但不限于收发器一类的收发装置，来实现装置4000与其他设备或通信网络之间的通信。例如，可以通过通信接口4003获取待处理图像。

总线4004可包括在装置4000各个部件(例如，存储器4001、处理器4002、通信接口4003)之间传送信息的通路。

图17是本申请实施例的神经网络模型量化装置的硬件结构示意图。与上述装置4000类似，图17所示的神经网络模型量化装置5000包括存储器5001、处理器5002、通信接口5003以及总线5004。其中，存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。

可以通过图17所示的神经网络模型量化装置5000对原始神经网络模型进行量化，量化得到的神经网络模型就可以用于执行本申请实施例的数据处理方法了。

具体地，图17所示的装置可以通过通信接口5003从外界获取量化所需的训练数据集以及原始神经网络模型，然后由处理器根据训练数据集和原始神经网络模型进行神经网络模型的量化。

应注意，尽管上述装置4000和装置5000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置4000和装置5000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置4000和装置5000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置4000和装置5000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图16和图17中所示的全部器件。

应理解，本申请实施例中的处理器可以为中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种神经网络模型量化方法，其特征在于，包括：

获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；

根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据；

根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述第二运算模块用于进行所述第一运算。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据；

利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化；

利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据；

根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异；

所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数；

利用所述算子量化参数对所述第一算子的参数进行量化，以得到所述第三算子的参数；

利用所述算子量化参数对所述第二算子的参数进行量化，以得到所述第四算子的参数。
根据权利要求1-3中任一项所述的方法，其特征在于，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；

所述方法还包括：

利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化；

利用所述第三算子对量化后的第一训练输入数据进行处理，所述第三算子输出第一训练运算数据；

利用所述第四算子对量化后的第二训练输入数据进行处理，所述第四算子输出第二训练运算数据；

根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。
一种数据处理方法，其特征在于，所述方法包括：

获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；

利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第二运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。
根据权利要求5所述的方法，其特征在于，

所述数据量化参数是对初始数据量化参数进行调整得到的，所述调整使得根据实际训练输出数据与预设训练输出数据的差异最小化，

所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的，

所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据，

所述实际训练输出数据是利用所述量化后的神经网络模型对所述第一训练输入数据和所述第二训练输入数据进行处理得到的，所述量化模块用于利用所述初始数据量化参数分别对所述第一训练输入数据、所述第二训练输入数据进行量化。
根据权利要求6所述的方法，其特征在于，所述第三算子的参数是利用算子量化参数对所述第一算子的参数进行量化得到的，所述第四算子的参数是利用所述算子量化参数对所述第二算子的参数进行量化得到的，所述算子量化参数是根据所述第一算子的参数范围、所述第二算子的参数范围确定的。
根据权利要求5-7中任一项所述的方法，其特征在于，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；

所述偏移参数是根据第一训练运算数据的有效位数和第二训练运算数据的有效位数确定的，所述第一训练运算数据是利用所述第三算子对使用所述数据量化参数量化后的第一训练输入数据进行处理得到的，所述第二训练运算数据是利用所述第四算子对使用所述数据量化参数量化后的第二训练输入数据进行处理得到的。
一种神经网络模型量化装置，其特征在于，所述装置包括：存储模块和处理模块，

所述存储模块用于存储程序；

当所述程序在所述处理模块中运行时，所述处理模块用于：

获取原始神经网络模型，所述原始神经网络模型包括第一算子、第二算子和第一运算模块，所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；

根据第一训练输入数据的范围和第二训练输入数据的范围，确定数据量化参数，所述第一训练输入数据为所述第一算子的输入数据，所述第二训练输入数据为所述第二算子的输入数据；

根据所述原始神经网络模型，确定量化后的神经网络模型，所述量化后的神经网络模型包括量化模块、第三算子、第四算子和第二运算模块，所述量化模块用于利用所述数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述第二运算模块用于进行所述第一运算。
根据权利要求9所述的装置，其特征在于，

所述处理模块还用于，获取训练输入数据组对应的预设训练输出数据，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据；

所述处理模块还用于，利用所述数据量化参数，分别对所述第一训练输入数据和所述第二训练输入数据进行量化；

所述处理模块还用于，利用所述量化后的神经网络模型对量化后的第一训练输入数据和量化后的第二训练输入数据进行处理，以得到实际训练输出数据；

所述处理模块还用于，根据所述实际训练输出数据与所述预设训练输出数据的差异，调整所述数据量化参数，以最小化所述差异；

所述量化模块用于利用调整后的数据量化参数分别对所述第三算子的第一输入数据、所述第四算子的第二输入数据进行量化。
根据权利要求10所述的装置，其特征在于，

所述处理模块还用于，根据所述第一算子的参数范围、所述第二算子的参数范围，确定算子量化参数；

所述处理模块还用于，利用所述算子量化参数对所述第一算子的参数进行量化，以得到所述第三算子的参数；

所述处理模块还用于，利用所述算子量化参数对所述第二算子的参数进行量化，以得到所述第四算子的参数。
根据权利要求9-11中任一项所述的装置，其特征在于，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；

所述处理模块还用于，利用所述数据量化参数分别对所述第一训练输入数据和第二训练输入数据进行量化；

所述处理模块还用于，利用所述第三算子对量化后的第一训练输入数据进行处理，所述第三算子输出第一训练运算数据；

所述处理模块还用于，利用所述第四算子对量化后的第二训练输入数据进行处理，所述第四算子输出第二训练运算数据；

所述处理模块还用于，根据所述第一训练运算数据的有效位数，以及所述第二训练运算数据的有效位数，确定所述偏移参数。
一种数据处理装置，其特征在于，包括：存储模块和处理模块，

所述存储模块用于存储程序；

当所述程序在所述处理模块中运行时，所述处理模块用于：

获取量化后的神经网络模型，所述量化后的神经网络模型是对原始神经网络模型进行量化得到的，所述原始神经网络模型包括第一算子、第二算子和第一运算模块所述第一算子与所述第二算子用于进行相同类型的运算，所述第一运算模块用于对所述第一算子的输出和所述第二算子的输出进行第一运算；

利用所述量化后的神经网络模型对所述第三算子的第一输入数据和所述第四算子的第二输入数据进行处理，所述量化后的神经网络模型包括量化模块、第一算子、第二算子和第二运算模块，所述量化模块用于利用数据量化参数分别对所述第一输入数据、所述第二输入数据进行量化，所述第二运算模块用于进行所述第一运算，所述第三算子为量化后的第一算子，所述第四算子为量化后的第二算子，所述数据量化参数是根据所述第一算子的第一训练输入数据的范围和所述第二算子的第二训练输入数据的范围确定的。
根据权利要求13所述的装置，其特征在于，

所述数据量化参数是对初始数据量化参数进行调整得到的，所述调整使得根据实际训练输出数据与预设训练输出数据的差异最小化，

所述初始量化参数是根据所述第一训练输入数据的范围和所述第二训练输入数据的范围确定的，

所述预设训练输出数据对应于训练输入数据组，所述训练输入数据组包括所述第一训练输入数据和所述第二训练输入数据，

所述实际训练输出数据是利用所述量化后的神经网络模型对所述第一训练输入数据和所述第二训练输入数据进行处理得到的，所述量化模块用于利用所述初始数据量化参数分别对所述第一训练输入数据、所述第二训练输入数据进行量化。
根据权利要求14所述的装置，其特征在于，所述第三算子的参数是利用算子量化参数对所述第一算子的参数进行量化得到的，所述第四算子的参数是利用所述算子量化参数对所述第二算子的参数进行量化得到的，所述算子量化参数是根据所述第一算子的参数范围、所述第二算子的参数范围确定的。
根据权利要求13-15中任一项所述的装置，其特征在于，所述量化后的神经网络模型还包括压缩模块，所述压缩模块用于根据偏移参数分别对所述第三算子的输出和所述第四算子的输出进行压缩，所述偏移参数用于指示进行所述压缩后的数据中最高比特位在进行所述压缩之前的数据中的位置，所述第二运算模块用于对压缩后的数据进行所述第一运算；

所述偏移参数是根据第一训练运算数据的有效位数和第二训练运算数据的有效位数确定的，所述第一训练运算数据是利用所述第三算子对使用所述数据量化参数量化后的第一训练输入数据进行处理得到的，所述第二训练运算数据是利用所述第四算子对使用所述数据量化参数量化后的第二训练输入数据进行处理得到的。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码被所述设备执行时，所述设备执行如权利要求1至8中任一项所述的方法。
一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至8中任一项所述的方法。