WO2023004799A1

WO2023004799A1 - 电子设备及神经网络量化方法

Info

Publication number: WO2023004799A1
Application number: PCT/CN2021/109839
Authority: WO
Inventors: 肖延南; 刘根树; 张怡浩; 左文明
Original assignee: 华为技术有限公司
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-02-02
Also published as: CN117813610A

Abstract

本申请实施例提供一种电子设备及神经网络量化方法，电子设备包括处理器和逻辑电路，处理器用于根据浮点数据以及预设的定点数最大值、最小值，确定第一零点偏移和第一量化系数，对第一量化系数进行倍数扩大，得到第二量化系数，以及对第一零点偏移进行倍数扩大和量化，得到第二零点偏移；逻辑电路，用于根据第二量化系数和第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据预设的定点量化系数对第一量化结果进行移位，得到待量化数据的最终量化结果。根据本申请实施例的电子设备及神经网络量化方法，能够在硬件成本较低的前提下，提升量化后的神经网络模型的精度。

Description

电子设备及神经网络量化方法

技术领域

本申请涉及神经网络技术领域，尤其涉及一种电子设备及神经网络量化方法。

背景技术

随着深度学习技术的应用，出现了大量的基于深度学习的神经网络模型。这些神经网络模型的参数或输入数据通常采用浮点形式，其运算方式也采用浮点运算。而浮点形式的数据通常位数较高，例如32位等。因此浮点数据的存储和运算消耗大量的硬件成本。在浮点神经网络模型规模较大的时候，例如参数或输入数据数量大，对浮点神经网络模型的硬件性能要求更高，导致基于神经网络模型进行运算需要较大的硬件代价。

为了解决基于浮点神经网络模型进行运算的硬件成本过大的问题，现有技术提出对浮点神经网络模型进行量化，将浮点神经网络模型的参数或输入数据量化为定点参数或定点输入数据。量化后位数得以降低，使得定点数据的存储和运算消耗的硬件成本得以降低，在此情况下，神经网络运算所需的硬件成本也得以降低。

然而，浮点神经网络模型的参数或输入数据的量化过程也进行大量浮点运算，导致神经网络量化所需的硬件运算成本较高，且位数降低也意味着有一定的精度损失，导致神经网络模型的运算准确度有所下降。

发明内容

有鉴于此，本申请实施例提出一种电子设备及神经网络量化方法，根据本申请实施例的电子设备及神经网络量化方法，能够在硬件成本较低的前提下，提升量化后的神经网络模型的精度。

第一方面，本申请实施例提出一种电子设备，包括处理器和逻辑电路，所述处理器，用于：根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；所述逻辑电路，用于根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。

根据本申请实施例的电子设备，处理器可以通过浮点数据、预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，并结合预设的定点量化系数进一步处理得到第二零点偏移和第二量化系数，第二量化系数是第一量化系数倍数扩大得到的、第二零点偏移是第一零点偏移倍数扩大和量化得到的，使得第二零点偏移和第二量化系数精度更高，从而提高逻辑电路的输入参数的精度；逻辑电路可以根据输入参数(第二零点偏移和第二量化参数)对待量化数据进行浮点乘法运算、定点加法运算实现量化，并根据预设的定点量化系数对量化结果进行移位，得到待量化数据的最终量化结果，使得移位后的最终量化结果能够满足处于预设的定点数最小值到预设的定点数最大值的范围内，得到满足量化需求的最终量化结果。并且逻辑电路进行浮点乘法、定点加法以及移位运算，使得能够完成量化的逻辑电路硬件成本较低。从而能够以较低的硬件成本，提升量化后的神经网络模型的精度。

根据第一方面，在所述电子设备的第一种可能的实现方式中，所述处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，包括：所述处理器根据所述预设的定点量化系数，确定所述第一量化系数的扩大倍数；所述处理器根据所述第一量化系数和所述第一量化系数的扩大倍数的乘积，得到所述第二量化系数。

通过这种方式，能够提高输入逻辑电路的参数精度。根据参数精度需求，可以通过改变预设的定点量化系数的数值，对第一量化系数的扩大倍数进行调整，使得第一量化系数的精度提升方式更灵活。

根据第一方面的第一种可能的实现方式，在所述电子设备的第二种可能的实现方式中，所述预设的定点量化系数是大于或等于1的整数，所述第一量化系数的扩大倍数等于以2为底数、以所述预设的定点量化系数为指数的数值。

通过这种方式，使得倍数扩大的效果近似于以预设的定点量化系数作为移位位数进行移位的效果，便于确定后续对第一量化结果进行移位的过程的移位位数。

根据第一方面的第二种可能的实现方式，在所述电子设备的第三种可能的实现方式中，根据预设的定点量化系数和第一量化系数对第一零点偏移进行倍数扩大和量化，得到第二零点偏移，包括：根据所述预设的定点量化系数，确定所述第一零点偏移的扩大倍数；对所述第一量化系数、所述第一零点偏移的扩大倍数、所述第一零点偏移的乘积进行舍入，得到所述第二零点偏移。

通过这种方式，能够提高输入逻辑电路的参数精度。根据参数精度需求，可以通过改变预设的定点量化系数的数值，对第一零点偏移的扩大倍数进行调整，使得第一零点偏移的精度提升方式更灵活。

根据第一方面的第三种可能的实现方式，在所述电子设备的第四种可能的实现方式中，所述第一零点偏移的扩大倍数等于所述第一量化系数的扩大倍数。

使用与第一量化系数相同的扩大倍数，使得第一零点偏移进行倍数扩大后，采用第一量化系数进行量化时，得到的第二零点偏移的取值范围，与待量化数据使用第二量化系数时得到的量化结果的取值范围相同，使得第二零点偏移和第二量化系数可以在逻辑电路中参与算术运算。

根据第一方面，以及以上第一方面的任意一种可能的实现方式，在所述电子设备的第五种可能的实现方式中，根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对所述待量化数据进行量化，得到第一量化结果，包括：对所述第二量化系数和所述待量化数据的乘积进行舍入，得到第二量化结果；根据所述第二量化结果与所述第二零点偏移的和，得到所述第一量化结果。

通过这种方式，使得通过第二量化系数和待量化数据的浮点乘法运算，可以得到倍数扩大的第二量化结果；通过第二量化结果和第二零点偏移的定点加法运算，可以得到倍数扩大的第一量化结果，从而在第一量化结果中能保留待量化数据的高精度属性，提高第一量化结果的精度。

根据第一方面的第二种可能的实现方式至第五种可能的实现方式中的任意一种可能的实现方式，在所述电子设备的第六种可能的实现方式中，根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果，包括：所述逻辑电路对所述第一量化结果进行向右移位，得到所述待量化数据的最终量化结果，移位的位数等于所述预设的定点量化系数。

第一量化结果中能保留待量化数据的高精度属性，使得在使用第一量化结果进行移位得到最终量化结果时，也可以提高最终量化结果的精度。并且移位的位数等于预设的定点量化系数，因此移位后使得最终量化结果的取值范围满足量化需求。

根据第一方面，以及以上第一方面的任意一种可能的实现方式，在所述电子设备的第七种可能的实现方式中，所述电子设备还包括存储器，所述存储器用于存储所述浮点数据、所述预设的定点数最大值、所述预设的定点数最小值、所述第一定点数据、所述第二零点偏移、所述第二量化系数、所述预设的定点量化系数、所述待量化数据的最终量化结果中的一种或多种。

根据第一方面，以及以上第一方面的任意一种可能的实现方式，在所述电子设备的第八种可能的实现方式中，所述逻辑电路包括算术逻辑单元ALU。

根据第一方面，以及以上第一方面的任意一种可能的实现方式，在所述电子设备的第九种可能的实现方式中，所述待量化数据包括处理器对浮点数据进行量化后得到的定点数据、神经网络处理过程中的中间结果或最终结果中的一种或多种。

通过这种方式，使得电子设备可以在神经网络的处理过程中提高神经网络使用的数据的精度，进一步提高神经网络的输入定点数据、以及神经网络处理得到的中间结果或最终结果的准确度。

第二方面，本申请实施例提供一种神经网络量化方法，所述方法包括：处理器根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；所述处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；逻辑电路根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。

根据第二方面，在所述神经网络量化方法的第一种可能的实现方式中，所述处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，包括：所述处理器根据所述预设的定点量化系数，确定所述第一量化系数的扩大倍数；所述处理器根据所述第一量化系数和所述第一量化系数的扩大倍数的乘积，得到所述第二量化系数。

根据第二方面的第一种可能的实现方式，在所述神经网络量化方法的第二种可能的实现方式中，所述预设的定点量化系数是大于或等于1的整数，所述第一量化系数的扩大倍数等于以2为底数、以所述预设的定点量化系数为指数的数值。

根据第二方面的第二种可能的实现方式，在所述神经网络量化方法的第三种可能的实现方式中，根据预设的定点量化系数和第一量化系数对第一零点偏移进行倍数扩大和量化，得到第二零点偏移，包括：根据所述预设的定点量化系数，确定所述第一零点偏移的扩大倍数；对所述第一量化系数、所述第一零点偏移的扩大倍数、所述第一零点偏移的乘积进行舍入，得到所述第二零点偏移。

根据第二方面的第三种可能的实现方式，在所述神经网络量化方法的第四种可能的实现方式中，所述第一零点偏移的扩大倍数等于所述第一量化系数的扩大倍数。

根据第二方面，以及以上第二方面的任意一种可能的实现方式，在所述神经网络量化方法的第五种可能的实现方式中，根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对所述待量化数据进行量化，得到第一量化结果，包括：对所述第二量化系数和所述待量化数据的乘积进行舍入，得到第二量化结果；根据所述第二量化结果与所述第二零点偏移的和，得到所述第一量化结果。

根据第二方面的第二种可能的实现方式至第五种可能的实现方式中的任意一种可能的实现方式，在所述神经网络量化方法的第六种可能的实现方式中，根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果，包括：所述逻辑电路对所述第一量化结果进行向右移位，得到所述待量化数据的最终量化结果，移位的位数等于所述预设的定点量化系数。

根据第二方面，以及以上第二方面的任意一种可能的实现方式，在所述神经网络量化方法的第七种可能的实现方式中，所述方法还包括，存储所述浮点数据、所述预设的定点数最大值、所述预设的定点数最小值、所述第一定点数据、所述第二零点偏移、所述第二量化系数、所述预设的定点量化系数、所述待量化数据的最终量化结果中的一种或多种。

根据第二方面，以及以上第二方面的任意一种可能的实现方式，在所述神经网络量化方法的第八种可能的实现方式中，所述逻辑电路包括算术逻辑单元ALU。

根据第二方面，以及以上第二方面的任意一种可能的实现方式，在所述神经网络量化方法的第九种可能的实现方式中，所述待量化数据包括处理器对浮点数据进行量化后得到的定点数据、神经网络处理过程中的中间结果或最终结果中的一种或多种。

第三方面，本申请实施例提供一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述第二方面的神经网络量化方法。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在处理器中运行时，所述处理器执行上述第二方面的神经网络量化方法。

附图说明

图1示出根据本申请实施例的示例性电子设备的结构图；

图2示出现有技术一提出的将浮点转换为定点的方法示意图；

图3示出现有技术二提出的将浮点转换为定点的方法示意图；

图4示出根据本申请实施例的电子设备的一种示例性的工作方式；

图5示出根据本申请实施例的电子设备的一种示例性的工作方式；

图6示出根据本申请实施例的电子设备的示例性应用场景；

图7示出根据本申请实施例的神经网络量化方法的示例性工作流程。

具体实施方式

图1示出根据本申请实施例的示例性电子设备的结构图，所述电子设备可包括处理器、逻辑电路。电子设备还可进一步包括存储器，其中，处理器、逻辑电路可例如连接存储器。处理器和逻辑电路能够获取存储器存储的数据，以及输出数据到存储器。存储器可存储有执行根据本申请实施例所需的预设值(例如后文中的预设的定点数的值域信息、预设的定点量化系数等)，还可以存储浮点数据，例如浮点神经网络模型的参数或输入数据，以及执行过程中的中间结果和最终结果等。处理器可基于浮点数据进行处理得到逻辑电路的输入参数，并通过扩大倍数的方式提升逻辑电路的输入参数的精度。逻辑电路可例如能够获取处理器产生的输入参数以及待量化数据，并进行算术运算以及移位运算，输出提高精度的定点数据，该提高精度的定点数据可作为定点神经网络模型的参数或输入数据，输出到存储器进行存储。

下面结合图2-图3介绍对浮点神经网络模型的参数进行量化的技术原理。

图2示出现有技术一提出的将浮点转换为定点的方法示意图。现有技术一提出的将浮点转换为定点的理论线性变换公式如公式(1)所示：

Xq＝round((X+Z1)*S1) (1)

在公式(1)中，X表示待量化的浮点数，例如浮点神经网络模型的参数或输入数据，Xq表示量化后的定点整数。Z1表示零点偏移，S1表示量化系数，round表示将浮点数四舍五入为定点整数的函数。现有技术一通过设计相应的逻辑电路实现公式(1)的运算。

其中，浮点数X可以有多个，根据多个浮点数X，可以确定浮点数X的值域[Xmin，Xmax]。其中，Xmin表示浮点数X的最小值，Xmax表示浮点数X的最大值。定点整数Xq的值域[Qmin，Qmax]可以根据量化需求预先设置，其中，Qmin表示定点整数Xq的最小值，Qmax表示定点整数Xq的最大值。零点偏移Z1可设置为等于浮点数X的最小值Xmin。量化系数S1可由定点整数Xq的最大值Qmax和定点整数Xq的最小值Qmin的差，与浮点数X的最大值Xmax和浮点数X的最小值Xmin的差相除得到，如公式(2)所示：

S1＝(Qmax-Qmin)/(Xmax-Xmin) (2)

因此，浮点数X、零点偏移Z1、量化系数S1均为浮点形式的数值。

如图2所示，基于现有技术一的技术方案，可以通过处理器根据浮点数的最大值、最小值以及预设的定点整数最大值、最小值，确定量化系数S1以及零点偏移Z1，并将量化系数S1以及零点偏移Z1作为参数输入到逻辑电路。在逻辑电路中进行浮点加法(或减法)运算(即公式(1)中的X+Z1)，浮点乘法运算(即公式(1)中的(X+Z1)*S1)，以及舍入处理(即round((X+Z1)*S1))，得到与浮点数X对应的定点整数Xq。

现有技术一的方案，通过对神经网络的参数或输入数据进行量化，使得在神经网络中能够基于量化得到的定点整数进行运算，可以降低在神经网络中进行运算所需的硬件成本。缺点在于，在对神经网络的参数或输入数据进行量化时，采用逻辑电路实现浮点乘法运算和浮点减法(或加法)运算的方式，使得量化过程所需的逻辑电路硬件成本比较大，尤其在神经网络模型以高性能运行的场景下，例如并行处理多个浮点数的量化，需要逻辑电路实现并行的浮点加法运算和浮点乘法运算时，逻辑电路的面积及功耗代价随着并行度的提高进一步增大，对控制硬件成本十分不利。

因此，在现有技术一的基础上，现有技术二提出一种神经网络量化的改进方案，图3示出现有技术二提出的将浮点转换为定点的方法示意图。现有技术二提出的将浮点转换为定点的线性变换公式如公式(3)所示：

Xq＝round(X*S1)+Zq (3)

公式(3)中，X表示待量化的浮点数，例如浮点神经网络模型的参数或输入数据，Xq表示量化后的定点整数。S1表示量化系数，获取方式参照上文公式(2)，round表示将浮点数四舍五入为定点整数的函数。Zq＝round(Z1*S1)，表示定点形式的零点偏移，即，零点偏移Zq是零点偏移Z1的量化结果。现有技术二通过设计相应的逻辑电路实现公式(3)的运算。

如图3所示，基于现有技术二的技术方案，可以通过处理器根据浮点数的最大值、最小值以及预设的定点整数最大值、最小值，确定量化系数S1以及零点偏移Z1，并结合舍入函数round，进一步确定定点形式的零点偏移Zq，其中零点偏移Zq为整数，并将量化系数S1以及定点形式的零点偏移Zq作为参数输入到逻辑电路。在逻辑电路中进行的是浮点乘法运算(即公式(3)中的X*S1)，舍入处理(即公式(3)中的round(X*S1))，以及定点加法运算(即公式(3)中的round(X*S1)+Zq)，得到与浮点数X对应的定点整数Xq。

现有技术二的方案，通过将通过处理器量化好的零点偏移Zq输入逻辑电路，采用逻辑电路实现浮点乘法运算和定点加法运算的方式，可以降低量化过程所需的逻辑电路硬件成本。缺点在于，输入到逻辑电路的零点偏移Zq，是由浮点形式的零点偏移Z1和量化系数S1的乘积进行四舍五入得到的，也就是说，量化过程在处理器和逻辑电路中共进行了两次四舍五入操作，进一步放大了量化后的神经网络模型的精度损失问题，降低了神经网络进行运算的运算结果准确度。

根据本申请实施例，提出了一种电子设备，包括处理器和逻辑电路。图4示出根据本申请实施例的电子设备的一种示例性的工作方式。

如图4所示，处理器用于：根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；

逻辑电路用于：根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。

其中，在不同的应用场景下，待量化数据可以为不同类型的数据，例如可以是处理器对浮点数据进行量化后得到的定点数据、或者神经网络处理过程中的中间结果(例如卷积层的输出结果)或最终结果等等。

图5示出根据本申请实施例的电子设备的一种示例性的工作方式。下面以待量化数据为处理器对浮点数据进行量化后得到的定点数据为例，介绍根据本申请实施例的电子设备的一种示例性的工作方式。

如图5所示，在S1中，处理器根据浮点数据X，确定浮点数据中的最大值，以下又称为浮点数最大值Xmax，和浮点数据中的最小值，以下又称为浮点数最小值Xmin，浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种，浮点数据可包括多个浮点数。例如，需要量化的神经网络模型的浮点参数通常有多个，在浮点数据包括浮点参数时，浮点数据可包括多个浮点数，每个浮点数可例如对应一个浮点参数。处理器可统计需要量化的神经网络模型的所有浮点参数的最大值和最小值，作为浮点数最大值Xmax和浮点数最小值Xmin。需要量化的神经网络模型的浮点输入数据通常包括多个数值，在浮点数据包括浮点输入数据时，浮点数据可包括多个浮点数，每个浮点数可例如对应输入浮点数据的一个数值。处理器可统计需要量化的神经网络模型的浮点输入数据的所有数值的最大值和最小值，作为浮点数最大值Xmax和浮点数最小值Xmin。步骤S1可以基于现有技术来实现。

在S2中，处理器根据浮点数最小值Xmin确定第一零点偏移Z，以及根据浮点数最大值Xmax、浮点数最小值Xmin、预设的定点数最大值Qmax、预设的定点数最小值Qmin，确定第一量化系数S，预设的定点数最大值Qmax、预设的定点数最小值Qmin根据浮点数据的最终量化结果的预设范围[Qmin，Qmax]确定。确定第一零点偏移Z的方式可例如将浮点数最小值Xmin作为第一零点偏移Z；确定第一量化系数S的方式可例如参见公式(2)，即可以将Qmax、Qmin、Xmax、Xmin带入公式(2)，得到第一量化系数S。步骤S2可以基于现有技术来实现。第一零点偏移Z对应于现有技术中的零点偏移Z1，第一量化系数S对应于现有技术中的量化系数S1。

在S3中，处理器对浮点数据X进行量化，得到第一定点数据X’。

处理器可例如根据第一量化系数S和第一零点偏移Z，对浮点数据X进行量化，得到对应的第一定点数据X’，第一定点数据X’例如包括定点神经网络模型的定点输入数据或定点神经网络模型的定点参数等。第一定点数据X’的数值范围等于预设的定点数的数值范围[Qmin，Qmax]，即处于大于等于定点数最小值Qmin且小于等于定点数最大值Qmax的范围内。处理器可基于相关技术对浮点数据进行量化，例如可将第一量化系数S和第一零点偏移Z带入公式(1)作为S1和Z1。处理器可将第一定点数据X’发送给逻辑电路，或发送给存储器供逻辑电路调用。

在S4中，处理器根据预设的定点量化系数S_shift对第一量化系数S进行倍数扩大，得到第二量化系数S’(示例可参见下文公式(4))，以及根据预设的定点量化系数S_shift和第一量化系数S对第一零点偏移Z进行倍数扩大和量化，得到第二零点偏移Zq’(示例可参见下文公式(5))。处理器可将第二量化系数S’和第二零点偏移Zq’发送给逻辑电路，或发送给存储器供逻辑电路调用。由第一量化系数S进行倍数扩大得到的第二量化系数S，和由第一零点偏移Z进行倍数扩大和量化得到的第二零点偏移Zq’提供给逻辑电路进行运算，使得在逻辑电路中进行的四舍五入的过程中，第一量化系数S和第一零点偏移Z的高精度位(例如小数位)的数值得以保留，因此能够使得逻辑电路使用第二量化系数和第二零点偏移处理得到的第二定点数据精度更高。

在S5中，逻辑电路根据第二量化系数S’和第二零点偏移Zq’，通过浮点乘法运算和定点加法运算对第一定点数据X’进行量化得到第一量化结果；根据预设的定点量化系数S_shift对第一量化结果进行移位，得到第二定点数据Xq’，以第二定点数据作为浮点数据的最终量化结果(示例可参见下文公式(6))。

其中，第一零点偏移、第一量化系数、第二量化系数是浮点形式，预设的定点量化系数、第二零点偏移是定点形式。

步骤S1-S3的具体实现方式可以参照上文中的现有技术来实现，在此不再赘述。后文中针对步骤S4和S5的示例性实现方式进行描述。

下面介绍本申请实施例的电子设备基于步骤S4确定第二量化系数S’的示例性方法。在一种可能的实现方式中，在步骤S4中，处理器根据预设的定点量化系数S_shift对第一量化系数S进行倍数扩大，得到第二量化系数，包括：

处理器根据预设的定点量化系数S_shift，确定第一量化系数S的扩大倍数；处理器根据第一量化系数S和第一量化系数S的扩大倍数的乘积，得到第二量化系数S’。

其中，预设的定点量化系数S_shift是大于或等于1的整数，第一量化系数S的扩大倍数等于以2为底数、以预设的定点量化系数S_shift为指数的数值。也即，第一量化系数S的扩大倍数等于2^S_shift。

本领域技术人员应理解，第一量化系数S的扩大倍数并不限于上述以2为底的指数形式的示例，第一量化系数S的扩大倍数也可以例如是其他数值，只要能够满足第一量化系数S扩大后得到的第二量化系数输入逻辑电路时，对逻辑电路的输出结果的数值范围带来的影响，能够通过移位消除即可，本申请对第一量化系数S的扩大方式不作限制。

第一量化系数S、第一量化系数S的扩大倍数2^S_shift与第二量化系数S’的关系如公式(4)所示：

S’＝S*2^S_shift (4)

由上文公式(2)可知，在定点数最大值Qmax和定点数最小值Qmin不变时，对于同样的浮点数据，第一量化系数S(S1)是一个定值，因此根据公式(4)，第二量化系数S’的精度由定点量化系数S_shift决定，定点量化系数S_shift的数值越大，第二量化系数S’的精度越高。且第二量化系数S’是输入到逻辑电路的参数之一，因此定点量化系数S_shift的数值越大，逻辑电路的量化精度也越高。可以根据不同的量化精度需求，预先设置适合的定点量化系数S_shift。

在此情况下，第二量化系数S’对应的二进制形式，相当于第一量化系数S对应的二进制形式的每个数字向左移动对应位移位数(位数等于定点量化系数S_shift)，高位移出(舍弃)，低位的空位补0，得到的移位结果。在此情况下，可认为是通过对第一量化系数S进行扩大倍数，使得第一量化系数S中高精度(例如小数精度)部分的数值向高位移动，在四舍五入中未被舍去，保留下来，得到第二量化系数S’，因此第二量化系数S’保留了第一量化系数S的高精度部分，其精度高于扩大倍数前的第一量化系数S。

下面介绍根据本申请实施例的电子设备基于步骤S4确定第二零点偏移Zq’的示例性方法。在一种可能的实现方式中，在步骤S4中，根据预设的定点量化系数S_shift和第一量化系数S对第一零点偏移Z进行倍数扩大和量化，得到第二零点偏移Zq’，包括：

处理器根据预设的定点量化系数S_shift，确定第一零点偏移Z的扩大倍数；处理器对第一量化系数S、第一零点偏移Z的扩大倍数、第一零点偏移Z的乘积进行舍入，得到第二零点偏移Zq’。

其中，第一零点偏移Z的扩大倍数等于第一量化系数S的扩大倍数。也即，第一零点偏移Z的扩大倍数等于2^S_shift。在此情况下，使用第一量化系数S和第一零点偏移Z的扩大倍数对第一零点偏移Z进行倍数扩大和量化时，得到第二零点偏移Zq’，相比现有技术公式(3)中仅使用量化系数S1对零点偏移Z1进行量化得到的零点偏移Zq，也扩大了2^S_shift倍。

第一量化系数S、第一零点偏移Z的扩大倍数2^S_shift、第一零点偏移Z与第二零点偏移Zq’的关系如公式(5)所示：

Zq’＝round(Z*S*2^S_shift)＝round(Z*S’) (5)

根据现有技术的相关描述，对于同样的浮点数据，第一零点偏移Z(零点偏移Z1)是一个定值；由上文公式(2)可知，在定点数最大值Qmax和定点数最小值Qmin不变时，对于同样的浮点数据，第一量化系数S(S1)是一个定值，因此根据公式(5)，第二零点偏移Zq’的精度由第一零点偏移Z的扩大倍数2^S_shift决定，定点量化系数S_shift的数值越大，第二零点偏移Zq’的精度越高。且第二零点偏移Zq’是输入到逻辑电路的参数之一，因此定点量化系数S_shift的数值越大，逻辑电路的量化精度也越高。

由于所述第一零点偏移Z的扩大倍数等于第一量化系数S的扩大倍数，因此，第一量化系数S、第一零点偏移Z的扩大倍数的乘积，可等于第二量化系数S’，参见公式(4)，第二零点偏移Zq’也可看作第一零点偏移Z与第二量化系数S’的乘积的舍入结果。在此情况下，第一零点偏移Z与第二量化系数S’的乘积(Z*S’)对应的二进制形式，相当于第一零点偏移Z与第一量化系数S乘积(Z*S)对应的二进制形式的每个数字向左移动对应位移位数(位数等于定点量化系数S_shift)，高位移出(舍弃)，低位的空位补0，得到的移位结果。因此第一零点偏移Z与第二量化系数S’的乘积的精度，高于扩大倍数前的第一零点偏移Z与第一量化系数S的乘积的精度。对第一零点偏移Z与第二量化系数S’的乘积进行四舍五入的量化处理，得到的第二零点偏移Zq’(参见公式(5))的精度，也高于对第一零点偏移Z与第一量化系数S的乘积进行四舍五入的量化处理，得到的零点偏移Zq(参见公式(3))的精度。在此情况下，可认为是通过扩大倍数，使得第一零点偏移Z中，高精度(例如小数精度)部分的数值向高位移动，在四舍五入中未被舍去，保留下来，得到第二零点偏移Zq，因此第二零点偏移Zq保留了第一零点偏移Z的高精度部分，其精度高于现有技术的零点偏移Zq，并更接近于第一零点偏移Z。从而能够提高输入逻辑电路的参数精度。

步骤S4可以在完成步骤S2之后进行。本申请实施例不限制S3和S4的执行顺序。

由于倍数扩大，使得逻辑电路使用第二量化系数执行步骤S5时，得到的第一量化结果也出现倍数扩大，在此情况下，第一量化结果的范围不能满足浮点数据的最终量化结果的预设范围，因此步骤S5通过移位获得第二定点数据，使得第二定点数据的数值满足浮点数据的最终量化结果的预设范围。

下面介绍根据本申请实施例的电子设备基于步骤S5确定第一量化结果、并基于第一量化结果确定浮点数据的最终量化结果的示例性方法。

在一种可能的实现方式中，步骤S5中，逻辑电路根据第二量化系数S’和第二零点偏移Zq’，通过浮点乘法运算和定点加法运算对第一定点数据X’进行量化得到第一量化结果，包括：

逻辑电路对第二量化系数S’和第一定点数据X’的乘积进行舍入，得到第二量化结果；逻辑电路根据第二量化结果与第二零点偏移Zq’的和，得到第一量化结果。

举例来说，第二量化系数S’在第一量化系数(现有技术的量化系数S1)的基础上扩大了2^S_shift倍，因此，根据第二量化系数S’和第一定点数据X’相乘得到的乘积X’*S’也扩大了2^S_shift倍，该乘积的舍入结果round(X’*S’)(第二量化结果)是扩大倍数后的舍入结果。且根据上文描述，第二零点偏移Zq’是第一零点偏移Z与第二量化系数S’的乘积的舍入结果，因此，第二零点偏移Zq’是扩大倍数后的舍入结果。由于扩大倍数相同(2^S_shift)，因此第二零点偏移Zq’能够与第二量化结果进行定点加法运算，得到第一量化结果(round(X’*S’)+Zq’)。在此情况下，第一量化结果是倍数扩大的量化结果。且扩大的倍数等于2^S_shift。

在一种可能的实现方式中，步骤S5中，根据预设的定点量化系数S_shift对第一量化结果进行移位，得到第二定点数据Xq’，包括：

逻辑电路对第一量化结果进行向右移位，移位的位数等于预设的定点量化系数S_shift。

第一量化结果、预设的定点量化系数S_shift与第二定点数据Xq’可如公式(6)所示：

Xq’＝(round(X’*S’)+Zq’)>>S_shift (6)

其中，“>>”表示向右移位。由于确定第二量化系数S’以及第二零点偏移Zq’时，进行了倍数为2^S_shift的扩大处理，因此，第一量化结果也扩大了2^S_shift倍。基于此，在步骤S5中，可以通过移位操作，将第一量化结果缩小相应的倍数，得到第二定点数据。这样，可以使得第二定点数据处于预设的[Qmin，Qmax]的定点数值域，使得后续可以对第二定点数据进行卷积运算。

其中，移位是一种位运算，右移是按二进制形式把所有的数字向右移动对应位移位数(定点量化系数)S_shift，低位移出(舍弃)，高位的空位补符号位，即正数补零，负数补1。右移S_shift位时，相当于使得第二量化结果除以2^S_shift后取整。

其中，在逻辑电路中，进行浮点乘法运算可以得到第一定点数据X’以及第二量化系数S’的乘积，进行定点加法运算可以得到第一量化结果，进行移位运算可以得到第二定点数据。通过这种方式，使得逻辑电路仅需要进行浮点乘法运算、定点加法运算以及移位操作，面积和功耗较小，可以以较低的硬件成本实现神经网络量化。

在此情况下，在神经网络中，可基于精度提高的第二定点数据进行卷积运算。

图6示出根据本申请实施例的电子设备的示例性应用场景。举例来说，参见图6的应用场景，其中，处理器执行上文所述的步骤S3可以完成对浮点数据的处理，获得待量化数据(第一定点数据)，在此情况下，待量化数据为处理器对浮点数据进行量化后得到的定点数据，根据待量化数据可以部署定点神经网络模型，例如使处理器执行上述步骤S3，对浮点输入数据和浮点参数进行量化，得到定点输入数据和定点参数(第一定点数据)，从而得到定点神经网络及定点输入数据。其中，对浮点输入数据和浮点参数进行量化时，可以针对浮点输入数据得到一组第一量化系数和第一零点偏移，针对神经网络的多层的参数可以分别得到多组第一量化系数和第一零点偏移。由于输入数据的数值和各层参数的数值可能不同，因此输入数据和各层参数的浮点数最大值和浮点数最小值也可能不同，使得多组第一量化系数和第一零点偏移不同。在处理得到以上所述的输入数据和多层参数对应的多组第一量化系数和第一零点偏移时，使用相同的定点数最大值、定点数最小值的前提下，处理器执行上所述的步骤S3得到的待量化数据均处于相同的预设范围，即满足取值在Qmin-Qmax之间。

处理器可以执行上文所述的步骤S4完成第一量化系数和第一零点偏移的处理，得到第二量化系数和第二零点偏移。其中，多组第一量化系数和第一零点偏移，分别对应多组第二量化系数、第二量化偏移和定点量化系数。第二量化系数、第二量化偏移和定点量化系数作为输入参数输入到逻辑电路时，每次输入一组第二量化系数、第二量化偏移和定点量化系数。

逻辑电路可例如能够获取处理器产生的输入参数(一组第二量化系数、第二零点偏移和定点量化系数)以及处理器产生的第一定点数据(与该组第二量化系数、第二零点偏移和定点量化系数对应)，并在定点神经网络模型的运行过程中进行算术运算以及移位运算，得到与第一定点数据对应且精确度更高的第二定点数据，使得定点神经网络模型基于第二定点数据进行卷积运算输出的卷积结果精度更高，该精度更高的卷积结果可作为下一个卷积层的输入数据，以用于下一个卷积层的卷积运算过程中。

例如，在定点神经网络的输入数据和各层参数均处于相同的预设范围(例如-128～127)的情况下，以处理器得到的定点神经网络对输入数据(用a表示)进行运算，则在定点神经网络开始运行时，首先完成的是定点神经网络的输入数据与神经网络第一层参数(权重)的卷积，该输入数据可以是浮点输入数据经处理器量化后得到的定点形式的输入数据(第一定点数据X’的示例)，例如用a表示，该参数可以是神经网络第一层浮点参数经处理器量化后的得到的定点形式的参数(第一定点数据X’的示例)，例如用b表示。逻辑电路可以对输入数据a和参数b分别处理，得到精确度更高的输入数据a1和参数b1(第二定点数据)。例如，逻辑电路对输入数据a进行处理时，输入数据a作为待量化数据输入到逻辑电路，输入数据a对应的一组第二量化系数、第二量化偏移(根据输入数据a对应的浮点数据的最大值、最小值，以及输入数据a对应的定点数据的值域确定)和定点量化系数也输入到逻辑电路。在此情况下，逻辑电路可以计算并输出数据a1。同理，逻辑电路对参数b进行处理时，参数 b作为待量化数据输入到逻辑电路，参数b对应的一组第二量化系数、第二量化偏移(根据参数b对应的浮点数据的最大值、最小值，以参数b对应的定点数据的值域确定)和定点量化系数也输入到逻辑电路。在此情况下，逻辑电路可以计算并输出参数b1。定点神经网络中，基于输入数据a1和参数b1进行卷积，得到卷积结果c1。这样，卷积结果c1相比输入数据a和参数b的卷积结果，精确度更高，以此类推，神经网络对任意一层的卷积结果和权重进行卷积时，卷积结果已经是提高精确度的卷积结果，逻辑电路对权重进行处理，得到提高精确度的权重，使得每层的卷积运算的结果都能够达到比较高的精确度。在处理器根据任意一层的卷积结果反量化得到卷积结果对应的浮点卷积结果时，得到的浮点卷积结果的准确度也更高，更接近原始的浮点神经网络的对应一层的浮点卷积结果。

逻辑电路的工作过程可以看作先将待量化数据的数值范围以映射的方式先调整到一个大于预设的定点数值域的数值范围，以提高精度，进行高精度的运算，再将运算结果以映射的方式还原到预设的定点数值域，实现量化。在应用中，可以根据不同的需求，针对不同的浮点数据，设置不同的定点量化系数S_shift。例如对于浮点数据A，可使得S_shift＝M，对于浮点数据B，可使得S_shift＝N，在浮点数据A对提高精度的要求高于浮点数据B时，可使得M>N，可通过设置不同的定点量化系数S_shift，使得神经网络模型中的定点参数和定点输入数据达到所需要的精度要求。

相比现有技术量化得到的定点数据，第二定点数据的精度更接近原始的浮点数据，从而能提高量化后的神经网络的输出数据的准确度。

在一种可能的实现方式中，本申请实施例提出的逻辑电路可以是算术逻辑单元(arithmetic logical unit，ALU)，用于实现公式(6)所示的算术运算和移位运算。在此情况下，逻辑电路采用浮点乘法、定点加法、移位方式，面积及功耗成本较低，尤其在并行量化处理中，随着并行度的增加，面积功耗优势明显；且输入逻辑电路的参数精度更高，使得逻辑电路的量化结果准确度更高。

在一种可能的实现方式中，根据本申请实施例的电子设备还包括存储器，存储器用于存储浮点数据、预设的定点数最大值、预设的定点数最小值、第一定点数据、第二零点偏移、第二量化系数、预设的定点量化系数、待量化数据的最终量化结果中的一种或多种。

其中，在上文所述的不同的应用场景下，待量化数据可以是处理器对浮点数据进行量化后得到的定点数据、或者神经网络运行的中间结果或最终结果。

在一种可能的实现方式中，本申请实施例的逻辑电路根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对所述待量化数据进行量化，得到第一量化结果，包括：

对所述第二量化系数和所述待量化数据的乘积进行舍入，得到第二量化结果；根据所述第二量化结果与所述第二零点偏移的和，得到所述第一量化结果。

其中，待量化数据是处理器对浮点数据进行量化后得到的定点数据时，可以参见上文中的步骤S5及相关描述。

在一种可能的实现方式中，本申请实施例的逻辑电路根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述浮点数据的最终量化结果，包括：

所述逻辑电路对所述第一量化结果进行向右移位，得到所述浮点数据的最终量化结果，移位的位数等于所述预设的定点量化系数。

本申请还提出一种神经网络量化方法，图7示出根据本申请实施例的神经网络量化方法的示例性工作流程。如图7所示，该方法可应用于根据本申请实施例的电子设备，包括：

S1101，处理器根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；

S1102，处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；

S1103，逻辑电路根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。

关于该方法的示例性说明可参见上文，此处不再重复。

在一种可能的实现方式中，处理器根据预设的定点量化系数对第一量化系数进行倍数扩大，得到第二量化系数，包括：处理器根据预设的定点量化系数，确定第一量化系数的扩大倍数；处理器根据第一量化系数和第一量化系数的扩大倍数的乘积，得到第二量化系数。

在一种可能的实现方式中，预设的定点量化系数是大于或等于1的整数，第一量化系数的扩大倍数等于以2为底数、以预设的定点量化系数为指数的数值。

在一种可能的实现方式中，根据预设的定点量化系数和第一量化系数对第一零点偏移进行倍数扩大和量化，得到第二零点偏移，包括：根据预设的定点量化系数，确定第一零点偏移的扩大倍数；对第一量化系数、第一零点偏移的扩大倍数、第一零点偏移的乘积进行舍入，得到所述第二零点偏移。

在一种可能的实现方式中，第一零点偏移的扩大倍数等于第一量化系数的扩大倍数。

在一种可能的实现方式中，根据第二量化系数和第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果，包括：对第二量化系数和待量化数据的乘积进行舍入，得到第二量化结果；根据第二量化结果与第二零点偏移的和，得到第一量化结果。

在一种可能的实现方式中，根据预设的定点量化系数对第一量化结果进行移位，得到待量化数据的最终量化结果，包括：逻辑电路对第一量化结果进行向右移位，得到待量化数据的最终量化结果，移位的位数等于预设的定点量化系数。

在一种可能的实现方式中，所述方法还包括：存储所述浮点数据、预设的定点数最大值、预设的定点数最小值、第一定点数据、第二零点偏移、第二量化系数、预设的定点量化系数、待量化数据的最终量化结果中的一种或多种。

在一种可能的实现方式中，逻辑电路包括算术逻辑单元ALU。

在一种可能的实现方式中，待量化数据包括处理器对浮点数据进行量化后得到的定点数据、神经网络处理过程中的中间结果或最终结果中的一种或多种。

以上方法的示例性描述可参见上文，此处不再赘述。

在一种可能的实现方式中，本申请提出一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述神经网络量化方法。

在一种可能的实现方式中，本申请提出一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在处理器中运行时，所述处理器执行上述神经网络量化方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种电子设备，其特征在于，包括处理器和逻辑电路：

所述处理器，用于：

根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；

根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；

所述逻辑电路，用于根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。
根据权利要求1所述的电子设备，其特征在于，所述处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，包括：

所述处理器根据所述预设的定点量化系数，确定所述第一量化系数的扩大倍数；

所述处理器根据所述第一量化系数和所述第一量化系数的扩大倍数的乘积，得到所述第二量化系数。
根据权利要求2所述的电子设备，其特征在于，所述预设的定点量化系数是大于或等于1的整数，所述第一量化系数的扩大倍数等于以2为底数、以所述预设的定点量化系数为指数的数值。
根据权利要求3所述的电子设备，其特征在于，根据预设的定点量化系数和第一量化系数对第一零点偏移进行倍数扩大和量化，得到第二零点偏移，包括：

根据所述预设的定点量化系数，确定所述第一零点偏移的扩大倍数；

对所述第一量化系数、所述第一零点偏移的扩大倍数、所述第一零点偏移的乘积进行舍入，得到所述第二零点偏移。
根据权利要求4所述的电子设备，其特征在于，所述第一零点偏移的扩大倍数等于所述第一量化系数的扩大倍数。
根据权利要求1-5中任一项所述的电子设备，其特征在于，根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对所述待量化数据进行量化，得到第一量化结果，包括：

对所述第二量化系数和所述待量化数据的乘积进行舍入，得到第二量化结果；

根据所述第二量化结果与所述第二零点偏移的和，得到所述第一量化结果。
根据权利要求3-6中任一项所述的电子设备，其特征在于，根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果，包括：

所述逻辑电路对所述第一量化结果进行向右移位，得到所述待量化数据的最终量化结果，移位的位数等于所述预设的定点量化系数。
根据权利要求1-7中任意一项所述的电子设备，其特征在于，所述电子设备还包括存储器，所述存储器用于存储所述浮点数据、所述预设的定点数最大值、所述预设的定点数最小值、所述第一定点数据、所述第二零点偏移、所述第二量化系数、所述预设的定点量化系数、所述待量化数据的最终量化结果中的一种或多种。
根据权利要求1-8中任意一项所述的电子设备，其特征在于，所述逻辑电路包括算术逻辑单元ALU。
根据权利要求1-9中任意一项所述的电子设备，其特征在于，所述待量化数据包括处理器对浮点数据进行量化后得到的定点数据、神经网络处理过程中的中间结果或最终结果中的一种或多种。
一种神经网络量化方法，其特征在于，所述方法包括：

处理器根据浮点数据中的最大值和最小值、以及预设的定点数最大值和预设的定点数最小值，确定第一零点偏移和第一量化系数，所述浮点数据包括神经网络的浮点参数或浮点输入数据中的至少一种；

所述处理器根据预设的定点量化系数对所述第一量化系数进行倍数扩大，得到第二量化系数，以及根据所述预设的定点量化系数和所述第一量化系数对所述第一零点偏移进行倍数扩大和量化，得到第二零点偏移；

逻辑电路根据所述第二量化系数和所述第二零点偏移，通过浮点乘法运算和定点加法运算对待量化数据进行量化，得到第一量化结果；根据所述预设的定点量化系数对所述第一量化结果进行移位，得到所述待量化数据的最终量化结果。
一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求11所述的方法。
一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，其特征在于，当所述计算机可读代码在处理器中运行时，所述处理器执行权利要求11所述的方法。