WO2021077283A1

WO2021077283A1 - 神经网络计算压缩方法、系统及存储介质

Info

Publication number: WO2021077283A1
Application number: PCT/CN2019/112465
Authority: WO
Inventors: 熊超; 牛昕宇; 蔡权雄
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-04-29
Also published as: CN114365147A

Abstract

一种神经网络计算压缩方法、系统及存储介质，所述方法包括：获取神经网络中每层浮点数的统计量（S110）；根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数（S120）；根据所述压缩参数对所述神经网络进行定点数数据的压缩计算（S130）。

Description

神经网络计算压缩方法、系统及存储介质

技术领域

本申请实施例涉及神经网络领域，例如涉及一种神经网络计算压缩方法、系统及存储介质。

背景技术

神经网络是一种运算模型，由大量的节点(或称神经元)和节点之间的相互联接构成。神经网络技术也叫做深度学习技术，深度学习技术的发展趋势在于网络层数越来越深，每层的尺寸越来越大。相对应的，深度学习技术对于算力的要求也越来越高，然而专用芯片的算力提升速度远不能达到深度学习算法的要求。为了解决这一问题，对于神经网络的计算压缩成为了解决加速问题的一个重要方向，受到了学术界和工业界的广泛关注。

对于神经网络的计算压缩，一个方向是对神经网络的网络结构进行压缩。对于网络结构的压缩又分为两个方面，一方面是对网络层数进行压缩，即减少网络层数；另一方面是对网络每层尺寸进行压缩，即对神经元数量的压缩。压缩网络层数通常采用蒸馏的方法，蒸馏的方法的主要思路是将大网络的数据传递到一个预定义的小网络结构中去。压缩每层尺寸通常采用剪枝的方法，剪枝的方法的主要思路是依据一种标准评价每个神经元连接的重要性，只保留重要性较高的连接。

但是，对神经网络的结构进行压缩后，使用该神经网络时通常需要进行网络的重训练，即使用压缩好的网络结构重新在原始数据集上进行训练。然而，这种方式对于计算设备、部署时间等因素要求较高，在很多场景下并不适用。

发明内容

本申请实施例提供一种神经网络计算压缩方法、系统及存储介质，以实现对神经网络计算进行数据压缩，提高神经网络的计算效率，降低神经网络的部署时间。

本申请实施例提供一种神经网络计算压缩方法，包括：

获取神经网络中每层浮点数的统计量；

根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；

根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

本申请实施例提供一种神经网络计算压缩系统，包括：

统计量获取模块，设置为获取神经网络中每层浮点数的统计量；

压缩参数获取模块，设置为根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；

压缩计算模块，设置为根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的神经网络计算压缩方法。

附图说明

图1为本申请实施例一提供的一种神经网络计算压缩方法的流程示意图；

图2为本申请实施例二提供的另一种神经网络计算压缩方法的流程示意图；

图3为本申请实施例三提供的另一种神经网络计算压缩方法的流程示意图；

图4为本申请实施例四提供的一种神经网络计算压缩系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。本文所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是本文中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当多个步骤操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一计算图称为第二计算图，且类似地，可将第二计算图称为第一计算图。第一计算图和第二计算图两者都是计算图，但第一计算图和第二计算图不是同一计算图。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有限定。

实施例一

图1为本申请实施例一提供的一种神经网络计算压缩方法的流程示意图，可适用于在神经网络的运算过程中对数据进行压缩计算。该方法可以由神经网络计算压缩系统来执行，该系统可以采用软件和/或硬件的方式实现，并可集成在硬件设备上，例如芯片、板卡等。

如图1所示，本申请实施例一提供的一种神经网络计算压缩方法包括：

S110、获取神经网络中每层浮点数的统计量。

本实施例中，在机器语言中的数据(实数)表示方法通常有两种：浮点数和定点数。定点数表达实数时，小数点位置是固定的，并且小数点在机器中是不表示出来的，而是事先约定在固定的位置，一旦确定小数点的位置，就不能改变，所以定点数表示的数据范围有限，相应的占用的内存空间(比特)小。浮点数利用科学计数法来表达实数，即用一个尾数，一个基数，一个指数以及一个表示正负的符号来表达实数，例如，表示实数123.45的浮点数为1.2345x10 ²，在1.2345x10 ²中，1.2345为尾数，10为基数，2为指数。浮点数通过指数达到了浮动小数点的效果，从而可以灵活地表达大范围的数据，相应的占用的内存空间(比特)大。神经网络是一种模拟人脑的神经网络以实现类人工智能的机器学习技术，神经网络的数据通常情况下都采用32比特浮点数的表达形式。

统计量是神经网络中每层浮点数的数据统计，先根据数值范围对数据进行分类，再统计每一类数据的量，可以用直方图表示。对数据进行分类的方式有多种，可以根据数据的数值范围进行分类，也可以根据数据的含量进行分类，本申请实施例不做限制。例如，神经网络某一层包含的浮点数有：1x2 ⁷、1x2 ⁷、1x2 ⁸、1x2 ⁹、1x2 ⁹、1x2 ⁷、1x2 ⁶，以s表示一类大小的数据且为统计量直方图中的横轴，以y表示一类大小的数据的量且为统计量直方图中的纵轴，将1x2 ⁶≤s＜1x2 ⁷分为第一类，将1x2 ⁷≤s＜1x2 ⁸分为第二类，将1x2 ⁸≤s＜1x2 ⁹分为第三类，将s≥1x2 ⁹分为第四类，则神经网络中该层浮点数的统计量可以表示为：第一类数据：1个、第二类数据：3个、第三类数据：1个、第四类数据：2个。

S120、根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数。

本实施例中，根据统计量将每层浮点数数据转化为定点数数据，压缩参数可以看成是每层浮点数数据与定点数数据之间的转换参数或者转换规则。可以是将一类型的浮点数都转换为一相同的低比特定点数，也可以是不同类型的浮点数按照不同的转换规则转换为对应的定点数，本申请实施例对转换参数不做限制，可以根据实际情况进行选择。例如，将第一类1x2 ⁶≤s＜1x2 ⁷数据转换为包含4位小数位的8比特二进制数，将第二类1x2 ⁷≤s＜1x2 ⁸数据转换为包含3位小数位的8比特二进制数，将第三类1x2 ⁸≤s＜1x2 ⁹数据和第四类s≥1x2 ⁹数据都转换为包含2位小数位的8比特二进制数。

S130、根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

本实施例中，获得压缩参数后，将压缩参数导入需要进行计算的神经网络的计算图中，就可以将神经网络中的浮点数转化为相应的低比特的定点数进行压缩计算。

本申请实施例一提供的神经网络计算压缩方法通过获取神经网络中每层浮点数的统计量；根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。实现了将神经网络的浮点数转换为低比特的定点数进行运算，降低神经网络的计算量和所需计算空间，提高了神经网络的计算效率；并且，只针对神经网络的数据进行压缩，不涉及对神经网络结构的修改，利用获取压缩参数后的神经网络进行计算时，不需要对神经网络进行重新训练，提高了神经网络的部署速度。

实施例二

图2为本申请实施例二提供的另一种神经网络计算压缩方法的流程示意图，本实施例在上述实施例的基础上进行说明。如图2所示，本申请实施例二提供的一种神经网络计算压缩方法包括：

S210、构建神经网络的第一计算图。

本实施例中，计算图是神经网络在进行运算时神经网络模型结构的一种表达形式，包括多个计算节点和计算节点之间的连接关系，神经网络的一层可以看成是一个计算节点，每个计算节点还包括进行实际计算时的节点数据，也就是神经网络运算时，需要进行压缩的数据，节点数据一般采用32比特浮点数的表达形式。构建神经网络的第一计算图，就是构建神经网络进行运算时的第一计算图，包括多个第一计算节点和第一计算节点之间的连接关系。

S220、在所述第一计算图中插入统计节点形成所述神经网络的第二计算图。

本实施例中，统计节点用来统计神经网络中每层浮点数的统计量。将统计节点插入第一计算图中的第一计算节点之后，形成神经网络的第二计算图。在构建神经网络的第二计算图时，可以根据需要插入统计节点，例如，可以在每个第一计算节点之后都插入一个统计节点，也可以在需要进行数据压缩的第一计算节点之后插入统计节点。本申请实施例二在每个第一计算节点之后都插入一个统计节点。由于只在第一计算节点之后插入统计节点，并未改变第一计算节点的数量以及第一计算节点间的连接关系，因此，第二计算图包含的第二计算节点与第一计算节点相同，第二计算节点间的连接关系与第一计算节点间的连接关系相同。

S230、获取所述神经网络的第一输入数据。

本实施例中，第一输入数据是获取统计量时需要对神经网络输入的数据，神经网络根据第一输入数据进行一次实际运算，则可以获取统计量。

S240、根据所述第一输入数据运行所述第二计算图。

本实施例中，将第一输入数据输入神经网络中，神经网络的第二计算图的第二计算节点获取相应的第二节点数据(与第一计算图的第一节点数据相同)，运行插入统计节点后的神经网络的第二计算图，通过第二计算图的实际运算，获取每个第二节点的统计量。第二计算图只是在第一计算图的基础上插入了统计节点，并未对神经网络的节点数据进行压缩，因此，第二计算图在进行实际运算时，仍然是以浮点数的形式进行计算。

S250、根据所述第二计算图的运行过程获取神经网络中每层浮点数的统计量。

本实施例中，神经网络的第二计算图在运行的过程中，统计节点会不断更新并记录统计量，从而获取对应第二计算节点的统计量，也就获得神经网络每层浮点数的统计量。

S260、根据所述统计量计算所述神经网络每层浮点数数据转化到定点数数据的压缩参数。

S270、根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

本申请实施例二提供的神经网络计算压缩方法通过在神经网络的第一计算图中插入统计节点形成第二计算图，然后根据第一输入数据运行第二计算图，从而获取神经网络中每层浮点数的统计量，根据统计量计算神经网络中浮点数转换到定点数的压缩参数，最后根据压缩参数对神经网络进行实际的压缩计算。统计量的获取方式简单，容易操作，本申请实施例二实现了将神经网络的浮点数转换为低比特的定点数进行运算，降低神经网络的计算量和所需计算空间，提高了神经网络的计算效率。

实施例三

图3为本申请实施例三提供的另一种神经网络计算压缩方法的流程示意图，本实施例在上述实施例的基础上进行说明。如图3所示，本申请实施例三提供的一种神经网络计算压缩方法包括：

S3010、构建神经网络的第一计算图。

S3020、在所述第一计算图中插入统计节点形成所述神经网络的第二计算图。

S3030、获取所述神经网络的第一输入数据。

S3040、根据所述第一输入数据运行所述第二计算图。

S3050、根据所述第二计算图的运行过程获取神经网络中每层浮点数的统计量。

S3060、根据所述统计量计算所述神经网络每层浮点数数据转化到定点数数据的压缩参数。

本实施例中，根据统计量将每层浮点数数据转化为定点数数据，压缩参数可以看成是每层浮点数数据与定点数数据之间的转换参数或者转换规则。可以是将一类型的浮点数据都转换为一相同的低比特定点数，也可以是不同类型的浮点数按照不同的转换规则转换为对应的定点数，本申请实施例对转换参数不做限制，可以根据实际情况进行选择。例如，将第一类1x2 ⁶≤s＜1x2 ⁷数据转换为包含4位小数位的8比特二进制数，将第二类1x2 ⁷≤s＜1x2 ⁸数据转换为包含3位小数位的8比特二进制数，将第三类1x2 ⁸≤s＜1x2 ⁹数据和第四类s≥1x2 ⁹数据都转换为包含2位小数位的8比特二进制数。

S3070、导出所述第二计算图的模型文件。

本实施例中，根据第一输入数据运行插入统计节点的第二计算图之后，将该第二计算图形成模型文件并导出，并保存压缩参数，在后续的使用过程中，可以直接使用该模型文件构建神经网络的第二计算图，压缩参数也可以重复使用，在对神经网络进行压缩计算时，不需要每次都重复步骤S3010～S3060以获取压缩参数。

S3080、根据所述第二计算图的模型文件和所述压缩参数构建第三计算图。

本实施例中，在需要对神经网络进行实际的压缩计算时，导入第二计算图的模型文件，根据该模型文件和压缩参数构建第三计算图。第三计算图包括第三计算节点以及第三计算节点间的连接关系，第三计算图在进行实际运算时，第三计算节点的数据称为第三节点数据。

一实施例中，一种构建神经网络第三计算图的方法包括步骤S30810～S30830(图中未示出)。

S30810、根据所述第二计算图的模型文件构建所述第二计算图。

本实施例中，通过第二计算图的模型文件构建神经网络的第二计算图，该第二计算图包括多个第二计算节点和第二计算节点间的连接关系，以及每个第二计算节点之后都插入了一个统计节点。

S30820、将所述第二计算图中的统计节点替换为压缩节点。

本实施例中，将第二计算图中的统计节点替换为压缩节点，压缩节点用于完成计算节点的压缩和反压缩，计算节点的压缩是指将节点数据由浮点数压缩成定点数以进行压缩计算，计算节点的反压缩是指将进行压缩计算后的计算节点输出数据由定点数转换回浮点数表达。

S30830、将所述压缩参数导入所述压缩节点，形成所述第三计算图。

本实施例中，将压缩参数导入压缩节点形成第三计算图，第三计算图为使用神经网络进行压缩计算时的计算图。由于仅对第二计算图中的统计节点做了替换，并未改变神经网络每层的数量以及连接关系，所以第三计算节点与第二计算节点相同，第三计算节点间的连接关系与第二计算节点间的连接关系相同。

S3090、获取所述神经网络的第二输入数据。

本实施例中，第二输入数据为用户使用神经网络进行计算时输入的数据，将第二输入数据输入到神经网络中，神经网络的第三计算图的第三计算节点获取相应的第三节点数据，以进行神经网络压缩计算。

S3100、根据所述第二输入数据运行所述第三计算图进行定点数数据的压缩计算。

本实施例中，将第二输入数据输入到神经网络中，第三计算图的计算节点获取相应的第三节点数据，第三节点数据通过压缩节点的压缩参数由浮点数转为低比特定点数，第三计算图通过低比特定点数进行压缩计算。

一实施例中，根据所述第二输入数据运行所述第三计算图进行定点数数据的压缩计算包括步骤S31010～S31030(图中未示出)。

S31010、将所述第二输入数据导入所述第三计算图。

S31020、根据所述压缩参数将所述第三计算图的浮点数数据压缩为定点数数据。

S31030、根据所述定点数数据进行压缩计算。

S3110、对压缩计算后得到的定点数输出数据进行反压缩，得到浮点数输出数据。

本实施例中，神经网络在进行实际运算时，是逐层进行计算的，即神经网络的一层计算完成后，该层计算得到的输出数据作为神经网络下一层进行计算的输入数据。由于神经网络进行压缩计算时的数据为定点数数据，所以每个第三计算节点进行压缩计算后相应的第三计算节点输出数据也是定点数数据，将第三计算节点压缩计算后得到的该第三计算节点的定点数输出数据通过压缩节点进行反压缩，从而得到该第三计算节点的浮点数输出数据，作为下一个第三计算节点的输入数据。

本申请实施例三提供的神经网络计算压缩方法通过将第二计算图中的统计节点替换为压缩节点构建神经网络进行压缩计算的第三计算图，通过第二输入数据运行第三计算图，通过压缩参数对节点数据进行压缩，通过压缩节点完成神经网络压缩计算后的输出数据的反压缩。只针对神经网络的数据进行压缩，不涉及对神经网络结构的修改，利用获取压缩参数后的神经网络进行计算时，不需要对其进行重新训练，提高了神经网络的部署速度。

实施例四

图4为本申请实施例四提供的一种神经网络计算压缩系统的结构示意图，可适用于在神经网络的运算过程中对数据进行压缩计算。该系统可以采用软件和/或硬件的方式实现，并可集成在硬件设备上，例如芯片、板卡等。

如图4所示，本申请实施例四提供神经网络计算压缩系统400包括统计量获取模块410、压缩参数获取模块420和压缩计算模块430。统计量获取模块410设置为获取神经网络中每层浮点数的统计量；压缩参数获取模块420设置为根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；压缩计算模块430设置为根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

一实施例中，神经网络计算压缩系统400还包括：第一计算图构建模块，设置为在所述获取神经网络中每层浮点数的统计量之前，构建所述神经网络的第一计算图；第二计算图构建模块，设置为在所述第一计算图中插入统计节点形成所述神经网络的第二计算图。

一实施例中，统计量获取模块410包括：第一输入数据获取单元，设置为获取所述神经网络的第一输入数据；第二计算图运行单元，设置为根据所述第一输入数据运行所述第二计算图；统计量获取单元，设置为根据所述第二计算图的运行过程获取所述神经网络中每层浮点数的统计量。

一实施例中，神经网络计算压缩系统400还包括：模型文件导出模块，设置为在所述根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数之后，导出所述第二计算图的模型文件。

一实施例中，压缩计算模块430包括：第三计算图构建单元，设置为根据所述第二计算图的模型文件和所述压缩参数构建第三计算图；第二输入数据获取单元，设置为获取所述神经网络的第二输入数据；第三计算图运行单元，设置为根据所述第二输入数据运行所述第三计算图进行定点数数据的压缩计算。

一实施例中，第三计算图构建单元包括：第二计算图构建子单元，设置为根据所述第二计算图的模型文件构建所述第二计算图；压缩节点替换子单元，设置为将所述第二计算图中的统计节点替换为压缩节点；第三计算图构建子单元，设置为将所述压缩参数导入所述压缩节点，形成所述第三计算图。

一实施例中，第三计算图运行单元包括：第二输入数据导入子单元，设置为将所述第二输入数据导入所述第三计算图；数据压缩子单元，设置为根据所述压缩参数将所述第三计算图的浮点数数据压缩为定点数数据；压缩计算子单元，设置为根据所述定点数数据进行压缩计算。

一实施例中，第三计算图运行单元还包括：输出数据反压缩子单元，设置为在所述根据所述定点数数据进行压缩计算之后，对压缩计算后得到的定点数输出数据进行反压缩，得到浮点数输出数据。

本申请实施例四提供的神经网络计算压缩系统通过统计量获取模块，设置为获取神经网络中每层浮点数的统计量；压缩参数获取模块，设置为根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；压缩计算模块，设置为根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。实现了将神经网络的浮点数转换为低比特的定点数进行运算，降低神经网络的计算量和所需计算空间，提高了神经网络的计算效率；并且，只针对神经网络的数据进行压缩，不涉及对神经网络结构的修改，利用获取压缩参数后的神经网络进行计算时，不需要对其进行重新训练，提高了神经网络的部署速度。

实施例五

本申请实施例五还提供了一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的神经网络计算压缩方法，该方法可以包括：获取神经网络每层浮点数的统计量；根据所述统计量计算所述神经网络每层浮点数数据转化到定点数数据的压缩参数；根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。

本申请实施例五的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，计算机可读的信号介质中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种神经网络计算压缩方法，包括：

获取神经网络中每层浮点数的统计量；

根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；

根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。
如权利要求1所述的方法，在所述获取神经网络中每层浮点数的统计量之前，还包括：

构建所述神经网络的第一计算图；

在所述第一计算图中插入统计节点形成所述神经网络的第二计算图。
如权利要求2所述的方法，其中，所述获取神经网络中每层浮点数的统计量包括：

获取神经网络的第一输入数据；

根据所述第一输入数据运行所述第二计算图；

根据所述第二计算图的运行过程获取所述神经网络中每层浮点数的统计量。
如权利要求3所述的方法，在所述根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数之后，还包括：

导出所述第二计算图的模型文件。
如权利要求4所述的方法，其中，所述根据所述压缩参数对所述神经网络进行定点数数据的压缩计算包括：

根据所述第二计算图的模型文件和所述压缩参数构建第三计算图；

获取所述神经网络的第二输入数据；

根据所述第二输入数据运行所述第三计算图进行定点数数据的压缩计算。
如权利要求5所述的方法，其中，所述根据所述第二计算图的模型文件和所述压缩参数构建第三计算图包括：

根据所述第二计算图的模型文件构建所述第二计算图；

将所述第二计算图中的统计节点替换为压缩节点；

将所述压缩参数导入所述压缩节点，形成第三计算图。
如权利要求5或6所述的方法，其中，所述根据所述第二输入数据运行所述第三计算图进行定点数数据的压缩计算包括：

将所述第二输入数据导入所述第三计算图；

根据所述压缩参数将所述第三计算图的浮点数数据压缩为定点数数据；

根据所述定点数数据进行压缩计算。
如权利要求7所述的方法，在所述根据所述定点数数据进行压缩计算之后，还包括：

对压缩计算后得到的定点数输出数据进行反压缩，得到浮点数输出数据。
一种神经网络计算压缩系统，包括：

统计量获取模块，设置为获取神经网络中每层浮点数的统计量；

压缩参数获取模块，设置为根据所述统计量计算所述神经网络中每层浮点数数据转化到定点数数据的压缩参数；

压缩计算模块，设置为根据所述压缩参数对所述神经网络进行定点数数据的压缩计算。
一种计算机可读存储介质，存储有计算机程序，所述程序被处理器执行时实现如权利要求1-8中任一项所述的神经网络计算压缩方法。