WO2020062252A1

WO2020062252A1 - 运算加速器和压缩方法

Info

Publication number: WO2020062252A1
Application number: PCT/CN2018/109117
Authority: WO
Inventors: 刘保庆; 刘虎; 陈清龙
Original assignee: 华为技术有限公司
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-02
Also published as: US20210216483A1; US11960421B2; EP3852015A4; CN112771546A; EP3852015A1

Abstract

本申请公开了一种运算加速器,该运算加速器包括：第一缓存，用于存储第一输入数据；第二缓存，用于存储权重数据；与该输入缓存和该权重缓存连接的运算电路，用于对第一输入数据和该权重数据进行矩阵乘运算以得到计算结果；压缩模块，用于对该计算结果进行压缩以得到压缩数据；与该压缩模块连接的直接存储器访问控制器DMAC，用于将该压缩数据存入到该运算加速器之外的存储器。由于在该运算加速器中增加了压缩模块，降低了从该运算加速器中搬运计算结果到存储器的数据量，节省该运算加速器的I/O带宽，提升该运算加速器的计算性能。

Description

运算加速器和压缩方法

技术领域

本申请涉及人工智能(Artificial Intelligence,AI)领域的数据计算技术，尤其涉及一种运算加速器、处理装置、压缩方法和处理方法。

背景技术

由于卷积神经网络在图像分类、图像识别、音频识别以及其他相关领域的不俗表现，使其成为了学术界与工业界的研究和开发热门。使用AI运算加速器的方法对卷积神经网络进行运算加速，可以提升卷积神经网络相关应用的运行效率，缩短卷积神经网络相关应用的执行时间，是当前的研究热点。

卷积神经网络可用于对输入图像中的具体特征进行识别，输入图像在卷积神经网络中通常要至少经过4种层，分别是卷积(Conv)层、修正线性单元(Rectified Linear Unit，Relu)(又称激活函数)层、池化(Pooling)层和全连接(FC)层。卷积(Conv)层的作用是通过多个滤波器对输入数据(即输入图像的数据)进行特征识别，每个滤波器具有一个扫描范围，用来扫描输入图像的一定区域内的数据信息。当前的Conv层得到的计算结果会被输入到下一层(比如Relu层、Pooling层或者FC层)进行处理。Relu层是对输入数据进行类似求MAX(0，x)的运算，即将输入数据中的每个值与0值进行比较，如果比0值大就保留，比0值小就置为0值。Relu层会提高输入数据的稀疏率(数据中0值个数占数据总个数的百分比)，不会改变输入数据的尺寸。池化(Pooling)层的作用是下采样，即在输入数据的每一层的二维矩阵中隔行或者隔列抽取数据，进而缩小输入数据的尺寸。全连接(FC)层与Conv层相似，唯一不同在于：FC层的滤波器不是对输入数据的某一个小区域进行扫描，而是一次性扫描整个输入数据，然后输出一个值。FC层中会有多个滤波器，对应多个不同的非常具体的图像特征，而输出的值则相当于“分值”，用以表示输入数据中包含这些特征的“可能性”。

AI运算加速器的核心是Conv和FC运算，在多数神经网络中Conv和FC运算的计算量占整个网络计算量的比例可达90％以上，因此可以说Conv和FC的运算性能通常决定了AI运算加速器的总体性能。AI运算加速器在实现Conv和FC运算时，由于涉及到的权重数据的数量较大，无法全部保存在片上缓存内，因此在推理过程中，需要将权重数据从运算加速器外部的存储器导入到运算加速器来完成计算，并且AI运算加速器在执行神经网络的上一层的运算之后所得到的计算结果的数据量也较大，难以保存在片上缓存内，需要将上一层的计算结果导出到AI运算加速器外部的存储器，在AI运算加速器需要执行该神经网络的下一层计算时，再从该存储器中导入上一层的计算结果作为输入数据来进行运算。

导入和导出输入数据都将占用AI运算加速器的输入/输出(I/O)带宽，如果I/O带宽成为瓶颈，将导致该AI运算加速器的计算功能空置，降低AI运算加速器的整体性能。

发明内容

本申请实施例提供了一种运算加速器、处理装置、压缩方法和处理方法，旨在节省运算加速器的I/O带宽，提升运算加速器的计算性能。

为达到上述目的，本申请实施例提供如下技术方案：

第一方面，本申请实施例提供了一种运算加速器，包括：

第一缓存，用于存储第一输入数据；第二缓存，用于存储权重数据；与第一缓存和第二缓存连接的运算电路，用于对第一输入数据和权重数据进行矩阵乘运算以得到计算结果；压缩模块，用于对该计算结果进行压缩以得到压缩数据；与该压缩模块连接的直接存储器访问控制器DMAC，用于将该压缩数据存入到运算加速器之外的存储器。

其中，第一缓存是运算加速器中的输入缓存，第二缓存是运算加速器中的权重缓存存储器。

由于该运算加速器中增加了压缩模块，降低了从该运算加速器中搬运计算结果到运算加速器外部的存储器的数据量，节省该运算加速器的I/O带宽，提升该运算加速器的计算性能。

在一个可选的实现方式中，该运算加速器还包括：

与该DMAC和该第一缓存连接的解压缩模块，用于接收由该DMAC从该存储器中获取的该压缩数据，对该压缩数据进行解压，并将解压后的数据作为第二输入数据存入该第一缓存；该运算电路，还用于从该第一缓存中获取该第二输入数据以进行矩阵乘运算。

由于该运算加速器中增加了解压缩模块，降低了从存储器中搬运计算结果到该运算加速器中进行下一次计算的数据量，节省该运算加速器的I/O带宽，提升该运算加速器的计算性能。

在一个可选的实现方式中，该运算加速器还包括：

第三缓存，用于存储控制指令，该控制指令用于指示是否对该计算结果进行压缩和解压缩，其中，第三缓存是该运算加速器中的取指缓存；与该第三缓存连接的控制器，用于从该第三缓存中获取该控制指令，并且解析该控制指令，在该控制指令指示对该计算结果进行压缩和解压缩时，控制该压缩模块对该计算结果进行压缩以得到该压缩数据，以及控制该解压缩模块对获取的该压缩数据进行解压缩。

在一个可选的实现方式中，该运算加速器还包括：

与该运算电路连接的第四缓存，用于存储该运算电路计算的该计算结果，其中，第四缓存为该运算加速器中的统一缓存；该控制器，还用于在该控制指令指示对该计算结果不进行压缩和解压缩时，控制该DMAC将该第四缓存中的该计算结果存入该存储器，以及控制该DMAC将该存储器中的该计算结果存入该第一缓存。

由于运算加速器中控制器确定是否启动压缩和解压缩功能，可以避免对神经网络中稀疏率较低的输入数据进行计算所生成的计算结果启动压缩和解压缩，从而提高压缩收益和解压缩收益。

在一个可选的实现方式中，该运算加速器还包括：

第三缓存，用于存储控制指令，该控制指令用于指示是否对该计算结果进行压缩和解压缩；与该第三缓存连接的控制器，用于从该第三缓存中获取该控制指令，并且将该控制指令分发给该压缩模块和该解压缩模块；该压缩模块，用于解析该控制指令，在该控制指令指示对该计算结果进行压缩时，对该计算结果进行压缩以得到该压缩数据；该解压缩模块，用于解析该控制指令，在该控制指令指示对该计算结果进行解压缩时，对获取的该压缩数据进行解压缩。

由于运算加速器中压缩模块确定是否启动压缩，可以避免对神经网络中稀疏率较低的输入数据进行计算所生成的计算结果启动压缩，提高压缩收益，以及运算加速器中解压缩模块确定是否启动解压缩，可以避免对神经网络中稀疏率较低的输入数据进行计算所生成的计算结果启动解压缩，提高解压缩收益。

在一个可选的实现方式中，该运算加速器还包括：

该压缩模块，还用于在该控制指令指示对该计算结果不进行压缩时，控制该DMAC将该计算结果存入该存储器；该解压缩模块，还用于在该控制指令指示对该计算结果不进行解压缩时，控制该DMAC将该存储器中的该计算结果存入该第一缓存。

在一个可选的实现方式中，该压缩模块包括分片模块和至少一个压缩引擎，

该分片模块，用于对该计算结果进行分片处理以得到至少一个子计算结果；该至少一个压缩引擎中每个压缩引擎，用于对该至少一个子计算结果中的一个子计算结果进行压缩以得到子压缩数据，其中，该至少一个压缩引擎中每个压缩引擎生成的子压缩数据的总和组成该压缩数据。

对待压缩的数据进行分片处理，然后针对分片后的每个子压缩数据进行压缩处理，可以提高压缩效率。

在一个可选的实现方式中，该至少一个压缩引擎中每个压缩引擎，具体用于：

对该子计算结果进行压缩以得到子压缩结果；比较该子压缩结果和该子计算结果的大小；在该子压缩结果大于该子计算结果时，将该子计算结果作为该子压缩数据；在该子压缩结果不大于该子计算结果时，将该子压缩结果作为该子压缩数据。

在一个可选的实现方式中，该至少一个压缩引擎中每个压缩引擎还用于：

在该子压缩结果大于该子计算结果时，生成一个与该子压缩数据对应的压缩失败的标识，其中，该压缩失败的标识经由该DMAC进行控制以存入该存储器；在该子压缩结果不大于该子计算结果时，生成一个与该子压缩数据对应的压缩成功的标识，其中，该压缩成功的标识经由该DMAC进行控制以存入该存储器。

在一个可选的实现方式中，该解压缩模块具体用于：

接收由该DMAC从该存储器中获取的该子压缩数据；在该子压缩数据对应的标识为压缩失败的标识时，将该子压缩数据作为该第二输入数据存入该第一缓存；在该子压缩数据对应的标识为压缩成功的标识时，对该子压缩数据进行解压，并将解压后的数据作为该第二输入数据存入该第一缓存。

第二方面，本申请实施例提供了一种处理装置，包括：

判断模块，用于根据神经网络中第i层输入数据的稀疏率，确定运算加速器是否对第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩，其中，1≤i≤N，N为该神经网络的层数，该运算加速器为处理装置之外的协处理器；

编译模块，用于根据该判断模块的确定结果生成控制指令，该控制指令用于指示该运算加速器是否对该计算结果进行压缩和解压缩。

处理器根据神经网络中输入数据的稀疏率来生成是否指示运算加速器进行压缩和解压缩的控制指令，可以避免运算加速器对神经网络中稀疏率较低的输入数据进行计算所生成的计算结果启动压缩和解压缩，从而提高压缩收益和解压缩收益。

在一个可选的实现方式中，该判断模块，具体用于：

在该神经网络第i层输入数据的稀疏率大于阈值时，确定该运算加速器对该计算结果进行压缩，以及在将该计算结果作为第i+1层输入数据进行第i+1层计算时进行解压缩；

在该神经网络第i层输入数据的稀疏率不大于阈值时，确定该运算加速器对该计算结果不进行压缩，以及在将该计算结果作为第i+1层输入数据进行第i+1层计算时不进行解压缩。

在一个可选的实现方式中，该阈值基于输入/输出(I/O)带宽的收益和功耗代价确定，该I/O带宽的收益用于指示该运算加速器对该计算结果进行压缩和解压缩处理所减少的I/O带宽，该功耗代价用于指示该运算加速器对该计算结果进行压缩和解压缩处理所增加的功耗。

第三方面，本申请实施例提供了一种运算加速处理系统，包括：

处理器，用于生成控制指令，该控制指令用于指示运算加速器是否对神经网络第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩，其中，1≤i≤N，N为该神经网络的层数；

该运算加速器，用于对该神经网络第i层输入数据进行计算以得到该计算结果，并且获取该处理器生成的该控制指令，根据该控制指令确定是否实现对该计算结果进行压缩和解压缩。

在一个可选的实现方式中，该运算加速器包括：

运算电路，用于对该神经网络中第i层输入数据进行计算以得到该计算结果；控制器，用于根据获取的该控制指令控制压缩模块对该计算结果进行压缩，以及解压缩模块对该计算结果进行解压缩；该压缩模块，用于对该计算结果进行压缩；该解压缩模块，用于对该计算结果进行解压。

在一个可能的实现方式中，该运算加速处理系统还包括：

存储器，用于存储该处理器生成的该控制指令；对应地，该处理器，还用于将生成的该控制指令存储在该存储器；该运算加速器，还用于从该存储器中获取该控制指令。

第四方面，本申请实施例提供了一种压缩方法，该压缩方法应用于运算加速器，该运算加速器包括第一缓存和第二缓存，该方法包括：

对从该第一缓存中获取的第一输入数据和从该第二缓存中获取的权重数据进行矩阵乘运算以得到计算结果；将该计算结果进行压缩以得到压缩数据；将该压缩数据存入该运算加速器之外的存储器。

在一个可选的实现方式中，该压缩方法还包括：

从该存储器中获取该压缩数据；对该压缩数据进行解压，并将解压后的数据作为第二输入数据存入该第一缓存；对从该第一缓存中获取的第二输入数据进行矩阵乘运算。

在一个可选的实现方式中，该压缩方法包括：

获取控制指令，该控制指令用于指示是否对该计算结果进行压缩和解压缩；解析该控制指令；该将该计算结果进行压缩以得到压缩数据包括：在该控制指令指示对该计算结果进行压缩时，将该计算结果进行压缩以得到该压缩数据。

对应地，该对该压缩数据进行解压包括：在该控制指令指示对该计算结果进行解压缩时，对该压缩数据进行解压。

在一个可选的实现方式中，该压缩方法还包括：

在该控制指令指示对该计算结果不进行压缩和解压缩时，将该计算结果存储在该存储器，以及从该存储器中获取该计算结果存入该第一缓存。

第五方面，本申请实施例提供了一种压缩方法，该压缩方法应用于运算加速器，该运算加速器包括第一缓存和第二缓存，该压缩方法包括：

对从该第一缓存中获取的第一输入数据和从该第二缓存中获取的权重数据进行矩阵乘运算以得到计算结果；获取控制指令，该控制指令用于指示是否对该计算结果进行压缩和解压缩；在该控制指令指示对该计算结果进行压缩时，对该计算结果进行压缩以得到压缩数据，并且将该压缩数据存储在该运算加速器之外的存储器；在该控制指令指示对该计算结果不进行压缩时，将该计算结果存储在该运算加速器之外的存储器。

在一个可选的实现方式中，该压缩方法还包括：

在该控制指令指示对该计算结果进行解压缩时，将从该存储器中获取的该压缩数据进行解压，并且对解压后的数据作为第二输入数据进行矩阵乘运算；在该控制指令指示该计算结果不进行解压缩时，对从该存储器中获取的该计算结果作为第二输入数据进行矩阵乘运算。

第六方面，本申请实施例提供了一种处理方法，应用于处理装置，包括：

根据神经网络中第i层输入数据的稀疏率，确定运算加速器是否对第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩，其中，1≤i≤N，N为该神经网络的层数，该运算加速器为处理装置之外的协处理器；生成控制指令，该控制指令用于指示该运算加速器是否对该计算结果进行压缩和解压缩。

在一个可选的实现方式中，根据神经网络中第i层输入数据的稀疏率，确定该运算加速器是否对第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩包括：

在该神经网络第i层输入数据的稀疏率大于阈值时，确定该运算加速器对该计算结果进行压缩，以及在将该计算结果作为第i+1层输入数据进行第i+1层计算时进行解压缩；在该神经网络第i层输入数据的稀疏率不大于阈值时，确定该运算加速器对该计算结果不进行压缩，以及在将该计算结果作为第i+1层输入数据进行第i+1层计算时不进行解压缩。

在一个可选的实现方式中，该阈值基于输入/输出(I/O)带宽的收益和功耗代价确定，所述I/O带宽的收益用于指示该运算加速器对该计算结果进行压缩和解压缩处理所减少的I/O带宽，该功耗代价用于指示所述运算加速器对该计算结果进行压缩和解压缩处理所增加的功耗。

本申请实施例还提供一种处理装置，所述处理装置包括：存储器，用于存储指令；处理器，用于读取该存储器中的指令并执行上述第六方面或第六方面各种可能的处理方法。

本申请实施例还提供一种计算机存储介质，该存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行上述第六方面或第六方面各种可能的处理方法。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第六方面或第六方面各种可能的处理方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请提供的一种运算加速器的结构图；

图2为本申请实施例提供的一种运算加速器的结构图；

图3为本申请又一个实施例提供的一种运算加速器的结构图；

图4为本申请又一个实施例提供的一种运算加速器的结构图；

图5为本申请实施例提供的一种应用于运算加速器中的压缩模块的结构图；

图6为本申请实施例提供的又一种应用于运算加速器中的压缩模块的结构图；

图7为本申请实施例提供的一种控制运算加速器进行压缩的方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供的运算加速器可以应用于机器学习、深度学习以及卷积神经网络等领域，也可以应用到数字图像处理和数字信号处理等领域，还可以应用在其他涉及矩阵乘法运算的领域。本申请中，运算加速器可以是神经网络处理器(Neural Network Processing Unit，NPU)或者其他处理器，可以应用到手机、平板电脑、服务器、可穿戴设备等可执行卷积运算的设备中。

首先对本申请中涉及的几个术语进行解释：

输入数据，可以是初始输入给运算加速器进行推理运算的原始数据，比如图片数据、语音数据等，也可以是运算加速器在执行神经网络运算过程中所产生的中间数据，由于中间数据的数据量通常较大，因此运算加速器会将神经网络上一层计算得到的中间数据存入外部储存器，在执行神经网络下一层计算时再从存储器中读取该中间数据并加载到运算加速器中进行计算；

权重数据，是指对神经网络进行训练后得到的权重数据，神经网络的训练过程就是不断的对权重值进行调整的过程；

计算结果，是指运算加速器在执行神经网络运算过程中所产生的中间数据或最终数据，可以是运算加速器中运算单元运算后输出的数据，也可以是向量计算单元对运算单元输出的数据进行再次运算后得到的数据。需要说明的是，计算结果也是一种输入数据，神经网络上一层的计算结果往往作为输入数据参与到神经网络下一层计算；

数据的稀疏率，通常是指数据集中数值缺失或数值为0的数据占总体数据的比例。

图1是本申请提供的一种运算加速器的硬件结构图。运算加速器30作为协处理器挂载到主中央处理器(Host CPU)10上，由主CPU10分配任务。运算加速器30的核心部分为运算电路303，控制器304控制运算电路303提取输入缓存(Input Buffer)301或权重缓存 (Weight Buffer)302中的数据并进行运算。

在一些实现中，运算电路303内部包括多个处理引擎(Process Engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重缓存302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入缓存301中取矩阵A相应的数据与矩阵B相应的数据进行矩阵乘运算，得到矩阵的部分结果或最终结果，保存在累加器308accumulator中。

向量计算单元307可以对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算和大小比较等处理。例如，向量计算单元307具体可以用于卷积神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元307将经处理过的输出的向量存储到统一缓存器306中。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如用于在神经网络中的后续层中的使用。

统一缓存(Unified Buffer)306用于存放输出的计算结果和某些层的输入数据。

直接存储器访问控制器(Direct Memory Access Controller，DMAC)305用于将运算加速器30之外的存储器20中的输入数据(或称输入矩阵)存入输入缓存301和统一缓存306，将权重数据(或称权重矩阵)存入权重缓存302中、或者将统一缓存306中的数据存入存储器20。

总线接口单元(Bus Interface Unit，BIU)310，用于通过总线在主CPU10、DMAC305和取指缓存(Instruction Fetch Buffer)309之间进行交互。

与控制器304连接的取指缓存(instruction fetch buffer)309，用于存储控制器304使用的指令；

控制器304，用于调用取指缓存309中缓存的指令，实现控制该运算加速器30的工作过程。

一般地，统一缓存306，输入缓存301，权重缓存302以及取指缓存309均为片上缓存(On-Chip Buffer)，存储器20为该运算加速器30外部的存储器，该存储器20可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

在本申请中，输入缓存是第一缓存，权重缓存是第二缓存，取指缓存是第三缓存，统一缓存是第四缓存。

上述运算加速器在实现卷积和FC运算时，由于运算所涉及到的权重数据的数据量较大，无法全部保存在权重缓存中，因此该运算加速器在执行运算的过程中，需要实时的从存储器中导入权重数据来进行计算，并且该运算加速器在执行神经网络的上一层的运算之后所得到的计算结果的数据量也较大，难以保存在统一缓存中，需要将上一层的计算结果导出到存储器，在运算加速器需要执行该神经网络的下一层计算时，再从存储器中导入上一层的计算结果作为输入数据来进行运算。

导出和导入运算结果都将占用该运算加速器的输入/输出(I/O)带宽，如果I/O带宽成为瓶颈，将导致该运算加速器的计算功能空置，降低该运算加速器的运算性能。

图2是本申请实施例提供的一种运算加速器40的硬件结构图，该运算加速器40和图1提供的运算加速器30相比，主要增加了压缩模块311和解压缩模块312。

输入缓存301存储输入数据，权重缓存302存储权重数据，运算电路303将从输入缓存301中获取的输入数据和从权重缓存302中获取的权重数据进行矩阵乘运算以得到计算结果，该计算结果可以是中间结果或最终结果，该计算结果被保存在累加器308中，向量计算单元307可以从累加器308中取出计算结果做进一步处理，比如向量乘、向量加、指数运算、对数运算和大小比较等，并且向量计算单元307将经过处理后的计算结果存储到统一缓存306。

压缩模块311从统一缓存器306中获取计算结果，并且对计算结果进行压缩以得到压缩数据，再由DMAC305将压缩模块311输出的压缩数据存入存储器20。

进一步，由于该压缩数据是该运算加速器40在对神经网络的某层进行计算后的计算结果，该压缩数据可以作为输入数据参与到该运算加速器40的下一次计算，因此，该运算加速器40中还包括解压缩模块312，用于通过DMAC305从存储器20中获取该压缩数据，对该压缩数据进行解压以获得解压后的数据，并将解压后的数据作为输入数据存入输入缓存301中。运算电路303将从输入缓存301中获取的输入数据和从权重缓存302中获取的权重数据进行矩阵乘运算。

由上可知，由于在该运算加速器中增加了压缩模块和解压缩模块，降低了从该运算加速器中搬运计算结果到存储器的数据量，以及降低了从存储器中搬运计算结果到该运算加速器中进行下一次计算的数据量，节省该运算加速器的I/O带宽，提升该运算加速器的计算性能。

神经网络中第一层数据(即初始的输入数据)在运算加速器中运算后得到的计算结果作为第二层的输入数据，之后都是上一层输出的计算结果作为下一层的输入数据，直至做完最后一层(全连接层)运算后得到最终结果。由于第一层数据的稀疏率通常较低，对第一层数据进行压缩会带来较小的I/O带宽收益，同时还造成启动压缩功能所带来的功耗损失，导致压缩收益较低，然而随着神经网络计算层数的深入，不断出现的修正线性单元(Rectified Linear Unit，Relu)(又称激活函数)会逐渐提高计算结果的稀疏率，较高的稀疏率可以提高I/O带宽收益，因此，运算加速器在计算神经网络到一定层级时再启动压缩功能，可以实现运算加速器的压缩收益最大化。

基于上述考虑，图3为本申请实施例提供的一种运算加速器50的结构，在该运算加速器50中，控制器504和压缩模块311、解压缩模块312、统一缓存306、DMAC305、取指缓存309连接，取指缓存309从存储器20中获取控制指令并存储该控制指令，该控制指令用于指示该运算加速器50是否对神经网络中每层运算后的计算结果进行压缩，以及指示该运算加速器50是否对从存储器20中获取的计算结果进行解压缩，控制器504从取指缓存中读取控制指令以实现对运算加速器中相关组件的控制。

具体地，控制器504从取指缓存中获取该控制指令，解析该控制指令，在该控制指令指示对计算结果进行压缩时，则控制压缩模块311对从统一缓存306中获取的计算结果进行压缩以得到压缩后的计算结果，由DMAC305将压缩后的计算结果搬运到存储器20；在该控制指令指示对计算结果不进行压缩时，则控制统一缓存306将计算结果发送给DMAC305，由DMAC305将计算结果搬运到存储器20，此时计算结果未经过压缩模块的压缩处理。由上可知，在该控制指令指示对计算结果进行压缩时，存储器20中存储的是压缩后的计算结果，由于该压缩后的计算结果还会作为输入数据参与到运算加速器50对神经网络的下一层计算中，因此，控制器504还需控制解压缩模块312进行解压缩处理。

具体地，上述控制指令除了指示该运算加速器50是否对神经网络中每层运算后的计算结果进行压缩，还用于指示该运算加速器50是否对从存储器20中获取的计算结果进行解压缩。控制器504从取指缓存309中获取该控制指令，解析该控制指令，在该控制指令指示对计算结果进行解压缩时，则控制解压缩模块312对获取的计算结果进行解压缩处理，并由解压缩模块312将解压后的数据作为输入数据存入输入缓存301；在该控制指令指示对计算结果不进行解压缩时，则控制DMAC305直接将计算结果作为输入数据存入输入缓存301，此时计算结果未经过解压缩模块312的解压缩处理。

如下将结合图3进一步描述存储器20中存储的控制指令如何生成。

图3除了提供运算加速器50的结构之外，也给出了主CPU10的结构，该主CPU10包括软件实现的加速库和编译模块，其中，该加速库可以包含多个组件，用以完成不同的加速优化操作，比如对数据进行量化的量化(Quantization)模块，支持稀疏计算架构的稀疏(Sparsity)模块等。编译模块用于生成指令，以控制运算加速器完成计算操作。除了加速库和编译模块之外，主CPU中还可以包括驱动和任务调度模块(图4中未示出)，通过驱动和任务调度模块实现主CPU与运算加速器的连接。

在本申请提供的实施例中，该加速库还包括判断模块，该判断模块用于分析训练后所形成的神经网络的特征(该训练后所形成的神经网络即为运算加速器执行推理运算的神经网络)，比如通过算法分析或实测数据，然后根据分析得出的神经网络的特征推断该神经网络过程中每层输入数据的稀疏率，根据每层输入数据的稀疏率确定是否对该层的计算结果进行压缩和解压缩，并且将每层计算结果是否进行压缩和解压缩的信息发送给编译模块，由编译模块来生成具体的控制指令。

具体地，判断模块将神经网络中第i层输入数据的稀疏率和预设的阈值进行比较，在该神经网络第i层输入数据的稀疏率大于阈值时，确定第i层计算结果需要进行压缩，以及在将i层计算结果作为第i+1层输入数据进行第i+1层计算时需要解压缩；在该神经网络中第i层计算结果的稀疏率不大于阈值时，确定第i层计算结果不需要进行压缩，以及在将第i层计算结果作为第i+1层输入数据进行第i+1层计算时不需要解压缩，其中，1≤i≤N， N为该神经网络的层数。

上述阈值可以根据I/O带宽的收益和功耗代价确定，其中，I/O带宽的收益是指运算加速器对计算结果进行压缩和解压缩处理所减少的I/O带宽，该功耗代价是指运算加速器对计算结果进行压缩和解压缩处理所增加的功耗。

具体地，该阈值可以预先确定，例如，在预先的测试中，当输入数据的稀疏率等于临界值时，运算加速器开启压缩和解压缩所带来的I/O带宽的收益等于功耗代价，则可以将该临界值作为上述阈值，当然实际实现中，考虑到希望I/O带宽的收益更多，可以对该临界值做些调整以确定阈值，本申请对于上述阈值的确定方法不做限定。

需要说明的是，针对不同的神经网络模型，上述预设的阈值可以不同。

编译模块，用于对从判断模块获取到的每层计算结果是否进行压缩和解压缩的信息进行指令译码以得到上述控制指令，即该控制指令用于指示该运算加速器是否对神经网络中每层运算后的计算结果进行压缩和解压缩。

由上可知，针对神经网络中稀疏率较低的输入数据，如果运算加速器启动压缩和解压缩，会带来较小的I/O带宽收益，同时还造成因为启动压缩和解压缩功能所带来的功耗损失，压缩收益低。本申请实施例中，主CPU在判断神经网络中某层输入数据的稀疏率较大时，才控制运算加速器对该层的计算结果进行压缩和解压缩，由于此时I/O带宽收益较大，可以抵消部分因为启动压缩和解压缩功能所带来的功耗损失，提高了压缩收益。

在图3所述的运算加速器中，由控制器来对取指缓存中存储的控制指令进行解析，根据解析的结果对压缩模块、统一缓存、解压缩模块和DMAC做出不同的控制操作，在另外一种可实现的方式中，控制器也可以不执行对控制指令的解析，将控制指令的解析交由运算加速器中压缩模块和解压缩模块处理。

图4为本申请一个实施例提供的运算加速器60的结构，在该运算加速器60中，取指缓存309从存储器20中获取控制指令并存储该控制指令，控制器304将该控制指令分配给压缩模块611和解压缩模块612。

压缩模块611解析该控制指令，在该控制指令指示对计算结果进行压缩时，对该计算结果进行压缩以得到压缩后的计算结果，由DMAC305将压缩后的计算结果搬运到存储器；在控制指令指示对该计算结果不进行压缩时，直接将该计算结果发送给DMAC305，由DMAC305将该计算结果搬运到存储器20。

同样地，解压缩模块612解析该控制指令，在该控制指令指示对从存储器20中获取的计算结果进行解压缩时，对获取的计算结果进行解压缩处理，并且将解压缩后的数据作为输入数据存入输入缓存301；在该控制指令指示对从存储器20中获取的计算结果不进行解压缩时，直接将获取的计算结果作为输入数据存入输入缓存301。

下面将描述上述实施例中提到的运算加速器中压缩模块311如何实现压缩的功能。

为了提高压缩模块311的压缩效率，通常在设计压缩模块311时，在压缩模块311中引入一个分片模块3110，用于对压缩模块311接收的计算结果进行分片处理，针对每个片分别进行压缩处理。

具体地，图5为本申请提供的一种压缩模块311的结构图，该压缩模块311包括分片模块3110和至少一个压缩引擎3111，分片模块3110，用于对接收的计算结果进行分片处理以得到至少一个子计算结果，每个压缩引擎3111，用于对其中的一个子计算结果进行压缩以得到子压缩数据，其中，该至少一个压缩引擎中每个压缩引擎生成的子压缩数据的总和组成了压缩模块311输出的压缩数据。

需要说明的是，本申请对于压缩引擎3111中采用的压缩算法不做限制，业界常用的压缩算法有熵编码、游程编码等，不同压缩算法有各自的适用场景，例如，压缩引擎可以根据数据中的0值进行压缩。由于压缩模块是运行在运算加速器40的硬件逻辑电路上，因此，压缩算法的选择需要考虑硬件的资源、功耗和性能等，本申请对于压缩引擎采用哪种压缩算法不做限定。另外，图3中示例的将计算结果分成了四个子计算结果，并且将每个子计算结果分给一个对应的压缩引擎进行压缩处理，即共有四个压缩引擎，实际实现中，压缩引擎的个数可以由单个压缩引擎的性能和运算加速器的性能需求等决定，本申请对于压缩引擎的个数不做限制，并且压缩引擎的个数和子计算结果的个数可以不一一对应，比如，一个压缩引擎可以处理两个或两个以上的子计算结果。

进一步，由于压缩引擎3111对待压缩数据进行压缩后可能出现压缩后的数据的大小大于待压缩数据的大小，此时如果将压缩后的数据搬运到存储器存储不利于减少运算加速器的I/O带宽，因此，为了进一步减少运算加速器的I/O带宽，针对压缩引擎3111可以做进一步设计。

具体地，每个压缩引擎3111对接收的子计算结果进行压缩以得到子压缩结果，比较该子压缩结果和该子计算结果的大小，在该子压缩结果大于该子计算结果时，将该子计算结果作为输出的子压缩数据，并生成一个与该子压缩数据对应的压缩失败的标识，由于此时输出的子压缩数据为没有经过压缩处理的数据，因此压缩失败；在该子压缩结果不大于该子计算结果时，将该子压缩结果作为输出的子压缩数据，并生成一个与该子压缩数据对应的压缩成功的标识，由于此时输出的子压缩数据为经过压缩处理的数据，因此压缩成功，其中，该压缩失败的标识和该压缩成功的标识通过DMAC存入存储器。

需要说明的是，针对该子压缩结果的大小等于该子计算结果的大小的场景，可以有两种实现方式：第一种实现方式，如上所述，压缩引擎3111可以将该子压缩结果作为该子压缩数据输出给DMAC，这虽然导致在下次计算中增加了对该子压缩数据的解压缩过程，但是可以避免压缩引擎3111再次读取该子计算结果然后将该子计算结果输出给DMAC，节省读取该子计算结果所带来的功耗；第二种实现方式，压缩引擎3111也可以将该子计算结果直接作为该子压缩数据输出给DMAC，此时该子压缩数据为没有经过压缩处理的数据，虽然压缩引擎3111会再次读取该子计算结果，但是在下次计算中可以避免对该子压缩数据的解压缩过程，节省解压缩该子压缩数据所带来的功耗。因此，针对该子压缩结果的大小等于该子计算结果的大小的场景，上述两种实现方式互有优劣，在实际中，可以根据运算加速器所需达到的性能要求作出合适的选择。

由上可知，压缩模块中压缩引擎在压缩过程中会出现压缩失败和压缩成功的情形，因此，DMAC305在将存储器中存储的子压缩数据搬运到输入缓存的过程中，增加了解压缩模块312，解压缩模块312中可以包括多个解压缩引擎，每个解压缩引擎对接收的子压缩数据分别进行解压缩处理，具体地，每个解压缩引擎在获取子压缩数据之后，对接收的子压缩数据对应的标识进行识别，在该子压缩数据对应的标识为压缩失败的标识时，直接将该子压缩数据作为输入数据存储在输入缓存，即不进行解压缩处理；在该子压缩数据对应的标识为压缩成功的标识时，对该子压缩数据进行解压缩处理以得到解压后的数据，并且将解压后的数据作为输入数据存储在输入缓存。

需要说明的是，解压缩引擎的个数由单个解压缩引擎的解压缩性能和运算加速器的性能需求等决定，同时需要兼顾解压缩过程和压缩过程的耦合性；另外，解压缩引擎中采用的解压缩算法是和压缩模块中压缩引擎所采用的压缩算法相对应的算法。

下面将描述上述实施例中提到的运算加速器中压缩模块611如何实现压缩的功能。图6为本申请另一个实施例提供的压缩模块611的结构图，该压缩模块611与图5所述的压缩模块311相比，主要是增加了解析模块610。

解析模块610用于解析控制指令，在该控制指令指示对计算结果进行压缩时，将计算结果提供给分片模块3110进行分片，然后由压缩引擎3111对分片后的子计算结果进行压缩并发送给DMAC305，最后由DMAC305将压缩后的计算结果搬运到存储器20，这部分实现和上述图5中关于压缩模块311的实现相同，此处不再进行具体描述；在控制指令指示对该计算结果不进行压缩时，直接将该计算结果发送给DMAC305，由DMAC305将该计算结果搬运到存储器20。

对应地，解压缩模块612中也存在一个解析模块，用于解析控制指令，在该控制指令指示对从存储器20中获取的计算结果进行解压时，对获取的计算结果进行解压处理，并且将解压缩后的数据作为输入数据存入输入缓存301；在该控制指令指示对从存储器20中获取的计算结果不进行解压缩时，直接将获取的计算结果作为输入数据存入输入缓存301。解压缩模块612的结构图本申请不再给出。

结合上述实施例中运算加速器的硬件结构图，本申请实施例提供了一种控制运算加速器进行压缩的方法，如图7所示，该方法可以包括如下步骤S701～S709，其中，S701～S704由主CPU执行，S705～S709由运算加速器执行。

S701、判断是否对神经网络中每层计算结果进行压缩和解压缩。

CPU分析训练后所形成的神经网络的特征(该训练后所形成的神经网络即为运算加速器执行推理运算的神经网络)，比如通过算法分析或实测数据，然后根据分析得出的神经网络的特征推断该神经网络过程中每层输入数据的稀疏率，根据每层输入数据的稀疏率确定是否对该层的计算结果进行压缩和解压缩，具体地，可以通过将每层输入数据的稀疏率和阈值进行比较来实现，由于具体的实现方法在上述实施例中已做了详细描述，此处不再赘述。

S702、生成控制指令。

CPU内部的编译模块根据每层计算结果是否进行压缩和解压缩的信息进行指令译码以生成控制指令，该控制指令用于指示运算加速器是否对神经网络中每层运算后的计算结果进行压缩和解压缩。

S703、将控制指令存储在存储器中。

CPU将生成的控制指令存储在运算加速器外部的存储器中。

S704、将控制指令置于运算加速器中的取指缓存中。

CPU控制将存储在存储器中的控制指令搬运到运算加速器中的取指缓存。

S705、读取取指缓存中的控制指令。

运算加速器从取指缓存中读取控制指令。

S706、对神经网络中每层进行计算得到计算结果。

运算加速器对神经网络中每层的输入数据进行计算并得到计算结果，具体地，可以由运算加速器中的运算电路来执行运算。

S707、根据控制指令确定是否对计算结果进行压缩和解压缩处理。

运算加速器解析该控制指令，根据控制指令确定是否对神经网络中每层的计算结果进行压缩和解压缩处理，在确定进行压缩和解压缩处理时，执行S708，在不确定不执行压缩和解压缩处理时，执行S709。

S708、对计算结果进行压缩，将压缩后的计算结果存储在存储器，并且在下次计算中对从存储器中获取的计算结果进行解压缩以得到输入数据。

运算加速器在确定需要对计算结果进行压缩时，对计算结果进行压缩，并且将压缩后的计算结果存储在存储器，在执行神经网络的下一层计算时，运算加速器从存储器中获取计算结果，并且对获取的计算结果进行解压缩处理以得到解压后的数据，将解压后的数据作为输入数据参与到神经网络的下一层计算中。

S709、将计算结果存储在存储器，并且在下次计算中将从该存储器中读取的计算结果作为输入数据。

运算加速器在确定无需对计算结果进行压缩时，直接将计算结果存储在存储器，在执行神经网络的下一层计算时，运算加速器从存储器中获取计算结果，并且将获取的计算结果作为输入数据参与到神经网络的下一层计算中，此时运算加速器获取的计算结果无需经过解压缩处理。

由上可知，针对神经网络中稀疏率较低的输入数据，如果运算加速器启动压缩和解压缩，压缩收益低。本申请实施例中，CPU在判断神经网络中某层输入数据的稀疏率较大时，才控制运算加速器对该层的计算结果进行压缩和解压缩，由于此时I/O带宽收益较大，提高了压缩收益。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在运算加速器上加载或执行上述计算机程序指令时，全部或部分地产生按照本申请实施例上述的流程或功能。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state Drive，SSD)。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种运算加速器，其特征在于，包括：

第一缓存，用于存储第一输入数据；

第二缓存，用于存储权重数据；

与所述第一缓存和所述第二缓存连接的运算电路，用于对所述第一输入数据和所述权重数据进行矩阵乘运算以得到计算结果；

压缩模块，用于对所述计算结果进行压缩以得到压缩数据；

与所述压缩模块连接的直接存储器访问控制器DMAC，用于将所述压缩数据存入到所述运算加速器之外的存储器。
如权利要求1所述的运算加速器，其特征在于，还包括：

与所述DMAC和所述第一缓存连接的解压缩模块，用于接收由所述DMAC从所述存储器中获取的所述压缩数据，对所述压缩数据进行解压，并将解压后的数据作为第二输入数据存入所述第一缓存；

所述运算电路，还用于从所述第一缓存中获取所述第二输入数据以进行矩阵乘运算。
如权利要求2所述的运算加速器，其特征在于，还包括：

第三缓存，用于存储控制指令，所述控制指令用于指示是否对所述计算结果进行压缩和解压缩；

与所述第三缓存连接的控制器，用于从所述第三缓存中获取所述控制指令，并且解析所述控制指令，在所述控制指令指示对所述计算结果进行压缩和解压缩时，控制所述压缩模块对所述计算结果进行压缩以得到所述压缩数据，以及控制所述解压缩模块对获取的所述压缩数据进行解压缩。
如权利要求3所述的运算加速器，其特征在于，还包括：

与所述运算电路连接的第四缓存，用于存储所述运算电路计算的所述计算结果；

所述控制器，还用于在所述控制指令指示对所述计算结果不进行压缩和解压缩时，控制所述DMAC将所述第四缓存中的所述计算结果存入所述存储器，以及控制所述DMAC将所述存储器中的所述计算结果存入所述第一缓存。
如权利要求2所述的运算加速器，其特征在于，还包括：

第三缓存，用于存储控制指令，所述控制指令用于指示是否对所述计算结果进行压缩和解压缩；

与所述第三缓存连接的控制器，用于从所述第三缓存中获取所述控制指令，并且将所述控制指令分发给所述压缩模块和所述解压缩模块；

所述压缩模块，用于解析所述控制指令，在所述控制指令指示对所述计算结果进行压缩时，对所述计算结果进行压缩以得到所述压缩数据；

所述解压缩模块，用于解析所述控制指令，在所述控制指令指示对所述计算结果进行解压缩时，对获取的所述压缩数据进行解压缩。
如权利要求5所述的运算加速器，其特征在于，

所述压缩模块，还用于在所述控制指令指示对所述计算结果不进行压缩时，控制所述DMAC将所述计算结果存入所述存储器；

所述解压缩模块，还用于在所述控制指令指示对所述计算结果不进行解压缩时，控制所述DMAC将所述存储器中的所述计算结果存入所述第一缓存。
如权利要求2-5任一所述的运算加速器，其特征在于，所述压缩模块包括分片模块和至少一个压缩引擎，

所述分片模块，用于对所述计算结果进行分片处理以得到至少一个子计算结果；

所述至少一个压缩引擎中每个压缩引擎，用于对所述至少一个子计算结果中的一个子计算结果进行压缩以得到子压缩数据，其中，所述至少一个压缩引擎中每个压缩引擎生成的子压缩数据的总和组成所述压缩数据。
如权利要求7所述的运算加速器，其特征在于，所述至少一个压缩引擎中每个压缩引擎，具体用于：

对所述子计算结果进行压缩以得到子压缩结果；

比较所述子压缩结果和所述子计算结果的大小；

在所述子压缩结果大于所述子计算结果时，将所述子计算结果作为所述子压缩数据；

在所述子压缩结果不大于所述子计算结果时，将所述子压缩结果作为所述子压缩数据。
如权利要求8所述的运算加速器，其特征在于，所述至少一个压缩引擎中每个压缩引擎还用于：

在所述子压缩结果大于所述子计算结果时，生成一个与所述子压缩数据对应的压缩失败的标识，其中，所述压缩失败的标识经由所述DMAC进行控制以存入所述存储器；

在所述子压缩结果不大于所述子计算结果时，生成一个与所述子压缩数据对应的压缩成功的标识，其中，所述压缩成功的标识经由所述DMAC进行控制以存入所述存储器。
如权利要求9所述的运算加速器，其特征在于，所述解压缩模块具体用于：

接收由所述DMAC从所述存储器中获取的所述子压缩数据；

在所述子压缩数据对应的标识为压缩失败的标识时，将所述子压缩数据作为所述第二输入数据存入所述第一缓存；

在所述子压缩数据对应的标识为压缩成功的标识时，对所述子压缩数据进行解压，并将解压后的数据作为所述第二输入数据存入所述第一缓存。
一种处理装置，其特征在于，包括：

判断模块，用于根据神经网络中第i层输入数据的稀疏率，确定运算加速器是否对第i 层输入数据进行计算后所得到的计算结果进行压缩和解压缩，其中，1≤i≤N，N为所述神经网络的层数，所述运算加速器为处理装置之外的协处理器；

编译模块，用于根据所述判断模块的确定结果生成控制指令，所述控制指令用于指示所述运算加速器是否对所述计算结果进行压缩和解压缩。
如权利要求11所述的处理装置，其特征在于，所述判断模块，具体用于：

在所述神经网络第i层输入数据的稀疏率大于阈值时，确定所述运算加速器对所述计算结果进行压缩，以及在将所述计算结果作为第i+1层输入数据进行第i+1层计算时进行解压缩；

在所述神经网络第i层输入数据的稀疏率不大于阈值时，确定所述运算加速器对所述计算结果不进行压缩，以及在将所述计算结果作为第i+1层输入数据进行第i+1层计算时不进行解压缩。
如权利要求12所述的处理器，其特征在于，所述阈值基于输入/输出(I/O)带宽的收益和功耗代价确定，所述I/O带宽的收益用于指示所述运算加速器对所述计算结果进行压缩和解压缩处理所减少的I/O带宽，所述功耗代价用于指示所述运算加速器对所述计算结果进行压缩和解压缩处理所增加的功耗。
一种压缩方法，其特征在于，所述压缩方法应用于运算加速器，所述运算加速器包括第一缓存和第二缓存，所述方法包括：

对从所述第一缓存中获取的第一输入数据和从所述第二缓存中获取的权重数据进行矩阵乘运算以得到计算结果；

将所述计算结果进行压缩以得到压缩数据；

将所述压缩数据存入所述运算加速器之外的存储器。
如权利要求14所述的压缩方法，其特征在于，还包括：

从所述存储器中获取所述压缩数据；

对所述压缩数据进行解压，并将解压后的数据作为第二输入数据存入所述第一缓存；

对从所述第一缓存中获取的第二输入数据进行矩阵乘运算。
如权利要求15所述的压缩方法，其特征在于，所述方法包括：

获取控制指令，所述控制指令用于指示是否对所述计算结果进行压缩和解压缩；

解析所述控制指令；

所述将所述计算结果进行压缩以得到压缩数据包括：

在所述控制指令指示对所述计算结果进行压缩时，将所述计算结果进行压缩以得到所述压缩数据。

所述对所述压缩数据进行解压包括：

在所述控制指令指示对所述计算结果进行解压缩时，对所述压缩数据进行解压。
如权利要求16所述的压缩方法，其特征在于，所述方法还包括：

在所述控制指令指示对所述计算结果不进行压缩和解压缩时，将所述计算结果存储在所述存储器，以及从所述存储器中获取所述计算结果存入所述第一缓存。
一种压缩方法，其特征在于，所述压缩方法应用于运算加速器，所述运算加速器包括第一缓存和第二缓存，所述方法包括：

对从所述第一缓存中获取的第一输入数据和从所述第二缓存中获取的权重数据进行矩阵乘运算以得到计算结果；

获取控制指令，所述控制指令用于指示是否对所述计算结果进行压缩和解压缩；

在所述控制指令指示对所述计算结果进行压缩时，对所述计算结果进行压缩以得到压缩数据，并且将所述压缩数据存储在所述运算加速器之外的存储器；

在所述控制指令指示对所述计算结果不进行压缩时，将所述计算结果存储在所述运算加速器之外的存储器。
如权利要求18所述的方法，其特征在于，所述方法还包括：

在所述控制指令指示对所述计算结果进行解压缩时，将从所述存储器中获取的所述压缩数据进行解压，并且对解压后的数据作为第二输入数据进行矩阵乘运算；

在所述控制指令指示所述计算结果不进行解压缩时，对从所述存储器中获取的所述计算结果作为第二输入数据进行矩阵乘运算。
一种处理方法，其特征在于，应用于处理装置，包括：

根据神经网络中第i层输入数据的稀疏率，确定运算加速器是否对第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩，其中，1≤i≤N，N为所述神经网络的层数，所述运算加速器为处理装置之外的协处理器；

生成控制指令，所述控制指令用于指示所述运算加速器是否对所述计算结果进行压缩和解压缩。
如权利要求20所述的方法，其特征在于，所述根据神经网络中第i层输入数据的稀疏率，确定运算加速器是否对第i层输入数据进行计算后所得到的计算结果进行压缩和解压缩包括：

在所述神经网络第i层输入数据的稀疏率大于阈值时，确定所述运算加速器对所述计算结果进行压缩，以及在将所述计算结果作为第i+1层输入数据进行第i+1层计算时进行解压缩；

在所述神经网络第i层输入数据的稀疏率不大于阈值时，确定所述运算加速器对所述计算结果不进行压缩，以及在将所述计算结果作为第i+1层输入数据进行第i+1层计算时不进行解压缩。
如权利要求21所述的方法，其特征在于，所述阈值基于输入/输出(I/O)带宽的收益和功耗代价确定，所述I/O带宽的收益用于指示所述运算加速器对所述计算结果进行压缩和解压缩处理所减少的I/O带宽，所述功耗代价用于指示所述运算加速器对所述计算结果进行压缩和解压缩处理所增加的功耗。
一种处理装置，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中的指令并执行权利要求20至权利要求22中任一项所述的处理方法。
一种计算机存储介质，其特征在于，所述存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时实现权利要求20至权利要求22中任一项所述的处理方法。