WO2023116923A1

WO2023116923A1 - 一种存算一体装置和计算方法

Info

Publication number: WO2023116923A1
Application number: PCT/CN2022/141634
Authority: WO
Inventors: 华幸成; 曾重
Original assignee: 华为技术有限公司
Priority date: 2021-12-24
Filing date: 2022-12-23
Publication date: 2023-06-29
Also published as: CN116362314A

Abstract

本申请实施例提供一种存算一体装置和计算方法，涉及芯片技术领域，用于减少进行神经网络计算时的计算开销，提升计算效率。该方法包括：通过位宽计算模块对多个输入数据进行计算，得到多个有效数据，将多个有效数据输入到计算模块，再由计算模块根据多个有效数据和每个存储计算单元存储的权重数据的比特位，得到计算阵列中每一列的计算结果，将每一列的计算结果输入到结果处理模块，最后由结果处理模块对每一列的计算结果进行加权计算，得到最终结果。本申请实施例用于存算一体装置进行计算的过程中。

Description

一种存算一体装置和计算方法

本申请要求于2021年12月24日提交国家知识产权局、申请号为202111599630.1、申请名称为“一种存算一体装置和计算方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及芯片技术领域，尤其涉及一种存算一体装置和计算方法。

背景技术

近年来，神经网络(neural network，NN)发展迅速，广泛应用于机器人、语音识别、图像识别、自然语言处理和专家系统等领域。神经网络的核心计算是矩阵向量乘，具有计算密集和访存密集的特征。使用通用芯片进行神经网络的计算时，通用芯片在功耗、性能和尺寸上都存在明显不足，因此为了提高神经网络的计算效率，需要为神经网络定制专用芯片(神经网络加速器)来进行计算。

存算一体装置既保留了存储电路本身的存储和读写功能，又能够并行地支持乘加运算，降低了数据搬移量，提升了能耗效率，为神经网络加速器设计提供了一种高效的解决方案。存算一体装置在进行计算时，通常需要根据数据位宽将多比特(bit)数据展开成单比特/低比特(例如2比特或4比特等)数据进行计算，再对计算结果进行合并，因此展开计算的次数较多，导致开销较大。

发明内容

本本申请实施例提供一种存算一体装置和计算方法，应用于存算一体装置，可以在进行神经网络的计算时，降低开销，提高计算效率。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供一种存算一体装置，该存算一体装置包括位宽计算模块、计算模块和结果处理模块。计算模块包括计算阵列，计算阵列包括多个存储计算单元，多个存储计算单元用于存储权重数据。位宽计算模块用于对多个输入数据进行计算，得到多个有效数据，将多个有效数据输入到计算模块，多个输入数据与多个有效数据一一对应，多个输入数据中的第一输入数据与多个有效数据中的第一有效数据对应，且第一输入数据的位宽大于第一有效数据的位宽。计算模块用于根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果，将每一列的计算结果输入到结果处理模块，其中，一列计算结果为多个有效数据的同一比特位和一列存储计算单元计算的乘积之和。结果处理模块用于对每一列的计算结果进行加权计算，得到最终结果。

由此，本申请提供的计算方法，相比于现有技术中根据数据位宽将多比特输入数据展开成多个单比特/低比特输入数据进行输入和计算，导致展开计算太多次，产生较大开销，本申请的方法能够动态计算输入数据的有效数据，从而仅对输入数据的有效位进行计算，有效减少了计算模块进行计算的次数，降低计算开销，提高了存算一体装置的计算效率。

在一种可能的设计中，位宽计算模块，具体用于对多个输入数据进行掩膜计算，得到掩膜值，根据掩膜值的有效位确定多个有效数据，将多个有效数据逐比特位输入到计算模块，以使计算模块对多个有效数据逐比特位进行计算。由此，本申请提供的计算方法，使位宽计算模块通过掩膜计算得到输入数据的有效数据，并将有效数据逐比特位输入到计算模块，从而能够大幅度减少计算阵列的计算次数。

在一种可能的设计中，当计算阵列接收到多个有效数据分别对应的第N比特位时，其中，N为大于等于0的整数，计算阵列用于计算多个有效数据分别对应的第N比特位和权重数据的比特位的乘积；计算模块还包括累加电路，累加电路用于对计算阵列中同一列存储计算单元计算的乘积相加，得到计算阵列中每一列存储计算单元计算的乘积之和。由此，本申请提供的计算方法，计算模块每次对多个有效数据分别对应的第N比特位进行计算，计算模块进行计算的次数与有效数据的位宽对应，由于有效数据的位宽小于输入数据的位宽，因此计算阵列进行计算的次数能够有效降低。

在一种可能的设计中，权重数据包括多种权重数据，存算一体装置还包括权重位宽配置模块；权重位宽配置模块用于存储多种权重数据的位宽信息，位宽信息包括每种权重数据的位宽和每种权重数据对应在计算阵列中的起始列的标识，其中，多种权重数据中至少两种权重数据的位宽不同。由此，本申请提供的计算方法，相比于现有技术中权重数据的位宽固定，无法做到权重数据混合精度计算，导致计算效率低，本申请能够利用权重位宽配置模块存储的多种权重数据的位宽信息，在单个计算阵列中实现多种位宽的权重数据的部署和计算，从而支持权重数据混合精度的计算，有效提高存算一体装置的计算效率。

在一种可能的设计中，存算一体装置还包括控制模块，控制模块用于根据位宽信息将多种权重数据写入多个存储计算单元。由此，本申请提供的计算方法，控制模块能够根据位宽信息将权重数据部署到计算阵列中的每个存储计算单元中，从而在单个计算阵列中包括多种权重数据的位宽，实现权重数据混合精度计算，提高存算一体装置的计算效率。

在一种可能的设计中，控制模块还用于逐比特位确定掩膜值的有效位，当确定掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号。第一控制信号用于指示计算模块计算得到所述计算阵列中每一列存储计算单元的乘积之和，第二控制信号用于指示结果处理模块，根据位宽信息对计算阵列中每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，得到多个有效数据分别对应的第N比特位的多个加权结果，多个加权结果中每个加权结果对应一种权重数据。由此，本申请提供的计算方法，控制模块能够根据掩膜值的有效位生成控制信号，对计算模块和结果处理模块进行控制。由于掩膜值的有效位的位数和有效数据的位宽相同，通常比输入数据的位宽小，因此根据掩膜值的有效位生成控制信号，能够降低计算模块进行计算的次数，降低计算开销。

在一种可能的设计中，控制模块还用于确定掩膜值的位宽与输入数据的位宽相等时，产生第三控制信号。第三控制信号用于指示结果处理模块，根据掩膜值的有效位对应的位权，以及多个有效数据的每个比特位的多个加权结果进行加权计算，得到最终结果，最终结果包括每种权重数据的加权结果。由此，本申请提供的计算方法，当计算模块计算结束后，结果处理模块根据位宽信息和掩膜值有效位的位权进行加权计算，能够准确将多次单比特有效数据和多比特权重数据的计算结果转化为多比特输入数据和多比特权重数据的计算结果。在保证计算精度不变的前提下，有效减少计算次数，降低开销。

第二方面，本申请实施例提供了一种计算方法，该方法应用于存算一体装置，存算一体装置包括计算阵列，计算阵列包括多个存储计算单元，多个存储计算单元用于存储权重数据。该方法包括：对多个输入数据进行计算，得到多个有效数据，多个输入数据与多个有效数据一一对应，多个输入数据中的第一输入数据与多个有效数据中的第一有效数据对应，且第一输入数据的位宽大于第一有效数据的位宽，根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果，其中，一列计算结果为多个有效数据的同一比特位和一列存储计算单元计算的乘积之和，对每一列的计算结果进行加权计算，得到最终结果。第二方面所达到的有益效果可以参见第一方面中有益效果。

在一种可能的设计中，对多个输入数据进行计算，得到多个有效数据包括：对多个输入数据进行掩膜计算，得到掩膜值，根据掩膜值的有效位确定多个有效数据，根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果包括：将多个有效数据逐比特位和权重数据的比特位进行计算，得到计算阵列中每一列的计算结果。

在一种可能的设计中，根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果包括：当计算阵列接收到多个有效数据分别对应的第N比特位时，其中，N为大于等于0的整数，计算多个有效数据分别对应的第N比特位和权重数据的比特位的乘积，对计算阵列中同一列存储计算单元计算的乘积相加，得到计算阵列中每一列存储计算单元计算的乘积之和。

在一种可能的设计中，该方法还包括：存储多种权重数据的位宽信息，位宽信息包括每种权重数据的位宽和每种权重数据对应在计算阵列中的起始列的标识，其中，多种权重数据中至少两种权重数据的位宽不同。

在一种可能的设计中，权重数据包括多种权重数据，该方法还包括：根据位宽信息将多种权重数据写入多个存储计算单元。

在一种可能的设计中，该方法还包括：逐比特位确定所述掩膜值的有效位，当确定掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号。第一控制信号用于计算得到计算阵列中每一列存储计算单元的乘积之和，第二控制信号用于根据位宽信息对计算阵列中每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，得到多个有效数据分别对应的第N比特位的多个加权结果，多个加权结果中每个加权结果对应一种权重数据。

在一种可能的设计中，该方法还包括：确定掩膜值的位宽与输入数据的位宽相等时，产生第三控制信号，第三控制信号用于根据掩膜值的有效位对应的位权，以及多个有效数据的每个比特位的多个加权结果进行加权计算，得到最终结果，最终结果包括每种权重数据的加权结果。

第三方面，一种计算机可读存储介质，存储有计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第二方面以及第二方面中的任一种可能的设计所述的方法。

第四方面，一种计算机程序产品，当计算机程序产品在计算机上运行时，使得电子设备执行上述第二方面以及第二方面中的任一种可能的设计所述的方法。

上述其他方面对应的有益效果，可以参见关于第一方面的有益效果的描述，此处不予赘述。

附图说明

图1为一种模拟计算阵列示意图；

图2为一种数字计算阵列示意图；

图3为本申请实施例提供的一种存算一体装置的结构示意图；

图4为本申请实施例提供的一种计算阵列的示意图；

图5为本申请实施例提供的一种计算方法的流程示意图；

图6为本申请实施例提供的一种计算有效数据的示意图；

图7为本申请实施例提供的一种计算模块的示意图；

图8为本申请实施例提供的一种控制模块的示意图；

图9为本申请实施例提供的一种计算方法的流程示意图；

图10为本申请实施例提供的一种存算一体装置的结构示意图。

具体实施方式

为了便于理解，示例性地给出了部分与本申请实施例相关概念的说明以供参考。如下所示：

人工神经网络(artificial neural network，ANN)：简称神经网络或类神经网络，是一种模仿生物神经网络(中枢神经系统，例如大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的节点(神经元)相互联接构成，每个节点代表一种特定的输出函数，称为激励函数或激活函数(activation function)，每两个节点间的联接都代表一个对于通过该连接信号的加权值，称为权重数据。

神经网络加速器：一种适用于人工神经网络推理或训练的专用集成电路(application specific integrated circuit，ASIC)芯片，用于进行神经网络的计算，提升神经网络的计算效率。

存算一体:在存储器中进行算法嵌入，将计算机中的运算从中央处理器(central processing unit，CPU)中转到存储器中进行，实现在存储计算单元(cell)内计算，可大幅降低数据交换时间以及计算过程中的数据存取能耗。

存算一体装置有两种实现方式，分别为采用模拟器件(例如阻变存储器(resistive random-access memory，ReRAM)等)构建计算阵列，和采用数字器件(例如静态随机存取存储器(static random-access memory，SRAM)等)构建计算阵列。

图1所示为采用模拟器件构建的模拟计算阵列示意图，在进行神经网络计算时，模拟器件可以理解为存储计算单元，以阵列的形式排布，位于同一行的模拟器件共用一根字线(word line)，位于同一列的模拟器件共用一根位线(bit line)。模拟器件中的电导可以理解为权重数据，电压可以理解为输入数据，同一根字线的输入电压相同。每一根位线输出的电流值表示共用该位线的模拟器件(位于同一列)的电导与电压的乘积之和，即表示该列权重数据与输入数据的乘积之和。例如一个4×4的模拟计算阵列，位于第一列的电导分别为G1、G2、G3和G4，即第一列的权重数据为G1、G2、G3和G4，每一行的输入电压为V1、V2、V3和V4，即输入数据为V1、V2、V3和V4，输入数据并行输入，则第一列输出的电流I1＝G1×V1+G2×V2+G3×V3+G4×V4，表示该列权重数据与多个输入数据的乘积之和。

图2所示为采用数字器件构建的数字计算阵列示意图，在进行神经网络计算时，每个存储计算单元中存储一个权重数据，输入单元向数字计算阵列中的每个存储计算单元输入输入数据，位于同一行的存储计算单元的输入数据相同，在存储计算单元上进行权重数据与输入数据的乘法计算，同一列上的乘法计算结果通过外围累加电路进行累加，得到每一列的权重数据与多个输入数据的乘积之和。

两种实现方式均可以在行上并行的输入多个输入数据，在列上并行的进行多个乘积累加计算。

数据位宽：简称位，等价于比特(bit)，表示总线一次传输的二进制位数。位是计算机内部数据储存的最小单位，例如11010100是一个8位二进制数，即位宽为8bit，可以称为8比特数据。

计算阵列(crossbar，XB):在本申请中，指由存储计算单元构建的计算阵列，每个计算阵列包含若干行和若干列。

位权：数中每一固定位置对应的单位值称为位权。对于多位数，处在某一位上的“l”所表示的数值的大小，称为该位的位权。例如十进制数从右到左第2位数上的位权为10，第3位数上的位权为100；而二进制数从右到左第2位数上的位权为2，第3位数上的位权为4，对于N进制数，整数部分从右到左第i位数上的位权为N ^i-1，而小数部分从左到右第j位数上的位权为N ^-j。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“耦合”的含义指两个或两个以上的电路元件直接连接或间接连接的意思，例如，A与B耦合可以表示A直接与B连接，或A通过C与B连接。

目前，神经网络加速器采用存算一体装置进行计算时，当计算阵列为采用模拟器件构建的模拟计算阵列时，由于模拟计算阵列受限于模拟器件的精度以及模数转换器(analog-to-digital converter，ADC)/数模转换器(digital-to-analog converter，DAC)等器件的开销，因此通常倾向于进行低比特计算。例如，输入数据和权重数据均采用 16比特，存储计算单元采用2比特，即每个存储计算单元中存储2比特数据，16比特权重数据需要用8个存储计算单元进行存储，可以理解为8列存储计算单元表示一列权重数据。在进行神经网络计算时，16比特输入数据表示为一个长度为16的0/1电压序列，每个时钟周期从低位开始依次并行输入1比特输入数据进行计算，即每个时钟周期存储计算单元计算一次，每次计算1比特输入数据和2比特权重数据的乘积，需要16个时钟周期才能完成16比特输入数据和16比特权重数据的计算。每个时钟周期存储计算单元完成一次计算后每一列存储计算单元会得到一个乘积之和(多个输入数据的同一个单比特位并行输入计算后得到的多个乘积之和)，16个时钟周期计算完成后，每一列存储计算单元会输出16次计算得到的16个乘积之和的总和。将连续8列存储计算单元输出的8个总和采用移位加进行合并，即得到每一列权重数据与多个输入数据的乘积之和，可以理解为图1中的I1。

当计算阵列为采用数字器件构建的数字计算阵列时，由于数字计算阵列通常也倾向于进行单/低比特计算，因此多比特计算需要通过多次单/低比特计算来实现。例如，输入数据和权重数据均采用4比特，存储计算单元为单比特乘法器，即存储计算单元中存储1比特数据，4比特权重数据需要用4个存储计算单元进行存储，可以理解为4列存储计算单元表示一列权重数据。在进行神经网络计算时，将输入数据逐比特位输入到位于同一行的存储计算单元中，每次输入数据的单比特位会和权重数据的所有比特位相乘，即每次输入数据的单比特位会和4个存储计算单元(该4个存储计算单元保存一个权重数据)分别相乘，每个存储计算单元计算1比特输入数据和1比特权重数据的乘积，乘积结果为一个4比特数据(输入数据的单比特位和4个存储计算单元的乘积)，且该乘积结果会输出到外围累加电路中。每次计算结束后，外围累加电路会将同一列权重数据中，多个输入数据的同一个单比特位并行输入计算后得到的多个乘积结果相加，得到多个输入数据的4个比特位对应的4个乘积累加结果。最后，外围累加电路对该4个乘积累加结果进行相应的移位求和，得到一列权重数据和多个输入数据的乘积之和。

可以看出，采用存算一体装置进行计算时，通常需要根据数据位宽将多比特输入数据展开成多个单比特/低比特输入数据进行输入和计算。由于多比特输入数据的位宽是固定的，因此多比特输入数据展开计算的次数是固定的，不论输入数据的数值大或小，进行计算时展开计算的次数都是相同的。例如，8比特输入数据为00001010，若展开成多个单比特输入数据进行乘法计算，需要展开计算8次，8次分别对单比特输入数据0、0、0、0、1、0、1和0进行乘法计算。可以看出，由于8比特输入数据在单比特输入数据0所在的比特位上进行乘法计算所得到的计算结果为0，可以理解为这8次计算中，对单比特输入数据0的计算都是无效的。而在进行计算时，大部分多比特数据的数值都较小，不需要展开计算太多次，因此根据数据位宽将多比特输入数据展开成多个单比特/低比特输入数据进行输入和计算，会存在冗余计算，产生较大开销。此外，上述采用存算一体装置进行计算时，权重数据位宽也是固定的，即不论权重数据的数值大或小，部署到计算阵列上所需要的存储计算单元个数都是相同的，导致计算效率较低。

因此，本申请提出一种存算一体装置，本申请中的存算一体装置可以理解为芯片，例如神经网络加速器。考虑到现有技术中采用存算一体装置进行神经网络计算时，根据数据位宽将多比特输入数据展开成多个单比特/低比特输入数据进行输入和计算，且输入数据位宽和权重数据位宽固定，导致计算开销较大，计算效率较低的问题，本申请在采用存算一体装置进行神经网络计算时，通过位宽计算模块对多个输入数据进行计算，得到与多个输入数据一一对应的多个有效数据，并将多个有效数据输入到计算模块，再由计算模块根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果，并将每一列的计算结果输入到结果处理模块，最后由结果处理模块对每一列的计算结果进行加权计算，得到最终结果。从而有效减少了计算阵列展开计算的次数，降低了计算开销，提高了计算效率。

本申请实施例提出的存算一体装置可以应用于进行计算的场景中，例如应用于进行神经网络计算的场景中。在进行神经网络计算时，存算一体装置对多个神经网络的权重数据和多个输入数据进行计算。

如图3所示，其示出了一种存算一体装置的结构示意图，该存算一体装置可以为芯片，图3中以芯片300示例的芯片。芯片300包括数据处理单元(processing element，PE)301、数据交换模块(switch)302以及输入输出模块(TxRx)303等。

可以理解的是，本申请实施例示意的结构并不构成对芯片300的具体限定。在本申请另一些实施例中，芯片300可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

数据处理单元301可以包括一个或多个数据处理单元，一个数据处理单元包括多个计算引擎。一部分计算引擎用于完成神经网络的乘加计算，本申请实施例中，用于完成神经网络的乘加计算的计算引擎包括位宽计算模块3011、计算模块3012、权重位宽配置模块3013、控制模块3014和结果处理模块3015。另一部分计算引擎用于完成神经网络中例如激活、点乘、点加和除法等计算。

其中，位宽计算模块3011可以用于计算输入数据的有效数据，例如对多个输入数据进行逻辑或计算，得到掩膜值，根据掩膜值确定多个输入数据的多个有效数据，并将计算得到的多个有效数据输入到计算模块。

计算模块3012包括计算阵列和累加电路。计算阵列包括多个存储计算单元，多个存储计算单元阵列排布，每个存储计算单元可以用于存储权重数据的比特位，例如存储多比特权重数据中的1比特数据、2比特数据或4比特数据等。参见图4所示的8×8计算阵列，其中计算阵列包括8列存储计算单元，每列存储计算单元包括8个存储计算单元。以每个存储计算单元中存储1比特数据，权重数据采用4比特为例，一个4比特权重数据需要用4个存储计算单元进行存储，可以理解为4列存储计算单元表示一列权重数据，一列权重数据中包括8个4比特权重数据。计算阵列可以用于对多个有效数据和多个权重数据进行计算，例如对多个有效数据的相同比特位(单比特位/低比特位)和每个存储计算单元存储权重数据的比特位进行乘法计算，得到多个乘积结果(一次计算中，计算阵列中有多少个存储计算单元就得到多少个乘积结果)，并将多个乘积结果输入到累加电路。

累加电路可以用于对计算阵列输出的多个乘积结果进行累加，例如将同一列存储计算单元得到的多个乘积结果进行累加，得到每一列存储计算单元的乘积之和，并将得到的多个乘积之和输入到结果处理模块3015。

权重位宽配置模块3013可以用于存储多种权重数据的位宽信息，一列权重数据即为一种权重数据，因此可以理解为权重位宽配置模块3013用于存储多列权重数据的位宽信息。其中，同一列权重数据的位宽相同，不同列权重数据的位宽可能相同，也可能不相同。位宽信息包括每种权重数据的位宽和每种权重数据对应在计算阵列中的起始列的标识，可以理解为包括每列权重数据的位宽和每列权重数据对应在计算阵列中的起始列的标识。以图4所示的8×8计算阵列为例，计算阵列从左到右分别为第0列存储计算单元，第1列存储计算单元，……，第7列存储计算单元。若权重位宽配置模块3013存储的位宽信息中第0列权重数据的位宽为4比特，在计算阵列中的起始列的标识为第0列存储计算单元，则第0列权重数据如图4所示，包括第0列存储计算单元-第3列存储计算单元。

控制模块3014可以用于根据权重位宽配置模块3013中的位宽信息将存储器中存储的多种权重数据写入多个存储计算单元。控制模块3014还可以用于产生控制信号对计算模块3012和结果处理模块3015进行控制。例如，控制模块3014确定位宽计算模块3011得到的掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号，第一控制信号用于指示计算模块3012对多个有效数据的相同比特位(单比特位/低比特位)和每个存储计算单元中存储的权重数据的比特位进行乘法计算，将得到的多个乘积之和输入到结果处理模块3015。第二控制信号用于指示结果处理模块3015根据位宽信息对计算阵列中每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，得到多个有效数据分别对应的第N比特位的多个加权结果，其中，最低位为第0比特位，N为大于等于0的整数。控制模块3014确定掩膜值的位宽与输入数据的位宽相等时还可以产生第三控制信号，第三控制信号用于指示结果处理模块3015根据掩膜值的有效位对应的位权，以及多个有效数据的每个比特位的多个加权结果进行加权计算，得到每种权重数据的加权结果。

结果处理模块3015可以用于在接收到控制模块3014发送的控制信号后，根据控制信号执行相应的动作。例如，接收到第二控制信号时，根据位宽信息对计算阵列中每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，得到多个有效数据分别对应的第N比特位的多个加权结果。接收到第三控制信号时，根据掩膜值的有效位对应的位权，以及多个有效数据的每个比特位的多个加权结果进行加权计算，得到每种权重数据的加权结果。

数据交换模块302可以用于实现芯片内部各个单元之间的数据交换，例如实现输入输出模块303和多个数据处理单元301之间的数据交换。

输入输出模块303可以用于接收输入数据和权重数据，也可以用于输出数据处理单元301中的得到的最终结果。例如输入输出模块303可以与芯片外的存储器(存储有输入数据和权重数据)进行交互，接收输入数据和权重数据，将输入数据和权重数据通过数据交换模块302输入到数据处理单元301中。还可以将数据处理单元301中的得到的最终结果输出到芯片外的存储器或芯片内的缓存(图3中未示出)中，本申请不与限制。

应用上述本申请提供的存算一体装置，下面结合附图对本申请针对存算一体装置所提出的计算方法，以存算一体装置为芯片为例，在芯片进行神经网络计算的过程中，通过计算多个输入数据中每个输入数据的有效数据，对多个有效数据和多个权重数据进行计算的过程进行介绍。

如图5所示，本申请实施例提供一种计算方法，该方法应用于存算一体装置，以存算一体装置为芯片300为例，芯片300包括位宽计算模块3011、计算模块3012和结果处理模块3015。其中，计算模块包括计算阵列，计算阵列包括多个存储计算单元，多个存储计算单元中每个存储计算单元用于存储权重数据的比特位，可以参见对图4所示的计算阵列的描述。该方法包括：

步骤501、对多个输入数据进行计算，得到多个有效数据。

其中，将输入数据展开进行乘法计算时，对输入数据为0的比特位的乘法计算的结果为0，可以理解为是无效的。对输入数据为1的比特位的乘法计算可以理解是有效的，因此输入数据的有效数据可以理解为由该输入数据的有效位(为1的比特位)组成的数据。多个输入数据与多个有效数据一一对应，多个输入数据中的第一输入数据与多个有效数据中的第一有效数据对应，且第一输入数据的位宽大于第一有效数据的位宽。其中，第一输入数据可以为多个输入数据中的任一个输入数据。由于本申请对输入数据进行神经网络计算与对该输入数据的有效数据进行神经网络计算得到的结果相同，因此能够保证计算结果准确。并且，由于第一输入数据的位宽大于第一有效数据的位宽，因此将该输入数据的有效数据展开进行乘法计算的次数小于将该输入数据展开进行乘法计算的次数，能够有效减少计算模块计算的次数，降低开销。

具体的，步骤501为位宽计算模块3011对多个输入数据进行计算，得到多个有效数据，将多个有效数据输入到计算模块3012。

示例性的，位宽计算模块3011能够从输入输出模块303中获取多个输入数据，位宽计算模块3011计算该多个输入数据中每个输入数据的有效数据，将计算得到的多个有效数据输入到计算模块3012中进行计算。

在一些可选的实施例中，步骤501包括：对多个输入数据进行掩膜计算，得到掩膜值，根据掩膜值的有效位确定多个有效数据。具体为位宽计算模块3011对多个输入数据进行掩膜计算，得到掩膜值，根据掩膜值的有效位确定多个有效数据。

其中，多个输入数据的有效数据需要根据多个输入数据来确定，计算多个输入数据的有效数据的方法包括对多个输入数据进行掩膜(mask)计算。以mask计算为逻辑或计算为例，对多个输入数据逐比特位进行逻辑或计算，即按照从最高比特位到最低比特位的顺序，对多个输入数据的相同比特位进行逻辑或计算，得到一个掩膜值，即mask值，根据mask值的有效位(为1的比特位)能够确定出多个输入数据中每个输入数据的有效数据。

示例性的，如图6所示，以多个输入数据为4个8比特输入数据为例，4个8比特输入数据分别为00001101、00010100、00001001和00000001。按照从最高比特位到最低比特位的顺序，对该4个8比特输入数据的相同比特位进行逻辑或计算，例如4个8比特输入数据的最高比特位(第7位)都为0，因此逻辑或计算结果为0，4个8比特输入数据的最低比特位(第0位)分别为1、0、1和1，因此逻辑或计算结果为 1。对该4个8比特输入数据逐比特位进行逻辑或计算后，得到mask值为00011101。该mask值的有效位分别为第4位、第3位、第2位和第0位，将多个输入数据中第4位、第3位、第2位和第0位对应的数提取出来，即为每个输入数据的有效数据。因此得到该4个8比特输入数据的有效数据分别为0111、1010、0101和0001。

位宽计算模块3011得到多个输入数据中每个输入数据的有效数据后，将该多个有效数据逐比特位输入到计算模块3012，以使计算模块3012将多个有效数据逐比特位和每个存储计算单元存储的权重数据的比特位进行计算，得到计算阵列中每一列的计算结果。其中，计算模块3012对多个有效数据进行计算的结果和对多个输入数据进行计算的结果保持一致。示例性的，以图6所示的多个有效数据0111、1010、0101和0001为例，将多个有效数据按照由高比特位到低比特位的顺序，逐比特位并行输入到计算模块3012。例如先将多个有效数据的最高比特位0、1、0和1并行输入到计算模块3012中，再依次将其余比特位并行输入到计算模块3012中，以使计算模块3012对多个有效数据逐比特位进行计算。

在一些实施例中，位宽计算模块3011也可以逐比特位判断多个输入数据的有效位(即逐比特位计算该4个输入数据的mask值)，当判断任一比特位有效时，将多个输入数据的该有效位输入到计算模块3012进行计算。示例性的，以4个输入数据分别为00001101、00010100、00001001和00000001为例，位宽计算模块3011逐比特位判断该4个输入数据的有效位，当判断到第4比特位时，确定该第4比特位有效，将4个输入数据的第4比特位输入到计算模块3012进行计算，以此类推，判断到无效比特位即不输入到计算模块3012。

可以理解的是，位宽计算模块3011会从输入输出模块303中获取多次输入数据，每次获取多个输入数据，每次都会计算获取到的多个输入数据的有效数据，并将计算得到的多个有效数据输入到计算模块3012。有效数据的位宽和每次获取到的多个输入数据有关，每次计算得到的多个有效数据的位宽可能相同也可能不相同，因此位宽计算模块3011能够动态计算多个输入数据的有效数据。

在一些可选的实施例中，mask计算还可以为其他计算方式，例如通过确定多个输入数据的最大值，直接确定mask的高位数据是否为零等方式，本申请不予限制。此外，当只有一个输入数据时，mask值即为该输入数据，位宽计算模块3011可以根据该输入数据的每个比特位是否为1直接确定出该输入数据的有效数据。

在一些可选的实施例中，位宽计算模块3011还可以根据器件和电路实现的不同，将计算得到的多个有效数据展开成其余低比特输入到计算模块3012中，例如将多个有效数据展开成2比特输入到计算模块3012中，本申请不予限制。

步骤502、根据多个有效数据和权重数据的比特位，得到计算阵列中每一列的计算结果。

其中，每一列的计算结果中的一列计算结果为多个有效数据的同一比特位和一列存储计算单元计算的乘积之和。具体的，步骤502为计算模块3012根据多个有效数据和每个存储计算单元存储的权重数据的比特位，计算得到计算阵列中每一列的计算结果，将每一列的计算结果输入到结果处理模块3015。计算模块3012包括计算阵列，计算阵列包括多个存储计算单元，一个权重数据被展开成多个单比特/低比特权重数据存储到多个存储计算单元中，每个存储计算单元存储的权重数据的比特位可以理解为每个存储计算单元存储的一个权重数据的部分比特位，该部分比特位可以为单比特位或多比特位。计算模块3012会将位宽计算模块3011输入的多个有效数据和每个存储计算单元存储的权重数据的比特位进行乘法计算，具体的，多个有效数据中的每个有效数据会输入到计算阵列中的不同行中，即每个有效数据对应一行存储计算单元，每个有效数据会与对应的每个存储计算单元中存储的权重数据的比特位进行乘法计算。计算结束后，计算阵列中的每一列都会对应一个计算结果，每一列的计算结果为多个有效数据和该列的乘积之和，计算模块3012将每一列的计算结果输入到结果处理模块3015中。

在一些可选的实施例中，步骤502包括：当计算阵列接收到多个有效数据分别对应的第N比特位时，计算阵列计算多个有效数据分别对应的第N比特位和权重数据的比特位的乘积。

其中，N为大于等于0的整数。上述“每个有效数据会与对应的每个存储计算单元中存储的权重数据的比特位进行乘法计算”具体为，进行多次计算，每次计算时，每个有效数据的单比特位与对应的每个存储计算单元中存储的权重数据的比特位进行乘法计算，根据有效数据的位宽来确定进行计算的次数。例如4比特有效数据即计算4次，每次对该有效数据的单比特位进行计算。并且每次计算时，多个有效数据相同的单比特位并行进行计算，即多个有效数据分别对应的第N比特位并行进行计算，可以理解为当计算阵列接收到多个有效数据分别对应的第N比特位时，计算阵列进行一次计算。

示例性的，图7示例了一个计算模块700，包括一个4×8的计算阵列701，以输入数据的有效数据和权重数据均采用4比特，存储计算单元采用1比特，即存储计算单元中存储1比特权重数据，并与1比特输入数据进行乘法计算，多个输入数据的有效数据分别为a1b1c1d1、a2b2c2d2、a3b3c3d3和a4b4c4d4，计算阵列701中的一列权重数据分别为A1B1C1D1、A2B2C2D2、A3B3C3D3和A4B4C4D4为例。该多个有效数据分别对应的第3比特位(最高比特位)为a1、a2、a3和a4，当计算阵列701接收到a1、a2、a3和a4时，计算阵列701会将a1、a2、a3和a4输入到计算阵列701的不同行中，具体为将a1、a2、a3和a4输入到对应行上的每个存储计算单元中。以a1为例，a1会与对应行上的每个存储计算单元存储的权重数据的比特位分别进行乘法计算，得到多个乘积结果，即得到a1×A1、a1×B1、a1×C1和a1×D1等乘积结果。同理，a2、a3和a4也会进行乘法计算得到多个乘积结果。对a1、a2、a3和a4计算结束后，即代表计算阵列701一次计算结束。可以理解的是，4比特有效数据需要进行4次上述计算过程才算对整个有效数据计算结束，对a1、a2、a3和a4计算结束后，还会对b1、b2、b3和b4，c1、c2、c3和c4以及d1、d2、d3和d4分别进行3次计算。

在一些可选的实施例中，计算模块还包括累加电路，累加电路对计算阵列中同一列存储计算单元计算的乘积相加，得到计算阵列中每一列存储计算单元计算的乘积之和。

其中，计算阵列每次计算结束后，累加电路都会对计算阵列得到的多个结果进行累加，具体为对计算阵列中同一列存储计算单元计算得到的多个乘积结果进行累加，得到计算阵列中每一列的计算结果，即得到计算阵列中每一列存储计算单元的乘积之和，并将每一列存储计算单元的乘积之和输入到结果处理模块3015。

示例性的，如图7所示，计算阵列701对a1、a2、a3和a4计算结束后，累加电路702会对计算阵列701中同一列存储计算单元计算得到的多个乘积结果进行累加。累加电路702对计算阵列701中第0列存储计算单元计算得到的多个乘积结果进行累加，得到第0列存储计算单元的乘积之和S3＝a1×A1+a2×A2+a3×A3+a4×A4，对计算阵列701中第1列存储计算单元计算得到的多个乘积结果进行累加，得到第1列存储计算单元的乘积之和S2＝a1×B1+a2×B2+a3×B3+a4×B4，对计算阵列701中第2列存储计算单元计算得到的多个乘积结果进行累加，得到第2列存储计算单元的乘积之和S1＝a1×C1+a2×C2+a3×C3+a4×C4，对计算阵列701中第3列存储计算单元计算得到的多个乘积结果进行累加，得到第3列存储计算单元的乘积之和S0＝a1×D1+a2×D2+a3×D3+a4×D4，以此类推，并将得到的S3、S2、S1和S0等多个乘积之和输入到结果处理模块3015。可以理解的是，计算阵列701每次接收到多个有效数据分别对应的第N比特位，并进行完一次计算后，累加电路702都会计算每列存储计算单元得到的乘积之和，将计算得到的每一列存储计算单元的乘积之和输入到结果处理模块3015，4比特有效数据需要累加电路702向结果处理模块3015输入4次计算结果。

在一些可选的实施例中，存算一体装置还包括权重位宽配置模块，权重位宽配置模块存储多种权重数据的位宽信息。

其中，权重数据包括多种权重数据，权重位宽配置模块可以为图3中的权重位宽配置模块3013。位宽信息包括每种权重数据的位宽和每种权重数据对应在计算阵列中的起始列的标识。一种权重数据可以理解为一列权重数据，例如图7中的4×8的计算阵列701，其中第0列存储计算单元-第3列存储计算单元表示一列权重数据(一种权重数据)，计算阵列701中可以包括多列权重数据(多种权重数据)，多种权重数据中至少两种权重数据的位宽不同。在计算阵列701中，第0列存储计算单元-第3列存储计算单元表示的即为计算阵列701的第0列权重数据，第0列权重数据的位宽为4比特，第0列权重数据在计算阵列701中的起始列的标识为第0列存储计算单元。

示例性的，位宽信息如下表1所示，对应图7所示的计算阵列701，表1包括3种权重数据，分别为第0列权重数据、第1列权重数据和第2列权重数据。第一种权重数据(第0列权重数据)的位宽为4比特，起始列标识为第0列存储计算单元，即第0列存储计算单元-第3列存储计算单元表示第一种权重数据(第0列权重数据)。第二种权重数据(第1列权重数据)的位宽为2比特，起始列标识为第4列存储计算单元，即第4列存储计算单元和第5列存储计算单元表示第二种权重数据(第1列权重数据)。第三种权重数据(第2列权重数据)的位宽为2比特，起始列标识为第6列存储计算单元，即第6列存储计算单元和第7列存储计算单元表示第三种权重数据(第2列权重数据)。

表1

权重数据标识	位宽	起始列标识
第0列权重数据	4比特	第0列存储计算单元
第1列权重数据	2比特	第4列存储计算单元

第2列权重数据

2比特

第6列存储计算单元

可以看出，本申请的权重位宽配置模块3013能够存储多种权重数据的位宽信息，且多种权重数据中至少两种权重数据的位宽不同，即本申请的单个计算阵列中能够包括多种位宽的权重数据，支持权重数据混合精度的计算，因此能够有效提高存算一体装置的计算效率。

在一些可选的实施例中，存算一体装置还包括控制模块，控制模块根据位宽信息将多种权重数据写入多个存储计算单元。

其中，控制模块可以为图3中的控制模块3014。控制模块3014能够根据权重位宽配置模块3013中的位宽信息将存储器中存储的多种权重数据写入多个存储计算单元。

示例性的，以上述表1所示的位宽信息和图7所示计算阵列701为例，控制模块3014根据表1所示的第0列权重数据的位宽和起始列标识，将存储器中存储的第0列权重数据(A1B1C1D1、A2B2C2D2、A3B3C3D3和A4B4C4D4)的每个比特位对应写入第0列存储计算单元-第3列存储计算单元中的每个存储计算单元中，以此类推直至根据表1所示的位宽信息将存储器中的多种权重数据全部写入计算阵列701中的每个存储计算单元中。

在一些可选的实施例中，控制模块逐比特位确定掩膜值的有效位，当确定掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号。

其中，控制模块3014能够根据位宽计算模块3011计算的mask值产生控制信号对计算模块3012和结果处理模块3015进行控制。具体的，位宽计算模块3011逐比特位将mask值输入到控制模块3014中，控制模块3014逐比特位确定mask值的每个比特位是否有效(即是否为1)，当确定mask值的任一比特位有效时，控制模块3014产生第一控制信号和第二控制信号。可以理解的是，mask值中有几个有效比特位，控制模块3014就产生几次第一控制信号和第二控制信号。

第一控制信号用于指示计算模块3012计算得到计算阵列中每一列存储计算单元的乘积之和，可以理解为指示计算模块3012执行一次图7所示的对多个有效数据分别对应的第N比特位的计算，并得到计算阵列中每一列存储计算单元的乘积之和。

第二控制信号用于指示结果处理模块3015，根据位宽信息对计算阵列中每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，得到多个有效数据分别对应的第N比特位的多个加权结果。由于根据位宽信息能够获知一种权重数据(一列权重数据)对应计算阵列的哪几列存储计算单元，因此结果处理模块3015根据位宽信息能够确定每种权重数据对应的多列存储计算单元。结果处理模块3015，将每种权重数据对应的多列存储计算单元的乘积之和进行加权计算，具体为，根据权重数据比特位的位权进行加权计算。例如，对应权重数据最低比特位(第0比特位)的一列存储计算单元，加权计算时，该存储计算单元的乘积之和与2 ⁰相乘再进行累加，对应权重数据最2比特位的一列存储计算单元，加权计算时，该存储计算单元的乘积之和与2 ²相乘再进行累加，与2的幂次相乘在电路上可以通过移位实现。可以理解的是，计算阵列中包括几种权重数据(几列权重数据)，结果处理模块3015执行一次加权计算就会得到几个加权结果。当计算阵列中包括多种权重数据时，结果处理模块3015接收到第二控制信号后就会得到多个有效数据分别对应的第N比特位的多个加权结果，其中，多个加权结果中每个加权结果对应一种权重数据。

示例性的，如图8所示的控制模块800，控制模块800中包括第一比较器，第一比较器用于比较输入到控制模块800中的比特位与1是否相同，若相同则产生第一控制信号和第二控制信号，若不相同则不产生第一控制信号和第二控制信号。

以图6所示的mask值为00011101为例。位宽计算模块3011按照从最高比特位到最低比特位的顺序，逐比特位将mask值输入到控制模块800中。首先，位宽计算模块3011输入mask值的最高比特位(第7比特位)0到控制模块800中，控制模块800中的第一比较器比较0与1不相同，即确定该比特位非有效位，不产生第一控制信号和第二控制信号。以此类推，当位宽计算模块3011将mask值的第4比特位1输入到控制模块800中时，控制模块800中的第一比较器比较1与1相同，确定该比特位为有效位，产生第一控制信号和第二控制信号。

控制模块800产生的第一控制信号会输入到计算模块3012中，用于指示计算模块3012对多个有效数据分别对应的第N比特位进行一次计算。相应的，根据mask值的第4比特位产生的第一控制信号，会指示计算模块3012对多个有效数据的最高比特位(第3比特位)0、1、0和0进行一次计算，得到计算阵列中每一列存储计算单元的乘积之和，即图7所示的S3、S2、S1和S0等。

控制模块800产生的第二控制信号会输入到结果处理模块3015中，用于指示结果处理模块3015对计算模块3012进行一次计算产生的多个乘积之和进行加权计算。以表1所示的位宽信息和图7所示计算模块700为例，结果处理模块3015根据表1中第0列权重数据的位宽为4比特，起始列标识为第0列存储计算单元确定出计算阵列701中第0列存储计算单元-第3列存储计算单元表示第一种权重数据(第0列权重数据)。并将计算模块700得到的第0列存储计算单元-第3列存储计算单元对应的乘积之和S3、S2、S1和S0，分别和权重数据比特位的位权进行加权计算，得到一个加权结果sum0，该sum0对应一种权重数据(第0列权重数据)，sum0＝S3×2 ³+S2×2 ²+S1×2 ¹+S0×2 ⁰，以此类推。可以理解的是，计算模块700能够得到3个加权结果，分别对应第0列权重数据、第1列权重数据和第2列权重数据。

在一些可选的实施例中，控制模块确定掩膜值的位宽与输入数据的位宽相等时，产生第三控制信号。

其中，由对图6所示的描述可以看出，输入数据的位宽和mask值的位宽相同。由于mask值逐比特位输入到控制模块3014中，当控制模块3014确定mask值的位宽与输入数据的位宽相同时，即可确定出mask值输入完毕，从而产生第三控制信号。可以理解为，控制模块3014输出第一控制信号和第二控制信号完毕之后，输出第三控制信号。

第三控制信号用于指示结果处理模块3015，根据mask值的有效位对应的位权，以及多个有效数据的每个比特位的多个加权结果进行加权计算，得到最终结果，最终结果包括每种权重数据的加权结果。

示例性的，如图8所示，控制模块800中还包括计数器和第二比较器。每输入mask值的一个比特位，计数器就会执行加1操作，记录mask值的位宽。第二比较器用于比较计数器中记录的mask值的位宽和输入数据的位宽是否相同，若相同则产生第二控制信号，若不相同则不产生第二控制信号。

以图6所示的输入数据位宽为8比特，mask值为00011101为例。mask值的有效位分别为第4位、第3位、第2位和第0位，有效位对应的位权分别为2 ⁴、2 ³、2 ²和2 ⁰。位宽计算模块3011输入mask值的最高比特位(第7比特位)0到控制模块800中，控制模块800中的第一比较器比较0与1不相同，即确定该比特位非有效位，不产生第一控制信号和第二控制信号。同时计数器会记录mask的位宽为1，第二比较器比较计数器记录的mask的位宽(1)与输入数据的位宽(8)不相同，不产生第三控制信号。以此类推，当位宽计算模块3011将mask值的最低比特位(第0比特位)1输入到控制模块800中时，控制模块800中的第一比较器比较1与1相同，确定该比特位为有效位，产生第一控制信号和第二控制信号。同时计数器会记录mask的位宽为8，第二比较器比较计数器记录的mask的位宽(8)与输入数据的位宽(8)相同，产生第三控制信号。

控制模块800产生的第三控制信号会输入到结果处理模块3015中，此时结果处理模块3015已经接收到4次第二控制信号，即已经对计算模块3012的多个乘积之和进行了4次加权计算，每次加权计算得到多个加权结果(例如第1次加权计算得到sum0等加权结果)。第三控制信号用于指示结果处理模块3015，根据mask值的有效位对应的位权，以及多次加权计算得到的多个加权结果再次进行加权计算，得到最终结果。以结果处理模块3015对第0列权重数据第1次加权计算得到sum0，第2次加权计算得到sum1，第3次加权计算得到sum2，第4次加权计算得到sum3为例，多个加权结果sum0、sum1、sum2和sum3分别和mask值的有效位的位权2 ⁴、2 ³、2 ²和2 ⁰对应，可以理解为该加权结果对应的mask值的有效位的位权，与产生得到该加权结果的第二控制信号对应的mask值的有效位的位权相同。结果处理模块3015再次进行加权计算，得到第0列权重数据的最终结果out0＝sum0×2 ⁴+sum1×2 ³+sum2×2 ²+sum3×2 ⁰。以此类推，最终结果包括每种权重数据的加权结果。可以理解的是，计算模块700能够得到3个最终结果，分别对应第0列权重数据、第1列权重数据和第2列权重数据。

步骤503、对每一列的计算结果进行加权计算，得到最终结果。

其中，步骤503具体为结果处理模块3015对每一列的计算结果进行加权计算，得到最终结果。每一列的计算结果为每一列存储计算单元的乘积之和，可以理解为上述步骤502中的S3、S2、S1和S0等计算结果。结果处理模块3015对每一列的计算结果进行加权计算具体为，根据权重数据比特位的位权进行加权计算得到多个sum值，再根据mask值的有效位对应的位权进行加权计算得到多个out值，即得到最终结果。可参见对上述控制模块3014(控制模块800)的描述，此处不过多赘述。

在一些可选的实施例中，输入数据和权重数据包括无符号数和有符号数，其中，无符号数的计算方法可以参见本申请实施例中的举例，有符号数可以通过补码计算和差分计算等计算方法实现，本申请不予限制。

由此，本申请实施例提供的一种计算方法，可以应用于存算一体装置，例如芯片中，当进行神经网络计算的过程中，通过位宽计算模块对多个输入数据进行计算，并将计算得到的多个输入数据的多个有效数据输入到计算模块，再由计算模块根据多个有效数据和每个存储计算单元存储的权重数据的比特位，得到计算阵列中每一列的计算结果，并将每一列的计算结果输入到结果处理模块，最后由结果处理模块对每一列的计算结果进行加权计算，得到最终结果。相比于现有技术中根据数据位宽将多比特输入数据展开成多个单比特/低比特输入数据进行输入和计算，导致展开计算太多次，产生较大开销，本申请的位宽计算模块能够动态计算输入数据的有效数据，从而仅对输入数据的有效位进行计算，有效减少计算模块计算的次数，降低开销。并且现有技术无法做到权重数据混合精度计算，导致计算效率低，本申请能够利用权重位宽配置模块存储的多种权重数据的位宽信息，在单个计算阵列中实现多种位宽的权重数据的部署和计算，从而支持权重数据混合精度的计算，有效提高存算一体装置的计算效率。

与上述图5提供的计算方法对应，在图3所示的存算一体装置的结构基础上，如图9所示，本申请实施例提供一种计算方法的流程示意图，以位宽计算模块为位宽计算模块3011，计算模块为计算模块3012，权重位宽配置模块为权重位宽配置模块3013，控制模块为控制模块3014，结构处理模块为结果处理模块3015，多个输入数据为00011、00101和00010，计算阵列为3×3计算阵列，存储单元存储采用1比特，权重位宽配置模块3013中仅存储了一种权重数据为例。该计算流程包括：

步骤1、位宽计算模块3011对多个输入数据进行计算，得到多个输入数据的mask值以及每个输入数据对应的有效数据，将多个有效数据输入到计算模块3012。

其中，多个输入数据为00011、00101和00010，对多个输入数据进行mask计算(以逻辑或计算为例)，计算得到的mask值为00111，从而确定出多个有效数据分别为011、101和010，并将011、101和010逐比特输入到计算模块。具体参见对上述步骤501的描述，此处不过多赘述。

步骤2、控制模块3014根据权重位宽配置模块3013将多种权重数据写入多个存储计算单元。

其中，权重位宽配置模块3013中仅存储了一种权重数据，位宽为3比特，起始列标识为第0列存储计算单元。以多个权重数据为101、011和111为例，控制模块3014根据权重位宽配置模块3013中的位宽信息将多个权重数据写入多个存储计算单元，参见图9所示的计算阵列。具体参见对上述控制模块的描述，此处不过多赘述。

步骤3、控制模块3014根据位宽计算模块3011计算的mask值的有效位，产生第一控制信号和第二控制信号。

其中，mask值的最高位(第4位)0先输入到控制模块3014中，控制模块3014判断该最高位非有效位，不产生第一控制信号和第二控制信号。之后，mask值的第3位0输入到控制模块3014中，控制模块3014判断该第3位非有效位，不产生第一控制信号和第二控制信号。再之后，mask值的第2位1输入到控制模块3014中，控制模块3014判断该mask值的第2位为有效位，产生第一控制信号和第二控制信号。根据该mask值的第2位产生的第一控制信号用于控制计算模块3012对多个有效数据的最高位(第2位)0、1和0进行计算，得到S0＝0×1+1×0+0×1＝0，S1＝0×0+1×1+0×1＝1和S2＝0×1+1×1+0×1＝1，分别对应第0列存储计算单元、第1列存储计算单元和第2列存储计算单元，并将其输入到结果处理模块3015。根据该mask值的第2位产生的第二控制信号用于控制结果处理模块3015对S0、S1和S2根据权重数据比特位的位权进行加权计算，得到sum＝0×2 ²+1×2 ¹+1×2 ⁰＝3。再之后，mask值的第1位1输入到控制模块3014中，控制模块3014判断该mask值的第1位为有效位，产生第一控制信号和第二控制信号。根据该mask值的第1位产生的第一控制信号用于控制计算模块3012对多个有效数据的第1位1、0和1进行计算，得到S0＇＝1×1+0×0+1×1＝2，S1＇＝1×0+0×1+1×1＝1和S2＇＝1×1+0×1+1×1＝2，分别对应第0列存储计算单元、第1列存储计算单元和第2列存储计算单元，并将其输入到结果处理模块3015。根据该mask值的第1位产生的第二控制信号用于控制结果处理模块3015对S0'、S1'和S2'根据权重数据比特位的位权进行加权计算，得到sum'＝2×2 ²+1×2 ¹+2×2 ⁰＝12。最后，mask值的第0位1输入到控制模块3014中，控制模块3014判断该mask值的第0位为有效位，产生第一控制信号和第二控制信号。根据该mask值的第0位产生的第一控制信号用于控制计算模块3012对多个有效数据的第0位1、1和0进行计算，得到S0”＝1×1+1×0+0×1＝1，S1”＝1×0+1×1+0×1＝1和S2”＝1×1+1×1+0×1＝2，分别对应第0列存储计算单元、第1列存储计算单元和第2列存储计算单元，并将其输入到结果处理模块3015。根据该mask值的第0位产生的第二控制信号用于控制结果处理模块3015对S0”、S1”和S2”根据权重数据比特位的位权进行加权计算，得到sum”＝1×2 ²+1×2 ¹+2×2 ⁰＝8。具体参见对上述控制模块3014的描述，此处不过多赘述。

步骤4、控制模块3014确定mask值的位宽与输入数据的位宽相等时，产生第三控制信号。

其中，控制模块3014确定mask值的位宽为5比特时，产生第三控制信号。第三控制信号用于控制结果处理模块3015将步骤3中计算得到的sum、sum'和sum”根据mask值的有效位的位权进行加权计算，得到out＝sum×2 ²+sum'×2 ¹+sum”×2 ⁰＝44，即为最终结果。具体参见对上述控制模块3014的描述，此处不过多赘述。

至此，存算一体装置已完成对多个输入数据和多个权重数据的计算。可以理解的是，上述步骤1-步骤4中仅以计算阵列包括一种权重数据(一列权重数据)作为示例，实际上可能有多种权重数据。本申请实施例提供的一种计算方法，通过动态计算多个输入数据的有效数据，仅对输入数据的有效位进行计算，能够有效减少计算模块计算的次数，降低开销，同时还支持权重数据混合精度的计算，提高存算一体装置的计算效率。

根据本申请实施例提供的计算方法，采用目标检测yolov3-tiny模型进行计算的结果如表2所示(数据集为COCO2017val数据集)。其中，以现有技术中采用8比特模型(权重数据为8比特)进行计算时的比特操作数和阵列计算次数为100％为例，在采用8比特模型和本申请的存算一体装置进行计算时，能够在保证计算精度的同时，将比特操作数降低为现有技术中的81.38％，将阵列计算次数降低为现有技术中的78.31％。在采用4/8比特混合模型(权重数据包括4比特和8比特)和本申请的存算一体装置进行计算时，能够在保证计算精度的同时，将比特操作数降低为现有技术中的69.14％，将阵列计算次数降低为现有技术中的72.23％。可以看出，本申请实施例提供的方法能够有效降低计算次数，并且当权重数据混合精度进行计算时，计算次数能够大幅度降低，因此有效减少了计算开销，提高了计算效率。

表2

可以理解的是，上述存算一体装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本申请实施例可以根据上述方法示例对上述存算一体装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，如图10所示，本申请实施例公开了一种存算一体装置1000，该存算一体装置1000可以为上述实施例中的芯片300。存算一体装置1000可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对存算一体装置1000的动作进行控制管理，例如，可以用于支持存算一体装置1000执行上述位宽计算模块3011、计算模块3012、权重位宽配置模块3013、控制模块3014和结果处理模块3015执行的步骤。存储模块可以用于支持存算一体装置1000存储程序代码和数据等，例如，可以用于存储输入数据和权重数据等。通信模块可以用于支持存算一体装置1000与其他设备的通信，例如，可以用于从外部设备输入多个输入数据和权重数据，也可以用于将结果处理模块3015得到的最终结果输出到外部设备。

当然，上述存算一体装置1000中的单元模块包括但不限于上述处理模块、存储模块和通信模块。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，神经网络处理器(neural network processing unit，NPU)、数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为与其他外部设备交互的设备。

例如，处理模块为处理器1001，存储模块可以为存储器1002，通信模块可以称为通信接口1003。本申请实施例所提供的存算一体装置1000可以为图3所示的芯片300。其中，上述处理器1001、存储器1002、通信接口1003等可以连接在一起，例如通过总线连接。

本申请实施例还提供一种电子设备，包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述相关方法步骤实现上述实施例中的计算方法。

本申请实施例还提供一种电子设备，该电子设备包括一个或多个通信接口和一个或多个处理器，其中，通信接口和处理器通过线路互联，处理器通过通信接口从电子设备的存储器接收并执行计算机指令，使得电子设备执行上述相关方法步骤实现上述实施例中的计算方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序代码，当计算机指令在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的计算方法。

本申请的实施例还提供了一种计算机程序产品，计算机程序产品中包括计算机指令，当计算机指令在计算机或处理器上运行时，使得计算机或处理器执行上述相关步骤，以实现上述实施例中电子设备执行的计算方法。

其中，本实施例提供的存算一体装置、电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory， ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种存算一体装置，其特征在于，所述存算一体装置包括位宽计算模块、计算模块和结果处理模块；所述计算模块包括计算阵列，所述计算阵列包括多个存储计算单元，所述多个存储计算单元用于存储权重数据；

所述位宽计算模块，用于对输入数据进行计算，得到有效数据，所述有效数据的位宽小于所述输入数据的位宽；

所述计算模块，用于对所述有效数据和所述权重数据计算，计算次数由所述有效数据的位宽决定；

所述结果处理模块，用于对所述计算模块的计算结果进行计算，得到最终结果。
根据权利要求1所述的存算一体装置，其特征在于，

所述位宽计算模块，具体用于对所述输入数据进行掩膜计算，得到掩膜值，根据所述掩膜值的有效位确定所述有效数据；

将所述有效数据逐比特位输入到所述计算模块，以使所述计算模块对所述有效数据逐比特位进行计算。
根据权利要求2所述的存算一体装置，其特征在于，当所述计算阵列接收到所述有效数据分别对应的第N比特位时，其中，N为大于等于0的整数，

所述计算阵列，用于计算所述有效数据分别对应的第N比特位和所述权重数据的比特位的乘积；

所述计算模块还包括累加电路；

所述累加电路，用于对所述计算阵列中同一列存储计算单元计算的乘积相加，得到所述计算阵列中每一列存储计算单元计算的乘积之和。
根据权利要求2或3所述的存算一体装置，其特征在于，所述权重数据包括多种权重数据，所述存算一体装置还包括权重位宽配置模块；

所述权重位宽配置模块，用于存储所述多种权重数据的位宽信息，所述位宽信息包括每种权重数据的位宽和所述每种权重数据对应在所述计算阵列中的起始列的标识，其中，所述多种权重数据中至少两种权重数据的位宽不同。
根据权利要求4所述的存算一体装置，其特征在于，所述存算一体装置还包括控制模块；

所述控制模块，用于根据所述位宽信息将所述多种权重数据写入所述多个存储计算单元。
根据权利要求5所述的存算一体装置，其特征在于，

所述控制模块，还用于逐比特位确定所述掩膜值的有效位，当确定所述掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号；

所述第一控制信号用于指示所述计算模块对所述有效数据和所述权重数据计算；所述第二控制信号用于指示所述结果处理模块，根据所述位宽信息对所述计算阵列中所述每种权重数据对应的多列存储计算单元的计算结果进行加权计算，得到所述多个有效数据分别对应的第N比特位的多个加权结果，所述多个加权结果中每个加权结果对应一种权重数据。
根据权利要求6所述的存算一体装置，其特征在于，

所述控制模块，还用于确定所述掩膜值的位宽与所述输入数据的位宽相等时，产生第三控制信号；所述第三控制信号用于指示所述结果处理模块，根据所述掩膜值的有效位对应的位权，以及所述多个有效数据的每个比特位的多个加权结果进行加权计算，得到所述最终结果，所述最终结果包括所述每种权重数据的加权结果。
一种计算方法，其特征在于，所述方法应用于存算一体装置，所述存算一体装置包括计算阵列，所述计算阵列包括多个存储计算单元，所述多个存储计算单元用于存储权重数据；所述方法包括：

对输入数据进行计算，得到有效数据；所述有效数据的位宽小于所述输入数据的位宽；

对所述有效数据和所述权重数据计算，计算次数由所述有效数据的位宽决定；

对所述计算模块的计算结果进行计算，得到最终结果。
根据权利要求8所述的方法，其特征在于，所述对输入数据进行计算，得到有效数据包括：

对所述输入数据进行掩膜计算，得到掩膜值，根据所述掩膜值的有效位确定所述有效数据；

所述对所述有效数据和所述权重数据计算包括：

将所述有效数据逐比特位和所述权重数据的比特位进行计算，得到计算结果。
根据权利要求9所述的方法，其特征在于，所述将所述有效数据逐比特位和所述权重数据的比特位进行计算，得到计算结果包括：当所述计算阵列接收到所述有效数据分别对应的第N比特位时，其中，N为大于等于0的整数，

计算所述有效数据分别对应的第N比特位和所述权重数据的比特位的乘积；

对所述计算阵列中同一列存储计算单元计算的乘积相加，得到所述计算阵列中每一列存储计算单元计算的计算结果。
根据权利要求9或10所述的方法，其特征在于，所述权重数据包括多种权重数据，所述方法还包括：

存储所述多种权重数据的位宽信息，所述位宽信息包括每种权重数据的位宽和所述每种权重数据对应在所述计算阵列中的起始列的标识，其中，所述多种权重数据中至少两种权重数据的位宽不同。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据所述位宽信息将所述多种权重数据写入所述多个存储计算单元。
根据权利要求12所述的方法，其特征在于，所述方法还包括：

逐比特位确定所述掩膜值的有效位，当确定所述掩膜值的任一比特位有效时，产生第一控制信号和第二控制信号；

所述第一控制信号用于计算得到所述计算阵列中每一列存储计算单元计算的乘积之和；所述第二控制信号用于根据所述位宽信息对所述计算阵列中所述每种权重数据对应的多列存储计算单元的计算结果进行加权计算，得到所述多个有效数据分别对应的第N比特位的多个加权结果，所述多个加权结果中每个加权结果对应一种权重数据。
根据权利要求13所述的方法，其特征在于，所述方法还包括：

确定所述掩膜值的位宽与所述输入数据的位宽相等时，产生第三控制信号；所述第三控制信号用于根据所述掩膜值的有效位对应的位权，以及所述有效数据的每个比特位的多个加权结果进行加权计算，得到所述最终结果，所述最终结果包括所述每种权重数据的加权结果。
一种计算机可读存储介质，其特征在于，存储有计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述权利要求8-14中的任一项所述的方法。