WO2018192500A1

WO2018192500A1 - 处理装置和处理方法

Info

Publication number: WO2018192500A1
Application number: PCT/CN2018/083415
Authority: WO
Inventors: 陈天石; 韦洁; 支天; 王在; 刘少礼; 罗宇哲; 郭崎; 李韦; 周聖元; 杜子东
Original assignee: 上海寒武纪信息科技有限公司
Priority date: 2017-04-19
Filing date: 2018-04-17
Publication date: 2018-10-25
Also published as: CN109121435A; EP3786786A1; US20200050918A1; JP2020074099A; EP3614259A4; US20200097792A1; JP6821002B2; US11734002B2; KR20200000480A; US20200117976A1; EP3786786C0; KR20190139837A; EP3614259A1; EP3786786B1; EP3654172A1; US20200097794A1; US11698786B2; KR102292349B1; US11531540B2; US20200097795A1

Abstract

一种计算位宽动态可配置的处理装置，包括：存储器，用于存储数据，所述数据包括待运算数据、中间运算结果、最终运算结果和待缓存数据；数据宽度调整电路，用于调整所述待运算数据、中间运算结果、最终运算结果和/或待缓存数据的宽度；运算电路，用于对待运算数据进行运算，包括采用加法器电路和乘法器对不同计算位宽的待运算数据进行计算；以及控制电路，用于控制存储器、数据宽度调整电路和运算电路。所述的装置具有灵活性强、可配置程度高、运算速度快、功耗低等优点。

Description

处理装置和处理方法

技术领域

本公开涉及计算机领域，进一步涉及人工智能领域的处理装置和处理方法。

背景技术

随着大数据时代的来临，神经网络算法成为了近些年人工智能领域的一个研究热点，在模式识别、图像分析、智能机器人等方面都得到了广泛的应用。

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习人物(例如，人脸识别或面部表情识别)。

至今已有数种深度学习架构，如深度神经网络、卷积神经网络和深度信念网络和递归神经网络已被应用于计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域，并获取了极好的效果。另外，深度学习已成为类似术语，或者说是神经网络的品牌重塑。

随着深度学习(神经网络)的大热，神经网络加速器也应运而生，通过专门的内存和运算模块设计，神经网络加速器在进行深度学习运算时可以获得相比较通用处理器几十倍甚是上百倍的加速比，并且面积更小，功耗更低。

发明内容

本公开提供一种计算位宽动态可配置的处理装置，包括：

存储器，用于存储数据，所述数据包括神经网络的待运算数据、中间运算结果、最终运算结果和待缓存数据；

数据宽度调整电路，用于调整所述待运算数据、中间运算结果、最终运算结果和/或待缓存数据的宽度；

运算电路，用于对神经网络的待运算数据进行运算；以及

控制电路，用于控制存储器、数据宽度调整电路和运算电路。

本公开还提供一种计算位宽动态可配置的处理装置的使用方法，包括步骤：

控制电路生成控制指令，传送给存储器、数据宽度调整电路和运算电路；

存储器根据接收的控制指令，向运算电路输入神经网络的待运算数据；

数据宽度调整电路根据接收的控制指令，调整神经网络的待运算数据的宽度；

运算电路根据接收的控制指令，选择第一运算模块中的对应类型的乘法器和加法器电路；

运算电路根据输入的待运算数据和神经网络参数以及控制指令，对不同计算位宽的神经网络的待运算数据进行运算。

本公开还提供一种处理装置，包括：存储器，用于存储数据，所述数据包括神经网络的待运算数据；运算电路，用于对神经网络的待运算数据进行运算，包括采用加法器电路和乘法器对不同计算位宽的神经网络的待运算数据进行计算；以及控制电路，用于控制存储器和运算电路，包括根据待运算数据确定运算电路的乘法器和加法器电路的类型以进行运算。

本公开还提供一种使用上述处理装置的方法，包括步骤：控制电路生成控制指令，传送给存储器和运算电路；存储器根据接收的控制指令，向运算电路输入神经网络的待运算数据；运算电路根据接收的控制指令，选择第一运算模块中的对应类型的乘法器和加法器电路；运算电路根据输入的待运算数据和神经网络参数以及控制指令，对不同计算位宽的神经网络的待运算数据进行运算，运算结果送回存储器。

本公开还提供一种运算装置，包括：输入模块，用于获取输入数据，该输入数据包括待处理数据、网络结构和权值数据，或者该输入数据包括待处理数据和/或离线模型数据；模型生成模块，用于根据输入的网络结构和权值数据构建离线模型；神经网络运算模块，用于基于离线模型生成运算指令并缓存，以及基于运算指令对待处理数据进行运算得到运算结果；输出模块，用于输出所述运算结果；控制模块，用于检测输入数据类型并控制输入模块、模型生成模块和神经网络运算模块进行运算。

本公开还提出了一种应用上述运算装置的运算方法，包括以下步骤：

获取输入数据；

获取离线模型，或根据输入数据确定离线模型，依据离线模型确定运算指令，以供后续计算调用；

调用所述运算指令，对待处理数据进行运算得到运算结果以供输出。

本公开还提供一种支持复合标量指令的装置，包括控制器模块、存储模块和运算器模块，其中：所述存储模块，用于存储复合标量指令和数据，所述数据有一种以上的类型，不同类型的数据存储于存储模块中不同的地址内；所述控制器模块，用于从存储模块读取复合标量指令并译码为控制信号；所述运算器模块，用于接收控制信号，从所述存储模块读取数据，根据读取数据的地址判断数据类型，并对数据进行运算。

本公开还提供一种处理器，用于执行复合标量指令，其中该复合标量指令包括操作码域、操作数地址域和目的地址域；所述操作码域中存储的操作码用于区分不同类型的操作，所述操作数地址域用于区分操作数的类型，所述目的地址域为运算结果存储的地址。

本公开还提供一种复合标量指令的执行方法，包括以下步骤：将不同类型的数据存储于不同的地址内；将复合标量指令译码为控制信号；根据控制信号读取操作数据，根据读取操作数据的地址判断操作数据的类型，对操作数据进行运算；将运算结果存储于对应类型的地址内。

本公开还提供一种计数装置，包括：寄存器单元、计数单元和存储单元，其中，寄存器单元，用于存储待计数的输入数据在存储单元中存储的地址；计数单元，与寄存器单元连接，用于获取计数指令，根据计数指令在寄存器单元中读取输入数据的存储地址，在存储单元中获取相应的待计数的输入数据，并对输入数据中满足给定条件的元素个数进行统计计数，得到计数结果；存储单元，与计数单元连接，用于存储待计数的输入数据以及用于存储所述的计数结果。

本公开还提供一种上述计数装置的计数方法，包括以下步骤：计数单元获取计数指令，根据计数指令在寄存器单元中读取的输入数据的存储地址，在存储单元中获取相应的待计数的输入数据，并对输入数据中满足给定条件的元素个数进行统计计数，得到计数结果；将统计的计数结果传输至存储单元中。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本公开一实施例提供的计算位宽动态可配置的处理装置的结构示意图。

图2是本公开另一实施例提供的计算位宽动态可配置的处理装置结构示意图。

图3是本公开再一实施例提供的计算位宽动态可配置的结构示意图。

图4是本公开又一实施例提供的计算位宽动态可配置的处理装置另一个实施例的结构示意图。

图5是本公开的一个实施例用于本装置的位串行加法树装置示意图。

图6是本公开计算位宽动态可配置的处理装置中位串行运算器方框示意图。

图7是本公开本公开提供的一个实施例的第一基础乘法器装置的结构示意图。

图8是本公开本公开提供的一个实施例的第二基础乘法器装置的结构示意图。

图9是本公开提供的一个实施例的稀疏乘法器装置的结构示意图。

图10是本公开提供的一个实施例的基础乘法器或稀疏乘法器进行向量乘法的装置的结构示意图。

图11是本公开提供的一个实施例的融合向量乘法器进行向量乘法的装置的结构示意图。

图12是本公开提供的融合向量乘法器装置和其他乘法器装置具体实施流程的结构示意图。

图13是本公开一个实施例的第二基础乘法器和位串行加法树进行组合示意图。

图14是本公开一实施例提供的计算位宽动态可配置的处理方法流程图。

图15是本公开一另实施例提供的计算位宽动态可配置的处理装置的结构示意图。

图16是本公开另一实施例提供的计算位宽动态可配置的处理装置结构示意图。

图17是本公开再一实施例提供的计算位宽动态可配置的处理装置结构示意图。

图18是本公开又一实施例提供的计算位宽动态可配置的处理装置的另一个实施例的结构示意图。

图19是本公开提供的一个实施例的基础乘法器装置的结构示意图。

图20是本公开提供的一个实施例的稀疏乘法器装置的结构示意图。

图21是本公开提供的一个实施例的基础乘法器或稀疏乘法器进行向量乘法的装置的结构示意图。

图22是本公开提供的一个实施例的融合向量乘法器进行向量乘法的装置的结构示意图。

图23是本公开提供的融合向量乘法器装置和其他乘法器装置具体实施流程的结构示意图。

图24是本公开一实施例提供的计算位宽动态可配置的处理方法流程图。

图25是典型的编程框架图。

图26是本公开一实施例提出的运算方法的运算流程图。

图27是本公开另一实施例提出的运算装置的结构框架图。

图28是本公开实施例提供的运算装置的结构示意图；

图29A是本公开实施例提供的一种存储模块RAM组织形式示例图；

图29B是本公开实施例提供的一种存储模块寄存器堆组织形式示例图；

图30A是本公开实施例提供的复合标量指令示例图；

图30B是本公开实施例提供的采用寄存器寻址时复合标量指令示例图；

图30C是本公开实施例提供的采用寄存器间接寻址时复合标量指令示例图；

图30D是本公开实施例提供的采用立即数寻址时复合标量指令示例图；

图30E是本公开实施例提供的采用RAM寻址时复合标量指令示例图；

图31是本公开实施例提供的支持复合标量指令的运算方法流程图。

图32为本公开实施例计数装置的框架结构示意图。

图33为本公开实施例计数装置中计数单元的结构示意图。

图34为图33计数单元中的加法器结构示意图。

图35为本公开实施例计数装置中计数指令的指令集格式示意图。

图36为本公开实施例计数装置中计数单元的执行过程流程图。

图37为本公开实施例计数装置的结构示意图。

图38为本公开实施例计数装置的执行过程流程图。

具体实施方式

下面结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开的保护范围。

在本公开中所述的“存储器”可以集成在计算位宽动态可配置的处理装置的内部，也可以是一个单独的器件，作为外部存储器与计算位宽动态可配置的处理装置进行数据传输存储器可以集成在计算位宽动态可配置的处理装置的内部，也可以是一个单独的器件，作为外部存储器与计算位宽动态可配置的处理装置进行数据传输。

图1是本公开实施例提供的计算位宽动态可配置的处理装置的结构示意图。如图1所示，本装置包括控制电路、数据宽度调整电路、运算电路和存储器。

控制电路用于向数据宽度调整电路、运算电路和存储器发出控制信号，来控制三者的运行，协调三者间的数据传输。存储器用于存储相关数据，可包括输入数据(包括待运算数据和控制指令)、中间运算结果、最终运算结果、神经元、突触、待缓存数据等等，可以根据需求不同，对具体的存储数据内容、存储组织方式和存取调用方式进行不同的规划。可以如图1所示，所述数据宽度调整电路，用于调整数据的宽度，该过程可发生在从存储器读取数据后经过数据宽度调整电路对数据进行位宽调整后传递给运算电路、运算电路将计算结果经过数据宽度调整电路对数据进行位宽调整后传递给存储器、存储器将数据经过数据宽度调整电路对数据进行位宽调整后传递回存储器等。其具体操作通过控制电路的控制信号进行控制。其具体操作包括在不损失精度的情况下，对数据位宽进行增加或减少或保持不变；在可接受程度的精度损失的情况下，对数据位宽进行增加或减少或保持不变；根据某种指定的变换或运算要求(如指定“按位与”运算)，对数据位宽进行增加或减少或保持不变等。运算电路可包括至少一个加法运算器和至少一个乘法运算器，用于数据的运算。至少一个加法运算器包括加法器、加法树、和/或串行加法树；至少一个乘法运算器包括基础乘法器、稀疏乘法器和/或融合向量乘法器。运算电路还可以包括比较器和/或ALU等，其中，乘法运算器和加法运算器能够满足不同计算位宽的数据进行运算，根据不同的需求，可以进行不同位宽的运算数据之间的运算。其中乘法器可以为串行运算器，通过位串行方式实现乘法运算。需要说明的是，运算电路也可以不经过数据位宽调整电路，直接与存储器进行数据传输。

图2是本公开一个实施例的计算位宽动态可配置的处理装置的结构示意图。如图2所示，本装置的结构为，控制电路连接存储器的每个模块或子模块和运算电路，包括至少一个控制信号暂存器和至少一个控制处理器，控制信号暂存器用于存储控制信号，可选的，该控制信号暂存器是先进先出的。控制处理器用于取出待执行的控制信号，对控制逻辑进行分析后，对存储器、数据宽度调整电路和运算电路进行控制和协调。存储器包括输入存储模块、输出存储模块、突触存储模块，其中输出存储模块可以用于存储中间运算结果和最终运算结果。数据宽度调整电路可以分为输入数据处理模块和输出数据处理模块，输入数据处理模块用于将输入存储模块和/或突出存储模块中的数据进行数据宽度的调整，其可以设置于输入存储模块后端；输出数据处理模块用于将运算电路运算后的数据进行宽度调整后存储输出数据处理模；运算电路主要用于加速卷积层、全连接层的卷积运算和池化(pooling)层的取平均值或最大值的运算。可选的，运算电路可以包括乘法器模块、加法树模块和非线性运算模块(如，完成sigmoid函数运算的模块)。该乘法器模块、加法树模块和非线性运算模块可以采用流水线的方式并行执行。本装置能够加速卷积神经网络的运算过程，减少片内片外的数据交换，节约存储空间。

图3是本公开另一个实施例的处理装置的结构示意图。如图3所示，本装置的结构为，控制电路连接存储器的每个模块和运算电路，包括控制信号暂存器和控制处理器，用于存储控制信号，控制处理器用于取出待执行的控制信号，对控制逻辑进行分析后，对存储器和运算电路进行控制和协调。可选的，控制信号暂存器为先进先出的。存储器包括输入存储模块、输出存储模块和突触存储模块。本装置中，突触存储模块包括多个突触存储子模块，运算电路包括多个运算模块，将突触存储子模块与运算模块分别对应连接，可以将一个突触存储子模块与一个运算模块对应连接，也可以将多个突触存储子模块与一个运算模块对应连接。数据宽度调整电路可以分为输入数据处理模块和输出数据处理模块，输入数据处理模块用于将输入存储模块和/或突触存储模块中的数据进行数据宽度的调整，其可以设置于输入存储模块后端；输出数据处理模块用于将运算电路运算后的数据进行宽度调整后存储至输出数据处理模块；每一次运算的时候，输入存储模块经输入数据处理模块后向所有的运算模块传递输入数据，突触存储模块向对应的运算模块传递突触数据，运算模块进行运算后，将输出数据处理模块将结果写到输出存储模块中。这样，在参数多的大规模运算当中，明显提高了运算效率。本装置能够有效加速卷积神经网络的运算过程，尤其适用于网络规模比较大，参数比较多的情况。

图4是本公开再一个实施例的处理装置的结构示意图。如图4所示，本装置的结构为，控制电路连接存储器的每个模块和运算电路和数据宽度调整电路，包括一个指令队列和一个解码器，每一次执行新的指令时，从指令队列中取出一条新的指令，送入解码器，通过解码器进行解码，将控制信息送入存储器的每个模块、运算电路和数据宽度调整电路。存储器包括输入存储模块、输出存储模块、突触存储模块和缓存模块，其中输出存储模块可以用于存储中间运算结果和最终运算结果。其中，每一次输入存储模块和突触存储模块向运算电路传递数据，都是先将数据传入缓存模块中。而后，将缓存中的数据读取至数据宽度调整电路。如果控制指令要求对数据进行处理，则在数据宽度调整电路完成相应的处理，例如对数据进行位宽进行不损失精度的位数扩大、强制删除数据最低位来减少数据位宽等。经过数据宽度调整电路的处理，再送入相应的运算模块中。如果控制指令无需对数据进行处理，则数据可直接通过数据宽度调整电路传递到相应的运算模块中。同样的，当运算模块运算完毕，将结果也是先送入数据宽度调整电路，根据控制指令，在完成数据处理操作或者对数据不做操作后传入缓存模块中，再从缓存模块写入输出存储模块。运算电路包括多个运算模块，包括第一运算模块和第二运算模块。运算模块间可以并行执行相关运算，也可以相互传递数据，从而降低具有局部性的数据的重用距离，进一步提高运算速度。第一运算模块主要用于加速神经网络算法中相同或不同计算位宽的线性运算，包括：矩阵间乘法、加法、乘法混合加法；矩阵和向量；矩阵和常数；向量间；向量与常数；常数与常数，还可以用于比较运算、选择最大/小值等，优选的运算包括点积、矩阵乘法和/或矩阵加法运算。第二运算模块用于完成上述第一运算模块中未完成的运算，包括非线性运算、除法运算、单独的加法运算或单独的乘法运算。这样的好处是能够根据控制指令，在计算过程中，对数据动态调整位宽，从而使得运算电路、存储器的硬件利用率能够得到进一步提升。

图5是本公开的一个实施例用于本装置的位串行加法树装置示意图，能够满足计算位宽动态可配置的要求。如图5所示，M个待运算的数据，最大位宽为N，其中M，N均为正整数。若不足N位的数据，采用合理的方式在不影响数据精度的情况下将其位数补至N位。可采用的方式包括最高/低位补0、最高/低位补符号位、移位、进行运算操作等。位串行加法树中的第一层到第x层中的加法器可以完成n(n≥1)位数字的加法运算，第x+1层中的加法器位可以完成不小于N位的数字的加法运算。首先，将寄存器、各加法器中的进位输出端Cin初始为0。取各待运算数据的最低n位，分别输入至第一层的加法器中的a，b端，每个加法器中完成a，b端传入的待运算数据的最低n位的加法运算，得到的结果值s传向高一层的加法器a或b端，得到的进位值Cout传回该层加法器的进位输入Cin处，待下一拍和传入的待运算的数据进行加法运算。上一层的加法器的操作类似，将传入的数据加法运算，而后结果再向高一层的传递，进位传回该层的加法器。直到达到第x层。第x层的加法器将运算结果经过移位，和寄存器中传来的原结果进行加法运算后保存回寄存器。而后，待运算数据选择次低的n位传入位串行加法树中完成相应的运算。此时每个加法器中的Cin为上一拍中该加法器的Cout端输出的进位结果。优选的，该操作在第一层加法器运算完毕后，即可输入第二批待运算的n位数据，通过并行运算，提高了运算器的使用率，进一步提升运算速度。当全部运算完成后，寄存器中的数据即为所得结果。在一些实施例中，加法器还可以在输入给该加法器的待运算的数据(a，b端)及进位输入(Cin端)全部为0的情况下，在该次运算过程中关闭，从而达到节省功耗的目的。

其中，本公开实施例中运用的位串行运算器，如基础乘法器等，如图6所示，包括运算部件、处理部件、存储部件。运算部件用于完成一位或多位数据的乘法和/或加法运算，其输入的待运算数据来自于存储部件的数据和/或经过处理部件处理后的数据，输出的运算结果直接传入存储部件进行保存，或传入处理部件进行处理。处理部件用于完成数据移位、根据某种给定规则扩大/减少数据位宽、根据某种给定规则对数据的某一位或多位进行修改等处理操作，其待处理数据来源于运算部件和/或存储部件，处理后的数据可传入运算部件和/或处理部件。存储部件用于存储数据，包括待运算数据、中间运算结果、最终运算结果等。这里的存储部件可以为片上缓存。其中，每个单元可以根据其不同功能，均可进一步细分为多个单元，如运算部件可以细分为乘法单元、加法单元等。位串行运算器的中乘法器的具体实施例可以包括图7的第一基础乘法器，图8的第二基础乘法器，图9的稀疏乘法器。

图7是本公开的位串行运算器的一具体实施例：第一基础乘法器装置示意图，能够满足计算位宽动态可配置的要求。该第一基础乘法器可以用于本公开的装置。如图7所示，M位的被乘数和N位的乘数，其中M，N均为正整数。其中，乘数和被乘数的位置可以在控制模块的控制下进行交换。将乘数的低n位(n为正整数，且1≤n≤N，可选的为1＜n≤N，从而能够进一步提高运算的并行度，充分利用硬件资源，加快运算速度)输入至输入选择电路中，将乘数的低n位分别与被乘数做“与”运算，即如果乘数该位值为1，则输出被乘数本身，否则输出0。同时，将乘数送入第一移位寄存器中进行移位，将低n位移出，则下一次再输入至输入选择电路中的为新的低n位。输入选择电路选择后的结果向上输入到第二移位寄存器进行相应的移位，再送入加法树中进行加法运算。这里进行加法运算的是进行输入选择并进行移位后的数据和之前进行加法运算的结果。得到结果后作为中间运算结果存入结果寄存器。待下一次被乘数进行输入选择后进行移位时，结果寄存器取出中间运算结果送入加法树(器)中进行加法运算。当乘数全为0时，乘法运算结束。

为更清楚的表明该基础乘法器的运算流程，我们给出一个具体实施例，假定被乘数为10111011，即M＝8，乘数为1011，即N＝4。

当n＝2时，即每次移动2位的时候，该运算过程如下：首先，取出乘数的最低2位的11，和被乘数一起送入输入选择电路，选择均为被乘数本身，送入第一移位寄存器，最低位对应的选择出的被乘数无需移位，即10111011，次低位对应的选择出的被乘数左移1位，即101110110，送入加法树中，由于之前没有数字相加，故送入结果寄存器的为10111011与101110110的和，即1000110001。而后，乘数右移2位后取其最低2位，即10，和被乘数一起送入输入选择电路中，得到0和10111011，而后通过第二移位寄存器，0左移了2位还是0，10111011左移3位为10111011000，和结果寄存器中的1000110001一起送入加法树中进行运算，得到100000001001，送入结果寄存器中。此时，乘数右移2位，全部为0，即运算结束，结果寄存器中即为最终运算结果，即100000001001。

图8是本公开的又一实施例的用于本装置的第二基础乘法器装置示意图，能够满足计算位宽动态可配置的要求。如图8所示，M位的被乘数和N位的乘数，其中M，N均为正整数。其中，乘数和被乘数的位置可以在控制模块的控制下进行交换。将被乘数的第m位(m为正整数，且1≤m≤M)输入至输入选择电路中，将乘数的低n位(n为正整数，且1≤n≤N)输入至输入选择电路中，被乘数的低m位分别与乘数的低n位做乘法运算。并将乘数送入第一移位寄存器中进行移位，将低n位移出，则下一次再输入至输入选择电路中的为新的低n位。输入选择后的结果向上输入到第二移位寄存器进行相应的移位，再送入加法树中进行加法运算。这里进行加法运算的是进行输入选择并进行移位后的数据和之前进行加法运算的结果。得到结果后作为中间运算结果存入结果寄存器。待下一次被乘数进行输入选择后进行移位时，结果寄存器取出中间运算结果送入加法树(器)中进行加法运算。当乘数全为0时，将被乘数送入第三移位寄存器中进行移位，将低m位移除，乘数从备份寄存器中取出，重复上述步骤进行运算。直到被乘数、乘数均为0时，乘法运算结束。

图9是本公开提供的一实施例用于本装置的稀疏乘法器装置示意图，能够满足要求的计算位宽动态可配置的要求。稀疏乘法器可以用于稀疏运算的情况，也就是说，当乘数或者被乘数的二进制表示中的1是稀疏的情况，那么将乘数或被乘数用稀疏的方式表示出1的位置，可以进一步提高了运算的有效性，加快运算速度。如图9所示，M位的被乘数和N位的乘数，其中M，N均为正整数，也就是说，这里的被乘数和乘数的位数可以相等，也可以不相等。这里，乘数用稀疏的表示方法，用绝对或相对位置的方式表示该乘数中1的位置。这里，本实施例提供的稀疏乘法器的运算模块都是可配置的，故当采用不同的表示方法进行运算时，运算器内部的装置可以根据需求进行配置。譬如，当结果寄存器进行加法运算时无需移位，那么可以此时将和结果寄存器相接的移位寄存器配置为不工作，此时乘数的移位信息也可以不传递到该移位寄存器中。本领域人员可以理解，相关具体细节均可以根据需要做相应的调整，来完成对被乘数的移位和对结果的加法运算等相关具体细节。

为更清楚的表明该稀疏乘法器的运算流程，我们给出一个具体实施例，假定被乘数为10111011，即M＝8，乘数为00100010，即N＝8。当采用绝对的表示方式来表示乘数，那么用绝对位置表示出乘数中1的位置，假定我们把数的最右侧一位称为第0位，第0位的左侧一位称为第1位，以此类推。那么，该乘数表示为(1，5)。同时，我们要求该实施例中的与结果寄存器相连的移位寄存器不工作，乘数的数据无需传递给该移位寄存器。那么首先取出乘数的第一个数，即1，表示在第1位处有一个1。将被乘数送入移位寄存器，然后移动1位后为101110110送入加法器。由于之前数字相加，故送入结果寄存器的结果为101110110。而后取出乘数的下一个1的位置，即5，和被乘数一起送入移位寄存器。在移位寄存器中，将被乘数右移5位，得到1011101100000，送入加法器。同时取出结果寄存器中的结果101110110，由于采用的这种绝对表示的方法无需进行移位，故可直接将该结果送入加法器进行加法运算，得到1100011010110。加法运算后的结果再次送入结果寄存器。此时，乘数中的1都已经计算完毕，故运算结束。如果采用相对的方式表示乘数，并定义其表示方法为从最高位(最左边)的第一个不为0的数字开始，到最低位，每两个不为0的数字间相距的位数。对于00100010，在第一个不为0的数字和下一个不为0的数字之间相距4位，在第二个不为0的数字到最低位，相距1位，故表示为(4，1)。这里，我们要求该实施例中的与结果寄存器相连的和与被乘数相连的移位寄存器均需要工作。首先，取出乘数的第一个数字4，送入两个移位寄存器中，那么将被乘数右移4位，和结果寄存器中的数据右移4位后送入加法器中进行加法运算。此时结果寄存器的数据为0，故得到加法运算结果101110110000，送入结果寄存器保存。而后，取出乘数的第二个数字1，那么将该值送入移位寄存器中，得到101110110和1011101100000，送入加法器进行加法运算，得到结果1100011010110。该结果再次送入结果寄存器。此时，乘数中的1都已经计算完毕，故运算结束。这样，可以有效利用数据的稀疏性，只进行有效的运算，即非0数据之间的运算。从而减少了无效的运算，加快运算速度，提高了性能功耗比。

图10是本公开提供的一个实施例的融合向量乘法器进行向量乘法的装置的结构示意图。这里，我们假定计算向量

和

的内积值，将相应维度的数据送入乘法器中等待运算，如图11所示。这里，要求

和

的维度相同，均为(N+1)，但是每一维度的位宽不一定相同，同时假定每次取n位进行运算，其中n为大于1且不大于

的一个维度的位宽的正整数。首先，取B ₀的低n位和A ₀均送入一个输入选择电路中，将B ₀的低n位分别与A ₀做与运算，得到的选择的结果送入后面的移位寄存器进行移位。取移位后，将结果送入加法树中。在此过程中，每个维度都和第一维度进行着相同的操作。而后通过加法树，对这些维度送入的数据进行加法运算，并将结果寄存器中的值送入加法树中，一同进行加法运算，得到加法运算后的结果再送入结果寄存器中。在运算的同时，每一维度的B _i(i＝0，1，……，N)值送入移位寄存器中右移n位后，重复上述操作，即取移位后的B _i(i＝0，1，……，N)值的最低n位和对应的A _i(i＝0，1，……，N)值一起送入输入选择电路中进行选择，再送入移位寄存器中进行移位，而后送入加法树中进行加法运算。不断重复该过程直到每一维度的B _i(i＝0，1，……，N)值全为0，运算结束，此时结果寄存器中的数据即为所求的最终运算结果。利用该乘法器能够灵活的配置待运算数据的位宽，无需在每进行一组数据乘法时就需要重新对被乘数移位位数进行计数的过程。同时，当数据位数比较低或者向量位数比较高的时候，能够极大地利用数据低位宽、向量高维度的特性，可以采用流水线的方式并行执行该过程，降低运行所需时间，进一步加快运算速度，提高性能功耗比。

为更清楚的表明该融合向量乘法器的运算流程以及该乘法器和其他乘法器运算流程的区别及优势，给出一个具体实施例，结合图10、图11和图12进行说明。首先我们假定

和

的维度为8，即N＝7，

的位宽为8位，即

的每一维度均为8位，即A _i＝{a _i7…a _i1a _i0}，其中i＝0，1，......，7；

的位宽为4位，即

的每一维度均为4位，即B _i＝{b _i3b _i2b _i1b _i0}，其中i＝0，1，......，7。那么向量内积

一般情况下，采用基础乘法器或上述的基础或稀疏乘法器(假定n为2，即每次乘数移动2位)时的运算流程分为两个阶段：首先分别计算各自分量的乘积，然后再进行求和，如图10所示。具体的说，对于某一维度A _i和B _i进行计算，移位寄存器清零。第一个时钟周期取B _i的最低两位b _i0，b _i1，输入选择、移位、送入加法器，得到A _i*b _i0b _i1的值，并将移位寄存器加2；第二个时钟周期，B _i右移2位后取最低两位得到最低位b _i2，b _i3，输入选择、移位得到A _i*b _i2b _i3，将结果与之前的和相加，得到最终运算结果A _i*b _i0b _i1b _i2b _i3，即得到该维度的最终运算结果A _i*B _i。进行下一维度的运算，输入A _i+1和B _i+1，移位寄存器清零……直到每一维度运算完毕，得到(A ₀*B ₀，A ₁*B ₁，……，A ₇*B ₇)，阶段1运算完毕。而后，在阶段2，将乘积送入一个加法树中进行加法运算，得到最终的向量内积的结果，即

在阶段1中，可以选择1个乘法器，依次计算每个维度；也可以提供多个乘法器并行运算，在一个乘法器中完成一个维度的运算，如图11和12所示。当采用多个乘法器时，每个维度的乘数B _i的移位值都需要重新进行计数。该阶段的乘法器采用上述的第一基础乘法器、第二基础乘法器或者稀疏乘法器均可。

上述运算器可以采用任意组合的方式完成所需运算。如，将第二基础乘法器和位串行加法树进行组合，如图13所示，来进行向量乘法。这里，我们假定计算向量

和

的维度相同，均为(N+1)，但是每一维度的位宽不一定相同，同时假定A为被乘数，B为乘数，每次运算，A取指定的m位、B取指定的n位进行运算，其中m不大于

的一个维度的位宽的正整数，n不大于

的一个维度的位宽的正整数。首先，取A ₀的低m位和B ₀的低n位乘法器中，将A ₀的低m位和B ₀的低n位做乘法运算，得到的选择的结果送入位串行加法树中进行加法运算。并将结果保存到存储单元中。而后，将B移位n位，和A的低m位进行乘法操作，并送入位串行加法树中进行加法运算，同时原存储单元的数据经过第三移位单元移位后一同进行加法运算，结果保存到存储单元。待B全部运算完毕后，A移位m位，重新依次与B的n位进行运算。待全部运算结束，此时存储单元中的数据即为所求的最终运算结果。利用该乘法器能够灵活的配置待运算数据的位宽，无需保存中间数据，从而降低了存储开销。加快了运算速度。同时，当数据位数比较低或者向量位数比较高的时候，能够极大地利用数据低位宽、向量高维度的特性，可以采用流水线的方式并行执行该过程，降低运行所需时间，进一步加快运算速度，提高性能功耗比。

综上所述，利用该装置和方法能够明显提高神经网络的运算速度，同时具有动态可配置性，满足数据位宽的多样性和运算过程中数据位宽的动态可变性的相关要求，具有灵活性强、可配置程度高、运算速度快、功耗低等优点。

根据本公开实施例的另一方面，还提供一种计算位宽动态可配置的处理装置的处理方法，参见图14所示，包括步骤：

S1401控制电路生成控制指令，传送给存储器、数据宽度调整电路和运算电路；

S1402存储器根据接收的控制指令，向运算电路输入神经网络的待运算数据；

S1403数据宽度调整电路根据实际需求调整所述待运算数据、中间运算结果、最终运算结果和/或待缓存数据的宽度；

S1404运算电路根据接收的控制指令，选择对应类型的乘法器和加法器电路位串行运算器；

S1405运算电路根据输入的待运算数据和神经网络参数以及控制指令，对不同计算位宽的神经网络的待运算数据进行运算。

以上，利用该本实施例的方法中数据宽度调整电路，能够明显提高神经网络的运算速度，同时具有动态可配置性，满足数据位宽的多样性和运算过程中数据位宽的动态可变性的相关要求。

进一步的，步骤S1403中第一运算模块包括采用加法器电路，以及基础乘法器、稀疏乘法器和/或融合向量乘法器对神经网络的待运算数据进行运算。通过动态的选择具体的加法器电路，以及基础乘法器、稀疏乘法器和/或融合向量乘法器，能够使处理方法具有灵活性强、可配置程度高、运算速度快、功耗低等特点。

以下，将介绍另一种方案的计算位宽动态可配置的处理装置和处理方法的实施例，以下介绍的方案中将不包含数据宽度调整电路和与数据宽度调整电路相关的功能单元。

图15是本公开又一实施例提供的处理装置的结构示意图。如图15所示，本装置主要分为三个部分，控制电路、运算电路和存储器。控制电路向运算电路和存储器发出控制信号，来控制二者的运行，协调二者间的数据传输。各部分的功能参照图1所示实施例中各部分的描述内容，在此不予赘述。

图16是本公开一个实施例的处理装置的结构示意图。图16所示的结构为图2所示结构的基础上去除数据宽度调整电路，即存储器直接与运算电路连接，相应的各设置方式可参照以上所述。三个模块可以采用流水线的方式并行执行。本装置能够加速卷积神经网络的运算过程，减少片内片外的数据交换，节约存储空间。

图17是本公开另一个实施例的处理装置的结构示意图。图17所示结构与图3类似，不同之处仅在于图17中不包含数据宽度调整电路的相关结构和连接关系，关于图17中的各连接关系及所实现功能参照图3的相应实施例描述，在此不予赘述。本实施例的处理装置在参数多的大规模运算当中，明显提高了运算效率。本装置能够有效加速卷积神经网络的运算过程，尤其适用于网络规模比较大，参数比较多的情况。

图18是本公开再一个实施例的处理装置的结构示意图。图18所示结构与图4类似，不同之处仅在于图18中，不包含数据宽度调整电路的相关结构和连接关系，关于图18中的各连接关系及所实现功能参照图4的相应实施例描述，在此不予赘述。

图19是本公开的又一实施例的用于本装置的基础乘法器装置示意图，能够满足计算位宽动态可配置的要求。如图19所示，M位的被乘数和N位的乘数，其中M，N均为正整数，也就是说，这里的被乘数和乘数的位数可以相等，也可以不相等。将乘数的低n位(n为正整数，且1＜n≤N)输入至输入选择电路中，当乘数的低n值分别与被乘数做“与”运算，即乘数该位值为1，则取被乘数本身，否则取0。同时，将乘数送入第一移位寄存器中进行移位，将低n位移出，则下一次再输入至输入选择电路中的为新的低n位。输入选择后的结果向上输入到第二移位寄存器进行相应的移位，再送入加法树中进行累加。这里进行累加的是进行输入选择并进行移位后的数据和之前进行累加的结果。得到结果后作为中间结果存入结果寄存器。待下一次被乘数进行输入选择后进行移位时，结果寄存器取出中间结果送入加法树(器)中进行累加。当乘数全为0时，乘法运算结束。

当n＝2时，即每次移动2位的时候，该运算过程如下：首先，取出乘数的最低2位的11，和被乘数一起送入输入选择电路，选择均为被乘数本身，送入第一移位寄存器，最低位对应的选择出的被乘数无需移位，即10111011，次低位对应的选择出的被乘数左移1位，即101110110，送入加法树中，由于之前没有数字相加，故送入结果寄存器的为10111011与101110110的和，即1000110001。而后，乘数右移2位后取其最低2位，即10，和被乘数一起送入输入选择电路中，得到0和10111011，而后通过移位寄存器，0左移了2位还是0，10111011左移3位为10111011000，和结果寄存器中的1000110001一起送入加法树中进行运算，得到100000001001，送入结果寄存器中。此时，乘数右移2位，全部为0，即运算结束，结果寄存器中即为最终结果，即100000001001。

图20是本公开提供的一实施例用于本装置的稀疏乘法器装置示意图，能够满足要求的计算位宽动态可配置的要求。顾名思义，稀疏乘法器针对稀疏运算的情况，即当乘数或者被乘数用稀疏表示的方式表示出1的位置时，可以进一步提高了运算的有效性，加快运算速度。如图20所示，M位的被乘数和N位的乘数，其中M，N均为正整数，也就是说，这里的被乘数和乘数的位数可以相等，也可以不相等。这里，乘数用稀疏表示的方法，用绝对或相对位置的方式表示该乘数中1的位置。这里，我们的运算电路是可配置的，故当采用不同的表示方法进行运算时，运算器内部的装置可以根据需求进行配置。譬如，可以当结果寄存器进行累加时无需移位，那么可以规定此时和结果寄存器相接的移位寄存器不工作，此时乘数的移位信息也可以不传递到该移位寄存器中。相关具体细节均可以根据需要做相应的调整，来完成对被乘数的移位和对结果的累加等相关具体细节。

为更清楚的表明该稀疏乘法器的运算流程，我们给出一个具体实施例，假定被乘数为10111011，即M＝8，乘数为00100010，即N＝8。当采用绝对的表示方式来表示乘数，那么用绝对位置表示出乘数中1的位置，假定我们把数的最右侧一位称为第0位，第0位的左侧一位称为第1位，以此类推。那么，该乘数表示为(1，5)。同时，我们要求该实施例中的与结果寄存器相连的移位寄存器不工作，乘数的数据无需传递给该移位寄存器。那么首先取出乘数的第一个数，即1，表示在第1位处有一个1。将被乘数送入移位寄存器，然后移动1位后为1011 10110送入加法器。由于之前数字相加，故送入结果寄存器的结果为101110110。而后取出乘数的下一个1的位置，即5，和被乘数一起送入移位寄存器。在移位寄存器中，将被乘数右移5位，得到1011101100000，送入加法器。同时取出结果寄存器中的结果101110110，由于采用的这种绝对表示的方法无需进行移位，故可直接将该结果送入加法器进行累加，得到1100011010110。累加后的结果再次送入结果寄存器。此时，乘数中的1都已经计算完毕，故运算结束。如果采用相对的方式表示乘数，并定义其表示方法为从最高位(最左边)的第一个不为0的数字开始，到最低位，每两个不为0的数字间相距的位数。对于00100010，在第一个不为0的数字和下一个不为0的数字之间相距4位，在第二个不为0的数字到最低位，相距1位，故表示为(4，1)。这里，我们要求该实施例中的与结果寄存器相连的和与被乘数相连的移位寄存器均需要工作。首先，取出乘数的第一个数字4，送入两个移位寄存器中，那么将被乘数右移4位，和结果寄存器中的数据右移4位后送入加法器中进行累加。此时结果寄存器的数据为0，故得到累加结果101110110000，送入结果寄存器保存。而后，取出乘数的第二个数字1，那么将该值送入移位寄存器中，得到101110110和1011101100000，送入加法器进行累加，得到结果1100011010110。该结果再次送入结果寄存器。此时，乘数中的1都已经计算完毕，故运算结束。这样，可以有效利用数据的稀疏性，只进行有效的运算，即非0数据之间的运算。从而减少了无效的运算，加快运算速度，提高了性能功耗比。

图22是本公开提供的一个实施例的融合向量乘法器进行向量乘法的装置的结构示意图。这里，我们假定计算向量

和

的内积值，将相应维度的数据送入乘法器中等待运算，如图8所示。这里，要求

和

的一个维度的位宽的正整数。首先，取B ₀的低n位和A ₀同时送入第一个输入选择电路中，将B ₀的低n位分别与A ₀做与运算，得到的选择的结果送入后面的移位寄存器进行移位。取移位后，将结果送入加法树中。在此过程中，每个维度都和第一维度进行着相同的操作。而后通过加法树，对这些维度送入的数据进行累加，并将结果寄存器中的值送入加法树中，一同进行累加，得到累加后的结果再送入结果寄存器中。在运算的同时，每一维度的B _i(i＝0，1，……，N)值送入移位寄存器中右移n位后，重复上述操作，即取移位后的B _i(i＝0，1，……，N)值的最低n位和对应的A _i(i＝0，1，……，N)值一起送入输入选择电路中进行选择，再送入移位寄存器中进行移位，而后送入加法树中进行累加。不断重复该过程直到每一维度的B _i(i＝0，1，……，N)值全为0，运算结束，此时结果寄存器中的数据即为所求的最终结果。利用该乘法器能够灵活的配置待运算数据的位宽，无需在每进行一组数据乘法时就需要重新对被乘数移位位数进行计数的过程。同时，当数据位数比较低或者向量位数比较高的时候，能够极大地利用数据低位宽、向量高维度的特性，可以采用流水线的方式并行执行该过程，降低运行所需时间，进一步加快运算速度，提高性能功耗比。

我们可以采用多种方式来完成向量的内积运算，结合图21、图22和图23进行说明。首先我们假定

和

的维度为8，即N＝7，

的位宽为8位，即

的每一维度均为8位，即Ai＝{a _i7···a _i1a _i0}，其中i＝0，1，......，7；

的位宽为4位，即

的每一维度均为4位，即Bi＝{b _i3b _i2b _i1b _i0}，其中i＝0，1，......，7。那么向量内积

采用基础乘法器或上述的基础或稀疏乘法器(假定n为2，即每次乘数移动2位)时的运算流程分为两个阶段：首先分别计算各自分量的乘积，然后再进行求和，如图21所示。具体的说，对于某一维度A _i和B _i进行计算，移位寄存器清零。第一个时钟周期取B _i的最低两位b _i0，b _i1，输入选择、移位、送入加法器，得到A _i*b _i0b _i1的值，并将移位寄存器加2；第二个时钟周期，B _i右移2位后取最低两位得到最低位b _i2，b _i3，输入选择、移位得到A _i*b _i2b _i3，将结果与之前的和相加，得到最终结果A _i*b _i0b _i1b _i2b _i3，即得到该维度的最终结果A _i*B _i。进行下一维度的运算，输入A _i+1和B _i+1，移位寄存器清零……直到每一维度运算完毕，得到 (A ₀*B ₀，A ₁*B ₁，……，A ₇*B ₇)，阶段1运算完毕。而后，在阶段2，将乘积送入一个加法树中进行加法运算，得到最终的向量内积的结果，即

在阶段1中，可以选择1个乘法器，依次计算每个维度；也可以提供多个乘法器并行运算，在一个乘法器中完成一个维度的运算，如图7所示。当采用多个乘法器时，每个维度的乘数B _i的移位值都需要重新进行计数。该阶段的乘法器采用上述的基础乘法器或者稀疏乘法器均可。

利用融合向量乘法器，是整体进行横向的累加运算，其结构如图22所示，将每一维度的一个分量的乘积运算完毕即送入加法树中进行累加，直到运算完毕，得到最终结果。例如，其运算流程如图23的椭圆形框所示，第一个时钟周期，每一维计算得到A _i*b _i0(i＝0，1，……，7)的乘积，送入加法树中累加，计算结果送入结果寄存器，移位寄存器加1；第二个时钟周期，每一维根据移位寄存器计算得到2*A _i*b _i1(i＝0，1，……，7)的乘积，和结果寄存器的数据一同送入加法树中累加，移位寄存器加1；第三个时钟周期，每一维根据移位寄存器计算得到4*A _i*b _i2(i＝0，1，……，7)的乘积，和结果寄存器的数据一同送入加法树中累加，移位寄存器加1；最后，第四个时钟周期，计算得到8*A _i*b _i3(i＝0，1，……，7)的乘积，和结果寄存器的数据一同送入加法树中累加，得到最终结果。因此我们在4个运算周期之后就得到了所需要的结果，运算过程中，共移位3次。而一般的乘法器，每个数据运算都需要进行移位操作，即，在有4个操作数的情况下，共需要4*3＝12次移位操作。所以，我们的设计，通过改变运算顺序，大大减少了对移位值的计数操作从而有效提高了性能功耗比。

根据本公开实施例的另一方面，还提供一种计算位宽动态可配置的处理方法，参见图24所示，包括步骤：

S2400：控制电路生成控制指令，传送给存储器和运算电路；

S2401：存储器根据接收的控制指令，向运算电路输入神经网络的待运算数据；

S2402：运算电路根据接收的控制指令，选择第一运算模块中的对应类型的乘法器和加法器电路；

S2403：运算电路根据输入的待运算数据和神经网络参数以及控制指令，对不同计算位宽的神经网络的待运算数据进行运算。

进一步的，步骤S2403中第一运算模块包括采用加法器，以及基础乘法器、稀疏乘法器和/或融合向量乘法器对神经网络的待运算数据进行运算。

综上所述，利用该处理装置和方法能够明显提高神经网络的运算速度，同时具有动态可配置性，满足数据位宽的多样性和运算过程中数据位宽的动态可变性的相关要求，具有灵活性强、可配置程度高、运算速度快、功耗低等优点。

此外，本公开还提供一种包含构建离线模型的运算方法和运算装置，在生成离线模型之后，可根据离线模型直接进行运算，避免了运行包括深度学习框架在内的整个软件架构带来的额外开销，以下将结合具体实施例对该进行具体阐述。

在典型的应用场景中，神经网络加速器编程框架通常位于最上层，编程框架可以为Caffe，Tensorflow，Torch等，如图25所示，从底层到上层依次为神经网络处理器(用于神经网络运算的专用硬件)，硬件驱动(用于软件调用神经网络处理器)，神经网络处理器编程库(用于提供调用神经网络处理器的接口)，神经网络处理器编程框架以及需要进行神经网络运算的高级应用。

本公开实施例的一方面，提供了一种神经网络的运算方法，包括步骤：

步骤1：获取输入数据；

步骤2：获取或根据输入数据确定离线模型，依据离线模型确定运算指令，以供后续计算调用；

步骤3：调用所述运算指令，对待处理数据进行运算得到运算结果以供输出。

其中，该输入数据包括待处理数据、网络结构和权值数据，或者该输入数据包括待处理数据离线模型数据。

其中，步骤2中的离线模型可以是已有的，或者是根据外部数据(例如网络结构或者权值数据)进行后期构建的。通过设置离线模型得到运算指令的方式，能够提高运算过程。

步骤3中的调用运算指令可以是在输入数据仅包括待处理数据不包含离线模型或者用于确定离线模型的数据情况下，仅根据运算指令进行网络运算。

在一些实施例中，当输入数据包括待处理数据、网络结构和权值数据时，执行如下步骤：

步骤11，获取输入数据；

步骤12，根据网络结构和权值数据构建离线模型；

步骤13，解析离线模型，得到运算指令并缓存，以供后续计算调用；

步骤14，根据运算指令，对待处理数据进行运算得到运算结果以供输出。

上述实施例中首先根据网络结构以及权值数据构建出离线模型，然后对离线模型极性解析后获取运算指令，这使得在不存储离线模型的低内存、实时性强的应用环境中能够充分发挥性能，运算过程更为简洁快速。

在一些实施例中，当输入数据包括待处理数据和离线模型时，执行如下步骤：

步骤21，获取输入数据；

步骤22，解析离线模型，得到运算指令并缓存，以供后续计算调用；

步骤23，根据运算指令，对待处理数据进行运算得到运算结果以供输出。

上述实施例中当输入数据包括离线模型时，当建立起离线模型后，运算时对离线模型进行解析后获取运算指令，从而避免了运行包括深度学习框架在内的整个软件架构带来的额外开销。

在一些实施例中，当输入数据仅包括待处理数据时，执行如下步骤：

步骤31，获取输入数据；

步骤32，调用缓存的运算指令，对待处理数据进行运算得到运算结果以供输出。

上述实施例当输入数据仅包括待处理数据而不含神经网络结构和权值数据时，则通过调取运算指令对待处理数据进行运算得到运算结果。

在一些实施例中，通过神经网络处理器，根据运算指令，对待处理数据进行运算得到运算结果；其中，神经网络处理器主要用于神经网络运算，接收指令、待处理数据和/或网络模型(例如离线模型)后进行运算；举例来说，对于多层神经网络来说，例如根据输入层数据，以及神经元、权值和偏置等数据，计算得到输出层数据。

在进一步的实施例中，该神经网络处理器具有指令缓存单元，用于对接收的运算指令进行缓存。

在一些实施例中，上述神经网络处理器还具有数据缓存单元，用于缓存所述待处理数据。待处理数据输入神经网络处理器后在该数据缓存单元中暂存，后续结合运算指令再进行运算。

基于上述运算方法，本公开实施例还提供了一种运算装置，包括：

输入模块，用于获取输入数据，该输入数据包括待处理数据、网络结构和权值数据，或者该输入数据包括待处理数据离线模型数据；

模型生成模块，用于根据输入的网络结构和权值数据构建离线模型；

神经网络运算模块，用于基于输入模块中的离线模型数据或者模型生成模块中构建的离线模型生成运算指令并缓存，以及基于运算指令对待处理数据进行运算得到运算结果；

输出模块，用于输出所述运算结果；

控制模块，用于检测输入数据类型并执行如下操作：

当输入数据包括待处理数据、网络结构和权值数据时，控制输入模块将网络结构和权值数据输入模型生成模块以构建离线模型，并控制神经网络运算模块基于模型生成模块输入的离线模型，对输入模块输入的待处理数据进行运算；

当输入数据包括待处理数据和离线模型时，控制输入模块将待处理数据和离线模型输入神经网络运算模块，并控制神经网络运算模块基于离线模型生成运算指令并缓存，并基于运算指令对待处理数据进行运算；

当输入数据仅包括待处理数据时，控制输入模块将待处理数据输入神经网络运算模块，并控制神经网络运算模块调用缓存的运算指令，对待处理数据进行运算。

上述神经网络运算模块包括模型解析单元和神经网络处理器，其中：

模型解析单元，用于基于离线模型生成运算指令；

神经网络处理器，用于缓存运算指令用于后续计算调用；或在输入数据中仅包括待处理数据时调用缓存的运算指令，并基于运算指令对待处理数据进行运算得到运算结果。

在一些实施例中，上述神经网络处理器具有指令缓存单元，用于缓存运算指令以供后续计算调用。

在一些实施例中，上述离线模型可以是一个按照特殊结构定义的文本文件，可以为各种神经网络模型，如可以为Cambricon_model、AlexNet_model、GoogleNet_model、VGG_model、R-CNN_model、GAN_model、LSTM_model、RNN_model、ResNet_model等模型，但并不只限于本实施例提出的这些模型。

离线模型可以包含原始网络中各个计算节点的网络权值以及指令数据等必要网络结构信息，其中，指令可以包括各个计算节点的计算属性以及各个计算节点之间的连接关系等信息，从而在处理器再次运行该原始网络时，可以直接运行该网络对应的离线模型，无需再次对同一网络进行编译等操作，从而缩短处理器运行该网络时的运行时间，提高处理器的处理效率。

可选地，处理器可以是通用处理器，如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)或IPU(Intelligence Processing Unit，智能处理器)，IPU为用于执行人工神经网络运算的处理器。

在一些实施例中，待处理数据为能用神经网络进行处理的输入，例如为连续的单张图片、语音或视频流中的至少一种。

在一些实施例中，上述网络结构可以为各种神经网络结构，例如可以为AlexNet、GoogleNet、ResNet、VGG、R-CNN、GAN、LSTM、RNN、ResNet等，但并不只限于本实施例提出的此些结构。需要指出的是，这里的网络结构与离线模型相互对应，例如当网络结构为RNN时，则离线模型为RNN_model，该模型包括RNN网络中各个节点的网络权值以及指令数据等必要RNN网络结构信息，其中，指令可以包括各个计算节点的计算属性以及各个计算节点之间的连接关系等信息。

具体地，根据输入模块输入数据的不同，本公开实施例的运算装置可以具有以下三种执行形式：

1、当输入模块输入的数据为网络结构、权值数据和待处理数据时，则控制模块控制输入模块将网络结构和权值数据传输至模型生成模块，将待处理数据传输至模型解析模块；控制模块控制模型生成模块根据具体的网络结构以及相应的权值数据生成离线模型(离线模型可以是一个按照预设的结构定义的文本文件，可以包含神经网络中各个计算节点的网络权值以及指令数据等必要网络结构信息，其中，指令可以包括各个计算节点的计算属性以及各个计算节点之间的连接关系等信息，例如可以根据相应的网络结构类型以及权值数据构建出该离线模型)，并将该生成的离线模型传输至模型解析单元；控制模块控制模型解析单元对接收的离线模型进行解析，得到神经网络处理器可识别的运算指令(也就是说根据上述的离线模型的文本文件映射出相应的网络运算指令，而无需进行网络编译操作)，并将运算指令和待处理数据传输至神经网络处理器；神经网络处理器根据接收的运算指令，对待处理数据进行运算，得到运算结果，并将该运算结果传输至输出模块以供输出。

2、当输入模块输入的数据为离线模型和待处理数据时，控制模块则控制输入模块将离线模型和待处理数据直接传输至模型解析单元，后续工作原理与第一种情况相同。

3、当输入模块输入的数据仅包含有待处理数据时，则控制模块控制输入模块将此待处理数据经模型解析单元传输至神经网络处理器，神经网络处理器根据缓存的运算指令对待处理数据进行运算得到运算结果。输入模块可以包括判断模块，用于判断输入数据的类型。可以理解的是，通常这种情况不会在首次使用神经网络处理器中出现，以确保指令缓存中已有确定的运算指令。

因此，在当前网络运算与上一次网络运算的离线模型不同时，输入模块输入的数据应包括网络结构、权值数据和待处理数据，通过模型生成模块生成新的离线模型后进行后续的网络运算；在当前网络运算事先已得到相应的离线模型时，输入模块输入的数据应包括离线模型和待处理数据；在当前网络运算与上一次网络运算的离线模型相同时，输入模块输入的数据仅包括待处理数据即可。

在本公开的一些实施例中，本公开描述的运算装置作为子模块集成到整个计算机系统的中央处理器模块当中。待处理数据和离线模型被中央处理器控制传送到运算装置中。模型解析单元会对传入的神经网络离线模型进行解析并生成运算指令。接着运算指令和待处理数据会被传入神经网络处理器中，通过运算处理得到运算结果，并将该运算结果返回到主存单元中。在后续计算过程中，网络结构不再改变，则只需要不断传入待处理数据即可完成神经网络计算，得到运算结果。

以下通过具体实施例对本公开提出的运算装置及方法进行详细描述。

如图26所示，本实施例提出一种运算方法，包括以下步骤：

当输入数据包括待处理数据、网络结构和权值数据时，执行如下步骤：

步骤11、获取输入数据；

步骤12、根据网络结构和权值数据构建离线模型；

步骤13、解析离线模型，得到运算指令并缓存，以供后续计算调用；

步骤14、根据运算指令，对待处理数据进行运算得到神经网络运算结果以供输出；

当输入数据包括待处理数据和离线模型时，执行如下步骤：

步骤21、获取输入数据；

步骤22、解析离线模型，得到运算指令并缓存，用于后续计算调用；

步骤23、根据运算指令，对待处理数据进行运算得到神经网络运算结果以供输出；

当输入数据仅包括待处理数据时，执行如下步骤：

步骤31、获取输入数据；

步骤32、调用缓存的运算指令，对待处理数据进行运算得到神经网络运算结果以供输出。

通过神经网络处理器，根据运算指令，对待处理数据进行处理得到运算结果；该神经网络处理器具有指令缓存单元和数据缓存单元，用于分别对接收的运算指令和待处理数据进行缓存。

本实施例中提出的输入的网络结构为AlexNet，权值数据为bvlc_alexnet.caffemodel，待处理数据为连续的单张图片，离线模型为Cambricon_model。对于已有的离线模型，可以对该离线模型Cambricon_model进行解析，从而生成一系列运算指令，随后将生成的运算指令传输到神经网络处理器2707上的指令缓存单元中，将输入模块2701传入的输入图片传输到神经网络处理器2707上的数据缓存单元中。

综上所述，运用本实施例提出的方法，可以极大程度上简化使用神经网络处理器进行运算的流程，避免调用传统整套编程框架到来的额外内存和IO开销。运用本方法，能让神经网络加速器在低内存、实时性强的环境下充分发挥运算性能。

如图27所示，本实施例还提出一种运算装置，包括：输入模块2701、模型生成模块2702、神经网络运算模块2703、输出模块2704及控制模块2705，其中，神经网络运算模块103包括模型解析单元2706和神经网络处理器2707。

该装置的关键词在于离线执行，是指生成离线模型后直接利用离线模型生成相关的运算指令并传入权值数据，对待处理数据进行处理运算。更具体的：

上述输入模块2701，用于输入网络结构、权值数据和待处理数据的组合或者离线模型和待处理数据的组合。当输入为网络结构、权值数据和待处理数据时，则将网络结构和权值数据传入模型生成模块2702，以生成离线模型用以执行下面运算。当输入为离线模型和待处理数据时，则将离线模型、待处理数据直接传入模型解析单元2706，以执行下面运算。

上述输出模块2704，用于输出根据特定网络结构和一组待处理数据产生的确定的运算数据。其中输出数据由神经网络处理器2707运算得到。

上述模型生成模块2702，用于根据输入的网络结构参数，权值数据生成用于可供下层使用的离线模型。

上述模型解析单元2706，用于解析传入的离线模型，生成可以直接传入神经网络处理器2707的运算指令，同时将输入模块2701传入的待处理数据传到神经网络处理器2707中。

上述神经网络处理器2707，用于根据传入的运算指令和待处理数据进行运算，得到确定的运算结果传入到输出模块2704中，具有指令缓存单元和数据缓存单元。

上述控制模块2705，用于检测输入数据类型并执行如下操作：

当输入数据包括待处理数据、网络结构和权值数据时，控制输入模块2701将网络结构和权值数据输入模型生成模块2702以构建离线模型，并控制神经网络运算模块2703基于模型生成模块2702输入的离线模型，对输入模块2701输入的待处理数据进行神经网络运算；

当输入数据包括待处理数据和离线模型时，控制输入模块2701将待处理数据和离线模型输入神经网络运算模块2703，并控制神经网络运算模块2703基于离线模型生成运算指令并缓存，并基于运算指令对待处理数据进行神经网络运算；

当输入数据仅包括待处理数据时，控制输入模块2701将待处理数据输入神经网络运算模块2703，并控制神经网络运算模块2703调用缓存的运算指令，对待处理数据进行神经网络运算。

本实施例中提出的输入的网络结构为AlexNet，权值数据为bvlc_alexnet.caffemodel，待处理数据为连续的单张图片。模型生成模块102根据输入的网络结构和权值数据生成新的离线模型Cambricon_model，生成的离线模型Cambricon_model也可以作为下次的输入单独使用；模型解析单元2706可以解析离线模型Cambricon_model，从而生成一系列运算指令。模型解析单元2706将生成的运算指令传输到神经网络处理器2707上的指令缓存单元中，将输入模块2701传入的输入图片传输到神经网络处理器2707上的数据缓存单元中。

此外，本公开还提供一种支持复合标量指令的运算装置及运算方法，通过在运算中提供符合标量指令(一种将浮点指令和定点指令统一起来的指令)，在较大程度上统一了浮点指令和定点指令，在译码阶段不对指令的种类做区分，在具体计算时才根据操作数地址域中的地址来确定操作数是浮点数据还是定点数据，简化了指令的译码逻辑，也使得指令集变得更为精简。以下将结合具体实施例对该进行具体阐述。

图28是本公开实施例提供的支持复合标量指令装置的结构示意图，如图28所示，装置包括控制器模块2810、存储模块2820、运算器模块2830和输入输出模块2840。

控制器模块2810，用于从存储模块读取指令并存储于本地的指令队列中，再将指令队列中的指令译码为控制信号以控制存储模块、运算器模块和输入输出模块的行为。

存储模块2820，包括寄存器堆、RAM和ROM等存储器件，用于保存指令、操作数等不同数据。操作数包括浮点数据和定点数据，存储器模块将浮点数据和定点数据存储于不同的地址所对应的空间，如不同的RAM地址或不同的寄存器号，从而可以通过地址和寄存器号来判断读取的数据是浮点数还是定点数。

运算器模块2830，可以对浮点数据和定点数据进行四则运算、逻辑运算、移位操作和求补运算等操作，其中，四则运算包括加、减、乘和除四种运算操作；逻辑运算包括与、或、非和异或四种运算操作。运算器模块接收控制器模块的控制信号后，可以通过读取操作数所在的地址或寄存器号来判断所读取的是浮点类型的数据还是定点类型的数据，运算器模块从存储模块读取操作数据并进行对应的运算，运算的中间结果存在存储模块中，将最终运算结果存储至输入输出模块。

输入输出模块2840，可以用于输入输出数据的存储和传输，在初始化时，输入输出模块将初始的输入数据和编译好的复合标量指令存储至存储模块中，运算结束后，接收运算器模块传输的最终运算结果，此外，输入输出模块还可以从存储器中读取编译指令所需的信息，以供计算机编译器将程序编译为各种指令。

由此可见，本公开实施例提供的支持复合标量指令的装置，为复合标量指令提供了高效的执行环境。

图29A和图29B是本公开实施例提供的一种存储模块组织形式示例图。存储模块将浮点数据和定点数据存储于不同的地址空间，如不同的地址或不同的寄存器号，从而可以通过地址和寄存器号来判断读取的数据是浮点数还是定点数。

在本实施例中，本公开使用由起始地址为0000H，终止地址为3FFFH的RAM和16个寄存器组成的寄存器堆所构成的存储模块为例，展示如何将浮点数的存储与定点数的存储分离。如图29A所示，在RAM中，定点数据只存储在地址为0000H到1FFFH的RAM单元中，而浮点数据只存储在2000H到3FFFH的RAM单元中，指令可以存储在任意RAM单元中，也可以将指令集中不变的信息存储在ROM中。如图29B所示，在寄存器堆中，定点数据只存在0至7号寄存器中，浮点数据只存在8到15号寄存器中。当寄存器里存储的值为RAM地址时，0至7号寄存器用于存储定点数据的RAM地址，8至15号寄存器用于存储浮点数据的RAM地址。

图30A是本公开实施例所提供的复合标量指令示例图。如图30A所示，每一条指令拥有操作码域、操作数地址域(或立即数)和目标地址域，操作码域包括操作码，操作数地址域包括源操作数地址1和源操作数地址2，表示各源操作数的存储地址，目标地址域为操作数运算结果的存储地址：

操作码域用于区分不同类型的操作，如加法、减法、乘法和除法等，但不用于区分操作数的类型。

操作数地址域中可能包含RAM地址、寄存器号和立即数。存储浮点数据和定点数据所用的RAM地址和寄存器号不同，因而能用地址域来区分浮点操作数和定点操作数。当操作数地址域所储存的是立即数时，还需要一个运算器模块可识别的数据类型标志位来区分浮点操作数和定点操作数。

目标地址域可以是RAM地址，也可以是寄存器号。该地址域应与操作数类型相对应，即将浮点操作数的运算结果存入浮点数据对应的存储单元；将定点操作数的运算结果存入定点数据对应的存储单元。

由此可见，本公开提供的复合标量指令，是一种将浮点指令和定点指令统一起来的指令，在较大程度上统一了浮点指令和定点指令，在译码阶段不对指令的类型做区分，在具体计算时才根据操作数地址域中的读取操作数的地址来确定操作数是浮点数据还是定点数据，简化了指令的译码逻辑，也使得指令集变得更为精简。

另外，针对本公开提供的复合标量指令，若采用多种寻址方式，则还需增加确定寻址方式的标志位。

例如，采用图29A和29B所示的存储模块组织结构，加法指令的操作码为0001，采用多种寻址方式时，复合标量指令的组成如图30B至图30E所示。

图30B是本公开实施例提供的采用寄存器寻址时复合标量指令示例图，如图30B所示，当采用寄存器寻址时，寻址方式标志位为01，源操作数1和源操作数2分别存在源操作数1寄存器号和源操作数2寄存器号所对应的寄存器中，编号0至7的寄存器中存储的是定点数据，编号8至15的寄存器中存储的是浮点数据；

图30C是本公开实施例提供的采用寄存器间接寻址时复合标量指令示例图，如图30C所示，当采用寄存器间接寻址时，寻址方式标志位为10，源操作数1和源操作数2在RAM中的地址分别存在源操作数1寄存器号和源操作数2寄存器号所对应的寄存器中，其中定点数据的RAM地址(0000H至1FFFH)存于0至7号寄存器中；浮点数据的RAM地址(2000H至3FFFH)存于8至15号寄存器中。目标地址域存储目标寄存器号或者目标RAM地址。定点数据存于地址在0000H至1FFFH范围内的RAM单元中；浮点数据存于地址在2000H至3FFFH范围内的RAM单元中。

图30D是本公开实施例提供的采用立即数寻址时复合标量指令示例图，如图3D所示，若操作数地址域的数据为两个立即数，则寻址方式标志位为00，在寻址方式标志位和操作数地址域之间还设置有数据类型标志位，当立即数为定点类型时，该数据类型标志位为0；当立即数为浮点类型时，该数据类型标志位为1。

图30E是本公开实施例提供的采用RAM寻址时复合标量指令示例图，如图30E所示，若操作数地址域为RAM地址，则寻址方式标志位为11。源操作数1和源操作数2分别存在RAM地址对应的RAM单元中。其中，定点数据存在RAM地址0000H至1FFFH对应的RAM单元中；浮点数据存在RAM地址2000H至3FFFH对应的RAM单元中。

在采用以上各寻址方式的相关指令中，目标地址域存储目标寄存器号或者目标RAM地址。定点数据存于0至7号寄存器或者地址在0000H至1FFFH范围内的RAM单元中；浮点数据存于8至15号寄存器或者地址在2000H至3FFFH范围内的RAM单元中。

图31是本公开实施例提供的支持复合标量指令的运算方法流程图，如图4所示，本公开实施例提供一种支持复合标量指令的运算方法，利用上述支持复合标量指令装置进行数据运算，具体包括以下步骤：

S3101：将不同类型的数据存储于不同的地址内。

存储器模块将浮点数据和定点数据存储于不同的地址所对应的空间，如不同的RAM地址或不同的寄存器号。

S3102：将复合标量指令译码为控制信号。

控制器模块向存储模块发送输入输出(IO)指令，从存储模块中读取复合标量指令，并存入本地指令队列。控制器模块从本地指令队列中读取复合标量指令，并译码为控制信号。

S3103：根据控制信号读取操作数据，并根据读取操作数据的地址判断操作数据的类型，对操作数据进行运算。

运算器模块收到来自控制器模块的控制信号后，可以通过读取操作数地址域来判断所读取的是浮点类型的数据还是定点类型的数据。若操作数是立即数，则根据数据类型标志位判断操作数类型并计算；若操作数来自RAM或寄存器，则根据RAM地址或寄存器号来判断操作数类型，从存储模块读取操作数并进行对应的运算。

S3104：将运算结果存储于对应类型的地址内。

控制器模块向运算器模块发送IO指令，运算器模块将运算结果传输至存储模块或输入输出模块。

从上述实施例可以看出，本公开提供的复合标量指令的执行方法，能够准确高效地执行复合标量指令。其中，所提供的支持复合标量指令的装置，为复合标量指令提供了高效的执行环境；所提供的复合标量指令的执行方法，能够准确高效地执行复合标量指令。

此外，本公开还提供一种支持技术指令的技术装置和计数方法，通过将统计输入数据(待计数的数据)中满足给定条件的元素个数的算法编写成指令的形式，可以提高计算效率，以下将结合具体实施例对该进行具体阐述。

在本公开的示例性实施例中，提供了一种支持计数指令的计数装置。图32为本公开实施例计数装置的框架结构示意图。如图32所示，本公开支持计数指令的计数装置包括：存储单元、计数单元、以及寄存器单元。存储单元与计数单元连接，用于存储待计数的输入数据以及用于存储统计的输入数据中满足给定条件的元素个数(计数结果)，该存储单元可以是主存；也可以是暂存型存储器，进一步的，可以是高速暂存存储器，通过将待统计的输入数据暂存在高速暂存存储器上，使得计数指令可以灵活有效地支持不同宽度的数据，提升执行性能。

在一种实施方式中，该存储单元是高速暂存存储器，能够支持不同位宽的输入数据和/或占据不同大小存储空间的输入数据，将待计数的输入数据暂存在高速暂存存储器上，使计数过程可以灵活有效地支持不同宽度的数据。计数单元与寄存器单元连接，计数单元用于获取计数指令，根据计数指令读取寄存器单元中的输入数据的地址，然后根据输入数据的地址在存储单元中获取相应的待计数的输入数据，并对输入数据中满足给定条件的元素个数进行统计计数，得到最终计数结果并将该计数结果存储于存储单元中。寄存器单元用于存储待计数的输入数据在存储单元中存储的地址。在一种实施方式中，寄存器单元存储的地址为待计数的输入数据在高速暂存存储器上的地址。

在一些实施例中，待计数的输入数据的数据类型可以是0/1向量，也可以是数值型向量或矩阵。统计输入数据中满足给定条件的元素个数时，所统计元素要满足的条件，可以是与一给定元素相同，例如统计向量A中包含元素x的个数，x可以是数字n，n＝0，1，2…，x也可以是向量m，例如m＝00，01，11…。所统计元素要满足的条件，也可以是满足给定表达式，例如统计向量B中大于数值y的元素个数，其中y可以是整数n，n＝0，1，2…也可以是浮点数f，f＝0.5，0.6…；例如统计向量C中能够整除z的元素个数，其中z可以是整数n，n＝0，1，2…。

图33为本公开实施例计数装置中计数单元的结构示意图。如图33所示，计数单元包括输入输出模块、运算模块、累加器模块。

输入输出模块与运算模块连接，对存储单元中待计数的输入数据，每次取其中设定长度(该长度可以根据实际需求配置)的一段数据，输入到运算模块进行运算，运算模块运算完成后，输入输出模块继续取固定长度的下一段数据，直到取完待计数的输入数据的所有元素；输入输出模块将累加器模块计算得到的计数结果输出到存储单元。

运算模块与累加器模块连接，输入一段固定长度的数据，用运算模块的加法器将所述输入数据的满足给定条件的各个元素的个数相加，将得到的结果输出到累加器模块。运算模块中还包括判断子模块，用于判断输入数据是否满足给定的条件(给定的条件可以与一给定元素相同，也可以是数值介于设定的区间内)，如满足，则输出1，如不满足，则输出0，然后送入加法器中累加。

在一种实施方式中，加法器的结构可包括n层，其中：第一层有l个全加器、第二层有

个全加器、……第m层有

个全加器；其中，l、m、n为大于1的整数，m为大于1小于n的整数，

表示对数据x做取上整操作。下面对其具体工作过程进行描述，假设输入的数据类型为0/1向量，现要统计待计数的0/1向量中1的个数，假设一段固定长度的0/1向量长度为3l，其中l为大于1的整数。加法器第一层有l个全加器；加法器第二层有

个全加器，每个全加器有3个输入和2个输出，则第一层总共得到4l/3个输出；按照所述方法，各层全加器都有3个输入和2个输出，并且同一层的加法器可并行执行；计算过程中若第i位数据个数为1，则可作为最后结果的第i位输出，即为该部分0/1向量中1的个数。

图34为一具体的全加器示意图，其中加法器结构包括7层(即n为7)，第一层有6个全加器，一端固定长度的0/1向量长度为18(即1为6)，其中每一层的全加器可以并行，例如第3层则有

个(即m为3，1为6)全加器，当输入数据为(0，1，0)，(1，0，0)，(1，1，0)，(0，1，0)，(1，0，0)，(1，1，0)，通过本公开实施例的全加器统计，结果为(001000)，即为8。使用上述加法器可以增加加法计算的并行性，有效提高运算模块的运算速度。

累加器模块又与输入输出模块连接，将运算模块输出的结果使用累加器进行累加，直到无新的输入。

计数单元为多流水级结构，其中，输入输出模块中取向量操作处于第一流水级，运算模块处于第二流水级，累加器模块处于第三流水级。这些单元处于不同的流水级，可以更加高效地实现计数指令所要求的操作。

图35为本公开实施例计数装置中计数指令的指令集格式示意图。如图35所示，计数指令包括一操作码和一个或多个操作域，其中，操作码用于指示该指令为计数指令，计数单元通过识别该操作码可进行计数运算，操作域可包括：用于指示该计数指令中待计数的输入数据的地址信息，还可以包括判断条件的地址信息。其中，地址信息可以是立即数或寄存器号，例如，要获取一个向量时，根据寄存器号可以在相应的寄存器中获取向量起始地址和向量长度，再根据向量起始地址和向量长度在存储单元中获取相应地址存放的向量。本公开实施例采用的指令具有精简的格式，使得指令集使用方便、支持的数据长度灵活。

图36为本公开实施例计数装置中计数单元的执行过程流程图。如图36所示，工作时候，计数单元根据计数指令操作域中的地址信息在寄存器单元中获取待计数的输入数据的地址，然后，根据该地址在存储单元中获取待计数的输入数据。待计数的输入数据存储在高速暂存存储器上，每次计数单元从高速暂存存储器上获取一段固定长度的输入数据，判断子模块判断元素是否满足给定条件，然后用加法器统计该部分输入数据中满足给定条件的元素的个数，将每一段的满足给定条件的元素的个数用累加器模块进行累加，得到最终计数结果并将计数结果存储于存储单元中。

图37为本公开实施例计数装置的详细结构示意图。如图37所示，本公开支持计数指令的装置还可包括：指令存储器、指令处理单元、指令缓存单元和依赖关系处理单元。

对于指令处理单元，其用于从指令存储器中获取计数指令，并对计数指令进行处理后，提供给所述指令缓存单元和依赖关系处理单元。其中，指令处理单元包括：取指模块和译码模块。取指模块与指令存储器连接，用于从指令存储器中获取计数指令；译码模块与取指模块连接，用于对获取的计数指令进行译码。此外，指令处理单元还可以包括指令队列存储器，指令队列存储器与译码模块连接，用于对译码后的计数指令进行顺序存储，并顺序将指令发送到指令缓存单元和依赖关系处理单元。考虑到指令缓存单元和依赖关系处理单元可容纳的指令数量有限，指令队列存储器中的指令必须等到指令缓存单元和依赖关系处理单元有空闲才可继续顺序发送。

指令缓存单元，可与指令处理单元连接，用于顺序存储待执行的计数指令。计数指令在执行过程中，同时也被缓存在指令缓存单元中，当一条指令执行完之后，将指令运行结果(计数结果)传输到指令缓存单元，如果该指令同时也是指令缓存单元中未被提交指令中最早的一条指令，则该指令将被提交，并一起将指令运行结果(计数结果)写回高速暂存存储器。在一种实施方式中，指令缓存单元可以是重排序缓存。

依赖关系处理单元，可以与指令队列存储器和计数单元连接，用于在计数单元获取计数指令前，判断该计数指令所需向量(即要被计数的向量)是否为最新，若是，直接将计数指令提供给所述计数单元；否则，将该计数指令存储在依赖关系处理单元的一存储队列中，所需向量被更新后，将存储队列中的该计数指令提供给所述计数单元。具体地，计数指令访问高速暂存存储器时，存储空间正等待之前指令的结果写入，为了保证指令执行结果的正确性，当前指令如果被检测到与之前指令的数据存在依赖关系，该指令必须在存储队列内等待至依赖关系被消除。依赖关系处理单元使指令可以实现乱序执行，顺序提交，有效减少流水线阻塞，并且可实现精确例外。

取指模块负责从指令存储器中取出下一条将要执行的指令，并将该指令传给译码模块；译码模块负责对指令进行译码，并将译码后的指令传给指令队列存储器；指令队列存储器用于缓存译码后的指令，当指令缓存单元和依赖关系处理单元有空闲之后发送指令到指令缓存单元和依赖关系处理单元；计数指令从指令队列存储器中被发送到依赖关系处理单元的过程中，计数指令从寄存器单元中读取输入数据在存储单元中的地址；依赖关系处理单元用于处理当前指令与前一条指令可能存在的数据依赖关系，计数指令会访问存储单元，此前执行的其他指令可能会访问同一块存储空间。为了保证指令执行结果的正确性，当前指令如果被检测到与之前的指令数据存在依赖关系，该指令必须在依赖关系处理单元的存储队列内等待至依赖关系被消除。计数单元从依赖关系处理单元中获取计数指令，根据计数指令在寄存器单元中读取的输入数据的地址，在存储单元中获取相应的待计数的输入数据，并对输入数据中满足给定条件的元素的个数进行统计计数，将计数结果传输至指令缓存单元，最后计数结果和该条计数指令被写回存储单元。

图38为本公开实施例计数装置的执行过程流程图。如图38所示，执行计数指令的过程包括：

S3801，取指模块从指令存储器中取出计数指令，并将该计数指令送往译码模块。

S3802，译码模块对计数指令译码，并将计数指令送往指令队列存储器。

S3803，计数指令在指令队列存储器中等待指令缓存单元和依赖关系处理单元有空闲后，被发送到指令缓存单元和依赖关系处理单元。

S3804，计数指令从指令队列存储器中被发送到依赖关系处理单元的过程中，计数指令从寄存器单元中读取输入数据在存储单元中的存储地址，依赖关系处理单元分析该指令与前面的尚未执行结束的指令在数据上是否存在依赖关系，该条计数指令需要在依赖关系处理单元的存储队列中等待至其与前面的未执行结束的指令在数据上不再存在依赖关系为止。

S3805：依赖关系不存在后，该条计数指令被送往计数单元。计数单元根据存储地址从存储单元中获取输入数据，统计输入数据中满足给定条件的元素个数。

S3806，计数完成后，计数结果通过指令缓存单元被写回存储单元中，指令缓存单元将该条计数指令提交至存储单元中。

至此，已经结合附图对本实施例进行了详细描述。依据以上描述，本领域技术人员应当对本公开实施例支持计数指令的计数装置及其计数方法有了清楚的认识。

在一些实施例中，还公开了一种芯片，其包括了上述神经网络处理器、处理装置、计数装置或者运算装置。

在一些实施例中，还公开了一种芯片封装结构，其包括了上述芯片。

在一些实施例中，还公开了一种板卡，其包括了上述芯片封装结构。

在一个实施例中，还公开了一种电子设备，其包括了上述板卡。

电子设备可包括但不限于机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备交通工具、家用电器、和/或医疗设备。

所述交通工具可包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

本公开所提供的实施例中，应理解到，所揭露的相关装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述部分或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个部分或模块可以结合或者可以集成到一个系统，或一些特征可以忽略或者不执行。

本公开中，术语“和/或”可能已被使用。如本文中所使用的，术语“和/或”意指一个或其他或两者(例如，A和/或B意指A或B或者A和B两者)。

在上面的描述中，出于说明目的，阐述了众多具体细节以便提供对本公开的各实施例的全面理解。然而，对本领域技术人员将显而易见的是，没有这些具体细节中的某些也可实施一个或多个其他实施例。所描述的具体实施例不是为了限制本公开而是为了说明。本公开的范围不是由上面所提供的具体示例确定，而是仅由下面的权利要求确定。在其他情况下，以框图形式，而不是详细地示出已知的电路、结构、设备，和操作以便不至于使对描述的理解变得模糊。在认为适宜之处，附图标记或附图标记的结尾部分在诸附图当中被重复以指示可选地具有类似特性或相同特征的对应或类似的要素，除非以其他方式来指定或显而易见。

已描述了各种操作和方法。已经以流程图方式以相对基础的方式对一些方法进行了描述，但这些操作可选择地被添加至这些方法和/或从这些方法中移去。另外，尽管流程图示出根据各示例实施例的操作的特定顺序，但可以理解，该特定顺序是示例性的。替换实施例可以可任选地以不同方式执行这些操作、组合某些操作、交错某些操作等。设备的此处所描述的组件、特征，以及特定可选细节还可以可任选地应用于此处所描述的方法，在各实施例中，这些方法可以由这样的设备执行和/或在这样的设备内执行。

本公开中各功能部分/单元/子单元/模块/子模块/部件都可以是硬件，比如该硬件可以是电路，包括数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器等等。所述计算装置中的计算模块可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如RRAM，DRAM，SRAM，EDRAM，HBM，HMC等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种计算位宽动态可配置的处理装置，其特征在于，包括：

存储器，用于存储数据，所述数据包括神经网络的待运算数据、中间运算结果、最终运算结果和待缓存数据；

数据宽度调整电路，用于调整所述待运算数据、中间运算结果、最终运算结果和/或待缓存数据的宽度；

运算电路，用于对神经网络的待运算数据进行运算；以及

控制电路，用于控制存储器、数据宽度调整电路和运算电路。
根据权利要求1所述的装置，其特征在于，所述运算电路用于对神经网络的待运算数据进行运算包括：根据待运算数据确定运算电路的乘法器和加法器电路的类型以进行运算。
根据权利要求1所述的装置，其特征在于，所述数据宽度调整电路包括：

输入数据处理模块，用于将存储器的数据进行数据宽度的调整；

输出数据处理模块，用于将运算电路运算后的数据进行宽度调整后存入存储器。
根据权利要求1或2所述的装置，其特征在于，所述存储器包括：

输入存储模块，用于存储神经网络的待运算数据；

输出存储模块，用于存储中间运算结果和最终运算结果；以及

缓存模块，用于数据的缓冲存储；

其中，所述输入存储模块包括：

神经元存储模块，用于存储神经元参数；

突触存储模块，用于存储突触参数；

所述输出存储模块包括：

中间运算结果存储子模块，用于存储中间运算结果；

最终运算结果存储子模块，用于存储最终运算结果。
根据权利要求3所述的装置，其特征在于，所述运算电路包括多个运模块，所述突触存储模块包括多个突触存储子模块，每个所述运算模块分别与一个或多个突触存储子模块对应连接。
根据权利要求1-5任一所述的装置，其特征在于，所述运算电路包括：

第一运算模块，用于进行不同位宽数据的运算；所述第一运算模块包括加法器电路以及乘法器，进行神经网络中的不同位宽数据的运算。
根据权利要求6所述的装置，其特征在于，所述第一运算模块还包括位串行加法树，所述位串行加法树包括移位器、寄存器和多个加法器，每一加法器均包括a端和b端，所述位串行加法树包括x+1层结构，x为正整数，该串行加法树按如下方式运行：

各寄存器和加法器中的进位输出端Cin被初始为0，各待运算数据的最低n位，分别输入至第一层的加法器中的a，b端，第一层的每个加法器中完成a，b端传入的待运算数据的最低n位的加法运算，确定的结果值s传向高一层的加法器a或b端，每一加法器得到的进位值Cout传回该层加法器的进位输入Cin处，待下一拍和传入的待运算的数据进行加法运算；

上一层的加法器的操作参照前一层的加法器，将传入的数据进行加法运算，而后结果再向高一层的传递，进位传回该层的加法器，直到达到第x层，第x层的加法器将运算结果经过移位器移位，和寄存器中传来的原结果进行加法运算后保存回寄存器，而后，待下一拍选择运算数据次低的n位传入位串行加法树中完成相应的运算。
根据权利要求2所述的装置，其特征在于，所述乘法器包括位串行运算器，所述位串行运算器包括以下至少一种：

基础乘法器，用于将乘数分为多个低位宽数据分别与被乘数相乘后累加的运算；

稀疏乘法器，用于在乘数和/或被乘数用稀疏方式进行表示的情况下进行乘法运算。

融合向量乘法器，用于向量间的乘法运算。
根据权利要求8所述的装置，其特征在于，所述位串行运算器包括运算部件、处理部件和存储部件，其中，

运算部件，输入待运算数据，完成一位或多位数据的乘法和/或加法运算，输出运算结果；

存储部件，输入运算结果进行存储；

处理部件，输入运算结果，用于完成数据移位、根据设定规则扩大/减少数据位宽、根据某设定规则对数据的某一位或多位进行操作。
根据权利要求8所述的装置，其特征在于，所述基础乘法器为第一基础乘法器，包括：

乘法存储单元，用于存储乘数，所述乘数位宽为N位；

第一移位寄存器，用于每次移出乘数的低n位，进行移出操作后的乘数重新送入乘法存储单元，其中1＜n≤N；

输入选择电路，用于每次输入乘数的低n位和被乘数，乘数的低n位中每位的值分别与乘数作“与”运算，得出与运算结果；

第二移位寄存器，用于输入与运算结果并进行移位；

加法器，用于输入移位后的数据进行相加；

结果寄存器，用于寄存加法器的相加结果并将所述相加结果重新输入至加法器参加下次相加。
根据权利要求8所述的装置，其特征在于，所述基础乘法器为第二基础乘法器，包括：

乘法存储单元，用于存储乘数，所述乘数位宽为N位；

第一移位寄存器，用于每次移出乘数的低n位，进行移出操作后的乘数重新送入乘法存储单元，其中1＜n≤N；

备份寄存器，暂存移位后的乘数；

输入选择电路，用于每次输入乘数的低n位和被乘数，乘数的低n位中每位的值分别与乘数作“与”运算，得出与运算结果；

第二移位寄存器，用于输入与运算结果并进行移位；

第三移位寄存器，用于将被乘数进行移位，将乘数的低m位移除；

加法器，用于输入移位后的数据进行相加；

结果寄存器，用于寄存加法器的相加结果并重新输入至加法器参加下次相加。
根据权利要求10或11所述的装置，其特征在于，所述第一基础乘法器或第二基础乘法器还包括判断电路，用于判断乘法存储单元当次的乘数数值是否全为0。
根据权利要求7所述的装置，其特征在于，所述稀疏乘法器包括：

乘法存储单元，用于存储乘数，所述乘数采用稀疏方式表示，位宽为N位；

输入选择电路，用于每次从低位选择乘数数值为1的位；

第一移位寄存器，用于每次移出所述位数为1以下的各低位，并重新送入乘法储存单元，作为下次的乘数；

第二移位寄存器，用于依据所述位数为1的位进行移位操作；

加法器，输入移位后的数据并进行相加；

结果寄存器，寄存加法器的相加结果；

第三移位寄存器，根据数值为1的位，对结果寄存器内结果进行移位后重新输入至加法器参与下次运算；

判断电路，用于判断乘法存储单元当次的乘数数值是否全为0。
根据权利要求1-13任一所述的装置，其特征在于，所述数据的运算包括：点积、矩阵间乘法、加法、乘法混合加法；矩阵和向量的乘法、加法、乘法混合加法；矩阵和常数的乘法、加法、乘法混合加法；向量间的乘法、加法、乘法混合加法；向量与常数的乘法、加法、乘法混合加法；常数与常数的乘法、加法、乘法混合加法；比较选择最大/小值，以及可以拆分为乘法、加法、或乘加混合的运算。
根据权利要求8所述的装置，其特征在于，所述乘法器以及加法树采用流水线的方式并行执行。
根据权利要求11所述的装置，其特征在于，所述第一运算模块包括第二基础乘法器和位串行加法树，按照如下方式进行运算：

设定计算向量
和
的内积值，
和
的维度相同，均为(N+1)，A为被乘数，B为乘数，每次运算，A取指定的m位、B取指定的n位进行运算，其中m不大于
的一个维度的位宽的正整数，n不大于
的一个维度的位宽的正整数；

取A ₀的低m位和B ₀的低n位乘法器中，将A ₀的低m位和B ₀的低n位做乘法运算，得到的选择的结果送入位串行加法树中进行加法运算，并将结果保存到存储器中；

将B移位n位，和A的低m位进行乘法操作，并送入位串行加法树中进行加法运算，同时原存储单元的数据经过第三移位单元移位后一同进行加法运算，结果保存到存储单元；

待B全部运算完毕后，A移位m位，重新依次与B的n位进行运算；

待全部运算结束，此时存储单元中的数据即为所求的最终运算结果。
一种芯片，其特征在于，所述芯片包括权利要求1-16中任一权利要求所述的装置。
一种电子设备，其特征在于，所述电子设备包括权利要求16所述的芯片。
一种使用权利要求1-16任一所述装置的方法，其特征在于包括步骤：

控制电路生成控制指令，传送给存储器、数据宽度调整电路和运算电路；

存储器根据接收的控制指令，向运算电路输入神经网络的待运算数据；

数据宽度调整电路根据接收的控制指令，调整神经网络的待运算数据的宽度；

运算电路根据输入的待运算数据和神经网络参数以及控制指令，对不同计算位宽的神经网络的待运算数据进行运算，运算结果送回存储器。
根据权利要求19所述的方法，其特征在于，所述数据宽度调整电路包括：输入数据处理模块，用于将存储器的数据进行数据宽度的调整；输出数据处理模块，用于将运算电路运算后的数据进行宽度调整后存入存储器。
根据权利要求20所述的方法，其特征在于，调整神经网络的待运算数据的宽度包括以下至少一种方式：

在不损失精度的情况下，对数据位宽进行增加或减少或保持不变；

在可设定精度损失的情况下，对数据位宽进行增加或减少或保持不变；

根据指定的变换或运算要求，对数据位宽进行增加或减少或保持不变。
根据权利要求19或20所述的方法，其特征在于，所述存储器包括：

输入存储模块：用于存储神经网络的待运算数据；

输出存储模块：用于存储中间运算结果和最终运算结果；

缓存模块：用于数据的缓冲存储；

所述输入存储模块包括：

神经元存储模块：用于存储神经元参数；

存储模块：用于存储突触参数所述输出存储模块包括：

中间结果中间运算结果存储子模块：用于存储中间运算结果；

最终结果最终运算结果存储子模块：用于存储最终运算结果。
根据权利要求19所述的方法，其特征在于，还包括设置多个运算模块，分别与一个或多个突触模块对应，在运算时，输入存储模块向所有的运算模块传递输入数据，突触存储模块向对应的运算模块传递突触数据，运算模块进行运算后，将结果写入输出存储模块。
根据权利要求19-23任一所述的方法，其特征在于，还包括：

采用第一运算模块进行不同位宽数据的运算，包括：采用加法器以及乘法器进行加速神经网络中的不同位宽数据的运算。
根据权利要求24所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括采用位串行加法树进行不同位宽数据的运算，运算方式如下：

设定具有M个待运算的数据，最大位宽为N，其中M，N均为正整数，若不足N位的数据，采将其位数补至N位；位串行加法树包括x+1层，其中，x为正整数，第1层到第x层中的加法器完成位数字的加法运算n，n≥1，第x+1层中的加法器位完成不小于N位的数字的加法运算；首先，将寄存器、各加法器中的进位输出端Cin初始为0，取各待运算数据的最低n位，分别输入至第一层的加法器中的a，b端，每个加法器中完成a，b端传入的待运算数据的最低n位的加法运算，得到的结果值s传向高一层的加法器a或b端，得到的进位值Cout传回该层加法器的进位输入Cin处，待下一拍和传入的待运算的数据进行加法运算；

上一层的加法器的操作类似，将传入的数据加法运算，而后结果再向高一层的传递，进位传回该层的加法器，直到达到第x层，第x层的加法器将运算结果经过移位，和寄存器中传来的原结果进行加法运算后保存回寄存器，而后，待运算数据选择次低的n位传入位串行加法树中完成相应的运算。
根据权利要求25所述的方法，其特征在于：所述采用位串行加法树进行不同位宽数据的运算时还包括：在第一层加法器运算完毕后，输入第二批待运算的n位数据。
根据权利要求24所述的方法，其特征在于：所述采用位串行加法树进行不同位宽数据的运算时还包括：当所述加法器在输入给该加法器的待运算的数据的a，b端及进位输入Cin端全部为0的情况下，在该次运算过程中关闭。
根据权利要求19所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括：采用位串行运算器进行运算，包括如下操作：

使用运算部件输入待运算数据，完成一位或多位数据的乘法和/或加法运算，输出运算结果；

采用存储部件输入运算结果进行存储；

采用处理部件输入运算结果，用于完成数据移位、根据设定规则扩大或减少数据位宽、根据某设定规则对数据的某一位或多位进行操作。
根据权利要求19所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括：采用第一基础乘法器进行不同位宽数据的运算，包括如下操作：

采用乘法存储单元存储乘数，所述乘数位宽为N位；

采用第一移位寄存器，每次移出乘数的低n位，将进行移出操作后的乘数重新送入乘法存储单元，其中1＜n≤N；

采用输入选择电路，每次输入乘数的低n位和被乘数，乘数的低n位中每位的值分别与乘数作“与”运算，得出与运算结果；

采用第二移位寄存器，输入与运算结果并进行移位；

采用加法器，输入移位后的数据进行相加；

采用结果寄存器，寄存加法器的相加结果并将相加结果重新输入至加法器参加下次相加。
根据权利要求19所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括：采用第二基础乘法器进行不同位宽数据的运算，包括如下操作：

采用乘法存储单元，存储乘数，所述乘数位宽为N位；

采用第一移位寄存器，每次移出乘数的低n位，将进行移出操作后的乘数重新送入乘法存储单元，其中1＜n≤N；

采用备份寄存器，暂存移位后的乘数；

采用输入选择电路，每次输入乘数的低n位和被乘数，乘数的低n位中每位的值分别与乘数作“与”运算，得出与运算结果；

采用第二移位寄存器，输入与运算结果并进行移位；

采用第三移位寄存器，将被乘数进行移位，将低m位移除；

采用加法器，输入移位后的数据进行相加；

采用结果寄存器，寄存加法器的相加结果并将相加结果重新输入至加法器参加下次相加。
根据权利要求19所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括：采用稀疏乘法器进行不同位宽数据的运算，包括如下操作：

采用乘法存储单元，存储乘数，所述乘数采用稀疏方式表示，位宽为N位；

采用输入选择电路，每次从低位选择乘数数值为1的位；

采用第一移位寄存器，每次移出所述位数为1以下的各低位，并重新送入乘法储存单元，作为下次的乘数；

采用第二移位寄存器，依据所述位数为1的位进行移位操作；

采用加法器，输入移位后的数据并进行相加；

采用结果寄存器，寄存加法器的相加结果；

采用第三移位寄存器，根据数值为1的位，对结果寄存器内结果进行移位后重新输入至加法器参与下次运算。
根据权利要求19所述的方法，其特征在于，所述对不同计算位宽的神经网络的待运算数据进行运算包括：采用第二基础乘法器和位串行加法树，按照如下方式进行操作：

设定计算向量
和
的内积值，
和
的维度相同，均为(N+1)，A为被乘数，B为乘数，每次运算，A取指定的m位、B取指定的n位进行运算，其中m不大于
的一个维度的位宽的正整数，n不大于
的一个维度的位宽的正整数；

取A ₀的低m位和B ₀的低n位乘法器中，将A ₀的低m位和B ₀的低n位做乘法运算，得到的选择的结果送入位串行加法树中进行加法运算，并将结果保存到存储单元中；

将B移位n位，和A的低m位进行乘法操作，并送入位串行加法树中进行加法运算，同时原存储单元的数据经过第三移位单元移位后一同进行加法运算，结果保存到存储单元；

待B全部运算完毕后，A移位m位，重新依次与B的n位进行运算；

待全部运算结束，此时存储单元中的数据即为所求的最终运算结果。
根据权利要求19-32任一权利要求所述的方法，所述对不同计算位宽的神经网络的待运算数据进行运算包括：通过所述运算电路进行全连接层和/或池化层的运算。
根据权利要求19所述的方法，其特征在于，还包括：所述运算电路根据接收的控制指令，选择第一运算模块中的对应类型的乘法器和加法器电路。