WO2019218896A1

WO2019218896A1 - 计算方法以及相关产品

Info

Publication number: WO2019218896A1
Application number: PCT/CN2019/085844
Authority: WO
Inventors: 刘少礼; 罗宇哲; 孟小甫; 张曦珊; 宋新开
Original assignee: 上海寒武纪信息科技有限公司
Priority date: 2018-05-18
Filing date: 2019-05-07
Publication date: 2019-11-21
Also published as: US20200142748A1; EP3624020A1; US11409575B2; US20200160163A1; US11442786B2; US11442785B2; US20200183752A1; EP3624020A4

Abstract

本申请提供一种计算方法以及相关产品,所述计算方法采用融合方式执行机器学习计算。本申请的技术方案具有计算量小，节省功耗的优点。

Description

计算方法以及相关产品

技术领域

本申请涉及神经网络领域，尤其涉及一种计算方法以及相关产品。

背景技术

神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

神经网络的计算方式包括但不限于：加法运算、乘法运算、激活运算等等运算方式。神经网络现有的计算方式无法实现对神经网络数据的快速运算，影响运算速度。

发明内容

本申请提供一种计算方法及相关产品，对现有的集成电路芯片，具有可实现提升运算速度的优点。

第一方面，提供一种计算方法，所述计算方法应用于计算系统，所述计算系统包括：控制单元、计算群和总存储单元，所述控制单元包括：第一存储器、译码逻辑和控制器，所述计算群包括：群控制器和多个计算单元；所述总存储单元，用于存储数据；所述计算方法包括如下步骤：

所述控制器接收第一级指令序列，所述译码逻辑将该第一级指令序列拆分成多个第二级指令序列，

控制器为所述多个第二级指令序列开辟M个线程，控制器为所述M个线程中每个线程分配独立的寄存器以及配置独立寻址功能；所述M取值范围为大于等于1的整数；

群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果。

可选的，所述群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果：

如所述计算类型代表相同类型的计算操作，群控制器调用相同类型的单指令多数据流SIMD结合单指令多线程SIMT的组合计算方式，并采用所述M个线程执行组合计算方式得到最终结果，具体包括：

译码逻辑将M个线程拆分成N个线程组分配给多个计算单元，群控制器将所述多个第二指令序列转换成多个第二控制信号并发送给多个计算单元，多个计算单元调用分配的线程组以及第二控制信号依据所述独立寻址功能提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将多个中间结果拼接起来得到最终结果。

如所述计算类型代表不同类型的计算操作，群控制器调用同步多线程SMT以及所述M个线程执行计算得到最终结果，具体包括：

译码逻辑将M个线程拆分成N个线程组，将所述多个第二指令序列转换成多个第二控制信号，群控制器获取多个计算单元支持的计算类型，控制器将N个线程组以及多个第二控制信号，分配给支持该线程组以及第二控制信号的计算类型对应的计算单元，多个计算单元调用分配的线程组以及第二控制信号，多个计算单元提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将所有中间结果拼接起来得到最终结果。

可选的，所述方法还包括：

如多个线程组中的线程组A阻塞，将线程组A加入等待队列，如线程组A的数据已被提取，将线程组A加入到准备队列，所述准备队列为计算资源空闲时被调度执行的线程组所在的队列。

可选的，所述第一级指令序列包括：超长指令，所述第二级指令序列包括：指令序列。

可选的，所述计算系统还包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述群控制器，所述树型模块的多个支端口分别连接多个计算单元中的一个计算单元；

所述树型模块转发所述群控制器与所述多个计算单元之间的数据块、线程组或指令序列。

可选的，所述树型模块为n叉树，所述n为大于等于2的整数。

可选的，所述计算系统还包括：分支处理电路，

所述分支处理电路连接在所述群控制器与所述多个计算单元之间；

所述分支处理电路转发所述群控制器与所述多个计算单元之间的数据、线程组或指令序列。

第二方面，提供一种计算系统，所述计算系统包括：控制单元、计算群和总存储单元，所述控制单元包括：第一存储器、译码逻辑和控制器，所述计算群包括：群控制器和多个计算单元；所述总存储单元，用于存储数据；

所述控制器，用于接收第一级指令序列以及用于控制所述第一存储器和所述译码逻辑；

所述译码逻辑，用于将该第一级指令序列拆分成多个第二级指令序列；

所述控制器，还用于为所述多个第二级指令序列开辟M个线程；为所述M个线程中每个线程分配独立的寄存器以及配置独立寻址功能；所述M取值范围为大于等于1的整数，将所述多个第二级指令序列转换成多个控制信号发送给所述群控制器；

所述群控制器，用于接收所述多个控制信号，获取所述多个控制信号的多个计算类型，将M个线程划分成N个线程组，依据该多个计算类型为多个计算单元分配N个线程组以及多个控制信号；

多个计算单元，用于通过分配的线程组以及控制信号从所述总存储单元提取数据执行运算得到中间结果，

所述群控制器，用于拼接所有中间结果得到最终计算结果。

可选的，所述多个计算单元包括：加法计算器、乘法计算器、激活计算器或专用计算器。

可选的，所述专用计算器包括：人脸识别计算器、图形计算器、指纹计算器或神经网络计算器。

可选的，所述群控制器，具体用于：如多个控制信号的计算类型为图形计算、指纹识别、人脸识别或神经网络运算时，将该多个控制信号分别分配给人脸识别计算器、图形计算器、指纹计算器或神经网络计算器。

可选的，所述计算系统包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述群控制器，所述树型模块的多个支端口分别连接多个计算单元中的一个计算单元；

所述树型模块，用于转发所述群控制器与所述多个计算单元之间的数据块、线程组或指令序列。

可选的，所述树型模块为n叉树，所述n为大于等于2的整数。

可选的，所述计算系统包括：分支处理电路，

所述分支处理电路，用于转发所述群控制器与所述多个计算单元之间的数据、线程组或指令序列。

第三方面，本发明提供了一种神经网络运算模块，该神经网络运算模块用于进行多层神经网络的运算，包括：

存储单元，用于存储输入神经元精度、权重精度和输出神经元梯度精度；

控制器单元，用于从所述存储单元获取所述多层神经网络第L层的输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

其中，所述L为大于0的整数；根据所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

获取梯度更新精度T；当所述梯度更新精度T小于预设精度T _r时，调整所述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

以使所述梯度更新精度T与所述预设精度T _r的差值的绝对值最小；

运算单元，用于根据调整后的输入神经元精度S _x(l)和权重精度S _w(l)来表示第L层的输出神经元和权重，根据调整后的输出神经元梯度精度

来表示运算得到的第L层输出神经元梯度，以进行后续运算。

在一种可行的实施例中，所述控制器单元根据所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

获取梯度更新精度T，具体包括：

所述控制器单元根据预设公式对所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

进行计算，以得到所述梯度更新精度T；

其中，所述第一预设公式为：

在一种可行的实施例中，所述控制器单元调整所述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括：

所述控制器单元保持所述输入神经元精度S _x(l)和所述权重精度S _w(l)不变，增大所述输出神经元梯度精度

在一种可行的实施例中，所述控制器单元增大所述输出神经元梯度精度

时，减少表示所述输出神经元梯度的定点数据格式的位宽。

后，所述控制器单元还用于：

判断所述输出神经元梯度精度

是否小于需求精度，所述需求精度为进行多层神经网络运算时输出神经元梯度的最小精度；

当所述输出神经元梯度精度

小于所述需求精度时，减少表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元减少表示所述输出神经元梯度的定点数据格式的位宽，包括：

所述控制器单元按照第一预设步长N1减少所述表示所述输出神经元梯度的定点数据格式的位宽；

其中，所述第一预设步长N1为1、2、4、6、7、8或者其他正整数。

所述控制器单元按照2倍递减的方式减少所述表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元还用于：

根据机器学习的方法获取所述预设精度T _r，或者；

根据第L-1层输出神经元的个数、学习率和批处理时的样本数量获取所述预设精度T _r；且所述第L-1层输出神经元的个数和批处理时的样本数量越多以及学习率越高，所述预设精度T _r越大。

第四方面，本发明实施例提供了一种神经网络运算方法，包括：

获取神经网络的第L层的输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

根据所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

计算得到梯度更新精度T；

当梯度更新精度T小于预设精度T _r时，调整输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度

根据调整后的输入神经元精度S _x(l)和权重精度S _w(l)来表示第L层的输出神经元和权重；根据调整后的输出神经元梯度精度

来表示运算得到的第L层输出神经元梯度，以进行后续运算。

在一种可行的实施例中，所述根据所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

计算得到梯度更新精度T，包括：

根据预设公式对所述输入神经元精度S _x(l)、所述权重精度S _w(l)和所述输出神经元梯度精度

进行计算，以得到所述梯度更新精度T；

其中，所述预设公式为：

在一种可行的实施例中，所述调整所述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括：

保持所述输入神经元精度S _x(l)和所述权重精度S _w(l)不变，增大所述输出神经元梯度精度

在一种可行的实施例中，所述增大所述输出神经元梯度精度

时，所述方法还包括：减少表示所述输出神经元梯度的定点数据格式的位宽

在一种可行的实施例中，所述增大所述输出神经元梯度精度

后，所述方法还包括：

判断所述输出神经元梯度精度

当所述输出神经元梯度精度

在一种可行的实施例中，所述减少表示所述输出神经元梯度的定点数据格式的位宽，包括：

按照第一预设步长N1减少所述表示所述输出神经元梯度的定点数据格式的位宽；

按照2倍递减的方式减少所述表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述方法还包括：

根据机器学习的方法获取所述预设精度T _r，或者；

根据第L-1层的输出神经元的个数、学习率和批处理时的样本数量获取所述预设精度T _r；且所述第L-1层输出神经元的个数和批处理时的样本数量越多以及学习率越高，所述预设精度T _r越大。

第五方面，本发明提供了一种神经网络运算模块，该神经网络运算模块用于进行多层神经网络的运算，包括：

获取梯度更新精度T；当所述梯度更新精度T大于预设精度T _r时，调整所述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

来表示运算得到的第L层输出神经元梯度，以进行后续运算。

获取梯度更新精度T，具体包括：

进行计算，以得到所述梯度更新精度T；

其中，所述第一预设公式为：

包括：

所述控制器单元保持所述输入神经元精度S _x(l)和所述权重精度S _w(l)不变，减小所述输出神经元梯度精度

在一种可行的实施例中，所述控制器单元减小所述输出神经元梯度精度

时，增加表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元增加所述输出神经元梯度精度

后，所述控制器单元还用于：

判断所述输出神经元梯度以所述输出神经元梯度的定点数据格式表示时是否溢出；

当确定溢出时，增加表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元增加表示所述输出神经元梯度的定点数据格式的位宽，包括：

所述控制器单元按照第一预设步长N1增加所述表示所述输出神经元梯度的定点数据格式的位宽；

所述控制器单元按照2倍递增的方式增加所述表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元还用于：

根据机器学习的方法获取所述预设精度T _r，或者；

第六方面，本发明实施例提供了一种神经网络运算模块，该神经网络运算模块用于进行多层神经网络的运算，包括：

存储单元，用于存储所述多层神经网络的输出神经元梯度；

控制器单元，用于从所述存储单元获取所述多层神经网络的第L层的输入神经元梯度；所述L为大于0的整数；获取所述第L层输出神经元梯度中绝对值小于第一预设阈值的输出神经元梯度的个数n1；根据所述个数n1和所述第L层输出神经元梯度的个数n2获取比例数据a，其中，a＝n1/n2；当所述比例数据a大于第二预设阈值时，减小所述第L层输出神经元梯度精度

运算单元，用于根据减小后的输出神经元梯度精度

表示第L层输出神经元梯度，以进行后续运算。

在一种可行的实施例中，所述控制器单元增大所述第L层输出神经元梯度精度

时，增加表示所述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元减小所述第L层输出神经元梯度精度

后，所述控制器单元还用于：

判断所述第L层输出神经元梯度以所述第L层输出神经元梯度的定点数据格式表示时是否溢出；

当确定溢出时，增加表示所述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述增加表示所述第L层输出神经元梯度的定点数据格式的位宽，包括：

所述控制器单元按照第二预设步长N2增加所述表示所述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述控制器单元增加表示所述第L层输出神经元梯度的定点数据格式的位宽，，包括：

所述控制器单元按照2倍递增的方式增加所述表示所述第L层输出神经元梯度的定点数据格式的位宽。

第七方面，本发明实施例提供了一种神经网络运算方法，包括：

获取神经网络的第L层输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

计算得到梯度更新精度T；

当梯度更新精度T大于预设精度T _r时，调整输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度

来表示运算得到的第L层输出神经元梯度，以进行后续运算。

计算得到梯度更新精度T，包括：

进行计算，以得到所述梯度更新精度T；

其中，所述预设公式为：

包括：

保持所述输入神经元精度S _x(l)和所述权重精度S _w(l)不变，减小所述输出神经元梯度精度

在一种可行的实施例中，所述减小所述输出神经元梯度精度

时，增加表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述减小所述输出神经元梯度精度

后，所述方法还包括：

在一种可行的实施例中，所述增大表示所述输出神经元梯度的定点数据格式的位宽，包括：

按照第一预设步长N1增加所述表示所述输出神经元梯度的定点数据格式的位宽；

在一种可行的实施例中，所述增加表示所述输出神经元梯度的定点数据格式的位宽，包括：

按照2倍递增的方式增加所述表示所述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述方法还包括：

根据机器学习的方法获取所述预设精度T _r，或者；

第八方面，本申请实施例提供了一种神经网络运算方法，包括：

获取所述多层神经网络的第L层的输入神经元梯度，所述L为大于0的整数；

获取所述第L层输出神经元梯度中绝对值小于第一预设阈值的输出神经元梯度的个数n1；

根据所述个数n1和所述第L层输出神经元梯度的个数n2获取比例数据a，其中，a＝n1/n2；

当所述比例数据a大于第二预设阈值时，减小所述第L层输出神经元梯度精度

根据减小后的输出神经元梯度精度

表示第L层输出神经元梯度，以进行后续运算。

在一种可行的实施例中，所述减小所述第L层输出神经元梯度精度

后，所述方法还包括：

判断所述权重以表示所述第L层输出神经元梯度的定点数据格式时是否溢出；

在一种可行的实施例中，所述增加表示所述第L层输出神经元梯度的定点数据格式的位宽，，包括：

按照第三预设步长N2增加所述表示所述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，所述增加表示所述第L层输出神经元梯度的定点数据格式的位宽，，包括：按照2倍递增的方式增加所述表示所述第L层输出神经元梯度的定点数据格式的位宽。

第九方面，本发明提供了一种神经网络计算装置，所述装置用于执行人工神经网络训练计算；所述神经网络训练计算包括神经网络多层训练运算，所述多层训练运算包括第i层，所述第i层的正向运算或反向运算中至少有部分数据用于定点数据运算，上述i为大于等于1的整数；所述计算装置包括：控制器单元、运算单元和转换单元，其中，控制器单元与运算单元以及转换单元连接；所述第i层训练运算包括第i层的正向运算和第i层的反向运算；制器单元，用于获取第i层的输入神经元数据、第i层权值数据以及第i层正向计算指令；

控制器单元，还用于解析该第i层正向计算指令得到多个正向运算指令，将第i层输入神经元数据以及第i层权值数据发送给转换单元，将该多个运算指令发送给运算单元；

转换单元，用于对该第i层输入神经元数据以及第i层权值数据中的全部或部分数据执行浮点类型与定点类型转换以得到全部定点数据或混合数据，将全部定点数据或混合数据发送给运算单元，所述混合数据包括：部分定点数据以及部分浮点数据；

运算单元，用于依据正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的正向输出结果；

所述混合运算包括：对部分定点数据执行定点运算以及对部分浮点数据执行浮点运算。

可选的，控制器单元，还用于获取第i层的输入神经元数据、第i层权值数据、第i层输入神经元梯度以及第i层反向计算指令；

控制器单元，还用于解析该第i层计算指令得到多个反向运算指令，将第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度发送给转换单元，将该多个运算指令发送给运算单元；

转换单元，还用于对该第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度中的全部或部分数据执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据或混合数据发送给运算单元，该混合数据包括：部分定点数据以及部分浮点数据；

运算单元，还用于依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的权值梯度以及第i层输出结果梯度；采用第i层的权值梯度对第i层权值更新。

可选的，所述转换单元，具体用于将第i层输入神经元数据的部分转换成部分定点输入神经元数据以及将第i层权值数据的部分转换成部分定点权值数据；将部分定点输入神经元数据以及部分定点权值数据发送给运算单元，将部分输入神经元数据和部分权值数据发送给运算单元；

运算单元，具体用于将部分定点输入神经元数据以及部分定点权值数据执行定点数据运算得到部分定点正向输出结果，将部分定点正向输出结果发送给转换单元，

转换单元，具体用于将该部分定点正向输出结果执行定点与浮点转换得到第一部分浮点正向输出结果，将第一部分浮点正向输出结果发送给运算单元；

运算单元，具体用于将部分输入神经元数据和部分权值数据执行运算得到第二部分浮点正向运算结果，将第一部分浮点正向运算结果和第二部分浮点正向运算结果结合起来得到第i层正向输出结果。

可选的，所述转换单元，具体用于将第i层输入神经元数据的部分转换成部分定点输入神经元数据、将第i层权值数据的部分转换成部分定点权值数据以及将第i层输入神经元梯度转换成部分定点输入神经元梯度；将部分定点输入神经元数据、部分定点输入神经元梯度以及部分定点权值数据发送给运算单元，将部分输入神经元数据、部分输入神经元梯度和部分权值数据发送给运算单元；

运算单元，具体用于将部分定点输入神经元梯度以及部分定点输入数据执行定点数据运算得到部分第i层权值梯度，将部分定点输入神经元梯度与部分定点权值数据执行定点数据运算得到部分第i层输出结果梯度，将部分第i层权值梯度以及部分第i层输出结果梯度发送给转换单元，

转换单元，具体用于将该部分第i层权值梯度以及部分第i层输出结果梯度执行定点与浮点转换得到第一部分第i层权值梯度以及第一部分第i层输出结果梯度，将第一部分第i层权值梯度以及第一部分第i层输出结果梯度发送给运算单元；

运算单元，具体用于将部分输入神经元梯度以及部分输入数据执行运算得到第二部分第i层权值梯度，将部分输入神经元梯度与部分权值数据执行运算得到第二部分第i层输出结果梯度，将第一部分第i层权值梯度和第二部分第i层权值梯度结合起来得到第i层权值梯度，将第一部分第i层输出结果梯度和第二部分第i层输出结果梯度结合起来得到第i层输出结果梯度。

可选的，所述转换单元，具体用于确定浮点数的小数点位置point；

其中，maxabs为需要转换的浮点数据中的最大绝对值，width为定点数的位宽；

其中，float＝int*2point；所述float为浮点数的值，int为定点数的值。

可选的，所述获取第i层输入神经元梯度的方法具体包括：

所述控制器单元，具体用于接收第i+1层输出结果梯度，将第i+1层输出结果梯度发送至运算单元；

所述运算单元，具体用于依据第i+1层输出结果梯度得到第i层输入神经元梯度；

第i层输入神经元梯度＝f′*第i+1层输出结果梯度；

其中f′为激活函数f的导函数。

可选的，所述运算单元包括：主处理电路和多个从处理电路；其中，

所述主处理电路，用于对数据执行前序处理，以及向所述多个从处理电路传输数据以及运算指令；

多个从处理电路，用于依据从所述主处理电路传输的数据以及运算指令并行执行中间运算得到多个中间结果，并将多个中间结果传输给所述主处理电路；

主处理电路，用于依据多个中间结果得到第i层正向输出结果、第i层输出结果梯度、第i层权值梯度，并依据第i层权值梯度对第i层权值进行更新。

可选的，所述主处理电路，具体用于将该第i层输入神经元数据分发发送给各个从处理电路，将第i层输入神经元梯度传送到各个从处理电路，每个从处理电路将第i层输入神经元梯度in_gradient中与该从处理电路相对应的标量数据以及第i层输入神经元数据相乘，得到每个从处理电路的第i层的原始权值以更新梯度向量dw_original，采用该原始权值更新梯度向量dw_original与每个从处理电路的权值相乘得到各个从处理电路的更新权值。

可选的，所述主处理电路，具体用于在计算得到所有层的原始权值更新梯度向量后，计算所有层的原始权值更新梯度的平方和sumsq_diff,然后对sumsq_diff进行开方得到l2norm_diff，如果l2norm_diff大于clip_gradient,计算缩放因子scale_factor＝clip_gradient/l2norm_diff，将所有的原始权值更新梯度dw_original分别乘以缩放因子scale_factor，得到权值更新梯度dw’，将更新梯度dw’发送给每个从处理电路；

从处理电路，具体用于使用权值更新梯度dw’乘以权值得到第i层各个从处理电路的更新权值。

可选的，所述主处理电路以及从处理电路均包括存储模块；

所述存储模块，用于存储数据；

所述存储模块还包括至少一个共享区域，所述共享区域为主处理电路或从处理电路共享使用的存储空间。

可选的，所述运算单元还包括：分支处理电路；

所述分支处理电路设置在主处理电路与多个从处理电路之间，实现主处理电路与多个从处理电路之间的数据以及运算指令的转发。

可选的，所述分支处理电路包括：存储模块，所述存储模块包括至少一个共享区域，所述共享区域为主处理电路和从处理电路共享使用的存储空间。

可选的，所述装置还包括树型模块，例如该树型模块可以为互连模块，互联模块为由多个节点构成的n叉树通路，所述n叉树的上游节点的数据发送至下游的n个节点，以及互联模块将下游的n个节点返回的数据进行合并后发送给上游节点，所述n为大于等于2的整数。

可选的，所述激活函数f是非线性函数sigmoid，tanh，relu，softmax中的任一个或线性函数；

所述运算指令包括：CONFIG指令、COMPUTE指令、IO指令、NOP指令、JUMP指令或MOVE指令。

可选的，所述主处理电路包括第一存储单元、第一运算单元、第一数据依赖关系判定单元和第一存储单元，其中：

神经元缓存单元，用于缓存主处理电路在计算过程中用到的输入数据和输出数据；

第一运算单元，用于完成主处理电路的各种运算功能；

第一数据依赖关系判定单元，用于从第一存储单元读取输入的神经元向量，并通过互连模块发送给从处理电路；以及接收互连模块的中间结果向量，将中间结果向量发送到第一运算单元。

可选的，所述第一运算单元包括：向量加法单元和激活运算单元；

所述向量加法单元，用于将偏置数据与所述中间结果对位相加得到偏置结果；

所述激活运算单元，用于将所述偏置结果执行激活函数操作。

可选的，每个从处理电路包括第二运算单元、第二数据依赖关系判定单元、第二存储单元和第三存储单元，其中：

第二运算单元，用于执行算数逻辑运算；

第二数据依赖关系判定单元，用于对第二存储单元和第三存储单元的执行读写操作；

第二存储单元，用于缓存输入神经元向量的数据以及该从处理电路计算得到的输出神经元值；

第三存储单元，用于缓存该从处理电路在计算过程中需要的权值向量。

可选的，所述第二运算单元包括：向量乘单元和累加单元；

所述向量乘单元，用于执行点积运算中的向量乘运算；

所述累加单元，用于执行点积运算中的累加运算。

第十方面，提供一种神经网络训练方法，所述方法用于神经网络计算装置；所述神经网络训练计算括神经网络多层训练运算，所述多层训练运算中包括第i层，所述第i层的正向运算或反向运算中至少有部分数据用于定点数据运算，上述i为大于等于1的整数；所述计算装置包括：控制器单元、运算单元和转换单元，其中，控制器单元与运算单元以及转换单元连接；所述第i层训练运算中包括第i层正向运算和第i层反向运算；

所述第i层正向运算包括：

控制器单元获取第i层的输入神经元数据、第i层权值数据以及第i层正向计算指令；解析该第i层计算指令得到多个正向运算指令，将第i层输入神经元数据以及第i层权值数据发送给转换单元，将该多个正向运算指令发送给运算单元；

转换单元将该第i层输入神经元数据以及第i层权值数据中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据或混合数据发送给运算单元，所述混合数据包括：部分定点数据以及部分浮点数据；

运算单元依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的正向输出结果；

可选的，所述第i层反向运算包括：

控制器单元获取第i层的输入神经元数据、第i层权值数据、第i层输入神经元梯度以及第i层反向计算指令；解析该第i层计算指令得到多个反向运算指令，将第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度发送给转换单元，将该多个反向运算指令发送给运算单元；

转换单元将该第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据或混合数据发送给运算单元，该混合数据包括：部分定点数据以及部分浮点数据；

运算单元依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的权值梯度以及第i层输出结果梯度；采用第i层的权值梯度对第i层权值更新。

可选的，所述转换单元将该第i层输入神经元数据以及第i层权值数据中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据和混合数据发送给运算单元，所述混合数据包括：部分定点数据以及部分浮点数据；运算单元依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的正向输出结果具体包括：

所述转换单元将第i层输入神经元数据的部分转换成部分定点输入神经元数据以及将第i层权值数据的部分转换成部分定点权值数据；将部分定点输入神经元数据以及部分定点权值数据发送给运算单元，将部分输入神经元数据和部分权值数据发送给运算单元；

运算单元将部分定点输入神经元数据以及部分定点权值数据执行定点数据运算得到部分定点正向输出结果，将部分定点正向输出结果发送给转换单元，

转换单元将该部分定点正向输出结果执行定点与浮点转换得到第一部分浮点正向输出结果，将第一部分浮点正向输出结果发送给运算单元；

运算单元将部分输入神经元数据和部分权值数据执行运算得到第二部分浮点正向运算结果，将第一部分浮点正向运算结果和第二部分浮点正向运算结果结合起来得到第i层正向输出结果。

可选的，所述转换单元将该第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据和混合数据发送给运算单元，该混合数据包括：部分定点数据以及部分浮点数据；运算单元依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的权值梯度以及第i层输出结果梯度；采用第i层的权值梯度与第i层权值进行更新具体包括：

所述转换单元将第i层输入神经元数据的部分转换成部分定点输入神经元数据、将第i层权值数据的部分转换成部分定点权值数据以及将第i层输入神经元梯度转换成部分定点输入神经元梯度；将部分定点输入神经元数据、部分定点输入神经元梯度以及部分定点权值数据发送给运算单元，将部分输入神经元数据、部分输入神经元梯度和部分权值数据发送给运算单元；

运算单元将部分定点输入神经元梯度以及部分定点输入数据执行定点数据运算得到部分第i层权值梯度，将部分定点输入神经元梯度与部分定点权值数据执行定点数据运算得到部分第i层输出结果梯度，将部分第i层权值梯度以及部分第i层输出结果梯度发送给转换单元；

转换单元将该部分第i层权值梯度以及部分第i层输出结果梯度执行定点与浮点转换得到第一部分第i层权值梯度以及第一部分第i层输出结果梯度，将第一部分第i层权值梯度以及第一部分第i层输出结果梯度发送给运算单元；

运算单元将部分输入神经元梯度以及部分输入数据执行运算得到第二部分第i层权值梯度，将部分输入神经元梯度与部分权值数据执行运算得到第二部分第i层输出结果梯度，将第一部分第i层权值梯度和第二部分第i层权值梯度结合起来得到第i层权值梯度，将第一部分第i层输出结果梯度和第二部分第i层输出结果梯度结合起来得到第i层输出结果梯度。

第十一方面，提供一种神经网络训练装置，所述神经网络训练装置包括第五方面提供的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的运算，将执行结果通过I/O接口传递给其他处理装置；

当所述神经网络训练装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的神经网络训练运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

第十二方面，提供一种组合处理装置，所述组合处理装置包括第七方面所述的神经网络训练装置，通用互联接口和其他处理装置；

所述神经网络训练装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。

第十三方面，提供一种神经网络芯片，所述神经网络芯片包括第五方面提供的计算装置或第七方面神经网络训练装置或第八方面所述的组合处理装置。

第十四方面，提供一种电子设备，所述电子设备包括第九方面提供的芯片。

第十五方面，提供一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及第九方面提供的神经网络芯片；

其中，所述神经网络芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述芯片与外部设备之间的数据传输；

所述控制器件，用于对所述芯片的状态进行监控。

可选的，所述存储器件包括：多组存储单元，每一组所述存储单元与所述芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种计算方法的流程示意图。

图1A是定点数据格式示意图。

图1B为本发明实施例提供的一种神经网络运算模块的结构示意图。

图1C为本发明实施例提供的一种神经网络运算方法的流程示意图。

图1D为本发明实施例提供的另一种神经网络运算方法的流程示意图。

图2是本申请提供的一种计算系统的结构示意图。

图2A为本申请的控制单元的结构示意图。

图2B为本申请的计算群的结构示意图。

图2C为群控制器与多个计算单元的一种硬件结构示意图。

图2D为群控制器与多个计算单元的另一种硬件结构示意图。

图3A为一种计算单元的结构示意图。

图3B为一种运算单元的结构示意图。

图3C为另一种运算单元的结构示意图。

图4示出了根据本申请实施例的神经网络计算装置的整体结构的示例框图。

图4A示意性示出了根据本申请实施例的运算单元的结构示意图。

图4B示意性示出了根据本申请实施例的运算单元的另一结构示意图。

图4C示意性示出了根据本申请实施例的树型模块的发送示意图。

图4D示意性示出了根据本申请实施例的树型模块的接收示意图。

图4E示意性示出了根据本申请实施例的组合处理装置的结构示意图。

图5示意性示出了根据本申请实施例的板卡的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

对于神经网络的计算方式，其一般分为多种方式，具体的，包括但不限于：单指令多数据流(SIMD)、单指令多线程(SIMT)和同步多线程(SMT)。

单指令多数据流(SIMD)是指计算机对多个数据同时执行单条指令所确定的操作。例如，当需要进行一个或两个长向量的加法运算时，在SIMD的情景下，可以将一个或两个长向量拆成若干个短向量，使多个向量加法部件并行执行若干个短向量的加法运算，随后，将若干个短向量的加法结果合并，即得到长向量的加法运算结果，在SIMD模型中，任意时刻指令流都是单一的，即执行的指令流可以是同一指令，但是执行的数据可以不同。

单指令多线程(SIMT)是指多个线程运行同一条指令，但每一个线程可以有不同的数据。在单指令多线程的情况下，我们常常把线程合成线程组(warp)，每次运行同一个线程组中的线程，当一个线程的处理数据被阻塞时，我们通过上下文切换(context switch)将该处理数据切换到另一个线程组的线程进行执行。例如，第一线程组等待访存操作返回操作数时，切换为第二线程组，当操作数准备好之后，可以切换回来至第一线程组。

同步多线程(SMT)是指处理器在同一个时钟周期内可以运行多个来自多个线程的指令。当一个线程被阻塞时，我们可以通过上下文切换来运行另一个线程的指令。

参阅图1，图1提供了一种计算方法,该计算方法可以由计算系统来执行，该计算系统包括：控制单元、计算群和总存储单元，所述控制单元包括：第一存储器、译码逻辑和控制器，所述计算群包括：群控制器和多个计算单元；所述总存储单元，用于存储数据；所述计算方法包括如下步骤：

步骤S101、计算系统的控制器接收第一级指令序列，将该第一级指令序列拆分成多个第二级指令序列，

当然在实际应用中，计算系统也可以直接接收多个第二级指令序列。上述第二级指令序列为集成度比第一级指令序列低一级别的指令序列，即第一级指令序列可以包括或集成多个第二级指令序列。上述包括或集成的方式本申请并不限定。

上述第一级指令序列具体可以为：超长指令，该第二级指令序列包括：指令序列。当然在实际应用中，上述第一级指令序列具体可以为：指令序列，该第二级指令序列可以为：微指令序列。上述仅仅是为了举例说明，对于具体的实现方式中的指令序列只需第一级指令序列包含第二级指令序列的集合即可。

步骤S102、计算系统的控制器为所述多个第二级指令序列开辟M个线程，计算系统的控制器为所述M个线程中每个线程分配独立的存储空间以及配置独立寻址功能；所述M取值范围为大于等于1的整数；

步骤S103、计算系统的群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果。

本申请给出了一种SIMD、SMT和SIMT融合的计算系统和方法，将VLIW作为可选的辅助工具。本申请充分挖掘了计算的并行能力。在深度学习兴起的大背景下，向量计算的计算量越来越大，采用本申请提供的技术方案的能够更快的得到处理结果，所以其具有提高计算速度的优点。

下面我们以一个实际的例子来说明本申请的优点，这里假设有25个向量加法指令序列，25个向量加法指令序列结合成一个VLIW，如采用常规运算的方式，即解析该VLIW得到25个向量加法指令，则采用SIMD方式对这25个向量加法指令进行计算得到25个中间结果，假设每个向量加法指令的时间为t，如该SIMD为串行执行，所需时间为25t。而采用本申请提供的计算方法，解析该VLIW得到25个向量加法指令，可以通过SIMT调用5个线程，每个线程采用SIMD方式执行5个向量加法指令，其得到25个向量加法指令的时间可以为5t，这里忽略切换时间，由此可见，本申请提供的计算方法的计算的速度相对于现有的方式提高了近5倍。

可选的，所述依据所述多个计算类型获取计算类型对应的融合计算方式，采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果：

如所述计算类型代表相同类型的计算操作，群控制器调用相同类型的单指令多数据流SIMD、单指令多线程SIMT的组合计算方式，调用所述M个线程执行计算得到最终结果，具体包括：

译码逻辑将M个线程拆分成N个线程组，将所述多个第二指令序列转换成多个第二控制信号，将多个第二控制信号以及N个线程组分配给多个计算单元，多个计算单元调用分配的线程组以及第二控制信号提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将多个中间结果拼接起来得到最终结果。

如所述计算类型代表不同类型的计算操作，群控制器调用相同类型的单指令多数据流SIMD、同步多线程SIM的组合计算方式，调用所述M个线程执行计算得到最终结果，具体包括：

群控制器将M个线程拆分成N个线程组，将所述多个第二指令序列转换成多个第二控制信号，对不同类型的计算操作的第二指令序列分配N个线程组中不同的线程组，群控制器获取计算单元的功能类型，如计算单元A的功能类型与该多个第二指令序列的指令序列A的类型相同，将该指令序列A对应的控制信号A分配给计算单元A执行得到中间结果；如计算单元的功能类型与第二指令序列的计算类型不相同，将多个第二控制信号以及N个线程组分配给多个计算单元，多个计算单元调用分配的线程组以及第二控制信号提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将所有中间结果拼接起来得到最终结果。

可选的，所述方法还包括：

如多个线程组中的线程组A阻塞，控制器将线程组A加入等待队列，如线程组A的数据已被提取，将线程组A加入到准备队列，所述准备队列为计算资源空闲时被调度执行的线程组所在的队列。

参阅图2，图2提供一种计算系统，所述控制单元20、计算群21和总存储单元22，如图2A所示，所述控制单元包括：第一存储器301、译码逻辑302、控制器303和调度器304，参阅图2B，计算群包括：群控制器305和多个计算单元306；所述总存储单元22，用于存储数据；

控制器303，用于接收第一级指令序列以及用于控制所述第一存储器301和所述译码逻辑302；

所述译码逻辑302，用于将该第一级指令序列拆分成多个第二级指令序列；

所述控制器303，还用于为所述多个第二级指令序列开辟M个线程；为所述M个线程中每个线程分配独立的存储空间以及配置独立寻址功能；所述M取值范围为大于等于1的整数，将所述多个第二级指令序列转换成多个控制信号发送给所述群控制器；

所述群控制器305，用于接收所述多个控制信号，获取所述多个控制信号的多个计算类型，将M个线程划分成N个线程组，依据该多个计算类型为多个计算单元分配N个线程组以及多个控制信号；

计算单元306，用于通过分配的线程组以及控制信令从所述总存储单元22提取数据执行运算得到中间结果，

所述群控制器305，用于将所有中间结果拼接得到最终计算结果。

可选的，所述多个计算单元306包括：加法计算器、乘法计算器、激活计算器或专用计算器。

可选的，所述专用计算器包括：人脸识别计算计算器、图形计算器、指纹计算器或神经网络计算器。

可选的，所述群控制器，具体用于：如多个控制信号的计算类型为图形计算、指纹识别、人脸识别或神经网络运算，将该多个控制信号分别分配给人脸识别计算计算器、图形计算器、指纹计算器或神经网络计算器。

计算系统可以包括：控制单元20、计算群21、存储单元22。控制单元负责指令的分发、线程的开辟、普通指令和超长指令字的译码、控制信号的发出等。控制单元包括：本地存储、译码逻辑、调度器和控制器。其中，本地存储用于存储指令，译码逻辑可对超长指令字和普通指令进行译码，调度器负责线程的上下文切换，控制器调用存储的代码控制控制单元中各子模块(例如本地存储、译码逻辑和调度器)的行为。

计算群可以包括：群控制器和多个计算单元。群控制器接收来自控制单元的控制信号并将其转换为群内控制信号，将该群内控制信号发送给多个计算单元中的一个或多个计算单元以对该群内控制信号进行计算。计算单元可以包括多种功能部件，具体的，包括向量运算部件和各种针对专用算法的优化计算部件(如针对机器学习或图形处理的专用部件等)。计算单元还可以包括：单元控制器和本地存储。单元控制器用于控制计算单元内的各功能部件行为，本地存储用于缓存数据。

存储单元用于存储用户输入数据、计算群输出数据等。计算群可在控制单元的控制下通过多种寻址方式从存储单元提取合适的数据。

下面以超长指令字为例来说明该计算系统可以完成的功能，需要说明的是，上述超长指令字仅仅是为了举例说明，在实际应用中，本申请的技术方案并不限制上述指令的具体形式，例如指令序列。

超长向量是一个长度非常长的向量，该向量可以包括多段数据，计算系统可以对多段数据的每一段执行不同的操作，也可以对多段数据执行相同的操作。当计算系统需要对一个或多个超长向量进行计算时，首先编译器将超长向量各段的存储信息和所需操作的信息打包成超长指令字发送给控制单元。控制单元对超长指令字进行译码，将超长指令字解码为一系列微控制指令序列。(注意，超长指令字是可选项，当不使用超长指令字的时候，控制单元的本地存储中存储的是指令序列，由译码逻辑将它们译码为微控制指令序列。注意，微控制指令序列也是可选的，指令序列也可以直接由控制器开辟线程执行。注意，本地存储也是可选项，可由存储单元替代。)对于一系列涉及向量的相同类型的计算操作，计算系统采取SIMT和SIMD融合的计算方式。控制器单元为微控制指令序列开辟多个线程，每个线程有独立的存储空间并且可以独立寻址。根据计算群中计算单元数目，将适当数量的线程打包为线程组，这样计算系统将会得到一个或多个线程组(一般为多个线程组)。调度器接收线程分配信息，协同译码逻辑将线程中的微控制指令序列转化为控制信号发往计算群的群控制单元。群控制单元接收来自控制单元的控制信号，并将控制信号转化为群内控制信号发往合适的计算单元。计算单元从存储单元读取向量操作数并进行向量计算，中间结果可暂存在本地存储，最终结果存储在存储单元中。当线程组因为访存而阻塞时，通过上下文切换，计算群执行其他线程组的计算操作，阻塞的线程组进入等待队列，当阻塞的线程组的操作数准备好后，线程组从等待队列进入到准备队列。准备队列中的线程组可在计算资源空闲时被调度执行。线程组内包含的线程数量一般是恒定的，若剩余线程数不足一个线程组，则用非活跃线程填充至恒定值。对于一系列涉及向量的不同类型的计算操作，计算系统采取SMT和SIMD融合的计算方式。计算系统将不同操作的微控制指令序列分配给处于不同线程组的线程。在计算过程中，若一个线程组阻塞则计算系统可以进行上下文切换从而执行其他操作的线程组。上述计算可以由几个计算单元协同完成，如对于一个视频压缩计算，可将计算过程的预测、变换、量化和熵编码过程分配给不同的计算单元，计算单元之间可以互相传递结果，从而构成流水线。

参阅图2C，图2C为群控制器与多个计算单元的一种硬件结构示意图，该计算系统还可以包括树型模块401，该树型模块可以为n叉树结构，该n为大于2的整数，具体的，树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述群控制器305，所述树型模块的多个支端口分别连接多个计算单元306中的一个计算单元306；

所述树型模块，用于转发所述群控制器305与所述多个计算单元之间的数据块、线程组或指令序列。

参阅图2D，图2D为群控制器与多个计算单元的另一种硬件结构示意图，所述计算系统包括：分支处理电路，

所述计算单元包括：乘法处理电路；乘法处理电路对接收到的数据执行乘积运算得到乘积结果；所述计算单元还包括：累加处理电路，所述累加处理电路对所述乘积结果执行累加运算得到所述中间结果。

需要说明的是，上述计算单元还可以是另外一种硬件的结构，如图3A所示，控制器单元311和运算单元312，其中，控制器单元311与运算单元312连接，该运算单元312包括：一个主处理电路和多个从处理电路；

控制器单元311，用于获取数据、线程组以及指令，在执行人工神经网络模型运算时，所述数据包括：输入神经元数据、权值数据和输出神经元数据；在一种可选方案中，具体的，获取数据、线程组以及指令可以通过数据输入输出单元得到，该数据输入输出单元具体可以为一个或多个数据I/O接口或I/O引脚。

上述指令包括但不限于：正向运算指令或反向训练指令，或其他神经网络运算指令等等，例如卷积运算指令，本申请具体实施方式并不限制上述计算指令的具体表现形式。

控制器单元311，还用于解析该指令得到多个运算指令，将该多个运算指令以及所述数据发送给所述主处理电路；

主处理电路3101，用于对所述数据执行前序处理，以及向所述多个从处理电路传输数据以及运算指令；

多个从处理电路3102，用于依据从所述主处理电路传输的数据以及运算指令并行执行中间运算得到多个中间数据结果，并将多个中间数据结果传输给所述主处理电路；

主处理电路3101，用于对所述多个中间数据结果执行后续处理得到所述指令的指令结果。

可选的，上述计算单元还可以包括：该存储单元310和直接内存访问单元，存储单元可以包括：寄存器、缓存中的一个或任意组合，具体的，所述缓存，用于存储所述运算指令；所述寄存器，用于存储线程组、指令、数据或标量；所述缓存为高速暂存缓存。直接内存访问单元用于从存储单元310读取或存储数据。

可选的，该控制器单元包括：指令存储单元、指令处理单元和存储队列单元；

指令存储单元，用于存储指令；

所述指令处理单元，用于对所述计算指令解析得到多个运算指令；

存储队列单元，用于存储队列，该队列可以为指令队列，该指令队列包括：按该队列排列的前后顺序待执行的多个运算指令或计算指令。

可选的，该控制器单元还可以包括：依赖关系处理单元；

依赖关系处理单元，用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元；

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系，包括：

依据所述第一运算指令提取所述第一运算指令所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系。

在一种可选的实施方案中，如图3B所示，为一种运算单元的结构，该运算单元包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；上述树型模块具有收发功能。

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据块、权值以及运算指令。

在一种可选实施例中，运算单元12如图3C所示，可以包括分支处理电路；其具体的连接结构如图3C所示，其中，

主处理电路3101与分支处理电路3103连接，分支处理电路3103与多个从处理电路3102连接；

分支处理电路3103，用于转发主处理电路3101与从处理电路3102之间的数据或指令。

在运算中，为了减少计算量以及提高计算速度，通常将浮点数转换成定点数进行计算，因为定点数的比特位一般比浮点数小，因此能够降低内存容量，并且提高计算的速度。

定点数是一种可以指定小数点位置的数据格式，我们通常用位宽来表示一个定点数的数据长度。例如，16位定点数的位宽就是16。对于给定位宽的定点数，可表示数据的精度和可表示的数字范围是有关联的，例如，如果可以表示的精度越大，则可表示的数字范围就越小。如图1A所示，对于位宽为bitnum的定点数据格式，第一位为符号位，整数部分占x位，小数部分占s位，则该定点数据格式能够表示的最大定点精度S为2 ^-s。该定点数据格式可以表示的范围为[neg,pos]，其中pos＝(2 ^bitnum-1-1)*2 ^-s，neg＝-(2 ^bitnum-1)*2 ^-s。

在神经网络运算中，数据可以用定点数据格式进行表示例如，在正向运算过程中，第L层的数据包括输入神经元X ^(l)、输出神经元Y ^(l)、权重W ^(l)。在反向运算过程中，第L层的数据包括输入神经元梯度

输出神经元梯度

权重梯度

可以将上面的数据均用定点数进行表示，也可以将用定点数据格式进行表示的数据用定点数进行运算。

在神经网络的训练过程通常包括正向运算和反向运算两个步骤，在反向运算时，输入神经元梯度、权重梯度和输出神经元梯度所需要的精度可能会出现变化，可能随着训练的过程减小，如果定点数的精度冗余，则会增加运算开销，浪费运算资源。

在神经网络运算的过程中，由于经过加减乘除和卷积等一系列运算，正向运算过程包括的输入神经元、权重和输出神经元和反向训练过程包括的输入神经元梯度、权重梯度和输出神经元梯度会发生变化。以定点数据格式表示的输入神经元、权重、输出神经元、输入神经元梯度、权重梯度和输出神经元梯度的精度有可能需要增大或者减小。如果输入神经元、权重、输出神经元、输入神经元梯度、权重梯度和输出神经元梯度的精度不够，会导致运算结果出现较大的误差，甚至会导致反向训练失败；如果输入神经元、权重、输出神经元、输入神经元梯度、权重梯度和输出神经元梯度的精度冗余，则会增大不必要的的运算开销，浪费运算资源。本申请提出了一种神经网络运算模块及方法，在进行神经网络运算的过程中动态调整上述数据的精度，以在满足运算需求的同时，减少运算结果的误差，提高运算结果的精度。

本申请的实施例通过调整上述数据的位宽来达到调整该数据精度的目的。比如在定点数据格式的精度超过运算的需求时，可以通过将定点数据格式中的小数部分的位宽减少，即减小图1A中的s，从而降低上述定点数据格式的精度；但是定点数据格式的精度与其小数部分的位宽相关，即可通过增大或者减少小数部分的位宽来调整定点数据格式的精度。因此定点数据格式的精度小于需求精度时，可以减少小数部分的位宽，从而增大定点数据格式的精度，进而降低定点数据格式的精度冗余，减少运算开销，避免运算资源的浪费。

请参阅图1B，图1B是为本发明实施例提供的一种神经网络运算模块的结构示意图。该神经网络运算模块用于进行多层神经网络的运算。如图1B所示，该神经网络运算模块100包括：

存储单元101，用于存储输入神经元精度、权重精度和输出神经元梯度精度。

控制器单元102，用于从所述存储单元101获取所述多层神经网络第L层的输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

在一种可行的实施例中，上述存储单元101还用于存储输入神经元、权重和输出神经元以及输出神经元梯度，上述控制器单元102从上述存储单元101获取第L层输入神经元、权重和输出神经元梯度，该控制器单元102根据上述第L层输入神经元、权重和输出神经元梯度获取上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

其中，用于表示输入神经元的定点数据个数的位宽和用于表示权重的定点数据格式的位宽为第一位宽，用于表示上述输出神经元梯度的定点数据格式的位宽为第二位宽。

可选地，上述第二位宽大于上述第一位宽。

进一步地，上述第二位宽为上述第一位宽的两倍，以便于电子计算机进行处理。

进一步地，上述第一位宽可选为8位，上述第二位宽可选为16位。

其中，上述控制器单元102可以根据由用户进行预先设置，将精度预设为T _r；也可依据第二预设公式，通过改变输入参数的方式获得与输入参数匹配的预设精度T _r；还可以通过机器学习的方法获取T _r。

可选地，上述控制器单元102根据学习率、batchsize(批处理时的样本数量)设置上述预设精度T _r。

进一步地，如果该神经网络中存在参数共享层(如卷积层和循环神经网络层)，则上述控制器单元102根据上一层输出神经元的个数以及batchsize、学习率来设置上述预设精度T _r，即上一层的输出神经元的个数越高以及batchsize越大、学习率越高，上述预设精度T _r越大。

具体地，上述控制器单元102获取上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

后，根据第一预设公式对上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

进行计算，以得到上述梯度更新精度T，其中，上述第一预设公式可以为：

其中，上述控制器单元102调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括：

上述控制器单元102保持上述输入神经元精度S _x(l)和权重精度S _w(l)不变，增大上述输出神经元梯度精度

需要指出的是，由于上述输出神经元梯度精度

上述控制器单元102增大上述输出神经元梯度精度

是指减小表示该输出神经元梯度的定点数据格式的小数部分位宽s1。

可选地，上述控制器单元102根据Tr-T的值按照第一预设步长N1减小上述表示权重的定点数据格式的小数部分位宽s1。

具体地，对于表示上述输出神经元梯度的定点数据格式的小数部分位宽s1，上述控制器单元102每次减小N1位，即小数部分的位宽为s1-N1，并得到输出神经元梯度精度

再根据上述预设公式

判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；当确定该梯度更新精度T与上述预设精度Tr的差值的绝对值变小时，上述控制器单元102继续对表示上述输出神经元梯度的定点数据格式的小数部分位宽减小N1，即位宽为s1-2*N1，并得到输出神经元梯度精度

并继续判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；若变小，则继续按照上述方法进行处理；若在第n次处理时上述梯度更新精度T与上述预设精度Tr的差值的绝对值变大，上述控制器单元102则将第n-1次处理得到的位宽，即s1-(n-1)*N1作为表示上述输出神经元梯度的定点数据格式的小数部分的位宽，减小小数部分位宽后的输出神经元梯度精度为

可选地，上述第一预设步长N1为1、2、4、6、7、8或者其他正整数。

可选地，上述控制器单元102按照2倍递减的方式，减小表示上述输出神经元梯度的定点数据格式的小数部分位宽。

比如表示上述输出神经元梯度的定点数据格式的小数部分位宽为4，即权重的精度为2 ^-4，则按照2倍递减的方式减少位宽后的表示上述输出神经元梯度的定点数据格式的小数部分位宽为2，即减小后的输出神经元梯度精度为2 ^-2。

在一种可行的实施例中，上述控制器单元102确定对表示上述输出神经元梯度的定点数据格式的小数部分位宽的减少幅度b后，上述控制器单元102分多次减少上述定点数据格式的小数部分位宽，比如上述控制器单元102分两次减少上述定点数据格式的小数部分位宽，第一次减少的幅度为b1，第二次减少的幅度为b2，且b＝b1+b2。

其中，上述b1与b2可以相同或者不相同。

可选地，上述控制器单元102增大上述输出神经元梯度精度

时，减少表示该输出神经元梯度的定点数据格式的位宽。

进一步地，由于增大上述输出神经元梯度精度

是通过减少表示上述输出神经元梯度的定点数据格式的小数部分位宽来实现的，且由于表示上述输出神经元梯度的定点数据格式的位宽不变，若小数部分位宽减少，则整数部分位宽增大，该定点数据格式表示的数据范围会增大，但是该定点数据格式表示的精度也增大，因此在控制器单元102增大上述输出神经元梯度精度

后，该控制器单元102减少上述定点数据格式的位宽，且该定点数据格式的位宽减少后，其整数部分的位宽保持不变，即整数部分位宽的减少值与小数部分位宽的减少值相同，由此保证了在小数部分位宽改变的情况下，该定点数据格式表示的最大值不变。

举例说明，上述定点数据格式的位宽为9，其中符号位的位宽为1，整数部分的位宽为5，小数部分的位宽为4，上述控制器单元102减小上述小数部分的位宽和整数部分的位宽后，小数部分的位宽为2，整数部分的位宽为5，即减少上述小数部分的位宽，整数部分的位宽保持不变。

在一种可行的实施例中，上述控制器单元102减小上述输出神经元梯度精度

后，该控制器单元102还用于：

判断所述输出神经元梯度精度

当所述输出神经元梯度精度

需要指出的是，上述控制器单元102增大上述输出神经元梯度精度

的原因是该输出神经元梯度精度

小于上述需求精度，即存在精度冗余，此时会增大运算开销，浪费运算资源。因此为了减小运算开销，避免运算资源的浪费，需要增大上述输出神经元梯度精度

具体地，由上述相关描述可知，上述控制器单元102增大上述输出神经元梯度精度

后，需要进一步判断是否存在精度冗余，即判断输出神经元梯度精度

是否小于需求精度。当确定上述输出神经元梯度精度

小于上述需求精度时，减少表示所述输出神经元梯度的定点数据格式的位宽，以增大上述输出神经元梯度精度

降低精度冗余。

需要指出的是，上述控制器单元102减少上述定点数据格式的位宽具体是减少该定点数据格式的整数部分的位宽。

进一步地，上述控制器单元102减少所述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述控制器单元102按照第二预设步长N2减少所述表示所述输出神经元梯度的定点数据格式的位宽，其中，第二预设步长N2可为1、2、3、4、5、7、8或者其他正整数。

具体地，当确定减少上述定点数据格式的位宽时，上述控制器单元102每次减少该定点数据格式的位宽时的减少值为上述第二预设步长N2。

在一种可行的实施例中，上述控制器单元102减少上述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述控制器单元102按照2倍递减的方式减少上述表示上述输出神经元梯度的定点数据格式的位宽。

举例说明，上述定点数据格式除去符号位的位宽为16，则按照2倍递减的方式减少该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为8；再次按照2倍递减的方式减少该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为4。

在一种可行的实施例中，上述控制器单元102调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括

上述控制器单元102增大上述输入神经元精度S _x(l)和/或上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，或者；

上述控制器单元102增大上述输入神经元精度S _x(l)，减少上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，且上述输入神经元精度S _x(l)增大的幅度大于上述输出神经元梯度精度

的减小幅度，或者；

上述控制器单元102减小上述输出神经元梯度精度

增大上述输入神经元精度S _x(l)，保持上述权重精度S _w(l)不变，且上述输出神经元梯度精度

减小的幅度小于上述输入神经元精度S _x(l)的增大幅度，或者；

上述控制器单元102增大或减小上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

中的一个或者任意组合，以使上述梯度更新精度T与上述预设精度T _r的差值的绝对值最小。

在此需要说明的是，上述控制器单元102对上述权重精度S _w(l)、上述输入神经元精度S _x(l)和输出神经元梯度精度

中的任意一个的进行减小操作的具体过程可参见上述控制器单元102增大上述权重精度S _w(l)、上述输入神经元精度S _x(l)和输出神经元梯度精度

的相关操作，在此不再叙述。

按照上述方法调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

后，上述运算单元103在运算过程中，按照调整后的输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

以定点数据格式形式表示上述第L层的输入神经元、权重和输出神经元梯度，然后进行后续的运算。

需要说明的是，上述控制器单元102计算上述梯度更新精度T的频率可以根据需求灵活设置。

其中，上述控制器单元102可根据神经网络训练过程中的训练迭代次数调整计算上述梯度更新精度T的频率。

可选地，上述控制器单元102在神经网络训练过程中，每迭代一轮就重新计算上述梯度更新精度T；或者每迭代预设次数就重新计算上述梯度更新精度T；或者根据上述梯度更新精度T的变化进行设置上述频率。

可选地，上述控制器单元102根据神经网络训练中的训练迭代次数来设置计算上述梯度更新精度T的频率。

运算单元103，用于根据增大或者减小后的输入神经元精度S _x(l)和权重精度S _w(l)来表示第L层的输入神经元和权重；根据增大或者减小后的输出神经元梯度精度

来表示运算得到的第L层输出神经元梯度。

换句话说，上述运算单元，用于增大或者减小输入神经元精度S _x(l)的定点数据格式来表示上述第L层输入神经元，用增大或者减小权重精度S _w(l)的定点数据格式来表示上述第L层的权重，用增大或者减小输出神经元梯度精度

的定点数据格式来表示上述第L层的输出神经元梯度，以进行后续的运算。

通过在神经网络运算过程中，动态调整(包括增大或者减小)上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

以在满足运算需求的同时，降低精度冗余，减小运算开销，避免对运算资源造成浪费。

参见图1C，图1C为本发明实施例提供的一种神经网络运算方法的流程示意图，如图1C所示，该方法包括：

S201、神经网络运算模块获取神经网络的第L层输入神经元精度、权重精度和输出神经元梯度精度。

其中，上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

的取值可以相同，也可以是部分相同或者两两互不相等。

其中，上述神经网络为多层神经网络，上述第L层输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

分别为上述多层神经网络的任一层的输入神经元精度、权重精度和输出神经元梯度精度。

在一种可行的实施例中，上述神经网络运算模块获取上述第L层的输入神经元、权重和输出神经元；根据上述第L层的输入神经元、权重和输出神经元，获取上述第L层输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

S202、神经网络运算模块根据第L层输入神经元精度、权重精度和输出神经元梯度精度，计算得到梯度更新精度T。

具体地，上述神经网络运算模块根据第一预设公式对上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

进行计算，以得到上述梯度更新精度T。

其中，上述第一预设公式为

S203、当梯度更新精度T小于预设精度T _r时，神经网络运算模块调整第L层输入神经元精度、权重精度和输出神经元梯度，以使梯度更新精度T与预设精度T _r的差值的绝对值最小。

其中，用于表示输入神经元的定点数据格式和用于表示权重的定点数据格式的位宽为第一位宽，用于表示输出神经元梯度的定点数据格式的位宽为第二位宽。

可选地，上述第二位宽大于上述第一位宽。

其中，上述预设精度T _r可以根据经验进行预先设置；也可以根据第二预设公式，通过改变输入参数的方式获得与输入参数匹配的T _r；还可以通过机器学习的方法获取T _r。

可选地，上述神经网络运算模块根据学习率、batchsize(批处理时的样本数量)设置上述预设精度T _r。

进一步地，如果该神经网络中存在参数共享层(如卷积层和循环神经网路层)，则根据上一层输出神经元的个数以及batchsize、学习率来设置上述预设精度T _r，即上一层的输出神经元的个数越高以及batchsize越大、学习率越高，预设精度T _r越大。

其中，神经网络运算模块调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括：

上述神经网络运算模块保持上述输入神经元精度S _x(l)和权重精度S _w(l)不变，增大上述输出神经元梯度精度

需要指出的是，由于上述输出神经元梯度精度

上述神经网络运算模块增大上述输出神经元梯度精度

可选地，上述神经网络运算模块控制器单元根据Tr-T的值按照第一预设步长N1减小上述表示权重的定点数据格式的小数部分位宽s1。

具体地，对于表示上述输出神经元梯度的定点数据格式的小数部分位宽s1，上述神经网络运算模块每次减小N1位，即小数部分的位宽为s1-N1，并得到输出神经元梯度精度

再根据上述预设公式

判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；当确定该梯度更新精度T与上述预设精度Tr的差值的绝对值变小时，上述神经网络运算模块继续对表示上述输出神经元梯度的定点数据格式的小数部分位宽减小N1，即位宽为s1-2*N1，并得到输出神经元梯度精度

并继续判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；若变小，则继续按照上述方法进行处理；若在第n次处理时上述梯度更新精度T与上述预设精度Tr的差值的绝对值变大，上述神经网络运算模块则将第n-1次处理得到的位宽，即s1-(n-1)*N1作为表示上述输出神经元梯度的定点数据格式的小数部分的位宽，减小小数部分位宽后的输出神经元梯度精度为

可选地，上述神经网络运算模块按照2倍递减的方式，减小表示上述输出神经元梯度的定点数据格式的小数部分位宽。

在一种可行的实施例中，上述神经网络运算模块确定对表示上述输出神经元梯度的定点数据格式的小数部分位宽的减少幅度b后，上述神经网络运算模块分多次减少上述定点数据格式的小数部分位宽，比如上述神经网络运算模块分两次减少上述定点数据格式的小数部分位宽，第一次减少的幅度为b1，第二次减少的幅度为b2，且b＝b1+b2。

其中，上述b1与b2可以相同或者不相同。

可选地，上述神经网络运算模块增大上述输出神经元梯度精度

时，减少表示该输出神经元梯度的定点数据格式的位宽。

进一步地，由于增大上述输出神经元梯度精度

是通过减少表示上述输出神经元梯度的定点数据格式的小数部分位宽来实现的，且由于表示上述输出神经元梯度的定点数据格式的位宽不变，若小数部分位宽减少，则整数部分位宽增大，该定点数据格式表示的数据范围会增大，但是该定点数据格式表示的精度也增大，因此在神经网络运算模块增大上述输出神经元梯度精度

后，该神经网络运算模块减少上述定点数据格式的位宽，且该定点数据格式的位宽减少后，其整数部分的位宽保持不变，即整数部分位宽的减少值与小数部分位宽的减少值相同，因此保证了在小数部分位宽改变的情况下，该定点数据格式表示的最大值不变。

举例说明，上述定点数据格式的位宽为9，其中符号位的位宽为1，整数部分的位宽为5，小数部分的位宽为3，上述神经网络运算模块减小上述小数部分的位宽和整数部分的位宽后，小数部分的位宽为2，则整数部分的位宽为5，即减少上述小数部分的位宽，整数部分的位宽保持不变。

在一种可行的实施例中，上述神经网络运算模块减小上述输出神经元梯度精度

后，该神经网络运算模块还用于：

判断所述输出神经元梯度精度

当所述输出神经元梯度精度

需要指出的是，上述神经网络运算模块增大上述输出神经元梯度精度

的原因是该输出神经元梯度精度

具体地，由上述相关描述可知，上述神经网络运算模块增大上述输出神经元梯度精度

是否小于需求精度。当确定上述输出神经元梯度精度

降低精度冗余。

需要指出的是，上述神经网络运算模块减少上述定点数据格式的位宽具体是减少该定点数据格式的整数部分的位宽。

进一步地，上述神经网络运算模块减少所述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述神经网络运算模块按照第二预设步长N2减少所述表示所述输出神经元梯度的定点数据格式的位宽，其中，第二预设步长N2可为1、2、3、4、5、7、8或者其他正整数。

具体地，当确定减少上述定点数据格式的位宽时，上述神经网络运算模块每次减少该定点数据格式的位宽时的减少值为上述第二预设步长N2。

在一种可行的实施例中，上述神经网络运算模块减少上述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述神经网络运算模块按照2倍递减的方式减少上述表示上述输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，上述神经网络运算模块调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括

上述神经网络运算模块增大上述输入神经元精度S _x(l)和/或上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，或者；

上述神经网络运算模块增大上述输入神经元精度S _x(l)，减少上述输出神经元梯度精度

的减小幅度，或者；

上述神经网络运算模块减小上述输出神经元梯度精度

增大减小的幅度小于上述输入神经元精度S _x(l)的增大幅度，或者；

上述神经网络运算模块增大或减小上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

在此需要说明的是，上述神经网络运算模块对上述权重精度S _w(l)、上述输入神经元精度S _x(l)和输出神经元梯度精度

中的任意一个的进行减小操作的具体过程可参见上述神经网络运算模块增大上述权重精度S _w(l)、上述输入神经元精度S _x(l)和输出神经元梯度精度

的相关操作，在此不再叙述。

S204、神经网络运算模块根据调整后的输入神经元精度和权重精度来表示第L层的输出神经元和权重；根据调整后的输出神经元梯度精度来表示运算得到的第L层输出神经元梯度，以进行后续运算。

后，上述神经网络运算模块重新计算上述梯度更新精度T；当该梯度更新精度不再大于上述预设精度T _r时，上述神经网络运算模块参照上述步骤S203的方式减小上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

需要说明的是，上述神经网络运算模块计算上述梯度更新精度T的频率可以根据需求灵活设置。

其中，上述神经网络运算模块可根据神经网络训练过程中的训练迭代次数调整计算上述梯度更新精度T的频率。

可选地，上述神经网络运算模块在神经网络训练过程中，每迭代一轮就重新计算上述梯度更新精度T；或者每迭代预设次数就重新计算上述梯度更新精度T；或者根据上述梯度更新精度T的变化进行设置上述频率。

可选地，上述神经网络运算模块根据神经网络训练中的训练迭代次数来设置计算上述梯度更新精度T的频率。

可以看出，本发明实施例的方案在神经网络运算过程中，动态调整上述输入神经元精度S _x、权重精度S _w和输出神经元梯度精度

在神经网络领域，训练计算为神经网络应用的基础，对于训练计算又称为模型的预训练或预处理，由于训练计算的运算量大，通常需要专用的设备(例如数据中心)处理，这使得如何降低训练计算的运算量成为将训练计算应用到普通设备(例如个人计算机、终端设备)的关键。

在神经网络运算中，数据可以用定点数据格式进行表示、运算。例如，在正向运算过程中，第L层的数据包括输入神经元X ^(l)、输出神经元Y ^(l)、权重W ^(l)。在反向运算过程中，第L层的数据包括输入神经元梯度

输出神经元梯度

权重梯度

可以将上面的数据均用定点数进行表示，也可以用定点数进行运算。

定点数是一种可以指定小数点位置的数据格式，我们通常用位宽来表示一个定点数的数据长度。例如，16位定点数的位宽就是16。对于给定位宽的定点数，可表示数据的精度和可表示的数字范围是有关联的，如果可以表示的精度越大，则可表示的数字范围就越小。如图1A所示，对于位宽为bitnum的定点数据格式，第一位为符号位，整数部分占x位，小数部分占s位，则该定点数据格式能够表示的最大定点精度S为2 ^-s。该定点数据格式可以表示的范围为[neg,pos]，其中pos＝(2 ^bitnum-1-1)*2 ^-s，neg＝-(2 ^bitnum-1)*2 ^-s。

在神经网络的训练过程通常包括正向运算和反向运算两个步骤，在反向运算时，输入神经元梯度、权重梯度和输出神经元梯度所需要的精度可能会出现变化，可能随着训练的过程增大，如果定点数的精度不够，会导致运算结果出现较大误差，甚至会导致训练失败。

在本申请的实施例中通过调整上述数据的位宽来达到调整该数据精度的目的。比如在定点数据格式的精度无法满足运算的需求时，可以通过将定点数据格式中的小数部分的位宽增大，即增大图1A中的s，从而增大上述定点数据格式的精度；但是由于定点数据格式的位宽是固定的，当增大小数部分的位宽时，整数部分的位宽则会减小，故该定点数据格式能够表示的数据范围则会缩小，此时，可增大该定点数据格式的位宽，由于小数部分的位宽不变，因此增大该定点数据格式的位宽可以看作是增大该定点数据格式的整数部分的位宽，从而扩大定点数据格式能够表示数据的范围。

在一种可行的实施例中，上述存储单元101还用于存储输入神经元、权重和输出神经元以及输出神经元梯度，上述控制器单元102从上述存储单元101中获取第L层输入神经元、权重和输出神经元梯度，该控制器单元102根据上述第L层输入神经元、权重和输出神经元梯度获取上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

可选地，上述第二位宽大于上述第一位宽。

其中，上述控制器单元102可以由用户进行预先设置或可以由用户进行预设，将精度预设为T _r；也可以第二预设公式，通过改变输入参数的方式获得与输入参数匹配的预设精度T _r；还可以通过机器学习的方法获取T _r。

包括：

上述控制器单元102保持上述输入神经元精度S _x(l)和权重精度S _w(l)不变，减小上述输出神经元梯度精度

需要指出的是，由于上述输出神经元梯度精度

上述控制器单元102减小上述输出神经元梯度精度

是指增加表示该输出神经元梯度的定点数据格式的小数部分位宽s1。

可选地，上述控制器单元102根据Tr-T的值按照第一预设步长N1增加上述表示权重的定点数据格式的小数部分位宽s1。

具体地，对于表示上述输出神经元梯度的定点数据格式的小数部分位宽s1，上述控制器单元102每次增加N1位，即小数部分的位宽为s1+N1，并得到输出神经元梯度精度

再根据上述预设公式

判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；当确定该梯度更新精度T与上述预设精度Tr的差值的绝对值变小时，上述控制器单元102继续对表示上述输出神经元梯度的定点数据格式的小数部分位宽增加N1，即位宽为s1+2*N1，并得到输出神经元梯度精度

并继续判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；若变小，则继续按照上述方法进行处理；若在第n次处理时上述梯度更新精度T与上述预设精度Tr的差值的绝对值变大，上述控制器单元102则将第n-1次处理得到的位宽，即s1+(n-1)*N1作为表示上述输出神经元梯度的定点数据格式的小数部分的位宽，增加小数部分位宽后的输出神经元梯度精度为

可选地，上述控制器单元102按照2倍递增的方式，增加表示上述输出神经元梯度的定点数据格式的小数部分位宽。

比如表示上述输出神经元梯度的定点数据格式的小数部分位宽为3，即权重的精度为2 ^-3，则按照2倍递增的方式增加位宽后的表示上述输出神经元梯度的定点数据格式的小数部分位宽为6，即减小后的输出神经元梯度精度为2 ^-6。

在一种可行的实施例中，上述控制器单元102确定对表示上述输出神经元梯度的定点数据格式的小数部分位宽的增加幅度b后，上述控制器单元102分多次增加上述定点数据格式的小数部分位宽，比如上述控制器单元102分两次增加上述定点数据格式的小数部分位宽，第一次增加的幅度为b1，第二次增加的幅度为b2，且b＝b1+b2。

其中，上述b1与b2可以相同或者不相同。

可选地，上述控制器单元102减小上述输出神经元梯度精度

时，增加表示该输出神经元梯度的定点数据格式的位宽。

进一步地，由于增大上述输出神经元梯度精度

是通过增加表示上述输出神经元梯度的定点数据格式的小数部分位宽来实现的，且由于表示上述输出神经元梯度的定点数据格式的位宽不变，若小数部分位宽增加，则整数部分位宽减少，该定点数据格式表示的数据范围会缩小，因此在控制器单元102减小上述输出神经元梯度精度

后，该控制器单元102增加上述定点数据格式的位宽，且该定点数据格式的位宽增加后，其整数部分的位宽保持不变，即整数部分位宽的增加值与小数部分位宽的增加值相同。

举例说明，上述定点数据格式的位宽为9，其中符号位的位宽为1，整数部分的位宽为 5，小数部分的位宽为3，上述控制器单元102增加上述小数部分的位宽和整数部分的位宽后，小数部分的位宽为6，则整数部分的位宽为5，即增加上述小数部分的位宽，整数部分的位宽保持不变。

后，该控制器单元102还用于：

具体地，由上述相关描述可知，上述控制器单元102减小上述输出神经元梯度精度

时，上述表示该输出神经元梯度的定点数据格式表示数据的范围会缩小，因此当上述控制器单元102减小上述输出神经元梯度精度

后，判断上述输出神经元梯度以上述定点数据格式表示时是否溢出；当确定溢出时，上述控制器单元102增加上述定点数据格式的位宽，从而扩大上述定点数据格式表示数据的范围，使得上述输出神经元梯度以上述定点数据格式表示时不会溢出。

需要指出的是，上述控制器单元102增加上述定点数据格式的位宽具体是增加该定点数据格式的整数部分的位宽。

进一步地，上述控制器单元102增加所述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述控制器单元102按照第二预设步长N2增加所述表示所述输出神经元梯度的定点数据格式的位宽，其中，第二预设步长N2可为1、2、3、4、5、7、8或者其他正整数。

具体地，当确定增加上述定点数据格式的位宽时，上述控制器单元102每次增加该定点数据格式的位宽时的增加值为上述第二预设步长N2。

在一种可行的实施例中，上述控制器单元102增加上述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述控制器单元102按照2倍递增的方式增加上述表示上述输出神经元梯度的定点数据格式的位宽。

举例说明，上述定点数据格式除去符号位的位宽为8，则按照2倍递增的方式增加该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为16；再次按照2倍递增的方式增加该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为32。

包括

上述控制器单元102减小上述输入神经元精度S _x(l)和/或上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，或者；

上述控制器单元102减小上述输入神经元精度S _x(l)，增大上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，且上述输入神经元精度S _x(l)减小的幅度大于上述输出神经元梯度精度

的增大幅度，或者；

上述控制器单元102增大上述输出神经元梯度精度

减小上述输入神经元精度S _x(l)，保持上述权重精度S _w(l)不变，且上述输出神经元梯度精度

增大的幅度小于上述输入神经元精度S _x(l)的减小幅度，或者；

中的任意一个的进行增大操作的具体过程可参见上述控制器单元102增大上述权重精度S _w(l)、上述输入神经元精度S _x(l)和输出神经元梯度精度的相关操作，在此不再叙述。

可选地，上述控制器单元102在神经网络训练过程中，每迭代一轮控制器单元就重新计算上述梯度更新精度T；或者每迭代预设次数就重新计算上述梯度更新精度T；或者根据上述梯度更新精度T的变化进行设置上述频率。

来表示运算得到的第L层输出神经元梯度。

换句话说，上述运算单元103，用于增大或者减小输入神经元精度S _x(l)的定点数据格式来表示上述第L层输入神经元，用增大或者减小权重精度S _w(l)的定点数据格式来表示上述第L层的权重，用增大或者减小输出神经元梯度精度

以在满足运算需求的同时，减少运算结果的误差和运算开销，节省运算资源。

在另一个可选的实施例中，上述控制器单元102获取上述多层神经网络的第L层输出神经元梯度。

在一种可行的实施例中，上述控制器单元102获取第L层的输出神经元和第L-1层的输出神经元，然后根据上述第L层的输出神经元和第L-1层的输出神经元获取上述第L层输出神经元梯度。

上述控制器单元102获取输出神经元梯度中绝对值小于第一预设阈值的输出神经元梯度的比例数据a。

可选地，上述第一预设阈值可为0、0.01、0.05、0.1、0.12、0.05或者其他值。

具体地，上述控制器单元102获取上述第L层输出神经元梯度后，获取该第L层输出神经元梯度中绝对值小于上述第一预设阈值的梯度值的个数n1，然后根据该个数n1和上述第L层输出神经元梯度的个数n2获取上述比例数据a，即a＝n1/n2。

可选地，上述比例数据可为50％、60％、65％、70％、80％、85％、90％或者其他值。

可选地，上述比例数据为80％。

当比例数据a大于第二预设阈值时，控制器单元102减小上述第L层输出神经元梯度精度

在一种可行的实施例中，上述控制器单元102减小上述第L层输出神经元梯度精度

时，增加表示上述第L层输出神经元梯度的定点数据格式的位宽。

后，上述控制器单元102还用于：

判断上述第L层输出神经元梯度以上述第L层输出神经元梯度的定点数据格式表示时是否溢出；

当确定溢出时，增加表示上述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，上述控制器单元102增加表示上述第L层输出神经元梯度的定点数据格式的位宽，包括：

上述控制器单元102按照第三预设步长N3增加所述表示上述第L层输出神经元梯度的定点数据格式的位宽。

上述控制器单元102按照2倍递增的方式增加所述表示上述第L层输出神经元梯度的定点数据格式的位宽。

在此需要说明的是，上述控制器单元102减小上述输出神经元梯度精度

的具体过程可见上述相关描述，在此不再叙述。

按照上述方法调整上述输出神经元梯度精度

后，上述运算单元103在运算过程中，按照调整后的输出神经元梯度精度

以定点数形式表示上述第L层的输出神经元梯度，然后进行后续的运算。

通过在神经网络运算过程中根据输出神经元梯度来调整输出神经元精度的大小，从而减小输出神经元的误差，进而保证训练正常进行。

的取值可以相同，也可以是部分相同或者两两互不相等。

进行计算，以得到上述梯度更新精度T。

其中，上述第一预设公式为

S203、当梯度更新精度T大于预设精度T _r时，神经网络运算模块调整第L层输入神经元精度、权重精度和输出神经元梯度，以使梯度更新精度T与预设精度T _r的差值的绝对值最小。

可选地，上述第二位宽大于上述第一位宽。

其中，上述预设精度T _r可以根据经验进行预先设置；也可以第二预设公式，通过改变输入参数的方式获得与输入参数匹配的T _r；还可以通过机器学习的方法获取T _r。

其中，上述神经网络运算模块调整上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

包括：

保持上述输入神经元精度S _x(l)和权重精度S _w(l)不变，增大上述输出神经元梯度精度

需要指出的是，上述神经网络运算模块减小上述输出神经元梯度精度

可选地，上述神经网络运算模块控制器单元根据Tr-T的值按照第一预设步长N1增大上述表示输出神经元梯度的定点数据格式的小数部分位宽s1。

具体地，对于表示上述输出神经元梯度的定点数据格式的小数部分位宽s1，上述神经网络运算模块每次增加N1，即小数部分的位宽为s1+N1，并得到输出神经元梯度精度

再根据上述预设公式

判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；当确定该梯度更新精度T与上述预设精度Tr的差值的绝对值变小时，上述神经网络运算模块继续对表示上述输出神经元梯度的定点数据格式的小数部分位宽增加N1，即位宽为s1+2*N1，并得到输出神经元梯度精度

并继续判断上述梯度更新精度T与上述预设精度Tr的差值的绝对值是否变小；若变小，则继续按照上述方法进行处理；若在第n次处理时上述梯度更新精度T与上述预设精度Tr的差值的绝对值变大，上述神经网络运算模块则将第n-1次处理得到的位宽，即s1+(n-1)*N1作为表示上述输出神经元梯度的定点数据格式的小数部分的位宽，增加小数部分位宽后的输出神经元梯度精度为

可选地，上述神经网络运算模块按照2倍递增的方式，增加表示上述输出神经元梯度的定点数据格式的小数部分位宽。

比如表示上述输出神经元梯度的定点数据格式的小数部分位宽为3，即输出神经元梯度精度为2 ^-3，则按照2倍递增的方式增加后的表示上述输出神经元梯度的定点数据格式的小数部分位宽为6，即减小后的输出神经元梯度精度为2 ^-6。

在一种可行的实施例中，上述神经网络运算模块确定对表示上述输出神经元梯度的定点数据格式的小数部分位宽的增加幅度b后，上述神经网络运算模块分多次增大上述定点数据格式的小数部分位宽，比如上述神经网络运算模块分两次增大上述定点数据格式的小数部分位宽，第一次增加幅度为b1，第二次增加度为b2，且b＝b1+b2。

其中，上述b1与b2可以相同或者不相同。

可选地，上述神经网络运算模块减小上述输出神经元梯度精度时，增加表示该权重的定点数据格式的位宽。

进一步地，由于减小上述输出神经元梯度精度S _w(l)是通过增加表示上述权重的定点数据格式的小数部分位宽来实现的，且由于表示上述输出神经元梯度的定点数据格式的位宽不变，若小数部分位宽增加，则整数部分位宽减少，该定点数据格式表示的数据范围会缩小，因此在神经网络运算模块减小上述输出神经元梯度精度S _w(l)后，该神经网络运算模块增加上述定点数据格式的位宽，且该定点数据格式的位宽增加后，其整数部分的位宽保持不变，即整数部分位宽的增加值与小数部分位宽的增加值相同。

举例说明，上述定点数据格式的位宽为9，其中符号位的位宽为1，整数部分的位宽为5，小数部分的位宽为3，上述神经网络运算模块增加上述小数部分的位宽和整数部分的位宽后，小数部分的位宽为6，则整数部分的位宽为5，即增加上述小数部分的位宽，整数部分的位宽保持不变。

在一种可行的实施例中，上述神经网络运算模块减小上述输出神经元梯度精度后，该神经网络运算模块还用于：

具体地，由上述相关描述可知，上述神经网络运算模块减小上述输出神经元梯度的精度时，上述表示该输出神经元梯度的定点数据格式表示数据的范围会缩小，因此当上述神经网络运算模块减小上述输出神经元梯度的精度后，判断上述输出神经元梯度以上述定点数据格式表示时是否溢出；当确定溢出时，上述神经网络运算模块增加上述定点数据格式的位宽，从而扩大上述定点数据格式表示数据的范围，使得上述输出神经元梯度以上述定点数据格式表示时不会溢出。

需要指出的是，上述神经网络运算模块增加上述定点数据格式的位宽具体是增加该定点数据格式的整数部分的位宽。

进一步地，上述神经网络运算模块增加所述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述神经网络运算模块按照第二预设步长N2增加所述表示所述输出神经元梯度的定点数据格式的位宽，其中，第二预设步长N2可为1、2、3、4、5、7、8或者其他正整数。

具体地，当确定增加上述定点数据格式的位宽时，上述神经网络运算模块每次增加该定点数据格式的位宽时的增加值为上述第二预设步长N2。

在一种可行的实施例中，上述神经网络运算模块增加上述表示上述输出神经元梯度的定点数据格式的位宽，包括：

上述神经网络运算模块按照2倍递增的方式增加上述表示上述输出神经元梯度的定点数据格式的位宽。

举例说明，上述定点数据格式除去符号位的位宽为8，则按照2倍递增的方式增加该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为16；再次按照2倍递增的方式增大该定点数据格式的位宽后，该定点数据格式除去符号位的位宽为32。

包括：

减小上述输入神经元精度S _x(l)和/或上述输出神经元梯度精度

保持上述权重精度S _w(l)不变，或者；

减小上述输入神经元精度S _x(l)，增大上述输出神经元梯度精度

的增大幅度，或者；

增大上述输出神经元梯度精度

增大或减小上述输入神经元精度S _x(l)、权重精度S _w(l)和输出神经元梯度精度

在此需要说明的是，上述神经网络运算模块对上述权重精度S _w(l)、、上述输入神经元精度S _x(l)和输出神经元梯度精度

中的任意一个的进行增大操作的具体过程可参见上述神经网络运算模块增大权重精度S _w(l)、、上述输入神经元精度S _x(l)和输出神经元梯度精度

的相关操作，在此不再叙述。

后，上述神经网络运算模块重新计算上述梯度更新精度T；当该梯度更新精度不再大于上述预设精度T _r时，上述神经网络运算模块参照上述步骤S203的方式减小上述输入神经元精度S _x(l)，权重精度S _w(l)和输出神经元梯度精度

可以看出，在本发明实施例的方案中在神经网络运算过程中，动态调整上述输入神经元精度S _x、权重精度S _w和输出神经元梯度精度

参见图1D，图1D为本发明实施例提供的一种神经网络运算方法的流程示意图。如图1D所示，该方法包括：

S301、神经网络运算模块获取第L层输出神经元梯度。

在一种可行的实施例中，上述神经网络运算模块获取第L层的输出神经元和第L-1层的输出神经元，然后根据上述第L层的输出神经元和第L-1层的输出神经元获取上述第L层输出神经元梯度。

S302、神经网络运算模块获取第L层输出神经元梯度中绝对值小于第一预设阈值的比例数据a。

具体地，上述神经网络运算模块获取上述第L层输出神经元梯度后，获取该第L层输出神经元梯度中绝对值小于上述第一预设阈值的梯度值的个数n1，然后根据该个数n1和上述第L层输出神经元梯度的个数n2获取上述比例数据a，即a＝n1/n2。

可选地，上述比例数据为80％。

S303、当比例数据a大于第二预设阈值时，神经网络运算模块减小上述第L层输出神经元梯度的精度。

在一种可行的实施例中，上述神经网络运算模块减小上述第L层输出神经元梯度精度

后，上述神经网络运算模块还用于：

在一种可行的实施例中，上述神经网络运算模块增加表示上述第L层输出神经元梯度的定点数据格式的位宽，包括：

按照第三预设步长N3增加所述表示上述第L层输出神经元梯度的定点数据格式的位宽。

在一种可行的实施例中，上述神经网络运算模块增加表示上述第L层输出神经元梯度的定点数据格式的位宽，，包括：

按照2倍递增的方式增加所述表示上述第L层输出神经元梯度的定点数据格式的位宽。

在此需要说明的是，上述神经网络运算模块减小上述输出神经元梯度精度

的具体过程可见上述相关描述，在此不再叙述。

按照上述方法调整上述输出神经元梯度精度

后，上述神经网络运算模块在运算过程中，按照调整后的输出神经元梯度精度

以定点数据格式表示上述第L层的输出神经元梯度，然后进行后续的运算。

可以看出，在本发明实施例的方案中在神经网络运算过程中，根据输出神经元梯度来调整其精度的大小，从而减小输出神经元的误差，进而保证训练正常进行。

神经网络又称人工神经网络，人工神经网络被广泛应用于模式识别，图像处理，函数逼近和优化计算等领域，多层人工网络在近年来由于其较高的识别准确度和较好的可并行性，受到学术界和工业界越来越广泛的关注。人工神经网络涉及到多种算法，其中全连接层作为人工神经网络中的一种重要算法，被广泛的应用在各种人工神经网络模型中。

现有的神经网络运算基于通用处理器进行神经网络运算，现有的通用处理器，仅仅支持浮点数据的运算，但神经网络运算尤其涉及到比较复杂的运算，因此其运算量大，并且内存要求高，现有的神经网络运算是基于浮点数据来运算，对内存要求较高，因此现有的方案能耗高、成本高。

电子设备可以包括各种具有无线通信功能的手持设备、车载设备、无线耳机、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)等等，电子设备例如可以为智能手机、平板电脑、耳机盒等等。为方便描述，上面提到的设备统称为电子设备或电子装置。

上述电子设备或电子装置可以应用于以下(包括但不限于)场景中：数据处理、机器人、电脑、打印机、扫描仪、电话、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备等各类电子产品；飞机、轮船、车辆等各类交通工具；电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机等各类家用电器；以及包括核磁共振仪、B超、心电图仪等各类医疗设备。

下面对本申请实施例进行详细介绍。

首先介绍本申请使用的计算装置。参阅图4，提供了一种神经网络计算装置，该计算装置用于执行神经网络训练计算，上述神经网络训练计算包括神经网络多层训练运算，上述多层训练运算中包括第i层，所述第i层的正向运算或反向运算中至少有部分数据用于定点数据运算，上述i为大于等于1的整数；该计算装置包括：控制器单元11、运算单元12和转换单元13，其中，控制器单元11与运算单元12以及转换单元13(上述转换单元可以单独设置，也可以集成在控制器单元或运算单元内)连接；上述第i层训练运算中包括第i层正向运算和第i层反向运算；

该第i层正向运算可以包括：

控制器单元11，用于获取第i层的输入神经元数据、第i层权值数据以及第i层正向计算指令；在一种可选方案中，具体的，控制器单元获取输入神经元数据以及计算指令方式可以通过数据输入输出单元得到，该数据输入输出单元具体可以为一个或多个数据I/O接口或I/O引脚；数据输入输出单元，用于从外部设备或外部存储器读取输入神经元数据或正向计算指令。

上述正向计算指令包括但不限于：卷积运算指令、矩阵乘法指令、向量乘法指令、激活指令等等，本申请具体实施方式并不限制上述正向计算指令的具体表现形式或具体的类别。

控制器单元11，还用于解析该第i层计算指令得到多个正向运算指令，将第i层输入神经元数据以及第i层权值数据发送给转换单元13，将该多个正向运算指令发送给运算单元12；

转换单元13，用于将该第i层输入神经元数据以及第i层权值数据中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据或混合数据发送给运算单元，该混合数据包括：部分定点数据以及部分浮点数据；

运算单元12，用于依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的正向输出结果。

该第i层反向运算可以包括：

控制器单元11，用于获取第i层的输入神经元数据、第i层权值数据、第i层输入神经元梯度以及第i层反向计算指令；在一种可选方案中，具体的，控制器单元获取输入神经元数据以及计算指令方式可以通过数据输入输出单元得到，该数据输入输出单元具体可以为一个或多个数据I/O接口或I/O引脚；数据输入输出单元，用于从外部设备或外部存储器读取输入神经元数据或反向计算指令。

上述反向计算指令包括但不限于：矩阵乘法指令或向量乘法指令等等，本申请具体实施方式并不限制上述反向计算指令的具体表现形式或具体的类别。

控制器单元11，还用于解析该第i层计算指令得到多个反向运算指令，将第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度发送给转换单元13，将该多个反向运算指令发送给运算单元12；

转换单元13，用于将该第i层输入神经元数据、第i层权值数据以及第i层输入神经元梯度中的全部或部分执行浮点类型与定点类型转换得到全部定点数据或混合数据，将全部定点数据和混合数据发送给运算单元，该混合数据包括：部分定点数据以及部分浮点数据；

运算单元12，用于依据多个正向运算指令对全部定点数据执行定点运算或对混合数据执行混合运算得到第i层的权值梯度以及第i层输出结果梯度；运算单元采用第i层的权值梯度与第i层权值进行更新。

该混合运算包括：对部分定点数据执行定点运算以及对部分浮点数据执行浮点运算。

本申请提供的技术方案设置了转换单元，该转换单元在执行神经网络的第i层训练运算时，可以将输入神经元数据、权值数据、输入数据神经元梯度中的全部或部分转换成定点数据或混合数据，相对于浮点数据，定点数据的存储空间较少，这样通过较小的内存空间即能够实现神经网络的训练，因此本申请提供的计算装置可以降低内存的容量，降低成本，另外，本申请提供的技术方案的i层训练运算中存在至少部分定点数据的运算，相对于浮点数据的运算，具有运算量降低，运算快的优点。

神经网络训练中的训练计算可以为神经网络中的一层的训练运算，即第i层的训练运算，对于其他层的训练运算可以采用常规的训练运算方法，也可以采用本申请中类似第i层的训练计算方法。对于多层神经网络，训练计算方法实现过程是，在正向运算中，当上一层的人工神经网络正向运算执行完成之后，计算装置会将运算单元中计算出的输出神经元(即正向输出结果)作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)，上述某些操作包括但不限于：激活操作等操作，同时，计算装置将上一层的权值也替换为下一层的权值。在反向运算中，当下一层的人工神经网络的反向运算执行完成后，计算装置会将运算单元中计算出的输出神经元梯度(即输出结果梯度)作为上一层的输入神经元梯度进行运算(或者是对该输出神经元梯度进行某些操作再作为上一层的输入神经元梯度)，同时计算装置将权值以及输入神经元数据替换为上一层的正向运算的权值以及输入神经元数据。

对于人工神经网络运算，如果该人工神经网络运算具有多层运算，多层运算的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是指对于网络中任意相邻的两层，处于网络正向运算下层中的神经元即为输入神经元，处于网络正向运算上层中的神经元即为输出神经元。以卷积神经网络为例，设一个卷积神经网络有L层，K＝1,2,...,L-1，对于第K层和第K+1层来说，我们将第K层称为输入层，第K层中的神经元为所述输入神经元，第K+1层称为输出层，第K+1层中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

可选的，转换单元13，具体用于将第i层输入神经元数据的部分转换成部分定点输入神经元数据以及将第i层权值数据的部分转换成部分定点权值数据；将部分定点输入神经元数据以及部分定点权值数据发送给运算单元，将部分输入神经元数据(未执行浮点与定点转换的剩余浮点数据)和部分权值数据(未执行浮点与定点转换的剩余浮点数据)发送给运算单元；

运算单元，具体用于将部分输入神经元数据和部分权值数据执行运算(浮点运算)得到第二部分浮点正向运算结果，将第一部分浮点正向运算结果和第二部分浮点正向运算结果结合起来得到第i层正向输出结果。

可选的，转换单元13，具体用于将第i层输入神经元数据的部分转换成部分定点输入神经元数据、将第i层权值数据的部分转换成部分定点权值数据以及将第i层输入神经元梯度转换成部分定点输入神经元梯度；将部分定点输入神经元数据、部分定点输入神经元梯度以及部分定点权值数据发送给运算单元，将部分输入神经元数据(未执行浮点与定点转换的剩余浮点数据)、部分输入神经元梯度和部分权值数据(未执行浮点与定点转换的剩余浮点数据)发送给运算单元；

运算单元，具体用于将部分定点输入神经元梯度以及部分定点输入数据执行定点数据运算得到部分第i层权值梯度，将部分定点输入神经元梯度与部分定点权值数据执行定点数据运算得到部分第i层输出结果梯度，将部分第i层权值梯度以及部分第i层输出结果梯度发送给转换单元；

运算单元，具体用于将部分输入神经元梯度以及部分输入数据执行运算(浮点)得到第二部分第i层权值梯度，将部分输入神经元梯度与部分权值数据执行运算得到第二部分第i层输出结果梯度，将第一部分第i层权值梯度和第二部分第i层权值梯度结合起来得到第i层权值梯度，将第一部分第i层输出结果梯度和第二部分第i层输出结果梯度结合起来得到第i层输出结果梯度。

可选的，转换单元13，具体用于确定浮点数的point；

其中width为定点数的位宽值。

其中，maxabs为需要转换的浮点数据中的最大绝对值，即第i层输入神经元数据以及第i层权值数据的元素中的绝对值最大值。这样使得定点数能够表示的最大值大于maxabs 的最小point(点的位置)值。

对于已知的point和width,浮点数和定点数：

Round表示四舍五入。

其中，float＝int*2point

Int为定点数值，float为浮点数值，point为定点小数点位数。

例如，width＝8，maxabs(一组数的绝对值的最大值)＝2.9，则可以计算的这组数的point＝-4。如point＝-4时，对于float＝1.3，则可以推算出int＝21。可选的，上述获取第i层输入神经元梯度的方法具体可以包括：

第i层输入神经元梯度＝f′*第i+1层输出结果梯度；

其中f′为激活函数f的导函数。

可选的，参阅图3B，上述运算单元可以包括：一个主处理电路3101和多个从处理电路3102，其中，

主处理电路3101，用于对数据(包括输入神经元数据、权值数据、输入神经元梯度中的一种或任意组合，另外，该数据可以为定点数据或浮点数据)执行前序处理以及向所述多个从处理电路传输数据以及运算指令；

多个从处理电路3102，用于依据从所述主处理电路传输的数据(可以为定点数据也可以为浮点数据)以及运算指令并行执行中间运算得到多个中间结果，并将多个中间结果传输给所述主处理电路；

主处理电路3101，用于依据多个中间结果得到第i层正向输出结果、第i层输出结果梯度、第i层权值梯度，并依据第i层权值梯度对第i层权值进行更新。

可选的，上述激活函数f是非线性函数sigmoid，tanh，relu，softmax中的任一个或线性函数；

可选的，主处理电路包括第一存储单元、第一运算单元、第一数据依赖关系判定单元和第一存储单元，其中：

第一运算单元，完成主处理电路的各种运算功能；

可选的，第一运算单元包括：向量加法单元和激活运算单元；

可选的，主每个从处理电路包括第二运算单元、第二数据依赖关系判定单元、第二存储单元和第三存储单元，其中：

第二运算单元，用于执行算数逻辑运算；

可选的，主所述第二计算单元包括：向量乘单元和累加单元；

所述向量乘单元，用于执行点积运算中的向量乘运算；

所述累加单元，用于执行点积运算中的累加运算。

上述权值更新的过程可以包括：

主处理电路3101，具体用于将该第i层输入神经元数据分别发送给各个从处理电路，将第i层输入神经元梯度传送到各个从处理电路3102，每个从处理电路3102将第i层输入神经元梯度in_gradient中与该从处理电路相对应的标量数据以及第i层输入神经元数据相乘，得到每个从处理电路的第i层的原始权值更新梯度向量dw_original，在算出所有层的原始权值更新梯度向量之后，为了限制权值的梯度范围，主处理电路可以对原始权值更新梯度进行限制处理，具体的，主处理电路，具体用于计算所有层的原始权值更新梯度的平方和sumsq_diff,然后对sumsq_diff进行开方得到l2norm_diff，如果l2norm_diff大于clip_gradient(一个设定的正常数),主处理电路计算缩放因子scale_factor＝clip_gradient/l2norm_diff，将所有的原始权值更新梯度dw_original分别乘以缩放因子scale_factor，得到权值更新梯度dw’，主处理电路将更新梯度dw’发送给每个从处理电路；从处理电路，具体用于使用权值更新梯度dw’乘以权值得到第i层各个从处理电路的更新权值。

本申请提供的技术方案将运算单元设置成一主多从结构，对于正向运算的计算指令，该结构可以将依据正向运算的计算指令将数据进行拆分，这样通过多个从处理电路即能够对计算量较大的部分进行并行运算，从而提高运算速度，节省运算时间，进而降低功耗，对于反向运算，也可以将数据进行拆分，类似正向运算，也可以提高运算速度。

可选的，上述主处理电路以及从处理电路均可以包括：存储模块，该存储模块，用于存储主处理电路或从处理电路的数据。需要说明的是，主处理电路与从处理电路可以共享上述存储模块，即在主处理电路的存储模块中划分一个或多个区域为共享区域，该共享区域的存储空间可以由多个从处理电路共享使用(包括读取或写入数据)；从处理电路的存储模块中也可以划分一个或多个区域为共享区域，该共享区域的存储空间可以由主处理电路共享使用(包括读取或写入数据)。

此技术方案设置了存储模块的区域共享的方案，相对于存储模块固定的方案，互相连接的主处理电路与多个从处理电路之间的存储模块共享，能够避免因为存储区域不足导致计算无法进行的问题，另外，存储模块共享能够有效的降低主处理电路的存储区域的存储空间的设置，这样大大降低了主处理电路的成本。另外，本方案相对于从外部设备提取数据来说，减少了数据读入或写入的开销，对于本计算装置，如从外部设备读入或写入数据，数据需要经过控制器单元、转换单元等部件的转发，这样对于神经网络运算来说，数据需要经过多个部件，由此使得数据读写的开销和能耗都很高，而适当的在主处理电路以及从处理电路中设置一部分共享区域，这样在主处理电路或从处理电路的存储模块的空间不够时，无需将数据存储在外部设备，而是直接存储在运算单元内部即可，由此可大大降低开销。

可选的，参阅图4A，上述计算装置还可以包括：该存储单元10和直接内存访问单元50，存储单元10可以包括：寄存器210、缓存202中的一个或任意组合，具体的，所述缓存202，用于存储所述计算指令；所述寄存器201，用于存储所述输入神经元数据、权值数据、输入神经元梯度和标量；所述缓存202为高速暂存缓存。直接内存访问单元50用于从存储单元10读取或存储数据。

可选的，该控制器单元11包括：指令缓存单元110、指令处理单元111和存储队列单元113；

指令缓存单元110，用于存储所述人工神经网络运算关联的计算指令；

所述指令处理单元111，用于对所述计算指令解析得到多个运算指令；

存储队列单元113，用于存储指令队列，该指令队列包括：按该队列的前后顺序排列的待执行的多个运算指令或计算指令。

举例说明，在一个可选的技术方案中，主运算处理电路也可以包括一个控制器单元，该控制器单元可以包括主指令处理单元，具体用于将指令译码成微指令。当然在另一种可选方案中，从运算处理电路也可以包括另一个控制器单元，该另一个控制器单元包括从指令处理单元，具体用于接收并处理微指令。上述微指令可以为指令的下一级指令，该微指令可以通过对指令的拆分或解码后获得，能被进一步解码为各部件、各单元或各处理电路的控制信号。

在一种可选方案中，该计算指令的结构可以如下表所示。

操作码

寄存器或立即数

寄存器/立即数

...

上表中的省略号表示可以包括多个寄存器或立即数。

在另一种可选方案中，该计算指令可以包括：一个或多个操作域以及一个操作码。该计算指令可以包括神经网络运算指令。以神经网络运算指令为例，如下表所示，其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。

上述寄存器可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据，该数据具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，该数据为1维数据，即向量，如n＝2时，该数据为2维数据，即矩阵，如n＝3或3以上时，该数据为多维张量。

在另一种可选实施例中，参阅图3B，该运算单元12如图3B所示，可以包括一个主处理电路3101和多个从处理电路3102。在一个实施例里，如图4B所示，多个从处理电路102呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，主处理电路101连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，需要说明的是，如图4B所示的k个从处理电路仅包括第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，即该k个从处理电路为多个从处理电路中直接与主处理电路连接的从处理电路。

k个从处理电路，用于转发所述主处理电路以及多个从处理电路之间的数据以及指令。

可选的，上述转换单元可以设置在主处理电路内。

上述主处理电路还可以包括：

激活处理电路，用于执行主处理电路内数据的激活运算或激活求导运算；

加法处理电路，用于执行加法运算或累加运算。

所述主处理电路，用于确定所述输入神经元数据为广播数据、权值数据为分发数据，将分发数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述从处理电路；

所述多个从处理电路，用于对接收到的数据块依据该运算指令执行运算得到中间结果，并将中间结果传输给所述主处理电路；

所述主处理电路，用于接收第i层正向输出结果、第i层输出结果梯度、第i层权值梯度，并依据第i层权值梯度对第i层权值进行更新。

所述从处理电路包括：乘法处理电路；

所述乘法处理电路，用于对接收到的数据块执行乘积运算得到乘积结果；

转发处理电路(可选的)，用于转发接收到的数据块或乘积结果。

累加处理电路，所述累加处理电路，用于对该乘积结果执行累加运算得到该中间结果。

另一个实施例里，该运算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令。

下面通过神经网络运算指令来说明如图4所示的计算装置的具体计算方法。对于神经网络运算指令来说，其实际需要执行的公式可以为:s＝s(∑wx _i+b)，即将权值w乘以输入数据x _i，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果s。

在一种可选的实施方案中，如图4C所示，所述装置还可以包括：树型模块40，所述树型模块包括：一个根端口401和多个支端口404，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

上述树型模块具有收发功能，例如如图4C所示，该树型模块即为发送功能，如图4D所示，该树型模块40即为接收功能。

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据以及运算指令。

可选的，该树型模块为计算装置的可选择结构，其可以包括至少1层节点，该节点为具有转发功能的线结构，该节点本身可以不具有计算功能。如树型模块具有零层节点，即无需该树型模块。

可选的，该树型模块可以为n叉树结构，例如，如图4C所示的二叉树结构，当然也可以为三叉树结构，该n可以为大于等于2的整数。本申请具体实施方式并不限制上述n的具体取值，上述层数也可以为2，从处理电路可以连接除倒数第二层节点以外的其他层的节点。

可选的，上述运算单元内的主处理电路可以携带单独的缓存，具体的，可以包括：神经元缓存单元，该神经元缓存单元缓存该从处理电路的输入神经元向量数据和输出神经元值数据。该主处理电路还可以包括：权值缓存单元，用于缓存该从处理电路在计算过程中需要的权值数据。

在一种可选实施例中，运算单元12如图3C所示，可以包括分支处理电路3103；其具体的连接结构如图3C所示，其中，

主处理电路3101与一个或多个分支处理电路3103连接，分支处理电路3103与一个或多个从处理电路3102连接；

可选的，上述分支处理电路3103内可以设置存储模块，该存储模块可以划分一个或多个共享区域，主处理电路以及从处理电路，具体用于对该共享区域执行数据的写入或读取操作。在分支处理电路3103内设置该共享区域能够方便主处理电路以及从处理电路存储数据，并且数据存储的读取或写入的开销很小，这样能够节省从处理电路以及主处理电路的存储模块的容量，降低计算装置的成本。

在一种可选实施例中，以神经网络运算中的全连接运算为例，过程可以为： _y＝f(wx+b)，其中，x为输入神经元矩阵，w为权值矩阵，b为偏置标量，f为激活函数，具体可以为：sigmoid函数、tanh、relu、softmax函数中的任意一个。这里假设为二叉树结构，运算单元具有8个从处理电路，其实现的方法可以为：

控制器单元从存储单元内获取输入神经元矩阵x、权值矩阵w以及全连接运算指令，将输入神经元矩阵x、权值矩阵w以及全连接运算指令传输给主处理电路；

主处理电路确定该输入神经元矩阵x为广播数据，确定权值矩阵w为分发数据，将权值矩阵w拆分成8个子矩阵，然后将8个子矩阵通过树型模块分发给8个从处理电路，将输入神经元矩阵x广播给8个从处理电路；

从处理电路并行执行8个子矩阵与输入神经元矩阵x的乘法运算和累加运算，得到8个中间结果，将8个中间结果发送给主处理电路；

主处理电路，用于将8个中间结果排序得到wx的运算结果，将该运算结果执行偏置b的运算后执行激活操作得到最终结果y，将最终结果y发送至控制器单元，控制器单元将该最终结果y输出或存储至存储单元内。

上述将8个中间结果排列得到wx的运算结果的实现具体方式可以为，对于矩阵乘以矩阵，确定8个子矩阵对应的输入神经元矩阵x的部分元素，提取8个子矩阵中行数最小值、部分元素的列数最小值，行数最小值以及列数最小值即为中间结果在运算结果中的位置。

如图4所示的计算装置执行神经网络正向运算指令的方法具体可以为：

控制器单元从指令存储单元内提取神经网络正向运算指令、神经网络运算指令对应的操作域以及至少一个操作码，控制器单元将该操作域传输至数据访问单元，将该至少一个操作码发送至运算单元。

控制器单元从存储单元内提取该操作域对应的权值w和偏置b(当b为0时，不需要提取偏置b)，将权值w和偏置b传输至运算单元的主处理电路，控制器单元从存储单元内提取输入数据Xi，将该输入数据Xi发送至主处理电路。

主处理电路依据该至少一个操作码确定该操作码为乘法运算，将输入数据Xi转换为定点输入数据Xi，将权值数据转换为定点权值数据，确定定点输入数据Xi为广播数据，确定定点权值数据为分发数据，将定点权值w拆分成n个定点数据块；

控制器单元的指令处理单元依据该至少一个操作码确定乘法指令、偏置指令和累加指令，将乘法指令、偏置指令和累加指令发送至主处理电路，主处理电路将该乘法指令、输入数据Xi以广播的方式发送给多个从处理电路，将该n个定点数据块分发给该多个从处理电路(例如具有n个从处理电路，那么每个从处理电路发送一个数据块)；多个从处理电路，用于依据该乘法指令将该定点输入数据Xi与接收到的定点数据块执行定点乘法运算得到定点中间结果，将该定点中间结果发送至主处理电路，该主处理电路依据该累加指令将多个从处理电路发送的中间结果执行累加运算得到累加结果，将该累加结果转换成浮点累加结果，依据该偏置指令将该浮点累加结果加上偏置b得到最终结果，将该最终结果发送至该控制器单元。

本申请提供的技术方案通过一个指令即神经网络运算指令实现了神经网络的乘法运算以及偏置运算，无需存储或提取神经网络计算的中间结果，减少了中间数据的存储以及提取操作，所以其具有减少对应的操作步骤，提高神经网络的计算效果的优点。

本申请还揭露了一个神经网络装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的神经网络训练计算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头、显示器、鼠标、键盘、网卡、wifi接口和服务器。当包含一个以上计算装置时，这些计算装置之间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算。此时，这些计算装置可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，这些计算装置的互联方式可以是任意互联拓扑。

该神经网络装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

本申请还提供了一个组合处理装置，其包括上述的神经网络装置，通用互联接口，和其他处理装置。神经网络装置与其他处理装置进行交互，共同完成用户指定的操作。图4E为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。本申请不对其他处理装置所包括的处理器数量做限制。其他处理装置作为神经网络装置与外部数据和控制的接口，包括数据搬运，完成对本神经网络装置的开启、停止等基本控制；其他处理装置也可以和神经网络装置协作共同完成运算任务。

通用互联接口，用于传输所述神经网络装置与其他处理装置之间的数据和控制指令。该神经网络装置从其他处理装置中获取所需的输入数据，写入神经网络装置片上的存储装置；可以从其他处理装置中获取控制指令，写入神经网络装置片上的控制缓存；也可以读取神经网络装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图4所示，还可以包括存储装置，存储装置分别与所述神经网络装置和所述其他处理装置连接。存储装置用于保存在所述神经网络装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本机器学习运算装置或其他处理装置的内部存储中无法全部保存的情况。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述神经网络运算装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图5，图5提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

所述存储器件390与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于控制每个所述存储单元的数据传输与数据存储。

所述接口装置与所述芯片封装结构内的芯片电连接。所述接口装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。可选的，当采用PCIE 3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本申请并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种计算方法，其特征在于，所述计算方法应用于计算系统，所述计算系统包括：控制单元、计算群和总存储单元，所述控制单元包括：第一存储器、译码逻辑和控制器，所述计算群包括：群控制器和多个计算单元；所述总存储单元，用于存储数据；所述计算方法包括如下步骤：

所述控制器接收第一级指令序列，所述译码逻辑将该第一级指令序列拆分成多个第二级指令序列，

控制器为所述多个第二级指令序列开辟M个线程，控制器为所述M个线程中每个线程分配独立的寄存器以及配置独立寻址功能；所述M取值范围为大于等于1的整数；

群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果。
根据权利要求1所述的方法，其特征在于，所述群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果：

如所述计算类型代表相同类型的计算操作，群控制器调用相同类型的单指令多数据流SIMD结合单指令多线程SIMT的组合计算方式，并采用所述M个线程执行组合计算方式得到最终结果，具体包括：

译码逻辑将M个线程拆分成N个线程组分配给多个计算单元，群控制器将所述多个第二指令序列转换成多个第二控制信号并发送给多个计算单元，多个计算单元调用分配的线程组以及第二控制信号依据所述独立寻址功能提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将多个中间结果拼接起来得到最终结果。
根据权利要求1所述的方法，其特征在于，所述群控制器获取所述多个第二级指令序列的多个计算类型，依据所述多个计算类型获取计算类型对应的融合计算方式，多个计算单元采用该融合计算方式调用所述M个线程对所述多个第二指令序列执行计算得到最终结果：

如所述计算类型代表不同类型的计算操作，群控制器调用同步多线程SMT以及所述M个线程执行计算得到最终结果具体包括：

译码逻辑将M个线程拆分成N个线程组，将所述多个第二指令序列转换成多个第二控制信号，群控制器获取多个计算单元支持的计算类型，控制器将N个线程组以及多个第二控制信号，分配给支持该线程组以及第二控制信号的计算类型对应的计算单元，多个计算单元调用分配的线程组以及第二控制信号，多个计算单元提取对应的数据，多个计算单元将该数据执行运算得到多个中间结果，将所有中间结果拼接起来得到最终结果。
根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

如多个线程组中的线程组A阻塞，将线程组A加入等待队列，如线程组A的数据已被提取，将线程组A加入到准备队列，所述准备队列为计算资源空闲时被调度执行的线程组所在的队列。
根据权利要求1所述的方法，其特征在于，

所述第一级指令序列包括：超长指令，所述第二级指令序列包括：指令序列。
根据权利要求1所述的方法，其特征在于，所述计算系统还包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述群控制器，所述树型模块的多个支端口分别连接多个计算单元中的一个计算单元；

所述树型模块转发所述群控制器与所述多个计算单元之间的数据块、线程组或指令序列。
根据权利要求6所述的方法，其特征在于，所述树型模块为n叉树，所述n为大于等于2的整数。
根据权利要求1所述的方法，其特征在于，所述计算系统还包括：分支处理电路，

所述分支处理电路连接在所述群控制器与所述多个计算单元之间；

所述分支处理电路转发所述群控制器与所述多个计算单元之间的数据、线程组或指令序列。
一种计算系统，其特征在于，所述计算系统包括：控制单元、计算群和总存储单元，所述控制单元包括：第一存储器、译码逻辑和控制器，所述计算群包括：群控制器和多个计算单元；所述总存储单元，用于存储数据；

控制器，用于接收第一级指令序列以及用于控制所述第一存储器和所述译码逻辑；

所述译码逻辑，用于将该第一级指令序列拆分成多个第二级指令序列；

所述控制器，还用于为所述多个第二级指令序列开辟M个线程；为所述M个线程中每个线程分配独立的寄存器以及配置独立寻址功能；所述M取值范围为大于等于1的整数，将所述多个第二级指令序列转换成多个控制信号发送给所述群控制器；

所述群控制器，用于接收所述多个控制信号，获取所述多个控制信号的多个计算类型，将M个线程划分成N个线程组，依据该多个计算类型为多个计算单元分配N个线程组以及多个控制信号；

多个计算单元，用于通过分配的线程组以及控制信号从所述总存储单元提取数据执行运算得到中间结果，

所述群控制器，用于拼接所有中间结果得到最终计算结果。
根据权利要求9所述的计算系统，其特征在于，

所述多个计算单元包括：加法计算器、乘法计算器、激活计算器或专用计算器。
根据权利要求9所述的计算系统，其特征在于，

所述专用计算器包括：人脸识别计算器、图形计算器、指纹计算器或神经网络计算器。
根据权利要求11所述的计算系统，其特征在于，

所述群控制器，具体用于如多个控制信号的计算类型为图形计算、指纹识别、人脸识别或神经网络运算时，将该多个控制信号分别分配给人脸识别计算器、图形计算器、指纹计算器或神经网络计算器。
根据权利要求9所述的计算系统，其特征在于，

所述第一级指令序列包括：超长指令，所述第二级指令序列包括：指令序列。
根据权利要求9所述的计算系统，其特征在于，所述计算系统包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述群控制器，所述树型模块的多个支端口分别连接多个计算单元中的一个计算单元；

所述树型模块，用于转发所述群控制器与所述多个计算单元之间的数据块、线程组或指令序列。
根据权利要求14所述的计算系统，其特征在于，所述树型模块为n叉树，所述n为大于等于2的整数。
根据权利要求9所述的计算系统，其特征在于，所述计算系统包括：分支处理电路，

所述分支处理电路连接在所述群控制器与所述多个计算单元之间；

所述分支处理电路，用于转发所述群控制器与所述多个计算单元之间的数据、线程组或指令序列。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可通过操作使计算机执行如权利要求1-8任一项所述的方法。