WO2020125092A1

WO2020125092A1 - 计算装置及板卡

Info

Publication number: WO2020125092A1
Application number: PCT/CN2019/105932
Authority: WO
Inventors: 孟小甫; 陈翊辉; 蓝思明; 齐豪
Original assignee: 中科寒武纪科技股份有限公司
Priority date: 2018-12-20
Filing date: 2019-09-16
Publication date: 2020-06-25

Abstract

本申请提供一种计算装置及板卡，所述计算装置用于执行LSTM运算，所述板卡包括：存储器件、接口装置和控制器件以及神经网络芯片，所述神经网络芯片包括计算装置，所述存储器件，用于存储数据；所述接口装置，用于实现所述芯片与外部设备之间的数据传输；所述控制器件，用于对所述芯片的状态进行监控。本申请提供的计算装置具有功耗低的优点。

Description

计算装置及板卡

技术领域

本申请涉及神经网络领域，尤其涉及一种计算装置及板卡。

背景技术

长短时间记忆网络(LSTM)是一种时间递归神经网络(RNN),由于网络本身独特的结构设计，LSTM适合于处理和预测时间序列中间隔和延时非常长的重要事件。相比于传统的递归神经网络，LSTM网络表现出更好的性能，它非常适合从经验中学习，以便在重要事件之间具有未知大小时间之后时，对时间序列进行分类、处理和预测。目前，在语音识别、视频描述、机器翻译和音乐自动合成等诸多领域，LSTM网络被广泛应用。

现有的LSTM网络基于通用处理器实现，现有的处理器执行LSTM运算的能耗高。

发明内容

本申请提供一种计算方法及相关产品，可提升LSTM的处理速度，节省功耗。

第一方面，提供一种所述计算装置用于执行LSTM运算，所述LSTM包括：输入门、忘记门、输出门和更新状态门，所述计算装置包括：运算单元、控制器单元、存储单元；

所述存储单元，用于存储LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；

所述控制器单元，用于获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

所述运算单元，用于依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。

可选的，所述运算单元包括：主处理电路以及从处理电路；

所述控制器单元，具体用于根据LSTM算子构建多个拆分算子、多个排序算子、乘法算子、激活算子以及加法算子；

所述主处理电路，具体用于依据排序算子将输入数据Xt、权值数据以及输入状态值进行重排序，所述权值数据包括：各个门的权值数据，然后依据拆分算法将各个门的权值数据以及乘法算子广播至从处理电路，将输入数据以及输入状态值拆分成多个输入数据块以及多个输入状态数据块，将多个输入数据块以及多个输入状态数据块分发给所述从处理电路；

所述从处理电路，用于依据乘法算子将所述多个输入数据块与各个门的权值数据执行乘法运算得到各个门的中间结果，依据乘法算子将所述多个输入状态数据块与各个门的权值数据执行乘法运算得到各个门的状态中间结果，将各个门的中间结果以及各个门的状态中间结果发送至主处理电路；

所述主处理电路，用于依据排序算子将每个门的中间结果排序得到各个门的排序结果，依据加法算子将各个门的排序结果执行偏置运算得到各个门的运算结果，依据排序算子将每个状态中间结果排序得到各个门的状态排序结果，依据加法算子将各个门的状态排序结果执行偏置运算得到各个门的状态运算结果；依据加法算子将各个门的运算结果以及各个门的状态运算结果对应相加后进行后续处理得到各个门的输出结果。

可选的，所述主处理电路，具体用于依据乘法算子将输入状态值Ct-1与忘记门的输出结果ft相乘得到第一结果，依据乘法算子将更新状态门的输出结果gt与输入门的输出结果it相乘得到第二结果，将第一结果与第二结果相加得到输出状态值Ct。

可选的，所述主处理电路，具体用于依据激活算子对输出状态值Ct执行激活运算得到激活结果，将输出门的输出结果Ot与激活结果相乘得到输出结果ht。

可选的，所述后续处理具体包括：

如为忘记门、输入门和输出门，所述后续处理为sigmoid运算；

如为更新状态门，所述后续处理为运算激活tanh函数。

可选的，所述主处理电路，还用于将输出数据ht作为下一时刻的输入结果，将输出状态值Ct作为下一时刻的输入状态值。

可选的，如所述从处理电路的数量为多个，所述运算单元包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据以及算子。

可选的，如所述从处理电路的数量为多个，所述运算单元还包括一个或多个分支处理电路，每个分支处理电路连接至少一个从处理电路，

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的数据以及算子。

可选的，如所述从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个基础电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；

所述K个从处理电路，用于转发所述主处理电路以及多个从处理电路之间的数据以及算子。

可选的，所述主处理电路包括：转换处理电路；

所述转换处理电路，用于对数据执行转换处理，具体为：将主处理电路接收的数据执行第一数据结构与第二数据结构之间的互换。

可选的，所述从处理电路包括：乘法处理电路和累加处理电路；

所述乘法处理电路，用于对接收到的输入数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的乘积结果；接收到的输入状态数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的另一乘积结果；

所述累加处理电路，用于对该各个门的乘积结果执行累加运算得到各个门的中间结果，将该各个门的另一乘积结果执行累加运算得到各个门的状态中间结果。

可选的，所述树型模块为n叉树结构，所述n为大于等于2的整数。

第二方面，本申请实施例提供了一种LSTM运算装置，所述LSTM运算装置包括一个或多个第一方面提供的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的LSTM运算，将执行结果通过I/O接口传递给其他处理装置；

当所述LSTM装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的LSTM的运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

第三方面，提供一种组合处理装置，所述组合处理装置包括第二方面的LSTM运算装置，通用互联接口和其他处理装置；

所述LSTM运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。

第四方面，提供一种神经网络芯片，神经网络芯片包括第一方面提供的计算装置或第二方面提供的LSTM运算装置或第三方面提供的组合处理装置。

第五方面，提供一种电子设备，所述电子设备包括如第四方面提供的芯片。

第六方面，提供一种板卡，所述板卡包括：存储器件、接口装置和控制器件以及第四方面提供的神经网络芯片；

其中，所述神经网络芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述芯片与外部设备之间的数据传输；

所述控制器件，用于对所述芯片的状态进行监控。

第七方面，本申请实施例还提供一种LSTM运算方法，所述LSTM包括：所述LSTM包括：输入门、忘记门、输出门和更新状态门，所述计算装置包括：运算单元、控制器单元、存储单元；所述存储单元存储：LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；

所述方法包括如下步骤：

所述控制器单元获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

所述运算单元依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

第八方面，提供一种门控循环单元GRU的运算方法，所述GRU包括：输入层、隐层、重置门、更新门、当前记忆门和输出层，所述运算方法应用于计算装置，所述运算方法包括：

所述计算装置获取输入层t时刻输入的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1和权值；

所述计算装置从预先封装的函数库中调用预先构造的GRU算子；

所述计算装置将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t。

在一种可选的方案中，所述将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t具体包括：

将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与重置门对应的算子中，得到重置门的输出结果r _t；

将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与更新门对应的算子中，得到更新门的输出结果z _t；

将输入数据x _t、输出数据h _t-1、权值以及重置门的的输出结果r _t输入到所述GRU算子中与当前记忆门对应的算子中，得到当前记忆门的输出结果n _t；

将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1输入到所述GRU算子中与输出层对应的算子中，得到输出结果h _t。

在一种可选的方案中，在从预先封装的函数库中调用预先构造的GRU算子之前，所述方法还包括：

所述计算装置获取偏置。

在一种可选的方案中，所述将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与重置门对应的算子中，得到重置门的输出结果r _t具体包括：

获取所述GRU算子中与重置门对应的第一乘法算子、第二乘法算子、第一加法算子以及第一激活算子，所述第一激活算子的激活类型为sigmoid；

将输入数据x _t、权值以及偏置输入到所述第一乘法算子中，计算(W _ir*x _t+b _ir)，得到第一运算结果，W _ir和b _ir为权值和偏置中分别与重置门对应的第一权值和第一偏置；

将输出数据h _t-1、权值以及偏置输入到所述第二乘法算子中，计算(W _hr*h _t-1+b _hr)，得到第二运算结果，W _hr和b _hr为权值和偏置中分别与重置门对应的第二权值和第二偏置；

将所述第一运算结果和所述第二运算结果输入到所述第一加法算子中求和，得到第一求和结果；

将所述第一求和结果输入到所述第一激活算子中激活，得到重置门的输出结果r _t。

在一种可选的方案中，所述将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与更新门对应的算子中，得到更新门的输出结果z _t具体包括：

获取所述GRU算子中与更新门对应的第三乘法算子、第四乘法算子、第二加法算子以及第二激活算子，所述第二激活算子的激活类型为sigmoid；

将输入数据x _t、权值以及偏置输入到所述第三乘法算子中，计算(W _iz*x _t+b _iz)，得到第三运算结果，其中，W _ir和b _ir为权值和偏置中分别与更新门对应的第一权值和第一偏置；

将输出数据h _t-1、权值以及偏置输入到所述第四乘法算子中，计算(W _hz*h _t-1+b _hz)，得到第四运算结果，其中，W _hz和b _hz为权值和偏置中分别与更新门对应的第二权值和第二偏置；

将所述第三运算结果和所述第四运算结果输入到所述第二加法算子中，得到第二求和结果；

将所述第二求和结果输入到所述第二激活算子中激活，得到更新门的输出结果z _t。

在一种可选的方案中，所述将输入数据x _t、输出数据h _t-1、权值以及重置门的的输出结果r _t输入到所述GRU算子中与当前记忆门对应的算子中，得到当前记忆门的输出结果n _t具体包括：

获取所述GRU算子中与当前记忆门对应的第五乘法算子、第六乘法算子、第一向量乘法算子、第三加法算子、第三激活算子，所述第三激活算子的激活类型为tanh；

将输入数据x _t、权值以及偏置输入到所述第五乘法算子，计算(W _in*x _t+b _in)，得到第五运算结果，其中，W _in和b _in为权值和偏置中分别与当前记忆门对应的第一权值和第一偏置；

将输出数据h _t-1、权值以及偏置输入到所述第六乘法算子，计算和(W _hn*h _t-1+b _hn)，得到第六运算结果，其中，W _hn和b _hn为权值和偏置中分别与当前记忆门对应的第二权值和第二偏置；

将所述第六运算结果以及重置门的输出结果r _t输入到所述第一向量乘法算子，对重置门的输出数据r _t与所述第六运算结果进行点乘，得到第一点乘结果；

将所述第一点乘结果与所述第五运算结果输入到所述第三加法算子中求和，得到第三求和结果；

将所述第三求和结果输入到所述第三激活算子激活，得到当前记忆门的输出结果n _t。

在一种可选的方案中，所述将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1输入到所述GRU算子中与输出层对应的算子中，得到输出结果h _t具体包括：

获取所述GRU算子中与输出层对应的第二向量乘法算子、第一减法算子、第三向量乘法算子、第四加法算子；

将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到所述第二向量乘法算子，进行点乘运算，得到第二点乘结果；

将所述当前记忆门的输出结果n _t以及所述第二点乘结果输入到所述第一减法算子，执行减法运算，得到第一差值结果；

将更新门的输出结果z _t和输出数据h _t-1输入到所述第三向量乘法算子，进行点乘运算，得到第三点乘结果；

将所述第一差值结果和所述第三点乘结果输入到所述第四加法算子求和，得到输出结果h _t。

在一种可选的方案中，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：主处理电路和至少一个从处理电路；所述方法具体包括：

所述控制器单元获取输入层在t时刻的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1、权值；

所述控制器单元从预先封装的函数库中调用预先构造的GRU算子；

所述控制器单元将输入数据x _t、输出数据h _t-1、权值以及GRU算子发送给所述主处理电路；

所述主处理电路将输入数据x _t拆分为多个输入数据块，将多个输入数据块、输出数据h _t-1分发给从处理电路，将权值以及GRU算子中的部分算子广播给从处理电路；

从处理电路将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中与重置门对应的算子中，得到重置门的中间结果，将该中间结果发送给主处理电路，主处理电路将该中间结果输入到GRU算子中的另一部分算子中与重置门对应的算子中，得到重置门的输出结果r _t；

从处理电路将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中重置门对应的算子中，得到重置门的中间结果，将该中间结果发送给主处理电路，所述主处理电路将该中间结果输入到另一部分算子中与重置门对应的算子中，得到重置门的输出结果r _t

所述主处理电路将重置门的输出结果r _t分发给从处理电路；

从处理电路将接收到的输入数据块、输出数据h _t-1、权值、输出结果r _t输入到部分算子中与当前记忆门对应的算子中，得到当前记忆门的中间结果，将当前记忆门的中间结果发送给主处理电路，所述主处理电路将当前记忆门的中间结果输入到另一部分算子中与当前记忆门对应的算子中，得到当前记忆门的输出结果n _t；

所述主处理电路将更新门的输出结果z _t、当前记忆门的输出结果n _t、输出数据h _t-1输入到另一部分算子与输出层对应的算子中，得到输出结果h _t。

在一种可选的方案中，如所述控制器单元获取输入层在t时刻的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1、权值时，所述方法还包括：所述控制器单元获取偏置，将偏置发送给所述主处理电路；所述主处理电路将偏置广播给从处理电路。

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到重置门的输出中间结果具体包括：

所述乘法处理电路将接收到的输入数据块以及权值和偏置输入到第一乘法算子中，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第二乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

所述累加处理电路将所述乘积结果进行累加运算，得到重置门的输入中间结果(W _ir*x _t+b _ir)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hr*h _t-1+b _hr)；

其中，第一乘法算子、第二乘法算子为部分算子中与重置门对应的算子，W _ir、W _hr、b _ir、和b _hr为权值和偏置中分别与重置门对应的第一权值、第二权值、第一偏置和第二偏置。

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；所述得到重置门的输出结果r _t具体包括：

所述加法处理电路将重置门的输入中间结果和输出中间结果输入到第一加法算子中，对输入中间结果和输出中间结果执行求和运算，得到第一求和结果；

所述激活处理电路将第一求和结果输入到第一激活算子中，对第一求和结果执行sigmoid激活运算，得到重置门的输出结果r _t；

第一加法算子、第一激活算子为另一部分算子中与重置门对应的算子。

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到更新门的输出中间结果具体包括：

所述乘法处理电路将接收到的输入数据块以及权值和偏置输入到第三乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第四乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另元素值执行求和运算，得到另一乘积结果；

所述累加处理电路将该乘积结果进行累加运算，得到更新门的输入中间结果(W _iz*x _t+b _iz)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hz*h _t-1+b _hz)；

其中，第三乘法算子、第四乘法算子为部分算子中与更新门对应的算子，W _ir、W _hz、b _ir和b _hz为权值和偏置中分别与更新门对应的第一权值、第二权值、第一偏置和第二偏置。

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；所述得到更新门的输出结果z _t具体包括：

所述加法处理电路将更新门的输入中间结果和输出中间输入到第二加法算子中，对该输入中间结果和输出中间执行求和运算，得到第二求和结果；

所述激活处理电路将第二求和结果输入到第二激活算子中，对第二求和结果执行sigmoid激活运算，得到更新门的输出结果z _t；

第二加法算子、第二激活算子为另一部分算子中与更新门对应的算子。

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到当前记忆门的输出中间结果具体包括：

所述乘法处理电路将接收到的输入数据块、权值和偏置输入到第五乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1、权值和偏置输入到第六乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另元素值执行求和运算，得到另一乘积结果；

所述累加处理电路将该乘积结果进行累加运算，得到当前记忆门的输入中间结果(W _in*x _t+b _in)，将另一乘积结果进行累加运算，得到当前记忆门的输出中间结果(W _nz*h _t-1+b _nz)；

所述乘法处理电路将重置门的输出结果r _t输入到第一向量乘法算子中，对重置门的输出结果r _t与当前记忆门的输出中间结果执行点乘运算，得到第一点乘结果；

其中，第五乘法算子、第六乘法算子、第一向量乘法算子为部分算子中与当前记忆门对应的算子，W _in、W _hn、b _in和b _hn为权值和偏置中分别与当前记忆门对应的第一权值、第二权值、第一偏置和第二偏置。

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；所述得到当前记忆门的输出结果n _t具体包括：

所述加法处理电路将当前记忆门的输入中间结果和第一点乘结果输入到第三加法算子中，对当前记忆门的输入中间结果和第一点乘结果执行求和运算，得到第三求和结果；

所述激活处理电路将第三求和结果输入到第三激活算子中，对第三求和结果执行tanh激活运算，得到当前记忆门的输出结果n _t；

第三加法算子、第三激活算子为另一部分算子中与当前记忆门对应的算子。

在一种可选的方案中，所述主处理电路包括加法处理电路，所述从处理电路包括乘法处理电路；所述确定输出层的输出结果具体包括：

所述主处理电路将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1发送给从处理电路；

所述乘法处理电路将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到第二向量乘法算子中，对更新门的输出结果z _t以及当前记忆门的输出结果n _t执行点乘运算，得到第二点乘结果，将接收到的更新门的输出结果z _t以及输出数据h _t-1输入到第三向量乘法算子中，对更新门的输出结果z _t以及输出数据h _t-1执行点乘运算，得到第三点乘结果，将第二点乘结果和第三点乘结果发送给主处理电路；

所述加法处理电路将当前记忆门的输出结果n _t以及第二点乘结果输入到第一减法算子中，对当前记忆门的输出结果n _t以及第二点乘结果执行减法运算，得到第一差值结果，将第三点乘结果以及第一差值结果输入到第四加法算子，对第三点乘结果以及第一差值结果执行求和运算，得到输出结果h _t；

其中，第二向量乘法算子、第三向量乘法算子为部分算子中与输出层对应的算子，第一减法算子、第四加法算子为另一部分算子中与输出层对应的算子。

在一种可选的方案中，所述主处理电路包括转换处理电路；

所述转换处理电路将输出结果h _t输入到另一部分算子中的整形算子和拆分算子中，将输出结果h _t的数据格式调整为预设格式，得到最终输出结果。

第九方面，提供一种计算装置，所述计算装置用于执行GRU的运算，所述GRU包括：输入层、隐层、重置门、更新门、当前记忆门和输出层；

所述计算装置，用于获取输入层t时刻输入的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1和权值；

所述计算装置，用于从预先封装的函数库中调用预先构造的GRU算子；

所述计算装置，用于将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t。

在一种可选的方案中，所述计算装置，在将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t时，具体用于：

在一种可选的方案中，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和至少一个从处理电路；

所述控制器单元，用于获取输入层在t时刻的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1、权值；

所述控制器单元，用于从预先封装的函数库中调用预先构造的GRU算子；

所述控制器单元，用于将输入数据x _t、输出数据h _t-1、权值以及GRU算子发送给所述主处理电路；

所述主处理电路，用于将输入数据x _t拆分为多个输入数据块、将输出数据h _t-1拆分为多个输出数据h _t-1，将多个输入数据块、输出数据h _t-1分发给从处理电路，将权值以及GRU算子中的部分算子广播给从处理电路；

从处理电路，用于将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中与重置门对应的算子中，得到重置门对应的中间结果，将该中间结果发送给主处理电路，主处理电路将该中间结果输入到GRU算子中的另一部分算子中与重置门对应的算子中，得到重置门的输出结果r _t；

从处理电路，用于将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中与更新门对应的算子中，得到更新门的中间结果，将该中间结果发送给主处理电路，所述主处理电路将该中间结果输入到另一部分算子中与更新门对应的算子中，得到更新门的输出结果z _t

所述主处理电路，用于将重置门的输出结果r _t分发给从处理电路；

所述主处理电路，用于将更新门的输出结果z _t、当前记忆门的输出结果n _t、输出数据h _t-1输入到另一部分算子与输出层对应的算子中，得到输出结果h _t。

在一种可选的方案中，所述控制器单元，如获取输入层在t时刻的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1、权值时，所述控制器单元，还用于获取偏置，将偏置发送给所述主处理电路；所述主处理电路，还用于将偏置广播给从处理电路。

在一种可选的方案中，如从处理电路的数量为多个，所述运算单元包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果。

在一种可选的方案中，如从处理电路的数量为多个，所述运算单元还包括一个或多个分支处理电路，每个分支处理电路连接至少一个从处理电路；

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果。

在一种可选的方案中，如从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个基础电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；

所述K个从处理电路，用于在所述主处理电路以及多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果的转发。

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；如得到重置门的输出中间结果，

所述乘法处理电路，用于将接收到的输入数据块以及权值和偏置输入到第一乘法算子中，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1、权值和偏置输入到第二乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

所述累加处理电路，用于将所述乘积结果进行累加运算，得到重置门的输入中间结果(W _ir*x _t+b _ir)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hr*h _t-1+b _hr)；

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；在得到重置门的输出结果r _t时，

所述加法处理电路，用于将重置门的输入中间结果和输出中间结果输入到第一加法算子中，对输入中间结果和输出中间结果执行求和运算，得到第一求和结果；

所述激活处理电路，用于将第一求和结果输入到第一激活算子中，对第一求和结果执行sigmoid激活运算，得到重置门的输出结果r _t；

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；在得到更新门的输出中间结果时，

所述乘法处理电路，用于将接收到的输入数据块以及权值和偏置输入到第三乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第四乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

所述累加处理电路，用于将该乘积结果进行累加运算，得到更新门的输入中间结果(W _iz*x _t+b _iz)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hz*h _t-1+b _hz)；

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；在得到更新门的输出结果z _t时，

所述加法处理电路，用于将更新门的输入中间结果和输出中间结果输入到第二加法算子中，对该输入中间结果和输出中间结果执行求和运算，得到第二求和结果；

所述激活处理电路，用于将第二求和结果输入到第二激活算子中，对第二求和结果执行sigmoid激活运算，得到更新门的输出结果z _t；

在一种可选的方案中，所述从处理电路包括：乘法处理电路和累加处理电路；在得到当前记忆门的输出中间结果时，

所述乘法处理电路，用于将接收到的输入数据块、权值和偏置输入到第五乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第六乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

所述累加处理电路，用于将该乘积结果进行累加运算，得到当前记忆门的输入中间结果(W _in*x _t+b _in)，将另一乘积结果进行累加运算，得到当前记忆门的输出中间结果(W _nz*h _t-1+b _nz)；

所述乘法处理电路，用于将重置门的输出结果r _t输入到第一向量乘法算子中，对重置门的输出结果r _t与当前记忆门的输出中间结果执行点乘运算，得到第一点乘结果；

在一种可选的方案中，所述主处理电路包括激活处理电路和加法处理电路；在得到当前记忆门的输出结果n _t时，

所述加法处理电路，用于将当前记忆门的输入中间结果和第一点乘结果输入到第三加法算子中，对当前记忆门的输入中间结果和点乘结果执行求和运算，得到第三求和结果；

所述激活处理电路，用于将第三求和结果输入到第三激活算子中，对第三求和结果执行tanh激活运算，得到当前记忆门的输出结果n _t；

在一种可选的方案中，所述主处理电路包括加法处理电路，所述从处理电路包括乘法处理电路；在得到输出层的输出结果h _t时，

所述主处理电路，用于将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1发送给从处理电路；

所述乘法处理电路，用于将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到第二向量乘法算子，对更新门的输出结果z _t以及当前记忆门的输出结果n _t执行点乘，得到第二点乘结果，将接收到的更新门的输出结果z _t以及输出数据h _t-1输入到第三向量乘法算子，对更新门的输出结果z _t以及输出数据h _t-1执行点乘运算，得到第三点乘结果，将第二点乘结果和第三点乘结果发送给主处理电路；

所述加法处理电路，用于将当前记忆门的输出结果n _t以及第二点乘结果输入到第一减法算子中，对当前记忆门的输出结果n _t以及点乘结果执行减法运算，得到第一差值结果，将第三点乘结果以及第一差值结果输入到第四加法算子，对第三点乘结果以及第一差值结果执行求和，得到输出结果ht；

在一种可选的方案中，所述主处理电路包括转换处理电路；

所述转换处理电路，用于将输出结果h _t输入到另一部分算子中的整形算子和拆分算子，将输出结果h _t的数据格式调整为预设格式，得到最终输出结果。

第十方面，提供一种神经网络芯片，其特征在于，所述神经网络芯片包括第九方面提供的计算装置。

第十一方面，提供一种电子设备，所述电子设备包括第十方面提供的芯片。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-1为一种LSTM的结构示意图

图1-2是本申请实施例提供的一种计算装置的结构示意图。

图1-2a是本申请实施例提供的一种运算单元的结构示意图。

图1-3是本申请提供的另一种计算装置的结构示意图。

图1-3a是本申请提供的主处理电路的结构示意图。

图1-4a是本申请提供的一种树型模块发送端的结构示意图。

图1-4b是本申请提供的一种树型模块接收端的结构示意图。

图1-4c是本申请提供的二叉树结构示意图。

图1-5是本申请一个实施例提供的计算装置的结构图。

图1-6是本申请一个实施例提供的LSTM运算方法的流程示意图。

图1-7是本申请实施例提供的一种组合处理装置的结构图。

图1-8是本申请实施例提供的另一种组合处理装置的结构图。

图1-9是本申请实施例提供的一种板卡的结构示意图。

图2-1为一种GRU的结构示意图

图2-2是本申请实施例提供的一种计算装置的结构示意图。

图2-2a是本申请实施例提供的一种运算单元的结构示意图。

图2-3是本申请提供的另一种计算装置的结构示意图。

图2-3a是本申请提供的主处理电路的结构示意图。

图2-3b是本申请提供的从处理电路的结构示意图。

图2-4a是本申请提供的一种树型模块发送端的结构示意图。

图2-4b是本申请提供的一种树型模块接收端的结构示意图。

图2-4c是本申请提供的二叉树结构示意图。

图2-5是本申请一个实施例提供的计算装置的结构图。

图2-6是本申请一个实施例提供的GRU的运算方法的流程示意图。

图2-7是本申请实施例提供的一种组合处理装置的结构图。

图2-8是本申请实施例提供的另一种组合处理装置的结构图。

图2-9是本申请实施例提供的一种板卡的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1-1，图1-1为一种LSTM的示意图，如图1-1所示，该LSTM包括:输入门、忘记门、更新状态单元和输出门，其对应的计算公式如下：

f _t＝σ(W _f[h _t-1,x _t]+b _f

i _t＝σ(W _i[h _t-1,x _t]+b _i

g _t＝tanh(W _g[h _t-1,x _t]+b _g

O _t＝σ(W _o[h _t-1,x _t]+b _o

h _t＝O _t⊙tanh(Ct)

C _t＝C _t-1⊙f _t+g _t⊙i _t

其中，xt为第t时刻的输入数据，ht-1表示t-1时刻的输出数据，Wf、Wi、Wg和Wo分别表示遗忘门、输入门、更新状态单元和输出门所对应的权值向量，bf、bi、bc和bo分别表示忘记门、输入门、更新状态单元和输出门所对应偏置；ft表示忘记门的输出，与t-1时刻的状态单元进行点乘来有选择的

遗忘过去的状态单元值；it表示输入门的输出，与t时刻的得到的候选状态值点乘来有选择地将t时刻的候选状态值加入到更新状态单元中；gt表示t时刻计算得到的候选状态值；ct表示通过将t-1时刻的状态值有选择的遗忘和将t时刻的状态值有选择的加入得到的新的状态值，ct将在计算最终输出时刻被使用并传输到下一时刻；Ot表示t时刻更新状态单元中需要作为结果部分输出的选择条件；ht表示t时刻的输出，同时它还将被传输到下一时刻(即t+1时刻)；⊙为向量按元素运算的乘积；σ为sigmoid函数，计算公式为：

激活函数tanh函数的计算公式为

在具体计算的时候，本申请将Wf、Wi、Wg和Wo拼成一个矩阵W，bf、bi、bc和bo拼成一个矩阵b。

参阅图1-2，图1-2为本申请提供的计算装置。参阅图1-2，提供了一种计算装置，该计算装置用于执行LSTM运算，该计算装置包括：控制器单元11、运算单元12和存储单元10，其中，控制器单元11与运算单元12、存储单元10连接，该运算单元12包括：一个主处理电路101和从处理电路102(可以为一个或多个从处理电路，优先选择多个从处理电路)；

需要说明的，上述主处理电路自身包含有存储器(例如内存或寄存器)，该存储器可以存储主处理电路的一些数据，从处理电路可以选择携带存储器。

LSTM包括：输入门、忘记门、输出门和更新状态门；

存储单元10，用于存储LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；

控制器单元11，用于获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

运算单元12，用于依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。

可选的，上述所述控制器单元，具体用于根据LSTM算子构建多个拆分算子、多个排序算子、乘法算子、激活算子以及加法算子；

需要说明的是，上述各个门中每个门的运算是相对独立的，计算结果也相对独立，即每个门均具有各自的权值数据，例如Wf、Wi、Wg和Wo分别代表4个门的权值数据。

上述依据乘法算子将所述多个输入数据块与各个门的权值数据执行乘法运算得到各个门的中间结果具体可以包括：

将多个输入数据块与输入门权值数据执行乘法运算得到输入门的中间结果，多个输入数据块与输出门权值数据执行乘法运算得到输出门的中间结果，多个输入数据块与忘记门权值数据执行乘法运算得到忘记门的中间结果，多个输入数据块与更新状态门权值数据执行乘法运算得到更新状态门的中间结果。上述各个门的状态中间结果与各个门的中间结果类似，这里不再赘述。

所述主处理电路，用于依据排序算子将每个门的中间结果排序得到各个门的排序结果，依据加法算子将各个门的排序结果执行偏置运算得到各个门的运算结果，依据排序算子将每个状态中间结排序得到各个门的状态排序结果，依据加法算子将各个门的状态排序结果执行偏置运算得到各个门的状态运算结果；依据加法算子将各个门的运算结果以及各个门的状态运算结果对应相加后进行后续处理得到各个门的输出结果。

本申请提供的技术方案将运算单元设置成主从结构，对于LSTM的正向运算，将本时刻的输入数据以及忘记门的输出数据拆分并行处理，这样通过主处理电路以及从处理电路即能够对计算量较大的部分进行并行运算，从而提高运算速度，节省运算时间，进而降低功耗。

可选的，所述后续处理具体包括：

如为忘记门、输入门和输出门，所述后续处理为sigmoid运算；

如为更新状态门，所述后续处理为激活运算tanh函数。

上述LSTM可以包含多个隐层，h为大于等于2的整数，对于第h个隐层可以为LSTM中的任意一个中间隐层的运算，多个LSTM运算，其实现过程是，在正向运算中，当上一时刻t-1执行完成正向运算之后得到输出结果t-1，当前时刻t的运算算子会将上一时刻输出结果t-1作为下一时刻的忘记门的输入数据，忘记门通过sigmoid来确定以上时刻输出结果t-1的通过率，这样即得到了忘记门t时刻的输出结果t,将输出结果t与权值进行运算，另一部分运算为时刻t输入层的输入数据作为另一部分输入神经元，然后将两部分输入神经元分别与权值执行乘积运算得到两个运算结果，将两个运算结果相加即得到时刻t的输出结果，然后将时刻t的输出结果作为下一时刻t+1忘记门的输入数据，这样即能够有选择的确定上一时刻的结果的通过率。

可选的，上述计算装置还可以包括：直接内存访问单元50，存储单元10可以包括：寄存器、缓存中的一个或任意组合，具体的，所述缓存，用于存储计算算子；所述寄存器，用于存储所述输入数据和标量；所述缓存为高速暂存缓存。直接内存访问单元50用于从存储单元10读取或存储数据。

可选的，该控制器单元包括：算子存储单元110、算子处理单元111和存储队列单元113；

算子存储单元110，用于存储所述LSTM运算关联的计算算子；

所述算子处理单元111，用于对所述计算算子解析得到多个运算算子；

存储队列单元113，用于存储算子队列，该算子队列包括：按该队列的前后顺序待执行的多个运算算子或多个计算算子。

可选的，该控制器单元还可以包括：

所述依赖关系处理单元108，用于在具有多个运算算子时，确定第一运算算子与所述第一运算算子之前的第零运算算子是否存在关联关系，如所述第一运算算子与所述第零运算算子存在关联关系，则将所述第一运算算子缓存在所述算子存储单元内，在所述第零运算算子执行完毕后，从所述算子存储单元提取所述第一运算算子传输至所述运算单元；

所述确定该第一运算算子与第一运算算子之前的第零运算算子是否存在关联关系包括：

依据所述第一运算算子提取所述第一运算算子中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算算子提取所述第零运算算子中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算算子与所述第零运算算子具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算算子与所述第零运算算子不具有关联关系。

在另一种可选实施例中，运算单元12如图1-3所示，可以包括一个主处理电路101和多个从处理电路102。在一个实施例里，如图1-3所示，多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，需要说明的是，如图1-3所示的K个从处理电路仅包括第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，即该k个从处理电路为多个从处理电路中直接与主处理电路连接的从处理电路。

K个从处理电路，用于在所述主处理电路以及多个从处理电路之间的数据(该数据可以为输入数据块、输入状态数据块、中间结果、状态中间结果等等)以及算子转发。

可选的，如图1-3a所示，该主处理电路还可以包括：转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合；

转换处理电路110，用于数据执行转换处理，具体为：将主处理电路接收的数据(包括但不限于：输入数据Xt、权值数据(各个门的权值)、输入状态值Ct-1、输入结果ht-1)执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换，例如浮点数据与定点数据的转换)。

激活处理电路111，用于执行主处理电路内数据的激活运算；

加法处理电路112，用于执行加法运算或累加运算。

另一个实施例里，该运算算子为矩阵乘以矩阵的算子、累加算子、激活算子等等计算算子。

在一种可选的实施方案中，如图1-4a所示，所述运算单元包括：树型模块40，所述树型模块包括：一个根端口401和多个支端口404，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

上述树型模块具有收发功能，例如如图1-4a所示，该树型模块即为发送功能，如图1-4b所示，该树型模块即为接收功能。

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据(该数据可以为输入数据块、输入状态数据块、中间结果、状态中间结果等等)。

可选的，该树型模块为计算装置的可选择结果，其可以包括至少1层节点，该节点为具有转发功能的线结构，该节点本身可以不具有计算功能。如树型模块具有零层节点，即无需该树型模块。

可选的，该树型模块可以为n叉树结构，例如，如图1-4c所示的二叉树结构，当然也可以为三叉树结构，该n可以为大于等于2的整数。本申请具体实施方式并不限制上述n的具体取值，上述层数也可以为2，从处理电路可以连接除倒数第二层节点以外的其他层的节点，例如可以连接如图1-4c所示的倒数第一层的节点。

可选的，上述运算单元可以携带单独的缓存，如图1-2a所示，可以包括：神经元缓存单元，该神经元缓存单元63缓存该从处理电路的输入神经元向量数据和输出神经元值数据。

如图1-2a，该运算单元还可以包括：权值缓存单元64，用于缓存该从处理电路在计算过程中需要的权值数据。

在一种可选实施例中，运算单元12如图1-5所示，可以包括分支处理电路103；其具体的连接结构如图1-5所示，其中，

上述分支处理电路103可以包括存储器，如图1-5所示，分支处理电路103的存储器的大小可以为在单个从处理电路需要存储的最大数据容量的2到2.5倍之间，这样设置以后，从处理电路即无需设置存储器，相对于一个分支处理电路，其只用设置2.5*R(单个从处理器电路所需的容量值)，如果没有分支处理电路，那么需要设置4*R，并且其寄存器的利用率还低，因此该结构可以有效的降低存储器的总容量，降低成本。

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的(该数据可以为输入数据块、输入状态数据块、中间结果、状态中间结果等等)。

下面通过一个实例的例子来说明上述输入数据的拆分的方式(上述输入状态数据的拆分也可以参见输入数据的拆分)，对于输出结果与输入数据因为数据类型相同，其拆分的方式基本相同，假设该数据类型为矩阵，该矩阵为H*W，则拆分的方式可以为，如H的数值较小(小于设定阈值，例如100)，那么在沿H方向将矩阵H*W拆分成H个向量(每个向量为矩阵H*W的一行)，每个向量即为一个输入数据块，并对输入数据块的第一元素的位置标记在输入数据块，即输入数据块h,w,其中，h、w分别为输入数据块h,w的第一元素在H方向以及W方向的值，例如第一输入数据块，该h＝1.w＝1。从处理电路接收到输入数据块h,w后，将输入数据块h,w与权值每列元素一一对应相乘和累加运算得到中间结果w,i，中间结果的w为输入数据块的w值，i为与输入数据块计算的列元素的列数值，主处理电路确定中间结果在对应门的运算结果的位置为w、i。例如，输入数据块1,1与权值第一列计算得到的输入中间结果1,1，主处理电路将输入中间结果1,1排列在对应门的运算结果第一行第一列。

本申请还提供一种LSTM运算方法，所述方法应用于计算装置，所述LSTM包括：输入门、忘记门、输出门和更新状态门，所述计算装置包括：运算单元、控制器单元、存储单元；所述存储单元存储：LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；所述方法包括如下步骤：

步骤S601、控制器单元获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

步骤S602、运算单元依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。

可选的，所述运算单元包括：主处理电路以及从处理电路；所述运算单元依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果具体包括：

所述控制器单元根据LSTM算子构建多个拆分算子、多个排序算子、乘法算子、激活算子以及加法算子；

所述主处理电路依据排序算子将输入数据Xt、权值数据以及输入状态值进行重排序，所述权值数据包括：各个门的权值数据，然后依据拆分算法将各个门的权值数据以及乘法算子广播至从处理电路，将输入数据以及输入状态值拆分成多个输入数据块以及多个输入状态数据块，将多个输入数据块以及多个输入状态数据块分发给所述从处理电路；

所述从处理电路依据乘法算子将所述多个输入数据块与各个门的权值数据执行乘法运算得到各个门的中间结果，依据乘法算子将所述多个输入状态数据块与各个门的权值数据执行乘法运算得到各个门的状态中间结果，将各个门的中间结果以及各个门的状态中间结果发送至主处理电路；

所述主处理电路依据排序算子将每个门的中间结果排序得到各个门的排序结果，依据加法算子将各个门的排序结果执行偏置运算得到各个门的运算结果，依据排序算子将每个状态中间结排序得到各个门的状态排序结果，依据加法算子将各个门的状态排序结果执行偏置运算得到各个门的状态运算结果；依据加法算子将各个门的运算结果以及各个门的状态运算结果对应相加后进行后续处理得到各个门的输出结果。

可选的，依据输入状态值Ct-1以及各个门的输出结果得到输出状态值Ct具体包括：

所述主处理电路依据乘法算子将输入状态值Ct-1与忘记门的输出结果ft相乘得到第一结果，依据乘法算子将更新状态门的输出结果gt与输入门的输出结果it相乘得到第二结果，将第一结果与第二结果相加得到输出状态值Ct。

可选的，所述依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht具体包括：

所述主处理电路依据激活算子对输出状态值Ct执行激活运算得到激活结果，将输出门的输出结果 Ot与激活结果相乘得到输出结果ht。

本申请还揭露了一个LSTM装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的LSTM运算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上计算装置时，计算装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的卷积神经网络训练的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该LSTM装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

本申请还揭露了一个组合处理装置，其包括上述的LSTM装置，通用互联接口，和其他处理装置。LSTM运算装置与其他处理装置进行交互，共同完成用户指定的操作。图1-7为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为LSTM运算装置与外部数据和控制的接口，包括数据搬运，完成对本LSTM运算装置的开启、停止等基本控制；其他处理装置也可以和LSTM运算装置协作共同完成运算任务。

通用互联接口，用于在所述LSTM装置与其他处理装置间传输数据和控制算子。该LSTM装置从其他处理装置中获取所需的输入数据，写入LSTM装置片上的存储装置；可以从其他处理装置中获取控制算子，写入LSTM装置片上的控制缓存；也可以读取LSTM装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图1-8所示，还可以包括存储装置，存储装置分别与所述LSTM装置和所述其他处理装置连接。存储装置用于保存在所述LSTM装置和所述其他处理装置的数据，尤其适用于无法全部保存的所需要运算的数据在本LSTM装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述LSTM装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图1-9，图1-9提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

所述存储器件390与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(英文：Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-3200颗粒时，数据传输的理论带宽可达到25600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述芯片封装结构内的芯片电连接。所述接口装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE3.0X 16接口传输时，理论带宽可达到16000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本申请并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

对于上述的LSTM，在实际应用中，还可以产生很多的变形，例如如图2-1所示，即为一种LSTM的变形，图2-1为本申请实施例提供的一种GRU的示意图，如图2-1所示，该GRU(门控循环单元，Gated Recurrent Unit)包括：输入层、隐层、重置门、更新门、当前记忆门和输出层，其中，输入层分别与重置门、更新门和当前记忆门连接，上一个GRU单元的隐层分别与当前GRU单元重置门、更新门、当前记忆门以及输出层连接，GRU为LSTM(长短期记忆网络，Long Short-Term Memory)的一种变形体，图2-1中重置门的输出结果z _t用于控制前一时刻的状态信息被带入到当前状态中的程度，重置门的输出结果r _t用于控制前一状态有多少信息被写入到当前记忆门的输出结果n _t上，重置的输出结果r _t门越小，前一状态的信息被写入的越少，通过重置门和更新门的控制，合适的信息将会被写入输出结果h _t中，并保存到GRU的隐层中，并传递到下一个GRU单元，这样就解决了循环神经网络随着时间衰减的问题。

参阅图2-2，图2-2为本申请实施例提供的一种计算装置，该计算装置用于执行GRU运算，该GRU包括：输入层、隐层、重置门、更新门、当前记忆门和输出层；

本申请提供的技术方案将GRU的运算过程预先编译成对应的算子，从而实现在MLU上执行GRU的运算，无需CPU对指令译码以及数据内存的访问，提高了GRU的运算速度，提高了运行效率。

可选的，所述计算装置，在将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t时，具体用于：

在一可能的示例中，在t＝0时，即x _t为第零时刻的输入数据时，输入的输出数据h _-1为预先设置的一个初始化值，且在GRU为多层GRU时，输入的输出数据h _t-1为一个初始化的向量，主处理电路在将输入数据x _t拆分为多个输入数据块时，需将该输出数据h _t-1拆分为多个输出数据块，并将该多个输出数据块分发到与每层GRU的对应的从处理电路中，以保证计算每层GRU在t＝0的输出结果h ₀时，接收到的输出数据h _-1不同；当t＞0时，计算本层的GRU在t时刻的输出时，在接收到上一个GRU的隐层输入的输出数据h _t-1后，由于在得到每层GRU的输出结果h _t，主处理电路会将该层的输出结果h _t输入到整形算子和拆分算子中，得到最终输出结果，故本层GRU接收到的上一个GRU的隐层输入的输出数据h _t-1本质上为已经拆分好的多个输出数据块，所以，主处理电路无需对输出数据h _t-1进行数据的拆分操作，只需将接收到的输出数据h _t-1分发到对应的从处理电路，即可执行本层GRU的运算过程。

其中，算子是一个函数空间到另一个函数空间上的映射。

其中，预先构造算子的理由是：要在机器学习处理器MLU(Machine Learning processor Unit，MLU)实现GRU的运算。该机器学习处理器MLU应用于机器学习运算，其中，机器学习运算包括神经网络运算、k-means运算、支持向量机运算等，该机器学习处理器MLU具体可以包括NPU(Neural-Network Processing Unit，神经网络处理器单元)、DSP(Digital Signal Process，数字信号处理)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)芯片的一种或组合。而MLU的数据是封装好的，无法获取到数据的存储地址，故无法像在CPU上通过对指令译码的方式，使用for循环移动指针来实现GRU的运算。可以理解，MLU执行的运算往往需要构造算子来完成，MLU上的算子较难复用，故预先将GRU的每个运算过程编译成与其对应的算子，得到多个算子，将编译好的多个算子预先封装在函数库中，在执行GRU运算时，通过函数接口从预先封装的函数库中调取相应的GRU算子，将输入数据输入到调取的GRU算子中，执行与GRU算子对应的运算过程，得到输出结果。例如，在MLU上执行a和b的加法操作得到c时，需提前构造一个加法算子，将a和b输入到该加法算子中，执行求和操作，得到c，如果需要执行另外一个加法操作，需要再构造一个加法算子。

可选的，GRU的运算如下所示：

r _t＝sigmoid(W _ir*x _t+b _ir+W _hr*h _t-1+b _hr)；

z _t＝sigmoid(W _iz*x _t+b _iz+W _hz*h _t-1+b _hz)；

n _t＝tanh(W _in*x _t+b _in+r _t·(W _hn*h _t-1+b _hn))；

h _t＝(1-z _t)·n _t+z _t·h _t-1。

其中，x _t为t时刻的输入数据，h _t-1为前一个GRU的隐层输入的输出数据，r _t表示重置门的输出，z _t表示更新门的输出，n _t表示当前记忆门的输出，h _t表示t时刻的输出结果，W _r、W _z和W _n分别表示与重置门、更新门、当前记忆门对应的权值，b _r、b _z和b _n分别表示重置门、更新门、当前记忆门所对应偏置，W _ir、W _hr、b _ir、b _hr为分别与重置门对应的第一权值、第二权值、第一偏置、第二偏置，W _iz、W _hz、b _iz、b _hz为分别与更新门对应的第一权值、第二权值、第一偏置、第二偏置，W _in、W _hn、b _in、b _hn为分别与当前记忆门对应的第一权值、第二权值、第一偏置、第二偏置。

现有技术中，在执行GRU的运算时，需要先将W _ir和W _hr拼接为W _r，将W _iz和W _hz拼接为W _z，将W _in和W _hn拼接为W _n，以及将b _ir和b _hr拼接为b _r，将b _iz和b _hz拼接为b _z，将b _in和b _hn拼接为b _n，即W _r＝[W _ir,W _hr]，W _z＝[W _iz,W _hz],W _n＝[W _in,W _hn],b _r＝[b _ir,b _hr],b _z＝[b _iz,b _hz],b _n＝[b _in,b _hn]，其中，[]表示向量拼接的拼接算法，得到与重置门、更新门以及当前记忆门对应的权值W _r、W _z、W _n以及偏置b _r、b _z、b _n后，再与输入数据x _t和输出数据h _t-1进行相应的运算，得到输出结果h _t，由于本申请中通过构造算子的方式来实现GRU的每一步运算过程，如进行向量拼接，则在调用每个算子进行运算时，需将拼接好的权值与偏置拆分，得到每个算子需要的权值与偏置，进行了无效的拼接和拆分过程，影响运算速度，所以本申请在获取输入的权值和偏置后，将权值和偏置预先拆分为成与重置门、更新门以及当前记忆门对应的权值和偏置块，并对各个权值和偏置块添加与各个门、输入数据h _t以及输出数据h _t-1对应的标识信息，在计算每个门的输出结果时依据标识信息查询到与该门对应的权值和偏置后，直接与对应的输入数据和输出数据进行运算，保证在MLU上执行GRU运算的同时，提高GRU的运算速度，提高运算效率。

可以理解的，基于上述GRU的运算过程，构造下面GRU算子实现在MLU上执行GRU的运算：

具体来讲，构造与重置门对应的算子，具体为：构造第一乘法算子(W _ir*x _t+b _ir)、第二乘法算子 (W _hr*h _t-1+b _hr)、第一加法算子，用于对第一乘法算子和第二乘法算子的输出结果求和，第一激活算子，用于激活第一加法算子的输出结果，得到重置门的输出r _t，第一激活算子的激活类型为sigmoid；构造与更新门对应的算子，具体为：构造第三乘法算子W _iz*x _t+b _iz、第四乘法算子W _hz*h _t-1+b _hz，第二加法算子，用于对第三乘法算子和第四乘法算子的输出结果求和，第二激活算子，用于激活第二加法算子的输出结果，得到更新门的输出z _t，第二激活算子的激活类型为sigmoid；构造与当前记忆门对应的算子，具体为：构造第五乘法算子W _in*x _t+b _in和第六乘法算子W _hn*h _t-1+b _hn、第一向量乘法算子r _t·(W _hn*h _t-1+b _hn)，即用于对第六乘法算子的输出结果与r _t执行点乘，第三加法算子，用于对第五乘法算子和第一向量乘法算子的输出结果求和，第三激活算子，用于激活第三加法算子的输出结果，得到当前记忆门的输出结果n _t，第三激活算子的激活类型为tanh；构造与输出层对应的算子，具体为：构造第二向量乘法算子，对z _t和n _t执行点乘，计算z _t·n _t，第一减法算子，用于对n _t和第二向量乘法算子的输出结果执行减法法，计算(n _t-z _t·n _t),即(1-z _t)·n _t,第三向量乘法算子，对z _t和h _t-1执行点乘，计算z _t·h _t-1，第四加法算子，对第三向量乘法算子的输出结果和第一减法算子的输出结果求和，计算(1-zt)·n _t+z _t·h _t-1，得到t时刻的输出结果h _t。

可选的，在从预先封装的函数库中调用预先构造的GRU算子之前，所述计算装置还用于获取偏置。

可选的，在得到重置门的输出结果时，所述计算装置，具体用于：获取所述GRU算子中与重置门对应的第一乘法算子、第二乘法算子、第一加法算子以及第一激活算子，所述第一激活算子的激活类型为sigmoid；将输入数据x _t、权值以及偏置输入到所述第一乘法算子中，计算(W _ir*x _t+b _ir)，得到第一运算结果，其中，W _ir和b _ir为权值和偏置中分别与重置门对应的第一权值和第一偏置；将输出数据h _t-1、权值以及偏置输入到所述第二乘法算子中，计算(W _hr*h _t-1+b _hr)，得到第二运算结果，其中，W _hr和b _hr为权值和偏置中分别与重置门对应的第二权值和第二偏置；将所述第一运算结果和所述第二运算结果输入到所述第一加法算子中求和，得到第一求和结果；将所述第一求和结果输入到所述第一激活算子中激活，得到重置门的输出结果r _t。

可选的，在得到更新门的输出结果时，所述计算装置，具体用于：获取所述GRU算子中与更新门对应的第三乘法算子、第四乘法算子、第二加法算子以及第二激活算子，所述第二激活算子的激活类型为sigmoid；将输入数据x _t、权值以及偏置输入到所述第三乘法算子中，计算(W _iz*x _t+b _iz)，得到第三运算结果，其中，W _ir和b _ir为权值和偏置中分别与更新门对应的第一权值和第一偏置；将输出数据h _t-1、权值以及偏置输入到所述第四乘法算子中，计算(W _hz*h _t-1+b _hz)，得到第四运算结果，其中，W _hz和b _hz为权值和偏置中分别与更新门对应的第二权值和第二偏置；将所述第三运算结果和所述第四运算结果输入到所述第二加法算子中，得到第二求和结果；将所述第二求和结果输入到所述第二激活算子中激活，得到更新门的输出结果z _t。

可选的，在得到当前记忆门的输出结果n _t时，所述计算装置，具体用于：获取所述GRU算子中与当前记忆门对应的第五乘法算子、第六乘法算子、第一向量乘法算子、第三加法算子、第三激活算子，所述第三激活算子的激活类型为tanh；将输入数据x _t、权值以及偏置输入到所述第五乘法算子，计算(W _in*x _t+b _in)，得到第五运算结果，其中，W _in和b _in为权值和偏置中分别与当前记忆门对应的第一权值和第一偏置；将输出数据h _t-1、权值以及偏置输入到所述第六乘法算子，计算(W _hn*h _t-1+b _hn)，得到第六运算结果，其中，W _hn和b _hn为权值和偏置中分别与当前记忆门对应的第二权值和第二偏置；将所述第六运算结果以及重置门的输出结果r _t输入到所述第一向量乘法算子，对重置门的输出数据r _t与所述第六运算结果进行点乘，得到第一点乘结果；将所述第一点乘结果与所述第五运算结果输入到所述第三加法算子中求和，得到第三求和结果；将所述第三求和结果输入到所述第三激活算子激活，得到当前记忆门的输出结果n _t。

可选的，所述计算装置，具体用于：获取所述GRU算子中与输出层对应的第二向量乘法算子、第一减法算子、第三向量乘法算子、第四加法算子；将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到所述第二向量乘法算子，进行点乘运算，得到第二点乘结果；将所述当前记忆门的输出结果n _t以及所述第二点乘结果输入到所述第一减法算子，执行减法运算，得到第一差值结果；将更新门的输出结果z _t和输出数据h _t-1输入到所述第三向量乘法算子，进行点乘运算，得到第三点乘结果；将所述第一差值结果和所述第三点乘结果输入到所述第四加法算子求和，得到输出结果h _t。

可选的，如图2-2所示，上述计算装置具体包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和至少一个从处理电路；

从处理电路，用于将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中与更新门对应的算子中，得到更新门的中间结果，将该中间结果发送给主处理电路，所述主处理电路将该中间结果输入到另一部分算子中与更新门对应的算子中，得到重置门的输出结果r _t

可选的，上述计算装置还可以包括：存储单元10和直接内存访问单元50，存储单元10可以包括：寄存器、缓存中的一个或任意组合，具体的，所述缓存，用于存储计算指令；所述寄存器，用于存储所述输入数据和标量；所述缓存为高速暂存缓存。直接内存访问单元50用于从存储单元10读取或存储数据。

可选的，该控制器单元包括：指令存储单元110、指令处理单元111和存储队列单元113；

指令存储单元110，用于存储GRU运算关联的GRU算子；

所述指令处理单元111，用于对所述GRU算子解析得到多个GRU算子；

存储队列单元113，用于存储指令队列，该指令队列包括：按该队列的前后顺序待执行的多个GRU算子。

上述寄存器可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据，该数据具体可以为多维(2维以上)数据。

可选的，该控制器单元还可以包括：

所述依赖关系处理单元108，用于在具有多个GRU算子时，确定第一GRU算子与所述第一GRU算子之前的第零GRU算子是否存在关联关系，如所述第一GRU算子与所述第零GRU算子存在关联关系，则将所述第一GRU算子缓存在所述指令存储单元内，在所述第零GRU算子执行完毕后，从所述指令存储单元提取所述第一GRU算子传输至所述运算单元；

所述确定该第一GRU算子与第一GRU算子之前的第零运算指令是否存在关联关系包括：

依据所述第一GRU算子提取所述第一GRU算子中所需数据(例如矩阵)的第一存储地址区间，依据所述第零GRU算子提取所述第零GRU算子中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一GRU算子与所述第零GRU算子具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一GRU算子与所述第零GRU算子不具有关联关系。

在另一种可选实施例中，运算单元12如图2-3所示，可以包括一个主处理电路101和多个从处理电路102。在一个实施例里，如图2-3所示，多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，需要说明的是，如图2-3所示的K个从处理电路仅包括第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，即该k个从处理电路为多个从处理电路中直接与主处理电路连接的从处理电路。

K个从处理电路，用于在所述主处理电路以及多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果的转发。

可选的，如图2-3a所示，主处理电路101还可以包括：转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合；

转换处理电路110，用于数据执行转换处理，具体为：在执行GRU运算之前，转换处理电路110，具体用于：获取主处理电路101接收的整形算子和拆分算子，将主处理电路101接收的输入数据x _t、输出数据h _t-1权值以及偏置调整为预设的四维张量格式，即执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换)；在得到输出结果h _t时，将输出结果h _t输入到另一部分算子中的整形算子和拆分算子，将输出结果h _t调整为预设格式(即四维张量格式)，得到最终输出结果。

激活处理电路111，用于执行主处理电路内数据的激活运算；

加法处理电路112，用于执行加法运算或累加运算。

可选的，如图2-3b所示，从处理电路102还可以包括：乘法处理电路120和累加处理电路121中的一种或任意组合；

乘法处理电路120，用于执行从处理电路内数据的乘法运算，如向量和向量的点乘运算、矩阵和矩阵点乘运算、矩阵和矩阵的卷积运算、矩阵和向量的卷积运算，等等；

累加处理电路121，用于执行累加运算。

另一个实施例里，该GRU算子中所要执行的计算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令。

在一种可选的实施方案中，如图2-4a所示，所述运算单元包括：树型模块40，所述树型模块包括：一个根端口401和多个支端口404，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

上述树型模块具有收发功能，如图2-4a所示，该树型模块即为发送功能，如图2-4b所示，该树型模块即为接收功能。

可选的，该树型模块可以为n叉树结构，例如，如图2-4c所示的二叉树结构，当然也可以为三叉树结构，该n可以为大于等于2的整数。本申请具体实施方式并不限制上述n的具体取值，上述层数也可以为2，从处理电路可以连接除倒数第二层节点以外的其他层的节点，例如可以连接如图2-4c所示的倒数第一层的节点。

可选的，运算单元12可以携带单独的缓存，如图2-2a所示，可以包括：神经元缓存单元，该神经元缓存单元63缓存该从处理电路的输入神经元向量数据和输出神经元值数据。

如图2-2a，该运算单元还可以包括：权值缓存单元64，用于缓存该从处理电路在计算过程中需要的权值数据。

在一种可选实施例中，运算单元12如图2-5所示，可以包括分支处理电路103；其具体的连接结构如图2-5所示，其中，

上述分支处理电路103可以包括存储器，如图2-5所示，分支处理电路103的存储器的大小可以为在单个从处理电路需要存储的最大数据容量的2到2.5倍之间，这样设置以后，从处理电路即无需设置存储器，相对于一个分支处理电路，其只用设置2.5*R(单个从处理器电路所需的容量值)，如果没有分支处理电路，那么需要设置4*R，并且其寄存器的利用率还低，因此该结构可以有效的降低存储器的总容量，降低成本。

下面通过一个实际的例子来说明上述输入数据的拆分的方式，对于输出结果与输入数据因为数据类型相同，其拆分的方式基本相同，假设该数据类型为矩阵，该矩阵为H*W，则拆分的方式可以为，如H的数值较小(小于设定阈值，例如100)，那么在沿H方向将矩阵H*W拆分成H个向量(每个向量为矩阵H*W的一行)，每个向量即为一个输入数据块，并对输入数据块的第一元素的位置标记在输入数据块，即输入数据块h,w,其中，h、w分别为输入数据块h,w的第一元素在H方向以及W方向的值，例如第一输入数据块，该h＝1.w＝1。从处理电路接收到输入数据块h,w后，将输入数据块h,w与权值每列元素一一对应相乘和累加运算得到输入中间结果w,i，中间结果的w为输入数据块的w值，i为与输入数据块计算的列元素的列数值，主处理电路确定中间结果在隐层输出结果的位置为w、i。例如，输入数据块输入数据块1,1与权值第一列计算得到的输入中间结果1,1，主处理电路将输入中间结果1,1排列在隐层输出结果第一行第一列。

下面详细叙述在MLU上运算GRU的过程：

可选的，在得到重置门的输出中间结果时：乘法处理电路120，用于将接收到的输入数据块以及权值和偏置输入到第一乘法算子中，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第二乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另元素值执行求和运算，得到另一乘积结果；累加处理电路121，用于将所述乘积结果进行累加运算，得到重置门的输入中间结果(W _ir*x _t+b _ir)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hr*h _t-1+b _hr)；

可选的，在得到重置门的输出结果r _t时，加法处理电路112，用于将重置门的输入中间结果和输出中间结果输入到第一加法算子中，对输入中间结果和输出中间结果执行求和运算，得到第一求和结果；激活处理电路111，用于将第一求和结果输入到第一激活算子中，对第一求和结果执行sigmoid激活运算，得到重置门的输出结果r _t；

可选的，在得到更新门的输出中间结果时，乘法处理电路120，用于将接收到的输入数据块以及权值和偏置输入到第三乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第四乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另元素值执行求和运算，得到另一乘积结果；累加处理电路121，用于将该乘积结果进行累加运算，得到更新门的输入中间结果(W _iz*x _t+b _iz)，将另一乘积结果进行累加运算，得到重置门的输出中间结果(W _hz*h _t-1+b _hz)；

可选的，在得到更新门的输出结果z _t时，加法处理电路112，用于将更新门的输入中间结果和输出中间输入到第二加法算子中，对该输入中间结果和输出中间执行求和运算，得到第二求和结果；激活处理电路111，用于将第二求和结果输入到第二激活算子中，对第二求和结果执行sigmoid激活运算，得到更新门的输出结果z _t；第二加法算子、第二激活算子为另一部分算子中与更新门对应的算子。

可选的，在得到当前记忆门的输出中间结果时，乘法处理电路120，用于将接收到的输入数据块、权值和偏置输入到第五乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第六乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另元素值执行求和运算，得到另一乘积结果；累加处理电路121，用于将该乘积结果进行累加运算，得到当前记忆门的输入中间结果(W _in*x _t+b _in)，将另一乘积结果累加，得到当前记忆门的输出中间结果(W _nz*h _t-1+b _nz)；乘法处理电路120，用于将重置门的输出结果r _t输入到第一向量乘法算子中，对重置门的输出结果r _t与当前记忆门的输出中间结果执行点乘运算，得到第一点乘结果；

可选的，在得到当前记忆门的输出结果n _t时，加法处理电路112，用于将当前记忆门的输入中间结果和第一点乘结果输入到第三加法算子中，对当前记忆门的输入中间结果和点乘结果执行求和运算，得到第三求和结果；激活处理电路111，用于将第三求和结果输入到第三激活算子中，对第三求和结果执行tanh激活运算，得到当前记忆门的输出结果n _t；

可选的，在确定输出层的输出结果时，主处理电路101，用于将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1发送给从处理电路102；

乘法处理电路120，用于将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到第二向量乘法算子，对更新门的输出结果z _t以及当前记忆门的输出结果n _t执行点乘，得到第二点乘结果，将接收到的更新门的输出结果z _t以及输出数据h _t-1输入到第三向量乘法算子，对更新门的输出结果z _t以及输出数据h _t-1执行点乘，得到第三点乘结果，将第二点乘结果和第三点乘结果发送给主处理电路101；加法处理电路112，用于将当前记忆门的输出结果n _t以及第二点乘结果输入到第一减法算子中，对当前记忆门的输出结果n _t以及点乘结果执行减法运算，得到第一差值结果，将第三点乘结果以及第一差值结果输入到第四加法算子，对第三点乘结果以及第一差值结果执行求和，得到输出结果h _t；

其中，第二向量乘法算子、第三向量乘法算子为部分算子中与输出层对应的算子，第一减法算子、第四减法算子为另一部分算子中与输出层对应的算子。

如图2-6所示，本申请还提供了一种GRU的运算方法，该GRU包括：输入层、隐层、重置门、更新门、当前记忆门和输出层，所述运算方法应用于计算装置，所述运算方法包括：

步骤S601：所述计算装置获取输入层t时刻输入的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1和权值。

步骤S602：所述计算装置从预先封装的函数库中调用预先构造的GRU算子。

步骤S603：所述计算装置将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t。

可选的，所述将输入数据x _t、输出数据h _t-1、权值输入到所述预先构造的GRU算子中，得到输出结果h _t具体包括：

将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1输入到所述GRU算子中与输出层对应的算子中，得到输出结果h _t；

可选的，在从预先封装的函数库中调用预先构造的GRU算子之前，所述方法还包括：

所述计算装置获取偏置。

可选的，所述将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与重置门对应的算子中，得到重置门的输出结果r _t具体包括：

可选的，所述将输入数据x _t、输出数据h _t-1、权值输入到所述GRU算子中与更新门对应的算子中，得到更新门的输出结果z _t具体包括：

可选的，所述将输入数据x _t、输出数据h _t-1、权值以及重置门的的输出结果r _t输入到所述GRU算子中与当前记忆门对应的算子中，得到当前记忆门的输出结果n _t具体包括：

可选的，所述将更新门的输出结果z _t、当前记忆门的输出结果n _t以及输出数据h _t-1输入到所述GRU算子中与输出层对应的算子中，得到输出结果h _t具体包括：

在一可能的示例中，所述计算装置具体包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路和从处理电路；所述方法具体包括：

所述主处理电路将输入数据x _t拆分为多个输入数据块、将输出数据h _t-1拆分为多个输出数据h _t-1，将多个输入数据块、多个输出数据h _t-1分发给从处理电路，将权值以及GRU算子中的部分算子广播给从处理电路；从处理电路将接收到的输入数据块、输出数据h _t-1、权值输入到部分算子中与重置门对应的算子中，得到重置门的中间结果，将该中间结果发送给主处理电路，主处理电路将该中间结果输入到GRU算子中的另一部分算子中与重置门对应的算子中，得到重置门的输出结果r _t；

所述主处理电路将重置门的输出结果r _t分发给从处理电路；

可选的，在所述控制器单元获取输入层在t时刻的输入数据x _t、前一个GRU的隐层输入的输出数据h _t-1、权值时，所述方法还包括：所述控制器单元获取偏置，将偏置发送给所述主处理电路；所述主处理电路将偏置广播给从处理电路。

在上述可能的示例中，在t＝0时，即x _t为第零时刻的输入数据时，输入的输出数据h _-1则为预先设置的一个初始化值，且在GRU为多层GRU时，输入的输出数据h _t-1为一个初始化的向量，主处理电路在将输入数据x _t拆分为多个输入数据块时，需将该输出数据h _t-1拆分为多个输出数据块，并将该多个输出数据块分发到与每层GRU的对应的从处理电路中，以保证计算每层GRU在t＝0的输出结果h ₀时，接收到的输出数据h _-1不同；当t＞0时，计算本层的GRU在t时刻的输出时，在接收到上一个GRU的隐层输入的输出数据h _t-1后，由于在得到每层GRU的输出结果h _t，主处理电路会将该层的输出结果h _t输入到整形算子和拆分算子中，得到最终输出结果，故本层GRU接收到的上一个GRU的隐层输入的输出数据h _t-1本质上为已经拆分好的多个输出数据块，所以，主处理电路无需对输出数据h _t-1进行数据的拆分操作，只需将接收到的输出数据h _t-1分发到对应的从处理电路，即可执行本层GRU的运算过程。

所述树型模块转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果。

可选的，如所述从处理电路的数量为多个，所述运算单元还包括一个或多个分支处理电路，每个分支处理电路连接至少一个从处理电路；

所述分支处理电路转发所述主处理电路与所述多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果。

所述K个从处理电路在所述主处理电路以及多个从处理电路之间的输入数据块、输出数据h _t-1、权值、偏置以及中间结果的转发。

在一可能的示例中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到重置门的输出中间结果具体包括：

所述累加处理电路将所述乘积结果进行累加运算，得到重置门的输入中间结果(W _ir*x _t+b _ir)，将另一乘积结果累加，得到重置门的输出中间结果(W _hr*h _t-1+b _hr)；

在一可能的示例中，所述主处理电路包括激活处理电路和加法处理电路；所述得到重置门的输出结果r _t具体包括：

在一可能的示例中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到更新门的输出中间结果具体包括：

所述乘法处理电路将接收到的输入数据块以及权值和偏置输入到第三乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1以及权值和偏置输入到第四乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

在一可能的示例中，所述主处理电路包括激活处理电路和加法处理电路；所述得到更新门的输出结果z _t具体包括：

在一可能的示例中，所述从处理电路包括：乘法处理电路和累加处理电路；所述得到当前记忆门的输出中间结果具体包括：

所述乘法处理电路将接收到的输入数据块、权值和偏置输入到第五乘法算子，对接收到的输入数据块中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的元素值执行求和运算，得到乘积结果；将接收到的输出数据h _t-1、权值和偏置输入到第六乘法算子，对接收到的输出数据h _t-1中的元素值与权值中对应位置的元素值执行乘积运算，并将乘积结果与偏置中对应位置的另一元素值执行求和运算，得到另一乘积结果；

在一可能的示例中，所述主处理电路包括激活处理电路和加法处理电路；所述得到当前记忆门的输出结果n _t具体包括：

在一可能的示例中，所述主处理电路包括加法处理电路，所述从处理电路包括乘法处理电路；所述确定输出层的输出结果具体包括：

所述乘法处理电路将更新门的输出结果z _t以及当前记忆门的输出结果n _t输入到第二向量乘法算子，对更新门的输出结果z _t以及当前记忆门的输出结果n _t执行点乘，得到第二点乘结果，将接收到的更新门的输出结果z _t以及输出数据h _t-1输入到第三向量乘法算子，对更新门的输出结果z _t以及输出数据h _t-1执行点乘，得到第三点乘结果，将第二点乘结果和第三点乘结果发送给主处理电路；

所述加法处理电路将当前记忆门的输出结果n _t以及第二点乘结果输入到第一减法算子中，对当前记忆门的输出结果n _t以及点乘结果执行减法运算，得到第一差值结果，将第三点乘结果以及第一差值结果输入到第四加法算子，对第二点乘结果以及第一差值结果执行求和，得到输出结果h _t；

在一可能的示例中，主处理电路包括转换处理电路；

所述转换处理电路将输出结果h _t输入到另一部分算子中的整形算子和拆分算子，将输出结果h _t的数据格式调整为预设格式，得到最终输出结果。

本申请还揭露了一个GRU装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的GRU运算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上计算装置时，计算装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的卷积神经网络训练的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该GRU装置具有较高的兼容性，通过PCIE接口与各种类型的服务器相连接。

本申请还揭露了一个组合处理装置，其包括上述的GRU装置，通用互联接口，和其他处理装置。GRU运算装置与其他处理装置进行交互，共同完成用户指定的操作。图2-7为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为GRU运算装置与外部数据和控制的接口，包括数据搬运，完成对本GRU运算装置的开启、停止等基本控制；其他处理装置也可以和GRU运算装置协作共同完成运算任务。

通用互联接口，用于在所述GRU装置与其他处理装置间传输数据和控制指令。该GRU装置从其他处理装置中获取所需的输入数据，写入GRU装置片上的存储装置；可以从其他处理装置中获取控制指令，写入GRU装置片上的控制缓存；也可以读取GRU装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图2-8所示，还可以包括存储装置，存储装置分别与所述GRU装置和所述其他处理装置连接。存储装置用于保存在所述GRU装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本GRU装置或其他处理装置的内部存储中无法全部保存的数据。

在一些实施例里，还申请了一种芯片，其包括了上述GRU装置或组合处理装置。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图2-9，图2-9提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种计算装置，其特征在于，所述计算装置用于执行LSTM运算，所述LSTM包括：输入门、忘记门、输出门和更新状态门，所述计算装置包括：运算单元、控制器单元、存储单元；

所述存储单元，用于存储LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；

所述控制器单元，用于获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

所述运算单元，用于依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。
根据权利要求1所述的装置，其特征在于，所述运算单元包括：主处理电路以及从处理电路；

所述控制器单元，具体用于根据LSTM算子构建多个拆分算子、多个排序算子、乘法算子、激活算子以及加法算子；

所述主处理电路，具体用于依据排序算子将输入数据Xt、权值数据以及输入状态值进行重排序，所述权值数据包括：各个门的权值数据，然后依据拆分算法将各个门的权值数据以及乘法算子广播至从处理电路，将输入数据以及输入状态值拆分成多个输入数据块以及多个输入状态数据块，将多个输入数据块以及多个输入状态数据块分发给所述从处理电路；

所述从处理电路，用于依据乘法算子将所述多个输入数据块与各个门的权值数据执行乘法运算得到各个门的中间结果，依据乘法算子将所述多个输入状态数据块与各个门的权值数据执行乘法运算得到各个门的状态中间结果，将各个门的中间结果以及各个门的状态中间结果发送至主处理电路；

所述主处理电路，用于依据排序算子将每个门的中间结果排序得到各个门的排序结果，依据加法算子将各个门的排序结果执行偏置运算得到各个门的运算结果，依据排序算子将每个状态中间结果排序得到各个门的状态排序结果，依据加法算子将各个门的状态排序结果执行偏置运算得到各个门的状态运算结果；依据加法算子将各个门的运算结果以及各个门的状态运算结果对应相加后进行后续处理得到各个门的输出结果。
根据权利要求2所述的装置，其特征在于，

所述主处理电路，具体用于依据乘法算子将输入状态值Ct-1与忘记门的输出结果ft相乘得到第一结果，依据乘法算子将更新状态门的输出结果gt与输入门的输出结果it相乘得到第二结果，将第一结果与第二结果相加得到输出状态值Ct。
根据权利要求3所述的装置，其特征在于，

所述主处理电路，具体用于依据激活算子对输出状态值Ct执行激活运算得到激活结果，将输出门的输出结果Ot与激活结果相乘得到输出结果ht。
根据权利要求2所述的装置，其特征在于，所述后续处理具体包括：

如为忘记门、输入门和输出门，所述后续处理为sigmoid运算；

如为更新状态门，所述后续处理为激活运算tanh函数。
根据权利要求2所述的装置，其特征在于，

所述主处理电路，还用于将输出数据ht作为下一时刻的输入结果，将输出状态值Ct作为下一时刻的输入状态值。
根据权利要求2-6任意一项所述的装置，其特征在于，如所述从处理电路的数量为多个，所述运算单元包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据以及算子。
根据权利要求2-6任意一项所述的装置，其特征在于，如所述从处理电路的数量为多个，所述运算单元还包括一个或多个分支处理电路，每个分支处理电路连接至少一个从处理电路，

所述分支处理电路，用于转发所述主处理电路与所述多个从处理电路之间的数据以及算子。
根据权利要求2-6任意一项所述的装置，其特征在于，如所述从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个基础电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；

所述K个从处理电路，用于转发所述主处理电路以及多个从处理电路之间的数据以及算子。
根据权利要求2-6任意一项所述的装置，其特征在于，所述主处理电路包括：转换处理电路；

所述转换处理电路，用于对数据执行转换处理，具体为：将主处理电路接收的数据执行第一数据结构与第二数据结构之间的互换。
根据权利要求2-6所述的装置，其特征在于，所述从处理电路包括：乘法处理电路和累加处理电路；

所述乘法处理电路，用于对接收到的输入数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的乘积结果；接收到的输入状态数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的另一乘积结果；

所述累加处理电路，用于对该各个门的乘积结果执行累加运算得到各个门的中间结果，将该各个门的另一乘积结果执行累加运算得到各个门的状态中间结果。
根据权利要求7所述的装置，其特征在于，所述树型模块为n叉树结构，所述n为大于等于2的整数。
一种LSTM运算装置，其特征在于，所述LSTM运算装置包括一个或多个如权利要求1-12任一项所述的计算装置，用于从其他处理装置中获取待运算数据和控制信息，并执行指定的LSTM运算，将执行结果通过I/O接口传递给其他处理装置；

当所述LSTM装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行连接并传输数据；

其中，多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据，以支持更大规模的LSTM的运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。
一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求13所述的LSTM运算装置，通用互联接口和其他处理装置；

所述LSTM运算装置与所述其他处理装置进行交互，共同完成用户指定的计算操作。
根据权利要求14所述的组合处理装置，其特征在于，还包括：存储装置，该存储装置分别与所述LSTM运算装置和所述其他处理装置连接，用于保存所述LSTM运算装置和所述其他处理装置的数据。
一种神经网络芯片，其特征在于，所述神经网络芯片包括如权利要求1所述的计算装置或如权利要求13所述的LSTM运算装置或如权利要求15所述的组合处理装置。
一种电子设备，其特征在于，所述电子设备包括如所述权利要求16所述的芯片。
一种板卡，其特征在于，所述板卡包括：存储器件、接口装置和控制器件以及如权利要求16所述的神经网络芯片；

其中，所述神经网络芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述芯片与外部设备之间的数据传输；

所述控制器件，用于对所述芯片的状态进行监控。
根据权利要求18所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述芯片通过总线连接，所述存储单元为：DDR SDRAM；

所述芯片包括：DDR控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置为：标准PCIE接口。
一种LSTM运算方法，其特征在于，所述方法应用于计算装置，所述LSTM包括：输入门、忘记门、输出门和更新状态门，所述计算装置包括：运算单元、控制器单元、存储单元；所述存储单元存储：LSTM运算算子、输入数据Xt、权值数据、输出数据ht、输入状态值Ct-1、输入结果ht-1、输出状态值Ct；

所述方法包括如下步骤：

所述控制器单元获取输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子，将输入数据Xt、权值数据、输入状态值Ct-1、输入结果ht-1、以及LSTM运算算子发送至运算单元，

所述运算单元依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果，依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht以及输出状态值Ct。
根据权利要求20所述的方法，其特征在于，所述运算单元包括：主处理电路以及从处理电路；所述运算单元依据输入数据Xt、权值数据、输入结果ht-1以及LSTM运算算子执行输入门的运算、忘记门的运算、输出门的运算以及更新状态门的运算得到各个门的输出结果具体包括：

所述控制器单元根据LSTM算子构建多个拆分算子、多个排序算子、乘法算子、激活算子以及加法算子；

所述主处理电路依据排序算子将输入数据Xt、权值数据以及输入状态值进行重排序，所述权值数据包括：各个门的权值数据，然后依据拆分算法将各个门的权值数据以及乘法算子广播至从处理电路，将输入数据以及输入状态值拆分成多个输入数据块以及多个输入状态数据块，将多个输入数据块以及多个输入状态数据块分发给所述从处理电路；

所述从处理电路依据乘法算子将所述多个输入数据块与各个门的权值数据执行乘法运算得到各个门的中间结果，依据乘法算子将所述多个输入状态数据块与各个门的权值数据执行乘法运算得到各个门的状态中间结果，将各个门的中间结果以及各个门的状态中间结果发送至主处理电路；

所述主处理电路依据排序算子将每个门的中间结果排序得到各个门的排序结果，依据加法算子将各个门的排序结果执行偏置运算得到各个门的运算结果，依据排序算子将每个状态中间结排序得到各个门的状态排序结果，依据加法算子将各个门的状态排序结果执行偏置运算得到各个门的状态运算结果；依据加法算子将各个门的运算结果以及各个门的状态运算结果对应相加后进行后续处理得到各个门的输出结果。
根据权利要求21所述的方法，其特征在于，依据输入状态值Ct-1以及各个门的输出结果得到输出状态值Ct具体包括：

所述主处理电路依据乘法算子将输入状态值Ct-1与忘记门的输出结果ft相乘得到第一结果，依据乘法算子将更新状态门的输出结果gt与输入门的输出结果it相乘得到第二结果，将第一结果与第二结果相加得到输出状态值Ct。
根据权利要求21所述的方法，其特征在于，所述依据输入状态值Ct-1以及各个门的输出结果得到输出数据ht具体包括：

所述主处理电路依据激活算子对输出状态值Ct执行激活运算得到激活结果，将输出门的输出结果Ot与激活结果相乘得到输出结果ht。
根据权利要求21所述的方法，其特征在于，所述后续处理具体包括：

如为忘记门、输入门和输出门，所述后续处理为sigmoid运算；

如为更新状态门，所述后续处理为激活运算tanh函数。
根据权利要求21所述的方法，其特征在于，所述方法还包括：

所述主处理电路将输出数据ht作为下一时刻的输入结果，将输出状态值Ct作为下一时刻的输入状态值。
根据权利要求20-25任意一项所述的方法，其特征在于，如所述从处理电路的数量为多个，所述运算单元包括：树型模块，所述树型模块包括：一个根端口和多个支端口，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；所述方法还包括：

所述树型模块转发所述主处理电路与所述多个从处理电路之间的数据以及算子。
根据权利要求20-25任意一项所述的方法，其特征在于，如所述从处理电路的数量为多个，所述运算单元还包括一个或多个分支处理电路，每个分支处理电路连接至少一个从处理电路，所述方法还包括：

所述分支处理电路转发所述主处理电路与所述多个从处理电路之间的数据以及算子。
根据权利要求20-25任意一项所述的方法，其特征在于，如所述从处理电路的数量为多个，所述多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，所述主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个基础电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路；所述方法还包括：

所述K个从处理电路所述主处理电路以及多个从处理电路之间的数据以及算子。
根据权利要求20-25所述的方法，其特征在于，所述从处理电路包括：乘法处理电路和累加处理电路；所述方法具体包括：

所述乘法处理电路对接收到的输入数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的乘积结果；接收到的输入状态数据块中的元素值与各个门的权值中对应位置的元素值执行乘积运算得到各个门的另一乘积结果；

所述累加处理电路对该各个门的乘积结果执行累加运算得到各个门的中间结果，将该各个门的另一乘积结果执行累加运算得到各个门的状态中间结果。