WO2022062391A1

WO2022062391A1 - 一种加速rnn网络的系统、方法及存储介质

Info

Publication number: WO2022062391A1
Application number: PCT/CN2021/089936
Authority: WO
Inventors: 刘海威; 董刚; 赵雅倩; 李仁刚; 蒋东东; 杨宏斌; 梁玲燕
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-09-25
Filing date: 2021-04-26
Publication date: 2022-03-31
Also published as: US20230196068A1; CN111985626A; CN111985626B; US11775803B2

Abstract

一种加速RNN网络的系统、方法及存储介质，包括：第一缓存，用于通过循环切换的方式分N路并行输出W _x1至W _xN，或者W _h1至W _hN，且并行度均为k；第二缓存，用于通过循环切换的方式输出x _t或者h _t-1；向量乘法电路，用于利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，或者分别计算W _h1h _t-1至W _hNh _t-1；加法电路，用于实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；激活电路用于根据加法电路的输出进行激活操作；状态更新电路，用于获取c _t-1并进行c _t及h _t的计算，并更新c _t-1且发送h _t至第二缓存；偏置数据缓存；向量缓存；cell状态缓存。应用本申请的方案有效地实现了RNN网络的加速，并具有很强的灵活性和扩展性。

Description

一种加速RNN网络的系统、方法及存储介质

本申请要求于2020年09月25日提交至中国专利局、申请号为202011023267.4、发明名称为“一种加速RNN网络的系统、方法及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及神经网络技术领域，特别是涉及一种加速RNN网络的系统、方法及存储介质。

背景技术

RNN(Recurrent Neural Network，循环神经网络)是一种用于处理序列数据的神经网络，是目前深度学习中最有前景的工具之一，广泛应用于语音识别、机器翻译、文本生成等领域。它解决了传统的神经网络不能从数据中共享位置特征的问题。在传统的CNN、DNN等神经网络模型中，从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。这种普通的神经网络对于很多问题无能无力。例如，需要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN被称为循环神经网路，是因为一个序列当前的输出与前面的输出也有关联。具体的表现形式是网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再是无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括前面时刻隐藏层的输出。

图1是一个标准的RNN结构图，每个箭头代表做一次变换，也即箭头连接带有权值。左侧是折叠起来的样子，右侧是展开的样子，左侧中h旁边的箭头代表此结构中的“循环”。x是输入，h是隐层单元，o为输出，L为损失函数，y为训练集的标签。这些元素右上角带的t代表t时刻的状态。可以看出，因策单元h在t时刻的表现不仅由此刻的输入决定，还受t时刻之前的时刻的影响。V、W、U是权值，同一类型的权连接权值相同。RNN的关键点之一就是可以用来连接先前的信息到当前的任务上。

GRU和LSTM是较为常用的RNN网络。LSTM(Long Short-Term Memory networks，长短期记忆网络)可以解决长依赖问题，适合处理和预测时间序列中的间隔和延迟非常长的重要事件。

图2是LSTM结构以及计算公式示意图，LSTM通过“门”结构来去除或者增加“细胞状态”的信息，实现了对重要内容的保留和对不重要内容的去除。通过sigmoid层输出一个0到1之间的概率值，描述每个部分有多少量可以通过，0表示“不允许任务变量通过”，1表示“允许所有变量通过”。其中包含的门结构有遗忘门，输入门i _t，遗忘门f _t，输出门o _t以及cell门

随着RNN在语音识别、机器翻译、语言建模、情感分析和文本预测等领域应用地越来越广泛，对于RNN网络的要求也越来越高。因此面对越来越复杂、模型参数越来越庞大的网络，采用合适的方式对RNN网络加速显得十分重要。

综上所述，如何有效地加速RNN网络，降低耗时，提高运行效率，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种加速RNN网络的系统、方法及存储介质，以有效地加速RNN网络，降低耗时，提高运行效率。

为解决上述技术问题，本发明提供如下技术方案：

一种加速RNN网络的系统，包括：

第一缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

第二缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

向量乘法电路，用于当接收到所述第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到所述第一缓存输出的W _h1至W _hN时，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，所述向量乘法电路包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路，用于接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

激活电路，用于根据所述加法电路的输出进行激活操作；

状态更新电路，用于从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

所述偏置数据缓存；所述向量缓存；所述cell状态缓存；

其中，W _x1至W _xN依次表示第一门至第N门的权重数据矩阵；W _h1至W _hN依次表示第一门至第N门的隐状态权重数据矩阵；b ₁至b _N依次表示第一门至第N门的偏置数据；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。

优选的，RNN网络具体为LSTM网络，N＝4，包括：

第一缓存，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，分4路并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第二状态时，分4路并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

第二缓存，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，输出x _t，在第二状态时，输出h _t-1；

向量乘法电路，具体用于：当接收到所述第一缓存输出的W _xi，W _xf，W _xo以及W _xc时，利用4组乘法阵列分别计算W _xix _t，W _xfx _t，W _xox _t以及W _xcx _t，当接收到所述第一缓存输出的W _hi，W _hf，W _ho以及W _hc时，利用4组乘法阵列分别计算W _hih _t-1，W _hfh _t-1，W _hoh _t-1以及W _hch _t-1；其中，所述向量乘法电路包括4组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路，具体用于：接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算；

激活电路，具体用于：根据所述加法电路的输出进行激活操作，并输出i _t，f _t，o _t以及

状态更新电路，具体用于：从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

其中，W _xi，W _xf，W _xo以及W _xc依次表示输入门权重数据矩阵，遗忘门权重数据矩阵，输出门权重数据矩阵以及cell门权重数据矩阵；W _hi，W _hf，W _ho以及W _hc依次表示输入门隐状态权重数据矩阵，遗忘门隐状态权重数据矩阵，输出门隐状态权重数据矩阵以及cell门隐状态权重数据矩阵；b _i，b _f，b _o以及b _c依次表示输入门偏置数据，遗忘门偏置数据，输出门偏置数据以及cell门偏置数据；i _t，f _t，o _t以及

依次表示输入门，遗忘门，输出门以及cell门；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。

优选的，所述向量乘法电路处于第一流水线中，所述加法电路处于第二流水线中，所述激活电路和所述状态更新电路处于第三流水线中，并且所述第一流水线，所述第二流水线以及所述第三流水线并行运行。

优选的，所述第一缓存包括：

第一存储单元，用于从片外存储中获取目标数量的W _xi，目标数量的W _xf，目标数量的W _xo以及目标数量的W _xc；

第二存储单元，用于从片外存储中获取目标数量的W _hi，目标数量的W _hf，目标数量的W _ho以及目标数量的W _hc；

分别与所述第一存储单元以及所述第二存储单元连接的第一多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第一存储单元进行数据输出，在第二状态下选择所述第二存储单元进行数据输出；

第一存储器，第二存储器，第三存储器以及第四存储器均通过数据分类器与所述第一多路选择器连接，并且在所述第一多路选择器为第一状态时，依次用于并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在所述第一多路选择器为第二状态时，依次用于并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

所述数据分类器；

其中，所述目标数量大于k。

优选的，所述第一存储单元与所述第二存储单元均采用第一时钟，所述第一存储器，所述第二存储器，所述第三存储器以及所述第四存储器均采用第二时钟，且所述第一时钟与所述第二时钟相互独立，以使得所述第一存储器、所述第二存储器、所述第三存储器以及所述第四存储器中的任一存储器的输出速率低于输入速率时，将未发送的数据缓存在该存储器中。

优选的，所述第二缓存，包括：

第三存储单元，用于从片外存储中获取奇数时刻的x _t；

第四存储单元，用于从片外存储中获取偶数时刻的x _t；

分别与所述第三存储单元以及所述第四存储单元连接的第二多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第三存储单元进行数据输出，在第二状态下选择所述第四存储单元进行数据输出；

第三多路选择器，用于从片外存储中获取h ₀并接收状态更新电路发送的h _t，并且仅在首次选择时选择h ₀；h ₀表示t＝1时刻的隐状态数据；

第五存储单元，用于通过所述第三多路选择器获取偶数时刻的h _t以及h ₀；

第六存储单元，用于通过所述第三多路选择器获取奇数时刻的h _t；

第四多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第五存储单元进行数据输出，在第二状态下选择所述第六存储单元进行数据输出；

第五多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第二多路选择器进行数据输出，在第二状态下选择所述第四多路选择器进行数据输出。

优选的，所述加法电路，包括：

4组log ₂k级的加法器电路，每组加法器电路用于进行输入的k个数据的求和；

与4组加法器电路的输出均连接的向量加法电路，用于接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，根据每组所述加法器电路的输出，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算。

优选的，所述激活电路，具体用于：

根据所述加法电路的输出进行sigmoid激活操作以及tanh激活操作，并输出i _t，f _t，o _t以及

优选的，所述状态更新电路，具体用于：

从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算的，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

且

h _t＝o _t⊙tanh(c _t)；⊙表示点乘。

一种加速RNN网络的方法，应用于上述任一项所述的加速RNN网络的系统中，包括：

第一缓存在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

第二缓存在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

向量乘法电路当接收到所述第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到所述第一缓存输出的W _h1至W _hN，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，所述向量乘法电路包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

激活电路根据所述加法电路的输出进行激活操作；

状态更新电路从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

其中，W _x1至W _xN依次表示第一门至第N门的权重数据矩阵；W _h1至W _hN依次表示第一门至第N门的隐状态权重数据矩阵；b ₁至b _N依次第一至第N门的偏置数据；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述加速RNN网络的方法的步骤。

应用本发明实施例所提供的技术方案，具体的，考虑到门结构的计算占据了整个RNN网络的计算的绝大部分，其中主要是矩阵和向量相乘的计算，本申请设置了包括N组乘法阵列的向量乘法电路，每组乘法阵列包括k个乘法单元，有利于提高计算速度。并且考虑到传统的方案中，W _xx _t的计算和W _hh _t-1是合并在一起计算的，当x _t或者h _t-1的维度较大时，就会导致计算速度很慢。因此，本申请的方案中，将W _xx _t和W _hh _t-1进行分时、分段地计算，即不需要等到W _xx _t和W _hh _t-1的全部值产生才进行累加，有利于进一步地提高方案的加速效果。具体的，第一缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；第二缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1。向量乘法电路则会在接收到第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到第一缓存输出的W _h1至W _hN时，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1。加法电路便可以接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算。此外，本申请的方案中，每组乘法阵列包括k个乘法单元，通过对k的数值的设定和调整，使得本申请的方案可以适应不同尺寸的RNN网络，即使得本申请的方案具有很强的灵活性和扩展性。综上所述，本申请的方案有效地实现了对于 RNN网络的加速，并且具有很强的灵活性和扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个标准的RNN结构图；

图2为LSTM结构以及计算公式示意图；

图3为本发明中一种加速RNN网络的系统的结构示意图；

图4为本发明中第一缓存的一种结构示意图；

图5为本发明中第二缓存的一种结构示意图；

图6为本发明中一组乘法阵列的结构示意图；

图7为本发明中加法电路的一种结构示意图；

图8为本发明一种具体实施方式中的流水线式工作示意图。

具体实施方式

本发明的核心是提供一种加速RNN网络的系统，有效地实现了对于RNN网络的加速，并且具有很强的灵活性和扩展性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图3，图3为本发明中一种加速RNN网络的系统的结构示意图，该加速RNN网络的系统，可以应用于FPGA，ASIC以及可重构芯片等硬件中，FPGA具有灵活性强、可配置以及低功耗的优点，因此后文便以FPGA为例进行说明。

该加速RNN网络的系统可以包括：

第一缓存10，用于在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

第二缓存20，用于在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

向量乘法电路30，用于当接收到第一缓存10输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到第一缓存10输出的W _h1至W _hN时，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，向量乘法电路30包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路40，用于接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

激活电路50，用于根据加法电路的输出进行激活操作；

状态更新电路60，用于从cell状态缓存中获取c _t-1，并根据激活电路50的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

偏置数据缓存70；向量缓存80；cell状态缓存90；

N的取值可以根据实际情况进行设定，例如GRU和LSTM是较为常用的RNN网络，对于GRU而言，具有2个门结构，即N＝2，而对于LSTM网络而言，具有4个门结构，因此N＝4。

RNN网络可以应用在语音识别、文字识别，文本翻译、语言建模、情感分析和文本预测等领域。特别是LSTM网络，由于其优良的特性，得到了越来越广泛的应用。

本申请的后文中，便具体以LSTM网络进行说明。

通过RNN网络，可以对输入数据进行运算，最终得到输出结果。例如具体为LSTM网络，且LSTM网络为应用于语音识别的LSTM网络时，t时刻的输入数据x _t具体便为t时刻的待识别的语音输入数据，通过LSTM网络的识别，可以输出语音识别结果。LSTM网络为应用于文字识别的LSTM网络时，t时刻的输入数据x _t具体便为t时刻的携带待识别文字的图像输入数据，通过LSTM网络的识别，可以输出文字识别结果。LSTM网络为应用于文本翻译的LSTM网络时，t时刻的输入数据x _t具体便为t时刻的待翻译的文本输入数据，通过LSTM网络的识别，可以输出翻译结果。LSTM网络为应用于情感分析的LSTM网络时，t时刻的输入数据x _t具体便为t时刻的待分析情感的输入数据，可以是语音输入数据，也可以是文本输入数据，通过LSTM网络的识别，可以输出分析结果。

本申请的图3的实施方式中，是以LSTM网络进行说明，即图3的加速RNN网络的系统具体为加速LSTM网络的系统，N＝4，该加速LSTM网络的系统可以包括：

第一缓存10，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，分4路并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第二状态时，分4路并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

第二缓存20，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，输出x _t，在第二状态时，输出h _t-1；

向量乘法电路30，具体用于：当接收到第一缓存10输出的W _xi，W _xf，W _xo以及W _xc时，利用4组乘法阵列分别计算W _xix _t，W _xfx _t，W _xox _t以及W _xcx _t，当接收到第一缓存10输出的W _hi，W _hf，W _ho以及W _hc时，利用4组乘法阵列分别计算W _hih _t-1，W _hfh _t-1，W _hoh _t-1以及W _hch _t-1；其中，向量乘法电路30包括4组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路40，具体用于：接收偏置数据缓存70发送的b _i，b _f，b _o以及b _c，并且利用向量缓存80实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算；

激活电路50，具体用于：根据加法电路40的输出进行激活操作，并输出i _t，f _t，o _t以及

状态更新电路60，具体用于：从Cell状态缓存90中获取c _t-1，并根据激活电路50的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新Cell状态缓存90中的c _t-1，并将h _t发送至第二缓存20；

偏置数据缓存70；向量缓存80；Cell状态缓存90；

需要说明的是，前文中，描述了W _x1至W _xN依次表示第一门至第N门的权重数据矩阵，而本申请具体以LSTM网络进行说明，即N＝4，也就意味着具有W _x1，W _x2，W _x3以及W _x4，依次表示第一门的权重数据矩阵，第二门的权重数据矩阵，第三门的权重数据矩阵以及第四门的权重数据矩阵。在LSTM网络中，技术人员通常将四个门结构称为输入门，遗忘门，输出门以及cell门，因此，本申请的方案中，W _x1，W _x2，W _x3以及W _x4，依次用W _xi，W _xf，W _xo以及W _xc表示，如上文的描述，W _xi，W _xf，W _xo以及W _xc依次表示输入门权重数据矩阵，遗忘门权重数据矩阵，输出门权重数据矩阵以及cell门权重数据矩阵。

同理，上文中描述的b ₁至b _N依次表示第一至第N门的偏置数据，具体到LSTM中，依次用b _i，b _f，b _o以及b _c，依次指代b ₁至b ₄。同理，上文描述的W _h1至W _hN依次表示第一门至第N门的隐状态权重数据矩阵，具体到LSTM中，用W _hi，W _hf，W _ho以及W _hc，依次指代W _h1，W _h2，W _h3以及W _h4。

具体的，在本申请的方案中，对于LSTM网络，通过第一缓存10进行W _x以及W _h的输出。对于LSTM网络而言，本申请的W _x即表示W _xi，W _xf， W _xo以及W _xc，W _h即表示W _hi，W _hf，W _ho以及W _hc，后文中也是如此。第一缓存10通过在第一状态和第二状态之间循环切换，且每次输出的并行度均为k，使得本申请的方案并不需要将W _xx _t和W _hh _t-1合并在一起计算，而是可以进行分时、分段地计算，有利于使得加速LSTM网络的系统中的各个部分不会产生停顿，从而有利于提高效率。

第一缓存10的具体结构可以根据实际需要进行设定和调整，例如在本发明的一种具体实施方式中，可参阅图4，第一缓存10包括：

第一存储单元101，用于从片外存储中获取目标数量的W _xi，目标数量的W _xf，目标数量的W _xo以及目标数量的W _xc；

第二存储单元102，用于从片外存储中获取目标数量的W _hi，目标数量的W _hf，目标数量的W _ho以及目标数量的W _hc；

分别与第一存储单元101以及第二存储单元102连接的第一多路选择器103，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择第一存储单元101进行数据输出，在第二状态下选择第二存储单元102进行数据输出；

第一存储器105，第二存储器106，第三存储器107以及第四存储器108均通过数据分类器104与第一多路选择器103连接，并且在第一多路选择器103为第一状态时，依次用于并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第一多路选择器103为第二状态时，依次用于并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

数据分类器104；

其中，目标数量大于k。

该种实施方式中，第一存储单元101可以从片外存储中获取目标数量的W _x，第二存储单元102可以从片外存储中获取目标数量的W _h，目标数量大于k。是考虑到一次性连续读取大量数据到FPGA片上，可以减少FPGA与片外存储的通信次数。可以理解的是，第一存储单元101和第二存储单元102可以设置成较大的容量。当然，在容量允许的情况下，例如W _x的全部数据一共占据2M大小，可以一次性地将这2M数据存储在第一存储单元101中，即目标数量便为2M，之后便不再需要从片外存储中获取W _x。在更多的情况下，FPGA的容量有限，例如W _x一共占据2M大小，但第一存储单元101的容量只有1M，则目标数量例如可以设置为1M，然后循环读取，即一次读取2M中的前1M，下一次是读取2M中的后1M，以此循环。

并且，本申请利用第一存储单元101存储W _x，利用第二存储单元102存储W _h，二者构成了乒乓结构，这样可以保证数据的高速连续的输出。

本申请通过第一多路选择器103实现W _x和W _h的切换，具体的，第一多路选择器103为第一状态时，选择第一存储单元101进行数据输出，即输出W _x。第一多路选择器103为第二状态时，选择第二存储单元102进行数据输出，即输出W _h。并且在输出W _x以及输出W _h时，并行度均为k，即并不是将第一存储单元101以及第二存储单元102中全部的W _x和W _h进行输出。例如，将W _x的维度表示为N _h×N _x，将W _h的维度表示为N _h×N _h，x _t的维度表示为N _x×1，偏置数据B的维度表示为N _h×1。例如一种具体场景中，W _x的维度为100×500，并行度k为10，W _h的维度为100×100，并行度k为10。则该种场景中，例如第一多路选择器103首先选取的是W _x的第一行的前10个数据，然后第一多路选择器103选取的是W _h的第一行的前10个数据，再然后第一多路选择器103选取的是W _x的第一行的第11至第20个数据，再然后第一多路选择器103选取的是W _h的第一行的第11至第20个数据，以此类推，当W _x的全部数据都被读取之后，再从头开始W _x的读取，W _h与此同理。本申请描述的偏置数据B即表示b _i，b _f，b _o以及b _c。

本申请的W _x包括了W _xi，W _xf，W _xo以及W _xc，而向量乘法电路30中包括了4组乘法阵列，因此，需要通过数据分类器104进行分类，即，需要将第一多路选择器103输出的W _xi，W _xf，W _xo以及W _xc传输到不同的乘法阵列中。W _h与此同理。并且在图4的实施方式中，第一存储器105，第二存储器106，第三存储器107以及第四存储器108均为FIFO存储器，图4中的FIFO-Wi105即表示第一存储器105，用于输出W _xi和W _hi，相应的，图4中的FIFO-Wf106，FIFO-Wo107，FIFO-Wc108依次表示第二存储器106，第三存储器107以及第四存储器108，依次用于输出W _xf和W _hf，W _xo和W _ho，W _xc和W _hc。

LSTM的计算可以用下述6个公式表示，即：

输入门i _t＝σ(W _xix _t+W _hih _t-1+b _i)

遗忘门f _t＝σ(W _xfx _t+W _hfh _t-1+b _f)

输出门o _t＝σ(W _xox _t+W _hoh _t-1+b _o)

Cell门

Cell状态

隐状态h _t＝o _t⊙tanh(c _t)

可以看出，在进行前4个公式的计算时，本申请由第一缓存10分时提供W _x和W _h，由第二缓存20分时提供x _t和h _t-1。

进一步的，在本发明的一种具体实施方式中，第一存储单元101与第二存储单元102均采用第一时钟，第一存储器105，第二存储器106，第三存储器107以及第四存储器108均采用第二时钟，且第一时钟与第二时钟相互独立。因此，可以使得第一存储器105，第二存储器106，第三存储器107以及第四存储器108中的任一存储器的输出速率低于输入速率时，将未发送的数据缓存在该存储器中。即，使得第一存储器105，第二存储器106，第三存储器107以及第四存储器108起到了缓存数据的作用。相较于统一设定一个第一时钟，如果第一存储器105，第二存储器106，第三存储器107以及第四存储器108中的任一存储器出现短暂的数据输出不及时的情况，本申请的该种实施方式，也不会影响第一存储单元101和第二存储单元102进行数据的连续输出，也就有利于进一步地保障本申请方案的加速效果。

在本发明的一种具体实施方式中，可参阅图5，第二缓存20可以具体包括：

第三存储单元201，用于从片外存储中获取奇数时刻的x _t；

第四存储单元202，用于从片外存储中获取偶数时刻的x _t；

分别与第三存储单元201以及第四存储单元202连接的第二多路选择器205，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择第三存储单元201进行数据输出，在第二状态下选择第四存储单元202 进行数据输出；

第三多路选择器206，用于从片外存储中获取h ₀并接收状态更新电路60发送的h _t，并且仅在首次选择时选择h ₀；h ₀表示t＝1时刻的隐状态数据；

第五存储单元203，用于通过第三多路选择器206获取偶数时刻的h _t以及h ₀；

第六存储单元204，用于通过第三多路选择器206获取奇数时刻的h _t；

第四多路选择器207，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择第五存储单元203进行数据输出，在第二状态下选择第六存储单元204进行数据输出；

第五多路选择器208，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择第二多路选择器205进行数据输出，在第二状态下选择第四多路选择器207进行数据输出。

需要说明的是，在图4和图5的实施方式中，存储单元均采用的是BRAM存储单元，即图4和图5中，第一存储单元101，第二存储单元102，第三存储单元201，第四存储单元202，第五存储单元203以及第六存储单元204，依次表示为第一BRAM101，第二BRAM102，第三BRAM201，第四BRAM202，第五BRAM203以及第六BRAM204。

图5的实施方式中，利用第三存储单元201从片外存储中获取奇数时刻的x _t，利用第四存储单元202从片外存储中获取偶数时刻的x _t，是考虑到单个存储单元不能实现x _t的同时的读写操作，不利于进行数据的高速连续的输出，因此，通过第三存储单元201和第四存储单元202构成乒乓结构，有利于实现数据的高速连续的输出。第五存储单元203和第六存储单元204与此同理，也是构成乒乓结构，有利于实现数据的高速连续的输出。

第三多路选择器206只会在首次选择时选择h ₀，h ₀表示t＝1时刻的隐状态数据，即第一个时间步的隐状态数据h ₀来自片外存储，其余时间步的隐状态数据均来自状态更新电路60。

此外，需要指出的是，该种实施方式中，通过奇数时刻以及偶数时刻进行x _t的划分，从而置入第三存储单元201或者第四存储单元202中，其他实施方式中，也可以设置为其他的划分方式，并不会影响本发明的实施。例如一种具体场景中，第一个，第二个以及第三个时刻的x _t均置入第三存储单元201中，之后的三个时刻的x _t均置入第四存储单元202，再然后的三个时刻的x _t均置入第三存储单元201中，以此循环。

例如一种具体场景中，第一多路选择器103首先选取的是W _x的第一行的前10个数据，同时，第五多路选择器208为第一状态，即第五多路选择器208选择的是第二多路选择器205进行数据输出。此时的第二多路选择器205则为第一状态，即此时的第二多路选择器205选择第三存储单元201进行数据输出，该种具体场景中，则是选择第一时刻的x _t的前10个数据，即x ₁的前10个数据。也就是说，此时的向量乘法电路30计算的是W _x的第一行的前10个数据与x ₁的前10个数据的乘法。

然后，第一多路选择器103选取的是W _h的第一行的前10个数据，同时，第五多路选择器208为第二状态，即第五多路选择器208选择的是第四多路选择器207进行数据输出。此时的第四多路选择器207为第一状态，即此时的第四多路选择器207选择第五存储单元203进行数据输出，该种具体场景中，则是选择h ₀的前10个数据。也就是说，此时的向量乘法电路30计算的是W _h的第一行的前10个数据与h ₀的前10个数据的乘法。

在之后，第一多路选择器103选取的是W _x的第一行的第11到第20个数据，同时，第五多路选择器208为第一状态，即第五多路选择器208选择的是第二多路选择器205进行数据输出。此时的第二多路选择器205仍然是第一状态，即此时的第二多路选择器205选择第三存储单元201进行数据输出，该种具体场景中，则是选择第一时刻的x _t的第11到第20个数据，即x ₁的第11到第20个数据。也就是说，此时的向量乘法电路30计算的是W _x的第一行的第11到第20个数据与x ₁的第11到第20个数据的乘法。

后续的过程与此类似，直到实现整个W _xx _t的计算以及实现整个W _hh _t-1的计算，此处便不再赘述。

本申请的向量乘法电路30包括4组完全相同的乘法阵列，每组乘法阵列包括k个乘法单元，可参阅图6，图6中的每个PE即为一个乘法单元，图6示出了一组乘法阵列的结构示意图，每个PE完成一个乘法操作。例如前述实施方式中，k的取值为10时，则每组乘法阵列便包括10个PE。

并且需要说明的是，将W _x的维度表示为N _h×N _x，将W _h的维度表示为N _h×N _h，x _t的维度表示为N _x×1，偏置数据B的维度表示为N _h×1。在计算W _xx _t时，权重数据W _x需要遍历

次，

表示向上取整，x _t则需要遍历

次。即可以理解的是，x _t需要重复使用，重复次数为

用一个简单的例子表述，例如W _x为3行5列的矩阵，x _t则为5行1列的向量，例如k取值为5，则x _t重复使用3次，第一次将x _t与W _x的第一行相乘，第二次将x _t与W _x的第二行相乘，最后一次是将x _t与W _x的第三行相乘，从而得到一个3行1列的向量V _x，也即整个W _xx _t的计算结果。

相应的，W _hh _t-1的过程与此同理，不再赘述。

此外，可以看出，本申请的向量乘法电路30结构十分简单，可以根据LSTM网络的尺寸结构，即当N _h和N _x的数值变化时，本申请只需要改变k的取值，便可以很好地适应不同尺寸结构的LSTM网络。

本申请的加法电路40，用于接收偏置数据缓存70发送的b _i，b _f，b _o以及b _c，并且利用向量缓存80实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算。

加法电路40需要利用向量缓存80，是因为本申请的向量乘法电路30的每一组乘法阵列，输出的是k个结果，而不是W _xx _t或者W _hh _t-1的全部结果。即加法电路40每次得到的是矩阵向量乘的部分和。此外，加法电路40还需要完成输入门i _t＝σ(W _xix _t+W _hih _t-1+b _i)，遗忘门f _t＝σ(W _xfx _t+W _hfh _t-1+b _f)，输出门o _t＝σ(W _xox _t+W _hoh _t-1+b _o)，Cell门

这四个公式中的括号内的加法运算。

在本发明的一种具体实施方式中，可参阅图7，加法电路40可以包括：

与4组加法器电路的输出均连接的向量加法电路401，用于接收偏置数据缓存70发送的b _i，b _f，b _o以及b _c，根据每组加法器电路的输出，并且利用向量缓存80实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算。

图7中仅仅示出了与向量加法电路401连接的一组log ₂k级的加法器电路。此外需要说明的是，前述实施方式中进行举例时，k的取值为10，而在实际应用中，k的取值通常会设置为2的整数倍，以避免k的取值不为2的整数倍时，加法器电路中的部分加法器存在闲置的情况。当然，k的取值不为2的整数倍并不会导致方案不能实施。

对于W _xx _t而言，例如具体以W _xix _t为例，将乘法阵列输出的每k个数据的求和称为一次累加，则经过

次累加之后，可以得到最终的输出向量W _xix _t中的一个数。而经过

次之后，可以得到维度为N _h的向量W _xix _t，即得到整个W _xix _t的计算结果V _xi。W _hih _t-1的计算与此同理，得到了W _xix _t以及W _hih _t-1之后，再将W _xix _t，W _hih _t-1以及b _i进行求和，也即实现了W _xix _t+W _hih _t-1+b _i的计算。

激活电路50通常可以同时完成4种门结构的激活操作，即在本发明的一种具体实施方式中，激活电路50具体用于：根据加法电路40的输出进行sigmoid激活操作以及tanh激活操作，并输出i _t，f _t，o _t以及

sigmoid激活操作也即前述的LSTM的计算的6个公式中的σ符号，tanh激活操作则表示前述的LSTM的计算的6个公式中的tanh符号。

状态更新电路60可以完成

以及h _t＝o _t⊙tanh(c _t)的计算。需要说明的是，在计算

时，c _t-1可以从Cell状态缓存90中获取，即在本发明的一种具体实施方式中，状态更新电路60，具体用于：

从Cell状态缓存90中获取c _t-1，并根据激活电路50的输出进行c _t以及h _t的计算的，并在计算出c _t之后利用c _t更新Cell状态缓存90中的c _t-1，并将h _t发送至第二缓存20。且

h _t＝o _t⊙tanh(c _t)；⊙表示点乘。

在计算出c _t之后，状态更新电路60利用c _t更新Cell状态缓存90中的c _t-1，用于进行下一个时间步的c _t的计算。并且需要指出的是，第一个时间步的cell状态可以来自片外存储，即c ₀可以来自片外存储。

在本发明的一种具体实施方式中，向量乘法电路30处于第一流水线中，加法电路40处于第二流水线中，激活电路和状态更新电路60处于第三流水线中，并且第一流水线，第二流水线以及第三流水线并行运行。

由LSTM的计算的6个公式可以看出，c _t的更新依赖于c _t-1，h _t的计算依赖于c _t，而计算i _t，f _t，o _t以及

时依赖于h _t-1，虽然通过高并行度的计算，能够加速矩阵向量相乘的操作，但由于这样的依赖关系的存在，使得部分数据只能串行处理，从而导致业务停顿，不利于提高效率。该种实施方式中，通过流水线的调度，进一步地提高了方案的加速效果。

该种实施方式中，考虑到不同时间步的输入数据x _t并不存在依赖关系，而且，本申请的方案中，是将W _xx _t和W _hh _t-1进行分时、分段地计算，因此，将向量乘法电路30设置在第一流水线中，加法电路40设置在第二流水线中，激活电路50以及状态更新电路60设置在第三流水线中，并且第一流水线，第二流水线以及第三流水线均并行运行。这样就不需要W _hh _t-1的结果全部得到，就可以开始后续的加法操作，激活电路50以及状态更新电路60在运行时，乘法电路30已经开始了下一个时间步的乘法操作，并且加法电路40也随即进行部分和的求和，使得本申请的系统的各部分不需要停顿，即，使得前述提到的依赖被流水线的设计所消除，LSTM网络运行效率进一步地提高。

便于理解可参阅图8，计算W _xx ₁时，并不需要得到全部结果，就可以同时进行部分数据的累加，同时，W _hh ₀进行计算，并且也是边计算边累加，即图8中示出的流水线式累加，使得乘法电路30与加法电路40同时在运行。而加法电路40中进行的向量的加法，激活，cell状态更新和隐状态数据生成这些操作需要的计算时间较长，在此过程中，向量乘法电路30又开始了下一时间步的运行，即开始了W _xx ₂的运算，紧接着进行W _hh ₁的运算，以此往复，直至所有时间步计算完毕，即各个时刻的x _t被计算完成，LSTM 网络完成了业务进程。

应用本发明实施例所提供的技术方案，具体的，考虑到门结构的计算占据了整个RNN网络的计算的绝大部分，其中主要是矩阵和向量相乘的计算，本申请设置了包括N组乘法阵列的向量乘法电路，每组乘法阵列包括k个乘法单元，有利于提高计算速度。并且考虑到传统的方案中，W _xx _t的计算和W _hh _t-1是合并在一起计算的，当x _t或者h _t-1的维度较大时，就会导致计算速度很慢。因此，本申请的方案中，将W _xx _t和W _hh _t-1进行分时、分段地计算，即不需要等到W _xx _t和W _hh _t-1的全部值产生才进行累加，有利于进一步地提高方案的加速效果。具体的，第一缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；第二缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1。向量乘法电路则会在接收到第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到第一缓存输出的W _h1至W _hN时，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1。加法电路便可以接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算。此外，本申请的方案中，每组乘法阵列包括k个乘法单元，通过对k的数值的设定和调整，使得本申请的方案可以适应不同尺寸的RNN网络，即使得本申请的方案具有很强的灵活性和扩展性。综上所述，本申请的方案有效地实现了对于RNN网络的加速，并且具有很强的灵活性和扩展性。

相应于上面的系统实施例，本发明实施例还提供了一种加速RNN网络的方法，可与上文相互对应参照。

该加速RNN网络的方法可以应用于上述任一实施例中的加速RNN网络的系统中，包括：

步骤一：第一缓存在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

步骤二：第二缓存在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

步骤三：向量乘法电路当接收到所述第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到所述第一缓存输出的W _h1至W _hN，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，所述向量乘法电路包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

步骤四：加法电路接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

步骤五：激活电路根据所述加法电路的输出进行激活操作；

步骤六：状态更新电路从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

进一步的，在本发明的一种具体实施方式中，RNN网络具体为LSTM网络，N＝4。

则上述步骤一具体为：第一缓存在第一状态和第二状态之间循环切换，且在第一状态时，分4路并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第二状态时，分4路并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

步骤二具体为：第二缓存在第一状态和第二状态之间循环切换，且在第一状态时，输出x _t，在第二状态时，输出h _t-1；

步骤三具体为：向量乘法电路当接收到第一缓存输出的W _xi，W _xf，W _xo以及W _xc时，利用4组乘法阵列分别计算W _xix _t，W _xfx _t，W _xox _t以及W _xcx _t，当接收到第一缓存输出的W _hi，W _hf，W _ho以及W _hc时，利用4组乘法阵列分别计算W _hih _t-1，W _hfh _t-1，W _hoh _t-1以及W _hch _t-1；其中，向量乘法电路包括4组乘法阵列，每组乘法阵列包括k个乘法单元；

步骤四具体为：加法电路接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算；

步骤五具体为：激活电路根据加法电路的输出进行激活操作，并输出i _t，f _t，o _t以及

步骤六具体为：状态更新电路从cell状态缓存中获取c _t-1，并根据激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

在本发明的一种具体实施方式中，向量乘法电路处于第一流水线中，加法电路处于第二流水线中，激活电路和状态更新电路处于第三流水线中，并且第一流水线，第二流水线以及第三流水线并行运行。

在本发明的一种具体实施方式中，步骤一包括：

第一存储单元从片外存储中获取目标数量的W _xi，目标数量的W _xf，目标数量的W _xo以及目标数量的W _xc；

第二存储单元从片外存储中获取目标数量的W _hi，目标数量的W _hf，目标数量的W _ho以及目标数量的W _hc；

分别与第一存储单元以及第二存储单元连接的第一多路选择器，实现第一状态和第二状态的循环切换，并且在第一状态下选择第一存储单元进行数据输出，在第二状态下选择第二存储单元进行数据输出；

第一存储器，第二存储器，第三存储器以及第四存储器均通过数据分类器与第一多路选择器连接，并且在第一多路选择器为第一状态时，依次并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第一多路选择器为第二状态时，依次并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

其中，目标数量大于k。

在本发明的一种具体实施方式中，所述第一存储单元与所述第二存储单元均采用第一时钟，所述第一存储器，所述第二存储器，所述第三存储器以及所述第四存储器均采用第二时钟，且所述第一时钟与所述第二时钟相互独立，以使得所述第一存储器、所述第二存储器、所述第三存储器以及所述第四存储器中的任一存储器的输出速率低于输入速率时，将未发送的数据缓存在该存储器中。

在本发明的一种具体实施方式中，步骤二包括：

第三存储单元从片外存储中获取奇数时刻的x _t；

第四存储单元从片外存储中获取偶数时刻的x _t；

分别与第三存储单元以及第四存储单元连接的第二多路选择器，实现第一状态和第二状态的循环切换，并且在第一状态下选择第三存储单元进行数据输出，在第二状态下选择第四存储单元进行数据输出；

第三多路选择器从片外存储中获取h ₀并接收状态更新电路发送的h _t，并且仅在首次选择时选择h ₀；h ₀表示t＝1时刻的隐状态数据；

第五存储单元通过第三多路选择器获取偶数时刻的h _t以及h ₀；

第六存储单元通过第三多路选择器获取奇数时刻的h _t；

第四多路选择器实现第一状态和第二状态的循环切换，并且在第一状态下选择第五存储单元进行数据输出，在第二状态下选择第六存储单元进行数据输出；

第五多路选择器实现第一状态和第二状态的循环切换，并且在第一状态下选择第二多路选择器进行数据输出，在第二状态下选择第四多路选择器进行数据输出。

在本发明的一种具体实施方式中，步骤四包括：

4组log ₂k级的加法器电路，每组加法器电路进行输入的k个数据的求和；

与4组加法器电路的输出均连接的向量加法电路，接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，根据每组加法器电路的输出，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算。

在本发明的一种具体实施方式中，步骤五包括：

激活电路根据加法电路的输出进行sigmoid激活操作以及tanh激活操作，并输出i _t，f _t，o _t以及

在本发明的一种具体实施方式中，步骤六包括：

状态更新电路从cell状态缓存中获取c _t-1，并根据激活电路的输出进行c _t以及h _t的计算的，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

且

h _t＝o _t⊙tanh(c _t)；⊙表示点乘。

相应于上面的方法和系统实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的加速LSTM网络的方法的步骤，可与上文相互对应参照。这里所说的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

一种加速RNN网络的系统，其特征在于，包括：

第一缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

第二缓存，用于在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

向量乘法电路，用于当接收到所述第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到所述第一缓存输出的W _h1至W _hN时，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，所述向量乘法电路包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路，用于接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

激活电路，用于根据所述加法电路的输出进行激活操作；

状态更新电路，用于从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

所述偏置数据缓存；所述向量缓存；所述cell状态缓存；

其中，W _x1至W _xN依次表示第一门至第N门的权重数据矩阵；W _h1至W _hN依次表示第一门至第N门的隐状态权重数据矩阵；b ₁至b _N依次表示第一门至第N门的偏置数据；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。
根据权利要求1所述的加速RNN网络的系统，其特征在于，RNN网络具体为LSTM网络，N＝4，包括：

第一缓存，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，分4路并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在第二状态时，分4路并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

第二缓存，具体用于：在第一状态和第二状态之间循环切换，且在第一状态时，输出x _t，在第二状态时，输出h _t-1；

向量乘法电路，具体用于：当接收到所述第一缓存输出的W _xi，W _xf，W _xo以及W _xc时，利用4组乘法阵列分别计算W _xix _t，W _xfx _t，W _xox _t以及W _xcx _t，当接收到所述第一缓存输出的W _hi，W _hf，W _ho以及W _hc时，利用4组乘法阵列分别计算W _hih _t-1，W _hfh _t-1，W _hoh _t-1以及W _hch _t-1；其中，所述向量乘法电路包括4组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路，具体用于：接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算；

激活电路，具体用于：根据所述加法电路的输出进行激活操作，并输出i _t，f _t，o _t以及

状态更新电路，具体用于：从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

其中，W _xi，W _xf，W _xo以及W _xc依次表示输入门权重数据矩阵，遗忘门权重数据矩阵，输出门权重数据矩阵以及cell门权重数据矩阵；W _hi，W _hf，W _ho以及W _hc依次表示输入门隐状态权重数据矩阵，遗忘门隐状态权重数据矩阵，输出门隐状态权重数据矩阵以及cell门隐状态权重数据矩阵；b _i，b _f，b _o以及b _c依次表示输入门偏置数据，遗忘门偏置数据，输出门偏置数据以及cell门偏置数据；i _t，f _t，o _t以及
依次表示输入门，遗忘门，输出门以及cell门；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述向量乘法电路处于第一流水线中，所述加法电路处于第二流水线中，所述激活电路和所述状态更新电路处于第三流水线中，并且所述第一流水线，所述第二流水线以及所述第三流水线并行运行。
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述第一缓存包括：

第一存储单元，用于从片外存储中获取目标数量的W _xi，目标数量的W _xf，目标数量的W _xo以及目标数量的W _xc；

第二存储单元，用于从片外存储中获取目标数量的W _hi，目标数量的W _hf，目标数量的W _ho以及目标数量的W _hc；

分别与所述第一存储单元以及所述第二存储单元连接的第一多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第一存储单元进行数据输出，在第二状态下选择所述第二存储单元进行数据输出；

第一存储器，第二存储器，第三存储器以及第四存储器均通过数据分类器与所述第一多路选择器连接，并且在所述第一多路选择器为第一状态时，依次用于并行输出W _xi，W _xf，W _xo以及W _xc，且并行度均为k，在所述第一多路选择器为第二状态时，依次用于并行输出W _hi，W _hf，W _ho以及W _hc，且并行度均为k；

所述数据分类器；

其中，所述目标数量大于k。
根据权利要求4所述的加速RNN网络的系统，其特征在于，所述第一存储单元与所述第二存储单元均采用第一时钟，所述第一存储器，所述第二存储器，所述第三存储器以及所述第四存储器均采用第二时钟，且所述第一时钟与所述第二时钟相互独立，以使得所述第一存储器、所述第二存储器、所述第三存储器以及所述第四存储器中的任一存储器的输出速率低于输入速率时，将未发送的数据缓存在该存储器中。
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述第二缓存，包括：

第三存储单元，用于从片外存储中获取奇数时刻的x _t；

第四存储单元，用于从片外存储中获取偶数时刻的x _t；

分别与所述第三存储单元以及所述第四存储单元连接的第二多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第三存储单元进行数据输出，在第二状态下选择所述第四存储单元进行数据输出；

第三多路选择器，用于从片外存储中获取h ₀并接收状态更新电路发送的h _t，并且仅在首次选择时选择h ₀；h ₀表示t＝1时刻的隐状态数据；

第五存储单元，用于通过所述第三多路选择器获取偶数时刻的h _t以及h ₀；

第六存储单元，用于通过所述第三多路选择器获取奇数时刻的h _t；

第四多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第五存储单元进行数据输出，在第二状态下选择所述第六存储单元进行数据输出；

第五多路选择器，用于实现第一状态和第二状态的循环切换，并且在第一状态下选择所述第二多路选择器进行数据输出，在第二状态下选择所述第四多路选择器进行数据输出。
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述加法电路，包括：

4组log ₂k级的加法器电路，每组加法器电路用于进行输入的k个数据的求和；

与4组加法器电路的输出均连接的向量加法电路，用于接收偏置数据缓存发送的b _i，b _f，b _o以及b _c，根据每组所述加法器电路的输出，并且利用向量缓存实现W _xix _t+W _hih _t-1+b _i，W _xfx _t+W _hfh _t-1+b _f，W _xox _t+W _hoh _t-1+b _o，以及W _xcx _t+W _hch _t-1+b _c的计算。
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述激活电路，具体用于：

根据所述加法电路的输出进行sigmoid激活操作以及tanh激活操作，并输出i _t，f _t，o _t以及
根据权利要求2所述的加速RNN网络的系统，其特征在于，所述状态更新电路，具体用于：

从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算的，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

且
h _t＝o _t⊙tanh(c _t)；⊙表示点乘。
一种加速RNN网络的方法，其特征在于，应用于如权利要求1至9任一项所述的加速RNN网络的系统中，包括：

第一缓存在第一状态和第二状态之间循环切换，且在第一状态时，分N路并行输出W _x1至W _xN，且并行度均为k，在第二状态时，分N路并行输出W _h1至W _hN，且并行度均为k；N为≥2的正整数；

第二缓存在第一状态和第二状态之间循环切换，且在第一状态时输出x _t，在第二状态时输出h _t-1；

向量乘法电路当接收到所述第一缓存输出的W _x1至W _xN时，利用N组乘法阵列分别计算W _x1x _t至W _xNx _t，当接收到所述第一缓存输出的W _h1至W _hN，利用N组乘法阵列分别计算W _h1h _t-1至W _hNh _t-1；其中，所述向量乘法电路包括N组乘法阵列，每组乘法阵列包括k个乘法单元；

加法电路接收偏置数据缓存发送的b ₁至b _N，并且利用向量缓存实现W _x1x _t+W _h1h _t-1+b ₁至W _xNx _t+W _hNh _t-1+b _N的计算；

激活电路根据所述加法电路的输出进行激活操作；

状态更新电路从cell状态缓存中获取c _t-1，并根据所述激活电路的输出进行c _t以及h _t的计算，并在计算出c _t之后利用c _t更新cell状态缓存中的c _t-1，并将h _t发送至第二缓存；

其中，W _x1至W _xN依次表示第一门至第N门的权重数据矩阵；W _h1至W _hN依次表示第一门至第N门的隐状态权重数据矩阵；b ₁至b _N依次第一至第N门的偏置数据；x _t表示t时刻的输入数据，h _t-1表示t-1时刻的隐状态数据，h _t表示t时刻的隐状态数据，c _t表示t时刻的cell状态，c _t-1表示t-1时刻的cell状态。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求10所述的加速RNN网络的方法的步骤。