WO2022095632A1

WO2022095632A1 - 一种基于fpga实现数据卷积运算的方法、装置和介质

Info

Publication number: WO2022095632A1
Application number: PCT/CN2021/121220
Authority: WO
Inventors: 葛海亮; 李仁刚; 阚宏伟; 郝锐; 宿栋栋; 赵坤
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-11-06
Filing date: 2021-09-28
Publication date: 2022-05-12
Also published as: CN112464150A

Abstract

一种基于FPGA实现数据卷积运算的方法、装置和介质。方法包括：获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据（S101）；其中，FPGA中设置有多个卷积运算单元，每个所述卷积运算单元包括多个FIFO队列；判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件（S102）；其中，所述目标卷积运算单元为所有所述卷积运算单元中的任意一个卷积运算单元；若所述目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算（S103）。充分利用FPGA每周期可以并发执行多条任务的特性，流水式的实现RTL级的卷积运算，有效的提升了卷积运算的处理效率。

Description

一种基于FPGA实现数据卷积运算的方法、装置和介质

本申请要求在2020年11月06日提交中国专利局、申请号为202011229940.X、申请名称为“一种基于FPGA实现数据卷积运算的方法、装置和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于FPGA实现数据卷积运算的方法、装置和计算机可读存储介质。

背景技术

近年来卷积神经网络(Convolutional Neural Network，CNN)大量用于人工智能领域。其中在CNN中不可避免的需要使用卷积运算。卷积运算对于CNN的实现十分重要。

现有技术，实现卷积运算一般是通过滑窗乘加的方式。如果是在中央处理器(Central Processing Unit，CPU)或者图形处理器(Graphics Processing Unit，GPU)上执行卷积运算，一般是使用c语言等方式实现。缺点是卷积运算过程只能顺序执行，延迟开销较大。

可见，如何提升卷积运算的处理效率，是本领域技术人员需要解决的问题。

发明内容

本申请实施例的目的是提供一种基于FPGA实现数据卷积运算的方法、装置和计算机可读存储介质，可以提升卷积运算的处理效率。

为解决上述技术问题，本申请实施例提供一种基于FPGA实现数据卷积运算的方法，包括：

获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个所述卷积运算单元包括多个FIFO队列；

判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件；其中，所述目标卷积运算单元为所有所述卷积运算单元中的任意一个卷积运算单元；

若所述目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。

可选地，所述按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据包括：

在每个时钟周期内从数据层向所述FPGA的第一FIFO队列中串行输入待处理数据；

判断所述第一FIFO队列存储的数据个数是否达到预设阈值；

若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中；其中，所述第二FIFO队列是与所述第一FIFO队列相邻的下一个FIFO队列；

将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若所述当前FIFO队列存储的数据个数达到所述预设阈值，则将所述当前FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与所述当前FIFO队列相对应的寄存器中。

可选地，所述判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件包括：

判断所述目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值；

若所述目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则执行所述对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算的步骤。

可选地，所述若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中包括：

若所述第一FIFO队列存储的数据个数达到预设阈值，则在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中。

可选地，在所述在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中之后还包括：

判断所述寄存器中存储的数据个数是否达到预设上限值；其中，所述预设上限值的取值依据卷积的核数设置；

若所述寄存器中存储的数据个数达到预设上限值，则删除所述寄存器中最先存储的一个待处理数据。

本申请实施例还提供了一种基于FPGA实现数据卷积运算的装置，包括存储单元、判断单元和运算单元；

所述存储单元，用于获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个所述卷积运算单元包括多个FIFO队列；

所述判断单元，用于判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件；其中，所述目标卷积运算单元为所有所述卷积运算单元中的任意一个卷积运算单元；

所述运算单元，用于若所述目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。

可选地，所述存储单元包括输入子单元、判断子单元、移位子单元和作为子单元；

所述输入子单元，用于在每个时钟周期内从数据层向所述FPGA的第一FIFO队列中串行输入待处理数据；

所述判断子单元，用于判断所述第一FIFO队列存储的数据个数是否达到预设阈值；

所述移位子单元，用于若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中；其中，所述第二FIFO队列是与所述第一FIFO队列相邻的下一个FIFO队列；

所述作为子单元，用于将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若所述当前FIFO队列存储的数据个数达到所述预设阈值，则将所述当前FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与所述当前FIFO队列相对应的寄存器中。

可选地，所述判断单元具体用于判断所述目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值；若所述目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则执行所述对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算的步骤。

可选地，所述移位子单元具体用于若所述第一FIFO队列存储的数据个数达到预设阈值，则在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中。

可选地，还包括第一判断单元和删除单元；

所述第一判断单元，用于在所述在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中之后，判断所述寄存器中存储的数据个数是否达到预设上限值；其中，所述预设上限值的取值依据卷积的核数设置；

所述删除单元，用于若所述寄存器中存储的数据个数达到预设上限值，则删除所述寄存器中最先存储的一个待处理数据。

本申请实施例还提供了一种基于FPGA实现数据卷积运算的装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述任意一项所述基于FPGA实现数据卷积运算的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述基于FPGA实现数据卷积运算的方法的步骤。

由上述技术方案可以看出，获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个卷积运算单元包括多个FIFO队列。每个卷积运算单元的数据处理方式相同，以所有卷积运算单元中的任意一个卷积运算单元即目标卷积运算单元为例，判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件。若目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则说明目标卷积运算单元中的各存储器均已存储满当前所需执行卷积运算的待处理处理，此时可以对目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。在该技术方案中，充分利用FPGA每周期可以并发执行多条任务的特性，流水式的实现RTL级的卷积运算，有效的提升了卷积运算的处理效率。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于FPGA实现数据卷积运算的方法的流程图；

图2为本申请实施例提供的一种单个卷积运算的架构图；

图3为本申请实施例提供的一种基于FPGA实现数据卷积运算的装置的结构示意图；

图4为本申请实施例提供的一种基于FPGA实现数据卷积运算的装置的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

接下来，详细介绍本申请实施例所提供的一种基于FPGA实现数据卷积运算的方法。图1为本申请实施例提供的一种基于FPGA实现数据卷积运算的方法的流程图，该方法包括：

S101：获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据。

在本申请实施例中，可以利用现场可编程门阵列(Field Programmable Gate Array，FPGA)硬件的并行处理的特性，实现对数据卷积运算的处理。

其中，FPGA中设置有多个卷积运算单元，每个卷积运算单元包括多个FIFO队列。

在本申请实施例中，可以在每个时钟周期内从数据层向FPGA的第一FIFO队列中串行输入待处理数据；判断第一FIFO队列存储的数据个数是否达到预设阈值。其中，预设阈值可以作为FIFO队列所能存储数据个数的上限值。

若第一FIFO队列存储的数据个数达到预设阈值，则说明此时第一FIFO队列已经存满数据，为了便于后续新数据的存入，可以将第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中；其中，第二FIFO队列是与第一FIFO队列相邻的下一个FIFO队列。依次类推，当第二FIFO队列存储的数据个数达到预设阈值，可以将第二FIFO队列中存储的待处理数据分别移位至第三FIFO队列以及与第二FIFO队列相对应的寄存器中。将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若当前FIFO队列存储的数据个数达到预设阈值，则将当前FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与当前FIFO队列相对应的寄存器中。

对于最后一个FIFO队列而言，当最后一个FIFO队列存储的数据个数达到预设阈值，直接将最后一个FIFO队列中存储的待处理数据移位到与最后一个FIFO队列相对应的寄存器中即可。

在具体实现中，可以按照单个数据移位的方式实现数据的转移。若第一FIFO队列存储的数据个数达到预设阈值，则可以在每个时钟周期内将第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中。

在向FIFO队列存储待处理数据时，可以按照时钟周期依次串行输入。在实际应用中，可以将第1个时钟上升(或者下降)沿到来，定义为时刻tclk0，第2个时钟上升(或者下降)沿到来，定义为时刻tclk1，依次类推，在第n个时钟上升(或者下降)沿到来，定义为时刻tclkn-1。在执行待处理数据的串行时，可以在每个时钟沿到来时向FIFO_1输入1个数据，比如，在tclk0时刻输入数据D00，在tclk1时刻输入数据D01，在tclk2输入数据D02，在tclk3时刻输入数据D03，在tclk4时刻输入数据D04。

S102：判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件。

在本申请实施例中，FPGA中每个卷积运算单元对数据的处理方式相同，为了便于介绍，均以所有卷积运算单元中的任意一个卷积运算单元即目标卷积运算单元为例展开介绍。

满载读取条件指的是寄存器中存储满待处理数据的条件。

若目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则说明目标卷积运算单元中的各存储器均已存储满当前所需执行卷积运算的待处理处理，此时可以执行S103。

在具体实现中，可以判断目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值。

在本申请实施例中，每个寄存器中所能存储的最大数据个数为已知量，时钟计数值可以用于表征目标卷积运算单元中所有寄存器存储满有效的待处理数据时所花费的时间。

在实际应用中，可以将第一个数据写入目标卷积运算单元的第一个FIFO队列时开始计数，每经过一个时钟周期，计数值加一，当前的时钟周期数即为计数值的取值。

当目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则可以执行S103。

寄存器的存储容量有限。在本申请实施例中，为了便于将寄存器中的待处理数据与卷积核进行乘加运算，可以依赖于卷积的核数设置寄存器所对应的上限值。

在实际应用中，在每个时钟周期内将第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中之后，可以判断寄存器中存储的数据个数是否达到预设上限值。若寄存器中存储的数据个数达到预设上限值，则说明寄存器已经存满数据，为了保证可以将有效的待处理数据顺利存入寄存器，此时可以删除寄存器中最先存储的一个待处理数据。

S103：对目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。

如图2为本申请实施例提供的一种单个卷积运算的架构图，图2中以4个FIFO队列为例，每个FIFO队列对应一个寄存器。FIFO_1 的输入是数据层a的数据串行输入，FIFO_1的输出有两个，一个是给FIFO_2的输入，一个是给寄存器1，以此类推直到FIFO_y都是这种传输方式。假设卷积核的数据为y*y，在实际应用中，每个卷积运算单元中设计有z个FIFO队列，z不小于y，选择其中的y个FIFO队列参与数据流移位。移位的目的是为了在数据层a中选中y*y个数据与卷积核进行乘加运算，从而输出卷积结果。

以目标卷积运算单元为例，在本申请实施例中，可以将目标卷积运算单元中选择的y个FIFO队列所对应的寄存器称作目标卷积运算单元所对应的目标寄存器。向卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据指的是向选择的y个FIFO队列以及这y个FIFO队列各自对应的寄存器中存储待处理数据。

在数据串行传输至卷积运算单元时，会对每个FIFO队列所能存储的数据个数进行限定，例如，每个FIFO队列中只存储M个数据，当存满M个数据，会将当前FIFO队列中最先存储的一个数据移位到下一个FIFO队列以及当前FIFO队列所对应的寄存器中，以便于当前FIFO队列可以存储新到来的数据。

每个寄存器的位宽可以设置为y*K bit，也就是每个寄存器可以装y个K bit的数据。当填满寄存器组的y个字段且当前的时钟周期数达到预设的时钟计数值，则可以将停止数据层a的数据串行输入数据给FIFO_1，当时钟沿来临时，使用寄存器数组的数据y*y和卷积核数据做卷积运算，从而输出卷积结果。

卷积核的数据维数一般比较小，所以可以直接存储在FPGA中，包括但不限于寄存器的形式。数据层a的维数一般比较大，由外部输入给FPGA，使用串行的方式提供给卷积运算单元。

在本申请实施例中，在使用寄存器数组的数据y*y和卷积核数据做卷积运算，输出卷积结果之后，可以判断数据层a中数据是否全部进入FIFO队列且参与了卷积运算。如果数据层a中数据全部进入FIFO队列且参与了卷积运算，可以结束本次操作，直接等待下一次的卷积运算指令即可。如果数据层a中数据未全部进入FIFO队列，此时可以返回S101执行按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据的步骤。

图3为本申请实施例提供的一种基于FPGA实现数据卷积运算的装置的结构示意图，包括存储单元31、判断单元32和运算单元33；

存储单元31，用于获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个卷积运算单元包括多个FIFO队列；

判断单元32，用于判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件；其中，目标卷积运算单元为所有卷积运算单元中的任意一个卷积运算单元；

运算单元33，用于若目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。

可选地，存储单元包括输入子单元、判断子单元、移位子单元和作为子单元；

输入子单元，用于在每个时钟周期内从数据层向FPGA的第一FIFO队列中串行输入待处理数据；

判断子单元，用于判断第一FIFO队列存储的数据个数是否达到预设阈值；

移位子单元，用于若第一FIFO队列存储的数据个数达到预设阈值，则将第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中；其中，第二FIFO队列是与第一FIFO队列相邻的下一个FIFO队列；

作为子单元，用于将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若当前FIFO队列存储的数据个数达到预设阈值，则将所述FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与当前FIFO队列相对应的寄存器中。

可选地，判断单元具体用于判断目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值；若目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则执行对目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算的步骤。

可选地，移位子单元具体用于若第一FIFO队列存储的数据个数达到预设阈值，则在每个时钟周期内将第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中。

可选地，还包括第一判断单元和删除单元；

第一判断单元，用于在每个时钟周期内将第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与第一FIFO队列相对应的寄存器中之后，判断寄存器中存储的数据个数是否达到预设上限值；其中，预设上限值的取值依据卷积的核数设置；

删除单元，用于若寄存器中存储的数据个数达到预设上限值，则删除寄存器中最先存储的一个待处理数据。

图3所对应实施例中特征的说明可以参见图1所对应实施例的相关说明，这里不再一一赘述。

图4为本申请实施例提供的一种基于FPGA实现数据卷积运算的装置40的硬件结构示意图，包括：

存储器41，用于存储计算机程序；

处理器42，用于执行计算机程序以实现如上述任意实施例所述的基于FPGA实现数据卷积运算的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任意实施例所述的基于FPGA实现数据卷积运算的方法的步骤。

以上对本申请实施例所提供的一种基于FPGA实现数据卷积运算的方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

一种基于FPGA实现数据卷积运算的方法，其特征在于，包括：

获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个所述卷积运算单元包括多个FIFO队列；

判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件；其中，所述目标卷积运算单元为所有所述卷积运算单元中的任意一个卷积运算单元；

若所述目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。
根据权利要求1所述的基于FPGA实现数据卷积运算的方法，其特征在于，所述按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据包括：

在每个时钟周期内从数据层向所述FPGA的第一FIFO队列中串行输入待处理数据；

判断所述第一FIFO队列存储的数据个数是否达到预设阈值；

若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中；

将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若所述当前FIFO队列存储的数据个数达到所述预设阈值，则将所述当前FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与所述当前FIFO队列相对应的寄存器中。
根据权利要求2所述的基于FPGA实现数据卷积运算的方法，其特征在于，所述判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件包括：

判断所述目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值；

若所述目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则执行所述对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算的步骤。
根据权利要求2所述的基于FPGA实现数据卷积运算的方法，其特征在于，所述若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中包括：

若所述第一FIFO队列存储的数据个数达到预设阈值，则在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中。
根据权利要求4所述的基于FPGA实现数据卷积运算的方法，其特征在于，在所述在每个时钟周期内将所述第一FIFO队列中最先存储的一个待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中之后还包括：

判断所述寄存器中存储的数据个数是否达到预设上限值；其中，所述预设上限值的取值依据卷积的核数设置；

若所述寄存器中存储的数据个数达到预设上限值，则删除所述寄存器中最先存储的一个待处理数据。
一种基于FPGA实现数据卷积运算的装置，其特征在于，包括存储单元、判断单元和运算单元；

所述存储单元，用于获取到卷积运算指令时，按照设定的数据传输规则，依次向每个卷积运算单元的FIFO队列以及相应的寄存器中存储待处理数据；其中，FPGA中设置有多个卷积运算单元，每个所述卷积运算单元包括多个FIFO队列；

所述判断单元，用于判断目标卷积运算单元所对应的所有目标寄存器是否均满足满载读取条件；其中，所述目标卷积运算单元为所有所述卷积运算单元中的任意一个卷积运算单元；

所述运算单元，用于若所述目标卷积运算单元所对应的所有目标寄存器均满足满载读取条件，则对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算。
根据权利要求6所述的基于FPGA实现数据卷积运算的装置，其特征在于，所述存储单元包括输入子单元、判断子单元、移位子单元和作为子单元；

所述输入子单元，用于在每个时钟周期内从数据层向所述FPGA的第一FIFO队列中串行输入待处理数据；

所述判断子单元，用于判断所述第一FIFO队列存储的数据个数是否达到预设阈值；

所述移位子单元，用于若所述第一FIFO队列存储的数据个数达到预设阈值，则将所述第一FIFO队列中存储的待处理数据分别移位至第二FIFO队列以及与所述第一FIFO队列相对应的寄存器中；其中，所述第二FIFO队列是与所述第一FIFO队列相邻的下一个FIFO队列；

所述作为子单元，用于将最新接收到移位数据的FIFO队列作为当前FIFO队列，在每个时钟周期内若所述当前FIFO队列存储的数据个数达到所述预设阈值，则将所述当前FIFO队列中的存储的待处理数据分别移位至与其相邻的下一个FIFO队列以及与所述当前FIFO队列相对应的寄存器中。
根据权利要求7所述的基于FPGA实现数据卷积运算的装置，其特征在于，所述判断单元具体用于判断所述目标卷积运算单元所对应的所有目标寄存器是否均已满载并且当前的时钟周期数达到预设的时钟计数值；若所述目标卷积运算单元所对应的所有目标寄存器均已满载并且当前的时钟周期数达到预设的时钟计数值，则执行所述对所述目标卷积运算单元所对应的所有目标寄存器中存储的待处理数据执行卷积运算的步骤。
一种基于FPGA实现数据卷积运算的装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至5任意一项所述基于FPGA实现数据卷积运算的方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述基于FPGA实现数据卷积运算的方法的步骤。