WO2022001128A1

WO2022001128A1 - Fpga板卡内存数据的读取方法、装置及介质

Info

Publication number: WO2022001128A1
Application number: PCT/CN2021/076885
Authority: WO
Inventors: 樊嘉恒; 王彦伟; 阚宏伟; 郝锐
Original assignee: 浪潮电子信息产业股份有限公司
Priority date: 2020-06-30
Filing date: 2021-02-19
Publication date: 2022-01-06
Also published as: US20230195310A1; CN111858038A; US11687242B1

Abstract

一种FPGA板卡内存数据的读取方法、装置及计算机可读存储介质。其中，方法包括FPGA板卡在接收主机端的硬件信息获取请求后将控制器数量和DDR内存总个数进行反馈；当接收到主机端的数据空间申请请求，基于数据空间申请请求将待计算数据进行数据切片处理；数据空间申请请求携带各DDR的专用申请空间容量和待计算数据，待计算数据的切片总数与DDR内存总个数相同；将各切片数据传输至相应的DDR空间中，并根据每片DDR中切片数据的数据存储位置通过多个控制器并行从DDR内存空间中读取数据并计算，从而有效提升FPGA板卡读取数据效率和资源利用率，进而提高整体运行效率，降低系统数据处理延时。

Description

FPGA板卡内存数据的读取方法、装置及介质

本申请要求于2020年6月30日提交中国专利局、申请号为CN202010616628.X、发明名称为“FPGA板卡内存数据的读取方法、装置及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据访问技术领域，特别是涉及一种FPGA板卡内存数据的读取方法、装置及计算机可读存储介质。

背景技术

随着用户对数据处理效率要求越来越高，多线程并行数据处理成为热点，FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)作为PAL(Programmable Array Logic，可编程阵列逻辑)、GAL(generic array logic，通用阵列逻辑)等可编程器件的基础上进一步发展的半定制电路，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。FPGA器件属于专用集成电路中的一种半定制电路，是可编程的逻辑列阵，包括可编程输入输出单元，可配置逻辑块，数字时钟管理模块，嵌入式块RAM，布线资源，内嵌专用硬核，底层内嵌功能单元。由于FPGA具有布线资源丰富，可重复编程和集成度高，投资较低的特点，在数字电路设计领域得到了广泛的应用。由FPGA板卡和CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图像处理器)等处理器构成的异构计算平台可大幅提升数据处理效率和性能尤其是复杂数据处理过程，而被广泛应用在各行各业。

Opencl(Open Computing Language，开放运算语言)为异构平台编写程序的框架，其由一门用于基于C99编写Kernels(核函数)的语言和一组用于定义并控制平台的API(Application Programming Interface，应用程序接口)组成，Kernels为在Opencl设备上运行的函数，Opencl提供了基于任务分割和数据分割的并行计算机制。

Opencl分为两部分，一部分为主机端的程序，另一部分为FPGA端的 Kernel程序。主机端的程序步骤为：

通过下述函数申请FPGA板卡上的内存，如图1的DDR0->BUFF，buff＝clCreateBuffer(context，CL_MEM_READ_ONLY，1G，NULL，&status)；

调用下述函数，将主机端的计算数据通过DMA(Direct Memory Access，直接存储器访问)，拷贝的FPGA板卡的内存上，如图1将主机OPENCL->BUFF的数据拷贝到FPGADDR0->BUFF上去：

status＝clEnqueueWriteBuffer(queue，buff0，CL_FALSE，0，1G，data，0，NULL，&write_event[0])；

将FPGA板卡存放计算数据的地址通过参数status传递给Kernel，并执行FPGA端的Kernel程序：

status＝clSetKernelArg(Kernel，buff，sizeof(structbuff)，buf)。

通过下述函数读取存在FPGA板卡内存的DDR(DoubleDataRate双倍速率)上的结果：

clEnqueueReadBuffer(queue，output_buf，CL_FALSE，0，1G，output[i]，1G，&Kernel_event，&finish_event)；

相关技术中，结合如图1所示，数据存储在FPGA板卡的DDR0的内存上，FPGA板卡在读取数据的时候，通过自身的其中一个DDR控制器来读取数据，而其它DDR内存和DDR控制器是闲置的，FPGA板卡的数据读取速度不高，资源利用率较差。

鉴于此，如何提升FPGA板卡读取数据效率和资源利用率，是所属领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种FPGA板卡内存数据的读取方法、装置及计算机可读存储介质，有效提升FPGA板卡读取数据效率和资源利用率，从而提高整体运行效率，降低系统数据处理延时。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种FPGA板卡内存数据的读取方法，应用于FPGA板卡，包括：

当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给所述主机端；

当接收到所述主机端的数据空间申请请求，基于所述数据空间申请请求将所述待计算数据进行数据切片处理；所述数据空间申请请求携带各DDR的专用申请空间容量和所述待计算数据，所述待计算数据的切片总数不大于所述DDR内存总个数；

将各切片数据传输至相应的DDR空间中，并根据每片DDR中切片数据的数据存储位置并行读取数据并计算。

可选的，所述基于所述数据空间申请请求将所述待计算数据进行数据切片处理包括：

从所述数据空间申请请求中读取各DDR的专用申请空间容量；

判断各DDR的专用申请空间容量是否均相同；

若是，则将所述待计算数据均分为n份，n为所述DDR内存总个数值；

若否，则对每片DDR的专用申请空间容量，将所述待计算数据切割为与当前片DDR的专用申请空间容量值相同的数据片，并为所述数据片设置标识信息，以用于标识所述数据片中的数据存储在所述当前片DDR内存空间。

可选的，所述将各切片数据传输至相应的DDR空间中为：

将各切片数据通过直接存储器访问传输至相应的DDR空间中。

可选的，所述将各切片数据传输至相应的DDR空间中，并根据每片DDR中切片数据的数据存储位置并行读取数据并计算包括：

将各切片数据传输至相应的DDR空间中，以使各DDR空间将数据源存放的结构体地址传递给Kernel；

调用所述Kernel根据每片DDR上的数据存储地址并行读取相应数据进行计算。

本发明实施例还提供了一种FPGA板卡内存数据的读取装置，应用于FPGA板卡，包括：

数据反馈模块，用于当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给所述主机端；

数据切片模块，用于当接收到所述主机端的数据空间申请请求，基于所述数据空间申请请求将所述待计算数据进行数据切片处理；所述数据空间申请请求携带各DDR的专用申请空间容量和所述待计算数据，所述待计算数据的切片总数不大于所述DDR内存总个数；

数据存储模块，用于将各切片数据传输至相应的DDR空间中；

数据读取模块，用于根据每片DDR中切片数据的数据存储位置并行读取数据并计算。

可选的，所述数据切片模块包括：

信息读取子模块，用于从所述数据空间申请请求中读取各DDR的专用申请空间容量；

判断子模块，用于判断各DDR的专用申请空间容量是否均相同；

均分切片子模块，用于若各DDR的专用申请空间容量均相同，则将所述待计算数据均分为n份，n为所述DDR内存总个数值；

匹配切片子模块，若各DDR的专用申请空间容量不相同，则对每片DDR的专用申请空间容量，将所述待计算数据切割为与当前片DDR的专用申请空间容量值相同的数据片，并为所述数据片设置标识信息，以用于标识所述数据片中的数据存储在所述当前片DDR内存空间。

可选的，所述数据读取模块包括：

地址反馈子模块，用于将各切片数据传输至相应的DDR空间中，以使各DDR空间将数据源存放的结构体地址传递给Kernel；

数据并行读取子模块，用于调用所述Kernel根据每片DDR上的数据存储地址并行读取相应数据进行计算。

本发明实施例另一方面提供了一种FPGA板卡内存数据的读取方法，应用于主机端，包括：

获取FPGA板卡的控制器数量和DDR内存总个数；

基于所述DDR内存总个数和所述控制器数量确定各DDR的专用申请空间容量；

调用Opencl的数据请求函数向所述FPGA板卡发送数据空间申请请求，所述数据空间申请请求携带各DDR的专用申请空间容量和待计算数据，以使所述FPGA板卡将所述待计算数据进行数据切片处理并存储相应的DDR空间。

本发明实施例还提供了一种FPGA板卡内存数据的读取装置，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述FPGA板卡内存数据的读取方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有FPGA板卡内存数据的读取程序，所述FPGA板卡内存数据的读取程序被处理器执行时实现如前任一项所述FPGA板卡内存数据的读取方法的步骤。

本申请提供的技术方案的优点在于，改变Opencl在申请FPGA板卡内存上的方式，先将计算数据进行切片，再将数据分别拷贝到FPGA板卡的相应DDR内存空间，充分利用FPGA板卡支持多DDR控制和自身并行处理的优势，通过多个DDR控制器同时读取待计算数据，有效提高数据读取效率，最大化利用已有软件硬件资源，提高资源利用率，从而提高整体运行效率，降低系统数据处理延时。

此外，本发明实施例还针对FPGA板卡内存数据的读取方法提供了相应的实现装置及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置及计算机可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一个现有技术中示例性应用场景的数据读取示意图；

图2为本发明实施例提供的一种FPGA板卡内存数据的读取方法的流程示意图；

图3为本发明实施例提供的FPGA板卡内存数据的读取方法的交互示意图；

图4为本发明实施例提供的FPGA板卡内存数据的读取装置的一种具体实施方式结构图；

图5为本发明实施例提供的FPGA板卡内存数据的读取装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图2和图3，图2为本发明实施例提供的一种FPGA板卡内存数据的读取方法的流程示意图，本发明实施例的执行主语为FPGA板卡，可包括以下内容：

S201：当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给主机端。

可以理解的是，在由主机端和FPGA板卡构成的异构计算平台中，主机端负责调度，FPGA板卡负责计算数据处理，主机端需要将待计算数据发送给FPGA板卡，FPGA板卡在计算处理完这些待计算处理后，将数据处理结构反馈给主机端。由于本申请要通过改变FPGA板卡中待计算数据的存储方式来提高数据读取效率，故在主机端在发送FPGA板卡的待计算数据之前，需要获取与其构成异构计算平台的FPGA板卡的硬件信息，硬件信息包括FPGA板卡上的DDR内存总个数，控制器总个数，通常来讲，一个控制器控制读取一个DDR内存的数据。

S202：当接收到主机端的数据空间申请请求，基于数据空间申请请求将待计算数据进行数据切片处理。

在本申请中，主机端在接收到FPGA板卡反馈的硬件信息后，需要向FPGA板卡申请容纳待计算数据的存储空间，相关技术将这些待计算数据存储在同一个存储空间中，这样读取数据由一个控制器控制，其他内存空间不用且控制器也空闲，资源浪费严重。本申请的主机端基于控制器数量、DDR内存总个数和待计算数据占用空间容量计算向FPGA板卡申请将待计算数据分开存储在多片DDR内存中所占用的空间容量，也即计算各片DDR的专用申请空间容量，每个DDR的专用申请空间容量用于存储相应的一部分待计算数据。主机端在向FPGA板卡发送数据空间申请请求，会将各DDR的专用申请空间容量和待计算数据携带在请求中，以使FPGA板卡明确要处理的待计算数据及其存储要求。在该步骤中，待计算数据可被均分至FPGA板卡中的所有DDR中，也可被存储在其中几个DDR中，本申请对此不作任何限定。相应的，FPGA板卡在将待计算数据进行切片数量时，待计算数据的切片总数不大于DDR内存总个数。

S203：将各切片数据传输至相应的DDR空间中。

在S202将待计算数据分割为多个子数据或称为数据片后，可将各切片数据通过直接存储器访问DMA传输至相应的DDR空间中。

S204：根据每片DDR中切片数据的数据存储位置并行读取数据并计算。

在S203将各数据片存储至相应DDR内存空间后，FPGA板卡要读取这些数据需要知道具体存储位置，各DDR空间可将数据源存放的结构体地址也即数据片的存储位置传递给Kernel，FPGA板卡便可从Kernel中获取待计算数据的每个数据片的存储位置信息，可选的，每个数据片的数据存储位置可携带待计算数据的标识信息、相应DDR的标识信息。由于FPGA板卡的硬件是支持多个DDR控制器，且FPGA板卡有并行处理的数据的能力，是可以同时通过多个DDR控制器来读取DDR内存上的数据，调用Kernel根据每片DDR上的数据存储地址通过相应控制器并行读取相应数据并基于计算需求对待计算数据进行处理。

在本发明实施例提供的技术方案中，改变Opencl在申请FPGA板卡内存上的方式，先将计算数据进行切片，再将数据分别拷贝到FPGA板卡的相应DDR内存空间，充分利用FPGA板卡支持多DDR控制和自身并行处理的优势，通过多个DDR控制器同时读取待计算数据，有效提高数据读取效率，最大化利用已有软件硬件资源，提高资源利用率，从而提高整体运行效率，降低系统数据处理延时。

在上述实施例中，对于如何执行步骤S202并不做限定，本实施例中给出一种数据切片方式，可包括如下步骤：

FPGA板卡从数据空间申请请求中读取各DDR的专用申请空间容量。判断各DDR的专用申请空间容量是否均相同；若是，则将待计算数据均分为n份，n为DDR内存总个数值；若否，对于每片DDR的专用申请空间容量，将待计算数据均切割为与当前片DDR的专用申请空间容量值相同的数据片，并为数据片设置标识信息。

需要说明的是，本申请中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图2-图3只是一种示意方式，并不代表只能是这样的执行顺序。

在本发明实施例中，标识信息用于标识数据片中的数据存储在当前片DDR内存空间，基于数据片的标识信息便可知道该数据片存储在哪片DDR的内存空间中。待计算数据可被均分至所有DDR中，也可基于待计算数据的数据处理逻辑划分为少于DDR总数个切片，不全部占用所有DDR内存空间且各DDR内存空间的占用空间容量也不同。举例来说，若待计算数据的B步骤与C步骤共用相同的多个参数值，那么可将实现B步骤和C步骤的计算数据放在同一个数据片中，若待计算数据的A步骤的计算结果为D步骤的输入，则可将实现A步骤和D步骤的计算数据放在同一个的数据片中。另外一种实施方式，为了保证各DDR内存数据存储的均衡，在计算各DDR的专用申请空间容量时，可将各DDR按照可用空间从大到小进行排序，可用空间大的DDR的专用申请空间容量多，可用空间小的DDR的专用申请空间容量小，以保证各DDR内存空间存储均衡。

此外，本申请还基于主机端提供了一种FPGA板卡内存数据的读取方法，请参阅图3，可包括：

获取FPGA板卡的控制器数量和DDR内存总个数；

基于DDR内存总个数和控制器数量确定各DDR的专用申请空间容量；

调用Opencl的数据请求函数向FPGA板卡发送数据空间申请请求，数据空间申请请求携带各DDR的专用申请空间容量和待计算数据，以使FPGA板卡将待计算数据进行数据切片处理并存储相应的DDR空间。

本发明实施例所述FPGA板卡内存数据的读取方法的具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例有效提升FPGA板卡读取数据效率和资源利用率，从而提高整体运行效率，降低系统数据处理延时。

为了使本领域技术人员更加清楚明白本申请的技术方案，本申请还提供了一个示意例子，若待计算数据占用空间容量为1G，FPGA板卡上有4个DDR内存和4个控制器，FPGA板卡内存数据的读取过程可包括下述内容：

A：由于DDR内存数据为4个，相应的计算数据可均分为4份，创建如下所示的内存结构体：

struct buff

{

buff0；

buff1；

buff2；

buff3；

}

B：根据待计算数据占用空间总量/DDR内存个数＝每个DDR内存要申请数据包的大小(专用申请空间容量)，可将1G/4(4个DDR内存)＝256M，所以在FPGA板卡的每个DDR上申请独立的256M内存空间，调用Opencl的函数申请数据空间。

buff0＝clCreateBuffer(context，CL_MEM_READ_ONLY，256M，NULL，&status，ddr0)；

buff1＝clCreateBuffer(context，CL_MEM_READ_ONLY，256M，NULL，&status，ddr1)；

buff2＝clCreateBuffer(context，CL_MEM_READ_ONLY，256M，NULL，&status，ddr2)；

buff3＝clCreateBuffer(context，CL_MEM_READ_ONLY，256M，NULL，&status，ddr3)。

C：将主机端的1G大小的待计算数据分成4片每片256M，分别存储到FPGA板卡的每个内存上去。

status＝clEnqueueWriteBuffer(queue，buff0，CL_FALSE，0，256M，data，0，NULL，&write_event[0])；

status＝clEnqueueWriteBuffer(queue，buff1，CL_FALSE，0，256M，data，0，NULL，&write_event[0])；

status＝clEnqueueWriteBuffer(queue，buff2，CL_FALSE，0，256M，data，0，NULL，&write_event[0])；

status＝clEnqueueWriteBuffer(queue，buff3，CL_FALSE，0，256M，data，0，NULL，&write_event[0])；

D：将数据源存放的结构体地址BUFF，传递给Kernel。FPGA的Kernel再根据每个DDR上存放的数据地址，并行读取数据。最后进行数据的计算处理。

status＝clSetKernelArg(Kernel[i]，buff，sizeof(struct buff)，buf)。

由上可知，本发明实施例改变Opencl在申请FPGA内存上的方式，先将计算数据进行切片，再将数据分别拷贝到FPGA板卡的每个内存上去可比图1所示的现有技术的读取数据的效率提高4倍。

本发明实施例还针对FPGA板卡内存数据的读取方法提供了相应的装置，进一步使得所述方法更具有实用性。其中，装置可从FPGA板卡的功能模块的角度，下面对本发明实施例提供的FPGA板卡内存数据的读取装置进行介绍，下文描述的FPGA板卡内存数据的读取装置与上文描述的FPGA板卡内存数据的读取方法可相互对应参照。

基于功能模块的角度，参见图4，图4为本发明实施例提供的FPGA板卡内存数据的读取装置在一种具体实施方式下的结构图，基于FPGA板卡，该装置可包括：

数据反馈模块401，用于当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给主机端。

数据切片模块402，用于当接收到主机端的数据空间申请请求，基于数据空间申请请求将待计算数据进行数据切片处理；数据空间申请请求携带各DDR的专用申请空间容量和待计算数据，待计算数据的切片总数与DDR内存总个数相同。

数据存储模块403，用于将各切片数据传输至相应的DDR空间中。

数据读取模块404，用于根据每片DDR中切片数据的数据存储位置并行读取数据并计算。

可选的，在本实施例的一些实施方式中，所述数据切片模块402可以包括：

信息读取子模块，用于从数据空间申请请求中读取各DDR的专用申请空间容量；

均分切片子模块，用于若各DDR的专用申请空间容量均相同，则将待计算数据均分为n份，n为DDR内存总个数值；

匹配切片子模块，若各DDR的专用申请空间容量不相同，则对每片DDR的专用申请空间容量，将待计算数据切割为与当前片DDR的专用申请空间容量值相同的数据片，并为数据片设置标识信息，以用于标识数据片中的数据存储在当前片DDR内存空间。

在本发明实施例的其他一些实施方式中，所述数据存储模块403还可为将各切片数据通过直接存储器访问传输至相应的DDR空间中的模块。

可选的，在本实施例的另一些实施方式中，所述数据读取模块404例如还可以包括：

数据并行读取子模块，用于调用Kernel根据每片DDR上的数据存储地址并行读取相应数据进行计算。

本发明实施例所述FPGA板卡内存数据的读取装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

上文中提到的FPGA板卡内存数据的读取装置是从FPGA板卡的功能模块的角度描述，进一步的，本申请还提供一种FPGA板卡内存数据的读取装置，是从主机端硬件角度描述。图5为本申请实施例提供的另一种FPGA板卡内存数据的读取装置的结构图。如图5所示，该装置包括存储器50，用于存储计算机程序；

处理器51，用于执行计算机程序时实现如上述任一实施例提到的FPGA板卡内存数据的读取方法的步骤。

其中，处理器51可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器51可以采用DSP(Digital Signal Processing，数字信号处理)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器51可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器51还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器50可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器50至少用于存储以下计算机程序501，其中，该计算机程序被处理器51加载并执行之后，能够实现前述任一实施例公开的FPGA板卡内存数据的读取方法的相关步骤。另外，存储器50所存储的资源还可以包括操作系统502和数据503等，存储方式可以是短暂存储或者永久存储。其中，操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于测试结果对应的数据等。

在一些实施例中，FPGA板卡内存数据的读取装置还可包括有显示屏52、输入输出接口53、通信接口54、电源55以及通信总线56。

本领域技术人员可以理解，图5中示出的结构并不构成对FPGA板卡内存数据的读取装置的限定，可以包括比图示更多或更少的组件，例如还可包括传感器57。

可以理解的是，如果上述实施例中的FPGA板卡内存数据的读取方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明实施例还提供了一种计算机可读存储介质，存储有FPGA板卡内存数据的读取程序，所述FPGA板卡内存数据的读取程序被处理器执行时如上任意一实施例所述FPGA板卡内存数据的读取方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本申请所提供的一种FPGA板卡内存数据的读取方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

一种FPGA板卡内存数据的读取方法，其特征在于，基于FPGA板卡，包括：

当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给所述主机端；

当接收到所述主机端的数据空间申请请求，基于所述数据空间申请请求将所述待计算数据进行数据切片处理；所述数据空间申请请求携带各DDR的专用申请空间容量和所述待计算数据，所述待计算数据的切片总数不大于所述DDR内存总个数；

将各切片数据传输至相应的DDR空间中，并根据每片DDR中切片数据的数据存储位置并行读取数据并计算。
根据权利要求1所述的FPGA板卡内存数据的读取方法，其特征在于，所述基于所述数据空间申请请求将所述待计算数据进行数据切片处理包括：

从所述数据空间申请请求中读取各DDR的专用申请空间容量；

判断各DDR的专用申请空间容量是否均相同；

若是，则将所述待计算数据均分为n份，n为所述DDR内存总个数值；

若否，则对每片DDR的专用申请空间容量，将所述待计算数据切割为与当前片DDR的专用申请空间容量值相同的数据片，并为所述数据片设置标识信息，以用于标识所述数据片中的数据存储在所述当前片DDR内存空间。
根据权利要求2所述的FPGA板卡内存数据的读取方法，其特征在于，所述将各切片数据传输至相应的DDR空间中为：

将各切片数据通过直接存储器访问传输至相应的DDR空间中。
根据权利要求3所述的FPGA板卡内存数据的读取方法，其特征在于，所述将各切片数据传输至相应的DDR空间中，并根据每片DDR中切片数据的数据存储位置并行读取数据并计算包括：

将各切片数据传输至相应的DDR空间中，以使各DDR空间将数据源存放的结构体地址传递给Kernel；

调用所述Kernel根据每片DDR上的数据存储地址并行读取相应数据进行计算。
一种FPGA板卡内存数据的读取装置，其特征在于，基于FPGA板卡，包括：

数据反馈模块，用于当接收到主机端的硬件信息获取请求，将控制器数量和DDR内存总个数发送给所述主机端；

数据切片模块，用于当接收到所述主机端的数据空间申请请求，基于所述数据空间申请请求将所述待计算数据进行数据切片处理；所述数据空间申请请求携带各DDR的专用申请空间容量和所述待计算数据，所述待计算数据的切片总数不大于所述DDR内存总个数；

数据存储模块，用于将各切片数据传输至相应的DDR空间中；

数据读取模块，用于根据每片DDR中切片数据的数据存储位置并行读取数据并计算。
根据权利要求5所述的FPGA板卡内存数据的读取装置，其特征在于，所述数据切片模块包括：

信息读取子模块，用于从所述数据空间申请请求中读取各DDR的专用申请空间容量；

判断子模块，用于判断各DDR的专用申请空间容量是否均相同；

均分切片子模块，用于若各DDR的专用申请空间容量均相同，则将所述待计算数据均分为n份，n为所述DDR内存总个数值；

匹配切片子模块，若各DDR的专用申请空间容量不相同，则对每片DDR的专用申请空间容量，将所述待计算数据切割为与当前片DDR的专用申请空间容量值相同的数据片，并为所述数据片设置标识信息，以用于标识所述数据片中的数据存储在所述当前片DDR内存空间。
根据权利要求6所述的FPGA板卡内存数据的读取装置，其特征在于，所述数据读取模块包括：

地址反馈子模块，用于将各切片数据传输至相应的DDR空间中，以使各DDR空间将数据源存放的结构体地址传递给Kernel；

数据并行读取子模块，用于调用所述Kernel根据每片DDR上的数据存储地址并行读取相应数据进行计算。
一种FPGA板卡内存数据的读取方法，其特征在于，基于主机端，包括：

获取FPGA板卡的控制器数量和DDR内存总个数；

基于所述DDR内存总个数、所述控制器数量确定各DDR的专用申请空间容量；

调用Opencl的数据请求函数向所述FPGA板卡发送数据空间申请请求，所述数据空间申请请求携带各DDR的专用申请空间容量和待计算数据，以使所述FPGA板卡将所述待计算数据进行数据切片处理并存储相应的DDR空间。
一种FPGA板卡内存数据的读取装置，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求8所述FPGA板卡内存数据的读取方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有FPGA板卡内存数据的读取程序，所述FPGA板卡内存数据的读取程序被处理器执行时实现如权利要求8所述FPGA板卡内存数据的读取方法的步骤。