WO2023093043A1

WO2023093043A1 - 一种数据处理方法、装置及介质

Info

Publication number: WO2023093043A1
Application number: PCT/CN2022/102531
Authority: WO
Inventors: 刘钧锴; 阚宏伟; 王彦伟; 张翔宇; 韩海跃
Original assignee: 浪潮电子信息产业股份有限公司
Priority date: 2021-11-26
Filing date: 2022-06-29
Publication date: 2023-06-01
Also published as: CN114138481A

Abstract

一种数据处理方法、装置及介质，包括：第一目标FPGA加速卡获取与自身连接的目标主机发送的计算开始命令，对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将中间结果数据、下一步计算类型信息发送至下一个FPGA加速卡，下一个FPGA加速卡对中间结果数据进行计算，得到新中间结果数据，将新中间结果数据以及下一步计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；通过第二目标FPGA加速卡将最终结果数据返回至第一目标FPGA加速卡；通过第一目标FPGA将最终结果数据发送至目标主机，以完成针对待处理数据的分布式计算。

Description

一种数据处理方法、装置及介质

相关申请的交叉引用

本申请要求于2021年11月26日提交中国专利局，申请号为202111425760.3，申请名称为“一种数据处理方法、装置及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及FPGA云平台技术领域，特别涉及一种数据处理方法、装置及介质。

背景技术

随着FPGA(即Field Programmable Gate Array，现场可编程与门阵列)处理能力的不断增强，越来越多的数据中心开始使用FPGA进行加速，以提高计算能力和灵活性。为了管理这些数量和种类越来越多的FPGA加速卡，FPGA云平台应用而生，以期解决当前FPGA加速卡部署、维护和管理难的问题。

目前，发明人意识到，在云平台的管理下，由于单块FPGA加速卡逻辑资源有限，在复杂的计算任务通过一块FPGA加速卡无法实现时，需要将复杂的计算任务分为多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。其中，多块FPGA加速卡间的数据传输和计算步骤之间的切换都由主机运行的软件完成，这样，多卡的分布式计算相对于单卡计算延迟会很大，计算效率低。

发明内容

第一方面，本申请公开了一种数据处理方法，包括：

在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令时，对待处理数据进行计算，得到中间结果数据；

通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

通过第二目标FPGA加速卡将最终结果数据返回至第一目标FPGA加速卡；和

通过第一目标FPGA加速卡将最终结果数据发送至目标主机，以完成针对待处理数据的分布式计算。

在其中一个实施例中，在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令之前，还包括：

通过目标主机获取参与计算的全部FPGA加速卡的配置信息，并将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡；和

通过目标主机与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

其中，全部FPGA加速卡中的非第二目标FPGA加速卡的配置信息均包括预设地址映射关系、下一个参与计算的FPGA加速卡的网络地址信息、下一步计算的计算类型信息，并且，预设地址映射关系为中间结果数据在自身的内存存储物理地址范围以及下一个参与计算的FPGA加速卡的内存存储物理地址范围之间的映射关系；第二目标FPGA加速卡的配置信息包括第一目标FPGA加速卡的网络地址信息，最终结果数据在自身的内存存储物理地址范围以及在目标主机的内存存储物理地址。

在其中一个实施例中，将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡，包括：

将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡的内部寄存器。

在其中一个实施例中，其他主机将相应的配置信息配置至与自身连接的FPGA加速卡，包括：

其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。

在其中一个实施例中，对待处理数据进行计算，得到中间结果数据，包括：

调用第一目标FPGA加速卡自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将中间结果数据写入第一目标FPGA加速卡的内存。

在其中一个实施例中，还包括：

在kernel向内存进行数据写入，且根据预设映射关系检测当前写入地址在中间结果数据在自身的内存存储物理地址范围内时，触发通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

在其中一个实施例中，通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对中间结果数据进行计算，得到新的中间结果数据，包括：

通过第一目标FPGA加速卡将中间结果数据转为数据包，并根据自身的配置信息在中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；和

将数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用kernel调用命令调用自身的kernel对中间结果数据进行相应的计算，得到新的中间结果数据。

在其中一个实施例中，通过第二目标FPGA加速卡将最终结果数据返回至第一目标FPGA加速卡，包括：

通过第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；和

在检测到中断信号时，将最终结果数据发送至第一目标FPGA加速卡。

第二方面，本申请公开了数据处理装置，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡、第二目标FPGA加速卡，其中，

第一目标FPGA加速卡，用于当获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

第二目标FPGA加速卡，用于将最终结果数据返回至第一目标FPGA加速卡；和

第一目标FPGA加速卡，用于将最终结果数据发送至目标主机，以完成针对待处理数据的分布式计算。

在其中一个实施例中，目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡；与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

第三方面，本申请实施例公开了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，上述计算机可读指令被一个或多个处理器执行时，使得上述一个或多个处理器执行上述任意一项数据处理方法的步骤。

最后，本申请实施例还公开了一种计算机设备，包括存储器及一个或多个处理器，存储器中储存有计算机可读指令，上述计算机可读指令被上述一个或多个处理器执行时，使得上述一个或多个处理器执行上述任意一项数据处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请根据一个或多个实施例提供的一种数据处理方法流程图；

图2为本申请根据一个或多个实施例提供的一种具体的FGPA云平台分布式计算主机和加速卡的结构示意图；

图3为本申请根据一个或多个实施例提供的一种FPGA加速卡静态区结构示意图；

图4为本申请根据一个或多个实施例提供的一种具体的FPGA加速卡结构示意图；

图5为本申请根据一个或多个实施例提供的一种具体的FPGA加速卡结构示意图；

图6为本申请根据一个或多个实施例提供的一种具体的数据处理方案实施架构图；

图7为本申请根据一个或多个实施例提供的一种数据处理装置结构示意图；

图8为本申请根据一个或多个实施例提供的一种计算机设备的内部结构示意图；

图9为本申请根据一个或多个实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在云平台的管理下，由于单块FPGA加速卡逻辑资源有限，在复杂的计算任务通过一块FPGA加速卡无法实现时，需要将复杂的计算任务分为多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。其中，多块FPGA加速卡间的数据传输和计算步骤之间的切换都由主机运行的软件完成，这样，多卡的分布式计算相对于单卡计算延迟会很大，计算效率低。为此本申请实施例提供了一种数据处理方案，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

参见图1所示，本申请实施例公开了一种数据处理方法，以该方法应用于计算机设备为例进行说明，包括：

步骤S11：当第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据。

在具体的实施方式中，在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令之前，还包括：通过目标主机获取参与计算的全部FPGA加速卡的配置信息，并将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡；通过目标主机与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

进一步的，在具体的实施方式中，本申请实施例可以将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡的内部寄存器；其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。其中，内部寄存器为BSP(即Board Support Package，板级支持包)中的内部寄存器。

也即，本申请实施例在计算开始之前，可以通过第一个参与分布式计算FPGA加速卡连接的目标主机对各个参与分布式计算的FPGA加速卡进行配置，在具体的实施方式中，目标主机通过PCI-E(即peripheral component interconnect express，一种高速串行计算机扩展总线标准)总线将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡的内部寄存器，通过网络与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机通过PCI-E总线将相应的配置信息配置至与自身连接的FPGA加速卡。配置完成后，目标主机向第一目标FPGA加速卡发送开始计计算命令。

并且，本申请实施例中，调用第一目标FPGA加速卡自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将中间结果数据写入第一目标FPGA加速卡的内存。同理，下一FPGA加速卡同样调用自身的kernel对待处理数据进行计算，得到相应的中间结果数据。

步骤S12：通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据。

在具体的实施方式中，本申请实施例在kernel向内存进行数据写入时，根据预设映射关系检测当前写入地址是否在中间结果数据在自身的内存存储物理地址范围内；若是，则触发通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

通过第一目标FPGA加速卡将中间结果数据转为数据包，并根据自身的配置信息在中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；将数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用kernel调用命令调用自身的kernel对中间结果数据进行相应的计算，得到新的中间结果数据。

在具体的实施方式中，kernel将中间结果数据写入第一目标FPGA加速卡的内存，第一目标FPGA加速卡中的BSP向本卡的MAC(即Media Access Control，媒体介入控制层)模块发起RDMA(即Remote Direct Memory Access，远程直接数据存取)命令，MAC模块根据配置信息将加速卡本地内存中的中间结果数据转换成RDMA数据包传输到下一加速卡内存，在发送中间结果数据的最后一个数据包中，数据包头部带有下一步计算的计算类型信息，下一加速卡接收到中间结果数据的最后一个数据包后，根据计算类型信息调用kernel进行相应的计算，下一加速卡kernel计算产生中间结果数据的同时，自动发起RDMA写命令传输给下一个加速卡，以此类推，直到计算的最后一个加速卡。最后一块加速卡kernel计算完成后将计算结果根据BSP中的配置信息，反馈给目标主机内存。

步骤S13：通过第二目标FPGA加速卡将最终结果数据返回至第一目标FPGA加速卡。

在具体的实施方式中，本申请实施例通过第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；当检测到中断信号，则将最终结果数据发送至第一目标FPGA加速卡。

步骤S14：通过第一目标FPGA加速卡将最终结果数据发送至目标主机，以完成针对待处理数据的分布式计算。

也即，第二目标FPGA加速卡根据配置信息，即第一目标FPGA加速卡的网络地址信息，以及最终结果数据在自身的内存存储物理地址范围以及在目标主机的内存存储物理地址，将最终结果数据发送至目标主机。

参见图2所示，图2为本申请实施例提供的一种具体的FGPA云平台分布式计算主机和加速卡的结构示意图。在云平台的管理下，将复杂的计算任务分配给FPGA资源池中的某一个或者某几个FPGA中进行加速。资源池内的加速卡通过PCI-E与服务器连接，加速卡之间通过以太网进行数据传输。图2中以3个加速卡和3个主机为例，包括主机1、FPGA加速卡1，主机2、FPGA加速卡2，主机3、FPGA加速卡3。FPGA加速卡内部采用支持OpenCL编程的通用架构，分为静态区(BSP)和计算单元(kernel)两个部分。参见图3所示，图3为本申请实施例提供的一种FPGA加速卡静态区结构示意图。静态区包括与主机CPU单元连接的PCI-E模块、与网络连接的网络数据处理模块(MAC)、内存控制器(DDR_controller)等模块。主机通过PCI-E调用kernel开始计算，并获得计算完成信息。主机可以通过PCI-E和MAC模块与网络上的其他主机收发信息，也可以通过PCI-E向MAC发起RDMA写命令，MAC模块将本地加速卡内存数据转化为RDMA数据包传输给以太网上的其他加速卡内存。Kernel是由用户开发的计算单元，可以用OpenCL(即Open Computing Language，开放运算语言)编写，也可以用传统RTL(即register transfer language，寄存器传递语言)语言开发。Kernel可以通过BSP中的内存控制器读写FPGA加速卡内存。

需要指出的是，现有技术中，将复杂计算任务分为2个或多个计算步骤，每个步骤分配给一块FPGA加速卡计算，多个FPGA加速卡按顺序计算完成后，返回主机最终结果。以2个计算步骤为例，第一主机通过PCI-E发送指令使第一FPGA加速卡开始计算，kernel计算完成通过PCI-E发送中断信号给第一主机，第一主机得到第一块FPGA加速卡计算完成信息后，通过PCI-E向MAC发送RDMA写命令，将第一加速卡内存中的中间结果数据传输给第二加速卡内存，第一主机确认数据传输完成后，通知第二主机进行下一步计算，第二主机通过PCI-E发送指令使第二加速卡开始计算，kernel计算完成通过PCI-E发送中断信号给第二主机，第二主机发送消息通知第一主机计算结束。从前述分布式计算过程可以看出，多块卡间数据传输和计算步骤之间切换都由主机运行的软件完成，延迟会很大。本申请提出的方案，在不改变计算单元(kernel)的前提下，可以大幅降低FPGA云平台分布式计算的延迟。

参见图4所示，本申请实施例提供了一种具体的FPGA加速卡结构示意图。本申请实施例通过BSP中的内存检测模块以及命令合并模块实现。

内存检测模块处于kernel和内存控制器之间，可以透传kernel读写内存操作。内部包含内存映射表，记录中间结果数据在本卡内存存储物理地址和下一加速卡存储物理地址的映射关系，以及下一步计算类型信息和下一加速卡网络地址信息。当kernel将数据写入加速卡内存时，内存检测模块将写地址和本卡中间结果数据的内存存储物理地址的寄存器设置对比，数据写地址属于中间结果数据在本卡的内存存储物理地址范围以内，则判定kernel写入的数据为中间结果数据；通过查内存映射表得到存入下一加速卡内存的物理地址和加速卡网络地址信息。内存检测模块向MAC模块发出RDMA写命令，MAC模块从本卡内存读取中间结果数据，组成RDMA网络数据包发送到下一加速卡。内存检测模块检测到kernel写入中间结果数据的最后一个数据时，向MAC发出带有下一步计算类型的RDMA写命令，MAC发出的最后一个中间结果数据包，数据包头部带有下一步计算类型信息。

命令合并模块处于PCI-E总线和kernel之间，PCI-E总线操作可以通过命令合并模块透传到kernel。命令合并模块可以解析MAC模块接收的RDMA数据包，得到中间结果数据的最后一包数据是否到来信息和下一步计算类型。当中间结果数据的最后一包数据到来时，将其中包含的计算类型信息转化为调用kernel开始计算的PCI-E总线写寄存器命令，发送给kernel，使kernel开始计算。命令合并模块会检测kernel计算完成后发给PCI-E的中断信号，当命令合并模块属于计算过程的最后一块加速卡，并被设置目标主机内存存储计算结果的物理地址和第一目标FPGA加速卡的网络地址信息时，将kernel计算完成的中断信号转换为RDMA写命令发给MAC模块，MAC模块将计算结果通过网络发送至第一主机的内存。

这样，在不改变FPGA加速卡计算单元设计的前提下，使多步骤分布式计算不依赖主机软件的调度，实现了自动传输中间结果数据和自动进行下一步计算以及自动返回结果的功能。在不增加开发工作量的情况下，使FPGA云平台可以分布式进行复杂的大型计算，而不大幅增加计算的延迟。

下面以两步分布式计算为例，阐述本申请提供的数据处理方案：

参见图5所示，图5为本申请实施例提供的一种具体的FPGA加速卡结构示意图，使用的FPGA加速卡为浪潮f10a加速卡。本加速卡的FPGA为intel的arria10器件，与FPGA连接的有两个10G以太网光口，以及两个4GB的SDRAM作为存储器，可以通过PCI-E连接服务器的CPU。

参见图6所示，图6为本申请实施例提供的一种具体的数据处理方案实施架构图。计算的两个步骤分别由网络连接的两个FPGA加速卡完成。两块FPGA加速卡分别通过PCI-E与主机连接。首先第一主机通过PCI-E设置第一FPGA加速卡的BSP寄存器，确定第一步计算产生的中间结果数据在本加速卡内存存储物理地址范围、第二主机网络地址和中间结果数据在第二主机内存中的物理地址范围，以及第二步计算类型信息。第一主机通过网络将配置信息传递给第二主机，第二主机通过PCI-E配置第二FPGA加速卡的BSP寄存器，确定第一FPGA加速卡网络地址和最终结果数据在本卡以及第一主机内存中的存储物理地址。第一主机通过PCI-E调用第一FPGA加速卡的kernel开始计算，kernel将计算结果写入本卡内存，BSP中的内存检测模块检测kernel写本卡内存操作，并判断出写地址在设置的中间结果数据的存储物理地址范围之内，通过查表得到中间结果数据在第二FPGA加速卡的内存物理地址，向MAC模块发送RDMA写命令。MAC模块根据RDMA写命令，将本卡内存中的中间结果数据组成RDMA网络数据包发送到第二FPGA加速卡的MAC模块，第二FPGA加速卡的MAC模块将RDMA数据包中的中间结果数据写入第二FPGA加速卡中相应的内存物理地址中。当第一FPGA加速卡的BSP中的内存检测模块检测kernel写入中间结果数据的最后一个数据时，向MAC模块发送带有下一步计算类型信息的RDMA写命令，MAC模块发出带有下一步计算类型信息的最后一个中间结果数据包。当中间结果数据的最后一包到达第二FPGA加速卡MAC后，命令合并模块检测到中间结果最后一包到达并且得到下一步计算类型信息，将此信息转化为PCI-E总线写寄存器命令发送给kernel。第二块加速卡kernel开始计算，计算完成后，kernel发出中断信号。命令合并模块将kernel计算完成中断信号，转换为RDMA写命令发送给MAC模块。MAC模块将最终结果数据转化为RDMA数据包发送给第一FPGA加速卡的MAC模块，第一FPGA加速卡的MAC模块通过PCI-E将最终结果数据发送至第一主机内存中，第一主机软件轮询第一主机内存的计算结果缓存区，得到最终结果数据，分布式计算完成。

可见，本申请实施例通过对参与分布式计算的各个FPGA加速卡进行配置，实现中间结果数据的自动传输、以及中间计算步骤对应的加速卡的自动计算以及最终结果数据的自动返回，避免了主机软件参与分布式计算过程，能够降低多块FPGA加速卡进行分布式计算时的计算延迟，从而提升计算效率。

参见图7所示，本申请实施例提供了一种数据处理装置，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡11、第二目标FPGA加速卡12，其中，

第一目标FPGA加速卡11，用于当获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡12计算完成，得到最终结果数据；

第二目标FPGA加速卡12，用于将最终结果数据返回至第一目标FPGA加速卡11；

第一目标FPGA加速卡11，用于将最终结果数据发送至目标主机，以完成针对待处理数据的分布式计算。

在具体的实施方式中，目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡；与其他主机通信，分别向其他主机发送其他主机各自对应的配置信息，以便其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

并且，在具体的实施方式中，目标主机将第一目标FPGA加速卡对应的配置信息配置至第一目标FPGA加速卡的内部寄存器；其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。

第一目标FPGA加速卡调用自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将中间结果数据写入第一目标FPGA加速卡的内存。

进一步的，在kernel向内存进行数据写入时，第一目标FPGA加速卡根据预设映射关系检测当前写入地址是否在中间结果数据在自身的内存存储物理地址范围内；若是，则触发通过第一目标FPGA加速卡根据自身的配置信息将中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。

并且，第一目标FPGA加速卡将中间结果数据转为数据包，并根据自身的配置信息在中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；将数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用kernel调用命令调用自身的kernel对中间结果数据进行相应的计算，得到新的中间结果数据。

第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；当检测到中断信号，则将最终结果数据发送至第一目标FPGA加速卡。

进一步的，本申请实施例还公开了一种非易失性计算机可读存储介质，该非易失性计算机可读存储介质中存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时可实现上述任意一个实施例的数据处理方法的步骤。

关于上述数据处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，上述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上上述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种数据处理方法，其特征在于，应用于FPGA云平台，包括：

在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令时，对待处理数据进行计算，得到中间结果数据；

通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡；和

通过第一目标FPGA加速卡将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。
根据权利要求1所述的数据处理方法，其特征在于，所述在第一目标FPGA加速卡获取到与自身连接的目标主机发送的计算开始命令时之前，还包括：

通过所述目标主机获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；和

通过所述目标主机与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

其中，所述全部FPGA加速卡中的非第二目标FPGA加速卡的配置信息均包括预设地址映射关系、下一个参与计算的FPGA加速卡的网络地址信息、下一步计算的计算类型信息，并且，所述预设地址映射关系为中间结果数据在自身的内存存储物理地址范围以及下一个参与计算的FPGA加速卡的内存存储物理地址范围之间的映射关系；所述第二目标FPGA加速卡的配置信息包括所述第一目标FPGA加速卡的网络地址信息，最终结果数据在自身的内存存储物理地址范围以及在所述目标主机的内存存储物理地址。
根据权利要求2所述的数据处理方法，其特征在于，所述将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡，包括：

将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡的内部寄存器；

所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡，包括：

所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡的内部寄存器。
根据权利要求2所述的数据处理方法，其特征在于，所述对待处理数据进行计算，得到中间结果数据，包括：

调用所述第一目标FPGA加速卡自身的kernel对待处理数据进行计算，得到中间结果数据，以便该kernel将所述中间结果数据写入所述第一目标FPGA加速卡的内存。
根据权利要求4所述的数据处理方法，其特征在于，还包括：

在kernel向所述内存进行数据写入，且根据所述预设映射关系检测当前写入地址在所述中间结果数据在自身的内存存储物理地址范围内时，触发所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡的步骤。
根据权利要求1至5任一项所述的数据处理方法，其特征在于，所述通过所述第一目标FPGA加速卡根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA加速卡对所述中间结果数据进行计算，得到新的中间结果数据，包括：

通过所述第一目标FPGA加速卡将所述中间结果数据转为数据包，并根据自身的配置信息在所述中间结果数据的最后一个数据包中添加下一步计算的计算类型信息；和

将所述数据包发送至下一个FPGA加速卡，以便下一个FPGA加速卡接收到最后一个数据包时，根据最后一个数据包中的计算类型信息生成kernel调用命令，并利用所述kernel调用命令调用自身的kernel对所述中间结果数据进行相应的计算，得到新的中间结果数据。
根据权利要求1至6任一项所述的数据处理方法，其特征在于，所述通过所述第二目标FPGA加速卡将所述最终结果数据返回至所述第一目标FPGA加速卡，包括：

通过所述第二目标FPGA加速卡检测kernel计算完成后发给PCIE的中断信号；和

在检测到所述中断信号时，将所述最终结果数据发送至所述第一目标FPGA加速卡。
一种数据处理装置，其特征在于，应用于FPGA云平台，包括参与分布式计算的多个FPGA加速卡，以及分别与所述多个FPGA加速卡连接的主机，多个FPGA加速卡中包括第一目标FPGA加速卡、第二目标FPGA加速卡，其中，

所述第一目标FPGA加速卡，用于当获取到与自身连接的目标主机发送的计算开始命令，则对待处理数据进行计算，得到中间结果数据；根据自身的配置信息将所述中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，以便下一个FPGA 加速卡对所述中间结果数据进行计算，得到新的中间结果数据，并根据自身的配置信息将所述新的中间结果数据以及下一步计算的计算类型信息发送至下一个FPGA加速卡，直到最后一个参与计算的第二目标FPGA加速卡计算完成，得到最终结果数据；

所述第二目标FPGA加速卡，用于将所述最终结果数据返回至所述第一目标FPGA加速卡；和

所述第一目标FPGA加速卡，用于将所述最终结果数据发送至所述目标主机，以完成针对所述待处理数据的分布式计算。
根据权利要求8所述的数据处理装置，其特征在于，

所述目标主机，还用于获取参与计算的全部FPGA加速卡的配置信息，并将所述第一目标FPGA加速卡对应的配置信息配置至所述第一目标FPGA加速卡；与其他主机通信，分别向所述其他主机发送所述其他主机各自对应的配置信息，以便所述其他主机将相应的配置信息配置至与自身连接的FPGA加速卡；

其中，所述全部FPGA加速卡中的非第二目标FPGA加速卡的配置信息均包括预设地址映射关系、下一个参与计算的FPGA加速卡的网络地址信息、下一步计算的计算类型信息，并且，所述预设地址映射关系为中间结果数据在自身的内存存储物理地址范围以及下一个参与计算的FPGA加速卡的内存存储物理地址范围之间的映射关系；所述第二目标FPGA加速卡的配置信息包括所述第一目标FPGA加速卡的网络地址信息，最终结果数据在自身的内存存储物理地址范围以及在所述目标主机的内存存储物理地址。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-7任意一项所述的方法的步骤。
一种计算机设备，其特征在于，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-7任意一项所述的方法的步骤。