WO2021051714A1

WO2021051714A1 - 一种fpga云平台加速资源的分配方法与系统

Info

Publication number: WO2021051714A1
Application number: PCT/CN2019/130083
Authority: WO
Inventors: 任智新; 樊嘉恒
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2019-09-21
Filing date: 2019-12-30
Publication date: 2021-03-25
Also published as: US11789778B2; CN110618871A; CN110618871B; US20220413918A1

Abstract

一种FPGA云平台加速资源的分配方法与系统，根据用户主机与部署在各网段的FPGA加速卡之间的延时来进行加速卡资源的分配与协调，当用户申请使用FPGA时，将FPGA资源池内与主机延时最小的FPGA加速卡分配给用户，从而实现FPGA云平台加速资源的分配；云监控管理平台可根据FPGA资源池中每块FPGA板卡的地理位置的不同，得到与虚拟机网络之间的传输延时，将延时最小的板卡分配各用户使用，另外可有效防止未被授权的用户随意访问资源池中的加速资源，保护了资源池所有者的有效权益。既有效地保护了未授权给用户使用的FPGA加速卡，又能保证分配给用户的板卡的网络延时最小，达到最优的加速效果，提升用户体验。

Description

一种FPGA云平台加速资源的分配方法与系统

本申请要求于2019年9月21日提交中国专利局、申请号为201910895899.0、发明名称为“一种FPGA云平台加速资源的分配方法与系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据中心技术领域，特别是一种FPGA云平台加速资源的分配方法与系统。

背景技术

随着“云数智”的快速发展，数据体量的急剧膨胀，数据中心对计算的需求也在迅猛上涨。诸如深度学习在视频转码、图片压缩解压缩以及基因检测等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。

为了弥补需求和性能之间的缺口，业界开始通过硬件加速，也就是采用专用协处理器的异构计算方式来提升处理性能。而随着FPGA处理能力的不断增强，越来越多的数据中心开始使用FPGA进行加速，如微软、亚马逊、BAT等公司的数据中心都大规模部署了FPGA计算卡，以同时提高强大的计算能力和足够的灵活性。为了管理这些数量和种类越来越多的FPGA加速卡，FPGA云平台应用而生，以期解决当前企业面临的FPGA加速卡部署、维护和管理难的问题。在云平台的管理下，将复杂的计算任务分配给FPGA资源池中的某一个或者某几个FPGA中进行加速，加速卡之间通过以太网进行数据传输。

在目前的技术中，对于单机单卡或者单机多卡的使用场景(每台服务器配一块或者多块FPGA加速卡)，不存在资源管理和调度的问题，CPU的加速任务直接卸载给加速卡即可。而目前正在兴起的FPGA云平台场景，是在一个FPGA盘柜内部署多张板卡，资源管理平台根据当前FPGA资源的使用和占用情况，按需分配即可。

现有的解决方案在目前FPGA加速卡的规模不大以及所有资源都在一个机柜内或者都是通过一个网络交换机进行数据交换的场景下是合适的。但是随着FPGA加速卡数量的不断增加以及数据中心地理位置的改变，成千上万块的板卡部署在不同的盘柜，不同的机房会有不同程度的网络延时，使用FPGA进行加速就是期望能更快的得到计算结果，如果在计算能力相同的情况下，用户肯定希望能选择网络传输延时最小的加速卡进行加速任务，以得到最好的加速效果。

发明内容

本发明的目的是提供一种FPGA云平台加速资源的分配方法与系统，旨在解决现有技术中FPGA加速卡数量众多造成网络延时不一，导致加速效果差的问题，实现保证分配给用户的板卡的网络延时最小，达到最优的加速效果，提升用户体验。

为达到上述技术目的，本发明提供了一种FPGA云平台加速资源的分配方法，所述方法包括以下步骤：

S1、用户请求使用FPGA加速卡，向云监控管理平台发起分配资源的请求；

S2、云监控管理平台通知虚拟机以广播的方式发送只用于测试延时的数据包；

S3、资源池内的FPGA加速卡识别该数据包，并反馈FPGA标识信息至发起广播数据包的虚拟机；

S4、虚拟机将反馈的FPGA标识信息按顺序写入内存缓存中，将最先回应的反馈数据包保存至队列的第一个位置，并将其反馈给云监控管理平台；

S5、云监控管理平台按照协议解析该反馈数据包，获取与虚拟机网络延时最小的FPGA板卡信息，并将其生成授权文件发送给用户，用户根据授权文件操作该FPGA板卡。

优选地，所述FPGA标识信息包括虚拟ID以及虚拟物理地址。

优选地，所述FPGA加速卡为非空闲状态时，丢弃虚拟机发送的用于测试延时的数据包，不作回应。

优选地，所述内存缓存为FIFO缓存。

本发明还提供了一种FPGA云平台加速资源的分配系统，所述系统包括：

资源请求模块，用于用户请求使用FPGA加速卡，向云监控管理平台发起分配资源的请求；

测试数据发送模块，用于云监控管理平台通知虚拟机以广播的方式发送只用于测试延时的数据包；

FPGA反馈模块，用于资源池内的FPGA加速卡识别该数据包，并反馈FPGA标识信息至发起广播数据包的虚拟机；

最小延时确定模块，用于虚拟机将反馈的FPGA标识信息按顺序写入内存缓存中，将最先回应的反馈数据包保存至队列的第一个位置，并将其反馈给云监控管理平台；

授权模块，用于云监控管理平台按照协议解析该反馈数据包，获取与虚拟机网络延时最小的FPGA板卡信息，并将其生成授权文件发送给用户，用户根据授权文件操作该FPGA板卡。

优选地，所述FPGA标识信息包括虚拟ID以及虚拟物理地址。

优选地，所述内存缓存为FIFO缓存。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明针对大规模部署的FPGA加速卡，根据用户主机与部署在各网段的FPGA加速卡之间的延时来进行加速卡资源的分配与协调，当用户申请使用FPGA时，将FPGA资源池内与主机延时最小的FPGA加速卡分配给用户，从而实现FPGA云平台加速资源的分配；云监控管理平台可根据FPGA资源池中每块FPGA板卡的地理位置的不同，得到与虚拟机网络之间的传输延时，将延时最小的板卡分配各用户使用，以达到最优的加速效果，另外可有效防止未被授权的用户随意访问资源池中的加速资源，保护了资源池所有者的有效权益。通过本发明，既有效地保护了未授权给用户使用的FPGA加速卡，又能保证分配给用户的板卡的网络延时最小，达到最优的加速效果，提升用户体验。

附图说明

图1为本发明实施例中所提供的一种FPGA云平台加速资源的分配方法流程图；

图2为本发明实施例中所提供的一种FPGA云平台加速资源的分配系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种FPGA云平台加速资源的分配方法与系统进行详细说明。

如图1所示，本发明公开了一种FPGA云平台加速资源的分配方法，所述方法包括以下步骤：

本发明实施例针对大规模部署的FPGA加速卡，根据用户主机与部署在各网段的FPGA加速卡之间延时来进行加速卡资源的分配与协调，当用户申请使用FPGA资源时，将FPGA资源池内与主机“距离”最近的FPGA加速卡分配给用户使用，解决目前按需分配存在的问题。

通常情况下，计算机处理器与基于FPGA的加速卡通过PCIe接口相连，而在大规模FPGA板卡的数据中心中，主机与FPGA加速卡以及加速卡与加速卡之间通过以太网进行数据交换，用户通过数据中心中的虚拟机访问资源池中的FPGA加速卡。

用户在虚拟机端通过以太网访问FPGA云平台资源池中的FPGA设备，而用户侧是被动接收监控管理平台分配的设备，所以需要云平台的管理者-云平台管理服务器，根据用作虚拟机的主机和资源池中空闲的FPGA设备的网络地址来分配最合适的设备给用户。

在所有的FPGA资源分布在一个盘柜中，通过一个网络交换机进行数据交换时，网络延时大体相同，可以随机将空闲的能满足用户逻辑资源的需求FPGA板卡分配给用户，当FPGA资源池的不断扩大，FPGA分布在不同的盘柜，需要不同的交换机进行通信，网络延时就成为一个不可忽视的因素。本发明实施例通过测试网络延时，根据网络延时的大小进行FPGA资源分配。

云监控管理平台管理着所有的FPGA加速卡的使用情况以及板卡的详细信息，包括IP、物理地址以及板卡ID等，当用户请求使用FPGA板卡时，会向云监控管理平台发起分配资源的请求。

收到请求的云监控管理平台，通知虚拟机以通过广播的方式，发送只能用于测试延时的特殊数据包，在该网段的所有FPGA板卡都能收到该数据包。

资源池内的FPGA可以识别该广播数据包，收到这个广播包之后不做任何的数据层解析，直接把包含自身虚拟ID以及虚拟物理地址的信息反馈给发起广播的服务器，如果有加速卡非空闲状态，会丢弃该数据包，不做任何的回应。

虚拟机将收到的所有反馈包按顺序写入内存开辟的一个FIFO缓存中，而根据FIFO先进先出的特点，最先回应的数据包被保存在队列的第一个位置中，虚拟机把这个包反馈给云监控管理平台。

云监控管理平台根据协议解码虚拟ID以及虚拟物理地址，从而获取与虚拟机网络延时最小的板卡信息，最后将板卡信息生成的授权文件发给用户，用户在获取到授权文件之后，才能真正操作FPGA，利用FPGA的资源进行加速。

在该交互过程中，虽然用户通过虚拟机与非授权板卡有交互数据，但所有信息均经过加密处理，用户所见只是数字，没有任何实际意义，没有获取到授权文件之前，除了测试延时用的测试包，资源池中的FPGA不会回应任何非授权用户的任何操作，而加密协议和测试用的广播包协议由云监控管理平台和FPGA资源的拥有者自定义。

本发明实施例针对大规模部署的FPGA加速卡，根据用户主机与部署在各网段的FPGA加速卡之间的延时来进行加速卡资源的分配与协调，当用户申请使用FPGA时，将FPGA资源池内与主机延时最小的FPGA加速卡分配给用户，从而实现FPGA云平台加速资源的分配；云监控管理平台可根据FPGA资源池中每块FPGA板卡的地理位置的不同，得到与虚拟机网络之间的传输延时，将延时最小的板卡分配各用户使用，以达到最优的加速效果，另外可有效防止未被授权的用户随意访问资源池中的加速资源，保护了资源池所有者的有效权益。通过本发明，既有效地保护了未授权给用户使用的FPGA加速卡，又能保证分配给用户的板卡的网络延时最小，达到最优的加速效果，提升用户体验。

如图2所示，本发明实施例还公开了一种FPGA云平台加速资源的分配系统，所述系统包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种FPGA云平台加速资源的分配方法，其特征在于，所述方法包括以下步骤：

S1、用户请求使用FPGA加速卡，向云监控管理平台发起分配资源的请求；

S2、云监控管理平台通知虚拟机以广播的方式发送只用于测试延时的数据包；

S3、资源池内的FPGA加速卡识别该数据包，并反馈FPGA标识信息至发起广播数据包的虚拟机；

S4、虚拟机将反馈的FPGA标识信息按顺序写入内存缓存中，将最先回应的反馈数据包保存至队列的第一个位置，并将其反馈给云监控管理平台；

S5、云监控管理平台按照协议解析该反馈数据包，获取与虚拟机网络延时最小的FPGA板卡信息，并将其生成授权文件发送给用户，用户根据授权文件操作该FPGA板卡。
根据权利要求1所述的一种FPGA云平台加速资源的分配方法，其特征在于，所述FPGA标识信息包括虚拟ID以及虚拟物理地址。
根据权利要求1所述的一种FPGA云平台加速资源的分配方法，其特征在于，所述FPGA加速卡为非空闲状态时，丢弃虚拟机发送的用于测试延时的数据包，不作回应。
根据权利要求1所述的一种FPGA云平台加速资源的分配方法，其特征在于，所述内存缓存为FIFO缓存。
一种FPGA云平台加速资源的分配系统，其特征在于，所述系统包括：

资源请求模块，用于用户请求使用FPGA加速卡，向云监控管理平台发起分配资源的请求；

测试数据发送模块，用于云监控管理平台通知虚拟机以广播的方式发送只用于测试延时的数据包；

FPGA反馈模块，用于资源池内的FPGA加速卡识别该数据包，并反馈FPGA标识信息至发起广播数据包的虚拟机；

最小延时确定模块，用于虚拟机将反馈的FPGA标识信息按顺序写入内存缓存中，将最先回应的反馈数据包保存至队列的第一个位置，并将其反馈给云监控管理平台；

授权模块，用于云监控管理平台按照协议解析该反馈数据包，获取与虚拟机网络延时最小的FPGA板卡信息，并将其生成授权文件发送给用户，用户根据授权文件操作该FPGA板卡。
根据权利要求5所述的一种FPGA云平台加速资源的分配系统，其特征在于，所述FPGA标识信息包括虚拟ID以及虚拟物理地址。
根据权利要求5所述的一种FPGA云平台加速资源的分配系统，其特征在于，所述FPGA加速卡为非空闲状态时，丢弃虚拟机发送的用于测试延时的数据包，不作回应。
根据权利要求5所述的一种FPGA云平台加速资源的分配系统，其特征在于，所述内存缓存为FIFO缓存。