WO2023040683A1

WO2023040683A1 - 传输数据的方法和输入输出设备

Info

Publication number: WO2023040683A1
Application number: PCT/CN2022/116822
Authority: WO
Inventors: 曲会春; 李君瑛; 吉辛维克多; 古列维奇·埃琳娜; 陆钢
Original assignee: 华为技术有限公司
Priority date: 2021-09-17
Filing date: 2022-09-02
Publication date: 2023-03-23

Abstract

一种传输数据的方法和输入输出设备。该方法应用于计算集群，该计算集群包括多个计算设备，第一计算设备和第二计算设备是该多个计算设备中的任意两个计算设备，该第一计算设备和该第二计算设备通过第一通道通信。该第一计算设备中部署有第一IO设备，该第二计算设备中部署有第二IO设备。该第一IO设备获取待处理请求，根据存储策略存储该待处理请求，然后通过该第一通道将该待处理请求发送至第二IO设备。该存储策略用于指示在该第一IO设备中存储该待处理请求的方式。上述技术方案中，第一IO设备可以根据存储策略来确定如何存储待处理请求，从而可以更加合理地使用第一IO设备的存储空间。

Description

传输数据的方法和输入输出设备

本申请要求于2021年09月17日提交俄罗斯联邦专利局、申请号为RU2021127325申请名称为“传输数据的方法和输入输出设备”的俄罗斯联邦专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，更具体地，涉及传输数据的方法和输入输出设备。

背景技术

远程直接内存存取(Remote Direct Memory Access，RDMA)是为了解决网络传输中计算设备数据处理的延迟而产生的一种技术。利用RDMA技术可以将数据直接从一台计算设备的内存传输到另一台计算设备，无需对方操作系统的接入。这样可以允许高吞吐、低时延的网络通信，尤其适合在计算集群中有广泛应用。

计算集群中通常包括两个以上的计算设备，并且每个计算设备中会运行多个进程。假设计算集群中包括N _node个计算设备，每个计算设备中有P个进程(N _node是大于或等于2的正整数，P为大于或等于1的正整数)。如果要在该计算集群中实现全互联，那么每个计算设备中需要建立(N _node-1)×P×P条队列(queue pairs，QP)对且每条队列对中都有一个发送队列(send queue，SQ)。这需要占用大量内存。例如，假设集群中共包括10个计算设备，那么每个计算设备中输入输出(input output，IO)设备的内存占用将达到太字节(terabyte，TB)级别。

发明内容

本申请提供一种传输数据的方法和输入输出设备，可以支持更大规模的计算集群。

第一方面，本申请提供一种数据传输的方法，该方法应用于计算集群，该计算集群包括多个计算设备，第一计算设备和第二计算设备是该多个计算设备中的任意两个计算设备，该第一计算设备和该第二计算设备通过第一通道通信。该第一计算设备中部署有第一IO设备，该第二计算设备中部署有第二IO设备。该第一IO设备获取待处理请求，根据存储策略存储该待处理请求，然后通过该第一通道将该待处理请求发送至第二IO设备。该存储策略用于指示在该第一IO设备中存储该待处理请求的方式。

上述技术方案中，第一IO设备可以根据存储策略来确定如何存储待处理请求，而不是直接将该待处理请求保存在自己的存储空间内。这样，可以更加合理地使用第一IO设备的存储空间，从而可以使用较少的存储空间保存需要发送到计算集群的其他计算设备中的待处理请求。这样，在IO设备的存储空间不变的情况下，利用上述技术方案的IO设备可以与更多的IO设备通信，从而可以支持更大规模的计算集群，提升RDMA的可扩展性。

在一种可能的实现方式中，该第一IO设备根据存储策略存储该待处理请求，包括：该第一IO设备确定该待处理请求的目的计算设备的标识；该第一IO设备根据该目的计算设备的标识确定存储该待处理请求的第一共享发送队列SSQ，该第一SSQ用于存储与该目的计算设备关联的待处理请求。

利用上述技术方案，IO设备可以按照计算集群中的计算设备的数目分配用于存储待处理请求的SSQ的存储空间。

例如，如果计算集群中包括N个计算设备，那么该第一IO设备可以分配N-1个存储空间，该N-1个存储空间与N-1个通道一一对应，该N-1个通道分别是该第一计算设备与该N个计算设备中除该第一计算设备以外的N-1个计算设备之间的通信通道。该N-1个存储空间中的每个存储空间可以用于存储N _cos个SSQ。N _cos是第一IO支持的服务等级数目，N _cos是大于或等于1的正整数，一般情况下，N _cos的取值不会大于8。因此，第一IO设备最多需要建立N _cos×(N-1)个SSQ。通常情况下N _cos的取值会小于计算设备运行的进程数目。因此与现有技术相比，在IO设备的存储空间不变的情况下，利用上述技术方案的IO设备可以与更多的IO设备通信，从而可以支持更大规模的计算集群，提升RDMA的可扩展性。

上述这种N-1个存储空间与N-1个通道一一对应的情况可以称为静态关联。在第一方面的一种可能的实现方式中，第一IO设备中的SSQ与通道可以是动态关联的。在该第一IO设备根据该目的计算设备的标识确定存储该待处理请求的第一共享发送队列SSQ之前，该方法还包括：该第一IO设备创建第一SSQ集合，该第一SSQ集合包括至少一个SSQ，该至少一个SSQ包括该第一SSQ；该第一IO设备将该第一SSQ集合与第一通道绑定，该第一SSQ集合用于存储通过该第一通道发送的待处理器请求。

在动态管理的实现方式中，第一IO设备可以创建一个SSQ资源池，该SSQ资源池占用的存储空间大小可以小于N-1个存储空间的大小。在需要保存通过第一通道发送的待处理请求之前时，该第一IO设备可以从该SSQ资源池中确定该第一SSQ集合并将该第一SSQ集合与第一通道绑定。在没有需要通过第一通道发送的待处理请求的情况下，该第一IO设备可以将该第一SSQ集合与该第一通道解绑。这样，该第一SSQ集合中的SSQ会被回收到SSQ资源池中，以便于供通过其他通道发送的待处理请求使用。这样，可以更进一步节省SSQ占用的存储空间大小，从而更进一步提升支持的计算集群的规模和RDMA的可扩展性。

在另一种可能的实现方式中，在该第一SSQ集合包括多个SSQ的情况下，该多个SSQ与多个服务等级CoS一一对应，其中该第一SSQ对应的CoS与该待处理请求的CoS相同。

上述技术方案支持CoS，因此不同CoS的待处理请求可以被存储到对应的SSQ中。

在另一种可能的实现方式中，在该第一SSQ中的待处理请求的处理时间超过预设阈值的情况下，将该第一SSQ中的待处理请求存储到等待共享发送队列PSSQ中。

上述技术方案可以将堵塞在SSQ前的待处理请求搬移到PSSQ中。这样可以让后续的SSQ先被处理。这样可以有效降低线头阻塞(head-of-line blocking)发生的概率

在另一种可能的实现方式中，该第一输入输出IO设备获取待处理请求，包括：该第一IO设备从第一提交队列获取该待处理请求，该第一提交队列用于存储与其关联的进程的待处理请求，该第一提交队列存储于该第一计算设备的内存中。

在另一种可能的实现方式中，该第一IO设备包括网络接口控制器、智能网络接口控制器、主机总线适配器、主机通道适配器、加速器、数据处理器、图像处理器、人工智能设备、软件定义基础设施中的至少一种。

第二方面，本申请还提供了一种IO设备，该IO设备包括用于实现第一方面或第一方面任一种可能的实现方式的单元。

第三方面，本申请还提供一种计算机设备，该计算机设备包括处理器，该处理器用于与存储器耦合，读取并执行该存储器中的指令和/或程序代码，以执行第一方面或第一方面的任一种可能的实现方式。

可选的，该存储器还可以用于存储SSQ。

第四方面，本申请还提供一种芯片系统，该芯片系统包括逻辑电路，该逻辑电路用于与输入/输出接口耦合，通过该输入/输出接口传输数据，以执行第一方面或第一方面任一种可能的实现方式。

第五方面，本申请还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，当该计算机存储介质在计算机上运行时，使得计算机执行如第一方面或第一方面的任一种可能的实现方式。

第六方面，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行如第一方面或第一方面的任一种可能的实现方式。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1是一个计算集群的示意图。

图2是本申请实施例提供的计算设备的示意性流程图。

图3是根据本申请实施例提供的数据传输方法的示意性流程图。

图4是根据本申请实施例提供的一种数据传输的方法的示意性流程图。

图5是根据本申请实施例提供的IO设备的示意性结构框图。

图6是根据本申请实施例提供的IO设备的结构框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例中所称的芯片可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processor unit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是应用处理器(application processor，AP)，或其他集成芯片。

计算集群(可以简称为集群)是一种计算系统。计算集群通过将一组计算设备连接起来高度紧密地协作完成计算工作。计算集群中的单个计算设备可以称为节点。图1是一个计算集群的示意图。如图1所示，计算集群100包括六个计算设备，分别为计算设备111、计算设备112、计算设备113、计算设备114、计算设备115和计算设备116。计算设备111至计算设备116通过网络120连接。

下面结合图2对图1所示中的计算设备进行介绍。图2所示的计算设备200可以是图1所示的计算设备111至计算设备116中的任一个计算设备。

如图2所示的计算设备200包括主机210、IO互联通道220以及IO设备230。其中，主机210可以通过IO互联通道220连接IO设备230。

主机210可以是运算核心和控制核心，是信息处理、程序运行的最终执行单元。主机210包括处理器211和第一存储器222，该处理器可以为中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。该处理器211还可以为一种片上芯片(system of chip，SoC)或者嵌入式处理器。处理器211具有处理指令、执行操作、处理数据等功能。第一处理器211可以为多个进程分配独立的存储器资源，从而运行多个进程。第一存储器222可以由随机存取器(random access memory，RAM)或其他存储介质实现。第一存储器222可用于存储多个进程的程序代码。

IO互联通道220是主机210与IO设备230之间的互连机制，例如，高速串行计算机扩展总线标准(peripheral component interconnect express，PCIe)、计算机快速链接(compute express link，CXL)、缓存一致互联协议(cache coherent interconnect for accelerators，CCIX)、统一总线(unified bus，UB或Ubus)等等。

IO设备230是指可以与主机210进行数据传输的硬件，用于接收和执行主机210发送的待处理请求。IO设备230可以为网络接口控制器(network interface controller，NIC)、智能NIC(smart-NIC)、主机总线适配器(host bus adapter，HBA)、主机通道适配器(host channel adaptor，HCA)、加速器(accelerator)、数据处理器(data processing unit，DPU)、图像处理器(graphics processing unit，GPU)、人工智能(artificial intelligence，AI)设备、软件定义基础设施(software defined infrastructure，SDI)等等中的至少一种。IO设备230可以包括第二处理器231和第二存储器232。第二存储器231可以由随机存取器(random access memory，RAM)或其他存储介质实现。

下面结合图3，对本申请实施例进行介绍。为了便于描述，在对如图3所示的实施例进行描述时，假设如图2所示的计算设备200为图1所示的计算系统100中的计算设备116。此外，为了便于描述，以下假设主机210中存在P个进程，分别称为进程1至进程P。如图3所示，在主机210中存在P个进程的情况下，主机210创建P个提交队列(submission queue，SuQ或SQ)集合，分别称为SuQ集合1至SuQ集合P。该P个SuQ集合分别与P个进程相关联。换句话说，SuQ集合1与进程1关联，SuQ集合2与进程2关联，SuQ集合3与进程3关联，以此类推。P个SuQ集合中的每个SuQ集合用于存储关联的进程的待处理请求。存储在SuQ中的待处理请求可以称为提交队列元素(submission queue element，SuQE)。

例如，进程1创建了工作请求(work request，WR)1。WR 1被转换为SuQE保存在SuQ集合1中。

此外，如图3所示，每个SuQ集合中包括四个SuQ。四个SuQ与四个服务等级(Class of Service，CoS)一一对应。SuQE在创建的时候就分配了CoS。在将SuQE保存在关联的SuQ集合时，可以根据SuQE的CoS，将SuQE保存至对应的SuQ中。

还以WR 1为例，假设WR 1被转化为三个SuQE，分别为SuQE 1，SuQE 2和SuQE 3，SuQE 1至SuQE 3的CoS等级均为1，那么SuQE 1至SuQE 3可以保存至SuQ集合1中的SuQ 1。

假设进程2创建了工作请求(work request，WR)2。WR 2被转换为SuQE 4至SuQE 6，且SuQE 4至SuQE 6的CoS等级均为4，那么SuQE 4至SuQE 6保存在SuQ集合2的SuQ 4中。

上述技术方案中，主机侧的SuQ集合是基于进程进行创建，同时支持QoS能力，通过SuQ实现主机侧WR到IO设备的缓冲

主机210在将SuQE存储到SuQ之后，可以通过门铃的方式通知IO设备230来处理SuQ中的SuQE。

IO设备230确定SuQE的目的计算设备，然后将SuQE存储到对应的共享发送队列(shared send queue，SSQ)集合中。共享发送队列也可以称为激活队列(active queue，AQ)。

在一些实施例中，IO设备230创建的SSQ集合与通道是静态关联的。换句话说，IO设备230创建的SSQ集合数目与通道数目是相同的。每个SSQ集合与一个通道关联。

例如，在图1所示的计算集群中共包括6个计算设备。因此，计算设备200(即计算设备116)需要有五个通道分别与计算设备111至计算设备115通信。这五个通道可以分别称为通道1至通道5。换句话说，计算设备116通过通道1与计算设备111通信，计算设备116通过通道2与计算设备112通信，计算设备116通过通道3与计算设备113通信，以此类推。在静态关联的场景下，IO设备230可以创建五个SSQ集合。这五个SSQ集合分别与五个通道相关联。如果IO设备230确定SuQE的目的计算设备是计算设备111，那么IO设备230可以将该SuQE存储到与通道1相关联的SSQ集合中。IO设备230可以将与通道1相关联的SSQ集合中的待处理请求通过通道1发送至计算设备111。SSQ中的待处理请求可以称为共享发送队列元素(shared send queue element，SSQE)将待处理请求发送至

在另一些实施例中，IO设备230创建的SSQ集合与通道是动态关联的。在此情况下，IO设备230可以创建一个SSQ资源池，该SSQ资源池中至少包括N _CoS个SSQ，N _CoS为一个SuQ集合中包括的SuQ的数量，N _CoS为大于或等于1的正整数。在接收到主机210的门铃通知后，IO设备230可以从SSQ资源池中确定SSQ资源，创建SSQ集合并将SSQ集合与待处理请求的目的计算设备对应的通道绑定。

例如，图3所示的实施例就是SSQ集合与通道动态关联的场景。如图3所示，IO设备230确定有需要发送给计算设备111的待处理请求，有需要发送给计算设备112的待处理请求以及有需要发送给计算设备115的待处理请求。在此情况下，IO设备230创建SSQ集合1并将SSQ集合1与通道1绑定，创建SSQ集合2并将SSQ集合2与通道2绑定，创建SSQ集合3并将SSQ集合3与通道5绑定。这样，发往计算设备111的待处理请求可以保存在SSQ集合1中，发往计算设备112的待处理请求可以保存在SSQ集合2中，发往计算设备115的待处理请求可以保存在SSQ集合3中。

SSQ集合中的SSQ可以通过以下两种方式实现：

方式1，SSQ通过循环缓存(ring buffer)实现。

如果SSQ是通过循环缓存实现，那么SSQE是按照顺序被执行的。例如，假设分配给SSQ的存储空间总共可以存储8个SSQE，分别为SSQE 1至SSQE 8，且SSQE 1是第一个SSQE，SSQE 2是第二个SSQE，以此类推。那么在循环缓存实现的情况下，SSQE 1至SSQE8会被依次被发送。在SSQE 8完成发送，继续发送存储在将原SSQE 1的缓存空间的SSQE。换句话说，在循环缓存实现中，在确定了第一个SSQE存储空间后，就可以确定后续需要发送的SSQE的存储空间，并且再处理完最后一个SSQE后，可以再处理第一个SSQE的存储空间保存的新的SSQE。

方式2，SSQ通过链表(linked list)实现。

如果SSQ是通过链表实现，那么每个SSQE中都记录有下一个需要处理的SSQE的信息(可以称为链接信息)。假设分配给SSQ的存储空间总共可以存储8个SSQE，分别为SSQE 1至SSQE 8。那么在通过链表实现的情况下，第一个发送的可能是SSQE 2；如果根据SSQE 2中的链接信息确定下一个发送的SSQE是SSQE 6，那么在发送完SSQE 2后可以发送SSQE 6；如果根据SSQE 6的链接信息确定下一个发送的是SSQE 1，那么在发送完SSQE 6后可以发送SSQE 1。

前文提到的SuQ与后文提到的PSSQ也可以通过循环缓存(ring buffer)实现或者链表(linked list)实现，具体实现方式与SSQ的实现方式相同，为了简洁，在此就不再赘述。

在SSQ集合与通道静态关联的场景中，IO设备230中SSQ占用的内存总大小由CoS的数目、SSQ的队列深度、计算集群中的计算设备的数目和SSQE的大小决定。SSQ占用的内存总大小可以根据以下公式确定：

N _SSQ＝N _CoS×(N _node-1)×depth _queue×SSQE _size， (公式1)

其中N _SSQ表示IO设备230中SSQ占用的内存总大小，N _CoS表示CoS的数目(也相当于一个SSQ集合中包括的SSQ数目)，N _node为计算集群中的计算设备的数目，depth _queue表示SSQ的队列深度(即一个SSQ中包括的SSQE的数目)，SSQE _size表示一个SSQE的大小。而在SSQ集合与通道动态管理的场景中，IO设备230中SSQ占用的内存总大小可以小于N _SSQ。

而如果是全互联结构的计算集群，那么每个计算设备的IO设备中发送队列(send queue，SQ)占用的内存总大小为：

N _SQ＝(N _node-1)×P×P×depth _{queue_SQ}×WQE _size

其中N _SQ表示IO设备中SQ占用的内存总大小，N _node为计算集群中的计算设备的数目，P表示集群中每个计算设备运行的进程数目(假设任意两个计算设备运行的进程数目相同且各个进程间均能互相通信)，depth _{queue_SQ}表示SQ的队列深度(即一个SQ中包括的WQE的数目)，WQE _size表示一个WQE的大小。WQE的大小与SSQE的大小相同或差值小于预设值，该预设值可以根据WQE所在存储空间的大小确定，或者，根据同类型业务请求需在WQE中存储数据的大小的统计值确定。通常情况下一个计算设备运行的进程数目要远大于CoS数目。因此，N _SSQ要小于N _SQ。这样，在IO设备内存大小相同的情况下，与现有方案相比，采用本申请实施例的技术方案可以支持更大规模的计算集群。这样，可以提升RDMA的可扩展性(Scalability)能力。

与SuQ集合类似，图3中的每个SSQ集合也包括四个SSQ，该四个SSQ与四个CoS一一对应。在此情况下，IO设备230可以根据SuQE中的CoS确定将该SuQE存储在SSQ集合中的对应的SSQ中。

在一些实施例中，如果一个SSQ中的SSQE的处理时间超过预设时间阈值(例如，在预设时间阈值内没有收的目的计算设备发来的确认消息)，那么可以将该SSQ中的SSQE保存到等待共享发送队列(pending shared send queue，PSSQ)，等待共享发送队列也可以称为等待队列(pending queue，PQ)。

在一些实施例中，该预设时间阈值可以与第k次等待重传的时间相同，k是大于或等于1且小于最大重传次数的正整数。例如，假设等待重传的时间根据以下公式确定：

T _RTNS＝T ₁×2 ^{Service Timeout} (公式3)，

其中T _RTNS为等待重传的时间，T ₁是一个预设值，Service Timeout是大于或等于1的正整数，Service Timeout是预设的最大重传次数。例如，如果Service Timeout的值为10，那么第一次等待重传的时间为T ₁×2；第二次等待重传的时间为T ₁×2 ²，以此类推。T ₁的取值范围通常在微秒级，例如，典型的取值可以是4.096微秒。当然，T ₁也可以是取其他值，例如5微秒、10微秒等。

如果该预设时间阈值与第一次等待重传的时间相同且T ₁的取值为4.096微秒，那么该预设时间阈值为4.096×2＝8.192微秒。

在另一些实施例中，该预设时间阈值也可以根据经验自行设定。例如，可以等于10微秒、15微秒、20微秒等。

PSSQ中的待处理请求(即保存到PSSQ中的SSQE)也可以称等待共享发送队列元素(pending shared send queue element，PSSQE)。

在一些实施例中，IO设备230可以将PSSQ与目的计算设备对应的通道绑定，并通过该通道发送PSSQ中的PSSQE。例如，假设SSQ集合3中的SSQ 1有两个SSQE分别为SSQE 1和SSQE 2。如果SSQE 1和SSQE 2的处理时间超过预设时间阈值，那么可以将SSQE 1和SSQE 2保存至PSSQ 1中(保存到PSSQ 1中的SSQE 1和SSQE 2可以分别称为PSSQE 1和PSSQE 2)。IO设备230可以将PSSQ 1与通道1绑定，并通过通道1发送PSSQE 1和PSSQE 2。

在另一些实施例中，IO设备230可以在满足预设条件的情况下，将PSSQ中的待处理请求重新保存到SSQ中。例如，假设SSQ集合3中的SSQ 1有两个SSQE分别为SSQE 1和SSQE 2。如果SSQE 1和SSQE 2的处理时间超过预设时间阈值，那么可以将SSQE 1和SSQE 2保存至PSSQ 1中(保存到PSSQ 1中的SSQE 1和SSQE 2可以分别称为PSSQE1和PSSQE 2)。IO设备230可以将PSSQ 1与通道1绑定，并通过通道1发送PSSQE 1和PSSQE 2。如果PSSQE 1成功被发送到目的计算设备，那么IO设备230可以将PSSQE 2重新搬回SSQ 1中。

由于SSQ是先入先出的发送机制，因此如果SSQ中存在长时间没有完成的SSQE，那么后面的SSQE也不能得到及时发送。利用PSSQ，可以将堵在SSQ中的部分或全部SSQE搬迁到PSSQ中。这样，SSQ中的其余SSQE可以被继续发送。或者，SSQ也可以绑定其他通道。这样可以有效降低线头阻塞(head-of-line blocking)发生的概率。

本申请实施例中各个队列(即SuQ，SSQ，PSSQ)中的各个待处理请求(即，SuQE， SSQE、WQE、PSSQE)可以采用相同的数据结构，也可以采用不同的数据结构。本申请实施例对此并不限定。如果SuQE、SSQE、WQE、PSSQE采用相同的数据结构，那么在不同队列中的携带相同数据的待处理请求的大小可以是相同的；如果SuQE、SSQE、WQE、PSSQE采用不同的数据结构，那么在不同队列中的携带相同数据的待处理请求的大小可能不会完全相同。

可以理解，在图3所示的实施例中，为了实现CoS，每个SuQ集合和每个SSQ集合都包括4个队列。如果不需要实现CoS(也可以认为CoS的值为1)，那么每个SuQ集合和每个SSQ集合可以只有1个队列。

此外，上述实施例中的SSQ和PSSQ都保存在IO设备的存储器中。在另一些实施例中，SSQ和/或PSSQ也可以保存在主机的存储器中。

图4是根据本申请实施例提供的一种数据传输的方法的示意性流程图。如图4所示的方法可以应用于计算集群，该计算集群包括多个计算设备。

401，第一IO设备获取待处理请求，该第一IO设备为第一计算设备中部署的IO设备，该第一计算设备为该多个计算设备中的任一个计算设备；

402，该第一IO设备根据存储策略存储该待处理请求，该存储策略用于指示在该第一IO设备中存储该待处理请求的方式。

403，该第一IO设备通过第一通道向第二IO设备发送该待处理请求，其中该第一通道为该第一计算设备和第二计算设备间的传输通道，该第二IO设备为该第二计算设备中部署的IO设备，该第二计算设备为该多个计算设备中除该第一计算设备以外的任一计算设备，该第一计算设备和该第二计算设备通过远程直接内存访问技术进行通信。

上文中结合图1至图4，详细描述了根据本申请实施例所提供的数据传输的方法，下面将结合图5至图6，描述根据本申请实施例所提供的IO设备。

图5是根据本申请实施例提供的IO设备的示意性结构框图。如图5所示的IO设备500包括获取单元501、处理单元502、存储单元503和发送单元504。

获取单元501，用于获取待处理请求。

处理单元502，用于根据存储策略，将该待处理请求存储到存储单元503，该存储策略用于指示在存储单元503中存储该待处理请求的方式。

发送单元504，用于通过第一通道向另一IO设备发送该待处理请求，其中该第一通道为第一计算设备和第二计算设备间的传输通道，该IO设备为该第一计算设备中部署的IO设备，该另一IO设备为该第二计算设备中部署的IO设备，该第一计算设备和该第二计算设备为计算集群包括的多个计算设备中的任意两个计算设备，该第一计算设备和该第二计算设备通过远程直接内存访问技术进行通信。

应理解的是，本发明本申请实施例的IO设备可以通过中央处理单元(central processing unit，CPU)实现，也可以通过专用集成电路(application-specific integrated circuit，ASIC) 实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图3至图4所示的数据传输方法时，IO设备及其各个模块也可以为软件模块。

获取单元501、处理单元502、存储单元503和发送单元504的具体功能和有益效果可以参见如图3至图5所述的方法中的描述，为了简洁，在此就不再赘述。图6是根据本申请实施例提供的IO设备的结构框图。图6所示的IO设备600包括：处理器601、存储器602和通信接口603，处理器601、存储器602和通信接口603通过总线604相通信。接收器605用于接收来自于主机的待处理请求，发送器606用于将存储器602中存储的待处理请求发送至计算集群中的另一计算设备。

上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可以是中央处理器(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器602中，该存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)处理器601读取存储器602中的指令，结合其硬件完成上述方法的步骤。

存储器602可以存储用于执行上述实施例中IO设备执行的方法的指令。处理器601可以执行存储器602中存储的指令结合其他硬件(例如接收器605和发送器606)完成上述实施例中IO设备的步骤，具体工作过程和有益效果可以上述实施例中的描述。

存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM， EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

总线604除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线604。

本申请实施例还提供了一种芯片系统，该芯片系统包括逻辑电路，该逻辑电路用于与输入/输出接口耦合，通过该输入/输出接口传输数据，以执行上述实施例中IO设备执行的各个步骤。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令或程序代码完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令或程序代码完成。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

根据本申请实施例提供的方法，本申请还提供一种计算设备，其包括前述的主机和IO设备。

本申请还提供一种计算集群，包括多个前述计算设备，该多个计算设备中的每个计算设备包括前述IO设备和前述的主机。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive，SSD)。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据传输的方法，其特征在于，所述方法应用于计算集群，所述计算集群包括多个计算设备，所述方法包括：

第一输入输出IO设备获取待处理请求，所述第一IO设备为第一计算设备中部署的IO设备，所述第一计算设备为所述多个计算设备中的任一个计算设备；

所述第一IO设备根据存储策略存储所述待处理请求，所述存储策略用于指示在所述第一IO设备中存储所述待处理请求的方式；

所述第一IO设备通过第一通道向第二IO设备发送所述待处理请求，其中所述第一通道为所述第一计算设备和第二计算设备间的传输通道，所述第二IO设备为所述第二计算设备中部署的IO设备，所述第二计算设备为所述多个计算设备中除所述第一计算设备以外的任一计算设备，所述第一计算设备和所述第二计算设备通过远程直接内存访问技术进行通信。
根据权利要求1所述的方法，其特征在于，

所述第一IO设备根据存储策略存储所述待处理请求，包括：

所述第一IO设备确定所述待处理请求的目的计算设备的标识；

所述第一IO设备根据所述目的计算设备的标识确定存储所述待处理请求的第一共享发送队列SSQ，所述第一SSQ用于存储与所述目的计算设备关联的待处理请求。
根据权利要求2所述的方法，其特征在于，在所述第一IO设备根据所述目的计算设备的标识确定存储所述待处理请求的第一共享发送队列SSQ之前，所述方法还包括：

所述第一IO设备创建第一SSQ集合，所述第一SSQ集合包括至少一个SSQ，所述至少一个SSQ包括所述第一SSQ；

所述第一IO设备将所述第一SSQ集合与第一通道绑定，所述第一SSQ集合用于存储通过所述第一通道发送的待处理器请求。
如权利要求3所述的方法，其特征在于，在所述第一SSQ集合包括多个SSQ的情况下，所述多个SSQ与多个服务等级CoS一一对应，其中所述第一SSQ对应的CoS与所述待处理请求的CoS相同。
如权利要求2至4中任一项所述的方法，其特征在于，在所述第一SSQ中的待处理请求的处理时间超过预设阈值的情况下，将所述第一SSQ中的待处理请求存储到等待共享发送队列PSSQ中。
根据权利要求1至5中任一所述的方法，其特征在于，所述第一输入输出IO设备获取待处理请求，包括：

所述第一IO设备从第一提交队列获取所述待处理请求，所述第一提交队列用于存储与其关联的进程的待处理请求，所述第一提交队列存储于所述第一计算设备的内存中。
根据权利要求1至6任一所述的方法，其特征在于，所述IO设备包括网络接口控制器、智能网络接口控制器、主机总线适配器、主机通道适配器、加速器、数据处理器、图像处理器、人工智能设备、软件定义基础设施中的至少一种。
一种输入输出IO设备，其特征在于，所述IO设备包括获取单元、处理单元、存储单元和发送单元：

所述获取单元，用于获取待处理请求；

所述处理单元，用于根据存储策略，将所述待处理请求存储到所述存储单元，所述存储策略用于指示在所述存储单元中存储所述待处理请求的方式；

所述发送单元，用于通过第一通道向另一IO设备发送所述待处理请求，其中所述第一通道为第一计算设备和第二计算设备间的传输通道，所述IO设备为所述第一计算设备中部署的IO设备，所述另一IO设备为所述第二计算设备中部署的IO设备，所述第一计算设备和所述第二计算设备为计算集群包括的多个计算设备中的任意两个计算设备，所述第一计算设备和所述第二计算设备通过远程直接内存访问技术进行通信。
根据权利要求8所述的IO设备，其特征在于，所述处理单元，具体用于确定所述待处理请求的目的计算设备的标识；根据所述目的计算设备的标识确定存储所述待处理请求的第一共享发送队列SSQ，所述第一SSQ用于存储与所述目的计算设备关联的待处理请求。
根据权利要求9所述的IO设备，其特征在于，所述处理单元，还用于在根据所述目的计算设备的标识确定所述第一SSQ之前，创建第一SSQ集合，所述第一SSQ集合包括至少一个SSQ，所述至少一个SSQ包括所述第一SSQ，将所述第一SSQ集合与第一通道绑定，所述第一SSQ集合用于存储通过所述第一通道发送的待处理器请求。
如权利要求10所述的IO设备，其特征在于，在所述第一SSQ集合包括多个SSQ的情况下，所述多个SSQ与多个服务等级CoS一一对应，其中所述第一SSQ对应的CoS与所述待处理请求的CoS相同。
如权利要求9至11中任一项所述的IO设备，其特征在于，所述处理单元，还用于在所述第一SSQ中的待处理请求的处理时间超过预设阈值的情况下，将所述第一SSQ中的待处理请求存储到所述存储单元的等待共享发送队列PSSQ中。
根据权利要求8至12中任一所述的IO设备，其特征在于，所述获取单元，具体用于从第一提交队列获取所述待处理请求，所述第一提交队列用于存储与其关联的进程的待处理请求，所述第一提交队列存储于所述第一计算设备的内存中。
根据权利要求8至13任一所述的IO设备，其特征在于，所述IO设备包括网络接口控制器、智能网络接口控制器、主机总线适配器、主机通道适配器、加速器、数据处理器、图像处理器、人工智能设备、软件定义基础设施中的至少一种。
一种输入输出IO设备，其特征在于，所述IO设备包括处理器，所述处理器用于与存储器耦合，读取并执行所述存储器中的指令和/或程序代码，执行如权利要求1-7中任一项所述的方法。
一种计算机可读介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。