WO2023030178A1

WO2023030178A1 - 一种基于用户态协议栈的通信方法及相应装置

Info

Publication number: WO2023030178A1
Application number: PCT/CN2022/115019
Authority: WO
Inventors: 陆志浩; 黄黎明; 吴长冶
Original assignee: 华为技术有限公司
Priority date: 2021-08-31
Filing date: 2022-08-26
Publication date: 2023-03-09
Also published as: CN115766044A

Abstract

本申请公开了一种基于用户态协议栈的通信方法，该方法应用于使用NUMA结构的计算机设备，该计算机设备可以是服务端或客户端。计算机设备包括应用层、用户态协议栈和硬件层，应用层的目标应用对应至少一个W线程，用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的传输控制协议哈希表，硬件层包括多个NUMA节点和网卡，其中，多个N线程与多个NUMA节点一一对应。该方法包括：通过路由模块获取一个W线程的侦听FD与每个N线程的影子FD的影子表，再获取连接FD与N线程的路由表，通过影子表传递连接FD，然后，使用连接FD进行通信，从而解耦了W线程和N线程，提高了用户态协议栈的通用性。

Description

一种基于用户态协议栈的通信方法及相应装置

本申请要求于2021年8月31日提交中国专利局、申请号为202111017331.2、发明名称为“一种基于用户态协议栈的通信方法及相应装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及一种基于用户态协议栈的通信方法及相应装置。

背景技术

计算机系统中实现应用线程与网络硬件之间的交互通常是通过内核协议栈或用户态协议栈。近年来，网络硬件的输入/输出(input/output，IO)能力得到了很大的发展，因为内核协议栈在处理IO数据的过程中需要频繁的在内核态和用户态之间进行上下文之间切换。所以现有内核协议栈的能力已无法充分释放网络硬件的IO能力，在多种网络IO加速的技术中，用户态协议栈是一种常见且有效的技术手段。

用户态协议栈的设计初衷就是越过(bypass)内核，采取更直接的方式使应用与硬件交互。目前的用户态协议栈通常是将用户态协议栈线程与应用的线程设计成在同一个线程上下文内，这样可以避免线程切换的开销。但是这种用户态协议栈的设计方式，会导致用户态协议栈的线程与应用的线程绑定，导致通用性不够。

发明内容

本申请实施例提供一种基于用户态协议栈的通信方法，用于提高用户态协议栈的通用性。本申请实施例还提供了相应设备、计算机可读存储介质及计算机程序产品等。

本申请第一方面提供一种基于用户态协议栈的通信方法，应用于服务端，服务端包括应用层、用户态协议栈和硬件层，应用层的目标应用对应至少一个W线程，W线程为用于处理目标应用的数据的线程，用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的传输控制协议哈希表，N线程为用户态协议栈线程，硬件层包括多个非均衡内存访问NUMA节点和网卡，其中，多个N线程与多个NUMA节点一一对应；该方法包括：通过路由模块获取第一对应关系，第一对应关系包括第一W线程的侦听文件描述符(file description，FD)与多个影子FD之间的对应关系，多个影子FD是针对多个N线程一对一生成的，第一W线程为至少一个W线程中的一个；通过路由模块获取第二对应关系，第二对应关系包括目标N线程与连接FD之间的对应关系，目标N线程是多个N线程中在建立与客户端的通信连接时被网卡选中的一个N线程；通过路由模块，基于第一对应关系和第二对应关系与客户端通信。

本申请提供的基于用户态协议栈的通信方法可以应用于非均衡内存访问(non-uniform memory access，NUMA)系统，该NUMA系统通常包括多个NUMA节点(node)，每个NUMA节点通常都包括多个处理核，内存以及输入/输出(input/output，IO)资源等。本申请中，处理核也可以称为中央处理器(central processing unit，CPU)核，或者简称CPU。

本申请中，服务端可以包括服务器、虚拟机(virtual machine，VM)或容器(container)。客户端可以包括终端设备、虚拟机或容器。

本申请中，应用层可以包括多个应用，目标应用可以是其中的一个应用，目标应用可以对应一个W线程或多个W线程，若目标应用对应一个W线程，则该W线程可以完成侦听、等待以及数据处理等多种功能。若该目标应用对应多个W线程，则可以由多个W线程分别完成侦听、等待以及数据处理等功能，当然，其中，也可以包括一个线程完成两项或两项以上的功能，如：其中一个W线程即完成等待又完成数据处理的功能。

本申请中的多个包括两个或两个以上，也可以描述为至少两个。

本申请中，用户态协议栈中，每个N线程具有一个传输控制协议(transmission control protocol，TCP)哈希表，TCP哈希表中包括N线程执行TCP协议所需要的信息。每个N线程对应一个NUMA节点，N线程与NUMA节点的对应关系可以是在服务端初始化时配置的。NUMA节点中通常包括多个处理核，N线程可以绑定在其中一个处理核上。路由模块可以是具有路由功能的软件包，如：软件开发工具包(software development kit，SDK)或数据面编程工具包(data plane development kit，DPDK)。该路由模块中包括第一对应关系和第二对应关系。该第一对应关系可以称为FD影子表，为发起侦听操作的第一W线程的侦听FD与每个N线程对应的影子FD之间的对应关系。若有n个N线程，则影子表的形式可以是侦听FD对应影子FD1、影子FD2,…，影子FDn。影子FD指的是操作系统不感知的FD，对于操作系统来说，只感知第一W线程的侦听FD。第二对应关系可以称为路由表，该路由表中记录每个N线程与对应的连接FD之间的对应关系，其中包括目标N线程与对应的连接FD之间的对应关系。

本申请中，侦听FD指的是与第一W线程的侦听操作相关的FD，连接FD指的是N线程为建立客户端与服务端的TCP连接生成的FD，一个TCP连接有一个连接FD。该连接FD对应建立该TCP连接的N线程，本申请中，将建立TCP连接的N线程称为目标N线程。

本申请中，在客户端与服务端进行TCP通信过程中，服务端通过路由模块中的第一对应关系(即影子表)，就可以实现从N线程到W相应的关联查找，从而传递连接FD，再通过路由模块使用第二对应关系(路由表)就可以为确定通信过程所使用的目标N线程，从而完成通信过程。由上述方案可知，本申请不需要预先建立W线程与N线程的绑定关系，也不需要多个N线程共用一个TCP哈希表，可以将W线程与N线程解耦，从而提高用户态协议栈的通用性，另外，因为不涉及到内核的操作，W线程与N线程也不需要进行上下文切换，还提高了用户态协议栈的性能。

在第一方面的一种可能的实现方式中，上述步骤：通过路由模块获取第一对应关系，包括：通过路由模块接收第一W线程发起的侦听操作，并为第一W线程生成侦听FD；通过路由模块向多个N线程分别发起侦听操作，以得到多个N线程对应的多个影子FD，多个影子FD与多个N线程一一对应；通过路由模块建立侦听FD与多个影子FD之间的对应关系，以得到第一对应关系。

该种可能的实现方式中，服务端针对目标应用会通过第一W线程周期性的发起侦听操作，以侦听是否有该目标应用的相关数据要接收。第一W线程发起一个侦听操作，路由模块会根据该侦听操作，对每个N线程都发起侦听操作，这样，就可以建立从第一W线程到每个N线程的影子表用于后续的通信过程，不需要预先绑定W线程与N线程的对应关系，从而提高了用户态协议栈的通用性。

在第一方面的一种可能的实现方式中，网卡中包括至少一个网卡队列，上述步骤：通过路由模块获取第二对应关系，包括：通过路由模块获取目标N线程为建立通信连接生成的连接FD，通信连接是基于第一网卡队列接收的客户端发送的建链请求建立的，第一网卡队列为至少一个网卡队列中的一个；通过路由模块建立目标N线程与连接FD的对应关系，以得到第二对应关系。

该种可能的实现方式中，网卡中通常包括多个网卡队列，一个网卡队列会对应一个N线程，网卡队列与N线程的对应关系不是预先配置的，可以是建立通信连接的过程中确立的。若网卡中的第一网卡队列接收到客户端的建链请求，该网络根据自身逻辑，为该建链请求选择了目标N线程，则就建立了第一网卡队列与目标N线程之间的第二对应关系。该第二对应关系保存在路由模块中，这样，后续通过该连接FD产生的通信关系都可以通过该路由模块确定对应的目标N线程，完成后续的通信过程，提高了通信的灵活性。

在第一方面的一种可能的实现方式中，上述步骤：通过路由模块，基于第一对应关系和第二对应关系与客户端通信，包括：通过路由模块，基于第一对应关系中目标N线程对应的影子FD与第一W线程对应的侦听FD之间的对应关系，将与目标N线程对应的连接FD传递给第一W线程；通过路由模块，基于连接FD，以及第二对应关系与客户端通信。

该种可能的实现方式中，通过影子表可以将连接FD传递给第一W线程，这样，目标应用的相关W线程就可以使用该连接FD执行后续其他操作，并且路由模块也可以根据W线程发起的其他操作中的连接FD确定所对应的目标N线程来执行相关操作，完成通信过程。

在第一方面的一种可能的实现方式中，当目标应用对应的W线程有多个时，通过路由模块，基于连接FD，以及第二对应关系与客户端通信，包括：通过路由模块，接收第二W线程发起的等待poll/扩展的等待epoll事件，poll/epoll事件中包括连接FD，连接FD是第一W线程传递给第二W线程的，第二W线程发起poll/epoll事件后转入休眠状态，第二W线程为目标应用对应的多个W线程中的一个；通过路由模块，根据第二对应关系确定连接FD与目标N线程对应，以等待与目标线程相关的唤醒事件；在第二W线程被唤醒后，通过路由模块，根据第二对应关系，执行与目标N线程相关的读操作或写操作。

该种可能的实现方式中，当目标应用对应的W线程有多个时，如：Mysql的线程模型是由一个master线程负责完成侦听(listen)，新建TCP连接交由auth线程，最终的SQL请求交由Worker线程完成。这种情况，需要第一W线程将连接FD传递给第二W线程，由第二W线程触发poll/epoll事件，然后转入睡眠状态，等待相关数据到来后目标线程的唤醒事件。第二W线程被唤醒后，再执行后续的通信过程，这样，即可以减少第二W线程处于活跃状态的功耗，又不会影响通信过程，提高了系统的性能。

在第一方面的一种可能的实现方式中，该方法还包括：通过与目标N线程关联的唤醒代理线程唤醒第二W线程。

该种可能的实现方式中，通过与目标N线程关联的唤醒代理线程唤醒第二W线程，可以避免目标N线程进入系统态，使得目标N线程可以一直处于运行状态，从而减少了通信过程中的网络时延。

在第一方面的一种可能的实现方式中，在根据第二对应关系确定连接FD与目标N线程对应之后，该方法还包括：在目标N线程对应的NUMA节点的内存中为连接FD分配接收队列和发送队列，接收队列用于记录与读操作相关的数据的内存地址，发送队列用于记录与写操作相关的数据的内存地址。

该种可能的实现方式中，通过连接FD关联接收队列和发送队列，可以快速关联到相应的目标N线程，从而提高了通信过程中的系统性能。

在第一方面的一种可能的实现方式中，上述步骤：通过路由模块，根据第二对应关系，执行与目标N线程相关的读操作，包括：通过路由模块接收第二W线程或第三W线程发起的读操作，读操作中携带连接FD，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起读操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，从与连接FD关联的接收队列中获取第一数据的内存地址，第一数据是与目标N线程关联的第一网卡队列从客户端接收的数据，第一网卡队列是接收客户端发送的建链请求的网卡队列；根据第一数据的内存地址，获取第一数据，并将第一数据传递给二线程或第三W线程进行处理。

该种可能的实现方式中，读操作的过程可以是第二W线程直接发起的，也可以是第二W线程将连接FD传递给第三W线程，由第三W线程发起的，若是在mysql的场景中，第二W线程可以是auth线程，第三W线程可以是worker线程。针对读操作的过程，第一网卡队列接收到客户端发送过来的第一数据后，会将该第一数据发送到对应的目标N线程所关联的NUMA节点的内存中进行存储，该第一数据在内存中的内存地址会存储到连接FD所关联的接收队列中。这样，在第二W线程或第三W线程发起的读操作后，目标N线程就可以根据读操作中的连接FD，从相应的接收队列中获取第一数据的内存地址，进而再从内存中读取到第一数据，将该第一数据传递到第二W线程或第三W线程的缓冲区，由第二W线程或第三W线程处理该第一数据。该服务端读取客户端的数据的过程，由路由模块通过连接FD确定对应的目标N线程来完成相应的处理过程，可以提高数据读取的效率。

在第一方面的一种可能的实现方式中，上述步骤：通过路由模块，根据第二对应关系，执行与目标N线程相关的写操作，包括：通过路由模块接收第二W线程或第三W线程发起的写操作，写操作中携带连接FD和第二数据，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起写操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，将第二数据写入与目标N线程对应的内存中，并将第二数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第二数据的内存地址时，将内存中的第二数据发送到网卡。

该种可能的实现方式中，第二W线程与第三W线程的关系可以参阅上述读操作中的关系进行理解。写操作的过程，路由模块根据连接FD确定到对应的目标N线程，进而将第二数据写入到该目标N线程对应的内存中，再将第二数据的内存地址写入到连接FD所对应的发送队列中，这样，目标N线程轮训到发送队列中的第二数据的内存地址后，就会将内存中的第二数据发送到网卡中的第一网卡队列，由第一网卡队列将该第二数据发送给客户端。

在第一方面的一种可能的实现方式中，在执行读操作或写操作之前，该方法还包括：将第二W线程或第三W线程绑定到目标N线程所在的NUMA节点中的处理核上。

该种可能的实现方式中，将第二W线程或第三W线程绑定到目标N线程所在的NUMA节点中的处理核上，不需要跨NUMA节点就可以完成TCP通信过程，目标N线程与第二W线程和第三W 先共享内存中的数据，从而提高了通信速度，降低了网络时延。

在第一方面的一种可能的实现方式中，与目标N线程对应的NUMA节点中的内存为大页内存。

该种可能的实现方式中，通过设置大页内存的方式，可以降低缓存查找未命中的概率。

本申请第二方面提供一种基于用户态协议栈的通信方法，应用于客户端，客户端包括应用层、用户态协议栈和硬件层，应用层的目标应用对应至少一个W线程，W线程为用于处理目标应用的数据的线程，用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的传输控制协议哈希表，N线程为用户态协议栈线程，硬件层包括多个非均衡内存访问NUMA节点，其中，多个N线程与多个NUMA节点一一对应；该方法包括：通过路由模块获取目标对应关系，目标对应关系包括连接文件描述符FD与目标N线程的对应关系，目标N线程是路由模块为发起连接操作的第一W线程选择的N线程，第一W线程为至少一个W线程中的一个，目标N线程是多个N线程中的一个；通过路由模块，基于目标对应关系与服务端通信。

该第二方面所涉及到的与第一方面相同的特征可以参阅第一方面的解释进行理解。在客户端中，通过路由模块建立连接FD与目标N线程的对应关系，这样，在后续通信过程中，就可以根据该连接FD，确定对应的目标N线程，进而执行后续通信操作，不需要W线程与N线程绑定，从而提高用户态协议栈的通用性，另外，因为不涉及到内核的操作，W线程与N线程也不需要进行上下文切换，还提高了用户态协议栈的性能。

在第二方面的一种可能的实现方式中，上述步骤：通过路由模块获取目标对应关系，包括：通过路由模块接收第一W线程发起的连接操作，为该连接操作从多个N线程中选择目标N线程，并为第一W线程生成连接FD；通过路由模块建立目标N线程与连接FD的对应关系，以得到目标对应关系。

在第二方面的一种可能的实现方式中，上述步骤：通过路由模块，基于目标对应关系与服务端通信，包括：通过路由模块，根据连接FD，确定与目标N线程对应的NUMA节点以及网卡队列；通过与目标N线程对应的NUMA节点以及网卡队列向服务端发送建链请求，以及第一数据。

在第二方面的一种可能的实现方式中，上述步骤：在根据连接FD，确定与目标N线程对应的NUMA节点以及网卡队列之后，该方法还包括：在目标N线程对应的NUMA节点的内存中为连接FD分配发送队列，发送队列用于记录与写操作相关的数据的内存地址。

在第二方面的一种可能的实现方式中，上述步骤：通过与目标N线程对应的NUMA节点以及网卡队列向服务端发送第一数据，包括：通过路由模块接收第二W线程发起的写操作，写操作中携带连接FD和第一数据，第二线程为目标应用对应的多个W线程中的一个，当由第二线程发起写操作时，连接FD是第一W线程传递给第二W线程的；通过路由模块，根据连接FD，将第一数据写入与目标N线程对应的内存中，并将第一数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第一数据的内存地址时，将内存中的第一数据发送到网卡。

在第二方面的一种可能的实现方式中，在执行所述写操作之前，该方法还包括：将第二W线程绑定到目标N线程所在的NUMA节点中的处理核上。

该第二方面的任一种可能的实现方式所涉及到的与第一方面或第一方面的任一种可能的实现方式相同的特征可以参阅第一方面或第一方面的任一种可能的实现方式的解释进行理解。

本申请第三方面提供一种服务端，该服务端具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块，例如：第一处理单元、第二处理单元和第三处理单元，这三个处理单元可以通过一个处理单元或多个处理单元来实现。

本申请第四方面提供一种客户端，该客户端具有实现上述第二方面或第二方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块，例如：第一处理单元和第二处理单元，这两个单元可以通过一个处理单元来实现。

本申请第五方面提供一种计算机设备，该计算机设备包括至少一个处理器、存储器、输入/输出(input/output，I/O)接口以及存储在存储器中并可在处理器上运行的计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第六方面提供一种计算机设备，该计算机设备包括至少一个处理器、存储器、输入/输出(input/output，I/O)接口以及存储在存储器中并可在处理器上运行的计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如上述第二方面或第二方面任意一种可能的实现方式的方法。

本申请第七方面提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，一个或多个处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第八方面提供一种存储一个或多个计算机执行指令的计算机程序产品，当计算机执行指令被一个或多个处理器执行时，一个或多个处理器执行如上述第二方面或第二方面任意一种可能的实现方式的方法。

本申请第九方面提供了一种芯片系统，该芯片系统包括至少一个处理器，至少一个处理器用于支持服务端实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存服务端必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

本申请第十方面提供了一种芯片系统，该芯片系统包括至少一个处理器，至少一个处理器用于支持客户端实现上述第二方面或第二方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存客户端必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

附图说明

图1是服务端与客户端的一通信场景示意图；

图2是本申请实施例提供的计算机设备的一结构示意图；

图3是本申请实施例提供的服务端的一结构示意图；

图4是本申请实施例提供的客户端的一结构示意图；

图5是本申请实施例提供的基于用户态协议栈的通信方法的一实施例示意图；

图6是本申请实施例提供的基于用户态协议栈的通信方法的另一实施例示意图；

图7是本申请实施例提供的基于用户态协议栈的通信方法的另一实施例示意图；

图8是本申请实施例提供的基于用户态协议栈的通信方法的另一实施例示意图；

图9是本申请实施例提供的基于用户态协议栈的通信方法的另一实施例示意图；

图10是本申请实施例提供的服务端的一结构示意图；

图11是本申请实施例提供的客户端的一结构示意图；

图12是本申请实施例提供的计算机设备的一结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种基于用户态协议栈的通信方法，用于提高用户态协议栈的通用性。本申请实施例还提供了相应设备、计算机可读存储介质及计算机程序产品等。以下分别进行详细说明。

本申请实施例所提供的基于用户态协议栈的通信方法可以应用于如图1所示的客户端与服务端通信的场景。服务端和客户端可以采用传输控制协议(transmission control protocol，TCP)进行通信。其中，服务端可以包括服务器、虚拟机(virtual machine，VM)或容器(container)。客户端可以包括终端设备、虚拟机或容器。

服务器可以是任意形态的物理机。

终端设备(也可以称为用户设备(user equipment，UE))是一种具有无线收发功能的设备，可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上(如轮船等)；还可以部署在空中(例如飞机、气球和卫星上等)。终端设备可以个人电脑(personal computer，PC)、手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端、增强现实(augmented reality，AR)终端、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、以物联网(internet of things，IoT)中的无线终端等。

本申请的客户端和服务端都属于计算机设备，该计算机设备的资源配置方式采用非均衡内存访问(non-uniform memory access，NUMA)系统的结构，且计算机设备上安装有用户态协议栈。

无论是客户端，还是服务端，本申请实施例所提供的计算机设备的系统结构都可以参阅图2进行理解。

如图2所示，本申请实施例提供的计算机设备的一系统结构包括应用层、用户态协议栈和硬件层。

其中，应用层可以包括一个或多个应用，目标应用可以是其中的一个应用，该目标应用对应至少一个W线程，W线程为用于处理目标应用的数据的线程。

用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的TCP哈希表。也就是说，每个N线程具有一个TCP哈希表(Hash Table)，TCP哈希表中包括N线程执行TCP协议所需要的信息。路由模块可以是具有路由功能的软件包，如：软件开发工具包(software development kit，SDK)或数据面编程工具包(data plane development kit，DPDK)。路由模块负责hook接口操作(包括套接字socket()，侦听listen()，捆绑bind()，连接connect()，等待poll()事件，扩展的等待epoll()事件,发送send()，接收recv()等操作)。路由模块可以根据对应关系实现W与N之间的路由。TCP Hash Table：用于维护管理TCP相关信息，包括建立Establish、捆绑bind、侦听listen、TCP控制块(TCP Control Block)TCB、FD等。

硬件层包括多个非均衡内存访问NUMA节点和网卡，每个NUMA节点通常包括多个处理核以及内存，该内存可以是大页内存。网卡中可以包括多个网卡队列。处理核也可以称为中央处理器(central processing unit，CPU)核，或者简称CPU。

在计算机设备初始化时或者资源配置时，可以为每个NUMA节点配置一个N线程，网卡队列与N线程的关系可以是预先配置好的，也可以是建立通信连接的过程中，网卡根据自身逻辑选择的。

需要说明的是，应用层和用户态协议栈之间可以配置有便携式操作系统接口(POSIX)，路由模块可以hook POSIX，确定操作的类型，如：侦听操作，连接操作、读操作和写操作等。

图2中所示的N线程与NUMA节点与网卡队列之间的对应关系只是一种示例，实际应用中，并不限于图2中所示的N线程与NUMA节点与网卡队列之间的对应关系。

上述图2所示的路由模块中所维护的对应关系在服务端与客户端略有不同，但都涉及到了文件描述符(file description，FD)，下面先对FD进行介绍。

Linux系统中，把一切都看做是文件，当进程或线程打开现有文件或创建新文件时，内核向进程或线程返回一个FD，FD就是内核为了高效管理已被打开的文件所创建的索引，用来指向被打开的文件，所有执行I/O操作的系统调用都会通过FD。当需要进行I/O操作的时候，会传入FD作为参数，先从文件描述符表查找该FD对应的条目，取出对应的已经打开的文件的句柄，根据文件句柄指向，去系统文件描述符表中查找到该文件指向的inode，从而定位到该文件的真正位置，进行I/O操作。

下面分别从服务端和客户端对路由模块所维护的对应关系进行介绍。

如图3所示，在服务端，路由模块中会维护第一对应关系和第二对应关系。第一对应关系可以称为文件描述符(file description，FD)影子表，为发起侦听操作的第一W线程的侦听FD与每个N线程对应的影子FD之间的对应关系。若有n个N线程，则FD影子表的形式可以是侦听FD对应影子FD1、影子FD2,…，影子FDn。影子FD指的是操作系统不感知的FD，对于操作系统来说，只感知第一W线程的侦听FD。第二对应关系可以称为FD路由表，该FD路由表中记录每个N线程与对应的连接FD之间的对应关系，其中包括目标N线程与对应的连接FD之间的对应关系。其中，第一W线程为至少一个W线程中的一个，目标N线程是多个N线程中的一个。

在通信过程中，服务端会通过路由模块获取第一对应关系和第二对应关系，通过路由模块，基于第一对应关系和第二对应关系与客户端通信。

本申请实施例中，侦听FD指的是与第一W线程的侦听操作相关的FD，连接FD指的是N线程为建立客户端与服务端的TCP连接生成的FD，一个TCP连接有一个连接FD。该连接FD对应建立该TCP连接的N线程，本申请实施例中，将建立TCP连接的N线程称为目标N线程。

其中，第一对应关系的获取过程可以包括：通过路由模块接收第一W线程发起的侦听操作，并为第一W线程生成侦听FD；通过路由模块向多个N线程分别发起侦听操作，以得到多个N线程对应的多个影子FD，多个影子FD与多个N线程一一对应；通过路由模块建立侦听FD与多个影子FD之间的对应关系，以得到第一对应关系。

其中，第二对应关系的获取过程可以包括：通过路由模块获取目标N线程为建立通信连接生成的连接FD，通信连接是基于第一网卡队列接收的客户端发送的建链请求建立的，第一网卡队列为至少一个网卡队列中的一个；通过路由模块建立目标N线程与连接FD的对应关系，以得到第二对应关系。

上述基于第一对应关系和第二对应关系与客户端通信的过程可以包括：通过路由模块，基于第一对应关系中目标N线程对应的影子FD与第一W线程对应的侦听FD之间的对应关系，将与目标N线程对应的连接FD传递给第一W线程；通过路由模块，基于连接FD，以及第二对应关系与客户端通信。

当目标应用对应的W线程有多个时，上述通过路由模块，基于连接FD，以及第二对应关系与客户端通信，可以包括：通过路由模块，接收第二W线程发起的等待poll/扩展的等待epoll事件，poll/epoll事件中包括连接FD，连接FD是第一W线程传递给第二W线程的，第二W线程发起poll/epoll事件后转入休眠状态，第二W线程为目标应用对应的多个W线程中的一个；通过路由模块，根据第二对应关系确定连接FD与目标N线程对应，以等待与目标线程相关的唤醒事件；在第二W线程被唤醒后，通过路由模块，根据第二对应关系，执行与目标N线程相关的读操作或写操作。

上述根据所述第二对应关系确定所述连接FD与所述目标N线程对应之后，还可以包括：在所述目标N线程对应的NUMA节点的内存中为所述连接FD分配接收队列和发送队列，所述接收队列用于记录与读操作相关的数据的内存地址，所述发送队列用于记录与写操作相关的数据的内存地址。

上述通过路由模块，根据第二对应关系，执行与目标N线程相关的读操作，可以包括：通过路由模块接收第二W线程或第三W线程发起的读操作，读操作中携带连接FD，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起读操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，从与连接FD关联的接收队列中获取第一数据的内存地址，第一数据是与目标N线程关联的第一网卡队列从客户端接收的数据，第一网卡队列是接收客户端发送的建链请求的网卡队列；根据第一数据的内存地址，获取第一数据，并将第一数据传递给二线程或第三W线程进行处理。

上述通过路由模块，根据第二对应关系，执行与目标N线程相关的写操作，可以包括：通过路由模块接收第二W线程或第三W线程发起的写操作，写操作中携带连接FD和第二数据，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起写操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，将第二数据写入与目标N线程对应的内存中，并将第二数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第二数据的内存地址时，将内存中的第二数据发送到网卡。

在执行读操作或写操作之前，还可以包括：将第二W线程或第三W线程绑定到目标N线程所在的NUMA节点中的处理核上。

另外，在服务端，用户态协议栈中还可以包括唤醒代理线程，如图3中的P线程1、P线程2，…，P线程n都是唤醒代理线程，且每个N线程对应一个唤醒代理线程，如：N线程1对应P线程1、N线程2对应P线程2，…，N线程n对应P线程n。本申请实施例中，在执行读操作或写操作之前，通过与目标N线程关联的唤醒代理线程唤醒第二W线程。

本申请中，在客户端与服务端进行TCP通信过程中，服务端通过路由模块中的第一对应关系(即影子表)，就可以实现从N线程到W相应的关联查找，从而传递连接FD，再通过路由模块使用第二对应关系(路由表)就可以确定通信过程所使用的目标N线程，从而完成通信过程。由上述方案可知，本申请不需要预先建立W线程与N线程的绑定关系，也不需要多个N线程共用一个TCP哈希表，可以将W线程与N线程解耦，从而提高用户态协议栈的通用性，另外，因为不涉及到内核的操作，W线程与N线程也不需要进行上下文切换，还提高了用户态协议栈的性能。

在客户端，如图4所示，客户端中的路由模块会维护目标对应关系，该目标对应关系包括连接文件描述符FD与目标N线程的对应关系，目标N线程是路由模块为发起连接操作的第一W线程选择的N线程，第一W线程为至少一个W线程中的一个，目标N线程是多个N线程中的一个。

在通信过程中，客户端会获取该目标对应关系，然后基于该目标对应关系与服务端通信。

其中，目标对应关系的获取过程可以包括：通过路由模块接收第一W线程发起的连接操作，为该连接操作从多个N线程中选择目标N线程，并为第一W线程生成连接FD；

通过路由模块建立目标N线程与连接FD的对应关系，以得到目标对应关系。

上述通过路由模块，基于目标对应关系与服务端通信，可以包括：通过路由模块，根据连接FD，确定与目标N线程对应的NUMA节点以及网卡队列；通过与目标N线程对应的NUMA节点以及网卡队列向服务端发送建链请求，以及第一数据。

而且，根据连接FD，确定与目标N线程对应的NUMA节点以及网卡队列之后，还可以包括：在目标N线程对应的NUMA节点的内存中为连接FD分配发送队列，发送队列用于记录与写操作相关的数据的内存地址。

上述通过与目标N线程对应的NUMA节点以及网卡队列向服务端发送第一数据，包括：通过路由模块接收第二W线程发起的写操作，写操作中携带连接FD和第一数据，第二线程为目标应用对应的多个W线程中的一个，当由第二线程发起写操作时，连接FD是第一W线程传递给第二W线程的；通过路由模块，根据连接FD，将第一数据写入与目标N线程对应的内存中，并将第一数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第一数据的内存地址时，将内存中的第一数据发送到网卡。

在执行写操作之前，还包括：将第二W线程绑定到目标N线程所在的NUMA节点中的处理核上。

本申请实施例中，在客户端与服务端进行TCP通信过程中，客户端通过路由模块中的目标对应关系(路由表)可以确定通信过程所使用的目标N线程，从而完成通信过程。不需要预先建立W线程与N线程的绑定关系，也不需要多个N线程共用一个TCP哈希表，从而提高用户态协议栈的通用性，另外，因为不涉及到内核的操作，W线程与N线程也不需要进行上下文切换，还提高了用户态协议栈的性能。

以上描述了服务端与客户端的差异，下面分别结合附图分别介绍在TCP通信连接建立和TCP数据处理过程中服务端的工作过程，以及客户端的工作过程。

需要说明的是，无论是服务端，还是客户端，在建立TCP通信连接以及进行数据处理之前，都需要进行N线程的部署以及资源配置。通常按照硬件层中NUMA节点的数量部署N线程，一般一个NUMA节点部署一个N线程，会将每个N线程与对应的NUMA节点中的一个处理核绑定。也可以预先将W线程与NUMA节点绑定，当然，也可以不绑定W线程，如果没有绑定W线程，那么在后续建立通信连接或者数据处理的过程中，可以根据负载均衡策略或者性能优化策略再绑定W线程，对此，本申请中不做限定。

下面介绍服务端与客户端的TCP通信连接建立和TCP数据处理过程。

一、服务端在TCP通信连接建立过程中的工作过程。

如图5所示，该工作过程包括：

S10.服务端通过W线程1发起侦听(listen)操作。

W线程1也可以称为第一W线程。

S11.路由模块接收W线程1发起的侦听操作，并为W线程1生成侦听FD。

S12.路由模块向多个N线程分别发起侦听操作。

图5中，多个N线程分别为N线程1、N线程2，…，N线程n。当然，N线程也可以有两个，图5所示出的只是一种示例。

S13.每个N线程为对应的侦听操作生成一个影子FD，并将影子FD反馈给路由模块。

S14.路由模块为W线程1的侦听FD与n个N线程的影子FD建立FD影子表，即：第一对应关系。

该影子表可以表示为如下表1所示的形式：

表1：FD影子表

当然，表1只是FD影子表的一种表现形式，对于FD影子表的表现形式，本申请实施例中不做限定，其他可以表示侦听FD与影子FD的对应关系的形式都可以作为本申请的FD影子表，如图5中所示的FD影子表的表现形式。

S15.网卡中的网卡队列1接收到客户端发送的建链请求。

该建链请求可以为TCP SYN报文。

S16.网卡根据自身配置的逻辑选择N线程2作为目标N线程。

S17.N线程2建立TCP连接，生成连接FD(connection FD)。

该图5中该连接FD为连接FD2。

S18.通过路由模块，将该连接FD2返回给W线程1，并将该连接FD2与N线程2的对应关系添加到FD路由表中。

通过路由模块，将该连接FD2返回给W线程1的过程可以是：确定N线程2对应的影子FD为影子FD2，通过FD影子表可以确定影子FD2对应的是W线程1的侦听FD，从而将连接FD2传递给W线程1。

本申请实施例中的路由表可以参阅表2进行理解。

表2：FD路由表

连接FD	N线程
连接FD1	N线程1
连接FD2	N线程2
…	…
连接FDn	N线程n

需要说明的是，表2只是FD路由表的一种示例，FD路由表还可以有其他表现形式或者对应关系，对此本申请实施例不做限定。

S19.W线程1将该连接FD2传递给W线程2。

W线程2可以称为第二W线程。

该图5所示的是目标应用对应多线程的场景，如果目标线程对应的是单线程，则不需要执行该步骤，直接由W线程1发起epoll/poll操作即可。

S20.W线程2根据连接FD2发起epoll/poll操作，然后W2线程转入休眠状态，该epoll/poll操作中包括连接FD2。

S21.路由模块接收到epoll/poll操作后，根据连接FD2，以及FD路由表确定该连接FD2对应N线程2，则等待来源N线程2的epoll/poll唤醒事件。

另外，在确定连接FD2对应N线程2后，还在N线程2对应的NUMA2节点的内存中为连接FD2分配接收队列和发送队列。

本申请实施例中，连接FDn与对应的接收队列和发送队列的表示形式可以参阅表3进行理解。

表3：连接FDn对应的接收队列和发送队列

接收队列n(Rx)	发送队列n(Tx)
数据的内存地址	数据的内存地址
…	…

本申请实施例中，每个连接FD都会对应一个的接收队列和发送队列，上述表3中n的取值可以理解为是一个变量，不同取值对应不同的连接FD。如上述连接FD2的接收队列和发送队列的表格形式可以理解为将表3中的n取2。

接收队列Rx用于记录与读操作相关的数据的内存地址，发送队列Tx用于记录与写操作相关的数据的内存地址。

二、服务端在TCP数据处理过程中的工作过程。

如图6所示，该工作过程包括：

S31.网卡中的网卡队列1接收到第一数据。

该第一数据可以为TCP数据。

S32.网卡中的网卡队列1将第一数据写入N线程2所对应的NUMA节点2的内存中。

S33.N线程2在内存中轮询到该第一数据后，将该第一数据的内存地址写入到连接FD2对应的接收队列中。如表4所示：

表4：连接FD2对应的接收队列和发送队列

接收队列2(Rx)	发送队列2(Tx)
第一数据的内存地址	…

S34.N线程2通过P线程2唤醒W线程2。

P线程2是N线程2的唤醒代理线程，通过P线程2唤醒W线程2可以避免N线程2进入系统态，这样N线程2就可以一直处于运行(running)态，可以提高网络性能，减少网络时延。

S35.W线程2将连接FD2传递给W线程n。

W线程n可以称为第三线程。

若是W线程2可以发起读操作，则可以不执行步骤S35。

S36.若W线程n发起读操作，则执行后续步骤S37、S38和S39。

该读操作中包括连接FD2。

S37.路由模块接管W线程n发起的读操作，根据连接FD2及FD路由表确定连接FD2对应N线程2。

S38.通过N线程2到NUMA节点2的内存中，从连接FD2对应的接收队列2中获取第一数据的内存地址，并根据第一数据的内存地址从内存中读取第一数据。

S39.将第一数据复制到W线程n对应的缓存(buffer)中，通过W线程n处理第一数据。

本申请实施例执行写操作的过程可以参阅图7进行理解，如图7所示：

S40.若W线程n发起写操作，则执行后续步骤S41、S42、S43和S44。

该写操作中包括连接FD2和第二数据。

S41.路由模块接管W线程n发起的写操作，根据连接FD2及FD路由表确定连接FD2对应N线程2。

S42.将第二数据写入到N线程2对应的NUMA节点2的内存中，并将第二数据的内存地址写入到FD2对应的发送队列中，如表5所示：

表5：连接FD2对应的接收队列和发送队列

接收队列2(Rx)	发送队列2(Tx)
…	第二数据的内存地址

S43.N线程2轮询发送队列2时，根据第二数据的内存地址，将第二数据发送到网卡队列1。

S44.网卡队列1将第二数据发送给客户端。

另外，执行写操作的过程也需要执行唤醒操作和传递FD2操作，可以参阅图6中的S34和S35进行理解。

以上图6和图7所描述的通信过程，还可以包括将W线程2和W线程3绑定到NUMA节点2的处理核上，这样，W线程2和W线程3和N线程2可以共享内存中的数据，不需要跨NUMA节点复制数据，可以提高通信效率，降低网络时延。

三、客户端在通信连接建立过程中的工作过程。

如图8所示，该工作过程包括：

S50.客户端通过W线程3发起连接(connect)操作。

S51.路由模块接收W线程3发起的连接操作，为该W线程3的连接操作从多个N线程中选择了N线程2作为目标N线程，并为该W线程3生成连接FD2(connect FD)。

S52.路由模块将连接FD2传递给W线程3。

S53.路由模块将N线程2与连接FD2的对应关系添加到FD路由表中。

S54.在N线程2对应的NUMA节点2的内存中为连接FD2分配接收队列和发送队列。

该过程可以参阅上述服务端中的相关内容进行理解，此处不再过多赘述。

S55.通过与N线程2对应的NUMA节点2以及网卡队列2向服务端发送建链请求。

四、客户端在TCP数据处理过程中的工作过程。

如图9所示，写操作过程包括：

S60.W线程3将连接FD2传递给W线程n。

该写操作中包括连接FD2和第一数据。

S61.W线程3发起写操作。

该写操作中包括连接FD2和第一数据。

S62.路由模块接管W线程n发起的写操作，根据连接FD2及FD路由表确定连接FD2对应N线程2。

S63.将第一数据写入到N线程2对应的NUMA节点2的内存中，并将第二数据的内存地址写入到FD2对应的发送队列中，可以参阅前面的表5进行理解。

S64.N线程2轮询发送队列2时，根据第一数据的内存地址，将第一数据发送到网卡队列2。

S65.网卡队列2将第二数据发送给客户端。

客户端读操作的过程可以参阅前述服务端的读操作的过程进行理解，只是不需要执行唤醒操作，以及将第一数据替换为第二数据。

为了验证本申请实施例提供的用户态协议栈在通信过程中的性能，工程开发人员对采用本申请的方案处理mysql请求，以及采用现有技术的方案处理mysql请求都做了反复的实验，实验结果显示，采用本申请方案处理mysql请求时，160个以下的TCP连接都可以保持线性度趋近1，当连接数超过240个以后依然可以保持较好的性能。而采用现有技术的方案处理mysql请求时，TCP连接数到达40个就会出现严重的多线程访存竞争，性能极速下降。由本申请方案的效果与现有技术的效果的对比可见，本申请的方案可以有效的降低多线程访存竞争，提高通信过程中计算机设备的性能。

以上介绍了基于用户态协议栈的通信方法，下面结合附图，介绍本申请实施例提供的服务端和客户端。

如图10所示，本申请实施例提供的服务端70的一实施例中，服务端包括应用层、用户态协议栈和硬件层，应用层的目标应用对应至少一个W线程，W线程为用于处理目标应用的数据的线程，用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的传输控制协议哈希表，N线程为用户态协议栈线程，硬件层包括多个非均衡内存访问NUMA节点和网卡，其中，多个N线程与多个NUMA节点一一对应：该服务端还包括：

第一处理单元701，用于通过路由模块获取第一对应关系，第一对应关系包括第一W线程的侦听文件描述符FD与多个影子FD之间的对应关系，多个影子FD是针对多个N线程一对一生成的，第一W线程为至少一个W线程中的一个。

第二处理单元702，用于通过路由模块获取第二对应关系，第二对应关系包括目标N线程与连接FD之间的对应关系，目标N线程是多个N线程中在建立与客户端的通信连接时被网卡选中的一个N线程。

第三处理单元703，用于通过路由模块，基于第一处理单元701获得的第一对应关系和第二处理单元702获得的第二对应关系与客户端通信。

可选地，第一处理单元701用于：通过路由模块接收第一W线程发起的侦听操作，并为第一W线程生成侦听FD；通过路由模块向多个N线程分别发起侦听操作，以得到多个N线程对应的多个影子FD，多个影子FD与多个N线程一一对应；通过路由模块建立侦听FD与多个影子FD之间的对应关系，以得到第一对应关系。

可选地，网卡中包括至少一个网卡队列，第二处理单元702用于：通过路由模块获取目标N线程为建立通信连接生成的连接FD，通信连接是基于第一网卡队列接收的客户端发送的建链请求建立的，第一网卡队列为至少一个网卡队列中的一个；通过路由模块建立目标N线程与连接FD的对应关系，以得到第二对应关系。

可选地，第三处理单元703用于：通过路由模块，基于第一对应关系中目标N线程对应的影子FD与第一W线程对应的侦听FD之间的对应关系，将与目标N线程对应的连接FD传递给第一W线程；通过路由模块，基于连接FD，以及第二对应关系与客户端通信。

可选地，当目标应用对应的W线程有多个时，第三处理单元703用于：通过路由模块，接收第二W线程发起的等待poll/扩展的等待epoll事件，poll/epoll事件中包括连接FD，连接FD是第一W线程传递给第二W线程的，第二W线程发起poll/epoll事件后转入休眠状态，第二W线程为目标应用对应的多个W线程中的一个；通过路由模块，根据第二对应关系确定连接FD与目标N线程对应，以等待与目标线程相关的唤醒事件；在第二W线程被唤醒后，通过路由模块，根据第二对应关系，执行与目标N线程相关的读操作或写操作。

可选地，第三处理单元703，还用于通过与目标N线程关联的唤醒代理线程唤醒第二W线程。

可选地，第三处理单元703，还用于在目标N线程对应的NUMA节点的内存中为连接FD分配接收队列和发送队列，接收队列用于记录与读操作相关的数据的内存地址，发送队列用于记录与写操作相关的数据的内存地址。

可选地，第三处理单元703用于：通过路由模块接收第二W线程或第三W线程发起的读操作，读操作中携带连接FD，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起读操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，从与连接FD关联的接收队列中获取第一数据的内存地址，第一数据是与目标N线程关联的第一网卡队列从客户端接收的数据，第一网卡队列是接收客户端发送的建链请求的网卡队列；根据第一数据的内存地址，获取第一数据，并将第一数据传递给二线程或第三W线程进行处理。

可选地，第三处理单元703用于：通过路由模块接收第二W线程或第三W线程发起的写操作，写操作中携带连接FD和第二数据，第三线程为目标应用对应的多个W线程中的一个，当由第三线程发起写操作时，连接FD是第二W线程传递给第三W线程的；通过路由模块，根据连接FD，将第二数据写入与目标N线程对应的内存中，并将第二数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第二数据的内存地址时，将内存中的第二数据发送到网卡。

可选地，第三处理单元703，还用于将第二W线程或第三W线程绑定到目标N线程所在的NUMA节点中的处理核上。

可选地，与目标N线程对应的NUMA节点中的内存为大页内存。

如图11所示，本申请实施例提供的客户端80的一实施例中，该客户端80包括应用层、用户态协议栈和硬件层，应用层的目标应用对应至少一个W线程，W线程为用于处理目标应用的数据的线程，用户态协议栈包括多个N线程、路由模块，以及与多个N线程一一对应的传输控制协议哈希表，N线程为用户态协议栈线程，硬件层包括多个非均衡内存访问NUMA节点，其中，多个N线程与多个NUMA节点一一对应；客户端80还包括：

第一处理单元801，用于通过路由模块获取目标对应关系，目标对应关系包括连接文件描述符FD与目标N线程的对应关系，目标N线程是路由模块为发起连接操作的第一W线程选择的N线程，第一W线程为至少一个W线程中的一个，目标N线程是多个N线程中的一个；

第二处理单元802，用于通过路由模块，基于目标对应关系与服务端通信。

可选地，第一处理单元801用于：通过路由模块接收第一W线程发起的连接操作，为该连接操作从多个N线程中选择目标N线程，并为第一W线程生成连接FD；通过路由模块建立目标N线程与连接FD的对应关系，以得到目标对应关系。

可选地，第二处理单元802用于：通过路由模块，根据连接FD，确定与目标N线程对应的NUMA节点以及网卡队列；通过与目标N线程对应的NUMA节点以及网卡队列向服务端发送建链请求，以及第一数据。

可选地，第二处理单元802，还用于在目标N线程对应的NUMA节点的内存中为连接FD分配发送队列，发送队列用于记录与写操作相关的数据的内存地址。

可选地，第二处理单元802用于：通过路由模块接收第二W线程发起的写操作，写操作中携带连接FD和第一数据，第二线程为目标应用对应的多个W线程中的一个，当由第二线程发起写操作时，连接FD是第一W线程传递给第二W线程的；通过路由模块，根据连接FD，将第一数据写入与目标N线程对应的内存中，并将第一数据在内存中的内存地址写入与连接FD对应的发送队列；当目标N线程轮询到发送队列中的第一数据的内存地址时，将内存中的第一数据发送到网卡。

可选地，第二处理单元802，还用于在执行写操作之前，将第二W线程绑定到目标N线程所在的NUMA节点中的处理核上。

以上所描述的服务端70和客户端80可以参阅前面方法实施例的相应内容进行理解，此处不在重复赘述。

图12所示，为本申请的实施例提供的计算机设备90的一种可能的逻辑结构示意图。计算机设备90包括：多个NUMA节点900和网卡910，每个NUMA节点中包括多个处理器901、存储器902以及总线903。处理器901、以及存储器902通过总线903相互连接。在本申请的实施例中，处理器901用于对计算机设备90的动作进行控制管理，例如，处理器901用于执行图5至图9中的步骤。通信接口902用于支持计算机设备90进行通信。存储器902，用于存储计算机设备90的程序代码和数据，并为进程组提供内存空间。网卡用于与其他设备通信。

其中，处理器901可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器901也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线903可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当设备的处理器执行该计算机执行指令时，设备执行上述图5至图9中的步骤。

在本申请的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；当设备的处理器执行该计算机执行指令时，设备执行上述图5至图9中的步骤。

在本申请的另一实施例中，还提供一种芯片系统，该芯片系统包括处理器，该处理器用于支持内存管理的装置实现上述图5至图9中的步骤。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存服务端或客户端必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此。

Claims

一种基于用户态协议栈的通信方法，应用于服务端，其特征在于，所述服务端包括应用层、所述用户态协议栈和硬件层，所述应用层的目标应用对应至少一个W线程，所述W线程为用于处理所述目标应用的数据的线程，所述用户态协议栈包括多个N线程、路由模块，以及与所述多个N线程一一对应的传输控制协议哈希表，所述N线程为用户态协议栈线程，所述硬件层包括多个非均衡内存访问NUMA节点和网卡，其中，所述多个N线程与所述多个NUMA节点一一对应；所述方法包括：

通过所述路由模块获取第一对应关系，所述第一对应关系包括第一W线程的侦听文件描述符FD与多个影子FD之间的对应关系，所述多个影子FD是针对所述多个N线程一对一生成的，所述第一W线程为所述至少一个W线程中的一个；

通过所述路由模块获取第二对应关系，所述第二对应关系包括目标N线程与连接FD之间的对应关系，所述目标N线程是所述多个N线程中在建立与客户端的通信连接时被所述网卡选中的一个N线程；

通过所述路由模块，基于所述第一对应关系和所述第二对应关系与所述客户端通信。
根据权利要求1所述的通信方法，其特征在于，所述通过所述路由模块获取第一对应关系，包括：

通过所述路由模块接收所述第一W线程发起的侦听操作，并为所述第一W线程生成所述侦听FD；

通过所述路由模块向所述多个N线程分别发起侦听操作，以得到所述多个N线程对应的多个影子FD，所述多个影子FD与所述多个N线程一一对应；

通过所述路由模块建立所述侦听FD与所述多个影子FD之间的对应关系，以得到所述第一对应关系。
根据权利要求1或2所述的通信方法，其特征在于，所述网卡中包括至少一个网卡队列，所述通过所述路由模块获取第二对应关系，包括：

通过所述路由模块获取所述目标N线程为建立所述通信连接生成的所述连接FD，所述通信连接是基于第一网卡队列接收的所述客户端发送的建链请求建立的，所述第一网卡队列为所述至少一个网卡队列中的一个；

通过所述路由模块建立所述目标N线程与所述连接FD的对应关系，以得到所述第二对应关系。
根据权利要求1-3任一项所述的通信方法，其特征在于，所述通过所述路由模块，基于所述第一对应关系和所述第二对应关系与所述客户端通信，包括：

通过所述路由模块，基于所述第一对应关系中所述目标N线程对应的影子FD与所述第一W线程对应的侦听FD之间的对应关系，将与所述目标N线程对应的连接FD传递给所述第一W线程；

通过所述路由模块，基于所述连接FD，以及所述第二对应关系与所述客户端通信。
根据权利要求4所述的通信方法，其特征在于，当所述目标应用对应的W线程有多个时，所述通过所述路由模块，基于所述连接FD，以及所述第二对应关系与所述客户端通信，包括：

通过所述路由模块，接收第二W线程发起的等待poll/扩展的等待epoll事件，所述poll/epoll事件中包括所述连接FD，所述连接FD是所述第一W线程传递给所述第二W线程的，所述第二W线程发起所述poll/epoll事件后转入休眠状态，所述第二W线程为所述目标应用对应的多个W线程中的一个；

通过所述路由模块，根据所述第二对应关系确定所述连接FD与所述目标N线程对应，以等待与所述目标线程相关的唤醒事件；

在所述第二W线程被唤醒后，通过所述路由模块，根据所述第二对应关系，执行与所述目标N线程相关的读操作或写操作。
根据权利要求5所述的通信方法，其特征在于，所述方法还包括：

通过与所述目标N线程关联的唤醒代理线程唤醒所述第二W线程。
根据权利要求5或6所述的通信方法，其特征在于，所述根据所述第二对应关系确定所述连接FD与所述目标N线程对应之后，所述方法还包括：

在所述目标N线程对应的NUMA节点的内存中为所述连接FD分配接收队列和发送队列，所述接收队列用于记录与读操作相关的数据的内存地址，所述发送队列用于记录与写操作相关的数据的内存地址。
根据权利要求7所述的通信方法，其特征在于，所述通过所述路由模块，根据所述第二对应关系，执行与所述目标N线程相关的读操作，包括：

通过所述路由模块接收所述第二W线程或第三W线程发起的读操作，所述读操作中携带所述连接FD，所述第三线程为所述目标应用对应的多个W线程中的一个，当由所述第三线程发起所述读操作时，所述连接FD是所述第二W线程传递给所述第三W线程的；

通过所述路由模块，根据所述连接FD，从与所述连接FD关联的所述接收队列中获取第一数据的内存地址，所述第一数据是与所述目标N线程关联的第一网卡队列从所述客户端接收的数据，所述第一网卡队列是接收所述客户端发送的建链请求的网卡队列；

根据所述第一数据的内存地址，获取所述第一数据，并将所述第一数据传递给所述二线程或所述第三W线程进行处理。
根据权利要求7所述的通信方法，其特征在于，所述通过所述路由模块，根据所述第二对应关系，执行与所述目标N线程相关的写操作，包括：

通过所述路由模块接收所述第二W线程或第三W线程发起的写操作，所述写操作中携带所述连接FD和第二数据，所述第三线程为所述目标应用对应的多个W线程中的一个，当由所述第三线程发起所述写操作时，所述连接FD是所述第二W线程传递给所述第三W线程的；

通过所述路由模块，根据所述连接FD，将所述第二数据写入与所述目标N线程对应的内存中，并将所述第二数据在所述内存中的内存地址写入与所述连接FD对应的所述发送队列；

当所述目标N线程轮询到所述发送队列中的所述第二数据的内存地址时，将所述内存中的所述第二数据发送到所述网卡。
根据权利要求8或9所述的通信方法，其特征在于，在执行所述读操作或写操作之前，所述方法还包括：

将所述第二W线程或所述第三W线程绑定到所述目标N线程所在的NUMA节点中的处理核上。
根据权利要求7-10任一项所述的通信方法，其特征在于，与所述目标N线程对应的NUMA节点中的内存为大页内存。
一种基于用户态协议栈的通信方法，应用于客户端，其特征在于，所述客户端包括应用层、所述用户态协议栈和硬件层，所述应用层的目标应用对应至少一个W线程，所述W线程为用于处理所述目标应用的数据的线程，所述用户态协议栈包括多个N线程、路由模块，以及与所述多个N线程一一对应的传输控制协议哈希表，所述N线程为用户态协议栈线程，所述硬件层包括多个非均衡内存访问NUMA节点，其中，所述多个N线程与所述多个NUMA节点一一对应；所述方法包括：

通过路由模块获取目标对应关系，所述目标对应关系包括连接文件描述符FD与目标N线程的对应关系，所述目标N线程是所述路由模块为发起连接操作的第一W线程选择的N线程，所述第一W线程为所述至少一个W线程中的一个，所述目标N线程是所述多个N线程中的一个；

通过所述路由模块，基于所述目标对应关系与服务端通信。
根据权利要求12所述的通信方法，其特征在于，所述通过路由模块获取目标对应关系，包括：

通过所述路由模块接收所述第一W线程发起的连接操作，为该连接操作从所述多个N线程中选择目标N线程，并为所述第一W线程生成所述连接FD；

通过所述路由模块建立所述目标N线程与所述连接FD的对应关系，以得到所述目标对应关系。
根据权利要求12所述的通信方法，其特征在于，所述通过所述路由模块，基于所述目标对应关系与服务端通信，包括：

通过所述路由模块，根据所述连接FD，确定与所述目标N线程对应的NUMA节点以及网卡队列；

通过所述与所述目标N线程对应的NUMA节点以及网卡队列向所述服务端发送建链请求，以及第一数据。
根据权利要求12-14任一项所述的通信方法，其特征在于，所述根据所述连接FD，确定与所述目标N线程对应的NUMA节点以及网卡队列之后，所述方法还包括：

在所述目标N线程对应的NUMA节点的内存中为所述连接FD分配发送队列，所述发送队列用于记录与写操作相关的数据的内存地址。
根据权利要求15所述的通信方法，其特征在于，所述通过所述与所述目标N线程对应的NUMA节点以及网卡队列向所述服务端发送第一数据，包括：

通过所述路由模块接收第二W线程发起的写操作，所述写操作中携带所述连接FD和第一数据，所述第二线程为所述目标应用对应的多个W线程中的一个，当由所述第二线程发起所述写操作时，所述连接FD是所述第一W线程传递给所述第二W线程的；

通过所述路由模块，根据所述连接FD，将所述第一数据写入与所述目标N线程对应的内存中，并将所述第一数据在所述内存中的内存地址写入与所述连接FD对应的所述发送队列；

当所述目标N线程轮询到所述发送队列中的所述第一数据的内存地址时，将所述内存中的所述第一数据发送到所述网卡。
根据权利要求16所述的通信方法，其特征在于，在执行所述写操作之前，所述方法还包括：将所述第二W线程绑定到所述目标N线程所在的NUMA节点中的处理核上。
一种服务端，其特征在于，所述服务端包括应用层、所述用户态协议栈和硬件层，所述应用层的目标应用对应至少一个W线程，所述W线程为用于处理所述目标应用的数据的线程，所述用户态协议栈包括多个N线程、路由模块，以及与所述多个N线程一一对应的传输控制协议哈希表，所述N线程为用户态协议栈线程，所述硬件层包括多个非均衡内存访问NUMA节点和网卡，其中，所述多个N线程与所述多个NUMA节点一一对应；所述服务端还包括：

第一处理单元，用于通过所述路由模块获取第一对应关系，所述第一对应关系包括第一W线程的侦听文件描述符FD与多个影子FD之间的对应关系，所述多个影子FD是针对所述多个N线程一对一生成的，所述第一W线程为所述至少一个W线程中的一个；

第二处理单元，用于通过所述路由模块获取第二对应关系，所述第二对应关系包括目标N线程与连接FD之间的对应关系，所述目标N线程是所述多个N线程中在建立与客户端的通信连接时被所述网卡选中的一个N线程；

第三处理单元，用于通过所述路由模块，基于所述第一处理单元获得的第一对应关系和所述第二处理单元获得的第二对应关系与所述客户端通信。
根据权利要求18所述的服务端，其特征在于，

第一处理单元用于：

通过所述路由模块接收所述第一W线程发起的侦听操作，并为所述第一W线程生成所述侦听FD；

通过所述路由模块向所述多个N线程分别发起侦听操作，以得到所述多个N线程对应的多个影子FD，所述多个影子FD与所述多个N线程一一对应；

通过所述路由模块建立所述侦听FD与所述多个影子FD之间的对应关系，以得到所述第一对应关系。
根据权利要求18所述的服务端，其特征在于，所述网卡中包括至少一个网卡队列，

所述第二处理单元用于：

通过所述路由模块获取所述目标N线程为建立所述通信连接生成的所述连接FD，所述通信连接是基于第一网卡队列接收的所述客户端发送的建链请求建立的，所述第一网卡队列为所述至少一个网卡队列中的一个；

通过所述路由模块建立所述目标N线程与所述连接FD的对应关系，以得到所述第二对应关系。
根据权利要求18-20任一项所述的服务端，其特征在于，

所述第三处理单元用于：

通过所述路由模块，基于所述第一对应关系中所述目标N线程对应的影子FD与所述第一W线程对应的侦听FD之间的对应关系，将与所述目标N线程对应的连接FD传递给所述第一W线程；

通过所述路由模块，基于所述连接FD，以及所述第二对应关系与所述客户端通信。
根据权利要求21所述的服务端，其特征在于，当所述目标应用对应的W线程有多个时，所述第三处理单元用于：

通过所述路由模块，接收第二W线程发起的等待poll/扩展的等待epoll事件，所述poll/epoll事件中包括所述连接FD，所述连接FD是所述第一W线程传递给所述第二W线程的，所述第二W线程发起所述poll/epoll事件后转入休眠状态，所述第二W线程为所述目标应用对应的多个W线程中的一个；

通过所述路由模块，根据所述第二对应关系确定所述连接FD与所述目标N线程对应，以等待与所述目标线程相关的唤醒事件；

在所述第二W线程被唤醒后，通过所述路由模块，根据所述第二对应关系，执行与所述目标N线程相关的读操作或写操作。
根据权利要求22所述的服务端，其特征在于，

所述第三处理单元，还用于通过与所述目标N线程关联的唤醒代理线程唤醒所述第二W线程。
根据权利要求22或23所述的服务端，其特征在于，

所述第三处理单元，还用于在所述目标N线程对应的NUMA节点的内存中为所述连接FD分配接收队列和发送队列，所述接收队列用于记录与读操作相关的数据的内存地址，所述发送队列用于记录与写操作相关的数据的内存地址。
根据权利要求24所述的服务端，其特征在于，

所述第三处理单元用于：

通过所述路由模块接收所述第二W线程或第三W线程发起的读操作，所述读操作中携带所述连接FD，所述第三线程为所述目标应用对应的多个W线程中的一个，当由所述第三线程发起所述读操作时，所述连接FD是所述第二W线程传递给所述第三W线程的；

通过所述路由模块，根据所述连接FD，从与所述连接FD关联的所述接收队列中获取第一数据的内存地址，所述第一数据是与所述目标N线程关联的第一网卡队列从所述客户端接收的数据，所述第一网卡队列是接收所述客户端发送的建链请求的网卡队列；

根据所述第一数据的内存地址，获取所述第一数据，并将所述第一数据传递给所述二线程或所述第三W线程进行处理。
根据权利要求24所述的服务端，其特征在于，

所述第三处理单元用于：

通过所述路由模块接收所述第二W线程或第三W线程发起的写操作，所述写操作中携带所述连接FD和第二数据，所述第三线程为所述目标应用对应的多个W线程中的一个，当由所述第三线程发起所述写操作时，所述连接FD是所述第二W线程传递给所述第三W线程的；

通过所述路由模块，根据所述连接FD，将所述第二数据写入与所述目标N线程对应的内存中，并将所述第二数据在所述内存中的内存地址写入与所述连接FD对应的所述发送队列；

当所述目标N线程轮询到所述发送队列中的所述第二数据的内存地址时，将所述内存中的所述第二数据发送到所述网卡。
根据权利要求25或26所述的服务端，其特征在于，

所述第三处理单元，还用于将所述第二W线程或所述第三W线程绑定到所述目标N线程所在的NUMA节点中的处理核上。
一种客户端，其特征在于，所述客户端包括应用层、所述用户态协议栈和硬件层，所述应用层的目标应用对应至少一个W线程，所述W线程为用于处理所述目标应用的数据的线程，所述用户态协议栈包括多个N线程、路由模块，以及与所述多个N线程一一对应的传输控制协议哈希表，所述N线程为用户态协议栈线程，所述硬件层包括多个非均衡内存访问NUMA节点，其中，所述多个N线程与所述多个NUMA节点一一对应；所述客户端还包括：

第一处理单元，用于通过路由模块获取目标对应关系，所述目标对应关系包括连接文件描述符FD与目标N线程的对应关系，所述目标N线程是所述路由模块为发起连接操作的第一W线程选择的N线程，所述第一W线程为所述至少一个W线程中的一个，所述目标N线程是所述多个N线程中的一个；

第二处理单元，用于通过所述路由模块，基于所述目标对应关系与服务端通信。
根据权利要求28所述的客户端，其特征在于，

所述第一处理单元用于：

通过所述路由模块接收所述第一W线程发起的连接操作，为该连接操作从所述多个N线程中选择目标N线程，并为所述第一W线程生成所述连接FD；

通过所述路由模块建立所述目标N线程与所述连接FD的对应关系，以得到所述目标对应关系。
根据权利要求28所述的客户端，其特征在于，

所述第二处理单元用于：

通过所述路由模块，根据所述连接FD，确定与所述目标N线程对应的NUMA节点以及网卡队列；

通过所述与所述目标N线程对应的NUMA节点以及网卡队列向所述服务端发送建链请求，以及第一数据。
根据权利要求28-30任一项所述的客户端，其特征在于，

所述第二处理单元，还用于在所述目标N线程对应的NUMA节点的内存中为所述连接FD分配发送队列，所述发送队列用于记录与写操作相关的数据的内存地址。
根据权利要求31所述的客户端，其特征在于，

所述第二处理单元用于：

通过所述路由模块接收第二W线程发起的写操作，所述写操作中携带所述连接FD和第一数据，所述第二线程为所述目标应用对应的多个W线程中的一个，当由所述第二线程发起所述写操作时，所述连接FD是所述第一W线程传递给所述第二W线程的；

通过所述路由模块，根据所述连接FD，将所述第一数据写入与所述目标N线程对应的内存中，并将所述第一数据在所述内存中的内存地址写入与所述连接FD对应的所述发送队列；

当所述目标N线程轮询到所述发送队列中的所述第一数据的内存地址时，将所述内存中的所述第一数据发送到所述网卡。
根据权利要求32所述的客户端，其特征在于，

所述第二处理单元，还用于在执行所述写操作之前，将所述第二W线程绑定到所述目标N线程所在的NUMA节点中的处理核上。
一种计算设备，其特征在于，包括一个或多个处理器和存储有计算机程序的计算机可读存储介质；

所述计算机程序被所述一个或多个处理器执行时实现如权利要求1-11任一项所述的方法。
一种计算设备，其特征在于，包括一个或多个处理器和存储有计算机程序的计算机可读存储介质；

所述计算机程序被所述一个或多个处理器执行时实现如权利要求12-17任一项所述的方法。
一种芯片系统，其特征在于，包括一个或多个处理器，所述一个或多个处理器被调用用于执行如权利要求1-11任一项所述的方法。
一种芯片系统，其特征在于，包括一个或多个处理器，所述一个或多个处理器被调用用于执行如权利要求12-17任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被一个或多个处理器执行时实现如权利要求1-11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被一个或多个处理器执行时实现如权利要求12-17任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当被一个或多个处理器执行时用于实现如权利要求1-11任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当被一个或多个处理器执行时用于实现如权利要求12-17任一项所述的方法。