WO2021082990A1

WO2021082990A1 - 基于pcie总线的多芯片互联系统

Info

Publication number: WO2021082990A1
Application number: PCT/CN2020/122248
Authority: WO
Inventors: 郭述帆; 吴永航; 蔡坤炎; 李仕峰
Original assignee: 中兴通讯股份有限公司
Priority date: 2019-10-31
Filing date: 2020-10-20
Publication date: 2021-05-06
Also published as: US20220365898A1; EP4053709A4; EP4053709A1; CN112749121A

Abstract

一种基于PCIE总线的多芯片互联系统，包括：N个加速器，M个处理器，以及M根PCIE总线，其中，N和M均为正整数，且M大于N；每个加速器包括：至少两个端点，每个处理器包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，以使每个加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接。由于该系统是以加速器为中心的与多个处理器相连形成星型PCIE的计算结构，可在无需额外增加高速器件的条件下完成多处理器与加速器的数据协同，提高了数据的处理效率以及减少设备的增减的技术效果。

Description

基于PCIE总线的多芯片互联系统

技术领域

本公开涉及硬件系统方案领域，尤其涉及一种基于PCIE总线多类型芯片互联系统。

背景技术

硬件性能迅猛提升，计算场景日趋细化。人工智能、自动驾驶、5G通信各个领域对硬件有不同的诉求，或侧重NPU(Neural network Processing Unit神经网络处理单元)单元性能，或考量传感器稳定性及决策系统正确性，或关注传输带宽及时延。

现有的计算芯片均为固化的计算装置，无法灵活搭配裁剪，FPGA(Field Programmable Gate Array现场可编程门阵列)虽可以实现硬件编程，无奈其价格是多数设备厂商难以承受之重。

PCIE(Peripheral Component Interconnect Express快速外设部件互联标准)为Intel公司提出的一种高速串行计算机扩展总线标准，4.0版本能够达到16GT/s速率，满足大多数数据高速传输需求。处理器通过树形PCIE总线结构与各高速外设互联，达到数据高速传输的目的。如图1所示，现有技术中的处理器与加速器之间的树形PCIE总线示意图。

传统多处理器协同使用加速器生产数据的方案，各处理器子系统通过PCIE与各加速器互联，处理器子系统间通过以太网传递数据，此方案需要依赖于高速网络器件，存在硬件成本高、数据时延大的缺点。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开实施例提供了一种基于PCIE总线的多芯片互联系统及数据协同处理的方法，以至少解决相关技术中无法高效的实现多处理器与加速器的数据协同的问题。

根据本公开的一个实施例，提供了一种基于PCIE总线的多芯片互联系统，包括：N个加速器，M个处理器，以及M根PCIE总线，其中，N和M均为正整数，且M大于N；所述每个加速器包括：至少两个端点，所述每个处理器包括：一个根节点，其中，一个所述端点与一个所述根节点之间通过一根所述PCIE总线连接，以使所述每个加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接。

根据本公开的另一个实施例，提供了一种数据协调处理的方法，包括：第一处理器向加速器发起读写访问请求，其中，所述第一处理器中的根节点通过第一PCIE总线与所述加速器中的一个端点相连，所述加速器包括至少两个端点，通过所述加速器的至少两个端点与至少两个处理器连接，所述至少两个处理器包括：所述第一处理器；所述第一处理器中的根节点将所述读写访问请求转换为第一PCIE总线域访问地址之后，发送至所述加速器，以使所述第一处理器对所述加速器进行数据访问。

根据本公开的另一个实施例，提供了一种数据协调处理的方法，包括：加速器与M个处理器建立连接，其中，所述加速器包括：至少M个端点，所述每个处理器包括：一个根节点，其中，一个所述端点与一个所述根节点之间通过一根PCIE总线连接，所述M为大于1的正整数，以使所述加速器的M个端点通过不同的PCIE总线与至少M个处理器连接，所述M个处理器包括：第一处理器；所述加速器接收第一PCIE总线域访问地址，其中，所述第一PCIE总线域访问地址是所述第一处理器将所述第一处理器发起的读写访问请求转换的第一PCIE总线域访问地址，以使所述加速器对所述第一处理器进行数据访问。

根据本公开的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项数据协调处理的方法实施例中的步骤。

根据本公开的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项数据协调处理的方法实施例中的步骤。

通过本公开，一种基于PCIE总线的多芯片互联系统，包括：N个加速器，M个处理器，以及M根PCIE总线，其中，N和M均为正整数，且M大于N；每个加速器包括：至少两个端点，每个处理器包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，以使每个加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是现有技术中的处理器与加速器之间的树形PCIE总线示意图；

图2是根据本公开实施例的基于PCIE总线的多芯片互联系统示意图；

图3是根据本公开实施例的系统中的加速器与处理器连接的结构示意图；

图4是根据本公开实施例的数据协调处理的方法流程图；

图5是根据本公开实施例的又一数据协调处理的方法流程图；

图6是根据本公开优选实施例处理器与加速器之间的连接示意图；

图7是根据本公开优选实施例的处理器跨PCIE数据相互访问的示意图；

图8是根据本公开优选实施例的基于PCIE星型总线结构的数据处理流程图；

图9是根据本公开优选实施例的基于三个处理器三个PCIE星型结构的数据流的示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

根据本公开实施例，提供了一种基于PCIE总线的多芯片互联系统实施例，如图2所示，基于PCIE总线的多芯片互联系统的示意图。该系统中包括：N个加速器，M个处理器，以及M根PCIE总线，其中，N和M均为正整数，且M大于N，对于N个加速器中的每个加速器均包括：至少两个端点，对于M个处理器中的每个处理器均包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，以使每个加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接。

需要说明的是，在N为多个的情况下，系统中的N个加速器之间可以建立通信方式，也可以不建立通信方式。建立通信的方式可以是现有任何方式，在此不作具体的限定。例如，在N为2个的情况下，则表示系统中存在2个以下结构：以一个加速器和至少两个处理器的结构为例，如图3所示，其中2个加速器之间可以建立通信也可以不建立通信。依次类推，在N为3时，系统中存在3个如图3所示的结构，其中，3个加速器中可以2个加速器建立通信，也可以3个之间都有建立通信，还可以之间没有通信。例如，系统中存在加速器1、加速器2以及加速器3，其中，加速器1和加速2可以建立通信，与加速器3之间没有通信；还可以加速器1与加速器2和加速器3都建立通信；还可以加速器1和加速器2建立通信，加速器2和加速器3建立通信，但加速器1和加速器3之间没建立通信。

如图3所示，系统中的加速器与处理器连接的结构示意图，该结构中可以包括：加速器11、和处理器13、以及PCIE总线15。

加速器11包括至少一个端点，其中，端点设置为与处理器13相连。

处理器13中包括根节点，其中，根节点通过PCIE总线15与加速器 11中的端点相连方法。

需要说明的是，在多个处理器与加速器相连，则每个处理器通过各自的PCIE总线与加速器相连，例如，处理器1通过PCIE总线1与加速器相连，处理器2通过PCIE总线2与加速器相连。

通过上述系统，N个加速器和M个处理器建立通信，加速器11包括至少两个端点，其中，端点与处理器13相连；处理器13中包括根节点，其中，根节点通过PCIE总线15与加速器11中的端点相连。由于该系统以加速器为中心的与多个处理器相连的形成星型PCIE的计算结构，可在无需额外增加高速器件的条件下完成多处理器与加速器的数据协同。提高了数据的处理效率以及减少设备的增减的技术效果。

需要说明的是，在系统中包括N个加速器，则表示N个加速器中的每个加速器与至少两个处理器相连。

还需要说明的是，在本公开实施例中，在加速器为多个的情况下，多个加速器之间可以通过以太网实现通信，也可以通过PCIE总线进行相连等等。进而可以实现多个加速器与多个处理器之间的数据交互，从而提高了数据的匀运算速率。

作为一种可选的实施例，上述系统还可以包括：处理器，还设置为在多芯片互联系统上电后，为加速器的端点分配PCIE总线域访问地址。

根据本公开实施例，还提供了数据协调处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

需要说明的是，该数据协调处理的方法是基于上述基于PCIE总线的多芯片互联系统实现的。

下面将对本公开实施例的数据协调处理的方法进行详细说明。

图4是根据本公开实施例的数据协调处理的方法的流程图，如图4所示，该数据协调处理的方法包括如下步骤：

步骤S402，第一处理器向加速器发起读写访问请求，其中，第一处理器的根节点通过第一PCIE总线与加速器的一个端点相连，加速器包括至少两个端点，通过加速器的至少两个端点与至少两个处理器连接，至少两个处理器包括：第一处理器。

步骤S404，第一处理器将读写访问请求转换为第一PCIE总线域访问地址之后，发送至加速器，以使第一处理器对加速器进行数据访问。

其中，第一处理器对加速器进行数据访问可以但不限于对加速器中的数据进行配置以及读写操作。

通过上述步骤，第一处理器向加速器发起读写访问请求，其中，第一处理器的根节点通过第一PCIE总线与加速器的一个端点相连，加速器包括至少两个端点，通过加速器的至少两个端点与至少两个处理器连接，至少两个处理器包括：第一处理器，第一处理器将读写访问请求转换为第一PCIE总线域访问地址之后，发送至加速器，以使第一处理器对加速器进行数据访问。可在无需额外增加高速器件的条件下完成多处理器与加速器的数据协同。提高了数据的处理效率以及减少设备的增减的技术效果。

作为一种可选的实施例，第一处理器向加速器发起读写访问请求之后，上述方法还可以包括：第一处理器将读写访问请求转换为第一PCIE总线域访问地址；在转换后的第一PCIE总线域访问地址落入到第二处理器的域空间的情况下，第一PCIE总线域访问地址转换为第二处理器域空间访问地址，以使第一处理器对第二处理器的数据进行访问。

需要说明的是，上述是第一处理器对第二处理器的数据进行访问，同样的方式操作，也可以实现第二处理器对第一处理器的数据进行访问。

作为一种可选的实施例，第一处理器对第二处理器的数据进行访问可以包括：加速器接收处理器发送的第一数据，并对第一数据进行处理，得到对第一数据处理后的第二数据；加速器将处理第一数据的结果通知第二处理器，其中，第二处理器包括一个或多个；加速器接收第二处理器发送的第二数据请求；加速器响应第二数据请求，将第二数据发送至第二处理器。进而实现第一处理器与一个或多个第二处理器之间跨PCIE互相访问。

作为一种可选的实施例，加速器响应第二数据请求，将第二数据发送至第二处理器可以包括：加速器通过第一PCIE总线接收处理器的第一处理器发送的第一数据；加速器对第一数据处理后，得到第二数据，并保存第二数据；加速器将得到第二数据通知第二处理器；加速器通过第二PCIE总线将第二数据发送至第二处理器。进而实现第一处理器与第二处理器之间数据跨PCIE总线的互相访问。

图5是根据本公开实施例的数据协调处理的方法的流程图，如图5所示，该数据协调处理的方法包括如下步骤：

步骤502，加速器与与M个处理器建立连接，其中，加速器包括：至少M个端点，每个处理器包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，M为大于1的正整数，以使加速器的M个端点通过不同的PCIE总线与至少M个处理器连接，M个处理器包括：第一处理器。

步骤504，加速器接收第一PCIE总线域访问地址，其中，第一PCIE总线域访问地址是第一处理器将第一处理器发起的读写访问请求转换的第一PCIE总线域访问地址，以使加速器对第一处理器进行数据访问。

其中，加速器接收的第一PCIE总线域访问地址，该第一访问域地址是第一处理器将自身发起的读写访问请求转换为第一PCIE总线域访问地址。

可选地，加速器接收第一处理器发送的读写访问请求之前，上述方法还可以包括：加速器发送的第一PCIE总线访问域地址，在第一PCIE总线访问域地址转换为第一处理器的域空间访问地址的情况下，以使加速器对第一处理器进行访问。

通过上述步骤，加速器与M个处理器建立连接，其中，加速器包括：至少两个端点，每个处理器包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，以使加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接，至少两个处理器包括：第一处理器，加速器接收第一PCIE总线域访问地址，其中，第一总线与访问地址是第一处理器中的根节点将读写访问请求转换的第一PCIE总线域访问地址，以使加速器对第一处理器进行数据访问，可在无需额外增加高速器件的条件下完成多处理器与加速器的数据协同，提高了数据的处理效率以及减少设备的增减的技术效果。

结合上述实施例，本公开提供一种优选实施例，提供了一种基于PCIE总线多类型芯片星型互联的方法及对应装置。

该优选实施例采用以下技术方案：系统分为两大部分：处理器芯片和加速器芯片。

处理器芯片核心包括但不限于X86、ARM处理器，但需支持PCIE功能，用作PCIE总线的Root Complex(RC)。

加速器芯片包括各类计算场景需要的加速器模块及配套内存单元，用作PCIE总线的End Point(EP)。

多个RC均通过PCIE总线与EP相连，形成一种以加速器为中心，处理器为辐射端点的星型拓扑结构，其中处理器节点可大于等于2。如图6所示，根据本公开优选实施例的处理器与加速器之间的连接示意图。

系统上电后，RC与EP分别进行初始化操作。处理器启动后，扫描PCIE设备，在存储器域为EP分配PCIE域访问窗口地址。

处理器访问加速器域空间的过程为：加速器设备为PCIE总线的EP端，处理器发出对加速器空间的读写访问，经过RC转换为PCIE总线域访问后到达加速器，实现对加速器的配置及数据读写。

加速器访问处理器地址域空间的过程为：加速器发出的PCIE总线域访问同样可以通过RC转化至处理器域，实现对处理器域空间的读写，转换流程与处理器访问加速器域相反。

处理器跨PCIE互相访问：处理器#1发出的访问首先经过RC#1转换为PCIE#1域访问，若转换后的地址落入到PCIE#2域空间，RC#2随后会将其转换为处理器#2存储器域访问，实现处理器#1对处理器#2空间的读写。处理器#2对处理器#1空间的访问相关转换方式类似，但方向相反。如图7所示，处理器跨PCIE数据相互访问的示意图。

通过该优选实施例，提供了一种PCIE星型总线结构方案，取得降低硬件成本，减少访问时延的效果。

如图8所示，本公开优选实施例中的，一种基于PCIE星型总线结构的数据处理流程图，下面结合附图8对技术方案的实施作进一步的详细描述：

步骤一：规划处理器与加速器星型拓扑连接结构；

步骤二：系统上电，各模块启动并初始化，处理器扫描PCIE外设，分配访问地址空间；

步骤三：处理器初始化加速器；

步骤四：各处理器将数据下发加速器模块，加速器处理后返回结果通知目标处理器，各处理器通过消费加速器生产的数据，得出最终结果。

例如，以三个处理器三个PCIE星型结构下的具体实施来说明数据流的处理，处理器的个数在此仅作为示例说明数据流向，具体的处理器个数可按照实际应用场景确定，如图9所示，本公开优选实施例的基于三个处理器三个PCIE星型结构的数据流的示意图。

处理器#1获得了基本数据，经由PCIE#1送入加速器#1进行运算，加速器将处理后的数据送入加速器内存空间，通知处理器#2、#3。处理器#2、#3收到消息后，经PCIE#2、PCIE#3取走数据，进行下一阶段的分析处理，最终处理器#2通过PCIE#2、PCIE#1，处理器#3通过PCIE#3、PCIE#1将结果返回给处理器#1。该结构为一个完整的星形星型PCIE结构下数据生产消费的具体实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

本公开的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，加速器与M个处理器建立连接，其中，加速器包括：至少M个端点，每个处理器包括：一个根节点，其中，一个端点与一个根节点之间通过一根PCIE总线连接，M为大于1的正整数，以使加速器的M个端点通过不同的PCIE总线与至少M个处理器连接，M个处理器包括：第一处理器；

S2，加速器接收第一PCIE总线域访问地址，其中，第一总线域访问地址是第一处理器将第一处理器发起的第一处理器发起的读写访问请求转换的第一PCIE总线域访问地址，以使加速器对第一处理器进行数据访问。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本公开的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S2，加速器接收第一PCIE总线域访问地址，其中，第一PCIE总线域访问地址是第一处理器将第一处理器发起的读写访问请求转换的第一PCIE总线域访问地址，以使加速器对第一处理器进行数据访问。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种基于快速外设部件互联标准PCIE总线的多芯片互联系统，包括：

N个加速器，M个处理器，以及M根PCIE总线，其中，N和M均为正整数，且M大于N；

所述每个加速器包括：至少两个端点，所述每个处理器包括：一个根节点，其中，一个所述端点与一个所述根节点之间通过一根所述PCIE总线连接，以使所述每个加速器的至少两个端点通过不同的PCIE总线与至少两个处理器连接。
根据权利要求1所述的系统，其中，所述系统还包括：

所述处理器，还设置为在所述多芯片互联系统上电后，为所述加速器的端点分配PCIE总线域访问地址。
一种数据协调处理的方法，包括：

第一处理器向加速器发起读写访问请求，其中，所述第一处理器的根节点通过第一PCIE总线与所述加速器的一个端点相连，所述加速器包括至少两个端点，通过所述加速器的至少两个端点与至少两个处理器连接，所述至少两个处理器包括：所述第一处理器；

所述第一处理器将所述读写访问请求转换为第一PCIE总线域访问地址之后，发送至所述加速器，以使所述第一处理器对所述加速器进行数据访问。
根据权利要求3所述的方法，其中，所述第一处理器向加速器发起读写访问请求之后，所述方法还包括：

所述第一处理器将所述读写访问请求转换为第一PCIE总线域访问地址；

在转换后的所述第一PCIE总线域访问地址落入到第二处理器的域空间的情况下，所述第一PCIE总线域访问地址转换为所述第二处理器域空间访问地址，以使所述第一处理器对所述第二处理器进行数据访问。
根据权利要求4所述的方法，其中，所述第一处理器对所述第二处理器的数据进行访问包括：

所述加速器接收所述第一处理器发送的第一数据，并对所述第一数据进行处理，得到对所述第一数据处理后的第二数据；

所述加速器将处理所述第一数据的结果通知所述第二处理器，其中，所述第二处理器包括一个或多个；

所述加速器接收所述第二处理器发送的第二数据请求；

所述加速器响应所述第二数据请求，将所述第二数据发送至所述第二处理器。
根据权利要求5所述的方法，其中，所述加速器响应所述第二数据请求，将所述第二数据发送至所述第二处理器包括：

所述加速器通过第一PCIE总线接收所述第一处理器发送的第一数据；

所述加速器对所述第一数据处理后，得到所述第二数据，并保存所述第二数据；

所述加速器将得到所述第二数据通知所述第二处理器；

所述加速器通过第二PCIE总线将所述第二数据发送至所述第二处理器。
一种数据协调处理的方法，包括：

加速器与M个处理器建立连接，其中，所述加速器包括：至少M个端点，所述每个处理器包括：一个根节点，其中，一个所述端点与一个所述根节点之间通过一根PCIE总线连接，所述M为大于1的正整数，以使所述加速器的M个端点通过不同的PCIE总线与至少M个处理器连接，所述M个处理器包括：第一处理器；

所述加速器接收第一PCIE总线域访问地址，其中，所述第一PCIE总线域访问地址是所述第一处理器将所述第一处理器发起的读写访问请求转换的第一PCIE总线域访问地址，以使所述加速器对所述第一处理器进行数据访问。
根据权利要求7所述的方法，其中，所述加速器接收第一处理器发送的读写访问请求之前，所述方法还包括：

所述加速器发送第一PCIE总线访问域地址；

在所述第一PCIE总线访问域地址转换为所述第一处理器的域空间访问地址的情况下，以使所述加速器对所述第一处理器进行访问。
一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求3至6，或权利要求7至8任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求3至6，或权利要求7至8任一项中所述的方法。