WO2012149714A1

WO2012149714A1 - 一种节点控制器链路的切换方法、处理器系统和节点

Info

Publication number: WO2012149714A1
Application number: PCT/CN2011/078893
Authority: WO
Inventors: 谭海波; 王振国; 俞柏峰; 黄平; 赵俊峰
Original assignee: 华为技术有限公司
Priority date: 2011-08-25
Filing date: 2011-08-25
Publication date: 2012-11-08
Also published as: EP2605451A1; US9015521B2; EP2605451A4; US20130103975A1; CN102449621A; CN102449621B; EP2605451B1

Abstract

本发明实施例公开了一种NC链路的切换方法、处理器系统和节点，其中，所述处理器系统中包括两个以上可相互通信的节点，每个节点包括一个节点控制器NC芯片、一个主机总线适配器HBA装置和至少一个CPU，所述NC芯片与所在节点内每一个CPU连接，所述HBA装置与所在节点内每一个CPU连接；所述NC芯片承载的NC链路与所述HBA装置承载的HBA链路相对应；所述方法包括：当检测到某一NC芯片出现故障时，将所述NC芯片承载的NC链路上的业务切换到对应的HBA链路上。通过使用HBA装置布置冗余链路，在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本。

Description

一种节点控制器链路的切换方法、处理器系统和节点技术领域本发明实施例涉及通信技术领域，特别是涉及一种 NC链路的切换方法、处理器系统和节点。

背景技术随着技术的进步，人们对处理器的性能提出越来越高的要求，应此需求人们开发出了处理能力更强的处理器系统，例如 SMP ( Symmetric Multi - Processor, 对称多处理器）系统、 Cluster (机群）系统、 MPP ( Massive Parallel Processing, 大规模并行处理 )系统以及 NUMA ( Non Uniform Memory Access, 非一致内存访问）系统等处理器系统架构。这些架构主要通过共享内存及 10 总线的方式，达到系统性能的提升。例如 NUMA系统架构中的各节点之间通过互联模块进行连接和信息交互，在一个 OS (操作系统）下面，可以共享所有 CPU及整个系统的内存，达到处理器系统性能优化和提升。

目前无论是 SMP系统还是 NUMA系统，都采用双 NC ( Node Controller, 节点控制器）芯片冗余链路方案，当其中一条 NC链路出现故障时，该 NC链路上所有的业务都将切换到另外一个冗余的 NC链路上面，以确保业务不会中断、处理器系统性能不会受到影响，从而提高整个处理器系统的可用度。

发明人在实现本发明的过程中，发现现有技术至少存在如下问题：由于 NC芯片的成本较高，且开发周期长，导致布置冗余的 NC链路的成本过高。进一步的，冗余的 NC链路利用率非常低，还占用处理器系统总线（例如 QPI (快速通道互联）接口、 HT (超传输）总线等）资源，当处理器系统总线资源比较紧张时，不利于处理器系统的扩展。

发明内容

本发明实施例提供一种 NC链路的切换方法、处理器系统和节点，以在保持处理器系统可靠性的前提下，降低冗余链路的成本。

本发明实施例提供了一种节点控制器链路的切换方法，处理器系统中包括两个以上可相互通信的节点，每个节点包括一个节点控制器 NC芯片、一个主机总线适配器 HBA装置和至少一个 CPU, 所述 NC芯片与所在节点内每一个 CPU连接，所述 HBA装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA链路相对应；所述方法包括：当检测到某一 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HB A链路上。

本发明实施例还提供了一种处理器系统，所述处理器系统包括两个以上可相互通信的节点；

每个节点包括一个节点控制器 NC芯片、一个主机总线适配器 HBA装置和至少一个 CPU, 所述 NC芯片与所在节点内每一个 CPU连接，所述 HBA 装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA 装置承载的 HB A链路相对应；

所述节点用于：当检测到自身 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HBA链路上。

本发明实施例还提供了一种节点，所述节点包括：

一个节点控制器 NC芯片、一个主机总线适配器 HBA装置、控制器和至少一个 CPU, 所述 NC芯片与所在节点内每一个 CPU连接，所述 HBA装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA链路相对应；

所述控制器用于：当检测到自身 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HB A链路上。

本发明实施例的 NC链路的切换方法、处理器系统和节点，使用 HBA装置布置冗余链路，由于 HBA装置的硬件成本较低、设计筒单、开发周期较短，因此采用 HBA装置布置冗余的 HBA链路能够在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本；由于与 CPU或北桥芯片连接的 HBA装置支持热插拔 ,在连接和更换 HBA装置时非常方便,提高了处理器系统的 RAS 特性；由于 HBA装置不占用系统总线资源，便于处理器系统扩展；当 NC链路上的业务达到一定的负荷时，通过将 NC链路上一部分业务切换到 HBA链路上，实现了业务负载分配均衡，同时提高了 HBA链路的利用率。附图说明

图 1是本发明 HBA装置与 CPU第一种连接方式的示意图；

图 2是本发明 HBA装置与 CPU第二种连接方式的示意图；

图 3是本发明 NC链路的切换方法的实施例的流程示意图；

图 4是本发明 NC交换网和 HB A交换网的示意图；

图 5是本发明 NC链路和 HBA链路的示意图；

图 6是本发明 NC芯片、 HBA装置与交换设备的一种连接方式示意图；图 Ί是本发明 NC芯片、 HBA装置与交换设备的另一种连接方式示意图；图 8是本发明 NC链路的切换方法的一个具体例子的示意图；

图 9是本发明处理器系统的结构示意图；

图 10是本发明节点的第一实施例的框架示意图；

图 11是本发明节点的第二实施例的框架示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

实施例一

本实施例提供了一种 NC链路的切换方法，该切换方法涉及的处理器系统中包括两个以上可相互通信的节点，每个节点包括一个 NC芯片、一个主机总线适配器 HBA ( Host Bus Adapter, 主机总线适配器 )装置和至少一个 CPU, 所述 NC芯片与所在节点内每一个 CPU连接，所述 HBA装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA 链路相对应。

所述 HBA装置与所在节点内每一个 CPU连接的方式可以有两种：

( 1 ), HBA装置插接在北桥芯片上，北桥芯片与所述每一个 CPU通过前端总线相连。参见图 1 , 以一个节点中包含两个 CPU为例。

通常, HBA装置都采用 PCIE ( Peripheral Component Interconnect Express , 快速外设互联标准 )接口，可以在北桥芯片上扩展 PCIE插槽来连接 HBA装置。 ( 2 )参见图 2, HBA装置直接挂接在所述每一个 CPU上。

一些 CPU芯片内部集成有 PCIE控制器，因此可以直接将 HBA装置挂接在 CPU引出的 PCIE插槽上面。

所述方法可以包括如下步骤（参见图 3 ):

S101 , 当检测到某一 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HB A链路上。

执行所述检测动作的可以是处理器系统中的交换设备 (例如交换机、路由器等），也可以是出现故障的 NC芯片所在的节点；发起切换动作的可以是出现故障的 NC芯片所在的节点。

由于 HBA装置的硬件成本较低、设计筒单，因此采用 HBA装置布置冗余的 HBA链路能够在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本。

主板上通常会预留有很多 PCIE插槽，而且很多 HBA装置支持热插拔，这样在连接和更换 HBA 装置时非常方便，提高了处理器系统的 RAS ( Reliability, Availability, Serviceability, 高可靠性、高可用性、高服务性）特性。另外， HBA装置不占用系统总线资源，不限制处理器系统的扩展。

所述 NC芯片承载的 NC链路与所述 HB A装置承载的 HB A链路相对应，具体可以通过在每个节点内预置第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。

通过第一路由表和第二路由表看到的节点资源是一致的，节点资源可以包括 CPU、内存、 10资源（例如 PCIE设备 )等。

若 NC芯片没有交换功能，则需要分别通过交换设备建立 NC链路和 HBA 链路，则第一路由表中除了节点地址以夕卜，还包括 NC交换网中与该节点对应的交换设备的端口，以及，第二路由表中除了节点地址以外，还包括 HBA交换网中与该节点对应的交换设备的端口。

无论节点中的 NC芯片是否具有交换功能，都存在 NC交换网和 HB A交换网。所述 NC交换网为 NC芯片之间的交换网， HBA交换网为 HBA装置之间的交换网（参见图 4 ), NC交换网和 HBA交换网可以各自使用两个独立的交换设备，也可以共用同一个交换设备（参见图 5 ), 其中， NC链路用实线表示， HBA链路用虚线表示。交换设备中也需要存储第一路由表和第二路由表，可以由操作系统控制交换设备与各个节点上的第一路由表和第二路由表同步。

正常情况下， NC链路和 HB A链路是一直畅通的，承载链路的双方（如节点和节点之间或节点与交换设备之间）会不停的在相应的链路上发送握手信号，以检测链路是否畅通可用。若节点中 NC芯片正常，与其对应的 HBA链路未被使用，则节点可以为 HBA链路分配一个线程进行握手信号的训练；当 NC芯片出现故障，节点会为该 HBA链路多分配一些线程以便于接收 NC链路切换过来的业务，实现业务的平滑切换，保证处理器系统的可靠性。

S101中将 NC链路上的业务切换到对应的 HBA链路上可以包括：出现故障的 NC芯片所在的节点利用第一路由表查找本节点的地址；利用第二路由表查找与所述地址对应的 HBA装置；

将所述出现故障的 NC 芯片承载的 NC链路上的业务切换到所述对应的 HBA装置承载的 HBA链路上。

进一步的，所述方法还可以包括： S102, 当操作系统检测到某一节点上 NC链路的带宽占用率超过阈值时，通知所述节点将符合预置列表的业务从所述 NC链路切换到对应的 HBA链路上。

所述阈值可以由用户提前指定，并可根据实际需要进行调整，由此来确定业务量是否超出一定的负荷。所述预置列表中罗列了适合从 NC链路切换到 HBA链路的业务类型，可以是一些实时性要求较低的业务，例如可以为 PCIE 设备、外挂存储设备或 10存储设备等的业务；预置列表可以緩存在节点的某个内存中。由此，可以在 NC链路上的业务量达到一定负荷时，实现业务负载分配均衡，并提高了 HBA链路的利用率。

对于具有交换功能的 NC芯片来说， NC链路为 NC芯片之间直接形成的链路，参见图 6。对于不具有交换功能的 NC芯片来说， NC链路为 NC芯片与交换设备之间形成的链路，参见图 7。而 HBA链路则始终为 HBA装置与交换设备之间形成的链路。

下面，以一个具体的例子介绍上述切换方法。参见图 8, 4叚设处理器系统中的两个节点：节点 1和节点 2, 节点 1和节点 2中的 NC芯片和 HBA装置通过同一交换设备形成 NC链路和 HBA链路。若节点 1中的 CPU1要访问节点 2中 CPU4的内存，正常情况下， CPU1访问 CPU4的内存的一般路径为： CPU1-NC芯片 1-交换设备 -NC芯片 2-CPU4-内存 4。当 NC芯片 1 出现故障、导致 NC芯片 1与交换设备之间的 NC链路出现故障时，节点 1将 NC芯片 1承载 NC链路上的业务切换到 HBA装置 1对应承载的 HBA链路上，贝' J CPU1访问 CPU4的内存的路径为： CPU1-HBA装置 1-交换设备 -NC芯片 2-CPU4-内存 4。

上述 NC链路的切换方法可以应用于 SMP系统架构、 NUMA系统架构、机群和云计算等，若将本实施例的处理器系统整个看作一个节点，则还可以运用在 MMP系统架构中。

本实施例的 NC链路的切换方法，使用 HBA装置布置冗余链路，由于 HBA 装置的硬件成本较低、设计筒单、开发周期较短，因此采用 HBA装置布置冗余的 HBA链路能够在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本；由于与 CPU或北桥芯片相连的 HBA装置支持热插拔，在连接和更换 HBA装置时非常方便，提高了处理器系统的 RAS特性；由于 HBA装置不占用系统总线资源，便于处理器系统扩展；当 NC链路上的业务达到一定的负荷时，通过将 NC链路上一部分业务切换到 HBA链路上，实现了业务负载分配均衡，同时提高了 HBA链路的利用率。实施例二

本实施例提供了一种处理器系统，参见图 9, 所述处理器系统包括两个以上可相互通信的节点。

每个节点包括一个 NC芯片、一个 HBA装置和至少一个 CPU, 所述 NC 芯片与所在节点内每一个 CPU连接，所述 HBA装置与所在节点内每一个 CPU 连接；所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA链路相对应。

所述节点还可以用于：存储预置的第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC 芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。

所述节点还可以用于：

当收到操作系统对本节点 NC链路的切换通知后，将所述 NC链路上符合预置列表的业务切换到对应的 HBA链路上。

本实施例的处理器系统，使用 HBA装置布置冗余链路，由于 HBA装置的硬件成本较低、设计筒单、开发周期较短，因此采用 HBA装置布置冗余的 HBA链路能够在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本；由于与 CPU或北桥芯片相连的 HBA装置支持热插拔，在连接和更换 HBA装置时非常方便，提高了处理器系统的 RAS特性；由于 HBA装置不占用系统总线资源，便于处理器系统扩展；当 NC链路上的业务达到一定的负荷时，通过将 NC链路上一部分业务切换到 HBA链路上，实现了业务负载分配均衡，同时提高了 HBA链路的利用率。实施例三

本实施例提供了一种节点，参见图 10, 所述节点包括：

一个 NC芯片 10、一个主机总线适配器 HBA装置 20、控制器 30和至少一个 CPU40 (图 10中以包含 3个 CPU进行示例 ),所述 NC芯片 10与所在节点内每一个 CPU40连接，所述 HBA装置 20与所在节点内每一个 CPU40连接；所述 NC芯片 10承载的 NC链路与所述 HB A装置 20承载的 HB A链路相对应。

所述控制器 30用于：当检测到自身 NC芯片出现故障时，将所述 NC芯片 10承载的 NC链路上的业务切换到对应的 HBA链路上。

参见图 11 , 所述节点还包括存储器件 50, 用于：存储预置的第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA 装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。所述控制器 30还用于：

当收到操作系统对本节点 NC链路的切换通知后，将所述 NC链路上符合预置列表的业务切换到对应的 HBA链路上。预置列表可以位于节点内某一 CPU 的内存；也可以是控制器单独配置有内存，预置列表位于所述控制器的内存中；预置列表还可以存储在所述存储器件 50中。

本实施例的节点，使用 HBA装置布置冗余链路，由于 HBA装置的硬件成本较低、设计筒单、开发周期较短，因此采用 HBA装置布置冗余的 HBA 链路能够在保证处理器系统可靠性的前提下，有效降低布置冗余链路的成本；由于与 CPU或北桥芯片相连的 HBA装置都支持热插拔，在连接和更换 HBA 装置时非常方便，提高了处理器系统的 RAS特性；由于 HBA装置不占用系统总线资源，便于处理器系统扩展；当 NC链路上的业务达到一定的负荷时，通过将 NC链路上一部分业务切换到 HBA链路上，实现了业务负载分配均衡，同时提高了 HBA链路的利用率。

由于实施例二、实施例三与实施例一的相似内容较多，因此介绍的比较筒略，相关之处请参见实施例一。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读存储介质中，如： ROM / RAM、磁碟、光盘等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 "包括"、 "包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句 "包括一个……，，限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

权利要求

1、一种节点控制器链路的切换方法，其特征在于，处理器系统中包括两个以上可相互通信的节点，每个节点包括一个节点控制器 NC芯片、一个主机总线适配器 HBA装置和至少一个 CPU, 所述 NC芯片与所在节点内每一个 CPU连接，所述 HB A装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA链路相对应；所述方法包括：当检测到某一 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HBA链路上。

2、如权利要求 1所述的方法，其特征在于，所述 NC芯片承载的 NC链路与所述 HBA装置承载的 HBA链路相对应包括：每个节点内预置有第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。

3、如权利要求 2所述的方法，其特征在于，所述将 NC链路上的业务切换到对应的 HBA链路上具体包括：

利用第一路由表查找出现故障的 NC芯片所在节点的地址；

利用第二路由表查找与所述地址对应的 HBA装置；

将所述出现故障的 NC 芯片承载的 NC链路上的业务切换到所述对应的 HBA装置承载的 HB A链路上。

4、如权利要求 1所述的方法，其特征在于，所述方法还包括：当操作系统检测到某一节点上 NC链路的带宽占用率超过阈值时，通知所述节点将符合预置列表的业务从所述 NC链路切换到对应的 HBA链路上。

5、如权利要求 1-4任一项所述的方法，其特征在于，所述 HBA装置与所在节点内每一个 CPU连接的方式为： HBA装置插接在北桥芯片上，北桥芯片与所述每一个 CPU通过前端总线相连。

6、如权利要求 1-4任一项所述的方法，其特征在于，所述 HBA装置与所在节点内每一个 CPU连接的方式为： HBA装置直接挂接在所述每一个 CPU 上。

7、一种处理器系统，其特征在于，所述处理器系统包括两个以上可相互通信的节点；

每个节点包括一个节点控制器 NC芯片、一个主机总线适配器 HBA装置和至少一个 CPU , 所述 NC芯片与所在节点内每一个 CPU连接，所述 HB A 装置与所在节点内每一个 CPU连接；所述 NC芯片承载的 NC链路与所述 HBA 装置承载的 HB A链路相对应；

并且所述节点在检测到自身 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HB A链路上。

8、如权利要求 7所述的处理器系统，其特征在于，所述节点还用于：存储预置的第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC 芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。

9、如权利要求 7所述的处理器系统，其特征在于，所述节点还用于：当收到操作系统对本节点 NC链路的切换通知后，将所述 NC链路上符合预置列表的业务切换到对应的 HBA链路上。

10、一种节点，其特征在于，所述节点包括：

所述控制器用于：当检测到自身 NC芯片出现故障时，将所述 NC芯片承载的 NC链路上的业务切换到对应的 HBA链路上。

11、如权利要求 10所述的节点，其特征在于，所述节点还包括存储器件，用于：存储预置的第一路由表和第二路由表，第一路由表为各个节点中 NC芯片的路由表，每个 NC芯片对应其所在节点的地址，第二路由表为各个节点中 HBA装置的路由表，每个 HBA装置对应其所在节点的地址，第一路由表和第二路由表通过节点地址对应起来。

12、如权利要求 11所述的节点，其特征在于，所述控制器还用于：当收到操作系统对本节点 NC链路的切换通知后，将所述 NC链路上符合预置列表的业务切换到对应的 HBA链路上。