WO2020048174A1

WO2020048174A1 - 故障诊断系统及服务器

Info

Publication number: WO2020048174A1
Application number: PCT/CN2019/090352
Authority: WO
Inventors: 金科; 周栋树
Original assignee: 华为技术有限公司
Priority date: 2018-09-06
Filing date: 2019-06-06
Publication date: 2020-03-12
Also published as: US11347611B2; EP3835903A4; EP3835903B1; US20210191831A1; CN109101009A; EP3835903A1; CN109101009B

Abstract

一种故障诊断系统，包括：控制单元（102）、第一管理板（1011）、第一上拉单元（1031）、第二上拉单元（1032）、第一上拉开关（1051）、第二上拉开关（1052）和至少一个中央处理器（CPU1，...，CPU8）；第一上拉单元（1031）与第一上拉开关（1051）电连接，第二上拉单元（1032）与第二上拉开关（1052）电连接，控制单元（102）与第一管理板（1011）电连接，控制单元（102）分别与第一上拉开关（1051）和第二上拉开关（1052）电连接；控制单元（102）用于接收第一管理板（1011）发送的硬分区信号；第一上拉单元（1031）和第二上拉单元（1032）用于上拉故障诊断线路的故障指示信号，以得到目标信号；第一管理板（1011）用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于预设阈值时，确定至少一个中央处理器（CPU1，...，CPU8）中存在发生故障的中央处理器（CPU1，...，CPU8）。

Description

故障诊断系统及服务器

技术领域

本申请实施例涉及电路技术领域，尤其涉及一种故障诊断系统及服务器。

背景技术

随着对服务器性能的需求不断提高，单个中央处理器(central processing unit，CPU)的服务器已经无法满足高性能的计算需求，服务器已经向2路、4路到8路高性能服务器演进，且需具备硬分区的能力，服务器的不断演进使得对服务器管理板的业务处理能力的要求越来越高，其中，CPU故障指示信号电路拓扑也越来越复杂。

现有技术中，CPU故障指示信号电路拓扑中每个节点板的CPU故障指示信号通过背板单独传输至服务器管理板，在服务器管理板上每两个CPU的CPU故障指示信号进行汇聚，汇聚后的CPU故障指示信号经过电平转换(level shift)后上传至复杂可编程逻辑器件，复杂可编程逻辑器件根据当前的硬分区状态，在CPLD内部做汇聚，从而获取到CPU故障指示信号。

但是，每个节点板的CPU故障指示信号通过背板单独传输至服务器管理板，所有隔离电路和电平转换电路都要放在服务器管理板上，增加了服务器管理板的电路复杂度和CPU故障指示信号电路拓扑的布线难度。

发明内容

本申请实施例提供一种故障诊断系统，用于通过故障诊断系统对服务器的多路CPU的故障指示信号进行检测，降低了故障诊断系统的电路布线的复杂度。

本申请实施例提供第一方面提供一种故障诊断系统，该故障诊断系统包括：

所述故障诊断系统可应用于服务器中，所述故障诊断系统包括控制单元和第一管理板，第一上拉单元和第二上拉单元，第一上拉开关和第二上拉开关，以及至少一个中央处理器；所述第一上拉单元与所述第一上拉开关电连接，所述第二上拉单元与所述第二上拉开关电连接，所述控制单元与所述第一管理板电连接，所述控制单元分别与所述第一上拉开关和所述第二上拉开关电连接；所述控制单元用于接收所述第一管理板发送的硬分区信号，并根据所述硬分区信号控制所述第一上拉开关和所述第二上拉开关分别闭合，使得每个中央处理器分别与所述第一上拉开关和所述第二上拉开关电连接，以形成故障诊断线路，所述故障诊断线路包括从第一上拉单元、第一上拉开关、所述至少一个中央处理器、第二上拉开关到所述第二上拉单元的线路；所述第一上拉单元和所述第二上拉单元用于上拉所述故障诊断线路的故障指示信号，以得到上拉后的目标信号；所述第一管理板用于检测所述目标信号的电平是否低于预设阈值，并且当所述目标信号的电平低于诊断阈值时，确定所述故障诊断线路上的所述至少一个中央处理器中存在发生故障的中央处理器，其中，控制单元，第一上拉单元和第二上拉单元，第一上拉开关和第二上拉开关，以及至少一个中央处理器位于第一节点板。

基于本申请实施例第一方面，本申请实施例第一方面的第一种实现方式中，所述故障诊断系统还包括第一模拟开关和第二模拟开关；所述控制单元包括第一控制模块和第二控制模块，所述第一控制模块分别与所述第一上拉开关和所述第一模拟开关电连接，所述第二控制模块分别与所述第二上拉开关和所述第二模拟开关电连接；所述第一控制模块用于根据接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第一上拉开关和所述第一模拟开关分别闭合，所述第二控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第二上拉开关和所述第二模拟开关分别闭合，使得所述每个中央处理器还分别与所述第一模拟开关和所述第二模拟开关电连接，以形成所述故障诊断线路，所述故障诊断线路在所述第一上拉开关和所述第二上拉开关之间还包括所述第一模拟开关和所述第二模拟开关。

基于本申请实施例第一方面以及第一方面的第一种实现方式，本申请实施例第一方面的第二种实现方式中，所述故障诊断系统还包括第三模拟开关和第四模拟开关；所述控制单元还包括第三控制模块和第四控制模块，所述第三控制模块与所述第三模拟开关电连接，所述第四控制模块与所述第四模拟开关电连接；所述第三控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第三模拟开关闭合，所述第四控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第四模拟开关闭合，使得所述每个中央处理器还分别与所述第三模拟开关和所述第四模拟开关电连接，以形成所述故障诊断线路，所述故障诊断线路在所述第一模拟开关和所述第二模拟开关之间还包括所述第三模拟开关和所述第四模拟开关。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第二种实现方式中的任一项，本申请实施例第一方面的第三种实现方式中,所述故障诊断系统还包括第三上拉单元以及第三上拉开关，第四上拉单元以及第四上拉开关，其中，所述第三上拉开关与所述第一管理板电连接，所述第三上拉单元与所述第三上拉开关电连接，所述第四上拉开关与所述第一管理板电连接，所述第四上拉单元与所述第四上拉开关电连接。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第三种实现方式中的任一项，本申请实施例第一方面的第四种实现方式中,所述故障诊断系统还包括第五上拉单元以及第五上拉开关，第六上拉单元以及第六上拉开关，七上拉单元以及第七上拉开关，第八上拉单元以及第八上拉开关，其中，所述第五上拉开关与所述第一管理板电连接，所述第五上拉单元与所述第五上拉开关电连接，所述第六上拉开关与所述第一管理板电连接，所述第六上拉单元与所述第六上拉开关电连接，所述第七上拉开关与所述第一管理板电连接，所述第七上拉单元与所述第七上拉开关电连接，所述第八上拉开关与所述第一管理板电连接，所述第八上拉单元与所述第八上拉开关电连接。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第四种实现方式中的任一项，本申请实施例第一方面的第五种实现方式中,所述故障诊断系统还包括中置背板，所述中置背板用于连接所述第一控制模块、所述第二控制模块、第三控制模块以及第四控制模块分别对应的节点板。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第五种实现方式中的任一项，本申请实施例第一方面的第六种实现方式中,所述第一管理板还用于向所述第一控制模块、所述第二控制模块、第三控制模块和/或第四控制模块发送在位信息，所述在位信息用于指示所述第一控制模块、所述第二控制模块、第三控制模块和/或第四控制模块分别对应的节点板的状态。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第六种实现方式中的任一项，本申请实施例第一方面的第七种实现方式中,所述故障诊断系统还包括电平转换单元，所述电平转换单元与所述第一管理板电连接。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第七种实现方式中的任一项，本申请实施例第一方面的第八种实现方式中,所述第故障诊断系统还包括第二管理板，所述第二管理板分别与第一控制模块、第二控制模块、所述第三控制模块和第四控制模块电连接。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第八种实现方式中的任一项，本申请实施例第一方面的第九种实现方式中,所述硬分区信息包括2P模式信息、4P模式信息或8P模式信息，其中，2P模式信息对应所述至少一个处理器中的2个处理器，4P模式信息对应所述至少一个处理器中的4个处理器，8P模式信息对应所述至少一个处理器中的8个处理器。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第九种实现方式中的任一项，本申请实施例第一方面的第十种实现方式中,所述第一管理板包括第一复杂可编程逻辑器件CPLD。

基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第十种实现方式中的任一项，本申请实施例第一方面的第十一种实现方式中,所述控制单元包括第二CPLD。

本申请实施例第二方面提供一种服务器，所述服务器包括第一方面以及第一方面的第一种实现方式至第一方面的第十一种实现方式中任一所述的故障诊断系统。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，控制单元及开关全部位于节点板上，控制单元可以根据当前的硬分区信息以及在位信息，以及结合本节点板所在的槽位号信息，控制开关变更故障指示信号拓扑，来适配当前的硬分区设置和系统要求，节点板之间的故障同步可通过中置背板的实现同步，不需要管理板参与，线路上彻底与管理板解耦，简化管理板电路和功能。因此，本申请实施例提供的故障诊断系统减少了服务器的管理板的走线，从而降低了节点板和服务器管理板之间布线的复杂度。

附图说明

图1为本申请实施例提供的故障诊断系统的一个示意图；

图2为本申请实施例提供的故障诊断系统的另一个示意图；

图3为本申请实施例提供的故障诊断系统的另一个示意图；

图4为本申请实施例提供的故障诊断系统的另一个示意图；

图5为本申请实施例提供的故障诊断系统的另一个示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请实施例提供的故障诊断系统进行描述，请参考图1，图1为本申请实施例提供的故障诊断系统的一个示意图，本申请实施例提供的故障诊断系统的一个实施例包括：

第一管理板1011以及控制单元102，第一上拉单元1031和第二上拉单元1032，第一上拉开关1051和第二上拉开关1052，中置背板104，第一电平转换单元1081以及至少一个中央处理器CPU；具体地，第一管理板1011为服务器的管理板，控制单元102、第一上拉单元1031、第二上拉单元1032、第一上拉开关1051、第二上拉开关1052、第一电平转换单元1081以及至少一个中央处理器CPU位于服务器的第一节点板上，需要说明的是，本实施例中的至少一个CPU以CPU1以及CPU2作为例子进行说明。

本实施例提供的故障诊断系统各单元之间的连接关系可以如下所示：

其中，第一上拉单元1031与第一上拉开关1051电连接，第二上拉单元1032与第二上拉开关1052电连接，控制单元102分别与第一上拉开关1031和第二上拉开关1032电连接，控制单元102与第一管理板1011电连接，第一电平转换单元1081与第一管理板1011电连接，中置背板104分别与第一管理板1011连接以及第一节点板连接。

控制单元102用于接收第一管理板1011发送的硬分区信息以及在位信息，其中，在位信息为其他节点板的在位信息，用于指示其他节点板的在位状态，控制单元102根据硬分区信息以及第一节点板所在的槽位号信息向第一上拉开关1051和第二上拉开关1052发送控制信号，从而让第一上拉开关1051和第二上拉开关1052分别闭合，使得CPU1以及CPU2分别与第一上拉开关1051电连接，以及CPU1以及CPU2分别与第二上拉开关1052电连接，以形成故障诊断线路，故障诊断线路包括从第一上拉单元1031、第一上拉开关1051、CPU1、CPU2、第二上拉开关1052到第二上拉单元1032的线路。需要说明的是，槽位号信息用于指示节点板当前插在中置背板的相对位置。

需要说明的是，本实施以及后续实施中，第一电平转换单元1081与第一管理板1011可以通过通用输入/输出(general perpose input/output,GPIO)实现电连接，控制单元102与第一管理板1011采用电连接，具体通信协议不做限制。

其中，第一上拉单元1031和第二上拉单元1032用于上拉故障诊断线路的故障指示信号的电平，以得到上拉后的目标信号，该目标信号的电平高于预设阈值。

第一上拉单元1031和第二上拉单元1032将故障指示信号进行上拉得到目标信号之后，目标信号传输至第一电平转换单元1081，第一电平转换单元1081将目标信号发送至第一管理板1011，第一管理板1011用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板1011确定故障诊断线路上的至少一个CPU中存在发生故障的CPU，即第一管理板1011确定CPU1和PU2中至少有一个CPU发生故障，其中，第一管理板1011的复杂可编程逻辑器件(complex programmable logic device，CPLD)确定至少有一个CPU发生故障之后，通知服务器管理控制器(baseboard management controller，BMC)或者其他管理芯片收集中央处理器的故障信息。

需要说明的是，本实施中，第一管理板1011可以为服务器的管理板，其中第一管理板1011可以通过第一CPLD向控制单元102发送硬分区信息，本实施例提供的控制单元102可以是节点板上的第二CPLD。

本实施例中，当故障诊断系统中任意的CPU发生故障后，其他的CPU可以感知目标信号的电平低于预设阈值，确定存在故障发生。比如，当CPU1发生故障后，CPU2确定目标信号的电平低于预设阈值，确定存在故障发生，CPU2终止当前业务并同步故障状态。可以理解的是，节点板之间的故障同步可通过中置背板的实现同步，不需要管理板参与，线路上彻底与管理板解耦，简化管理板电路和功能。因此，本实施例提供的故障诊断系统减少了服务器的管理板的走线，降低了节点板和服务器管理板之间布线的复杂度。

上面对本申请实施例提供的一个故障诊断系统进行了描述，下面对本申请实施例提供的另一个故障诊断系统进行描述。

请参考图2，图2为本申请实施例提供的故障诊断系统的另一个示意图，本申请实施例提供的故障诊断系统的另一个实施例包括：

故障诊断系统还可以包括第一模拟开关201以及第二模拟开关202，控制单元102可以包括第一控制模块1021以及第二控制模块1022，其中，第一模拟开关201以及第一控制模块1021分别位于第一节点板上，第二模拟开关201以及第二控制模块1022分别位于第二节点板上，需要说明的是，本实施例中，第一上拉单元1031以及第一上拉开关1051位于第一节点板上，第二上拉单元1032以及第二上拉开关1052位于第二节点板上。

需要说明的是，本实施例以及后续实施所涉及的控制模块包括节点板上的第二CPLD，比如第一控制模块1021为第一节点板上的CPLD，第二控制模块可以是第二节点板上的CPLD。

本实施例中的至少一个CPU以CPU1、CPU2、CPU3以及CPU4为例进行描述，其中，CPU1以及CPU2可以位于第一节点板上，CPU3以及CPU4可以位于第二节点板上。

其中，第一控制模块1021与第一上拉开关1051电连接，第一控制模块1021还可以与第一模拟开关201电连接。第二控制模块1022与第二上拉开关1052电连接，第二控制模块1022还可以与第二模拟开关202电连接，第一模拟开关201与第二模拟开关202电连接，中置背板104分别与第一管理板1011连接、第一节点板以及第二节点板连接。

本实施例中第一控制模块1021与第二控制模块1022分别用于接收第一管理板1011发送的第二硬分区信号以及在位信息，在位信息为其他节点板的在位信息，用于指示其他节点板的在位状态。其中，第一控制模块1011接收第二节点板的在位信息，第二控制模块接收第一节点板的在位信息。

第一控制模块1021根据硬分区信息以及第一节点板所在的槽位号信息向第一上拉开关1051发送控制信号。第一上拉开关1051接收到控制信号之后，闭合第一上拉开关1051，从而导通第一上拉单元1031的使能。第一控制模块1021接收到硬分区信息之后，第一控制模块1021还可以向第一模拟开关201发送控制信号，以使得第一模拟开关201闭合。

第二控制模块1022根据硬分区信息以及第二节点板所在的槽位号信息向第二上拉开关1052发送控制信号，第二上拉开关1052接收到控制信号之后，闭合第二上拉开关1052，从而导通第二上拉单元1032的使能。第二控制模块1022接收到第二控制信号之后，第二控制模块1022还可以向第二模拟开关202发送控制信号，以使得第二模拟开关202闭合。

其中，当故障诊断系统中的第一模拟开关201、第二模拟开关202、第一上拉开关1051以及第二上拉开关1052分别闭合之后，第一上拉单元1031和第二上拉单元1032用于上拉故障诊断线路的故障指示信号的电平，以得到上拉后的目标信号，该目标信号的电平高于预设阈值。

可以理解的是，当故障诊断系统中的第一模拟开关201、第二模拟开关202、第一上拉开关1051以及第二上拉开关1052分别闭合之后，使得CPU1、CPU2、CPU3以及CPU4分别与第一模拟开关电连接，以及CPU1、CPU2、CPU3以及CPU4还分别第二模拟开关电连接，以形成故障诊断线路，故障诊断线路在第一上拉开关1051和第二上拉开关1052之间还包括第一模拟开关201和第二模拟开关202。

第一上拉单元1031和第二上拉单元1032将故障指示信号进行上拉得到目标信号之后，将目标信号传输至第一电平转换单元1081，电平转换单元1081将目标信号发送至第一管理板1011，第一管理板1011用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板1011确定故CPU1至PU4中至少有一个CPU发生故障。其中，第一管理板1011确定至少有一个CPU发生故障之后，第一管理板1011的CPLD通知BMC或者其他管理芯片收集中央处理器的故障信息。

本实施例中，当故障诊断系统中任意的CPU发生故障后，其他的CPU可以感知目标信号的电平低于预设阈值，确定存在故障发生。比如，当CPU1发生故障后，CPU2至CPU4分别确定目标信号的电平低于预设阈值，确定存在故障发生，CPU2至CPU4终止当前业务并同步故障状态。可以理解的是，节点板之间的故障同步可通过中置背板的实现同步，不需要管理板参与，线路上彻底与管理板解耦，简化管理板电路和功能。因此，本实施例提供的故障诊断系统减少了服务器的管理板的走线，降低了节点板和服务器管理板之间布线的复杂度。

下面对本申请实施例提供的另一个故障诊断系统进行描述，请参考图3，图3为本申请实施例提供的故障诊断系统的另一个示意图，本申请实施例提供的故障诊断系统的另一个实施例包括：

故障诊断系统包括第一管理板101，第一节点板、第二节点板、第三节点板以及第四节点板，中置背板104，其中，中置背板分别与第一管理板101、第一节点板、第二节点板、第三节点板以及第四节点板连接。

其中，第一节点板包括第一控制模块1021，第一模拟开关201，第一上拉单元1031，第一上拉开关1051，第一电平转换单元1081，CPU1和CPU2。其中，第一控制模块1021分别与第一模拟开关201、第一上拉开关1051电连接，第一上拉单元1031和第一上拉开关1051电连接，第一模拟开关201与第一控制模块1021电连接，第一电平转换单元1081通过中置背板104与第一管理板1011电连接，第一控制模块1021通过中置背板104与第一管理板1011电连接。

第二节点板包括第二控制模块1022，第二模拟开关202，CPU3以及CPU4。其中，第二控制模块1022与第二模拟开关202电连接，第二控制模块1022通过中置背板104与第一管理板1011电连接。

第三节点板包括第三控制模块1023，第三模拟开关203，CPU5以及CPU6，其中，第三控制模块1023与第三模拟开关203电连接，第三控制模块1023通过中置背板104与第一管理板1011电连接。

第四节点板包括第四控制模块1024，第四模拟开关204，第二上拉单元1032，第二上拉开关1052，CPU7以及CP8。其中，第四控制模块1024分别与第四模拟开关204、第二上拉开关1052电连接，第四控制模块1024通过中置背板104与第一管理板1011电连接。

本实施例中，第一控制模块1021、第二控制模块1022、第三控制模块1023以及第三模拟开关203通过中置背板104分别电连接。

其中，第一控制模块1021、第二控制模块1022、第三控制模块1023以及第三控制模块1024分别用于接收管理板发送的硬分区信息以及在位信息。其中，在位信息为其他节点板的在位信息，用于指示其他节点板的在位状态。例如，第一控制模块1021接收第二节点板、第三节点板以及第四节点板分别对应的在位信息。

第一控制模块1021根据硬分区信息以及第一节点板所在的槽位号信息向第一上拉开关1051发送控制信号，第一上拉开关1051接收到控制信号之后，闭合第一上拉开关1051，从而导通第一上拉单元1031的使能。第一控制模块1021还可以向第一模拟开关201发送控制信号，以使得第一模拟开关201闭合。

第二控制模块1022根据硬分区信息以及第二节点板所在的槽位号信息向第二模拟开关202发送控制信号，以使得第二模拟开关202闭合。

第三控制模块1023根据硬分区信息以及第三节点板所在的槽位号信息向第三模拟开关203发送控制信号，以使得第三模拟开关203闭合。

第四控制模块1024根据硬分区信息以及第四节点板所在的槽位号信息向第二上拉开关1051发送控制信号，第二上拉开关1051接收到控制信号之后，闭合第二上拉开关1051，从而导通第二上拉单元1032的使能。第四控制模块1024还可以向第四模拟开关204发送控制信号，以使得第四模拟开关204闭合。

其中，当故障诊断系统中的第一模拟开关201、第二模拟开关202、第三模拟开关203以及第四模拟开关204、第一上拉开关1021以及第二上拉开关1022分别闭合之后，第一上拉单元1031和第二上拉单元1032用于故障诊断线路的故障指示信号的电平，以得到上拉后的目标信号，该目标信号的电平高于预设阈值。

可以理解的是，当故障诊断系统中的第一模拟开关201、第二模拟开关202、第三模拟开关203以及第四模拟开关204、第一上拉开关1021以及第二上拉开关1022分别闭合之后，形成故障诊断线路，故障诊断线路在第一上拉开关1051和第二上拉开关1052之间包括第一模拟开关201、第二模拟开关202、第三模拟开关203以及第四模拟开关204。

第一上拉单元1031和第二上拉单元1032将故障指示信号进行上拉，得到目标信号之后，将目标信号传输至第一电平转换单元1081，电平转换单元将目标信号发送至第一管理板1011，第一管理板1011用于检测目标信号的是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板1011确定故CPU1至PU8中至少有一个CPU发生故障。其中，第一管理板1011确定至少有一个CPU发生故障之后，第一管理板1011的CPLD通知BMC或者其他管理芯片收集中央处理器的故障信息。

本实施例中，当故障诊断系统中任意的CPU发生故障后，其他的CPU可以确定目标信号的电平低于预设阈值，并确定存在发生故障的CPU。比如，当CPU1发生故障后，CPU2至CPU8确定目标信号的电平低于预设阈值，确定存在故障发生，CPU2至CPU8终止当前业务并同步故障状态。可以理解的是，节点板之间的故障同步可通过中置背板的实现同步，不需要管理板参与，线路上彻底与管理板解耦，简化管理板电路和功能。因此，本实施例提供的故障诊断系统减少了服务器的管理板的走线，降低了节点板和服务器管理板之间布线的复杂度。

需要说明的是，本实施例中，第四节点板可以是上述图2实施例中的第二节点板，此处对节点板的排序不做限定。

下面以8路服务器对本申请实施例提供的故障诊断系统进行描述，请参考图4，图4为本申请实施例提供的故障诊断系统的另一个示意图，本申请实施例提供的故障诊断系统的另一个实施例包括：

在8路的服务器中，该8路的服务器的故障诊断系统包括第一管理板1011以及第二管理板1012，第一节点板、第二节点板、第三节点板以及第四节点板，中置背板104，其中，中置背板104分别与第一管理板1011、第二管理板1012、第一节点板、第二节点板、第三节点板以及第四节点板连接。

第一节点板包括第一控制模块1021，第一模拟开关201，第五模拟开关205，第一上拉单元1031，第一上拉开关1051，第三上拉单元1033，第三上拉开关1053,第一电平转换单元1081，CPU1和CPU2。其中，第一控制模块1021分别与第一模拟开关201、第五模拟开关205、第一上拉开关1051和第三上拉开关1053电连接，第一上拉单元1031和第一上拉开关1051电连接，第三上拉单元1033和第三上拉开关1053电连接，第一电平转换单元1081通过中置背板104与第一管理板1011电连接，第一控制模块1021通过中置背板104与第一管理板1011以及第二管理板1012电连接。

第二节点板包括第二控制模块1022，第二模拟开关202，第六模拟开关206，第二上拉单元1032，第二上拉开关1052，第四上拉单元1034，第四上拉开关1054，CPU3以及CPU4。其中，第二控制模块1022分别与第二模拟开关202、第六模拟开关206、第二上拉开关1052和第四上拉开关1054电连接，第二上拉单元1032和第二上拉开关1052电连接，第四上拉单元1034和第四上拉开关1054电连接，第二控制模块1022通过中置背板104与第一管理板1011以及第二管理板1012电连接。

第三节点板包括第三控制模块1023，第三模拟开关203，第七模拟开关207，第五上拉单元1035，第五上拉开关1055，第六上拉单元1036，第六上拉开关1056，CPU5以及CP6，第二电平转换单元1082。其中，第三控制模块1023分别与第三模拟开关203、第七模拟开关207、第五上拉开关1055以及第六上拉开关1056电连接，第五上拉单元1035与第五上拉开关1055电连接，第六上拉单元1036和第六上拉开关1056电连接，第二电平转换单元1082通过中置背板104与第二管理板1011电连接，第三控制模块1023通过中置背板104与第一管理板1011以及第二管理板1012电连接。

第四节点板包括第四控制模块1024，第四模拟开关204，第八模拟开关208，第七上拉单元1037，第七上拉开关1057，第八上拉单元1038，第八上拉开关1058，CPU7以及CP8。其中，第四控制模块1024分别与第四模拟开关204、第八模拟开关208、第七上拉开关1057以及第八上拉开关1058，第四控制模块1024通过中置背板104与第一管理板1011以及第二管理板1012电连接。

本实施例中，故障诊断系统中的第一模拟开关201与第二模拟开关202通过中置背板104电连接，故障诊断系统中的第三模拟开关203与第四模拟开关204通过中置背板104电连接，第五模拟开关205、第六模拟开关206、第七模拟开关207以及第八模拟开关208通过中置背板104电连接。

本实施例中，第一控制模块1021、第二控制模块1022、第三控制模块1023以及第四控制模块1024分别用于接收第一管理板101发送的硬分区信息以及其他节点板的在位信息，其中，在位信息为其他节点板的在位信息，用于指示其他节点板的在位状态。

当硬分区信息为2P模式时，第一控制模块1021向第一上拉开关1051以及第三上拉开关1053发送控制信号，第一上拉开关1051根据控制信号闭合第一上拉开关1051，从而导通第一上拉单元1031的使能，第三上拉开关1053根据控制信号闭合第三上拉开关1053，从而导通第三上拉单元1033的使能。

导通第一上拉单元1031和第三上拉单元1033的使能之后，第一上拉单元1031以及第三上拉单元1033将故障指示信号的电平上拉，得到目标信号，该目标信号的电平高于预设阈值。目标信号经过第一电平转换单元1081传输至第一管理板101，其中第一管理板101用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板101确定CPU1和PU2中至少有一个CPU发生故障。

需要说明的是，本实施例中的2P模式表示当前服务器所执行的业务仅需要2个CPU执行，故障诊断系统中的第二控制模块1022、第三控制模块1023以及第四控制模块1024可以不执行业务。

当硬分区信息为4P模式时，第一控制模块1021向第一上拉开关1051以及第一模拟开关201发送控制信号，第一上拉开关1051根据控制信号闭合第一上拉开关1051，从而导通第一上拉单元1031的使能，第一模拟开关201根据控制信号闭合第一模拟开关201。第二控制模块1022向第二上拉开关1052以及第二模拟开关202发送控制信号，第二上拉开关1052根据控制信号闭合第二上拉开关1052，从而导通第二上拉单元1032的使能，第二模拟开关202根据控制信号闭合第二模拟开关202。

闭合第一模拟开关201和第二模拟开关202，以及闭合第一上拉开关1051和第二上拉开关1032之后，第一上拉单元1031和第二上拉单元1032将故障指示信号的电平上拉，得到目标信号，该目标信号的电平高于预设阈值。目标信号经过第一电平转换单元1081 传输至第一管理板101，其中第一管理板101用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板101确定CPU1至CPU4中至少有一个CPU发生故障。

当硬分区信息为8P模式时，第一控制模块1021向第一上拉开关1051以及第五模拟开关205发送控制信号，第一上拉开关1051根据控制信号闭合第一上拉开关1051，从而导通第一上拉单元1031的使能，第五模拟开关205根据控制信号关闭第五模拟开关205。第二控制模块1022向第六模拟开关206发送控制信号，第六模拟开关206根据控制信号闭合第六模拟开关206。第三控制模块1023向第七模拟开关207发送控制信号，第七模拟开关207根据控制信号闭合第七模拟开关207。第四控制模块1024向第八上拉开关1058以及第八模拟开关208发送控制信号，第八上拉开关1058根据控制信号闭合第八上拉开关1058，从而导通第二上拉单元1038的使能，第八模拟开关208根据控制信号闭合第八模拟开关208。

闭合第五模拟开关205至第八模拟开关208，以及闭合第一上拉开关1051和第八上拉开关1058之后，第一上拉单元1031和第二上拉单元1032将故障指示信号的电平上拉，得到目标信号，该目标信号的电平高于预设阈值。目标信号经过第一电平转换单元1081传输至第一管理板101，其中第一管理板101用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板101确定CPU1至CPU8中至少有一个CPU发生故障。

本实施例中提供的故障诊断系统可以根据硬分区信息切换为不同模式的服务器，比如服务器可以根据硬分区信息切换为2P模式、4P模式或者8P模式。因此本实施例中控制模块可以根据当前的硬分区信息以及在位信息，以及结合本节点板所在的槽位号信息控制开关变更故障指示信号拓扑，来适配当前的硬分区设置和系统要求，电路适配能力强，提高了故障诊断系统的灵活性。

可选地，如图4所示的故障诊断系统还可以切换为2个4P模式，比如，第一管理板1011与第一节点板和第二节点板中的各单元组成一个4P模式，第二管理板1012与第三节点板和第四节点板中的各单元组成另一个4P模式。第一管理板1011与第一节点板和第二节点板中各单元执行的功能和动作与前述图2对应的实施例类似，第二管理板1012与第三节点板和第四节点板中的各单元执行的功能和动作，此处不再赘述。

可选地，本实施例中第一管理板1011发送的其他节点板的在位信息可以用于指示第一节点板至第四节点板中任意一个、任意两个或任意三个节点板不在槽位或者隔离时，其中，不在槽位或者隔离的节点板对应的控制模块不执行动作。

比如，在位信息指示第三节点板不在槽位或者隔离时，第一管理板1011向第一控制模块1021、第二控制模块1022、第三控制模块以及第四控制模块发送硬分区信息以及槽位号信息，当硬分区信息为8P模式时，第一控制模块1021、第二控制模块1022、第三控制模块1023以及第四控制模块1024接收到硬分区信息之后，第三控制模块1023根据槽位号信息确定不在槽位或者隔离，第三控制模块1023不执行动作。第一控制模块1021、第二控制模块1022以及第四控制模块分别根据槽位号信息确定在位，则第一控制模块1021向第一上拉开关1051以及第五模拟开关205发送控制信号，第一上拉开关1051根据控制信号闭合第一上拉开关1051，从而导通第一上拉单元1031的使能，第五模拟开关 205根据控制信号关闭第五模拟开关205。第二控制模块1022第六模拟开关206发送控制信号，第六模拟开关206根据控制信号闭合第六模拟开关206。第四控制模块1024向第八上拉开关1058以及第八模拟开关208发送控制信号，第八上拉开关1058根据控制信号闭合第八上拉开关1058，从而导通第二上拉单元1038的使能，第八模拟开关208根据控制信号闭合第八模拟开关208。

第一上拉单元1031和第二上拉单元1032将故障指示信号的电平上拉，得到目标信号，该目标信号的电平高于预设阈值。目标信号经过第一电平转换单元1081后传输至第一管理板101，其中第一管理板101用于检测目标信号的电平是否低于预设阈值，并且当目标信号的电平低于诊断阈值时，第一管理板101确定CPU1至CPU4以及CPU7至CPU8中至少有一个CPU发生故障。

下面以2个4路的服务器对本申请实施例提供的故障诊断系统进行描述，请参考图5，图5为本申请实施例提供的故障诊断系统的另一个示意图，本申请实施例提供的故障诊断系统的另一个实施例包括：

在2个4路的服务器中，该2个4路的服务器的故障诊断系统包括第一管理板1011以及第二管理板1012，第一节点板、第二节点板、第三节点板以及第四节点板，中置背板104，其中，中置背板104分别与第一管理板1011、第二管理板1022、第一节点板、第二节点板、第三节点板以及第四节点板连接。其中，第一节点板、第二节点板、第三节点板以及第四节点板分别包含的单元具体可参考图5，此处不再赘述。

如图5所示，第一管理板1011分别与第一控制模块1021以及第二控制模块1022电连接，第一管理板通过中置背板与第一电平转换单元1081电连接。第二管理板1012分别与第三控制模块1023以及第四控制模块1024电连接，第二管理板1012通过中置背板104与第二电平转换单元1082电连接。

本实施例中，第一管理板1011分别向第一控制模块1021、第二控制模块1022发送硬分区信息以及其节点板的在位信息，第二管理板1012可以分别向第三控制模块1023以及第四控制模1024块发送硬分区信息以及其节点板的在位信息，硬分区信息为4P模式。

第一控制模块1021以及第二控制模块1022接收到第一管理板发送的4P硬分区信息之后，第一管理板1011与第一节点板和第二节点板中的各单元组成一个4P模式，第一管理板1011与第一节点板和第二节点板中各单元执行的功能和动作与前述图2对应的实施例类似，此处不再赘述。

第三控制模块1023以及第四控制模块接收到第二管理板1012发送的4P硬分区信息之后，第二管理板1012与第三节点板和第四节点板中的各单元组成另一个4P模式。第二管理板1012与第三节点板和第四节点板中的各单元执行的功能和动作与前述图2对应的实施例类似，此处不再赘述。

需要说明的是，本实施例中还可以提供4个2路的服务器的故障诊断系统，4个2路的服务器的故障诊断系统与前述2个4路的服务器的故障诊断系统类似，此处不再赘述。

本申请实施例还提供一种服务器，所述服务器包括图1对应的故障诊断系统、图2对应的故障诊断系统、图3对应的故障诊断系统、图4对应的故障诊断系统或图5对应的故障诊断系统，具体请参考图1至图5分别对应的实施例，此处不再赘述。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种故障诊断系统，其特征在于，所述故障诊断系统包括控制单元和第一管理板，第一上拉单元和第二上拉单元，第一上拉开关和第二上拉开关，以及至少一个中央处理器；

所述第一上拉单元与所述第一上拉开关电连接，所述第二上拉单元与所述第二上拉开关电连接，所述控制单元与所述第一管理板电连接，所述控制单元分别与所述第一上拉开关和所述第二上拉开关电连接；

所述控制单元用于接收所述第一管理板发送的硬分区信号，并根据所述硬分区信号控制所述第一上拉开关和所述第二上拉开关分别闭合，使得每个中央处理器分别与所述第一上拉开关和所述第二上拉开关电连接，以形成故障诊断线路，所述故障诊断线路包括从第一上拉单元、第一上拉开关、所述至少一个中央处理器、第二上拉开关到所述第二上拉单元的线路；

所述第一上拉单元和所述第二上拉单元用于上拉所述故障诊断线路的故障指示信号，以得到上拉后的目标信号；

所述第一管理板用于检测所述目标信号的电平是否低于预设阈值，并且当所述目标信号的电平低于诊断阈值时，确定所述故障诊断线路上的所述至少一个中央处理器中存在发生故障的中央处理器。
根据权利要求1所述的故障诊断系统，其特征在于，所述故障诊断系统还包括第一模拟开关和第二模拟开关；

所述控制单元包括第一控制模块和第二控制模块，所述第一控制模块分别与所述第一上拉开关和所述第一模拟开关电连接，所述第二控制模块分别与所述第二上拉开关和所述第二模拟开关电连接；

所述第一控制模块用于根据接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第一上拉开关和所述第一模拟开关分别闭合，所述第二控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第二上拉开关和所述第二模拟开关分别闭合，使得所述每个中央处理器还分别与所述第一模拟开关和所述第二模拟开关电连接，以形成所述故障诊断线路，所述故障诊断线路在所述第一上拉开关和所述第二上拉开关之间还包括所述第一模拟开关和所述第二模拟开关。
根据权利要求2所述的故障诊断系统，其特征在于，所述故障诊断系统还包括第三模拟开关和第四模拟开关；

所述控制单元还包括第三控制模块和第四控制模块，所述第三控制模块与所述第三模拟开关电连接，所述第四控制模块与所述第四模拟开关电连接；

所述第三控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第三模拟开关闭合，所述第四控制模块用于接收所述第一管理板发送的所述硬分区信号，并根据所述硬分区信号控制所述第四模拟开关闭合，使得所述每个中央处理器还分别与所述第三模拟开关和所述第四模拟开关电连接，以形成所述故障诊断线路，所述故障诊断线路在所述第一模拟开关和所述第二模拟开关之间还包括所述第三模拟开关和所述第四模拟开关。
根据权利要求2所述的故障诊断系统，其特征在于，所述故障诊断系统还包括第三上拉单元以及第三上拉开关，第四上拉单元以及第四上拉开关，其中，所述第三上拉开关与所述第一管理板电连接，所述第三上拉单元与所述第三上拉开关电连接，所述第四上拉开关与所述第一管理板电连接，所述第四上拉单元与所述第四上拉开关电连接。
根据权利要求3所述的故障诊断系统，其特征在于，所述故障诊断系统还包括第五上拉单元以及第五上拉开关，第六上拉单元以及第六上拉开关，七上拉单元以及第七上拉开关，第八上拉单元以及第八上拉开关，其中，所述第五上拉开关与所述第一管理板电连接，所述第五上拉单元与所述第五上拉开关电连接，所述第六上拉开关与所述第一管理板电连接，所述第六上拉单元与所述第六上拉开关电连接，所述第七上拉开关与所述第一管理板电连接，所述第七上拉单元与所述第七上拉开关电连接，所述第八上拉开关与所述第一管理板电连接，所述第八上拉单元与所述第八上拉开关电连接。
根据权利要求1至5任一项所述的故障诊断系统，其特征在于，所述故障诊断系统还包括中置背板，所述中置背板用于连接所述第一控制模块、所述第二控制模块、第三控制模块以及第四控制模块分别对应的节点板。
根据权利要求6所述的故障诊断系统，其特征在于，所述第一管理板还用于向所述第一控制模块、所述第二控制模块、第三控制模块和/或第四控制模块发送在位信息，所述在位信息用于指示所述第一控制模块、所述第二控制模块、第三控制模块和/或第四控制模块分别对应的节点板的在位状态。
根据权利要求1至6任一项所述的故障诊断系统，其特征在于，所述故障诊断系统还包括电平转换单元，所述电平转换单元与所述第一管理板电连接。
根据权利要求8所述的故障诊断系统，其特征在于，所述第故障诊断系统还包括第二管理板，所述第二管理板分别与所述第一控制模块、所述第二控制模块、所述第三控制模块和第四控制模块电连接。
根据权利要求9所述的故障诊断系统，其特征在于，所述硬分区信息包括2P模式信息、4P模式信息或8P模式信息，其中，2P模式信息对应所述至少一个处理器中的2个处理器，4P模式信息对应所述至少一个处理器中的4个处理器，8P模式信息对应所述至少一个处理器中的8个处理器。
根据权利要求1至6所述的故障诊断系统，所述第一管理板包括第一复杂可编程逻辑器件CPLD。
根据权利要求11所述的故障诊断系统，所述控制单元包括第二CPLD。
一种服务器，其特征在于，所述服务器包括上述权利要求1-12任一项所述的故障诊断系统。