WO2014206099A1

WO2014206099A1 - 一种多节点服务器系统的故障现场信息的收集方法及装置

Info

Publication number: WO2014206099A1
Application number: PCT/CN2014/072262
Authority: WO
Inventors: 雷舒莹; 吴登奔; 廖义祥
Original assignee: 华为技术有限公司
Priority date: 2013-06-24
Filing date: 2014-02-19
Publication date: 2014-12-31
Also published as: CN103368771A

Abstract

本发明实施例涉及计算机技术领域，公开了一种多节点服务器系统的故障现场信息的收集方法及装置，该多节点服务器系统的故障现场信息的收集方法包括：接收分区节点上报的故障信息；根据所述故障信息，查询与所述故障信息相匹配的故障类型；根据所述故障类型，决策需要收集的故障现场信息的类型；根据所述需要收集的故障现场信息的类型，收集相应的故障现场信息。实施本发明实施例，可以提供一种有效的故障现场信息的收集机制，能够有效的收集故障现场信息。

Description

一种多节点服务器系统的故障现场信息的收集方法及装置技术领域

本发明涉及计算机技术领域，尤其涉及一种多节点服务器系统的故障现场信息的收集方法及装置。背景技术

在多节点服务器系统中，当分区节点发生故障时，对其故障现场信息的收集能为故障分析提供非常重要的支持。由于多节点服务器系统比较复杂 , 以及分区节点之间的关联性较强，因此引发某个分区节点发生故障的原因会有多种可能（可能是由用户的不良操作引起，也可能是由周围异常的环境引起，还有可能是由其他分区节点引起等等）。为了能够方便维护人员准确定位故障发生的根本原因，提高故障处理的效率，在故障发生时不仅要收集节点的故障信息，还要收集故障现场信息（如用户操作日志、 SEL日志、系统环境温度、风扇速率等等），并将这些信息提供给故障分析模块，或者直接提供给维护人员。

然而实践中发现，由于缺乏有效的故障现场信息的收集机制，因此，当分区节点发生故障的时候，如何有效的收集故障现场信息，是本领域技术人员亟需解决的技术难题。发明内容

本发明实施例公开了一种多节点服务器系统的故障现场信息的收集方法及装置，提供了一种有效的故障现场信息的收集机制，能够有效的收集故障现场信息。

本发明实施例第一方面公开一种多节点服务器系统的故障现场信息的收集方法，包括：

接收分区节点上报的故障信息；

根据所述故障信息，获取与所述故障信息相匹配的故障类型；根据所述故障类型，提取需要收集的故障现场信息类型；根据所述需要收集的故障现场信息类型，收集相应的故障现场信息。在本发明实施例第一方面的第一种可能的实现方式中，所述根据所述故障信息，获取与所述故障信息相匹配的故障类型包括：

根据所述故障信息，从故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。

结合本发明实施例第一方面的第一种可能的实现方式，在本发明实施例第一方面的第二种可能的实现方式中，所述根据所述故障类型，提取需要收集的故障现场信息类型包括：

根据所述故障类型，从信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。

结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二种可能的实现方式，在本发明实施例第一方面的第三种可能的实现方式中，若所述分区节点为分区从节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述根据所述需要收集的故障现场信息类型，收集相应的故障现场信息包括：

发送信息收集请求给日志模块，以触发所述日志模块收集所述分区从节点的用户操作日志和 SEL日志；

以及，发送信息收集请求给环境监测模块，以触发所述环境监测模块收集所述分区从节点的系统环境温度、风扇速率以及电源功率。

结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二种可能的实现方式，在本发明实施例第一方面的第四种可能的实现方式中，若所述分区节点为分区主节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述根据所述需要收集的故障现场信息类型，收集相应的故障现场信息包括：

发送信息收集请求给日志模块，以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志；以及，发送信息收集请求给环境监测模块，以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

本发明实施例第二方面公开一种多节点服务器系统的故障现场信息的收集装置，包括故障管理模块，所述故障管理模块包括：

故障处理模块，用于接收分区节点上报的故障信息，以及根据所述故障信息，获取与所述故障信息相匹配的故障类型；

信息收集模块，用于根据所述故障处理模块获取的所述故障类型，提取需要收集的故障现场信息类型，以及根据所述需要收集的故障现场信息类型，收集相应的故障现场信息。

在本发明实施例第二方面的第一种可能的实现方式中，所述收集装置还包括：

故障类型模块，用于存储的故障信息与故障类型的匹配关系；其中，所述故障处理模块根据所述故障信息，获取与所述故障信息相匹配的故障类型包括：

所述故障处理模块用于根据所述故障信息，从所述故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。

结合本发明实施例第一方面的第一种可能的实现方式，在本发明实施例第一方面的第二种可能的实现方式中，所述收集装置还包括：

信息类型模块，用于存储公有信息类型库以及故障类型匹配的私有信息类型库；

所述信息收集模块根据所述故障处理模块获取的所述故障类型，提取需要收集的故障现场信息类型包括：

所述信息收集模块根据所述故障处理模块获取的所述故障类型 ,从所述信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二种可能的实现方式，在本发明实施例第二方面的第三种可能的实现方式中，若所述分区节点为分区从节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述收集装置还包括日志模块和环境监测模块：

所述信息收集模块根据所述需要收集的故障现场信息类型，收集相应的故障现场信息包括：

所述信息收集模块用于发送信息收集请求给所述日志模块，以触发所述日志模块收集所述分区从节点的用户操作日志和 SEL日志；

以及，所述信息收集模块用于发送信息收集请求给所述环境监测模块，以触发所述环境监测模块收集所述分区从节点的系统环境温度、风扇速率以及电源功率。

结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二种可能的实现方式，在本发明实施例第二方面的第四种可能的实现方式中，若所述分区节点为分区主节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述收集装置还包括日志模块和环境监测模块：

所述信息收集模块用于发送信息收集请求给所述日志模块，以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志；

以及，所述信息收集模块用于发送信息收集请求给所述环境监测模块，以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

本发明实施例中，在接收到分区节点上报的故障信息后，可以根据该故障信息，获取与该故障信息相匹配的故障类型，并根据该故障类型，提取需要收集的故障现场信息类型，以及根据需要收集的故障现场信息类型，收集相应的故障现场信息。通过实施本发明实施例，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对现有技术或实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集方法的流程图；

图 2是本发明实施例公开的另一种多节点服务器系统的故障现场信息的收集方法的流程图；

图 3是发明实施例公开的一种信息类型模块存储的公有信息类型库以及故障类型匹配的私有信息类型库的示意图；

图 4是本发明实施例公开的另一种多节点服务器系统的故障现场信息的收集方法的流程图；

图 5是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集装置的结构图；

图 6本发明实施例公开的另一种多节点服务器系统的故障现场信息的收集装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例公开了一种多节点服务器系统的故障现场信息的收集方法及装置，提供了一种有效的故障现场信息的收集机制，能够有效的收集故障现场信息。以下分别进行详细说明。

请参阅图 1 , 图 1是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集方法的流程图。如图 1所示，该多节点服务器系统的故障现场信息的收集方法可以包括以下步骤。

101、接收分区节点上报的故障信息。

在一个实施例中，可以接收分区节点的单板管理控制器（Baseboard Management Controller, BMC )上报的故障信息，其中，故障信息可以是一个故障编号或者是简单的字符串。

102、根据该故障信息，获取与该故障信息相匹配的故障类型。

在一个实施例中，根据该故障信息，获取与该故障信息相匹配的故障类型可以包括：

根据该故障信息，从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。

更近一步地，本发明实施例中，还可以从故障类型模块中获取该故障信息的详细的故障描述信息。

103、根据该故障类型，提取需要收集的故障现场信息类型。

本发明实施例中，不同的故障类型需要收集的故障现场信息类型不同，因此，需要根据该故障类型，提取需要收集的故障现场信息类型。

在一个实施例中，根据该故障类型，提取需要收集的故障现场信息类型可以包括：

根据该故障类型，从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。

104、根据需要收集的故障现场信息类型，收集相应的故障现场信息。本发明实施例中，需要收集的故障现场信息类型可以包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率等。

在图 1所示的方法中，在接收到分区节点上报的故障信息后，可以根据该故障信息，获取与该故障信息相匹配的故障类型，并根据该故障类型，提取需要收集的故障现场信息类型，以及根据需要收集的故障现场信息类型，收集相应的故障现场信息。通过实施图 1所示的方法，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。请参阅图 2, 图 2是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集方法的流程图。如图 2所示，该多节点服务器系统的故障现场信息的收集方法可以包括以下步骤。

201、接收分区节点上报的故障信息。

在一个实施例中，可以接收分区节点的 BMC上报的故障信息，其中，故障信息可以是一个故障编号或者是简单的字符串。

202、根据该故障信息，获取与该故障信息相匹配的故障类型。

203、根据该故障类型，提取需要收集的故障现场信息类型，其中，需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率。

本发明实施例中，不同的故障类型需要收集的故障现场信息类型不同，因此，需要根据该故障类型，提取需要收集的故障现场信息类型。本发明实施例中，需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率。

本发明实施例中，如图 3所示，信息类型模块可以存储公有信息类型库以及故障类型匹配的私有信息类型库，例如，信息类型模块可以存储公有信息类型库 (包括需要收集的故障现场信息类型 1~3 ) 、以及存储有故障类型 1-3分别匹配的私有信息类型库 1 (包括需要收集的故障现场信息类型 4、 5、 7 ) 、私有信息类型库 2 (包括需要收集的故障现场信息类型 4、 6 ) 以及私有信息类型库 3 (包括需要收集的故障现场信息类型 5、 7、 11 ) , 其中，公有信息类型库包括的需要收集的故障现场信息类型 1~3是所有故障类型均要收集的故障现场信息类型。举例来说，当故障类型为故障类型 1时，根据该故障类型 1 , 需要从信息类型模块存储的公有信息类型库中提取需要收集的故障现场信息类型 1~3 , 以及需要从该故障类型 1 匹配的私有信息类型库 1 中提取需要收集的故障现场信息类型 4、 5、 7。

204、若分区节点为分区从节点，发送信息收集请求给日志模块，以触发日志模块收集该分区从节点的用户操作日志和 SEL日志；以及，发送信息收集请求给环境监测模块，以触发环境监测模块收集该分区从节点的系统环境温度、风扇速率以及电源功率。

205、存储收集到的该分区从节点的用户操作日志、 SEL 日志、系统环境温度、风扇速率以及电源功率。

其中，通过实施图 2所示的方法，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。请参阅图 4, 图 4是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集方法的流程图。如图 4所示，该多节点服务器系统的故障现场信息的收集方法可以包括以下步骤。

401、接收分区节点上报的故障信息。

402、根据该故障信息，获取与该故障信息相匹配的故障类型。

403、根据该故障类型，提取需要收集的故障现场信息类型，其中，需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率。

本发明实施例中，如图 3所示，信息类型模块可以存储公有信息类型库以及故障类型匹配的私有信息类型库，例如，信息类型模块可以存储公有信息类型库（包括需要收集的故障现场信息类型 1~3 ) 、以及存储有故障类型 1-3分别匹配的私有信息类型库 1 (包括需要收集的故障现场信息类型 4、 5、 7 ) 、私有信息类型库 2 (包括需要收集的故障现场信息类型 4、 6 ) 以及私有信息类型库 3 (包括需要收集的故障现场信息类型 5、 7、 11 ) , 其中，公有信息类型库包括的需要收集的故障现场信息类型 1~3是所有故障类型均要收集的故障现场信息类型。举例来说，当故障类型为故障类型 2时，根据该故障类型 2, 需要从信息类型模块存储的公有信息类型库中提取需要收集的故障现场信息类型 1~3 , 以及需要从该故障类型 2匹配的私有信息类型库 2 中提取需要收集的故障现场信息类型 4、 6。

404、若分区节点为分区主节点，发送信息收集请求给日志模块，以触发日志模块收集该分区主节点所属分区的所有分区节点的用户操作日志和

SEL日志；以及，发送信息收集请求给环境监测模块，以触发环境监测模块收集该分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

405、存储收集到的该分区主节点所属分区的所有分区节点的用户操作日志、 SEL日志、系统环境温度、风扇速率以及电源功率。

其中，通过实施图 4所示的方法，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。请参阅图 5 , 图 5是本发明实施例公开的一种多节点服务器系统的故障现场信息的收集装置的结构图。本发明实施例中，多节点服务器系统可以包括 m个分区，每个分区由 n个分区节点构成，其中，分区节点 1为分区主节点，其他分区节点为分区从节点。当某个分区节点发生故障时，该分区节点可以向图 5所示的多节点服务器系统的故障现场信息的收集装置上报故障信号，由该收集装置来执行本发明实施例公开的多节点服务器系统的故障现场信息的收集操作。如图 5所示，该多节点服务器系统的故障现场信息的收集装置包括故障管理模块 500 , 故障管理模块 500包括：故障处理模块 501 , 用于接收分区节点上报的故障信息，以及根据该故障信息，获取与该故障信息相匹配的故障类型；

信息收集模块 502 , 用于根据故障处理模块 501获取的故障类型，提取需要收集的故障现场信息类型，以及根据需要收集的故障现场信息类型，收集相应的故障现场信息。

本发明实施例中，图 5所示的多节点服务器系统的故障现场信息的收集装置还包括：

故障类型模块 503 , 用于存储的故障信息与故障类型的匹配关系；其中，故障处理模块 501根据该故障信息，获取与该故障信息相匹配的故障类型包括：

故障处理模块 501用于根据该故障信息，从故障类型模块 503存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。

信息类型模块 504 , 用于存储公有信息类型库以及故障类型匹配的私有信息类型库；

其中，信息收集模块 502根据故障处理模块 504获取的故障类型，提取需要收集的故障现场信息类型包括：

信息收集模块 502根据故障处理模块 501获取的故障类型，从信息类型模块 504存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。

本发明实施例中，图 5所示的多节点服务器系统的故障现场信息的收集装置中，若该分区节点为分区从节点，且需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率时，该收集装置还包括日志模块 505和环境监测模块 506:

其中，信息收集模块 502根据需要收集的故障现场信息类型，收集相应的故障现场信息包括：

信息收集模块 502用于发送信息收集请求给日志模块 505 , 以触发日志模块 505收集该分区从节点的用户操作日志和 SEL日志；

以及，信息收集模块 502用于发送信息收集请求给环境监测模块 506, 以触发环境监测模块 506收集该分区从节点的系统环境温度、风扇速率以及电源功率。

本发明实施例中，图 5所示的多节点服务器系统的故障现场信息的收集装置中，若该分区节点为分区主节点，且需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率时，信息收集模块 502根据需要收集的故障现场信息类型，收集相应的故障现场信息包括：

信息收集模块 502用于发送信息收集请求给日志模块 505 , 以触发日志模块 505收集该分区主节点所属分区的所有分区节点的用户操作日志和 SEL 曰志；

以及，信息收集模块 502用于发送信息收集请求给环境监测模块 506, 以触发环境监测模块 506收集该分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

本发明实施例中，图 5所示的多节点服务器系统的故障现场信息的收集装置的工作描述如下：

1 ) 故障类型匹配：

故障处理模块 501收到分区节点上报的故障信号是一个故障编号或者简单字符串，分区节点上报故障信息后，故障处理模块 501首先去访问故障类型模块 503匹配故障类型，即收集装置输入故障信号给故障类型模块 503 , 故障类型模块 503返回故障类型和详细的故障描述信息给。

2 )故障现场信息类型决策：

其中，不同的故障类型对应的故障现场信息类型不同，信息收集模块 502 要根据故障处理模块 501获得的故障类型，从信息类型模块 504中决策出收集的故障现场信息类型。

其中，在信息类型模块 504中，可以存储每一种故障类型需要收集的故障现场信息类型，并且将故障现场信息类型添加到公有信息类型库和该故障类型匹配的信息类型库（每一种故障类型都匹配了一个私有信息类型）中。其中，公有信息类型库用 public来标识，私有信息类库用于 private来标识。公有信息类型库存储的是所有故障类型都需要收集的故障现场信息类型，而私有信息类型库是每一种故障类型特别要收集的故障现场信息类型。信息收集模块 502 可以访问信息类型模块 504 , 并输入故障类型给信息类型模块 504, 由信息类型模块 504返回要收集的故障现场信息类型（即集合）给信息收集模块 502。其中，信息收集模块 502可以遍历该故障现场信息类型 (即集合）包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，信息收集模块 502可以分别向日志模块 505和环境监测模块 506发送信息收集请求，以触发日志模块 505收集用户操作日志和 SEL日志，以及触发环境监测模块 506收集该系统环境温度、风扇速率以及电源功率。

3 )故障现场信息收集：

本发明实施例中，一个多节点服务器系统可以根据用户的需求分成多个分区，收集装置可以保存每个分区节点和它所在的分区的对应关系。当分区节点上报故障信息后 , 收集装置先根据分区节点号来确定该分区节点所属的分区。其中，该分区节点可能是分区主节点，也可能是分区从节点，当上报故障信息的分区节点为分区从节点时，收集装置可以收集该分区从节点的故障现在信息（如用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率等），当上报故障信息的分区节点为分区主节点时，由于无法确认是该分区主节点自身原因导致故障，还是因为其他分区节点引起该分区主节点故障，因此，收集装置可以收集该分区主节点所属分区的所有分区节点的故障现在信息（如用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率等）。

4 )信息保存

本发明实施例中，收集装置可以将收集到的故障现场信息保存到数据库，可以设定保持一周或者一个月的故障现场信息，也可以设定故障现场信息的数量上限值，超过设定的时间或是超过数量上限值，则覆盖时间最早的故障现场信息或者备份数据库。

其中，通过实施图 5所示的装置，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。请参阅图 6, 图 6是本发明实施例公开的另一种多节点服务器系统的故障现场信息的收集装置的结构图，用于执行本发明实施例公开的多节点服务器系统的故障现场信息的收集方法。如图 6所示，该多节点服务器系统的故障现场信息的收集装置 600包括：至少一个处理器 601 , 例如 CPU, 至少一个网络接口 604或者其他用户接口 603 ,存储器 605 ,至少一个通信总线 602。通信总线 602用于实现这些组件之间的连接通信。其中，用户接口 603可选的可以包括 USB接口以及其他标准接口、有线接口。网络接口 604可选的可以包括 Wi-Fi接口以及其他无线接口。存储器 605可能包含高速 RAM存储器，也可能还包括非不稳定的存储器（non-volatile memory ) , 例如至少一个磁盘存储器。存储器 605可选的可以包含至少一个位于远离前述处理器 601的存储装置。

在一些实施方式中，存储器 605存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：

操作系统 6051 , 包含各种管理程序，用于实现故障现场信息的收集；应用模块 6052, 包含存储数据、匹配关系。

具体地，处理器 601用于调用存储器 605中存储的程序，执行以下操作：接收分区节点上报的故障信息；根据该故障信息，获取与该故障信息相匹配的故障类型；根据该故障类型，提取需要收集的故障现场信息类型；

根据需要收集的故障现场信息类型，收集相应的故障现场信息。

本发明实施例中，处理器 601根据该故障信息，获取与该故障信息相匹配的故障类型包括：

处理器 601用于根据该故障信息，从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。

本发明实施例中，处理器 601根据该故障类型，提取需要收集的故障现场信息类型包括：

处理器 601用于根据该故障类型，从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。

本发明实施例中，若该分区节点为分区从节点，且需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则处理器 601根据需要收集的故障现场信息类型，收集相应的故障现场信息包括：

处理器 601发送信息收集请求给日志模块，以触发日志模块收集分区从节点的用户操作日志和 SEL日志；

以及，发送信息收集请求给环境监测模块，以触发环境监测模块收集分区从节点的系统环境温度、风扇速率以及电源功率。

本发明实施例中，若该分区节点为分区主节点，且需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则处理器 601根据需要收集的故障现场信息类型，收集相应的故障现场信息包括：

处理器 601发送信息收集请求给日志模块，以触发日志模块收集分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志；以及，发送信息收集请求给环境监测模块，以触发环境监测模块收集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

其中，通过实施图 6所示的装置，不仅提供了一种有效的故障现场信息的收集机制，而且还能够有效的收集故障现场信息。

本发明实施例中，故障现场信息除了包括用户操作日志、 SEL日志、系统环境温度、风扇速率以及电源功率之外，还可以包括其他的信息。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory , ROM ) 、随机存取器 ( Random Access Memory, RAM ) 、磁盘或光盘等。

以上对本发明实施例公开的多节点服务器系统的故障现场信息的收集方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种多节点服务器系统的故障现场信息的收集方法，其特征在于，包括：

接收分区节点上报的故障信息；

根据所述故障信息，获取与所述故障信息相匹配的故障类型；根据所述故障类型，提取需要收集的故障现场信息类型；

根据所述需要收集的故障现场信息类型，收集相应的故障现场信息。

2、根据权利要求 1 所述的多节点服务器系统的故障现场信息的收集方法，其特征在于，所述根据所述故障信息，获取与所述故障信息相匹配的故障类型包括：

3、根据权利要求 2所述的多节点服务器系统的故障现场信息的收集方法，其特征在于，所述根据所述故障类型，提取需要收集的故障现场信息类型包括：

4、根据权利要求 1~3任一项所述的多节点服务器系统的故障现场信息的收集方法，其特征在于，若所述分区节点为分区从节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述根据所述需要收集的故障现场信息类型，收集相应的故障现场信息包括：

5、根据权利要求 1~3任一项所述的多节点服务器系统的故障现场信息的收集方法，其特征在于，若所述分区节点为分区主节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述根据所述需要收集的故障现场信息类型，收集相应的故障现场信息包括：

发送信息收集请求给日志模块，以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志；

以及，发送信息收集请求给环境监测模块，以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源功率。

6、一种多节点服务器系统的故障现场信息的收集装置，其特征在于，包括故障管理模块，所述故障管理模块包括：

7、根据权利要求 6所述的多节点服务器系统的故障现场信息的收集装置，其特征在于，所述收集装置还包括：

8、根据权利要求 7所述的多节点服务器系统的故障现场信息的收集装置，其特征在于，所述收集装置还包括：

所述信息收集模块根据所述故障处理模块获取的所述故障类型 ,从所述信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。

9、根据权利要求 6~8任一项所述的多节点服务器系统的故障现场信息的收集装置，其特征在于，若所述分区节点为分区从节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述收集装置还包括日志模块和环境监测模块：

10、根据权利要求 6~8任一项所述的多节点服务器系统的故障现场信息的收集装置，其特征在于，若所述分区节点为分区主节点，且所述需要收集的故障现场信息类型包括用户操作日志、 SEL日志、系统环境温度、风扇速率、电源功率，则所述收集装置还包括日志模块和环境监测模块：