WO2014206099A1 - 一种多节点服务器系统的故障现场信息的收集方法及装置 - Google Patents

一种多节点服务器系统的故障现场信息的收集方法及装置 Download PDF

Info

Publication number
WO2014206099A1
WO2014206099A1 PCT/CN2014/072262 CN2014072262W WO2014206099A1 WO 2014206099 A1 WO2014206099 A1 WO 2014206099A1 CN 2014072262 W CN2014072262 W CN 2014072262W WO 2014206099 A1 WO2014206099 A1 WO 2014206099A1
Authority
WO
WIPO (PCT)
Prior art keywords
fault
information
type
module
partition
Prior art date
Application number
PCT/CN2014/072262
Other languages
English (en)
French (fr)
Inventor
雷舒莹
吴登奔
廖义祥
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2014206099A1 publication Critical patent/WO2014206099A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Definitions

  • the present invention relates to the field of computer technologies, and in particular, to a method and an apparatus for collecting fault scene information of a multi-node server system. Background technique
  • a partition node when a partition node fails, the collection of its fault site information can provide very important support for fault analysis. Due to the complexity of the multi-node server system and the strong correlation between the partition nodes, there are many reasons for causing a partition node to fail. It may be caused by the user's bad operation or by the surrounding abnormality. Caused by the environment, it may be caused by other partition nodes, etc.). In order to facilitate the maintenance personnel to accurately locate the root cause of the fault and improve the efficiency of fault handling, not only the fault information of the node but also the fault site information (such as the user operation log, SEL log, system ambient temperature, etc.) Fan rate, etc.), and provide this information to the fault analysis module, or directly to the maintenance personnel.
  • the fault site information such as the user operation log, SEL log, system ambient temperature, etc.
  • the embodiment of the invention discloses a method and a device for collecting fault scene information of a multi-node server system, and provides an effective collection mechanism of fault scene information, which can effectively collect fault scene information.
  • a first aspect of the embodiments of the present invention discloses a method for collecting fault site information of a multi-node server system, including:
  • the acquiring, by the fault information, the fault type that matches the fault information includes:
  • the extracting the fault site information that needs to be collected according to the fault type Types include:
  • the partition node is a partition master node
  • the fault site information type to be collected includes a user operation log, a SEL log, a system ambient temperature, a fan rate, and a power source, and the fault site information type collected according to the need is collected.
  • the corresponding fault site information includes:
  • a second aspect of the embodiments of the present invention provides a device for collecting fault site information of a multi-node server system, including a fault management module, where the fault management module includes:
  • a fault processing module configured to receive fault information reported by the partition node, and obtain a fault type that matches the fault information according to the fault information;
  • an information collecting module configured to extract, according to the fault type acquired by the fault processing module, a type of fault scene information that needs to be collected, and collect corresponding fault scene information according to the type of fault scene information collected as needed.
  • the collecting device further includes:
  • the fault processing module is configured to obtain, according to the fault information, a fault type that matches the fault information from a matching relationship between the fault information and the fault type stored by the fault type module.
  • An information type module configured to store a public information type library and a private information type library matching the fault type
  • the information collection module extracts, according to the fault type acquired by the fault processing module, a type of fault scene information that needs to be collected from a public information type library stored by the information type module and a private information type library matched by the fault type .
  • the partitioning node is a partitioning slave node, and the type of fault scene information to be collected includes a user operation log, a SEL log, a system ambient temperature, a fan speed, and a power supply power, and the collecting device further includes a log module and an environment monitoring module:
  • the information collection module collects corresponding fault scene information according to the type of fault scene information that needs to be collected, including:
  • the information collection module is configured to send an information collection request to the log module, to trigger the log module to collect a user operation log and a SEL log of the partition slave node;
  • the information collection module is configured to send an information collection request to the environment monitoring module to trigger the environment monitoring module to collect a system ambient temperature, a fan rate, and a power source of the partition slave node.
  • the partitioning node is a partitioning master node, and the type of fault scene information to be collected includes a user operation log, a SEL log, a system ambient temperature, a fan speed, and a power source.
  • the collecting device further includes a log module and an environment monitoring module:
  • the information collection module collects corresponding fault scene information according to the type of fault scene information that needs to be collected, including:
  • the information collection module is configured to send an information collection request to the log module, to trigger the log module to collect user operation logs and SEL logs of all partition nodes of the partition to which the partition master node belongs;
  • the information collection module is configured to send an information collection request to the environment monitoring module, to trigger the environment monitoring module to collect system ambient temperature, fan speed, and power supply power of all partition nodes of the partition to which the partition master node belongs.
  • the fault information after receiving the fault information reported by the partition node, according to the reason
  • the fault information acquires a fault type that matches the fault information, and according to the fault type, extracts the type of fault scene information that needs to be collected, and collects corresponding fault scene information according to the type of fault scene information collected as needed.
  • FIG. 1 is a flowchart of a method for collecting fault site information of a multi-node server system according to an embodiment of the present invention
  • FIG. 2 is a flowchart of a method for collecting fault scene information of another multi-node server system according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram of a public information type library stored by an information type module and a private information type library with a fault type matching according to an embodiment of the present invention
  • FIG. 4 is a flowchart of a method for collecting fault scene information of another multi-node server system according to an embodiment of the present invention
  • FIG. 5 is a structural diagram of a device for collecting fault site information of a multi-node server system according to an embodiment of the present invention
  • FIG. 6 is a structural diagram of a device for collecting fault site information of another multi-node server system according to an embodiment of the present invention.
  • the embodiment of the invention discloses a method and a device for collecting fault scene information of a multi-node server system, and provides an effective collection mechanism of fault scene information, which can effectively collect fault scene information. The details are described below separately.
  • FIG. 1 is a flowchart of a method for collecting fault scene information of a multi-node server system according to an embodiment of the present invention. As shown in FIG. 1, the method for collecting fault scene information of the multi-node server system may include the following steps.
  • the fault information reported by the Baseboard Management Controller (BMC) of the partition node may be received, where the fault information may be a fault number or a simple string.
  • BMC Baseboard Management Controller
  • obtaining a fault type that matches the fault information may include:
  • the fault type matching the fault information is obtained from the matching relationship between the fault information stored in the fault type module and the fault type.
  • fault description information of the fault information may also be obtained from the fault type module.
  • the types of fault scene information that need to be collected are different according to different fault types. Therefore, the type of fault scene information that needs to be collected needs to be extracted according to the fault type.
  • extracting the type of fault scene information that needs to be collected according to the type of fault may include:
  • the type of fault scene information to be collected is extracted from the public information type library stored by the information type module and the private information type library matched by the fault type.
  • the type of fault scene information that needs to be collected may include a user operation day. Chi, SEL log, system ambient temperature, fan speed, power supply, etc.
  • FIG. 2 is a flowchart of a method for collecting fault scene information of a multi-node server system according to an embodiment of the present invention. As shown in FIG. 2, the method for collecting fault scene information of the multi-node server system may include the following steps.
  • the fault information reported by the BMC of the partition node may be received, where the fault information may be a fault number or a simple character string.
  • obtaining a fault type that matches the fault information may include:
  • the fault type matching the fault information is obtained from the matching relationship between the fault information stored in the fault type module and the fault type.
  • fault description information of the fault information may also be obtained from the fault type module.
  • a type of fault scene information that needs to be collected includes a user operation log, a SEL log, a system ambient temperature, a fan speed, and a power supply.
  • the types of fault scene information that need to be collected are different according to different fault types. Therefore, the type of fault scene information that needs to be collected needs to be extracted according to the fault type.
  • the type of fault scene information that needs to be collected includes a user operation log, a SEL log, and a system. Ambient temperature, fan speed, power supply.
  • extracting the type of fault scene information that needs to be collected according to the type of fault may include:
  • the type of fault scene information to be collected is extracted from the public information type library stored by the information type module and the private information type library matched by the fault type.
  • the information type module may store a public information type library and a private information type library whose fault type is matched.
  • the information type module may store a public information type library (including fault scene information that needs to be collected). Type 1 ⁇ 3), and the private information type library 1 (including the fault site information types 4, 5, 7 to be collected) and the private information type library 2 (including the fault site to be collected) Information type 4, 6) and private information type library 3 (including fault site information types 5, 7, 11 to be collected), wherein the public information type library includes the fault site information types 1 ⁇ 3 that need to be collected are all fault types. The type of fault site information to be collected.
  • the fault type is fault type 1
  • the fault site information type 1 ⁇ 3 to be collected needs to be collected from the public information type library stored by the information type module, and the fault type 1 needs to be collected from the fault type 1
  • the matching private information type library 1 extracts the fault site information types 4, 5, and 7 that need to be collected.
  • the partition node is a partition slave node, send a information collection request to the log module, to trigger the log module to collect the user operation log and the SEL log of the partition slave node; and send a information collection request to the environment monitoring module to trigger environmental monitoring.
  • the module collects the system ambient temperature, fan speed, and power of the slave slave node.
  • FIG. 4 is a schematic diagram of a fault of a multi-node server system according to an embodiment of the present invention. Flow chart of the method of collecting on-site information. As shown in FIG. 4, the method for collecting fault scene information of the multi-node server system may include the following steps.
  • the fault information reported by the BMC of the partition node may be received, where the fault information may be a fault number or a simple character string.
  • obtaining a fault type that matches the fault information may include:
  • the fault type matching the fault information is obtained from the matching relationship between the fault information stored in the fault type module and the fault type.
  • fault description information of the fault information may also be obtained from the fault type module.
  • the types of fault scene information that need to be collected are different according to different fault types. Therefore, the type of fault scene information that needs to be collected needs to be extracted according to the fault type.
  • the types of fault scene information that need to be collected include user operation logs, SEL logs, system ambient temperature, fan speed, and power supply.
  • extracting the type of fault scene information that needs to be collected according to the type of fault may include:
  • the type of fault scene information to be collected is extracted from the public information type library stored by the information type module and the private information type library matched by the fault type.
  • the information type module may store a public information type library and a private information type library whose fault type is matched.
  • the information type module may store a public information type library (including fault scene information that needs to be collected). Type 1 ⁇ 3), and stored fault type 1-3 matching private information type library 1 (including fault site information types 4, 5, 7 to be collected), private information type library 2 (including fault site information types 4 and 6 to be collected), and private information type library 3 (including the fault site information types 5, 7, and 11 to be collected), where the public information type library includes the fault site information types 1 to 3 to be collected, which are the fault site information types to be collected for all fault types.
  • the fault site information type 1 ⁇ 3 to be collected needs to be collected from the public information type library stored by the information type module, and the fault type 2 needs to be collected from the fault type 2
  • the matching private information type library 2 extracts the fault site information types 4, 6 that need to be collected.
  • partition node is a partition master node
  • FIG. 5 is a structural diagram of a device for collecting fault scene information of a multi-node server system according to an embodiment of the present invention.
  • the multi-node server system may include m partitions, and each partition is composed of n partition nodes, wherein the partition node 1 is a partition master node, and the other partition nodes are partition slave nodes.
  • the partition node may report a fault signal to the collecting device of the fault site information of the multi-node server system shown in FIG.
  • the collecting device executes the multi-node server system disclosed in the embodiment of the present invention.
  • the collection of fault site information As shown in FIG. 5, the device for collecting fault site information of the multi-node server system includes a fault management module 500, and the fault management module 500 includes:
  • the fault processing module 501 is configured to receive fault information reported by the partition node, and obtain, according to the fault information, a fault type that matches the fault information;
  • the information collection module 502 is configured to extract, according to the fault type acquired by the fault processing module 501, the type of the fault scene information to be collected, and collect the corresponding fault scene information according to the type of the fault scene information collected.
  • the device for collecting fault site information of the multi-node server system shown in FIG. 5 further includes:
  • the fault type module 503 is configured to perform a matching relationship between the fault information and the fault type.
  • the fault processing module 501 obtains, according to the fault information, a fault type that matches the fault information, including:
  • the fault processing module 501 is configured to obtain, according to the fault information, a fault type that matches the fault information from the matching relationship between the fault information and the fault type stored by the fault type module 503.
  • the device for collecting fault site information of the multi-node server system shown in FIG. 5 further includes:
  • An information type module 504 configured to store a public information type library and a private information type library matching the fault type;
  • the information collection module 502 extracts the fault scene information types that need to be collected according to the fault type acquired by the fault processing module 504, including:
  • the information collection module 502 extracts the type of fault scene information that needs to be collected from the public information type library stored by the information type module 504 and the private information type library matched by the fault type according to the fault type acquired by the fault processing module 501.
  • the partition node is a partition slave node
  • the type of fault scene information that needs to be collected includes a user operation log, a SEL log, and a system.
  • the collection device further includes a log module 505 and an environment monitoring module 506 when the ambient temperature, the fan speed, and the power source are:
  • the information collection module 502 collects corresponding types of fault scene information collected according to requirements.
  • the fault scene information includes:
  • the information collection module 502 is configured to send an information collection request to the log module 505 to trigger the log module 505 to collect the user operation log and the SEL log of the partition slave node;
  • the information collection module 502 is configured to send an information collection request to the environment monitoring module 506 to trigger the environment monitoring module 506 to collect the system ambient temperature, the fan speed, and the power of the partition slave node.
  • the information collection module 502 collects corresponding fault scene information according to the type of fault scene information collected:
  • the information collection module 502 is configured to send an information collection request to the log module 505 to trigger the log module 505 to collect user operation logs and SEL records of all the partition nodes of the partition to which the partition master node belongs;
  • the information collection module 502 is configured to send an information collection request to the environment monitoring module 506 to trigger the environment monitoring module 506 to collect system ambient temperature, fan speed, and power supply power of all the partition nodes of the partition to which the partition master node belongs.
  • the operation of the device for collecting fault site information of the multi-node server system shown in FIG. 5 is as follows:
  • the fault processing module 501 receives the fault signal reported by the partition node as a fault number or a simple character string. After the fault information is reported by the partition node, the fault processing module 501 first accesses the fault type module 503 to match the fault type, that is, the collecting device inputs the fault signal. The fault type module 503, the fault type module 503 returns the fault type and detailed fault description information.
  • the information collection module 502 is different in type of fault scene information corresponding to different fault types.
  • the type of fault scene information collected is determined from the information type module 504 according to the type of fault obtained by the fault handling module 501.
  • the fault scene information type that needs to be collected for each fault type may be stored, and the fault scene information type is added to the public information type library and the information type library matched by the fault type (each fault) Types are matched in a private information type).
  • the public information type library is identified by public, and the private information class library is used for private identification.
  • the public information type library stores the type of fault scene information that needs to be collected for all fault types, and the private information type library is the type of fault scene information that is specifically collected for each type of fault.
  • the information collection module 502 can access the information type module 504 and input the fault type to the information type module 504, and the information type module 504 returns the fault scene information type (i.e., set) to be collected to the information collection module 502.
  • the information collection module 502 can traverse the fault scene information type (ie, the set) including the user operation log, the SEL log, the system ambient temperature, the fan rate, and the power supply.
  • the information collection module 502 can respectively log the log module 505 and the environment monitoring module 506.
  • An information collection request is sent to trigger the log module 505 to collect the user operation log and the SEL log, and the trigger environment monitoring module 506 collects the system ambient temperature, fan rate, and power supply.
  • a multi-node server system can be divided into multiple partitions according to the needs of the user, and the collecting device can save the correspondence between each partition node and the partition in which it resides.
  • the collecting device After the partition node reports the fault information, the collecting device first determines the partition to which the partition node belongs according to the partition node number.
  • the partition node may be a partition master node or a partition slave node.
  • the collecting device may collect the fault current information of the partition slave node (such as a user operation log, SEL).
  • the collection device can collect fault information of all partition nodes of the partition to which the partition master node belongs (such as user operation log, SEL log, system ambient temperature, fan speed, power supply) Rate, etc.).
  • the collecting device may save the collected fault scene information to the database, and may set the fault site information for one week or one month, or set the upper limit value of the fault site information, which exceeds the set value. If the time exceeds the upper limit, the faulty site information with the earliest time or the backup database is overwritten.
  • FIG. 6 is a structural diagram of a device for collecting fault site information of another multi-node server system according to an embodiment of the present invention, for performing fault site information of a multi-node server system disclosed in an embodiment of the present invention. Collection method.
  • the faulty site information collection device 600 of the multi-node server system includes: at least one processor 601, such as a CPU, at least one network interface 604 or other user interface 603, a memory 605, and at least one communication bus 602. Communication bus 602 is used to implement connection communication between these components.
  • the user interface 603 can optionally include a USB interface and other standard interfaces and wired interfaces.
  • the network interface 604 can optionally include a Wi-Fi interface as well as other wireless interfaces.
  • Memory 605 may contain high speed RAM memory and may also include non-volatile memory, such as at least one disk memory.
  • the memory 605 can optionally include at least one storage device located remotely from the aforementioned processor 601.
  • memory 605 stores the following elements, executable modules or data structures, or a subset thereof, or their extension set:
  • the operating system 6051 includes various management programs for collecting fault site information.
  • the application module 6052 includes storage data and matching relationships.
  • the processor 601 is configured to invoke a program stored in the memory 605, and perform the following operations: receiving fault information reported by the partition node; Obtaining, according to the fault information, a fault type that matches the fault information; and extracting, according to the fault type, a fault scene information type that needs to be collected;
  • the processor 601 obtains a fault type that matches the fault information according to the fault information, including:
  • the processor 601 is configured to obtain, according to the fault information, a fault type that matches the fault information from a matching relationship between the fault information and the fault type stored by the fault type module.
  • the processor 601 extracts the fault scene information types that need to be collected according to the fault type, including:
  • the processor 601 is configured to extract, according to the fault type, a fault information type that needs to be collected from a public information type library stored by the information type module and a private information type library matched by the fault type.
  • the processor 601 collects the fault according to the need.
  • the type of on-site information, collecting corresponding fault site information includes:
  • the processor 601 sends an information collection request to the log module to trigger the log module to collect the user operation log and the SEL log of the partition slave node;
  • the processor 601 sends an information collection request to the log module, to trigger the log module to collect user operation logs and SEL logs of all the partition nodes of the partition to which the partition master node belongs; And sending an information collection request to the environment monitoring module to trigger the environment monitoring module to collect system ambient temperature, fan speed, and power supply power of all the partition nodes of the partition to which the partition master node belongs.
  • the fault scene information may include other information in addition to the user operation log, the SEL log, the system ambient temperature, the fan speed, and the power supply.
  • the program can be stored in a computer readable storage medium.
  • the storage medium can include: Flash disk, read-only memory (ROM), random access memory (RAM), disk or optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种多节点服务器系统的故障现场信息的收集方法及装置,该多节点服务器系统的故障现场信息的收集方法包括:接收分区节点上报的故障信息;根据所述故障信息,查询与所述故障信息相匹配的故障类型;根据所述故障类型,决策需要收集的故障现场信息的类型;根据所述需要收集的故障现场信息的类型,收集相应的故障现场信息。实施本发明实施例,可以提供一种有效的故障现场信息的收集机制,能够有效的收集故障现场信息。

Description

一种多节点服务器系统的故障现场信息的收集方法及装置 技术领域
本发明涉及计算机技术领域, 尤其涉及一种多节点服务器系统的故障现 场信息的收集方法及装置。 背景技术
在多节点服务器系统中, 当分区节点发生故障时, 对其故障现场信息的 收集能为故障分析提供非常重要的支持。 由于多节点服务器系统比较复杂 , 以及分区节点之间的关联性较强, 因此引发某个分区节点发生故障的原因会 有多种可能(可能是由用户的不良操作引起, 也可能是由周围异常的环境引 起, 还有可能是由其他分区节点引起等等)。 为了能够方便维护人员准确定 位故障发生的根本原因, 提高故障处理的效率, 在故障发生时不仅要收集节 点的故障信息, 还要收集故障现场信息 (如用户操作日志、 SEL日志、 系统 环境温度、 风扇速率等等), 并将这些信息提供给故障分析模块, 或者直接 提供给维护人员。
然而实践中发现, 由于缺乏有效的故障现场信息的收集机制, 因此, 当 分区节点发生故障的时候, 如何有效的收集故障现场信息, 是本领域技术人 员亟需解决的技术难题。 发明内容
本发明实施例公开了一种多节点服务器系统的故障现场信息的收集方 法及装置, 提供了一种有效的故障现场信息的收集机制, 能够有效的收集故 障现场信息。
本发明实施例第一方面公开一种多节点服务器系统的故障现场信息的 收集方法, 包括:
接收分区节点上报的故障信息;
根据所述故障信息, 获取与所述故障信息相匹配的故障类型; 根据所述故障类型, 提取需要收集的故障现场信息类型; 根据所述需要收集的故障现场信息类型, 收集相应的故障现场信息。 在本发明实施例第一方面的第一种可能的实现方式中, 所述根据所述故 障信息, 获取与所述故障信息相匹配的故障类型包括:
根据所述故障信息,从故障类型模块存储的故障信息与故障类型的匹配 关系中获取与所述故障信息相匹配的故障类型。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例 第一方面的第二种可能的实现方式中, 所述根据所述故障类型, 提取需要收 集的故障现场信息类型包括:
根据所述故障类型,从信息类型模块存储的公有信息类型库以及所述故 障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二 种可能的实现方式, 在本发明实施例第一方面的第三种可能的实现方式中, 若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用 户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率, 则所述根据 所述需要收集的故障现场信息类型, 收集相应的故障现场信息包括:
发送信息收集请求给日志模块, 以触发所述日志模块收集所述分区从节 点的用户操作日志和 SEL日志;
以及, 发送信息收集请求给环境监测模块, 以触发所述环境监测模块收 集所述分区从节点的系统环境温度、 风扇速率以及电源功率。
结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二 种可能的实现方式, 在本发明实施例第一方面的第四种可能的实现方式中, 若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用 户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率, 则所述根据 所述需要收集的故障现场信息类型, 收集相应的故障现场信息包括:
发送信息收集请求给日志模块, 以触发所述日志模块收集所述分区主节 点所属分区的所有分区节点的用户操作日志和 SEL日志; 以及, 发送信息收集请求给环境监测模块, 以触发所述环境监测模块收 集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及 电源功率。
本发明实施例第二方面公开一种多节点服务器系统的故障现场信息的 收集装置, 包括故障管理模块, 所述故障管理模块包括:
故障处理模块, 用于接收分区节点上报的故障信息, 以及根据所述故障 信息, 获取与所述故障信息相匹配的故障类型;
信息收集模块, 用于根据所述故障处理模块获取的所述故障类型, 提取 需要收集的故障现场信息类型, 以及根据所述需要收集的故障现场信息类 型, 收集相应的故障现场信息。
在本发明实施例第二方面的第一种可能的实现方式中, 所述收集装置还 包括:
故障类型模块, 用于存储的故障信息与故障类型的匹配关系; 其中, 所述故障处理模块根据所述故障信息, 获取与所述故障信息相匹 配的故障类型包括:
所述故障处理模块用于根据所述故障信息,从所述故障类型模块存储的 故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例 第一方面的第二种可能的实现方式中, 所述收集装置还包括:
信息类型模块, 用于存储公有信息类型库以及故障类型匹配的私有信息 类型库;
所述信息收集模块根据所述故障处理模块获取的所述故障类型,提取需 要收集的故障现场信息类型包括:
所述信息收集模块根据所述故障处理模块获取的所述故障类型 ,从所述 信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类 型库中提取需要收集的故障现场信息类型。 结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二 种可能的实现方式, 在本发明实施例第二方面的第三种可能的实现方式中, 若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用 户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率, 则所述收集 装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块, 以触发所述 日志模块收集所述分区从节点的用户操作日志和 SEL日志;
以及, 所述信息收集模块用于发送信息收集请求给所述环境监测模块, 以触发所述环境监测模块收集所述分区从节点的系统环境温度、风扇速率以 及电源功率。
结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二 种可能的实现方式, 在本发明实施例第二方面的第四种可能的实现方式中, 若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用 户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率, 则所述收集 装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块, 以触发所述 日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志;
以及, 所述信息收集模块用于发送信息收集请求给所述环境监测模块, 以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的 系统环境温度、 风扇速率以及电源功率。
本发明实施例中, 在接收到分区节点上报的故障信息后, 可以根据该故 障信息, 获取与该故障信息相匹配的故障类型, 并根据该故障类型, 提取需 要收集的故障现场信息类型, 以及根据需要收集的故障现场信息类型, 收集 相应的故障现场信息。 通过实施本发明实施例, 不仅提供了一种有效的故障 现场信息的收集机制, 而且还能够有效的收集故障现场信息。 附图说明
为了更清楚地说明本发明实施例的技术方案, 下面将对现有技术或实施 例中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅 是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳 动的前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例公开的一种多节点服务器系统的故障现场信息的收 集方法的流程图;
图 2是本发明实施例公开的另一种多节点服务器系统的故障现场信息的 收集方法的流程图;
图 3是发明实施例公开的一种信息类型模块存储的公有信息类型库以及 故障类型匹配的私有信息类型库的示意图;
图 4是本发明实施例公开的另一种多节点服务器系统的故障现场信息的 收集方法的流程图;
图 5是本发明实施例公开的一种多节点服务器系统的故障现场信息的收 集装置的结构图;
图 6本发明实施例公开的另一种多节点服务器系统的故障现场信息的收 集装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅是本发明一部分实施例, 而不 是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做出 创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 本发明实施例公开了一种多节点服务器系统的故障现场信息的收集方 法及装置, 提供了一种有效的故障现场信息的收集机制, 能够有效的收集故 障现场信息。 以下分别进行详细说明。
请参阅图 1 , 图 1是本发明实施例公开的一种多节点服务器系统的故障 现场信息的收集方法的流程图。 如图 1所示, 该多节点服务器系统的故障现 场信息的收集方法可以包括以下步骤。
101、 接收分区节点上报的故障信息。
在一个实施例中, 可以接收分区节点的单板管理控制器 (Baseboard Management Controller, BMC )上报的故障信息, 其中, 故障信息可以是一 个故障编号或者是简单的字符串。
102、 根据该故障信息, 获取与该故障信息相匹配的故障类型。
在一个实施例中, 根据该故障信息, 获取与该故障信息相匹配的故障类 型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关 系中获取与该故障信息相匹配的故障类型。
更近一步地, 本发明实施例中, 还可以从故障类型模块中获取该故障信 息的详细的故障描述信息。
103、 根据该故障类型, 提取需要收集的故障现场信息类型。
本发明实施例中, 不同的故障类型需要收集的故障现场信息类型不同, 因此, 需要根据该故障类型, 提取需要收集的故障现场信息类型。
在一个实施例中, 根据该故障类型, 提取需要收集的故障现场信息类型 可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类 型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
104、 根据需要收集的故障现场信息类型, 收集相应的故障现场信息。 本发明实施例中, 需要收集的故障现场信息类型可以包括用户操作日 志、 SEL日志、 系统环境温度、 风扇速率、 电源功率等。
在图 1所示的方法中, 在接收到分区节点上报的故障信息后, 可以根据 该故障信息, 获取与该故障信息相匹配的故障类型, 并根据该故障类型, 提 取需要收集的故障现场信息类型, 以及根据需要收集的故障现场信息类型, 收集相应的故障现场信息。 通过实施图 1所示的方法, 不仅提供了一种有效 的故障现场信息的收集机制, 而且还能够有效的收集故障现场信息。 请参阅图 2, 图 2是本发明实施例公开的一种多节点服务器系统的故障 现场信息的收集方法的流程图。 如图 2所示, 该多节点服务器系统的故障现 场信息的收集方法可以包括以下步骤。
201、 接收分区节点上报的故障信息。
在一个实施例中, 可以接收分区节点的 BMC上报的故障信息, 其中, 故障信息可以是一个故障编号或者是简单的字符串。
202、 根据该故障信息, 获取与该故障信息相匹配的故障类型。
在一个实施例中, 根据该故障信息, 获取与该故障信息相匹配的故障类 型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关 系中获取与该故障信息相匹配的故障类型。
更近一步地, 本发明实施例中, 还可以从故障类型模块中获取该故障信 息的详细的故障描述信息。
203、 根据该故障类型, 提取需要收集的故障现场信息类型, 其中, 需 要收集的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率。
本发明实施例中, 不同的故障类型需要收集的故障现场信息类型不同, 因此, 需要根据该故障类型, 提取需要收集的故障现场信息类型。 本发明实 施例中, 需要收集的故障现场信息类型包括用户操作日志、 SEL日志、 系统 环境温度、 风扇速率、 电源功率。
在一个实施例中, 根据该故障类型, 提取需要收集的故障现场信息类型 可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类 型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中, 如图 3所示, 信息类型模块可以存储公有信息类型库 以及故障类型匹配的私有信息类型库, 例如, 信息类型模块可以存储公有信 息类型库 (包括需要收集的故障现场信息类型 1~3 ) 、 以及存储有故障类型 1-3分别匹配的私有信息类型库 1 (包括需要收集的故障现场信息类型 4、 5、 7 ) 、 私有信息类型库 2 (包括需要收集的故障现场信息类型 4、 6 ) 以及私 有信息类型库 3 (包括需要收集的故障现场信息类型 5、 7、 11 ) , 其中, 公 有信息类型库包括的需要收集的故障现场信息类型 1~3是所有故障类型均要 收集的故障现场信息类型。 举例来说, 当故障类型为故障类型 1时, 根据该 故障类型 1 , 需要从信息类型模块存储的公有信息类型库中提取需要收集的 故障现场信息类型 1~3 , 以及需要从该故障类型 1 匹配的私有信息类型库 1 中提取需要收集的故障现场信息类型 4、 5、 7。
204、 若分区节点为分区从节点, 发送信息收集请求给日志模块, 以触 发日志模块收集该分区从节点的用户操作日志和 SEL日志; 以及,发送信息 收集请求给环境监测模块, 以触发环境监测模块收集该分区从节点的系统环 境温度、 风扇速率以及电源功率。
205、 存储收集到的该分区从节点的用户操作日志、 SEL 日志、 系统环 境温度、 风扇速率以及电源功率。
其中, 通过实施图 2所示的方法, 不仅提供了一种有效的故障现场信息 的收集机制, 而且还能够有效的收集故障现场信息。 请参阅图 4, 图 4是本发明实施例公开的一种多节点服务器系统的故障 现场信息的收集方法的流程图。 如图 4所示, 该多节点服务器系统的故障现 场信息的收集方法可以包括以下步骤。
401、 接收分区节点上报的故障信息。
在一个实施例中, 可以接收分区节点的 BMC上报的故障信息, 其中, 故障信息可以是一个故障编号或者是简单的字符串。
402、 根据该故障信息, 获取与该故障信息相匹配的故障类型。
在一个实施例中, 根据该故障信息, 获取与该故障信息相匹配的故障类 型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关 系中获取与该故障信息相匹配的故障类型。
更近一步地, 本发明实施例中, 还可以从故障类型模块中获取该故障信 息的详细的故障描述信息。
403、 根据该故障类型, 提取需要收集的故障现场信息类型, 其中, 需 要收集的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率。
本发明实施例中, 不同的故障类型需要收集的故障现场信息类型不同, 因此, 需要根据该故障类型, 提取需要收集的故障现场信息类型。 本发明实 施例中, 需要收集的故障现场信息类型包括用户操作日志、 SEL日志、 系统 环境温度、 风扇速率、 电源功率。
在一个实施例中, 根据该故障类型, 提取需要收集的故障现场信息类型 可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类 型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中, 如图 3所示, 信息类型模块可以存储公有信息类型库 以及故障类型匹配的私有信息类型库, 例如, 信息类型模块可以存储公有信 息类型库 (包括需要收集的故障现场信息类型 1~3 ) 、 以及存储有故障类型 1-3分别匹配的私有信息类型库 1 (包括需要收集的故障现场信息类型 4、 5、 7 ) 、 私有信息类型库 2 (包括需要收集的故障现场信息类型 4、 6 ) 以及私 有信息类型库 3 (包括需要收集的故障现场信息类型 5、 7、 11 ) , 其中, 公 有信息类型库包括的需要收集的故障现场信息类型 1~3是所有故障类型均要 收集的故障现场信息类型。 举例来说, 当故障类型为故障类型 2时, 根据该 故障类型 2, 需要从信息类型模块存储的公有信息类型库中提取需要收集的 故障现场信息类型 1~3 , 以及需要从该故障类型 2匹配的私有信息类型库 2 中提取需要收集的故障现场信息类型 4、 6。
404、 若分区节点为分区主节点, 发送信息收集请求给日志模块, 以触 发日志模块收集该分区主节点所属分区的所有分区节点的用户操作日志和
SEL日志; 以及, 发送信息收集请求给环境监测模块, 以触发环境监测模块 收集该分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及 电源功率。
405、 存储收集到的该分区主节点所属分区的所有分区节点的用户操作 日志、 SEL日志、 系统环境温度、 风扇速率以及电源功率。
其中, 通过实施图 4所示的方法, 不仅提供了一种有效的故障现场信息 的收集机制, 而且还能够有效的收集故障现场信息。 请参阅图 5 , 图 5是本发明实施例公开的一种多节点服务器系统的故障 现场信息的收集装置的结构图。 本发明实施例中, 多节点服务器系统可以包 括 m个分区, 每个分区由 n个分区节点构成, 其中, 分区节点 1为分区主节 点, 其他分区节点为分区从节点。 当某个分区节点发生故障时, 该分区节点 可以向图 5所示的多节点服务器系统的故障现场信息的收集装置上报故障信 号, 由该收集装置来执行本发明实施例公开的多节点服务器系统的故障现场 信息的收集操作。 如图 5所示, 该多节点服务器系统的故障现场信息的收集 装置包括故障管理模块 500 , 故障管理模块 500包括: 故障处理模块 501 , 用于接收分区节点上报的故障信息, 以及根据该故 障信息, 获取与该故障信息相匹配的故障类型;
信息收集模块 502 , 用于根据故障处理模块 501获取的故障类型, 提取 需要收集的故障现场信息类型, 以及根据需要收集的故障现场信息类型, 收 集相应的故障现场信息。
本发明实施例中, 图 5所示的多节点服务器系统的故障现场信息的收集 装置还包括:
故障类型模块 503 , 用于存储的故障信息与故障类型的匹配关系; 其中, 故障处理模块 501根据该故障信息, 获取与该故障信息相匹配的 故障类型包括:
故障处理模块 501用于根据该故障信息,从故障类型模块 503存储的故 障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
本发明实施例中, 图 5所示的多节点服务器系统的故障现场信息的收集 装置还包括:
信息类型模块 504 , 用于存储公有信息类型库以及故障类型匹配的私有 信息类型库;
其中, 信息收集模块 502根据故障处理模块 504获取的故障类型, 提取 需要收集的故障现场信息类型包括:
信息收集模块 502根据故障处理模块 501获取的故障类型,从信息类型 模块 504存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提 取需要收集的故障现场信息类型。
本发明实施例中, 图 5所示的多节点服务器系统的故障现场信息的收集 装置中, 若该分区节点为分区从节点, 且需要收集的故障现场信息类型包括 用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率时, 该收集 装置还包括日志模块 505和环境监测模块 506:
其中, 信息收集模块 502根据需要收集的故障现场信息类型, 收集相应 的故障现场信息包括:
信息收集模块 502用于发送信息收集请求给日志模块 505 , 以触发日志 模块 505收集该分区从节点的用户操作日志和 SEL日志;
以及, 信息收集模块 502用于发送信息收集请求给环境监测模块 506, 以触发环境监测模块 506收集该分区从节点的系统环境温度、风扇速率以及 电源功率。
本发明实施例中, 图 5所示的多节点服务器系统的故障现场信息的收集 装置中, 若该分区节点为分区主节点, 且需要收集的故障现场信息类型包括 用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率时, 信息收 集模块 502根据需要收集的故障现场信息类型, 收集相应的故障现场信息包 括:
信息收集模块 502用于发送信息收集请求给日志模块 505 , 以触发日志 模块 505收集该分区主节点所属分区的所有分区节点的用户操作日志和 SEL 曰志;
以及, 信息收集模块 502用于发送信息收集请求给环境监测模块 506, 以触发环境监测模块 506收集该分区主节点所属分区的所有分区节点的系统 环境温度、 风扇速率以及电源功率。
本发明实施例中, 图 5所示的多节点服务器系统的故障现场信息的收集 装置的工作描述如下:
1 ) 故障类型匹配:
故障处理模块 501收到分区节点上报的故障信号是一个故障编号或者简 单字符串, 分区节点上报故障信息后, 故障处理模块 501首先去访问故障类 型模块 503匹配故障类型, 即收集装置输入故障信号给故障类型模块 503 , 故障类型模块 503返回故障类型和详细的故障描述信息给。
2 )故障现场信息类型决策:
其中,不同的故障类型对应的故障现场信息类型不同,信息收集模块 502 要根据故障处理模块 501获得的故障类型,从信息类型模块 504中决策出收 集的故障现场信息类型。
其中, 在信息类型模块 504中, 可以存储每一种故障类型需要收集的故 障现场信息类型, 并且将故障现场信息类型添加到公有信息类型库和该故障 类型匹配的信息类型库 (每一种故障类型都匹配了一个私有信息类型) 中。 其中, 公有信息类型库用 public来标识, 私有信息类库用于 private来标识。 公有信息类型库存储的是所有故障类型都需要收集的故障现场信息类型, 而 私有信息类型库是每一种故障类型特别要收集的故障现场信息类型。信息收 集模块 502 可以访问信息类型模块 504 , 并输入故障类型给信息类型模块 504, 由信息类型模块 504返回要收集的故障现场信息类型 (即集合)给信 息收集模块 502。其中,信息收集模块 502可以遍历该故障现场信息类型 (即 集合)包括用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功率, 信息收集模块 502可以分别向日志模块 505和环境监测模块 506发送信息收 集请求, 以触发日志模块 505收集用户操作日志和 SEL日志, 以及触发环境 监测模块 506收集该系统环境温度、 风扇速率以及电源功率。
3 )故障现场信息收集:
本发明实施例中, 一个多节点服务器系统可以根据用户的需求分成多个 分区, 收集装置可以保存每个分区节点和它所在的分区的对应关系。 当分区 节点上报故障信息后 , 收集装置先根据分区节点号来确定该分区节点所属的 分区。 其中, 该分区节点可能是分区主节点, 也可能是分区从节点, 当上报 故障信息的分区节点为分区从节点时, 收集装置可以收集该分区从节点的故 障现在信息(如用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源 功率等) , 当上报故障信息的分区节点为分区主节点时, 由于无法确认是该 分区主节点自身原因导致故障,还是因为其他分区节点引起该分区主节点故 障, 因此, 收集装置可以收集该分区主节点所属分区的所有分区节点的故障 现在信息(如用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功 率等) 。
4 )信息保存
本发明实施例中, 收集装置可以将收集到的故障现场信息保存到数据 库, 可以设定保持一周或者一个月的故障现场信息, 也可以设定故障现场信 息的数量上限值, 超过设定的时间或是超过数量上限值, 则覆盖时间最早的 故障现场信息或者备份数据库。
其中, 通过实施图 5所示的装置, 不仅提供了一种有效的故障现场信息 的收集机制, 而且还能够有效的收集故障现场信息。 请参阅图 6, 图 6是本发明实施例公开的另一种多节点服务器系统的故 障现场信息的收集装置的结构图, 用于执行本发明实施例公开的多节点服务 器系统的故障现场信息的收集方法。 如图 6所示, 该多节点服务器系统的故 障现场信息的收集装置 600包括: 至少一个处理器 601 , 例如 CPU, 至少一 个网络接口 604或者其他用户接口 603 ,存储器 605 ,至少一个通信总线 602。 通信总线 602用于实现这些组件之间的连接通信。 其中, 用户接口 603可选 的可以包括 USB接口以及其他标准接口、 有线接口。 网络接口 604可选的 可以包括 Wi-Fi接口以及其他无线接口。 存储器 605可能包含高速 RAM存 储器, 也可能还包括非不稳定的存储器 (non-volatile memory ) , 例如至少 一个磁盘存储器。存储器 605可选的可以包含至少一个位于远离前述处理器 601的存储装置。
在一些实施方式中, 存储器 605存储了如下的元素, 可执行模块或者数 据结构, 或者他们的子集, 或者他们的扩展集:
操作系统 6051 , 包含各种管理程序, 用于实现故障现场信息的收集; 应用模块 6052, 包含存储数据、 匹配关系。
具体地,处理器 601用于调用存储器 605中存储的程序,执行以下操作: 接收分区节点上报的故障信息; 根据该故障信息, 获取与该故障信息相匹配的故障类型; 根据该故障类型, 提取需要收集的故障现场信息类型;
根据需要收集的故障现场信息类型, 收集相应的故障现场信息。
本发明实施例中, 处理器 601根据该故障信息, 获取与该故障信息相匹 配的故障类型包括:
处理器 601用于根据该故障信息,从故障类型模块存储的故障信息与故 障类型的匹配关系中获取与该故障信息相匹配的故障类型。
本发明实施例中, 处理器 601根据该故障类型, 提取需要收集的故障现 场信息类型包括:
处理器 601用于根据该故障类型,从信息类型模块存储的公有信息类型 库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息 类型。
本发明实施例中, 若该分区节点为分区从节点, 且需要收集的故障现场 信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功 率, 则处理器 601根据需要收集的故障现场信息类型, 收集相应的故障现场 信息包括:
处理器 601发送信息收集请求给日志模块, 以触发日志模块收集分区从 节点的用户操作日志和 SEL日志;
以及, 发送信息收集请求给环境监测模块, 以触发环境监测模块收集分 区从节点的系统环境温度、 风扇速率以及电源功率。
本发明实施例中, 若该分区节点为分区主节点, 且需要收集的故障现场 信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速率、 电源功 率, 则处理器 601根据需要收集的故障现场信息类型, 收集相应的故障现场 信息包括:
处理器 601发送信息收集请求给日志模块, 以触发日志模块收集分区主 节点所属分区的所有分区节点的用户操作日志和 SEL日志; 以及, 发送信息收集请求给环境监测模块, 以触发环境监测模块收集所 述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及电源 功率。
其中, 通过实施图 6所示的装置, 不仅提供了一种有效的故障现场信息 的收集机制, 而且还能够有效的收集故障现场信息。
本发明实施例中, 故障现场信息除了包括用户操作日志、 SEL日志、 系 统环境温度、 风扇速率以及电源功率之外, 还可以包括其他的信息。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分 步骤是可以通过程序来指令相关的硬件来完成, 该程序可以存储于一计算机 可读存储介质中, 存储介质可以包括: 闪存盘、 只读存储器 (Read-Only Memory , ROM ) 、 随机存取器 ( Random Access Memory, RAM ) 、 磁盘 或光盘等。
以上对本发明实施例公开的多节点服务器系统的故障现场信息的收集 方式进行了阐述, 以上实施例的说明只是用于帮助理解本发明的方法及其核 心思想; 同时, 对于本领域的一般技术人员, 依据本发明的思想, 在具体实 施方式及应用范围上均会有改变之处, 综上所述, 本说明书内容不应理解为 对本发明的限制。

Claims

权 利 要求
1、 一种多节点服务器系统的故障现场信息的收集方法, 其特征在于, 包括:
接收分区节点上报的故障信息;
根据所述故障信息, 获取与所述故障信息相匹配的故障类型; 根据所述故障类型, 提取需要收集的故障现场信息类型;
根据所述需要收集的故障现场信息类型, 收集相应的故障现场信息。
2、 根据权利要求 1 所述的多节点服务器系统的故障现场信息的收集方 法, 其特征在于, 所述根据所述故障信息, 获取与所述故障信息相匹配的故 障类型包括:
根据所述故障信息,从故障类型模块存储的故障信息与故障类型的匹配 关系中获取与所述故障信息相匹配的故障类型。
3、 根据权利要求 2所述的多节点服务器系统的故障现场信息的收集方 法, 其特征在于, 所述根据所述故障类型, 提取需要收集的故障现场信息类 型包括:
根据所述故障类型,从信息类型模块存储的公有信息类型库以及所述故 障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
4、 根据权利要求 1~3任一项所述的多节点服务器系统的故障现场信息 的收集方法, 其特征在于, 若所述分区节点为分区从节点, 且所述需要收集 的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速 率、 电源功率, 则所述根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
发送信息收集请求给日志模块, 以触发所述日志模块收集所述分区从节 点的用户操作日志和 SEL日志;
以及, 发送信息收集请求给环境监测模块, 以触发所述环境监测模块收 集所述分区从节点的系统环境温度、 风扇速率以及电源功率。
5、 根据权利要求 1~3任一项所述的多节点服务器系统的故障现场信息 的收集方法, 其特征在于, 若所述分区节点为分区主节点, 且所述需要收集 的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速 率、 电源功率, 则所述根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
发送信息收集请求给日志模块, 以触发所述日志模块收集所述分区主节 点所属分区的所有分区节点的用户操作日志和 SEL日志;
以及, 发送信息收集请求给环境监测模块, 以触发所述环境监测模块收 集所述分区主节点所属分区的所有分区节点的系统环境温度、风扇速率以及 电源功率。
6、 一种多节点服务器系统的故障现场信息的收集装置, 其特征在于, 包括故障管理模块, 所述故障管理模块包括:
故障处理模块, 用于接收分区节点上报的故障信息, 以及根据所述故障 信息, 获取与所述故障信息相匹配的故障类型;
信息收集模块, 用于根据所述故障处理模块获取的所述故障类型, 提取 需要收集的故障现场信息类型, 以及根据所述需要收集的故障现场信息类 型, 收集相应的故障现场信息。
7、 根据权利要求 6所述的多节点服务器系统的故障现场信息的收集装 置, 其特征在于, 所述收集装置还包括:
故障类型模块, 用于存储的故障信息与故障类型的匹配关系; 其中, 所述故障处理模块根据所述故障信息, 获取与所述故障信息相匹 配的故障类型包括:
所述故障处理模块用于根据所述故障信息,从所述故障类型模块存储的 故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
8、 根据权利要求 7所述的多节点服务器系统的故障现场信息的收集装 置, 其特征在于, 所述收集装置还包括:
信息类型模块, 用于存储公有信息类型库以及故障类型匹配的私有信息 类型库;
所述信息收集模块根据所述故障处理模块获取的所述故障类型,提取需 要收集的故障现场信息类型包括:
所述信息收集模块根据所述故障处理模块获取的所述故障类型 ,从所述 信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类 型库中提取需要收集的故障现场信息类型。
9、 根据权利要求 6~8任一项所述的多节点服务器系统的故障现场信息 的收集装置, 其特征在于, 若所述分区节点为分区从节点, 且所述需要收集 的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速 率、 电源功率, 则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块, 以触发所述 日志模块收集所述分区从节点的用户操作日志和 SEL日志;
以及, 所述信息收集模块用于发送信息收集请求给所述环境监测模块, 以触发所述环境监测模块收集所述分区从节点的系统环境温度、风扇速率以 及电源功率。
10、根据权利要求 6~8任一项所述的多节点服务器系统的故障现场信息 的收集装置, 其特征在于, 若所述分区节点为分区主节点, 且所述需要收集 的故障现场信息类型包括用户操作日志、 SEL日志、 系统环境温度、 风扇速 率、 电源功率, 则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型, 收集相应的 故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块, 以触发所述 日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和 SEL日志;
以及, 所述信息收集模块用于发送信息收集请求给所述环境监测模块, 以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的 系统环境温度、 风扇速率以及电源功率。
PCT/CN2014/072262 2013-06-24 2014-02-19 一种多节点服务器系统的故障现场信息的收集方法及装置 WO2014206099A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310252895.3 2013-06-24
CN2013102528953A CN103368771A (zh) 2013-06-24 2013-06-24 一种多节点服务器系统的故障现场信息的收集方法及装置

Publications (1)

Publication Number Publication Date
WO2014206099A1 true WO2014206099A1 (zh) 2014-12-31

Family

ID=49369360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/072262 WO2014206099A1 (zh) 2013-06-24 2014-02-19 一种多节点服务器系统的故障现场信息的收集方法及装置

Country Status (2)

Country Link
CN (1) CN103368771A (zh)
WO (1) WO2014206099A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置
CN105245600B (zh) * 2015-10-15 2019-10-22 珠海格力电器股份有限公司 一种空调系统的机组数据上传方法和系统
CN105306272B (zh) * 2015-11-10 2019-01-25 中国建设银行股份有限公司 信息系统故障场景信息收集方法及系统
CN106100879A (zh) * 2016-06-07 2016-11-09 青岛海信移动通信技术股份有限公司 移动终端日志获取方法及装置
CN108289034B (zh) * 2017-06-21 2019-04-09 新华三大数据技术有限公司 一种故障发现方法和装置
CN109062758A (zh) * 2018-07-19 2018-12-21 郑州云海信息技术有限公司 一种服务器系统宕机处理方法、系统、介质及设备
US11269717B2 (en) * 2019-09-24 2022-03-08 Sap Se Issue-resolution automation
CN111931011B (zh) * 2020-07-04 2023-12-08 华电联合(北京)电力工程有限公司 一种事故信息收集方法、收集装置、收集系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115168A (ja) * 1998-09-30 2000-04-21 Toshiba Corp ネットワークに適用する障害管理システム及びネットワーク管理システム
CN101227324A (zh) * 2008-01-10 2008-07-23 华为技术有限公司 通信设备的故障信息收集方法以及通信设备和系统
CN102855369A (zh) * 2011-06-30 2013-01-02 上海西门子医疗器械有限公司 一种故障信息的收集方法、系统及医疗设备
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571452B (zh) * 2012-02-20 2015-04-08 华为技术有限公司 多节点管理的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115168A (ja) * 1998-09-30 2000-04-21 Toshiba Corp ネットワークに適用する障害管理システム及びネットワーク管理システム
CN101227324A (zh) * 2008-01-10 2008-07-23 华为技术有限公司 通信设备的故障信息收集方法以及通信设备和系统
CN102855369A (zh) * 2011-06-30 2013-01-02 上海西门子医疗器械有限公司 一种故障信息的收集方法、系统及医疗设备
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器系统的故障现场信息的收集方法及装置

Also Published As

Publication number Publication date
CN103368771A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
WO2014206099A1 (zh) 一种多节点服务器系统的故障现场信息的收集方法及装置
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
US9294338B2 (en) Management computer and method for root cause analysis
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
WO2015196365A1 (zh) 一种故障处理方法、相关装置及计算机
US8189458B2 (en) Monitoring system, monitoring device, monitored device, and monitoring method
WO2015007091A1 (zh) 一种数据记录生成方法及装置
CN112506702A (zh) 数据中心容灾方法、装置、设备及存储介质
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN101820359A (zh) 一种网络设备的故障处理方法和设备
WO2017181430A1 (zh) 分布式系统的数据库复制方法及装置
CN112506969A (zh) 一种bmc地址查询方法、系统、设备及可读存储介质
WO2016095716A1 (zh) 一种故障信息处理方法与相关装置
CN103178977A (zh) 计算机系统及计算机系统的开机管理方法
CN104780062A (zh) 一种快速获取bmc管理网口ip地址的方法
US10754748B2 (en) System and method for constructing extensible event log with javascript object notation (JSON) encoded payload data
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
Narayanan et al. Towards' integrated'monitoring and management of DataCenters using complex event processing techniques
US8930369B2 (en) Information processing apparatus, message classifying method and non-transitory medium for associating series of transactions
CN110597681A (zh) 服务器硬件监控系统
CN109885505A (zh) 一种故障定位的方法、系统及相关组件
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
CN105095248A (zh) 一种数据库集群系统及其恢复方法、管理节点
US11991063B2 (en) Anomaly detection device, anomaly detection method, and program
CN112035446B (zh) 一种数据抽取的方法、装置及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14817391

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14817391

Country of ref document: EP

Kind code of ref document: A1