WO2017072904A1 - 計算機システム、及び、障害検知方法 - Google Patents

計算機システム、及び、障害検知方法 Download PDF

Info

Publication number
WO2017072904A1
WO2017072904A1 PCT/JP2015/080514 JP2015080514W WO2017072904A1 WO 2017072904 A1 WO2017072904 A1 WO 2017072904A1 JP 2015080514 W JP2015080514 W JP 2015080514W WO 2017072904 A1 WO2017072904 A1 WO 2017072904A1
Authority
WO
WIPO (PCT)
Prior art keywords
hot plug
management module
controller
communication interface
slot
Prior art date
Application number
PCT/JP2015/080514
Other languages
English (en)
French (fr)
Inventor
崇志 重森
安啓 柴田
修 荒川
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/080514 priority Critical patent/WO2017072904A1/ja
Publication of WO2017072904A1 publication Critical patent/WO2017072904A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/36Handling requests for interconnection or transfer for access to common bus or bus system

Definitions

  • the present invention generally relates to computer system technology, and more particularly to failure detection technology.
  • PCI expansion blades that support the hot plug function of PCI expansion blades.
  • Such a server blade has a structure in which Peripheral Component Interconnect (PCI) expansion blades can be individually attached and detached.
  • PCI expansion blade can be detached from the server blade corresponding to the hot plug function while the server blade is operating (without being stopped) (Patent Document 1). Thereby, high reliability and high availability of the server are realized.
  • PCI Peripheral Component Interconnect
  • a computer system having a server blade chassis on which a plurality of server blades are mounted, and a Service Processor (SVP) board that manages these server blades.
  • the administrator of the computer system can know from the output of the SVP board that a failure has occurred in the server blade.
  • SVP Service Processor
  • an object of the present invention is to provide a computer system that makes it easy to cope with a failure.
  • a computer system includes a plurality of server modules and a management module that manages the plurality of server modules.
  • Each of the plurality of server modules includes a hot plug controller that controls a hot plug event related to each slot of the server module, and a monitoring controller that monitors a state related to the server module.
  • the management module and the monitoring controller of each server module are connected via a second communication interface.
  • the monitoring controller detects through the first communication interface that the hot plug controller has detected a hot plug event.
  • the management module detects through the second communication interface that the monitoring controller of each server module has detected a hot plug event.
  • information may be described using the expression “aaa table”, but the information may be expressed in any data structure. That is, in order to show that the information does not depend on the data structure, the “aaa table” can be called “aaa information”.
  • the process may be described with “program” as the subject, but the program is executed by a processor (for example, Central Processing Unit (CPU)), so that a predetermined process can be appropriately performed. Since the processing is performed using at least one of a storage resource (for example, a memory) and a communication interface device, the subject of processing may be a processor and an apparatus having the processor. Part or all of the processing performed by the processor may be performed by a hardware circuit.
  • the computer program may be installed from a program source.
  • the program source may be a program distribution server or a storage medium (for example, a portable storage medium).
  • a set of one or more computers that manage at least one device included in the computer system 1 may be referred to as a “management system”.
  • the management computer may be a management system.
  • the management system may be a combination of the management computer and the display computer.
  • multiple computers may perform processing equivalent to that of the management computer. In this case, these multiple computers (for display when the display computer performs display) A computer may also be included).
  • the management computer is a management system.
  • the management computer displaying information may mean displaying information on a display device of the management computer, or displaying information on a display computer (eg client) connected to the management computer (eg server). Information may be transmitted. In the latter case, information represented by the display information is displayed by the display computer on a display device included in the display computer.
  • FIG. 1 is a diagram illustrating an example of a configuration of a computer system 1 according to the present embodiment.
  • the computer system 1 includes a server blade chassis 6, a backplane 4, a PCI expansion blade 12, and an output unit 28.
  • the PCI expansion blade 12 is an example of an I / O board module.
  • the server blade chassis 6 includes a plurality of server blades 8 and one or more management modules 26.
  • the management module 26 manages and monitors a plurality of server blades 8 mounted on the server blade chassis 6.
  • An example of the management module 26 is an SVP board.
  • the server blade 8 includes a CPU 20, a general-purpose register 22, a field programmable gate array (FPGA) 23, a baseboard management controller (BMC) 24, and a mezzanine pass-through card 16.
  • the BMC 24 is an example of a monitoring controller.
  • the mezzanine pass-through card 16 is an example of a slot device having a slot (PCIe slot) into which an I / O board module (PCIe expansion blade 12) can be attached and detached.
  • the CPU 20, the general-purpose register 22, the FPGA 23, and the BMC 24 are connected via an internal bus so that bidirectional communication is possible.
  • the hot plug controller 18 and the BMC 24 are connected to each other via an Inter-Integrated Circuit (I2C) interface 41 so that bidirectional communication is possible.
  • I2C Inter-Integrated Circuit
  • the hot plug controller 18 and the root port 31 of the CPU 20 are connected via a PCIe interface 43 so that bidirectional communication is possible.
  • the management module 26 includes a management microcomputer 31 and a memory 30.
  • the management microcomputer 31 and the memory 30 are connected via an internal bus so that bidirectional communication is possible.
  • the management microcomputer 31 and the BMC 24 are connected to each other via an I2C interface 42 in the backplane 4 so that bidirectional communication is possible.
  • the PCI expansion blade 12 can be attached to and detached from the mezzanine pass-through card 16 via the backplane 4.
  • the PCI expansion blade 12 has a PCIe slot to which the PCIe card 14 can be attached and detached.
  • the PCI expansion blade 12 has a hot plug button 10.
  • the mezzanine pass-through card 16 includes a hot plug controller 18 that can control a hot plug event.
  • the PCIe card 14 and the hot plug controller 18 are connected via the PCIe interface 44 so that bidirectional communication is possible.
  • the hot plug button 10 and the hot plug controller 18 are connected via a hot plug control signal line 13.
  • a PCIe path is formed between the CPU 20 and the PCIe card 14 through the PCIe interfaces 43 and 44.
  • the hot plug controller 18 detects pressing of the hot plug button 10 through the hot plug control signal line 13 and starts hot plug control.
  • Hot plug control may be performed by the OS 32 of each server blade 8.
  • the operation parameters of the PCIe card 14 mounted by hot plug control may be set by the firmware of the BMC 24 of each server blade 8 and the OS 32.
  • the OS 32 may execute an Extensible Firmware Interface (EFI) code.
  • EFI Extensible Firmware Interface
  • the management module 26 manages each server blade 8 in the server blade chassis 6.
  • the firmware of the management module 26 may monitor the BMC 24 of each server blade 8 via the I2C interface 42. When the firmware of the BMC 24 detects a hot plug event, the firmware of the BMC 24 may notify the management module 26 of the hot plug event. In this hot plug event notification, the slot number where the hot plug event has occurred, the serial number (S / N) of the PCI expansion blade 12 installed in the slot of the slot number, and the PCI expansion blade 12 installed. S / N of the existing PCIe card may be included.
  • the management module 26 may have a hot plug management table 90 (see FIG. 2) in the memory 30. Then, the management module 26 associates the slot number, the S / N of the PCI expansion blade 12, and the S / N of the PCIe card, which are included in the received hot plug event notification, into the hot plug management table 90. You may register with
  • FIG. 2 is a diagram illustrating an example of the hot plug management table 90.
  • the hot plug management table 90 manages information related to hot plug control.
  • Each record of the hot plug management table 90 may have a slot number 300, a PCI expansion blade S / N 302, and a PCIe card S / N 304 as item values for the hot plug target device.
  • the S / N 302 of the PCI expansion blade and the S / N 304 of the PCIe card may be used to determine the device solid state.
  • the management module 26 Each time the management module 26 receives a hot plug event notification from the BMC 24, the management module 26 associates the slot number, PCI expansion blade S / N, and PCIe card S / N included in the hot plug event notification with each other. 90 may be registered. Alternatively, when the management module 26 receives a hot plug event notification after receiving a failure occurrence notification, the management module 26 may register information included in the notification in the hot plug management table 90.
  • FIG. 3 is a sequence chart showing an example of failure detection and hot plug control according to the present embodiment.
  • Step 100 When the PCI expansion blade 12 to which the PCIe card 14 is mounted is mounted on the mezzanine pass-through card 16, the BMC 24 acquires the configuration information from the PCIe card 14 and the PCI expansion blade 12.
  • the configuration information may include the S / N of the PCI expansion blade 12 and the S / N of the PCIe card 14.
  • Step 102 The BMC 24 transmits the acquired configuration information to the management module 26 via the I2C interface 42.
  • the management module 26 stores the notified configuration information in the hot plug management table 90 on the memory 30.
  • Step 103 it is assumed that the BMC 24 detects that a failure (for example, a correctable failure) has occurred in the PCI path.
  • a failure for example, a correctable failure
  • Step 104 the BMC 24 transmits a failure occurrence notification including the slot number where the failure has been detected to the management module 26 via the I2C interface 42.
  • Step 106 Upon receiving this failure occurrence notification, the management module 26 updates (increments) the number of failures (number of failure occurrences) that occurred in the failure occurrence slot number. The management module 26 may manage the number of failure occurrences of each slot number.
  • Step 108 Based on the failure occurrence notification received in Step 104, the management module 26 determines whether or not the devices (PCI expansion blade 13 and PCIe card 14) installed in the slot of the failure occurrence slot number should be replaced. . This determination may be made on the basis of information on a device installed in this slot, correctable failure history information that occurred in the past, actual hot plug processing history information, and the like. Such information may be stored in the memory 30. Details of this processing will be described later (see FIGS. 4 and 6).
  • Step 110 If there is a slot number in which the number of hot plug processes for the same device exceeds a certain number, the management module 26 determines that the PCI card 14, the PCI expansion blade 12, or the mezzanine pass-through card 16 having a failure slot. Are output to the output unit 28 (Web console). Details of the process for determining which one to replace will be described later (see FIGS. 4 and 6).
  • Step 112 When the replacement of the PCIe card 14 or the PCI expansion blade 12 is instructed in Step 110, the administrator presses the hot plug button 10 and replaces the device instructed for replacement.
  • the hot plug button 10 of the PCI expansion blade 12 is pressed, hot plug processing is started.
  • Step 114 When the hot plug controller 18 detects a hot plug event based on pressing of the hot plug button 10 of the PCI expansion blade 12, the hot plug controller 18 updates the bit of the register for managing the hot plug state from “0” to “1”. .
  • Step 116 The hot plug controller 18 transmits an interrupt signal to the CPU 20 of the server blade 8.
  • Step 118 The CPU 20 notifies the OS 32 of a signal interrupt signal.
  • Step 120 The OS 32 executes the EFI code and starts hot plug control.
  • Step 122 The firmware of the BMC 24 refers to the bit of the register that manages the hot plug state via the I2C interface 41. When the bit of this register is “1”, the BMC 24 detects the occurrence of a hot plug event.
  • Step 124 The BMC 24 notifies the general-purpose register 22 of the hot plug event.
  • Step 1266 The general-purpose register 22 transmits a serial interrupt signal to the OS 32.
  • Step 1228 The OS 32 executes the EFI code and sets parameters necessary for the operation of the PCIe card 14 after replacement.
  • Step 130 The BMC 24 transmits the configuration information of the PCIe card 14 and / or the PCI expansion blade 12 after replacement to the management module 26.
  • FIG. 4 is a flowchart showing an example of processing for determining an exchange device.
  • Step 200 When a correctable failure occurs in the computer system (or server blade), the BMC 24 gives the management module 26 the slot number (referred to as “failure slot number”) included in the failed PCIe path. Notice. The management module 26 updates the number of failure occurrences of the failure slot number. This process corresponds to steps 104 and 106 in FIG. The subsequent processing corresponds to step 108 in FIG.
  • Step 202 The management module 26 refers to the failure occurrence history of each PCIe slot number stored in the memory 30, and whether the total number of failure occurrences of the failure slot number is a predetermined number (for example, 3 times) or more. Determine whether or not. If this determination is affirmative (YES), the process proceeds to step 204, and if negative (NO), this process ends.
  • the management module 26 refers to the hot plug management table 90, and performs hot plug processing for the PCI expansion blades 12 of the same S / N at a faulty PCIe slot number a predetermined number of times (eg, three times) or more in the past. It is determined whether or not it has been executed. If this determination is affirmative (YES), the process proceeds to step 206, and if negative, the process proceeds to step 208.
  • Step 206 If the determination result in Step 204 is affirmative (YES), the management module 26 refers to the hot plug management table 90, and in the failure PCIe slot number, a predetermined number of times (for example, 3 times) or more in the past, It is determined whether hot plug processing has been executed for the PCIe card 14 having the same S / N. If this determination is affirmative (YES), the process proceeds to step 214, and if negative (NO), the process proceeds to step 210.
  • Step 208 If the determination result in Step 204 is negative (NO), the management module 26 refers to the hot plug management table 90, and in the faulty PCIe slot number, a predetermined number (for example, 3 times) or more in the past, It is determined whether hot plug processing has been executed for the PCIe card 14 having the same S / N. If this determination is affirmative (YES), the process proceeds to step 214, and if negative (NO), the process proceeds to step 212.
  • a predetermined number for example, 3 times
  • Step 210) If the determination result in Step 206 is negative (NO), the output unit 28 (Web console) outputs (displays) a replacement instruction for the PCI expansion blade that is the target of hot plugging. When the hot plug operation is actually performed, the process proceeds to step 216 in FIG.
  • Step 212 If the determination result in Step 208 is affirmative (YES), the output unit 28 (Web console) outputs (displays) an instruction to replace the PCIe card that is the target of hot plugging. When the hot plug operation is actually performed, the process proceeds to step 216 in FIG.
  • Step 214 When the determination result of Step 206 is affirmative (YES), or when the determination result of Step 208 is negative (NO), the output unit 28 (Web console) causes PCIe to be hot plugged. An instruction to replace the mezzanine pass-through card 16 related to the slot is output. Then, this process ends.
  • FIG. 5 is a flowchart showing an example of processing related to hot plug. This process corresponds to the process after step 210 or 212 in FIG.
  • Step 216 When the hot plug button 10 of the PCI expansion blade 12 is pressed, the process proceeds to Step 218. This process corresponds to step 112 in FIG.
  • Step 2128 The OS 32 starts hot plug control. This process corresponds to step 120 in FIG.
  • Step 220 The firmware of the BMC 24 detects a hot plug event from the hot plug controller 18 on the mezzanine pass-through card 16 via the I2C interface 41. This process corresponds to step 122 in FIG.
  • Step 222 The BMC 24 notifies the management module 26 of information related to the new device after the replacement by the hot plug operation.
  • Step 224 The management module 26 adds information related to the new device acquired in Step 222 to the hot plug management table 90 in the memory 30. Then, this process is terminated, and the process returns to the first process in FIG.
  • the administrator can easily identify the device causing the failure by following the device replacement instruction from the computer system 1. That is, the administrator can easily recover from a failure that has occurred in the computer system 1.
  • FIG. 6 is a flowchart showing a modification of the process for determining an exchange device. This process is a modification of FIG.
  • Step 402 The management module 26 determines whether or not a failure occurrence notification has been received from the BMC 24.
  • the failure occurrence notification includes a PCIe slot number (failure occurrence slot number) related to the failed PCIe path.
  • the management module 26 proceeds to step 404 if the determination result is affirmative (YES), and ends this process if the determination result is negative (NO). This is because the failure has been recovered by replacing the device.
  • Step 404 The management module 26 S / N of the PCIe expansion blade installed in the slot of the failure occurrence slot number included in the failure occurrence notification and S of the PCIe card installed in the PCIe expansion blade / N is specified.
  • the management module 26 can identify these from the hot plug management table 90 by referring to the latest record including the failure slot number. Then, the process proceeds to Step 406.
  • Step 406 The management module 26 determines whether or not the PCIe card specified in Step 404 has been exchanged after the failure has occurred. For example, the management module 26 matches the failure slot number and the S / N of the PCIe card identified in step 404 in a record (referred to as “past record”) excluding the latest record in the hot plug management table 90. It is determined whether one record or a predetermined number or more exist. The management module 26 proceeds to Step 410 if the determination result is affirmative (YES), and proceeds to Step 408 if the determination result is negative (NO).
  • Step 408 When the determination result in Step 406 is negative (NO), the management module 26 outputs the replacement instruction for the PCIe card 14 specified in Step 404 to the output unit 28. That is, by exchanging the PCIe card 14 for another one, an attempt is made to recover from the failure. Then, the process proceeds to step 422.
  • Step 410 If the determination result in Step 406 is affirmative (YES), the management module 26 determines whether or not the PCI expansion blade 12 specified in Step 404 has been replaced after a failure has occurred. For example, in the past record in the hot plug management table 90, the management module 26 has one or more records in which the failure slot number matches the S / N of the PCI expansion blade specified in step S408. Determine if it exists. The management module 26 proceeds to step 430 if the determination result is affirmative (YES), and proceeds to step 412 if the determination result is negative (NO).
  • Step 412 When the determination result in Step 410 is negative (NO), the management module 26 outputs the replacement instruction for the PCI expansion blade 12 specified in Step 404 to the output unit 28. That is, since the failure is not recovered even though the PCIe card 14 is replaced, an attempt is made to determine whether or not the failure is recovered by replacing the PCI expansion blade 12 with another one. Then, the process proceeds to step 422.
  • Step 422 When the administrator replaces the PCIe card 14 or the PCI expansion blade 12 in accordance with the replacement instruction in Step 408 or the replacement instruction in Step 412, a hot plug event notification is generated.
  • the management module 26 receives this hot plug event notification, it proceeds to step 424.
  • the logic module 26 includes the slot number where the hot plug event occurs, the S / N of the PCI expansion blade 14 installed in the slot of the slot number, and the PCI expansion blade included in the hot plug event notification. 14 is registered in the hot plug management table 90 in association with the S / N of the PCIe card 12 mounted on the device 14. Thereby, the identifier (S / N) of the device after replacement is registered in the hot plug management table 90. Then, the process returns to step 402.
  • Step 430 If the determination result in Step 410 is affirmative (YES), the management module 26 outputs an instruction to replace the mezzanine pass-through card 16 related to the failure slot number to the output unit 28. That is, since the failure is not recovered even though both the PCIe card 12 and the PCI expansion blade 14 are replaced, an attempt is made to determine whether the failure is recovered by replacing the mezzanine pass-through card 16 with another one. Then, the process proceeds to Step 432.
  • Step 432 In accordance with the replacement instruction in Step 430, the administrator replaces the mezzanine pass-through card 16 and restarts the server. Then, this process ends.
  • the administrator can easily identify the device causing the failure by following the device replacement instruction from the computer system 1. That is, the administrator can easily recover from a failure that has occurred in the computer system 1.
  • Computer system 4 Backplane 6: Server blade chassis 8: Server blade 12: PCI expansion blade 14: PCIe card 16: Mezzanine pass-through card 24: BMC 26: Management module 41, 42: I2C interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Stored Programmes (AREA)

Abstract

 計算機システムは、サーバモジュールと管理モジュールとを含む。サーバモジュールは、各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、サーバモジュールの状態を監視する監視コントローラとを含む。監視コントローラとホットプラグコントローラとは、第1の通信インタフェースを介して接続されており、管理モジュールと監視コントローラとは、第2の通信インタフェースを介して接続されている。監視コントローラは、ホットプラグコントローラがホットプラグイベントを検知したことを、第1の通信インタフェースを介して検知し、管理モジュールは、監視コントローラがホットプラグイベントを検知したことを、第2の通信インタフェースを介して検知する。

Description

計算機システム、及び、障害検知方法
 本発明は、概して、計算機システムの技術に関し、特に、障害検知の技術に関する。
 PCI拡張ブレードのホットプラグ機能に対応するサーバブレードが知られている。このようなサーバブレードは、Peripheral Component Interconnect(PCI)拡張ブレードを個別に脱着可能な構造を有する。ホットプラグ機能に対応するサーバブレードからは、サーバブレードを稼動させたまま(停止させることなく)、PCI拡張ブレードを脱着することができる(特許文献1)。これにより、サーバの高信頼性及び高可用性が実現される。
特開2004-252591号公報
 複数のサーバブレードを搭載するサーバブレードシャーシと、それらのサーバブレードを管理するService Processor(SVP)ボードと、を有する計算機システムがある。計算機システムの管理者は、SVPボードの出力から、サーバブレードに障害が発生したことを知ることができる。しかし、その計算機システムに未習熟な管理者は、その障害に対してどのように対処すれば良いか、例えばPCI拡張ブレードを交換すべきかどうか、を判断することが難しい。
 そこで本発明の目的は、障害が発生した場合の対処を容易にする計算機システムを提供することにある。
 本発明の一実施例に係る計算機システムは、複数のサーバモジュールと、それら複数のサーバモジュールを管理する管理モジュールとを含む。複数のサーバモジュールはそれぞれ、当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、当該サーバモジュールに係る状態を監視する監視コントローラとを含み、監視コントローラとホットプラグコントローラとは、第1の通信インタフェースを介して接続されている。管理モジュールと各サーバモジュールの監視コントローラとは、第2の通信インタフェースを介して接続されている。監視コントローラは、ホットプラグコントローラがホットプラグイベントを検知したことを、第1の通信インタフェースを介して検知する。管理モジュールは、各サーバモジュールの監視コントローラがホットプラグイベントを検知したことを、第2の通信インタフェースを介して検知する。
 本発明によれば、計算機システムにおいて障害が発生した場合の対処が容易になる。
本実施例に係る計算機システムの構成の一例を示す図。 ホットプラグ管理テーブルの一例を示す図。 本実施例に係る障害検知及びホットプラグ制御の一例を示すシーケンスチャート。 交換デバイス判定処理の一例を示すフローチャート。 ホットプラグ制御に関する処理の一例を示すフローチャート。 交換デバイス判定処理の変形例を示すフローチャート。
 以下、一実施例を説明する。以下の説明では、「aaaテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「aaaテーブル」を「aaa情報」と呼ぶことができる。
 また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ(例えばCentral Processing Unit(CPU))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)及び通信インターフェイスデバイスのうちの少なくとも1つを用いながら行うため、処理の主語が、プロセッサ、そのプロセッサを有する装置とされてもよい。プロセッサが行う処理の一部又は全部が、ハードウェア回路で行われてもよい。コンピュータプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア(例えば可搬型の記憶メディア)であってもよい。
 また、以下の説明では、計算機システム1に含まれる少なくとも1つの装置を管理する1以上の計算機の集合を「管理システム」と呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムでよい。また、管理計算機と表示用計算機の組み合わせも管理システムでよい。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合はそれら複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含んでよい)が管理システムでよい。本実施例では、管理計算機が管理システムである。また、管理計算機が情報を表示するとは、管理計算機が有する表示デバイスに情報を表示することであってもよいし、管理計算機(例えばサーバ)に接続された表示用計算機(例えばクライアント)に表示用情報を送信することであってもよい。後者の場合、表示用計算機が有する表示デバイスに表示用情報が表す情報が表示用計算機によって表示される。
 以下、実施例を、図面を用いて説明する。
 図1は、本実施例に係る計算機システム1の構成の一例を示す図である。
 計算機システム1は、サーバブレードシャーシ6、バックプレーン4、PCI拡張ブレード12、出力部28を含む。PCI拡張ブレード12は、I/Oボードモジュールの例である。サーバブレードシャーシ6は、複数のサーバブレード8、1以上の管理モジュール26を含む。
 管理モジュール26は、サーバブレードシャーシ6に搭載された複数のサーバブレード8を管理及び監視する。管理モジュール26の例は、SVPボードである。
 サーバブレード8は、CPU20、汎用レジスタ22、Field Programmable Gate Array(FPGA)23、Baseboard Management Controller(BMC)24、メザニンパススルーカード16を含む。BMC24は、監視コントローラの例である。メザニンパススルーカード16は、I/Oボードモジュール(PCIe拡張ブレード12)を脱着可能なスロット(PCIeスロット)を有するスロットデバイスの例である。CPU20、汎用レジスタ22、FPGA23、BMC24は、内部バスを介して、双方向通信可能に接続されている。
 ホットプラグコントローラ18とBMC24とは、Inter-Integrated Circuit(I2C)インタフェース41を介して、双方向通信可能に接続されている。ホットプラグコントローラ18とCPU20のルートポート31とは、PCIeインタフェース43を介して、双方向通信可能に接続されている。
 管理モジュール26は、管理用マイコン31、メモリ30を含む。管理用マイコン31とメモリ30とは、内部バスを介して、双方向通信可能に接続されている。管理用マイコン31とBMC24とは、バックプレーン4内のI2Cインタフェース42を介して、双方向通信可能に接続されている。
 PCI拡張ブレード12は、バックプレーン4を介して、メザニンパススルーカード16に着脱可能である。PCI拡張ブレード12は、PCIeカード14を着脱可能なPCIeスロットを有する。PCI拡張ブレード12は、ホットプラグボタン10を有する。
 メザニンパススルーカード16は、ホットプラグイベントを制御可能なホットプラグコントローラ18を含む。
 PCIeカード14を装着したPCI拡張ブレード12がメザニンパススルーカード16に装着された場合、PCIeカード14とホットプラグコントローラ18とは、PCIeインタフェース44を介して、双方向通信可能に接続される。そして、ホットプラグボタン10とホットプラグコントローラ18とは、ホットプラグ制御用信号線13を介して接続される。そして、その場合、CPU20からPCIeインタフェース43及び44を通じてPCIeカード14までの間に、PCIeパスが形成される。ホットプラグコントローラ18は、ホットプラグ制御用信号線13を通じてホットプラグボタン10の押下を検知し、ホットプラグ制御を開始する。
 ホットプラグ制御は、各サーバブレード8のOS32が行ってよい。ホットプラグ制御によって装着されたPCIeカード14の動作パラメータの設定は、各サーバブレード8のBMC24のファームウェアと、OS32とで行ってよい。このときOS32は、Extensible Firmware Interface(EFI)コードを実行してよい。
 管理モジュール26は、サーバブレードシャーシ6内の各サーバブレード8を管理する。管理モジュール26のファームウェアは、I2Cインタフェース42を介して、各サーバブレード8のBMC24を監視してよい。BMC24のファームウェアは、ホットプラグイベントを検知した場合、そのホットプラグイベントを管理モジュール26に通知してよい。このホットプラグイベント通知には、ホットプラグイベントが発生したスロット番号と、そのスロット番号のスロットに装着されたPCI拡張ブレード12のシリアルナンバー(S/N)と、そのPCI拡張ブレード12に装着されているPCIeカードのS/Nと、が含まれてもよい。管理モジュール26は、メモリ30に、ホットプラグ管理テーブル90(図2参照)を有してよい。そして、管理モジュール26は、受領したホットプラグイベント通知に含まれている、スロット番号と、PCI拡張ブレード12のS/Nと、PCIeカードのS/Nとを対応付けて、ホットプラグ管理テーブル90に登録してよい。
 図2は、ホットプラグ管理テーブル90の一例を示す図である。
 ホットプラグ管理テーブル90は、ホットプラグ制御に関する情報を管理する。ホットプラグ管理テーブル90の各レコードは、項目値として、ホットプラグ対象デバイスに関し、スロット番号300、PCI拡張ブレードのS/N302、PCIeカードのS/N304を有してよい。PCI拡張ブレードのS/N302、及び、PCIeカードのS/N304は、デバイスの固体を判別するために使用されてよい。
 管理モジュール26は、BMC24からホットプラグイベント通知を受領するたび、そのホットプラグイベント通知に含まれるスロット番号、PCI拡張ブレードのS/N、PCIeカードのS/Nを対応付けて、ホットプラグ管理テーブル90に登録してよい。または、管理モジュール26は、障害発生通知を受領後にホットプラグイベント通知を受領した場合、その通知に含まれる情報を、ホットプラグ管理テーブル90に登録してもよい。
 図3は、本実施例に係る障害検知及びホットプラグ制御の一例を示すシーケンスチャートである。
 (ステップ100)PCIeカード14が装着されているPCI拡張ブレード12が、メザニンパススルーカード16に装着されると、BMC24は、PCIeカード14及びPCI拡張ブレード12から、これらの構成情報を取得する。構成情報は、PCI拡張ブレード12のS/Nと、PCIeカード14のS/Nとを含んでよい。
 (ステップ102)BMC24は、その取得した構成情報を、I2Cインタフェース42を介して、管理モジュール26に送信する。管理モジュール26は、その通知された構成情報を、メモリ30上のホットプラグ管理テーブル90に格納する。
 (ステップ103)ここで、BMC24は、PCIパスにおいて障害(例えば訂正可能障害)が発生したことを検知したとする。
 (ステップ104)この場合、BMC24は、障害発生を検知したスロット番号を含む障害発生通知を、I2Cインタフェース42を介して、管理モジュール26に送信する。
 (ステップ106)管理モジュール26は、この障害発生通知を受領すると、障害発生スロット番号において発生した障害の回数(障害発生回数)を更新(インクリメント)する。なお、管理モジュール26は、各スロット番号の障害発生回数を管理してよい。
 (ステップ108)管理モジュール26は、ステップ104で受領した障害発生通知に基づき、障害発生スロット番号のスロットに装着されたデバイス(PCI拡張ブレード13及びPCIeカード14)について交換すべきか否かを判定する。この判定は、このスロットに装着されたデバイスの情報、過去に発生した訂正可能障害履歴情報、実際に行われたホットプラグ処理履歴情報などに基づいて行われてよい。これらの情報はメモリ30に格納されてよい。この処理の詳細は後述する(図4、図6参照)。
 (ステップ110)同一デバイスに対するホットプラグ処理回数が一定数を超えているスロット番号が存在する場合、管理モジュール26は、PCIカード14、PCI拡張ブレード12、又は、障害発生スロットを有するメザニンパススルーカード16、の何れを交換すべきかの指示を出力部28(Webコンソール)に出力する。何れを交換すべきかの判定処理の詳細は後述する(図4、図6参照)。
 (ステップ112)ステップ110においてPCIeカード14又はPCI拡張ブレード12の交換を指示された場合、管理者は、ホットプラグボタン10を押下し、その交換指示されたデバイスを交換する。PCI拡張ブレード12のホットプラグボタン10が押下されると、ホットプラグ処理が開始される。
 (ステップ114)ホットプラグコントローラ18は、PCI拡張ブレード12のホットプラグボタン10の押下に基づくホットプラグイベントを検知すると、ホットプラグ状態を管理するレジスタのビットを「0」から「1」へ更新する。
 (ステップ116)ホットプラグコントローラ18は、サーバブレード8のCPU20に対して割り込み信号を送信する。
 (ステップ118)CPU20は、OS32に対して信号割り込み信号を通知する。
 (ステップ120)OS32は、EFIコードを実行し、ホットプラグ制御を開始する。
 (ステップ122)BMC24のファームウェアは、I2Cインタフェース41を介して、ホットプラグ状態を管理するレジスタのビットを参照する。このレジスタのビットが「1」であることをもって、BMC24は、ホットプラグイベントの発生を検知する。
 (ステップ124)BMC24は、汎用レジスタ22に対してホットプラグイベントを通知する。
 (ステップ126)汎用レジスタ22は、OS32に対してシリアル割り込み信号を送信する。
 (ステップ128)OS32は、EFIコードを実行し、交換後のPCIeカード14の動作に必要なパラメータを設定する。
 (ステップ130)BMC24は、交換後のPCIeカード14及び/又はPCI拡張ブレード12の構成情報を、管理モジュール26に送信する。
 図4は、交換デバイスを判定する処理の一例を示すフローチャートである。
 (ステップ200)計算機システム(又はサーバブレード)において訂正可能障害が発生した場合、BMC24は、管理モジュール26に対して、障害発生したPCIeパスに含まれるスロット番号(「障害発生スロット番号」という)を通知する。管理モジュール26は、その障害発生スロット番号の障害発生回数を更新する。この処理は、図3のステップ104、106に相当する。以降の処理は、図3のステップ108に相当する。
 (ステップ202)管理モジュール26は、メモリ30に格納されている各PCIeスロット番号の障害発生履歴を参照し、障害発生スロット番号の障害発生回数の累計が所定回数(例えば3回)以上であるか否かを判定する。この判定が、肯定的(YES)ならばステップ204へ進み、否定的(NO)ならば本処理を終了する。
 (ステップ204)管理モジュール26は、ホットプラグ管理テーブル90を参照し、障害発生PCIeスロット番号において、過去に所定回数(例えば3回)以上、同一S/NのPCI拡張ブレード12についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的(YES)ならばステップ206へ進み、否定的ならばステップ208へ進む。
 (ステップ206)ステップ204の判定結果が肯定的(YES)な場合、管理モジュール26は、ホットプラグ管理テーブル90を参照し、障害発生PCIeスロット番号において、過去に所定回数(例えば3回)以上、同一S/NのPCIeカード14についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的(YES)ならばステップ214へ進み、否定的(NO)ならばステップ210へ進む。
 (ステップ208)ステップ204の判定結果が否定的(NO)な場合、管理モジュール26は、ホットプラグ管理テーブル90を参照し、障害発生PCIeスロット番号において、過去に所定回数(例えば3回)以上、同一S/NのPCIeカード14についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的(YES)ならばステップ214へ進み、否定的(NO)ならばステップ212へ進む。
 (ステップ210)ステップ206の判定結果が否定的(NO)な場合、出力部28(Webコンソール)は、ホットプラグ対象となったPCI拡張ブレードの交換指示を出力(表示)する。実際にホットプラグ操作を行う場合、図5のステップ216へ進む。
 (ステップ212)ステップ208の判定結果が肯定的(YES)な場合、出力部28(Webコンソール)は、ホットプラグ対象となったPCIeカードの交換指示を出力(表示)する。実際にホットプラグ操作を行う場合、図5のステップ216へ進む。
 (ステップ214)ステップ206の判定結果が肯定的(YES)な場合、又は、ステップ208の判定結果が否定的(NO)な場合、出力部28(Webコンソール)は、ホットプラグ対象となったPCIeスロットに関係するメザニンパススルーカード16の交換指示を出力する。そして、本処理を終了する。
 図5は、ホットプラグに関する処理の一例を示すフローチャートである。この処理は、図4のステップ210又は212の後の処理に相当する。
 (ステップ216)PCI拡張ブレード12のホットプラグボタン10が押下されると、ステップ218へ進む。この処理は、図3のステップ112に相当する。
 (ステップ218)OS32は、ホットプラグ制御を開始する。この処理は、図3のステップ120に相当する。
 (ステップ220)BMC24のファームウェアは、I2Cインタフェース41を介して、メザニンパススルーカード16上のホットプラグコントローラ18からホットプラグイベントを検出する。この処理は、図3のステップ122に相当する。
 (ステップ222)BMC24は、管理モジュール26に対して、ホットプラグ操作によって交換された後の新規デバイスに係る情報を通知する。
 (ステップ224)管理モジュール26は、メモリ30内のホットプラグ管理テーブル90に、ステップ222で取得した新規デバイスに係る情報を追加する。そして、本処理を終了し、図4の最初の処理に戻る。
 以上の処理によれば、管理者は、その計算機システム1からのデバイス交換指示に従うことで、障害の原因となっているデバイスを容易に切り分けることができる。つまり、管理者は、計算機システム1に発生した障害を容易に回復させ得ることができる。
 図6は、交換デバイスを判定する処理の変形例を示すフローチャートである。本処理は、図4の変形例である。
 (ステップ402)管理モジュール26は、BMC24から、障害発生通知を受領したか否かを判定する。障害発生通知は、障害発生したPCIeパスに関するPCIeスロット番号(障害発生スロット番号)を含む。管理モジュール26は、当該判定結果が、肯定的(YES)ならばステップ404へ進み、否定的(NO)ならば本処理を終了する。デバイスの交換により、障害が回復したからである。
 (ステップ404)管理モジュール26は、障害発生通知に含まれている障害発生スロット番号のスロットに装着されている、PCIe拡張ブレードのS/NとそのPCIe拡張ブレードに装着されているPCIeカードのS/Nとを特定する。管理モジュール26は、ホットプラグ管理テーブル90から、障害発生スロット番号を含む最新のレコードを参照することにより、これらを特定することができる。そして、ステップ406へ進む。
 (ステップ406)管理モジュール26は、ステップ404で特定したPCIeカードが、障害発生後に交換されたものであるか否かを判定する。例えば、管理モジュール26は、ホットプラグ管理テーブル90内の最新レコードを除くレコード(「過去のレコード」という)内に、障害発生スロット番号とステップ404で特定したPCIeカードのS/Nとが一致するレコードが1つ又は所定数以上存在するか否かを判定する。管理モジュール26は、当該判定結果が、肯定的(YES)ならばステップ410へ進み、否定的(NO)ならばステップ408へ進む。
 (ステップ408)ステップ406の判定結果が否定的(NO)な場合、管理モジュール26は、ステップ404で特定したPCIeカード14の交換指示を、出力部28へ出力する。すなわち、PCIeカード14を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ422へ進む。
 (ステップ410)ステップ406の判定結果が肯定的(YES)な場合、管理モジュール26は、ステップ404で特定したPCI拡張ブレード12が、障害発生後に交換されたものであるか否かを判定する。例えば、管理モジュール26は、ホットプラグ管理テーブル90内の過去のレコード内に、障害発生スロット番号と、ステップS408で特定したPCI拡張ブレードのS/Nとが一致するレコードが1つ又は所定数以上存在するか否かを判定する。管理モジュール26は、当該判定結果が、肯定的(YES)ならばステップ430へ進み、否定的(NO)ならばステップ412へ進む。
 (ステップ412)ステップ410の判定結果が否定的(NO)な場合、管理モジュール26は、ステップ404で特定したPCI拡張ブレード12の交換指示を、出力部28へ出力する。すなわち、PCIeカード14が交換されたにもかかわらず障害が回復しないので、PCI拡張ブレード12を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ422へ進む。
 (ステップ422)管理者が、ステップ408の交換指示又はステップ412の交換指示に従って、PCIeカード14又はPCI拡張ブレード12を交換すると、ホットプラグイベント通知が発生する。管理モジュール26は、このホットプラグイベント通知を受領したら、ステップ424へ進む。
 (ステップ424)論理モジュール26は、ホットプラグイベント通知に含まれる、ホットプラグイベントの発生したスロット番号と、そのスロット番号のスロットに装着されたPCI拡張ブレード14のS/Nと、そのPCI拡張ブレード14に装着されているPCIeカード12のS/Nとを、対応付けてホットプラグ管理テーブル90に登録する。これにより、交換後のデバイスの識別子(S/N)が、ホットプラグ管理テーブル90に登録される。そして、ステップ402へ戻る。
 (ステップ430)ステップ410の判定結果が肯定的(YES)な場合、管理モジュール26は、障害発生スロット番号に関係するメザニンパススルーカード16の交換指示を、出力部28へ出力する。すなわち、PCIeカード12及びPCI拡張ブレード14の両方を交換したにもかかわらず障害が回復しないので、メザニンパススルーカード16を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ432へ進む。
 (ステップ432)管理者は、ステップ430の交換指示に従って、メザニンパススルーカード16を交換し、サーバを再起動する。そして、本処理を終了する。
 以上の処理によれば、管理者は、その計算機システム1からのデバイス交換指示に従うことで、障害の原因となっているデバイスを容易に切り分けることができる。つまり、管理者は、計算機システム1に発生した障害を容易に回復させ得ることができる。
 上述した実施例は、本発明の説明のための例示であり、本発明の範囲をそれらの実施例にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
 1:計算機システム 4:バックプレーン 6:サーバブレードシャーシ 8:サーバブレード 12:PCI拡張ブレード 14:PCIeカード 16:メザニンパススルーカード 24:BMC 26:管理モジュール 41、42:I2Cインタフェース

Claims (6)

  1.  複数のサーバモジュールと、前記複数のサーバモジュールを管理する管理モジュールと、を含む計算機システムであって、
     複数のサーバモジュールはそれぞれ、
      当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、
      当該サーバモジュールに係る状態を監視する監視コントローラと、を含み、
      前記監視コントローラと前記ホットプラグコントローラとは、第1の通信インタフェースを介して接続されており、
     前記管理モジュールと各サーバモジュールの監視コントローラとは、第2の通信インタフェースを介して接続されており、
     前記監視コントローラは、前記ホットプラグコントローラがホットプラグイベントを検知したことを、前記第1の通信インタフェースを介して検知し、
     前記管理モジュールは、各サーバモジュールの監視コントローラがホットプラグイベントを検知したことを、前記第2の通信インタフェースを介して検知する
    計算機システム。
  2.  前記監視コントローラは、
      障害発生の検知されたスロット番号を含む障害発生通知を、前記第2の通信インタフェースを介して、前記管理モジュールへ送信し、
      ホットプラグイベントの検知されたスロット番号を含むホットプラグイベント通知を、前記第2の通信インタフェースを介して、前記管理モジュールへ送信し、
     前記管理モジュールは、
      障害発生通知を受領後にホットプラグイベント通知を受領した場合、そのホットプラグイベント通知に含まれるスロット番号と、そのスロット番号のスロットに装着されたデバイスとを対応付けて、ホットプラグ情報に登録する
    請求項1に記載の計算機システム。
  3.  前記デバイスにはサブデバイスが脱着可能であり、
     前記管理モジュールは、
      障害発生通知を受領した場合、その障害発生通知に含まれるスロット番号のスロットに装着されているデバイス及びサブデバイスを特定し、
      前記ホットプラグ情報に基づいて、その特定したデバイス及びサブデバイスが交換されたものであるか否かを判定し、
       その特定したサブデバイスが未交換なものである場合、その特定したサブデバイスの交換指示を出力し、
       その特定したサブデバイスが交換されたものであり、かつ、その特定したデバイスが未交換なものである場合、その特定したデバイスの交換指示を出力する
    請求項2に記載の計算機システム。
  4.  前記管理モジュールは、
      前記判定結果が、その特定したサブデバイス及びデバイスの何れもが交換されたものである場合、前記障害発生通知に含まれるスロット番号のスロットを含むスロットモジュールの交換指示を出力する
    請求項3に記載の計算機システム。
  5.  前記監視コントローラは、Baseboard Management Controllerであり、
     前記デバイスは、PCI拡張ボードであり、
     前記サブデバイスは、PCI-Expressカードであり、
     前記スロットモジュールは、メザニンパススルーカードであり、
     前記第1の通信インタフェース及び前記第2の通信インタフェースは、Inter-Integrated Circuit Interfaceである
    請求項4に記載の計算機システム。
  6.  計算機システムにおける障害検知方法であって、
     前記計算機システムは、複数のサーバモジュールと、前記複数のサーバモジュールを管理する管理モジュールと、を含み、
     複数のサーバモジュールはそれぞれ、
      当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、
      当該サーバモジュールに係る状態を監視する監視コントローラと、を含み、
      前記監視コントローラと前記ホットプラグコントローラとは、第1の通信インタフェースを介して接続されており、
     前記管理モジュールと各サーバモジュールの監視コントローラとは、第2の通信インタフェースを介して接続されており、
     前記監視コントローラは、前記ホットプラグコントローラがホットプラグイベントを検知したことを前記第1の通信インタフェースを介して検知すると、ホットプラグイベント通知を前記第2の通信インタフェースを介して前記管理モジュールへ送信する
    障害検知方法。
PCT/JP2015/080514 2015-10-29 2015-10-29 計算機システム、及び、障害検知方法 WO2017072904A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/080514 WO2017072904A1 (ja) 2015-10-29 2015-10-29 計算機システム、及び、障害検知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/080514 WO2017072904A1 (ja) 2015-10-29 2015-10-29 計算機システム、及び、障害検知方法

Publications (1)

Publication Number Publication Date
WO2017072904A1 true WO2017072904A1 (ja) 2017-05-04

Family

ID=58630009

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/080514 WO2017072904A1 (ja) 2015-10-29 2015-10-29 計算機システム、及び、障害検知方法

Country Status (1)

Country Link
WO (1) WO2017072904A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021181537A1 (ja) * 2020-03-10 2021-09-16 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN115097905A (zh) * 2022-08-25 2022-09-23 中关村科学城城市大脑股份有限公司 模块可拆卸的终端设备和模块应用安装方法
CN115562219A (zh) * 2022-08-18 2023-01-03 南京康尼电子科技有限公司 一种站台门插片式智诊断动态通讯监控服务器及监控方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094470A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd 情報処理装置のホットプラグ処理方法
JP2011128795A (ja) * 2009-12-16 2011-06-30 Nec Corp 情報処理装置及び情報処理装置の障害復旧方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094470A (ja) * 2005-09-27 2007-04-12 Hitachi Ltd 情報処理装置のホットプラグ処理方法
JP2011128795A (ja) * 2009-12-16 2011-06-30 Nec Corp 情報処理装置及び情報処理装置の障害復旧方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021181537A1 (ja) * 2020-03-10 2021-09-16 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN115562219A (zh) * 2022-08-18 2023-01-03 南京康尼电子科技有限公司 一种站台门插片式智诊断动态通讯监控服务器及监控方法
CN115097905A (zh) * 2022-08-25 2022-09-23 中关村科学城城市大脑股份有限公司 模块可拆卸的终端设备和模块应用安装方法

Similar Documents

Publication Publication Date Title
US9954727B2 (en) Automatic debug information collection
US10127032B2 (en) System and method for unified firmware management
EP2472402B1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
EP3349118B1 (en) Bus hang detection and find out
US20140122931A1 (en) Performing diagnostic tests in a data center
US9021317B2 (en) Reporting and processing computer operation failure alerts
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN104639380A (zh) 服务器监控方法
JPWO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
TW201417536A (zh) 伺服器自動管理方法及系統
JP2015114873A (ja) 情報処理装置および監視方法
TW201502771A (zh) 基於基板管理控制器的主板管理系統及方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
JP2007018034A (ja) 制御装置及び制御方法
JP5909948B2 (ja) 情報処理装置および情報処理装置の試験方法
TW201201013A (en) Method and multiple computer system with a failover support to manage shared resources
TW201710895A (zh) 伺服器機櫃監控方法
TWI494754B (zh) 伺服器監控裝置和其操作方法
TWI473086B (zh) 電腦系統
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15907268

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15907268

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP