WO2015079564A1 - イベントの根本原因の解析を支援する管理システム及び方法 - Google Patents

イベントの根本原因の解析を支援する管理システム及び方法 Download PDF

Info

Publication number
WO2015079564A1
WO2015079564A1 PCT/JP2013/082207 JP2013082207W WO2015079564A1 WO 2015079564 A1 WO2015079564 A1 WO 2015079564A1 JP 2013082207 W JP2013082207 W JP 2013082207W WO 2015079564 A1 WO2015079564 A1 WO 2015079564A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
diagnostic procedure
deployment
diagnosis
program
Prior art date
Application number
PCT/JP2013/082207
Other languages
English (en)
French (fr)
Inventor
香緒里 仲野
名倉 正剛
崇之 永井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2015550292A priority Critical patent/JP6208770B2/ja
Priority to GB1513880.3A priority patent/GB2536317A/en
Priority to DE112013006475.8T priority patent/DE112013006475T5/de
Priority to CN201380070015.9A priority patent/CN104903866B/zh
Priority to US14/765,988 priority patent/US20150378805A1/en
Priority to PCT/JP2013/082207 priority patent/WO2015079564A1/ja
Publication of WO2015079564A1 publication Critical patent/WO2015079564A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0645Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis by additionally acting on or stimulating the network after receiving notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/349Performance evaluation by tracing or monitoring for interfaces, buses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Definitions

  • the present invention generally relates to support for analyzing the root cause of an event that has occurred in a managed component.
  • a cause event is detected from a plurality of faults detected in the system or its signs.
  • various failures in a management target device or a component constituting the management target device are converted into events, and management software accumulates event occurrence information in an event DB (database).
  • the management software also has an analysis engine for analyzing the causal relationship between a plurality of events that have occurred in the management target device. This analysis engine accesses the configuration management DB having the configuration information of the management target device, and between a plurality of components across one or more management target devices on a path on a certain I / O (input / output) path Are recognized as one group called “topology”.
  • the analysis engine analyzes a failure in each topology by applying a meta rule including a predetermined conditional statement and an analysis result to each topology including the component in which the event has occurred.
  • Build deployment rules for The expansion rule includes a conclusion event that can be a root cause and a condition event group that is caused by the conclusion event when it occurs. Specifically, an event described in the THEN part of the rule is a conclusion event that can be the root cause, and an event described in the IF part is a conditional event.
  • the condition event group of the expansion rule matches the detected event group, the analysis engine displays the conclusion event described in the expansion rule as the root cause of a plurality of failures that occurred in the IT system.
  • a failure that occurs in one device may cause a plurality of device failures that have a dependency.
  • the technique disclosed in Patent Document 1 can identify a failure that is a propagation source from a plurality of detected failures.
  • the technology for analyzing the cause of the failure based on the pattern of the event that occurred in the component can narrow down the failure that is the origin of a plurality of failures that occurred in the IT system.
  • the storage device stores configuration management information, a plurality of rules, and a plurality of general-purpose diagnostic procedures.
  • the configuration management information is information related to the configuration of the plurality of managed components.
  • Each of the plurality of rules is a rule indicating an association between one or more condition events corresponding to one or more events and a conclusion event that is a cause when the one or more condition events occur.
  • Each of the plurality of general-purpose diagnosis procedures is a general-purpose diagnosis procedure that is associated with any one of the plurality of rules, is defined using one or a plurality of component types, and does not depend on the managed component.
  • the processor is one or more based on one or more target rules that are one or more rules associated with one or more conditional events related to one or more occurrence events (occurred events) of the plurality of rules. Identify possible causes of.
  • the processor identifies a general-purpose diagnostic procedure associated with the target rule that is the basis of the selected cause candidate among one or more candidate causes among the plurality of general-purpose diagnosis procedures.
  • a processor is a diagnostic procedure to be executed for one or more managed components based on the specified general-purpose diagnostic procedure and configuration management information, and a more specific cause of the selected cause candidate is specified or selected.
  • a deployment diagnostic procedure is generated to update the probability of the possible cause candidates.
  • Example 1 shows a configuration example of an IT system and a management computer according to a first embodiment.
  • the structural example of the apparatus table in configuration management DB is shown.
  • An example of the configuration of an iSCSI disk table in the configuration management DB is shown.
  • the structural example of the network I / F table in configuration management DB is shown.
  • An example of the configuration of a switch port table in the configuration management DB is shown.
  • the structural example of the iSCSI target table in configuration management DB is shown.
  • the structural example of the storage port table in configuration management DB is shown.
  • the structural example of a performance table is shown.
  • the structural example of an event queue table is shown.
  • the example of a structure of a metarule is shown.
  • deployment rule is shown.
  • the structural example of a meta-diagnosis procedure is shown.
  • the structural example of topology conditions is shown.
  • the structural example of a meta collection means is shown.
  • An example of the configuration of the deployment diagnosis procedure is shown.
  • deployment collection means is shown.
  • 6 shows a flowchart of an example of failure cause analysis processing executed by a failure analysis program.
  • An example of an event analysis result screen is shown.
  • deployment program is shown.
  • deployment program is shown.
  • the flowchart of the example of the process performed by a display program is shown.
  • An example of a diagnostic result screen is shown.
  • Example 9 is a flowchart illustrating an example of a failure cause analysis process executed by a failure analysis program in the second embodiment.
  • these quantities are in the form of electrical or magnetic signals that can be stored, transferred, combined, compared, and otherwise manipulated. It has proven convenient at times, to refer to these signals as bits, values, elements, symbols, characters, items, numbers, instructions, or the like because of their common use in principle. It should be noted, however, that all of these and similar items are to be associated with the appropriate physical quantities and are merely convenient labels attached to these physical quantities.
  • An apparatus for performing the operations herein may be specially constructed for the required purposes, or one or more general purpose computers that are selectively activated or reconfigured by one or more computer programs. May be included.
  • Such a computer program can be stored, for example, on a computer readable storage medium such as an optical disk, magnetic disk, read only memory, random access memory, solid state device and drive, or any other medium suitable for storing electronic information. However, it is not limited to these.
  • the processor may be the subject.
  • the processing disclosed with the program as the subject may be processing performed by a computer such as a management computer.
  • part or all of the program may be realized by dedicated hardware.
  • Various programs may be installed in the computer by a program distribution server or a computer-readable storage medium.
  • the management computer has input / output devices.
  • input / output devices include a display, a keyboard, and a pointer device, but other devices may be used.
  • a serial interface or an Ethernet (registered trademark) interface is used as the input / output device, and a display computer having a display, keyboard, or pointer device is connected to the interface, and the display information is transferred to the display computer.
  • the input and display on the input / output device may be substituted by transmitting or receiving input information from the display computer to display on the display computer or accepting input.
  • a set of one or more computers that manage an IT system (information processing system) and display display information may be referred to as a management system.
  • the management computer displays the display information
  • the management computer may be a management system.
  • the management system may be a combination of the management computer and the display computer.
  • multiple computers may perform processing equivalent to that of the management computer.
  • these multiple computers for display when the display computer performs display
  • including computers may be a management system.
  • “Displaying display information” by the management computer may mean displaying the display information on a display device included in the management computer, or the management computer (for example, a server) may be a remote display computer (for example, a client). ) May be transmitted to display information.
  • the server 202 may be described when the server is not particularly distinguished, and may be described as the servers 202a and 202b when the individual server is described separately.
  • a diagnostic procedure for identifying a cause event of a failure that has occurred in the IT system is derived, and a cause event of the failure is identified based on the diagnostic procedure.
  • An apparatus, method, and computer program for performing diagnosis are provided.
  • the management computer 201 is a computer that manages a plurality of devices to be managed.
  • the types of devices to be managed include, for example, computers (for example, servers), network devices (for example, IP (Internet Protocol) switches, routers, or FC (Fibre Channel) switches), and storage devices (for example, NAS (Network Attached Storage)).
  • Examples of logical or physical elements such as devices included in one managed apparatus include ports, processors, storage resources, physical storage devices, programs, virtual machines, logical volumes (logical storage devices), and RAID (Redundant There is at least one of the Arrays of Inexpensive (Independent) Disks) group.
  • each of the managed device and the elements included in the managed device may be collectively referred to as a “managed component”.
  • the managed device can also be called a node device.
  • FIG. 1 shows an outline of the first embodiment.
  • the event analysis program result display screen 111 displays the event analysis result 101.
  • the event analysis result 101 represents a failure that is a propagation source of a failure that has occurred in a plurality of devices as a cause failure candidate.
  • the event analysis result 101 is a result derived by an event analysis program described later.
  • the event analysis result 101 may be derived by a method disclosed in Patent Document 1, for example.
  • the management computer 201 has a meta-diagnosis procedure repository 234 that stores a diagnosis procedure for identifying a cause event of an IT system failure, and a configuration management DB (database) 232 that stores configuration information of managed components.
  • the meta diagnosis procedure stored in the meta diagnosis procedure repository 234 describes a diagnosis procedure to be executed for a certain configuration pattern in the IT system.
  • the configuration information stored in the configuration management DB 232 includes information on each managed component, connection relationship information representing a connection relationship between each managed component, and dependency relationship information representing a dependency relationship between each managed component. .
  • the management computer 201 When one cause failure candidate is selected from one or a plurality of cause failure candidates represented by the event analysis result 101 by the user or the management computer 201, the management computer 201 performs the diagnostic procedure development program 223 to perform more detailed failure cause analysis. Execute.
  • the diagnostic procedure development program 223 acquires a meta diagnostic procedure related to the event analysis result 101 from the meta diagnostic procedure repository 234. Next, based on the configuration pattern defined in the acquired meta-diagnostic procedure and the selected cause failure candidate, the diagnostic procedure deployment program 223 sends configuration information related to the management target component to be diagnosed to the configuration management DB 232. Get from. Then, the diagnostic procedure deployment program 223 generates a deployment diagnostic procedure 124 from the acquired meta diagnostic procedure and the acquired configuration information.
  • the deployment diagnosis procedure 124 includes an information collection step 131 for collecting information necessary for diagnosis, a determination step 132 for making a determination based on the collected information, and a conclusion 133 indicating a failure cause event derived from the determination result. including.
  • the diagnosis execution program 224 executes each step defined in the generated development diagnosis procedure 124, and uses the obtained conclusion as a failure cause event of the IT system.
  • the diagnosis result display screen 113 displays a diagnosis result according to the failure cause event. 141 is displayed.
  • the diagnosis procedure necessary to identify the cause of the propagation source failure is automatically performed By deploying and executing diagnosis, it is possible to quickly identify the cause of the failure.
  • failure recovery measures can be quickly determined based on the identified cause event, and IT system downtime can be shortened. As a result, it is possible to reduce economic damage such as business opportunity loss caused by the stoppage of the IT system.
  • FIG. 2 shows a configuration example of the IT system and the management computer 201 according to the first embodiment.
  • the management computer 201 is a computer that manages the IT system.
  • the IT system includes one or more servers (or other computers) 202a, 202b, and 202c, one or more storage devices 204, and one or more network switches (or other networks such as IP switches). Device) 203.
  • the servers 202a, 202b, 202c, the network switch 203, and the storage device 204 are communicably connected via a network 205 (a network switch 203 according to the example of FIG. 2) such as a LAN (local area network). .
  • a network switch 203 such as a LAN (local area network).
  • the management computer 201 includes a CPU 211, a memory 212, a disk 213, an input device 214, an output device 217, and a network interface device (network I / F) 215, and these devices are connected via a system bus 216. It's okay.
  • the disk 213 is, for example, an HDD (Hard Disk Drive), but another nonvolatile storage device such as an SSD (Solid State Drive) may be employed instead.
  • One determination program 226 may be provided, or may be provided for each determination of the meta-diagnosis procedure.
  • the term “means” in each of “meta collection means” and “deployment collection means” in the present embodiment (and example 2) may be replaced with the words “method”, “definition”, or “command”. .
  • the deployment diagnostic procedure repository 235 and the deployment collection means repository 237 are repositories that are stored in order to reuse information that has been generated once, and the management computer 201 may not have the repository.
  • the performance table 238 is a database that stores performance information of managed components collected from managed devices by the performance acquisition program 229.
  • the performance acquisition program 229 and the performance table 238 are programs and information used to show an example of “diagnosis procedure” described in the present embodiment, and the management computer 201 may not have.
  • the performance table 238 is not included in the management computer 201.
  • the management computer 201 transmits the management table 201 via the network 205.
  • the performance information may be acquired by accessing the target device.
  • Fault analysis program 221, event analysis program 222, diagnostic procedure expansion program 223, diagnostic execution program 224, display program 225, one or more determination programs 226, event reception program 227, configuration acquisition program 228, performance acquisition program 229 are stored in memory 212 and is executed by the CPU 211.
  • the meta rule repository 231, configuration management DB 232, event queue table 233, meta diagnostic procedure repository 234, deployment diagnostic procedure repository 235, meta collection means repository 236, deployment collection means repository 237, and performance table 238 are stored in the disk 213. At least one of these programs or at least one data may be stored in another appropriate storage area that the CPU 211 can refer to.
  • the network I / F 215 acquires component-related information such as configuration information and performance information from managed devices such as the server 202, the network switch 203, and the storage device 204 connected via the network 205.
  • the output device 217 is a device that outputs (typically displays) information from the display program 225.
  • the input device 214 is a device for inputting a user instruction. For example, a keyboard, a pointer device, or the like can be used as the input device 214, and a display, a printer, or the like can be used as the output device 217, but other devices may be used.
  • Each server 202a, 202b, 202c may be a managed device that executes a program such as an application.
  • the server 202a may be a general-purpose computer including a memory 242, a network I / F 243, and a CPU 246 connected thereto.
  • the server 202a may have a nonvolatile storage device such as an HDD in addition to the memory 242.
  • the server 202a includes a monitoring agent (program) 245 that monitors the state of the server 202a and transmits event information representing the event to the management computer 201 via the network 205 when a specific state change (event) is detected. But you can.
  • the monitoring agent 245 may be executed by the CPU 241. Notifying an event may be transmitting event information representing the event.
  • the server 202a may include an iSCSI (Internet Small Computer System Interface) initiator 244.
  • the server 202 a can use the iSCSI disk 251 virtually like a local HDD, which is realized by the storage capacity of the iSCSI initiator 244 and the storage device 204.
  • Other communication and storage protocols may be used instead of or in addition to iSCSI.
  • the configuration of the server 202a has been described, the servers 202b and 202c may have the same configuration as the server 202a.
  • Each storage device 204 may be a management target device for providing a storage capacity (logical volume) for an application operating on the server 202 (or for other purposes).
  • the storage apparatus 204 includes an I / O port 263, a disk 262, and a storage controller (for example, CPU) 261 connected to them. There may be a plurality of I / O ports 263.
  • the disk 262 may be a single HDD or a RAID group composed of a plurality of HDDs, but the nonvolatile storage device in the disk 262 is another storage device such as an SSD. Also good.
  • the storage device 204 may be configured to provide an iSCSI logical volume as a storage capacity to the servers 202a and 202b.
  • the two servers 202a and 202b may be connected to the storage apparatus 204 via the network switch 203, and the storage apparatus 204 may provide the iSCSI logical volume to each server 202a and 202b.
  • the storage apparatus 204 may include a monitoring agent (program) 264 that monitors the state of the storage apparatus 204 and transmits event information to the management computer 201.
  • the monitoring agent 264 may be executed by the storage controller 261.
  • the monitoring agent 245 of the server 202 may be able to monitor the state of the storage apparatus 204.
  • the network switch 203 has ports 271a to 271d that receive data transmitted from the server 202 or the storage apparatus 204 and transmit received data.
  • the network switch 203 also includes a monitoring agent (program) 272 that monitors the state of the network switch 203 and sends event information to the management computer 201 via the network 205 when a specific state change (event) is detected. Good.
  • the monitoring agent 272 may be executed by a CPU (not shown) in the network switch 203.
  • the monitoring agent 245 of the server 202 may monitor the state of the network switch 203.
  • the configuration management DB 232 stores configuration information of managed devices acquired by the configuration acquisition program 228 from a monitoring agent or the like.
  • the configuration information includes information indicating connection relations, dependency relations, and the like between managed components. Examples of configuration information of the server 202, the network switch 203, and the storage device 204 are shown in FIGS. Note that the configuration management DB 232 may not include some of the tables in FIGS. 3 to 9, or may not include some items in at least one table.
  • the data representation format and data structure of each item stored in the configuration management DB 232 may not be the same as the data representation format and data structure of the managed device.
  • the management computer 201 may receive them according to the data structure and expression format of the management target device.
  • information in the table in the configuration management DB 232 may be updated as the configuration of the managed component is changed.
  • a log related to the update may be stored as history information.
  • the past configuration management DB 232 may be restored based on the log.
  • FIG. 3 shows a configuration example of the device table in the configuration management DB 232.
  • the device table 300 has a record for each device to be managed, and each record has three fields, that is, a device ID 301, a device name 302, and a type 303.
  • the ID 301 stores a value that uniquely identifies the management target device.
  • the device name 302 stores a value that allows the administrator to uniquely identify the device.
  • the type 303 stores an identifier indicating the type of device.
  • FIG. 4 shows a configuration example of the iSCSI disk table in the configuration management DB 232.
  • the iSCSI disk table 400 is a table showing the configuration of the iSCSI disk 251 used by the server 202.
  • the iSCSI disk table 400 has a record for each iSCSI disk 251, and each record has seven fields: ID 401, disk drive name 402, device ID 403, iSCSI initiator name 404, connection destination iSCSI target 405, LUN ID 406, and type. 407.
  • the ID 401 stores a value that uniquely identifies the iSCSI disk (managed component) 251.
  • the disk drive name 402 stores a value that allows the server 202 to uniquely identify the iSCSI disk 251.
  • the device ID 403 stores an identifier indicating the server 202 that uses the iSCSI disk 251.
  • the iSCSI initiator name 404 stores the identifier of the network I / F 243 on the server 202 that is used for communication with the storage apparatus 204 in which the actual iSCSI disk 251 exists.
  • the connection destination iSCSI target 405 stores the identifier of the I / O port 263 on the storage apparatus 204 used for communication with the storage apparatus 204 in which the substance of the iSCSI disk 251 exists.
  • the LUN ID 406 stores an identifier of a logical volume (logical volume in the storage apparatus 204) as an entity of the iSCSI disk 251.
  • the type 407 stores an identifier indicating the type of managed component (iSCSI disk).
  • the record on the first line means the following.
  • the iSCSI disk indicated by the disk drive name “D:” on the server identified by the identifier “SvA” is identified by the identifier “DRIVE1”, and the component type is “iScsiDisk”.
  • a logical volume having a LUN ID of 0 is provided from the storage apparatus to the server via a storage port (port of the storage apparatus) indicated by the iSCSI target name of stoC1.
  • FIG. 5 shows a configuration example of the network I / F table in the configuration management DB 232.
  • the network I / F table 500 has a record for each network I / F 243, and each record has five fields, that is, an ID 501, an I / F name 502, a device ID 503, an iSCSI initiator name 504, and a type 505.
  • the ID 501 stores a value that uniquely identifies the network I / F 243 (managed component).
  • the I / F name 502 stores a value that serves as an identifier of the network I / F 243 in the server 202.
  • the device ID 503 stores the identifier of the server 202 having the network I / F 243.
  • the iSCSI initiator name 504 stores the identifier of the network I / F 243 on the server 202 used for communication with the storage apparatus in which the iSCSI disk entity exists.
  • the type 505 stores an identifier indicating the type of managed component.
  • the record on the first line means the following.
  • the network I / F indicated by the I / F name “eth0” exists in the server identified by the identifier “SvA”, is identified by the identifier “SVIF1”, and the component type is “ServerIF”.
  • the iSCSI initiator name used as an identifier during communication of the storage apparatus is “com.hitachi.sva”.
  • FIG. 6 shows a configuration example of the switch port table in the configuration management DB 232.
  • the switch port table 600 has a record for each I / O port 271 that the network switch 203 has, and each record has five fields, that is, ID 601, port number 602, device ID 603, connection destination port 604, and type 605. .
  • the ID 601 stores a value that uniquely identifies the I / O port 271 (managed component).
  • the port number 602 stores a value that uniquely identifies the I / O port 271 in the network switch 203.
  • the device ID 603 stores the identifier of the network switch 203 having the I / O port 271.
  • the connection destination port 604 stores the identifier of the network I / F 243 of the server 202 connected to the I / O port 271 or the I / O port 263 of the storage apparatus 204.
  • the data output from the network I / F of the plurality of servers or the I / O port of the storage device passes through the port of the network switch, so that the plurality of identifiers are connected ports. 604 may be stored.
  • the type 605 stores an identifier indicating the type of managed component. For example, the record on the first line means the following.
  • the I / O port indicated by the number “0” is in the network switch identified by the identifier “SwD”, identified by the identifier “SWPORT1”, the component type is “NWSswitchPort”, and “STPORT1” Connected to the I / O port identified by.
  • FIG. 7 shows a configuration example of the iSCSI target table in the configuration management DB 232.
  • the iSCSI target table 700 has a record for each iSCSI target, and each record has two fields, that is, an iSCSI target name 701 and a connection permitted iSCSI initiator 702.
  • the iSCSI target name 701 stores the iSCSI target name possessed by each iSCSI target.
  • the connection-permitted iSCSI initiator 702 stores an iSCSI initiator name that serves as an identifier of the network I / F 243 on the server that is permitted to access the logical volume belonging to the iSCSI target.
  • the record on the first line means the following.
  • the network I / F 243 on the server identified by “com.hitachi.sva” and “com.hitachi.svb” is accessed. Is allowed.
  • FIG. 8 shows a configuration example of the storage port table in the configuration management DB 232.
  • the storage port table 800 has a record for each I / O port 263 that the storage apparatus 204 has, and each record has five fields, that is, an ID 801, a port number 802, an apparatus ID 803, an iSCSI target ID 804, and a type 805.
  • the ID 801 stores a value that uniquely identifies the I / O port 263 (managed component).
  • the port number 802 stores a value that uniquely identifies the I / O port 263 in the storage apparatus 204.
  • the device ID 803 stores the identifier of the storage device 204 having the I / O port 263.
  • the iSCSI target 804 stores the identifier of the iSCSI target that uses the I / O port 263.
  • the type 605 stores an identifier indicating the type of managed component.
  • the record on the first line means the following.
  • the I / O port indicated by the number “0” is in the storage device identified by the identifier “StoC”, is identified by the identifier “STPORT1”, the type of the component is “StorageiSCIPort”, and “com. used for the iSCSI target identified by hitachi.stoC1.
  • the performance table 238 stores the performance information of the managed component that constitutes the managed device acquired by the performance acquisition program 229 from the monitoring agent or the like.
  • FIG. 9 shows a configuration example of the performance table 238.
  • the performance table 238 has a record for each piece of performance information, and each record has five fields, that is, a component ID 901, a metric 902, a time 903, a value 904, and a unit 905.
  • the component ID 901 stores a value that uniquely identifies the management target component from which the performance information is acquired.
  • the metric 902 stores a value for identifying an observation item (metric) of the performance of the managed component.
  • the time 903 stores the time when the performance of the managed component is observed. The time is a unit for the year, month, and hour, but it may be a coarser unit or a finer unit.
  • the value 904 stores a value observed as the performance of the management target component.
  • a unit 905 stores a unit for the observed value.
  • the record on the first line means the following.
  • TxDropPacketNum of the management component (here, port 0 of the network switch D) identified by the identifier “SWPORT1”, “0 Packets / "sec” was observed.
  • FIG. 10 shows a configuration example of the event queue table 233.
  • the event queue table 233 stores event information acquired by the event reception program 227 from the monitoring agent of the management target device.
  • the event queue table 233 has a record for each event information, and each record has five fields, that is, an event ID 1001, a device ID 1002, a component ID 1003, an event type 1004, and an occurrence time 1005.
  • the event ID 1001 stores an identifier for uniquely identifying event information.
  • the device ID 1002 stores an identifier for uniquely identifying a management target device from which event information is acquired.
  • the component ID 203 stores an identifier for uniquely identifying the managed component from which the event information is acquired.
  • the event type 1004 stores an identifier indicating the type of event that has occurred in the managed component.
  • the occurrence time 1005 stores the time when the event occurred (the time included in the acquired event information).
  • the occurrence time 1005 may store the time when the management computer 201 receives the event information.
  • the value of the component ID 1003 may be equal to the value of the device ID 1002.
  • the record on the first line means the following. “TxDropPacketNumError (transmission drop packet number error)” occurred at 0:00 on January 1, 2013 at the I / O port 273 whose component ID of the network switch 203 whose device ID is SwD is SWPORT1.
  • the event analysis program 222 executes failure cause analysis.
  • the failure cause analysis may be the same as the analysis described in Patent Document 1, for example. Then, the event analysis program 222 narrows down the faults that are the propagation sources of a plurality of faults that have occurred in the IT system, and then performs a diagnosis to identify the cause of the fault that has become the propagation source.
  • the meta rule is information used by the event analysis program 222 during analysis.
  • a meta-rule is a combination of events that can occur in a pattern of a certain topology (a group of one or more managed components that exist on a certain I / O path) and a failure if those events occur at the same time It is the information which shows the correspondence with a cause candidate.
  • the cause candidate defined in the meta rule indicates a failure that is a propagation source of the system failure.
  • the meta-rule has information for identifying a meta-diagnosis procedure used when executing a detailed diagnosis for a failure cause event indicated by the meta-rule and information on a managed component that is a starting point of a topology to be diagnosed.
  • the meta-rule is described in the IF-THEN format. However, if the cause event of the system failure and the observation event (observed event) caused by the cause event are described, the meta-rule is in other formats. May be.
  • FIG. 11A shows a configuration example of the metarule 1100 that resides in the metarule repository 231.
  • a rule can be divided into two parts (fields), a first part called “IF” part 1111 and a second part called “THEN” part 1112.
  • the IF unit 1111 may include one or more condition elements.
  • the meta-rule 1100 indicates that when an event (conditional event) of the IF unit 1111 is detected, an event (conclusion event) of the THEN unit 1112 is a cause of failure. Therefore, if the status of the management target component represented by the THEN unit 1112 becomes normal, the problem represented by the IF unit 1111 is expected to be solved.
  • the event analysis program 222 analyzes the event represented by the event information stored in the event queue table 233 of FIG. 10 as an observation event. Therefore, the IF unit 1111 has an entry for each condition element, and each entry has a device type 1101, a component type 1102, and an event type 1103. That is, the management target device and its elements are classified into several types in the management computer 201, and the condition element of the IF unit 1111 has a state indicated by the specified event type in the specified type of the management target component. It shows that.
  • the condition element indicates an event related to the apparatus itself instead of the element of the apparatus, the value of the component type 1102 for the condition element may be equal to the apparatus type 1101.
  • the metarule 1100 includes a metarule ID 1113, which is a field for storing a metarule ID for uniquely identifying each metarule, and a metarule when the metarule 1100 is applied to an actual configuration of an IT system to be managed to generate an expansion rule.
  • topology condition 1114 which is a field for storing the condition of the topology to which 1100 is applied.
  • a method of acquiring topology information from the configuration management DB 232 is taken as an example. For example, in the topology condition example shown in FIG.
  • the topology to which the meta-rule is applied is the iSCSI disk, the network I / F of the server used to provide the storage capacity of the iSCSI disk, and the I / F of the storage apparatus. It shows the combination of the O port and the I / O port of the network switch between the two I / O ports.
  • the meta-rule 1100 in order to execute a diagnosis for specifying the cause event in more detail based on the conclusion derived using the meta-rule, includes an identifier of the meta-diagnosis procedure and a topology to be diagnosed. And a field 1115 for storing the condition of the management target component.
  • the metadiagnostic procedure identified from the metadiagnostic procedure ID (metadiagnostic procedure ID described in the field 1115 of the metarule) associated with the metarule is used. Is done. In the example of FIG.
  • a plurality of combinations (combination of meta-diagnostic procedure identifier and starting condition) may be stored.
  • an identifier of one meta diagnostic procedure may be stored in each field 1115 of the plurality of meta rules 1100.
  • the topology to be diagnosed may be different from the topology to which the metarule 1100 is applied. A description on the topology to be diagnosed will be described later.
  • the meta-rule “MetaRule1” in FIG. 11A has two observation events: “Abnormal disk access response time of iSCSI disk 151 on server 202” and “Abnormal number of drop packets transmitted on I / O port 271 in network switch 203”. When detected, it is concluded that “abnormal number of transmission drop packets of the I / O port 271 in the network switch 203” is a bottleneck. Further, when performing analysis using the meta rule “MetaRule 1”, topology information to which the meta rule is applied based on the condition stored in the topology condition 1114 is acquired from the configuration management DB or the like.
  • the diagnosis target topology it is possible to define the diagnosis target topology separately from the managed component in the topology analyzed by the event analysis program 222. It is possible to include the management target components in the periphery of the topology as a diagnosis target.
  • condition element included in the IF unit 1111 it may be defined that a certain component is normal (a failure event has not occurred). Further, the event type represented by the event type 1103 of the THEN unit 1112 may be newly defined, and may not be the event type of the event received by the event receiving program 227.
  • the deployment rule is information indicating a correspondence relationship between a combination of events that can occur in the IT system and an event that is a cause of a failure when those events occur.
  • the cause candidate defined in the expansion rule indicates a failure that is a propagation source of the system failure.
  • the expansion rule is a rule generated as a result of searching the managed IT system for a topology to which the meta rule 1100 can be applied based on the topology condition 1114 of the meta rule 1100 and applying the meta rule 1100 to the searched topology. It is.
  • the expansion rule is information used by the event analysis program 222 during analysis.
  • the expansion rule is described in the IF-THEN format as in the case of the meta rule, but may be in other formats as long as the cause event of the system failure and the observation event caused by the cause event are described.
  • FIG. 11B shows a configuration example of an expansion rule.
  • the expansion rule 1150 can also be divided into two parts (fields), that is, a first part called an IF part 1151 and a second part called a THEN part 1152, similarly to the metarule 1100. it can.
  • the IF unit 1151 may include one or more condition elements.
  • the expansion rule 1150 indicates that when an event (condition event) of the IF unit 1151 is detected, an event (conclusion event) of the THEN unit 1152 causes a failure. Therefore, if the status of the managed component represented by the THEN unit 1152 becomes normal, it is expected that the problem represented by the IF unit 1151 will be solved.
  • the IF unit 1151 of the expansion rule 1150 has an entry for each condition element, and each entry has fields of a device ID 1161, a component ID 1162, an event type 1163, and a reception flag 1164. That is, the condition element of the IF unit 1151 indicates that the state indicated by the information of the event type 1163 occurs in the management target component specified by the device ID 1161 and the component ID 1162.
  • the reception flag 1164 stores the result of whether or not the event indicated by the condition element is actually received.
  • the values stored in the device ID 1161 and the component ID 1162 are the device type 1101 among the device IDs and component IDs specified from the configuration management DB 232 based on the topology condition 1114 of the metarule 1100. And a value corresponding to the type defined in the component type 1102.
  • the expansion rule 1150 includes an expansion rule ID 1153 that is a field for storing an expansion rule ID that uniquely identifies the expansion rule 1150. Further, the expansion rule 1150 executes a diagnosis for specifying the cause event in more detail based on the conclusion derived using the expansion rule 1150. Therefore, the identifier of the meta diagnosis procedure, the origin of the topology to be diagnosed And a field 1155 for storing the identifier of the managed component. Among the values stored in the field 1155, the meta diagnosis procedure ID is equal to the value stored in the field 1115 of the meta rule 1100 used when generating the expansion rule 1150.
  • the device ID and component ID stored as the starting point are the meta rule 1100 among the device ID and component ID specified from the configuration management DB 232 based on the topology condition 1114 of the meta rule 1100. ID corresponding to the “starting point condition” stored in the field 1115.
  • FIG. 11B shows expanded rules 1150a to 1150d generated by expanding the meta-rule 1100 of FIG. 11A based on the configuration management DB 232 shown in FIGS.
  • the meta diagnosis procedure identified by “MetaDiagnosticProc1” is used, and “the device ID is identified by SwD and the component ID is identified by SWPORT1”. Diagnosis is performed on the topology starting from the managed component. Note that, as a condition element included in the IF unit 1151, it may be defined that a certain component is normal (
  • the meta-diagnosis procedure is a series of diagnosis procedures executed to identify the failure cause event after narrowing down the failure that becomes the propagation source of the failure of the IT system by the event analysis program 222.
  • the meta-diagnosis procedure includes a step of collecting information necessary for diagnosis, a step of making a determination based on the collected information, and a conclusion derived based on one or a plurality of determination results.
  • the specific managed component that is the target of executing the meta-diagnosis procedure is not defined, and the topology pattern and configuration pattern that are the target of executing the procedure are defined.
  • FIG. 12 shows a configuration example of the meta diagnosis procedure 1200 resident in the meta diagnosis procedure repository 234.
  • the meta diagnosis procedure 1200 stores a basic object 1201 for storing information related to the meta diagnosis procedure 1200, an information collection object 1202 for storing means for collecting information necessary for diagnosis, and a means for determining based on the collected information. And a conclusion object 1204 that stores conclusion information derived based on one or a plurality of determination results.
  • the meta-diagnosis procedure 1200 is an object structure, but is composed of a combination of information of means for collecting information, information of a determination step, and information of a conclusion derived based on the determination result. Other data structures may be used as long as they are.
  • a plurality of objects 1201 to 1204 other than the object 1201 can exist.
  • the meta diagnosis procedure 1200 illustrated in FIG. 12 includes a basic object 1201, two information collection objects 1202a and 1202b, two determination objects 1203a and 1203b, and three conclusion objects 1204a, 1204b, and 1204c. Yes.
  • the basic object 1201 has five fields, that is, a type 1211, an ID 1212, a meta diagnosis procedure ID 1213, a topology condition ID 1214, and a Next ID 1215.
  • the type 1211 stores an identifier for identifying the type of object (for example, “Start” indicating basic information).
  • the ID 1212 stores an identifier for uniquely identifying the object.
  • the meta diagnosis procedure ID 1213 stores an identifier for uniquely identifying the meta diagnosis procedure 1200.
  • the topology condition ID 1214 stores an identifier for uniquely identifying a topology condition to which the meta-diagnosis procedure 1200 is applied.
  • NextID 1215 stores the identifier of the object storing the step to be executed first.
  • the information collection object 1202 has four fields, that is, a type 1221, an ID 1222, a means ID 1223, and a NextID 1224.
  • the type 1221 stores an identifier for identifying the type of the object (for example, “CollectInfo” indicating that the information collecting unit is stored).
  • the ID 1222 stores an identifier for uniquely identifying an object, like the ID 1212.
  • the unit ID 1223 stores an identifier for uniquely identifying the meta collection unit. Based on the identifier stored in the means ID 1223, the meta collection means necessary for diagnosis is searched from the meta collection means repository 236.
  • the NextID 1225 stores an identifier of an object that stores a step to be executed next.
  • the information collection object 1202a acquires the meta collection means identified by the identifier “GetInfo1” from the meta collection means repository 236 at the time of diagnosis execution, collects information based on the means, and then has the ID “2”. ”Indicates that the step indicated by the object is executed.
  • the determination object 1203 has five fields, that is, a type 1231, an ID 1232, a determination program ID 1233, an argument 1234, and a Decision Map 1235.
  • the type 1231 stores an identifier for identifying the type of the object (for example, “Decision” indicating that information regarding the determination step is stored).
  • the ID 1232 stores an identifier for uniquely identifying the object.
  • the determination program ID 1233 stores an identifier for uniquely identifying a program that performs determination based on the collected information. Based on the identifier stored in the determination program ID, the determination program 226 resident in the memory 212 is called.
  • the argument 1234 stores identification information of information used when the determination is executed by the determination program 226.
  • the Decision Map 1235 stores a list of combinations of the key 1236 and the NextID 1237.
  • the key 1236 stores a value that can be a return value of the determination program 226, and the NextID 1237 stores an identifier of the object. That is, the Decision Map 1235 stores information for determining the next step to be executed according to the return value of the determination program 226 at the time of diagnosis execution.
  • the determination object 1203a starts the determination program 226 identified by the identifier “determination program 1” at the time of diagnosis execution, and is collected by the object 1202a identified by the identifier “1” as an argument to “determination program 1”.
  • step indicated by the object 1202b identified by the identifier “3” is executed, and the return value is “NO” Indicates that the step indicated by the object 1204a identified by the identifier "4" is executed.
  • determination program 1 is “determining whether the rate of increase in performance information given as an argument is greater than or equal to a predefined value, and if it is greater than that value, “Yes” may be “a program that returns NO if it is less than that value”.
  • the conclusion object 1204 has three fields: type 1241, ID 1242, and confusion 1243.
  • the type 1241 stores an identifier (for example, “End” indicating that information regarding a conclusion is stored) for identifying the type of the object.
  • the ID 1242 stores an identifier for uniquely identifying the object, like the ID 1212.
  • the Conclusion 1243 stores information that is the conclusion of the diagnosis when the diagnosis is executed. For example, information stored in the Conculino 1243 may be displayed on the output device 217. For example, when the conclusion object 1204a is selected as a conclusion based on the determination result of the determination object 1203a when the diagnosis is executed, “insufficient bandwidth of“ network switch port ”” is displayed on the output device 217 as the diagnosis result. However, in “network switch port”, the identification information of the network switch port acquired from the configuration management DB 232 based on the topology condition indicated by the topology condition ID 1214 is displayed.
  • FIG. 13 shows a configuration example of the topology condition to which the meta diagnosis procedure 1200 is applied.
  • the topology condition 1300 has two fields, that is, a topology condition ID 1301 and a condition 1302.
  • the topology condition ID 1301 stores an identifier for uniquely identifying the topology condition.
  • the value stored in the topology condition ID 1301 is equal to the identifier stored in the topology condition ID 1214 of the basic object 1201 in FIG.
  • the condition 1302 stores information regarding the condition of the topology to which the meta diagnosis procedure 1200 is applied.
  • a method for acquiring topology information from the configuration management DB 232 is taken as an example. For example, when topology information is acquired based on the condition 1302 of FIG.
  • the value of the device ID 603 in the switch port table 600 is equal to the device ID of the starting point stored in the field 1155 of the expansion rule, and ( 2) A combination of records in which the value of the ID 501 in the network I / F table 500 is equal to the value of the connection destination port in the record of the switch port table 600 in (1) is acquired.
  • the topology including the starting management target component represented by the condition 1302 and the management target component associated with the starting management target component in the condition 1302 is specified.
  • the topology condition stored in the condition 1302 does not have to be in the format shown in FIG. 13 as long as a method for acquiring topology information is described.
  • FIG. 14 shows an example of the configuration of the meta collection means stored in the meta collection means repository 236.
  • the meta collection unit 1400 has two fields, that is, a unit ID 1401 and a collection unit 1402.
  • the unit ID 1401 stores an identifier for uniquely identifying the meta collection unit 1400.
  • the value stored in the means ID 1401 is equal to the identifier stored in the means ID 1223 of the information collection object 1202 in FIG.
  • the meta collection unit 1402 stores information collection unit necessary for diagnosis.
  • one example of information necessary for diagnosis is performance information of managed components that can be acquired from the performance table 238. Therefore, for example, the meta collection unit 1402a stores a query for acquiring information from the table.
  • which management target component performance information is collected depends on the conclusion derived by the event analysis program 222, and therefore the identifier of the management target component is a variable.
  • the portion enclosed by double quotations is expressed as a variable (this is the same for the meta collection means 1402 b).
  • the expansion diagnosis procedure is a diagnosis procedure that is expanded by the diagnosis procedure expansion program 223 based on the meta diagnosis procedure and the topology information. Similar to the meta-diagnostic procedure, the development diagnostic procedure includes a step of collecting information necessary for diagnosis, a step of making a determination based on the collected information, and a conclusion derived based on the result of one or more determinations. Consists of. In the meta diagnosis procedure, a specific component to be executed is not defined, whereas in the development diagnosis procedure, a component to be executed is defined based on the topology information.
  • FIG. 15 shows a configuration example of the deployment diagnostic procedure 1500 stored in the deployment diagnostic procedure repository 235.
  • the deployment diagnostic procedure repository 235 is a repository that stores a deployment diagnostic procedure once generated for reuse in another diagnosis, and the repository does not necessarily exist in the management computer 201.
  • the reference numeral “124” is attached to the deployment diagnostic procedure.
  • the deployment diagnostic procedure shown in FIG. 15 is different in configuration from the deployment diagnostic procedure in FIG. Uses the reference numeral “1500” which is different from the development diagnostic procedure of FIG.
  • the deployment diagnostic procedure of FIG. 1 and the deployment diagnostic procedure of FIG. 15 may be procedures generated by the same method.
  • the deployment diagnosis procedure 1500 includes a basic object 1501 that stores information related to the deployment diagnosis procedure, an information collection object 1502 that stores a means for collecting information necessary for diagnosis, and a determination that stores a means for determining based on the collected information.
  • the development diagnosis procedure is an object structure, but is composed of a combination of information of means for collecting information, information of a determination step, and information of a conclusion derived based on the determination result. Any other data structure may be used.
  • a plurality of objects 1501 to 1504 other than the object 1501 can exist.
  • the expanded diagnosis procedure 1500 illustrated in FIG. 15 includes a basic object 1501, two information collection objects 1502a and 1502b, two determination objects 1503a and 1503b, and three conclusion objects 1504a, 1504b, and 1504c. Yes.
  • the basic object 1501 has six fields, that is, a type 1511, an ID 1212, a meta diagnosis procedure ID 1513, a development diagnosis procedure ID 1514, a route list 1515, and a Next ID 1516.
  • the type 1511 stores an identifier (for example, “Start” indicating basic information) for identifying the type of the object, similar to the type 1211 of the meta-diagnosis procedure 1200.
  • the ID 1512 stores an identifier for uniquely identifying the object.
  • the meta diagnosis procedure ID 1513 stores the identifier of the meta diagnosis procedure 1200 used when the development diagnosis procedure 1500 is generated.
  • the deployment diagnosis procedure ID 1514 stores an identifier for uniquely identifying the deployment diagnosis procedure 1500.
  • the path list 1515 stores a list of object IDs of the referenced development diagnosis procedure 1500 at the time of diagnosis execution. That is, the route list 1515 may have a data structure that can acquire information collected for diagnosis, a determination result, and a conclusion derived based on the determination result after execution of the diagnosis.
  • NextID 1516 stores the identifier of the object that stores the step to be executed first.
  • the information collection object 1502 has four fields, that is, a type 1521, an ID 1522, a development means ID 1523, and a Next ID 1524.
  • the type 1521 stores an identifier (for example, “CollectInfo” indicating that the information collecting unit is stored) for identifying the type of the object, similarly to the type 1221 of the meta diagnosis procedure 1200.
  • ID 1522 similarly to ID 1512, stores an identifier for uniquely identifying an object.
  • the expansion means ID 1523 stores an identifier for uniquely identifying the expansion collection means. Based on the identifier stored in the expansion means ID 1223, the expansion collection means necessary for diagnosis is searched from the expansion collection means repository 237.
  • the NextID 1525 stores an identifier of an object that stores a step to be executed next.
  • the information collection object 1502a acquires the information collection means identified by the identifier “ExpandedGetInfo1-1” from the expanded collection means repository 237 at the time of diagnosis execution, collects information based on the means, and then collects the ID. This indicates that the step indicated by the object “Proc1-1-2” is executed.
  • the determination object 1503 has five fields, that is, a type 1531, an ID 1532, a determination program ID 1533, an argument 1534, and a Decision Map 1535.
  • the type 1531 stores an identifier for identifying the type of the object (for example, “Decision” indicating that information related to the determination step is stored), similar to the type 1231 of the meta diagnosis procedure 1200.
  • the ID 1532 stores an identifier for uniquely identifying the object.
  • the determination program ID 1533 stores an identifier that uniquely identifies a program that performs determination based on the collected information.
  • the determination program ID 1533 stores a value equal to the determination program ID 1233 of the meta diagnosis procedure 1200.
  • the determination program 226 resident in the memory 212 is called.
  • the argument 1534 stores identification information of information used when the determination program 226 executes determination.
  • the Decision Map 1535 stores a list of combinations of the key 1536 and the NextID 1537 in the same manner as the Decision Map 1235 of the meta diagnosis procedure 1200.
  • the key 1536 stores a value that can be a return value of the determination program 226, and the NextID 1537 stores an identifier of the object. That is, the Decision Map 1535 stores information for determining the next step to be executed in accordance with the return value of the determination program 226 at the time of diagnosis execution.
  • the determination object 1503a activates the determination program 226 identified by the identifier “determination program 1” at the time of diagnosis execution, and is identified by the identifier “Proc1-1-1” as an argument to “determination program 1”.
  • the information collected by the object 1502a is passed, and if the return value of “determination program 1” is “YES”, the step indicated by the object 1502b identified by the identifier “Proc1-1-3” is executed, and the return value “NO” indicates that the step indicated by the object 1504a identified by the identifier “Proc1-1-4” is executed.
  • Conclusion object 1504 has three fields: type 1541, ID 1542, and Confusion 1543.
  • the type 1541 stores an identifier for identifying the type of the object (for example, “Conclusion” indicating that information related to the conclusion is stored), similar to the type 1241 of the meta diagnostic procedure 1200.
  • the ID 1542 stores an identifier for uniquely identifying the object, like the ID 1512.
  • information that is a conclusion of diagnosis at the time of diagnosis execution is stored. For example, information stored in the Confusion 1543 may be displayed on the output device 217.
  • the conclusion object 1504a is selected as a conclusion based on the determination result of the determination object 1503 at the time of diagnosis execution, “insufficient bandwidth of SWPORT1 (port 0 of the network switch D)” is displayed on the output device 217 as the diagnosis result.
  • the development collection means is information collection means developed by the diagnostic procedure development program 223 based on the meta development collection means and the topology information.
  • the meta collection means does not define a specific component that is a target of information collection, and is expressed by a variable in this embodiment.
  • components to be collected are defined based on the topology information.
  • FIG. 16 shows a configuration example of the deployment collection means stored in the deployment collection means repository 237.
  • the development collection means 1600 has two fields, that is, a development means ID 1601 and a development collection means 1602.
  • the expansion means ID 1601 stores an identifier for uniquely identifying the expansion collection means.
  • the value stored in the expansion means ID 1601 is equal to the identifier stored in the expansion means ID 1523 of the information collection object 1502 in FIG.
  • the deployment collection means 1602 stores information collection means necessary for diagnosis.
  • the development collection unit 1602a stores a query for acquiring information from the table.
  • the deployment collection unit 1602 defines information collection targets.
  • FIG. 16 shows an example of expansion collection means 1600a to 1600d generated by expanding the meta collection means 1400 of FIG. 14 based on the topology condition 1300a of FIG.
  • the diagnosis is executed based on the result in order to further specify the failure cause event.
  • FIG. 17 shows a flowchart of an example of failure cause analysis processing executed by the failure analysis program 221.
  • the failure analysis program 221 may be configured to start this process when a failure occurs in the IT system and an event related to the failure is detected by the event reception program 227. Further, this process may be started when an administrator detects the occurrence of a failure in the IT system and is activated by an instruction from the input device 214 by the administrator.
  • the failure analysis program 221 executes the event analysis program 222.
  • the event analysis program 222 executes processing for narrowing down failure cause events based on the pattern of events that have occurred.
  • the event analysis program 222 is based on the event information group stored in the event queue table 233, the metarule stored in the metarule repository 231, and the configuration information stored in the configuration management DB 232. Narrow down fault candidates that are the source of fault propagation. For example, when the event reception program 227 receives the event information group of the event queue table 233 shown in FIG. 10, and the event analysis program 222 performs analysis based on the metarule 1100 shown in FIG. 11A and the tables shown in FIGS.
  • Expansion rules 1150a, 1150b, 1150c, and 1150d are generated. Then, for example, based on the information of each THEN unit 1152 of the expansion rules 1150a and 1150b, the event analysis program 222 reads “abnormal number of transmission drop packets on port 0 (ID is SWPORT1) of the network switch D (ID is SwD1). A conclusion is derived that “the event type identifier is TxDropPacketNumError” is the propagation source of the failure ”.
  • FIG. 18 shows an example of the event analysis result screen 1800.
  • the event analysis result screen 1800 is a screen that presents a conclusion derived by the event analysis program 222 as a cause candidate for a failure that is a propagation source of a plurality of failures that have occurred in the IT system.
  • the event analysis result screen 1800 has an entry for each failure cause candidate as a propagation source, and each entry has a cause failure candidate field 1801 for displaying a failure cause candidate and a certainty for the cause candidate indicated by the field 1801 (confidence level).
  • the certainty factor displayed in the certainty factor field 1802 may be, for example, the event reception rate of the expansion rule 1150 related to the cause candidate 1811.
  • values based on a plurality of event reception rates respectively corresponding to the plurality of expansion rules may be displayed in the confidence field 1802.
  • the event reception rate is calculated based on the total number of condition elements of all the expansion rules related to the cause candidate 1811 and the condition element number where the reception flag 1164 is “1”, and the calculated value is displayed in the certainty factor field 1802. May be displayed.
  • a plurality of cause candidates may be displayed in descending order of confidence based on the conclusion derived by the event analysis program 222.
  • the process proceeds to step S1702 in FIG. 17 to execute the diagnosis procedure expansion program 223 to execute detailed diagnosis of the corresponding cause candidate.
  • the input interface for executing detailed diagnosis by the administrator is not limited to a button, and any input interface that instructs the management computer 201 to execute diagnosis can be employed.
  • the start of the diagnostic procedure development program 223 may be automatically executed for each derived cause candidate after the cause candidate is derived by the event analysis program 222 instead of an instruction from the administrator.
  • the diagnostic procedure expansion program 223 is automatically executed, the diagnostic procedure expansion program 223 is executed only for the cause candidates derived by the event analysis program 222 when the certainty factor is a certain value or more. Also good.
  • the conclusion derived by the event analysis program 222 indicates a failure that is a propagation source of a plurality of failures that occurred in the IT system, and the administrator presses the diagnosis execution button 1803 in response to the failure. Then, the diagnostic procedure expansion program 223 is started to execute a diagnosis that identifies the cause of the failure that has become the propagation source.
  • step S1702 the failure analysis program 221 starts the diagnostic procedure development program 223 with the information on the cause candidate selected in step S1701 as an input.
  • the diagnostic procedure expansion program is stored in the input cause candidate information, that is, the information of the THEN unit 1152 of the expansion rule 1150, the expansion rule 1150, the meta diagnosis procedure 1200, the meta collection means 1400, and the configuration management DB 232.
  • a deployment diagnostic procedure 1500 is generated based on the configuration information.
  • An example of detailed processing of the diagnostic procedure development program 223 is shown in FIG.
  • step S1703 the failure analysis program 221 starts the diagnosis execution program 224 with the deployment diagnosis procedure 1500 as an input.
  • the diagnosis execution program 224 executes diagnosis based on the deployment diagnosis procedure 1500 and identifies a failure cause event of the IT system.
  • An example of detailed processing of the diagnosis execution program 224 is shown in FIG.
  • step S1704 the failure analysis program 221 starts the display program 225 with the development diagnosis procedure 1500 executed in step S1703 as an input.
  • the display program 225 displays information on the cause of the failure derived in step S1703 on the output device 217 based on the input expansion diagnosis procedure 1500 and its route list 1515.
  • the diagnostic procedure expansion program 223 is executed after the event analysis program 222 is executed. However, the diagnostic procedure expansion program 223 may be executed before the event analysis program 222 is executed.
  • the diagnosis procedure expansion program 223 lists all the cause candidates that can be derived by the event analysis program 222 based on the configuration information of the configuration management DB 232 and the meta-rule 1100, and the expansion necessary for diagnosing those cause candidates
  • the diagnostic procedure 1500 and the deployment collection unit 1600 are generated based on the configuration information of the meta diagnosis procedure 1200, the meta collection unit 1400, and the configuration management DB 232, and are stored in the deployment diagnostic procedure repository 235 and the deployment collection unit repository 237. May be.
  • the failure analysis program 221 acquires the expansion diagnosis procedure 1500 for the cause candidate derived by the event analysis program 222 from the expansion diagnosis procedure repository 235, and the acquired expansion diagnosis procedure 1500 is obtained.
  • the diagnosis execution program 224 is activated as an input.
  • the diagnosis execution program 224 collects information necessary for diagnosis and the determination program 226 executes determination. However, after the execution of step S1702, the generated deployment diagnosis procedure 1500 is executed.
  • the display program 225 may pass the display program 225, the display program 225 may display the expansion diagnosis procedure 1500 on the output device 217, and the administrator may perform processing according to the expansion diagnosis procedure 1500.
  • FIG. 19 shows a flowchart of an example of processing executed by the diagnostic procedure development program 223 (step S1702).
  • the diagnostic procedure development program 223 receives the conclusion information derived by the event analysis program 222 as a cause of failure.
  • the conclusion information may be a combination of information stored in the THEN unit 1152 of the expansion rule 1150.
  • the diagnostic procedure development program 223 receives information “abnormal number of transmission drop packets of the port 0 (ID is SWPORT1) of the network switch D (ID is SwD) (event type identifier is TxDropPacketNumError)”.
  • step S1902 the diagnostic procedure expansion program 223 acquires the expansion rule 1150 related to the conclusion information received in step S1901. That is, the diagnostic procedure expansion program 223 acquires the expansion rule 1150 having the received conclusion in the THEN unit 1152.
  • the diagnostic procedure expansion program 223 performs the processing of steps S1904 to S1912 for each of all the expansion rules 1150 acquired in step S1902.
  • target development rule one development rule (hereinafter, “target development rule” in the description of FIG. 19) 1150 is taken as an example.
  • step S1904 the diagnostic procedure development program 223 acquires the meta diagnostic procedure 1200 identified from the meta diagnostic procedure ID stored in the field 1155 of the target development rule 1150 from the meta diagnostic procedure repository 234.
  • the diagnostic procedure development program 223 performs the processing of steps S1906 to S1912 for each of all the meta diagnostic procedures 1200 acquired in step S1904.
  • one meta diagnosis procedure hereinafter, “target meta diagnosis procedure” in the description of FIG. 19
  • target meta diagnosis procedure in the description of FIG. 19
  • step S1906 the diagnostic procedure expansion program 223 determines whether or not the target meta diagnostic procedure 1200 has been expanded with respect to the starting point indicated by the field 1155 of the target expansion rule 1150. If the result of this determination is true (S1906: YES), the process proceeds to step S1907. If the result of this determination is false (S1906: NO), the process proceeds to step S1908.
  • step S1907 the diagnostic procedure expansion program 223 acquires from the expanded diagnostic procedure repository 235 the expanded diagnostic procedure 1500 expanded based on the target meta diagnostic procedure and the starting point indicated by the field 1155 of the target expanded rule 1150.
  • step S1908 the diagnostic procedure expansion program 223 acquires the topology condition 1300 identified from the identifier stored in the topology condition ID 1214 of the basic object 1201 of the target meta diagnostic procedure 1200.
  • the diagnostic procedure expansion program 223 acquires topology information from the configuration management DB 232 based on the information stored in the condition 1302 of the topology condition 1300 acquired in step S1908.
  • the topology represented by the acquired topology information starts from the management target component (device or element thereof) indicated by “starting point” in the field 1155 of the target deployment rule 1150.
  • the target deployment rule 1150 is the deployment rule 1150a of FIG. 11B
  • the starting point is a managed component with the device ID “SwD” and the component ID “SWPORT1”.
  • the topology condition 1300 is the topology condition 1300a of FIG.
  • the diagnostic procedure expansion program 223 refers to the record (the first to fourth lines) in which the device ID 603 of the switch port table 600 is “SwD”.
  • the ID of the referenced record (3 sets of SWPORT1-SWPORT2-SVIF1, SWPORT1-SWPORT3-SVIF2, and SWPORT1-SWPORT4-SVIF3) are acquired as topology information.
  • step S1909 is performed. May be excluded from the topology information acquired in step (b). Whether or not a failure event has occurred in the managed component depends on whether or not a failure event has occurred within a certain period from the time when the event reception program 227 detected the failure event that triggered the analysis. You may judge by. Thereby, the object of diagnosis can be limited to the topology in which the failure has occurred. Further, the deployment diagnosis procedure 1500 may be generated for each topology, or one for all the topologies acquired based on a set of topology conditions and starting points.
  • step S1910 the diagnostic procedure deployment program 223 acquires the meta collection unit 1400 identified from the identifier stored in the unit ID 1223 of the information collection object 1202 of the meta diagnosis procedure 1200 from the meta collection unit repository 236. Then, the diagnostic procedure expansion program 223 generates the expansion collection unit 1600 by expanding the meta collection unit 1400 based on the topology information acquired in step S1909. The ID in the topology information is substituted for the variable in the meta collection unit 1400 to generate the development collection unit 1600 (the development collection unit 1602 is as shown in FIG. 16, for example).
  • step S1911 the diagnostic procedure deployment program 223 generates a deployment diagnostic procedure 1500 based on the meta diagnostic procedure 1200, the topology information acquired in step S1909, and the deployment collection means 1600 generated in step S1910.
  • step S1912 the diagnostic procedure deployment program 223 registers the deployment diagnostic procedure 1500 generated in step S1911 in the deployment diagnostic procedure repository 235.
  • step S1913 the diagnostic procedure deployment program 223 returns the deployment diagnostic procedure 1500 generated or acquired from the deployment diagnostic procedure repository 235 to the calling program.
  • step S1904 when the event reception rate of the target expansion rule 1150 is equal to or less than a predetermined value, the target expansion rule may be excluded from the development of the meta-diagnostic procedure related to the expansion rule and the diagnosis execution.
  • the deployment diagnostic procedure executed by the diagnostic execution program 224 is limited to the deployment diagnostic procedure related to the deployment rule having an event reception rate of a certain value or more, and unnecessary diagnostic execution can be reduced.
  • step S1901 the event analysis program 222 concludes that the information “abnormal number of transmission drop packets of the network switch D (ID is SwD) port 0 (ID is SWPORT1) (the event type identifier is TxDropPacketNumError)” is received.
  • step S1902 the diagnostic procedure expansion program 223 acquires the expansion rules 1150a and 1150b in FIG. 11B. Taking the development rule 1150a as an example, the diagnostic procedure development program 223 acquires the meta diagnostic procedure 1200 of FIG. 12 in step S1904. If it is determined in step S1906 that it has not been expanded, the diagnostic procedure expansion program 223 acquires the topology condition 1300a of FIG. 13 in step S1908.
  • step S1909 the diagnostic procedure expansion program 223 acquires three pieces of topology information (SWPORT1-SWPORT2-SVIF1, SWPORT1-SWPORT3-SVIF2, SWPORT1-SWPORT4-SVIF3). Since “GetInfo1” and “GetInfo2” are respectively stored in the means IDs 1223 of the two information collection objects 1202 of the meta diagnosis procedure 1200, in step S1910, the diagnosis procedure expansion program 223 displays the meta collection means 1400a of FIG. The expansion collection means 1600a is generated based on the topology information, and the expansion collection means 1600b, 1600c and 1600d are generated based on the meta collection means 1400b and the topology information. In step S1911, the diagnostic procedure deployment program 223 generates a deployment diagnostic procedure 1500 shown in FIG.
  • the diagnostic procedure expansion program 223 stores the expansion diagnostic procedure 1500 in the expansion diagnostic procedure repository 235.
  • the diagnostic procedure expansion program 223 stores the generated expansion diagnostic procedure 1500 in the failure analysis program 221. return.
  • FIG. 20 shows a flowchart of an example of processing executed by the diagnostic procedure development program 223 (step S1703).
  • step S2001 the diagnosis execution program 224 receives the deployment diagnosis procedure 1500.
  • the diagnosis execution program 224 repeats the processes in steps S2003 to S2014 for all the deployment diagnosis procedures received in step S2001.
  • one deployment diagnosis procedure hereinafter, “target deployment diagnosis procedure” in the description of FIG. 20
  • target deployment diagnosis procedure in the description of FIG. 20
  • step S2003 the diagnosis execution program 224 refers to the basic object 1501 whose type is “Start” among the objects constituting the target deployment diagnosis procedure 1500.
  • step S2004 the diagnosis execution program 224 adds the ID of the referenced object to the route list 1515 of the basic object 1501.
  • step S2005 the diagnosis execution program 224 refers to the object next to the object being referred to.
  • the diagnosis execution program 224 refers to the object having the ID stored in the NextID 1516 or the NextID 1524. If the determination object 1503 is being referred to, the diagnosis execution program 224 determines the next object based on the Decision Map 1535 in step S2013 described later.
  • step S2006 the diagnosis execution program 224 determines whether or not the object type referred to in step S2005 is “End”. If this determination result is true (S2006: YES), the process proceeds to step S2007. If this determination result is false (S2006: NO), the process proceeds to step S2014.
  • step S2007 the diagnosis execution program 224 determines whether or not the type of the object referred to in step S2005 is “CollectInfo”. If the result of this determination is true (S2007: YES), the process proceeds to step S2008. If the result of this determination is false (S2007: NO), the process proceeds to step S2010.
  • step S2008 the diagnosis execution program 224 acquires from the deployment collection unit repository 237 the deployment collection unit 1600 identified from the identifier stored in the deployment unit ID 1523 of the referenced object.
  • step S2009 the diagnosis execution program 224 acquires information from the repository of the management target device or the management computer 201 based on the deployment collection means acquired in step S2008.
  • step S2010 the diagnosis execution program 224 acquires the information collected in step S2009 based on the information stored in the argument 1534 of the referenced object.
  • step S2011 the diagnosis execution program 224 uses the information acquired in step S2010 as an input, and starts the determination program 226 identified from the identifier stored in the determination program ID 1533 of the referenced object.
  • step S2012 the diagnosis execution program 224 receives the determination result from the determination program 226 executed in step S2011.
  • step S2013 the diagnosis execution program 224 acquires the NextID 1537 stored in the Decision Map 1535 of the referenced object using the determination result received in step S2012 as a key, and determines the object to be referenced next.
  • step S2014 the diagnosis execution program 224 adds the ID of the referenced object to the route list 1515 of the basic object 1501.
  • step S2015 the diagnosis execution program 224 returns the received deployment diagnosis procedure 1500 to the calling program.
  • step S2001 the diagnosis execution program 224 refers to the basic object 1501a in step S2003, and in step S2004, the object ID “Proc1- 1-0 "is added.
  • step S2005 the diagnosis execution program 224 refers to the information collection object 1502 based on the identifier “Proc1-1-1” indicated by the NextID 1516. Since the type of the information collection object 1502a is “CollectInfo”, the process proceeds to step S2008.
  • step S2008 the diagnosis execution program 224 acquires the expansion information unit 1600a of FIG. 16 based on the expansion unit ID “ExpandedGetInfo1-1”.
  • step S2004 the diagnosis execution program 224 collects information from the performance table 238 based on the SQL query described in the deployment collection unit 1602. Then, returning to step S2004, the diagnosis execution program 224 adds the object ID “Proc1-1-1” to the route list 1515.
  • step S2010 the diagnosis execution program 224 acquires the performance information acquired based on the development information means 1600a.
  • step S2011 the diagnosis execution program 224 starts the “determination program 1” with the performance information as an input.
  • step S2012 when the value “NO” is received from “determination program 1”, the diagnosis execution program 224 concludes that the object to be referred to next has the ID “Proc1-1-4” based on the Decision Map 1535.
  • the object 1504a is determined. Again, returning to step S2004, the diagnosis execution program 224 adds the object ID “Proc1-1-3” to the route list 1515, and refers to the conclusion object 1504a in step S2005. Since the conclusion object 1504a has the type “End”, the process proceeds to step S2014, and the diagnosis execution program 224 adds the object ID “Proc1-1-4” to the route list 1515. Then, the diagnosis execution program 224 returns the expansion diagnosis procedure 1500 in which the route list 1515 is updated to the failure analysis program 221 that is the caller.
  • the diagnosis execution program 224 can execute diagnosis in order to identify the cause event of the failure that has occurred in the IT system.
  • the diagnosis execution program 224 displays the collected information on the output device 217 in step S2009, and the determination program 226 executed in step S2011 inputs the determination criteria and the determination result to the output device 217 by the administrator.
  • the determination result displayed on the input interface (eg, button) and received in step S2012 may be a determination result input by the administrator via the input interface.
  • diagnosis execution program 224 fails to acquire information used for determination in step S2010, the determination program 226 returns a plurality of determination results in step S2011, and the diagnosis execution program 224 returns a plurality of determination results.
  • the diagnostic procedure may be continued for each of these, referring to a plurality of conclusion objects 1504, and the display program 225 may display a plurality of cause events based on the plurality of conclusion objects 1504.
  • diagnosis execution program 224 executes the information collection processing based on the information collection object 1502 and the determination of the determination program 226 based on the determination object 1503 in parallel without executing the objects in the development diagnosis procedure. Also good.
  • FIG. 21 shows a flowchart of an example of processing executed by the display program 225 (step S1704).
  • step S2101 the display program 225 receives the deployment diagnosis procedure 1500.
  • step S2102 the display program 225 acquires the conclusion object 1504 finally referred to by the diagnosis execution program 224 based on the received expansion diagnosis procedure 1500 and the list stored in the route list 1515 of the basic object 1501. Display as a diagnostic result.
  • step S2103 the display program 225 displays the used diagnostic procedure based on the received deployment diagnostic procedure.
  • step S2104 the display program 225 displays the executed procedure among the diagnostic procedures used by the diagnostic execution program 224 based on the received path list 1515 of the basic object 1501 of the expanded diagnostic procedure 1500.
  • steps 2101 to S2104 information is sequentially displayed. Instead, the display program 225 writes information to be displayed in the memory 212, and all display objects are written in the memory 212. In addition, a screen including those display objects (for example, the screen of FIG. 22) may be displayed.
  • FIG. 22 shows an example of the diagnosis result screen.
  • the diagnosis result screen 2200 is a screen that displays the diagnosis procedure executed by the diagnosis execution program 224 and the diagnosis result, and is displayed on the output device 217. Specifically, this screen 2200 shows the development diagnosis procedure of FIG. 15 and the result of executing the procedure.
  • the diagnosis result screen 2200 includes a diagnosis result field 2201 for displaying a diagnosis result derived by the diagnosis execution program 224 and a diagnosis procedure field 2202 for displaying information on the expansion diagnosis procedure 1500 used in the diagnosis execution program 224. Good. Further, the diagnosis result screen 2200 may include a diagnosis target topology field 2203 for displaying information on the topology on which the diagnosis has been performed, and a diagnosis target data field 2204 for displaying the information collected and used for the determination when the diagnosis is executed. Good.
  • the information displayed in the diagnosis result field 2201 is an example of information (diagnosis result) displayed by the display program 225 in step S2102.
  • a conclusion object 1504 finally referred to by the diagnosis execution program 224 is acquired based on the received path list 1515 of the expanded diagnosis procedure 1500, and the conclusion object 1504 is displayed as a diagnosis result in the field 2201. Yes.
  • the information displayed in the diagnostic procedure field 2202 is an example of information (diagnostic procedure) displayed by the display program 225 in step S2103.
  • the diagnostic procedure used by the diagnostic execution program 224 is acquired based on the received information on the deployment diagnostic procedure 1500, and the diagnostic procedure is displayed in the field 2202.
  • FIG. 22 as an example of display of the diagnostic procedure, the value indicated by the argument 1534 of the determination object 1503, the determination criterion by the determination program 226 identified from the determination object 1503, and the conclusion information derived from the conclusion object 1504 are displayed.
  • a path 2223 in FIG. 22 is an example of the “executed procedure” displayed by the display program 225 based on the path list 1515 in step S2104. As shown in FIG. 22, a portion (arrow) indicating the flow of “executed procedure” may be highlighted for the diagnosis procedure 2221, or a list of executed procedures may be displayed.
  • the information displayed in the diagnosis target topology field 2203 is information representing the topology that is the target of the deployment diagnosis procedure 1500.
  • the diagnostic procedure development program 223 saves the topology information in the processing of FIG. 19 in a storage area such as the memory 212 of the management computer 201 in association with the development diagnostic procedure 1500, and when the display program 225 is started up, the display program 225 saves the topology information.
  • the information may be displayed in the field 2203.
  • diagnosis target data field 2204 information acquired when the diagnosis execution program 224 refers to the information collection object 1502 of the development diagnosis procedure 1500 is displayed.
  • the diagnosis execution program 224 stores the information acquired in step S2009 in the processing of FIG. 20 in a storage area such as the memory 212 of the management computer 201 in association with the development diagnosis procedure 1500, and when the display program 225 is activated, the display program 225 The stored information may be displayed in the field 2204.
  • information regarding the management target component that is the determination target may be displayed for each determination procedure. For example, in the display example of FIG. 22, when the administrator selects the determination display 2222 that displays the determination criteria of the determination object 1503, the information on the management target component that is determined by the determination program 226 related to the determination object 1503 is highlighted. May be displayed.
  • the administrator selects the determination display 2222a that displays the determination criteria of the determination object 1503a
  • the information indicated by the argument 1534 of the determination object 1503a is “return value of Proc1-1-1”
  • “Port 0 of network switch D” may be highlighted.
  • the diagnosis target topology field 2203 information on the management target component that is an element for determining the determination result may be displayed for each determination procedure. For example, in the display example of FIG. 22, when the administrator selects the determination display 2222 that displays the determination criteria of the determination object 1503 of the deployment diagnosis procedure 1500, the determination is made among the management target components displayed in the diagnosis target topology field 2203. Information on the managed component that has become an element that determines the result may be highlighted.
  • the determination object 1503b related to the determination display 2222b is “an increase rate of the number of transmission drop packets of port 0 of the network switch D and an increase rate of the number of transmission packets of eth0 of the server A, eth0 of the server B, and eth0 of the server C”.
  • the diagnosis execution program 224 refers to the conclusion object 1504c.
  • server B eth0 identifier is SVIF2
  • port 0 of network switch D identifier is SWPORT1
  • Such information may be displayed by saving the information acquired in step S2010 and the determination result in step S2012 in the storage area such as the memory 212 of the management computer 201 when the diagnosis execution program 224 is executed.
  • the “determination program 2” indicated by the determination program ID 1533 is called to make a determination
  • the “determination program 2” is a combination of component IDs having the same rate of increase in performance information. If it is a program to be returned, the return value of “determination program 2” is stored in a storage area such as the memory 212 of the management computer 201, and the display program 225 displays the information of the managed component having those IDs Good.
  • information that is a determination target may be displayed for each determination procedure. For example, in the display example of FIG. 22, when the administrator selects the determination display 2222 that displays the determination criteria of the determination object 1503, the information indicated by the argument 1534 of the determination object 1503 may be highlighted. For example, when the administrator selects the determination display 2222a that displays the determination criterion of the determination object 1503a, the information 2241b indicated by the argument 1534 of the determination object 1503a may be highlighted.
  • diagnosis target data field 2204 information that is an element for determining the determination result may be displayed for each determination procedure.
  • the determination result is displayed among the information displayed in the diagnosis target data field 2204.
  • Information that has become an element to be determined may be highlighted.
  • the determination object 1503b related to the determination display 2222b is “an increase rate of the number of transmission drop packets of port 0 of the network switch D and an increase rate of the number of transmission packets of eth0 of the server A, eth0 of the server B, and eth0 of the server C”.
  • the diagnosis execution program 224 refers to the conclusion object 1504c.
  • “Performance information on the number of dropped packets” may be highlighted. Such information may be displayed by saving the information acquired in step S2010 and the determination result in step S2012 in the storage area such as the memory 212 of the management computer 201 when the diagnosis execution program 224 is executed.
  • a diagnosis result screen may be displayed for each development diagnosis procedure.
  • the diagnosis execution program 224 saves the information collected in step S2009 in a storage area such as the memory 212 of the management computer 201 for a certain period, and collects the same information for the same managed component when another diagnosis is executed. When executing this step, information already stored in a storage area such as the memory 212 may be used. When displaying the collected information on the output device 217, the collected time may be displayed.
  • diagnosis execution program 224 stores the determination result received in step S2012 in a storage area such as the memory 212 of the management computer 201 for a certain period of time, and based on the same information of the same managed component when another diagnosis is executed.
  • the determination program stored in the image may be used without executing the determination program.
  • the determination result is displayed on the output device 217, the determined time may be displayed.
  • a diagnosis related to a cause failure candidate derived by the event analysis program 222 is executed, and information necessary for diagnosis is collected and collected in the diagnosis. It is possible to determine the cause information of the failure based on the conclusion obtained as a result of the determination. Thereby, the administrator can quickly identify the cause event of the failure, and can reduce the downtime due to the failure of the IT system.
  • Example 2 will be described.
  • differences from the first embodiment will be mainly described, and descriptions of equivalent components, programs having equivalent functions, and tables having equivalent items will be omitted or simplified.
  • diagnosis is performed on a failure that is a propagation source of a plurality of failures derived by an event analysis program, and a conclusion obtained by the diagnosis is presented as a cause of the failure that is a propagation source.
  • the method illustrated in the first embodiment is effective for investigating a more detailed cause after specifying the cause within a range that can be understood by the event analysis program.
  • another effective method for using diagnosis is to improve the accuracy of the certainty factor of the cause candidate derived by the event analysis program (for example, to increase the value of the certainty factor).
  • Example 2 describes an example in which diagnosis is performed after a cause candidate is derived by an event analysis program, and the diagnosis result is reflected in the certainty of the cause candidate derived by the event analysis function.
  • FIG. 23 shows a configuration example of the meta-rule 2300 in the second embodiment.
  • the configuration of the metarule 2300 in the second embodiment is substantially the same as the configuration of the metarule 1100 in the first embodiment.
  • the condition element 1121 configuring the IF unit 1111 includes a device type 1101, a component type 1102, and an event type 1103 in order to store the type of event received by the event reception program 227.
  • the meta-rule 2300 according to the second embodiment may include a field 2311 for storing the identifier of the meta-diagnosis procedure 1200 as a conditional element of the IF unit 1111 in order to reflect the diagnosis result.
  • FIG. 24 shows a configuration example of the expansion rule 2400 in the second embodiment.
  • the configuration of the deployment rule 2400 in the second embodiment is substantially the same as the configuration of the deployment rule 1150 in the first embodiment. Similar to the meta-rule, the expansion rule 1150 according to the first embodiment includes the device ID 1161, the component ID 1162, and the event type 1163 in order to store events that can be received by the event reception program 227 for the IF unit 1151. Yes. On the other hand, the expansion rule 2400 in the second embodiment may include a field 2411 for storing an identifier of the expansion diagnosis procedure as a conditional element of the IF unit 1151 in order to reflect the diagnosis result.
  • FIG. 25 shows a configuration example of a deployment diagnosis procedure in the second embodiment.
  • the configuration of the deployment diagnostic procedure 2500 in the second embodiment is substantially the same as the configuration of the deployment diagnostic procedure 1500 in the first embodiment.
  • an instruction to update the reception flag 1164 corresponding to the field 2411 in which the identifier of the expansion diagnosis procedure of the expansion rule 2400 is stored is stored in the Conclusion 1543 of the conclusion object 1504 to reflect the result of the diagnosis. Good.
  • FIG. 26 shows a flowchart of an example of failure cause analysis processing executed by the failure analysis program 221 in the second embodiment.
  • the timing of starting the failure analysis program 221 may be the timing described in the first embodiment.
  • step S1701 the failure analysis program 221 executes the event analysis program 222.
  • the process to be executed is the same as the process in step S1701 described in the first embodiment.
  • step S1702 the failure analysis program 221 starts the diagnostic procedure development program 223 with the information on the cause candidate selected in step S1701 as an input.
  • the processing to be executed is substantially the same as step S1702 described in the first embodiment or the processing of FIG.
  • the diagnostic procedure expansion program 223 generates the expansion diagnosis procedure 2500 in step S1909, and then acquires the expansion rule 2400 acquired in step S1902 and the metarule 2300 that is the base of the expansion rule 2400. If the generated expanded diagnostic procedure 2500 has the same meta diagnostic procedure ID as the identifier of the meta diagnostic procedure stored in the condition element field 2311 of the meta rule 2300, the diagnostic procedure expanded program 223 sets the expanded diagnostic procedure ID to the meta rule. This is stored in the field 2411 of the condition element of the expansion rule 2400 related to 2300.
  • the diagnostic procedure expansion program 223 expands the expansion rule having the ID of the component that is the starting point.
  • the development diagnosis procedure ID may be stored in the field 2411 of the condition element.
  • the diagnosis procedure expansion program 223 displays the expansion diagnosis in the expansion rule field 2411 only when the topology information acquired when generating the expansion diagnosis procedure and the topology information acquired when generating the expansion rule are the same.
  • the procedure ID may be stored.
  • step S1703 the failure analysis program 221 starts the diagnosis execution program 224 with the deployment diagnosis procedure as an input.
  • the executed process is the same as the process in step S1703 described in the first embodiment.
  • step S2601 the failure analysis program 221 receives the expansion diagnosis procedure from the diagnosis execution program 224, and determines the conclusion object 1504 of the expansion diagnosis procedure 2400 referenced by the diagnosis execution program 224 based on the path list 1515 of the expansion diagnosis procedure. refer.
  • step S2602 the failure analysis program 221 searches for a deployment rule having the deployment diagnostic procedure ID of the deployment diagnostic procedure 2400 received from the diagnostic execution program 224 as a condition element. Then, the reception flag 1164 of the condition element 2411 of the expansion rule 2400 is updated according to the instruction stored in the Confusion 1543 of the conclusion object 1504 referred to in step S2601.
  • the failure analysis program 221 includes the ID of the expansion diagnosis procedure 2500 in the condition element.
  • the reception flag 1164 corresponding to the field 2411 of the condition element of the expansion rule 2400 having “ExpandedDiagnosticProc10-1” is updated to “1”.
  • the failure analysis program 221 calculates an event reception rate of each expansion rule.
  • step S2604 the failure analysis program 221 activates the display program 225.
  • the display program 225 updates the certainty factor of the cause candidate selected in step S1701 on the event analysis result screen 1800 based on the event reception rate calculated in step S2603.
  • the second embodiment by performing a related diagnosis on the cause candidate derived by the event analysis program, and updating the certainty factor of the cause candidate based on the result obtained as a result. It is possible to prioritize a more probable failure cause candidate to the administrator. As a result, the administrator can quickly identify the cause of the failure.
  • the present invention is not limited to these embodiments.
  • the meta-diagnostic procedure 1200 instead of or in addition to the meta-diagnostic procedure 1200 including the meta-diagnostic procedure ID and origin of the meta-diagnostic procedure 1200 associated with the meta-rule 1100, the meta-diagnostic procedure 1200 is associated with the meta-diagnostic procedure 1200.
  • the meta rule ID of the existing meta rule 1100 and the starting point may be included.
  • the meta-rule 100 and the meta-diagnosis procedure 1200 can be associated in a many-to-many manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 複数の汎用診断手順が用意される。各汎用診断手順は、複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義された汎用の診断手順である。各ルールは、1以上の条件イベントと結論イベントとの関連付けを示す。管理システムが、1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上の対象ルールを基に、1以上の原因候補を特定し、1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定する。管理システムは、特定された汎用診断手順と、複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり選択された原因候補のより具体的な原因を特定する又は選択された原因候補の確からしさを更新するための展開診断手順を生成する。

Description

イベントの根本原因の解析を支援する管理システム及び方法
 本発明は、概して、管理対象コンポーネントにおいて発生したイベントの根本原因の解析の支援に関する。
 IT(Information Technology)システムを管理する場合、例えば特許文献1に示されるように、システム内で検知した複数の障害もしくはその兆候の中から、原因となるイベントを検出することが行われている。具体的には、特許文献1では、管理対象装置または管理対象装置を構成するコンポーネントにおける各種障害がイベント化されており、管理ソフトウェアが、イベントDB(データベース)に、イベントの発生情報を蓄積する。また、この管理ソフトウェアは、管理対象装置において発生した複数のイベントの因果関係を解析するための解析エンジンを持っている。この解析エンジンは、管理対象装置の構成情報を持つ構成管理DBにアクセスして、あるI/O(入出力)経路上のパス上にある1つまたは複数の管理対象装置に跨る複数のコンポーネント間の関係を「トポロジ」と呼ばれる1つのグループとして認識する。そして、解析エンジンは、イベントが発生すると、イベントが発生したコンポーネントを含む各トポロジに対し、事前に定められた条件文と解析結果とからなるメタルールを適用して、各々のトポロジにおける障害を解析するための展開ルールを構築する。この展開ルールには、根本原因となり得る結論イベントと、結論イベントが発生した場合にそれによって引き起こされる条件イベント群が含まれる。具体的には、ルールのTHEN部に記載されているイベントが根本原因となり得る結論イベントであり、IF部に記載されているイベントが条件イベントである。解析エンジンは、展開ルールの条件イベント群と検知したイベント群が一致していた場合には、展開ルールに記載された結論イベントを、ITシステムで発生した複数の障害の根本原因として表示する。ITシステムでは、1つの装置で発生した障害が依存関係を持つ別の複数の装置の障害を連鎖的に発生させる場合がある。特許文献1に示される技術は、検知した複数の障害の中から伝播元となった障害を特定することができる。
WO2013/046287
 特許文献1に開示された技術を含め、コンポーネントで発生したイベントのパターンに基づいて障害原因を解析する技術は、ITシステムで発生した複数の障害の発端となる障害を絞り込むことができる。しかし、発生したイベントのパターンだけでは、障害復旧方法を決定するのに十分詳細な原因特定までできない場合がある。すなわち、複数の障害の発端となった障害が発生した原因を特定することができない場合がある。
 記憶デバイスが、構成管理情報と、複数のルールと、複数の汎用診断手順とを記憶する。構成管理情報は、前記複数の管理対象コンポーネントの構成に関する情報である。複数のルールの各々は、1以上のイベントに対応した1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示すルールである。複数の汎用診断手順の各々は、複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である。プロセッサが、複数のルールのうちの、1以上の発生イベント(発生したイベント)に関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定する。プロセッサが、複数の汎用診断手順のうちの、1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定する。プロセッサが、特定された汎用診断手順と構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり選択された原因候補のより具体的な原因を特定する又は選択された原因候補の確からしさを更新するための展開診断手順を生成する。
 より詳細に又はより正確に1以上の発生イベントの原因を特定することが期待できる。
実施例1の概略を示す。 実施例1のITシステムおよび管理計算機の構成例を示す。 構成管理DB中の装置テーブルの構成例を示す。 構成管理DB中のiSCSIディスクテーブルの構成例を示す。 構成管理DB中のネットワークI/Fテーブルの構成例を示す。 構成管理DB中のスイッチポートテーブルの構成例を示す。 構成管理DB中のiSCSIターゲットテーブルの構成例を示す。 構成管理DB中のストレージポートテーブルの構成例を示す。 性能テーブルの構成例を示す。 イベントキューテーブルの構成例を示す。 メタルールの構成例を示す。 展開ルールの構成例を示す。 メタ診断手順の構成例を示す。 トポロジ条件の構成例を示す。 メタ収集手段の構成例を示す。 展開診断手順の構成例を示す。 展開収集手段の構成例を示す。 障害解析プログラムにより実行される障害原因解析処理の例のフローチャートを示す。 イベント分析結果画面の一例を示す。 診断手順展開プログラムにより実行される処理の例のフローチャートを示す。 診断手順展開プログラムにより実行される処理の例のフローチャートを示す。 表示プログラムにより実行される処理の例のフローチャートを示す。 診断結果画面の一例を示す。 実施例2におけるメタルールの構成例を示す。 実施例2における展開ルールの構成例を示す。 実施例2における展開診断手順の構成例を示す。 実施例2において障害解析プログラムにより実行される障害原因解析処理の例のフローチャートを示す。
発明を実行するための形態
 以下の説明において、開示の一部をなす添付図面を参照するが、これらは本発明を実行できる例示的な実行形態を示すものであって本発明を限定するものではない。これらの図面において、複数の図を通じて同一の符号は同一の構成要素を示している。更に、詳細な説明は各種の例示的な実行形態を提供するが、以下に記述および図示するように、本発明は本明細書に記述および図示する実行形態に限定されるものではなく、当業者には公知または将来公知となる他の実行形態に拡張できる点に注意されたい。
 また、以下の詳細な説明において、本発明を完全に理解されるよう多くの具体的な詳細事項を開示している。しかし、当業者には明らかなように、本発明を実行するためにこれらの具体的な詳細事項の全てが必要な訳ではない。他の状況において、本発明を無用に分かり難くしないよう、公知の構造、材料、回路、処理およびインタフェースについては詳細に記述せず、および/またはブロック図の形式で示す場合がある。
 さらに、以下の詳細な説明のある部分は、コンピュータ内部の動作のアルゴリズムおよび記号的表現として示す。これらのアルゴリズム的記述および記号表現は、データ処理技術に精通した当業者が自身の発明の本質を他の当業者に最も効果的に伝達すべく用いる手段である。アルゴリズムとは、所望の最終状態または結果に達する一連の定義されたステップである。本発明において、実行されるステップは、有形の結果を実現するための有形の量を物理的に操作することを要求する。
 通常、但し必須ではないが、これらの量は、保存、転送、結合、比較、および他の操作が可能な電気または磁気信号の形式をなす。原理的に共通に利用できるとの理由で、これらの信号をビット、値、要素、記号、文字、項目、数、命令等と称することが往々にして便利であることがわかっている。しかし、これらの全ておよび同様の項目は、適切な物理量に関連付けられるべきものであり、これら物理量に付けられた便宜的なラベルに過ぎないことに留意すべきである。
 特に別途明言しない限り、以下の記述から明らかなように、本明細書の記述を通じて、「処理する」、「計算する」、「算出する」、「判定する」、「表示する」等の用語を用いた説明は、コンピュータシステムまたは当該コンピュータシステムのレジスタおよびメモリ内の物理的(電子的)な量として表現されたデータを操作して、当該コンピュータシステムのメモリまたはレジスタまたは他の情報記憶、伝送または表示装置内の物理量として同様に表現された他のデータに変換する他の情報処理装置の動作および処理を含んでいてよい。
 本明細書における動作を実行する装置は、必要な目的のために特別に構築されてもよいし、または、1つ以上のコンピュータプログラムにより選択的に起動または再設定される1つ以上の汎用計算機を含んでいてもよい。そのようなコンピュータプログラムは、例えば、光ディスク、磁気ディスク、読出し専用メモリ、ランダムアクセスメモリ、固体装置およびドライブ等のコンピュータ可読記憶媒体、または電子情報の保存に適している他の任意の媒体に保存できるが、これらに限定されない。
 本明細書に示すアルゴリズムおよびディスプレイは、いかなる特定のコンピュータまたは他の装置にも本質的には関係していない。各種の汎用システムを、本明細書の教示によるプログラムおよびモジュールと共に用いてもよいが、所望の方法ステップを実行するためのより特化した装置を構築した方が便利なことが分かる場合がある。これら各種のシステムの構造は以下に開示する説明で明らかになる。本発明はまた、いかなる特定のプログラミング言語も前提としては記述していない。以下に記述するように、本発明の教示を実行するために各種のプログラミング言語を用いてもよいことが理解されよう。プログラム言語の命令は、1つ以上の処理装置、例えば中央処理装置(CPU)、プロセッサ、またはコントローラにより実行できる。
 また、以下の説明では「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」、「aaaリポジトリ」等の表現にて情報を説明するが、これら情報はテーブル、リスト、DB、キュー、リポジトリ等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」、「aaaリポジトリ」等について「aaa情報」と呼ぶことができる。
 さらに、要素の説明する際に、「識別子」、「名」、「名前」および「ID」のうちの少なくとも1つの表現が用いられるが、これらについてはお互いに置換が可能であり、また、これらのうちの少なくとも1つに代えてまたは加えて、別種の識別情報が用いられてもよい。
 以下の説明では「プログラム」を主語として処理の説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリおよび通信ポート(通信制御デバイス)を用いながら行うため、その処理の説明ではプロセッサが主語とされてもよい。また、プログラムを主語として開示された処理は管理計算機等の計算機が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。また、各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって計算機にインストールされてもよい。
 なお、管理計算機は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースまたはイーサーネット(登録商標)インタフェースを入出力デバイスとし、そのインタフェースにディスプレイまたはキーボードまたはポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力および表示を代替してもよい。
 以下、ITシステム(情報処理システム)を管理し、表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムでよい。管理計算機と表示用計算機の組み合わせが管理システムでもよい。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合はそれら複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムでよい。管理計算機による「表示用情報を表示する」とは、管理計算機が有する表示デバイスに表示用情報を表示することであってもよいし、管理計算機(例えばサーバ)が遠隔の表示用計算機(例えばクライアント)に表示用情報を送信することであってもよい。
 また、以下の説明では、同種の要素を区別して説明する場合は、その要素の参照符号を使用し、同種の要素を区別しないで説明する場合は、その要素の参照符号のうちの共通の親符号を使用することがある。例えば、サーバを特に区別しないで説明する場合には、サーバ202と記載し、個々のサーバを区別して説明する場合には、サーバ202a、202bのように記載することがある。
 <実施例の概要>
 以下でより詳しく述べるように、実施例1によれば、ITシステムで発生した障害の原因イベントを特定するための診断手順を導出、および、それらの診断手順に基づいて障害の原因イベントを特定する診断を実行する装置、方法、およびコンピュータプログラムが提供される。
 実施例1によれば、管理計算機201は、複数の管理対象装置を管理するコンピュータである。管理対象装置の種別としては例えば、コンピュータ(例えばサーバ)、ネットワーク装置(例えば、IP(Internet Protocol)スイッチ、ルータ、またはFC(Fibre Channel)スイッチ)、および、ストレージ装置(例えばNAS(Network Attached Storage))のうちの少なくとも1つがある。1つの管理対象装置が含むデバイス等の論理的または物理的な要素としては、例えば、ポート、プロセッサ、記憶資源、物理記憶デバイス、プログラム、仮想マシン、論理ボリューム(論理記憶デバイス)、およびRAID(Redundant Arrays of Inexpensive (Independent) Disks)グループのうちの少なくとも1つがある。以下、管理対象装置および管理対象装置が含む要素の各々を「管理対象コンポーネント」と総称する場合がある。また、管理対象装置を、ノード装置と呼ぶこともできる。
 図1は、実施例1の概略を示す。
 イベント分析プログラム結果表示画面111は、イベント分析結果101を表示する。イベント分析結果101は、複数の装置で発生した障害の伝播元となる障害を原因障害候補として表す。イベント分析結果101は、後述のイベント分析プログラムによって導出された結果である。イベント分析結果101は、例えば特許文献1に開示の方法で導出されてよい。
 管理計算機201は、ITシステムの障害の原因イベントを特定する診断手順を格納したメタ診断手順リポジトリ234と、管理対象コンポーネントの構成情報を格納した構成管理DB(データベース)232を有する。メタ診断手順リポジトリ234に格納されたメタ診断手順は、ITシステム内のある構成パターンに対して実行する診断手順が記述されている。構成管理DB232に格納される構成情報は、各管理対象コンポーネントに関する情報と、各管理対象コンポーネント間の接続関係を表す接続関係情報と、各管理対象コンポーネント間の依存関係を表す依存関係情報とを含む。
 イベント分析結果101が表す1または複数の原因障害候補から1つの原因障害候補がユーザまたは管理計算機201により選択された場合、管理計算機201は、さらに詳細な障害原因解析を行うべく診断手順展開プログラム223を実行する。診断手順展開プログラム223は、イベント分析結果101に関連するメタ診断手順をメタ診断手順リポジトリ234から取得する。次に、診断手順展開プログラム223は、取得したメタ診断手順に定義された構成パターンと、選択された原因障害候補とに基づいて、診断を実行すべき管理対象コンポーネントに関わる構成情報を構成管理DB232から取得する。そして、診断手順展開プログラム223は、取得したメタ診断手順と取得した構成情報から展開診断手順124を生成する。展開診断手順124は、診断に必要な情報を収集するための情報収集ステップ131と、収集した情報に基づいて判定を行う判定ステップ132と、判定の結果によって導き出される障害原因イベントを示す結論133とを含む。診断実行プログラム224は、生成された展開診断手順124において定義された各ステップを実行し、得られた結論をITシステムの障害原因イベントとし、診断結果表示画面113に、その障害原因イベントに従う診断結果141を表示する。
 本実施例により、ITシステムで複数の障害が発生した際、イベント分析によって複数障害の伝播元となった障害を絞り込んだ後、伝播元障害の発生原因を特定するのに必要な診断手順を自動で展開し、診断を実行することで、障害の発生原因の特定を迅速に行うことができる。
 その結果、特定した原因イベントに基づいて障害復旧対策を迅速に決定することができ、ITシステムのダウンタイムを短くすることができる。その結果、ITシステムの停止によって発生するビジネス機会損失などの経済的損害を削減することができる。特に、設定不良による障害や性能障害など、イベントのみでは原因特定が困難な障害を解析することができる。例えば、ITシステムで性能障害が発生した場合、イベント分析プログラムによってボトルネックとなっているコンポーネント(例えば装置およびその要素)を特定した後、診断手順展開プログラム223および診断実行プログラム224によって、そのコンポーネントがボトルネックとなった原因を推定することができる。この場合、システム障害のボトルネックを特定するだけでなく、その発生原因を特定することで、障害復旧対策を決定するための根拠となる情報が増える。それにより、1つの障害に対して複数挙がった障害復旧対策の中から、実行する対策を1つに決定することが容易になる。
 以下、実施例1を詳細に説明する。
 <ITシステムおよび管理計算機201の構成>
 図2は、実施例1のITシステムおよび管理計算機201の構成例を示す。
 管理計算機201は、ITシステムを管理する計算機である。ITシステムは、一つ以上のサーバ(または、他の計算機)202a、202b、および202c、一つ以上のストレージ装置204、および、一つ以上のネットワークスイッチ(または、IPスイッチのような他のネットワーク装置)203を有する。サーバ202a、202b、202c、ネットワークスイッチ203、および、ストレージ装置204は、LAN(ローカルエリアネットワーク)のようなネットワーク205(図2の例によればネットワークスイッチ203)を介して通信可能に接続される。
 管理計算機201は、CPU211、メモリ212、ディスク213、入力デバイス214、出力デバイス217、およびネットワークインタフェースデバイス(ネットワークI/F)215を含み、これらのデバイスがシステムバス216を介して接続される汎用計算機でよい。ディスク213は、例えばHDD(Hard Disk Drive)であるが、それに代えて、SSD(Solid State Drive)のような他の不揮発性記憶デバイスが採用されてもよい。管理計算機201の論理モジュールとして、例えば、障害解析プログラム221、イベント分析プログラム222、診断手順展開プログラム223、診断実行プログラム224、表示プログラム225、一つ以上の判定プログラム226、イベント受信プログラム227、構成取得プログラム228、および性能取得プログラム229がある。判定プログラム226は、1つであってもよいし、メタ診断手順の判定毎に設けられてもよい。また、管理計算機201が記憶するデータとして、例えばメタルールリポジトリ231、構成管理DB232、イベントキューテーブル233、メタ診断手順リポジトリ234、展開診断手順リポジトリ235、メタ収集手段リポジトリ236、展開収集手段リポジトリ237、および性能テーブル238がある。本実施例(及び実施例2)で言う「メタ収集手段」および「展開収集手段」の各々における「手段」という言葉は、「方法」、「定義」又は「コマンド」という言葉に置換されてよい。展開診断手順リポジトリ235および展開収集手段リポジトリ237は、一度生成された情報を再利用するために保存するリポジトリであり、管理計算機201が有していなくてもよい。また、性能テーブル238は、性能取得プログラム229によって管理対象装置から収集された管理対象コンポーネントの性能情報を保存するデータベースである。性能取得プログラム229、および、性能テーブル238は、本実施例で説明する「診断手順」の一例を示すために利用するプログラムおよび情報であり、管理計算機201が有していなくてもよい。また、性能テーブル238は、管理計算機201が有するのではなく、各管理対象装置が情報を保持し、管理対象コンポーネントの性能情報を参照する際には、管理計算機201がネットワーク205を介して各管理対象装置にアクセスし性能情報を取得してもよい。
 障害解析プログラム221、イベント分析プログラム222、診断手順展開プログラム223、診断実行プログラム224、表示プログラム225、一つ以上の判定プログラム226、イベント受信プログラム227、構成取得プログラム228、性能取得プログラム229は、メモリ212に記憶され、CPU211が実行する。メタルールリポジトリ231、構成管理DB232、イベントキューテーブル233、メタ診断手順リポジトリ234、展開診断手順リポジトリ235、メタ収集手段リポジトリ236、展開収集手段リポジトリ237、および性能テーブル238は、ディスク213に記憶される。これらのうちの少なくとも1つのプログラムまたは少なくとも1つのデータは、CPU211が参照可能な他の適当な記憶領域に記憶されてよい。
 ネットワークI/F215は、ネットワーク205を介して接続されるサーバ202、ネットワークスイッチ203、ストレージ装置204等の管理対象装置から構成情報や性能情報など、コンポーネントに関する情報を取得する。出力デバイス217は、表示プログラム225からの情報を出力(典型的には表示)するデバイスである。入力デバイス214は、ユーザの指示を入力するデバイスである。例えば、入力デバイス214としてキーボード、ポインタデバイス等を用いることができ、出力デバイス217としてディスプレイ、プリンタ等を用いることができるが、これら以外のデバイスでもよい。
 各サーバ202a、202b、202cは、アプリケーション等のプログラムを実行する管理対象装置でよい。サーバ202aは、メモリ242、ネットワークI/F243およびそれらに接続されたCPU246を含む汎用計算機でよい。サーバ202aは、メモリ242のほかにHDDのような不揮発性記憶デバイスを有してもよい。サーバ202aは、サーバ202aの状態を監視し特定の状態変化(イベント)が検出された場合にネットワーク205を介して管理計算機201にそのイベントを表すイベント情報を送信する監視エージェント(プログラム)245を含んでもよい。監視エージェント245はCPU241で実行されてよい。イベントを通知することは、そのイベントを表すイベント情報を送信することでよい。サーバ202aは、iSCSI(Internet Small Computer System Interface)イニシエータ244を有してよい。例えば、サーバ202aは、iSCSIディスク251を仮想的にローカルHDDのように利用できるが、これはiSCSIイニシエータ244およびストレージ装置204の記憶容量により実現される。iSCSIの代わりにまたはこれに加えて、他の通信および記憶プロトコルが用いられてもよい。なお、サーバ202aの構成を説明したが、サーバ202b、202cもサーバ202aと同じ構成を有してよい。
 各ストレージ装置204は、サーバ202上で動作するアプリケーション用の記憶容量(論理ボリューム)を提供するための(または他の目的のための)管理対象装置であってよい。ストレージ装置204は、I/Oポート263、ディスク262およびそれらに接続されたストレージコントローラ(例えばCPU)261を有する。I/Oポート263は複数存在してよい。ディスク262は、1つのHDDであってもよいし、複数のHDDで構成されたRAIDグループであってもよいが、ディスク262における不揮発性記憶デバイスは、SSDのような他の記憶デバイスであってもよい。本実施例において、ストレージ装置204は、サーバ202a、202bに対しiSCSI論理ボリュームを記憶容量として提供すべく構成されてよい。従って、2台のサーバ202a、202bが、ネットワークスイッチ203を介してストレージ装置204に接続されていて、ストレージ装置204が各サーバ202a、202bに対してiSCSI論理ボリュームを提供してよい。また、ストレージ装置204は、ストレージ装置204の状態を監視して管理計算機201にイベント情報を送信する監視エージェント(プログラム)264を含んでいてよい。監視エージェント264はストレージコントローラ261で実行されてよい。あるいは、サーバ202の監視エージェント245が、ストレージ装置204の状態を監視することができてよい。
 ネットワークスイッチ203は、サーバ202またはストレージ装置204から送信されたデータを受信したり受信したデータを送信したりするポート271a~dを有する。また、ネットワークスイッチ203は、ネットワークスイッチ203の状態を監視し特定の状態変化(イベント)が検出された場合にネットワーク205を介して管理計算機201にイベント情報を送る監視エージェント(プログラム)272を含んでもよい。監視エージェント272は、ネットワークスイッチ203内の図示しないCPUで実行されてよい。あるいは、サーバ202の監視エージェント245が、ネットワークスイッチ203の状態を監視してもよい。
 <構成管理DB>
 構成管理DB232には、構成取得プログラム228が監視エージェント等から取得した管理対象装置の構成情報が格納される。構成情報は、管理対象コンポーネント間の接続関係、依存関係などを示す情報を含む。サーバ202、ネットワークスイッチ203およびストレージ装置204の構成情報の例を、図3~図9に示す。なお、構成管理DB232は、図3~9のテーブルのうちの一部を含まなくてもよいし、少なくとも1つのテーブル中の一部の項目を含まなくてもよい。また、構成管理DB232が格納する各項目のデータ表現形式及びデータ構造は、管理対象装置が持つデータの表現形式及びデータ構造と同じでなくてもよい。また、管理計算機201が管理対象装置からこれらの項目を受信する場合、管理対象装置のデータ構造及び表現形式に従い受信してもよい。また、構成管理DB232中のテーブルは、管理対象コンポーネントの構成変更に伴って情報が更新されてもよい。構成管理DB232中のテーブルにおける情報が更新された場合、その更新に関するログが履歴情報として保存されてもよい。ログを基に過去の構成管理DB232が復元されてもよい。
 図3は、構成管理DB232中の装置テーブルの構成例を示す。
 装置テーブル300は、管理対象装置毎にレコードを有し、各レコードが、3つのフィールド、すなわち装置ID301、装置名302および種別303を有する。ID301は、管理対象装置を一意に識別する値を格納する。装置名302は、管理者が装置を一意に識別できる値を格納する。種別303は、装置の種別を示す識別子を格納する。
 図4は、構成管理DB232中のiSCSIディスクテーブルの構成例を示す。
 iSCSIディスクテーブル400は、サーバ202が利用しているiSCSIディスク251の構成を示すテーブルである。iSCSIディスクテーブル400は、iSCSIディスク251毎にレコードを有し、各レコードが、7つのフィールド、すなわちID401、ディスクドライブ名402、装置ID403、iSCSIイニシエータ名404、接続先iSCSIターゲット405、LUN ID406および種別407を有する。ID401は、iSCSIディスク(管理対象コンポーネント)251を一意に識別する値を格納する。ディスクドライブ名402は、サーバ202においてiSCSIディスク251を一意に識別できる値を格納する。装置ID403は、iSCSIディスク251を利用するサーバ202を示す識別子を格納する。iSCSIイニシエータ名404は、iSCSIディスク251の実体が存在するストレージ装置204との通信の際に用いるサーバ202上のネットワークI/F243の識別子を格納する。接続先iSCSIターゲット405は、iSCSIディスク251の実体が存在するストレージ装置204との通信の際に用いるストレージ装置204上のI/Oポート263の識別子を格納する。LUN ID406は、iSCSIディスク251の実体としての論理ボリューム(ストレージ装置204における論理ボリューム)の識別子を格納する。種別407は、管理対象コンポーネント(iSCSIディスク)の種別を示す識別子を格納する。例えば、1行目のレコードは次のことを意味する。すなわち、「SvA」という識別子で識別されるサーバ上で「D:」というディスクドライブ名で示されるiSCSIディスクが、「DRIVE1」という識別子で識別され、コンポーネントの種別は「iScsiDisk」である。com.hitachi.svaというiSCSIイニシエータ名で示されるサーバポート(サーバが有するポート)と、com.hitachi.stoC1というiSCSIターゲット名で示されるストレージポート(ストレージ装置が有するポート)を介して、0というLUN IDの論理ボリュームがストレージ装置からサーバに提供される。
 図5は、構成管理DB232中のネットワークI/Fテーブルの構成例を示す。
 ネットワークI/Fテーブル500は、ネットワークI/F243毎にレコードを有し、各レコードが、5つのフィールド、すなわちID501、I/F名502、装置ID503、iSCSIイニシエータ名504および種別505を有する。ID501は、ネットワークI/F243(管理対象コンポーネント)を一意に識別する値を格納する。I/F名502は、サーバ202においてネットワークI/F243の識別子となる値を格納する。装置ID503は、ネットワークI/F243を有するサーバ202の識別子を格納する。iSCSIイニシエータ名504は、iSCSIディスクの実体が存在するストレージ装置との通信の際に用いるサーバ202上のネットワークI/F243の識別子を格納する。種別505は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは次のことを意味する。「eth0」というI/F名で示されるネットワークI/Fが、「SvA」という識別子で識別されるサーバに存在し、「SVIF1」という識別子で識別され、コンポーネントの種別は「ServerIF」であり、ストレージ装置の通信の際に識別子として用いるiSCSIイニシエータ名は「com.hitachi.sva」である。
 図6は、構成管理DB232中のスイッチポートテーブルの構成例を示す。
 スイッチポートテーブル600は、ネットワークスイッチ203が有するI/Oポート271毎にレコードを有し、各レコードが、5つのフィールド、すなわちID601、ポート番号602、装置ID603、接続先ポート604および種別605を有する。ID601は、I/Oポート271(管理対象コンポーネント)を一意に識別する値を格納する。ポート番号602は、ネットワークスイッチ203においてI/Oポート271を一意に識別する値を格納する。装置ID603は、I/Oポート271を有するネットワークスイッチ203の識別子を格納する。接続先ポート604は、I/Oポート271に接続されているサーバ202のネットワークI/F243あるいはストレージ装置204のI/Oポート263の識別子が格納される。ネットワークスイッチ203が多段に接続されている場合は、複数のサーバのネットワークI/Fあるいはストレージ装置のI/Oポートから出力されたデータがネットワークスイッチのポートを通るため、複数の識別子が接続先ポート604に格納されていてよい。種別605は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは、次のことを意味する。「0」という番号で示されるI/Oポートが、「SwD」という識別子で識別されるネットワークスイッチにあり、「SWPORT1」という識別子で識別され、コンポーネントの種別が「NWSwitchPort」であり、「STPORT1」で識別されるI/Oポートに接続されている。
 図7は、構成管理DB232中のiSCSIターゲットテーブルの構成例を示す。
 iSCSIターゲットテーブル700は、iSCSIターゲット毎にレコードを有し、各レコードが、2つのフィールド、すなわちiSCSIターゲット名701および接続許可iSCSIイニシエータ702を有する。iSCSIターゲット名701は、各iSCSIターゲットが持つiSCSIターゲット名を格納する。接続許可iSCSIイニシエータ702は、iSCSIターゲットに属する論理ボリュームに対しアクセスが許可されたサーバ上のネットワークI/F243の識別子となるiSCSIイニシエータ名を格納する。例えば、1行目のレコードは、次のことを意味する。「com.hitachi.stoC1」で識別されるiSCSIターゲットに属する論理ボリュームに対し、「com.hitachi.sva」、「com.hitachi.svb」で識別されるサーバ上のネットワークI/F243は、アクセスが許可されている。
 図8は、構成管理DB232中のストレージポートテーブルの構成例を示す。
 ストレージポートテーブル800は、ストレージ装置204が有するI/Oポート263毎にレコードを有し、各レコードが、5つのフィールド、すなわちID801、ポート番号802、装置ID803、iSCSIターゲットID804および種別805を有する。ID801は、I/Oポート263(管理対象コンポーネント)を一意に識別する値を格納する。ポート番号802は、ストレージ装置204においてI/Oポート263を一意に識別する値を格納する。装置ID803は、I/Oポート263を有するストレージ装置204の識別子を格納する。iSCSIターゲット804は、I/Oポート263を使用するiSCSIターゲットの識別子を格納する。種別605は、管理対象コンポーネントの種別を示す識別子を格納する。例えば、1行目のレコードは、次のことを意味する。「0」という番号で示されるI/Oポートが、「StoC」という識別子で識別されるストレージ装置にあり、「STPORT1」という識別子で識別され、コンポーネントの種別は「StorageiSCSIPort」であり、「com.hitachi.stoC1」で識別されるiSCSIターゲットに使用されている。
 <性能テーブル>
 性能テーブル238には、性能取得プログラム229が監視エージェント等から取得した管理対象装置を構成する管理対象コンポーネントの性能情報が格納される。
 図9は、性能テーブル238の構成例を示す。
 性能テーブル238は、性能情報毎にレコードを有し、各レコードが、5つのフィールド、すなわち、コンポーネントID901、メトリック902、時刻903、値904および単位905を有する。コンポーネントID901は、性能情報の取得元の管理対象コンポーネントを一意に識別する値を格納する。メトリック902は、管理対象コンポーネントの性能の観測項目(メトリック)を識別する値を格納する。時刻903は、管理対象コンポーネントの性能を観測した時刻を格納する。時刻は、年月時刻分の単位であるが、それよりも粗い単位でも細かい単位でもよい。値904は、管理対象コンポーネントの性能として観測した値を格納する。単位905は、観測した値に対する単位を格納する。例えば、1行目のレコードは、次のことを意味する。「SWPORT1」という識別子で識別される管理コンポーネント(ここでは、ネットワークスイッチDのポート0)の「TxDropPacketNum」で識別される観測項目に対して、2013/01/01/0:00に「0 Packets/sec」という性能が観測された。
 <イベントキューテーブル>
 図10は、イベントキューテーブル233の構成例を示す。
 イベントキューテーブル233は、イベント受信プログラム227が管理対象装置の監視エージェント等から取得したイベント情報を格納する。イベントキューテーブル233は、イベント情報毎にレコードを有し、各レコードが、5つのフィールド、すなわち、イベントID1001、装置ID1002、コンポーネントID1003、イベント種別1004および発生時刻1005を有する。イベントID1001は、イベント情報を一意に識別するための識別子を格納する。装置ID1002は、イベント情報の取得元の管理対象装置を一意に識別するための識別子を格納する。コンポーネントID203は、イベント情報の取得元の管理対象コンポーネントを一意に識別するための識別子を格納する。イベント種別1004は、管理対象コンポーネントで発生したイベントの種別を示す識別子を格納する。発生時刻1005は、イベントが発生した時刻(取得されたイベント情報が含む時刻)を格納する。発生時刻1005は、管理計算機201がイベント情報を受信した時刻を格納してもよい。イベントが、装置の要素に関するイベントではなく、装置そのものに関するイベントである場合、コンポーネントID1003の値は装置ID1002の値と等しくてもよい。例えば、1行目のレコードは、次のことを意味する。装置IDがSwDであるネットワークスイッチ203のコンポーネントIDがSWPORT1であるI/Oポート273において「TxDropPacketNumError(送信ドロップパケット数異常)」が2013年1月1日0時0分に発生した。
 <メタルールリポジトリおよびメタルール>
 イベント分析プログラム222が、障害原因解析を実行する。障害原因解析は、例えば、特許文献1に記載の解析と同じでよい。そして、イベント分析プログラム222が、ITシステムで発生した複数の障害の伝播元となった障害を絞り込んだ後、伝播元となった障害の発生原因を特定すべく診断を実行する。メタルールは、イベント分析プログラム222が分析時に使用する情報である。メタルールは、あるトポロジ(あるI/Oの経路上に存在する1つまたは複数の管理対象コンポーネントのグループ)のパターンにおいて発生し得るイベントの組合せと、それらのイベントが同じタイミングで発生した場合に障害の原因候補との対応関係を示す情報である。実施例1では、メタルールに定義される原因候補はシステム障害の伝播元となる障害を示す。メタルールは、メタルールが示す障害の原因イベントに対して詳細な診断を実行する際に使用するメタ診断手順を識別する情報と診断の対象となるトポロジの起点となる管理対象コンポーネントの情報を有する。本実施例においては、メタルールはIF-THEN形式で記述されるが、システム障害の原因イベントと、原因イベントによって引き起こされる観測イベント(観測されるイベント)が記述されていればそれ以外の形式であってもよい。
 図11Aは、メタルールリポジトリ231に常駐するメタルール1100の構成例を示す。
 一般に、ルールは、2つの部分(フィールド)、すなわち「IF」部1111と呼ばれる第1の部分および「THEN」部1112と呼ばれる第2の部分に分けることができる。IF部1111は1つ以上の条件要素を含んでいてよい。
 メタルール1100は、IF部1111のイベント(条件イベント)が検知された場合、THEN部1112のイベント(結論イベント)が障害の原因候補となることを示す。従って、THEN部1112が表す管理対象コンポーネントのステータスが正常になれば、IF部1111が表す問題も解決することが見込まれる。
 本実施例においては、イベント分析プログラム222は、図10のイベントキューテーブル233に格納されるイベント情報が表すイベントを観測イベントとし、分析を行う。そのため、IF部1111は、条件要素毎にエントリを有し、各エントリが、装置種別1101、コンポーネント種別1102およびイベント種別1103を有する。すなわち、管理対象装置やその要素は、管理計算機201においていくつかの種別に分類されており、IF部1111の条件要素は、指定した種別の管理対象コンポーネントにおいて指定したイベント種別が示す状態が発生することを示す。条件要素が、装置の要素ではなく、装置そのものに関するイベントを示す場合は、その条件要素についてのコンポーネント種別1102の値は装置種別1101と等しい値であってもよい。
 また、メタルール1100は、各々のメタルールを一意に識別するメタルールIDを格納するフィールドであるメタルールID1113と、メタルール1100を実際の管理対象のITシステムの構成に適用して展開ルールを生成する際にメタルール1100を適用するトポロジの条件を格納するためのフィールドであるトポロジ条件1114とを含む。本実施例においては、トポロジ条件として、構成管理DB232からトポロジの情報を取得する方式を例に挙げている。例えば、図11Aに示すトポロジ条件の例は、メタルールを適用するトポロジが、iSCSIディスクと、そのiSCSIディスクの記憶容量を提供すべく使用されるサーバのネットワークI/F、および、ストレージ装置のI/Oポートと、それら2つのI/Oポートの間にあるネットワークスイッチのI/Oポートの組合せであることを示している。
 さらに、本実施例では、メタルールを用いて導出された結論に基づき、さらに詳細に原因イベントを特定するための診断を実行するため、メタルール1100は、メタ診断手順の識別子、診断の対象となるトポロジの起点となる装置、および管理対象コンポーネントの条件を格納するためのフィールド1115を含む。図11のメタルールが障害原因解析で使用された場合、そのメタルールに関連付けられているメタ診断手順ID(そのメタルールのフィールド1115に記述されているメタ診断手順ID)から識別されるメタ診断手順が使用される。図11Aの例では、「メタ診断手順ID=(識別子),起点=(装置種別 コンポーネント種別)」という形式でメタ診断手順の識別子と起点の条件が格納されている。フィールド1115には、複数の組合せ(メタ診断手順の識別子と起点の条件の組合せ)が格納されていてよい。また、複数のメタルール1100の各々のフィールド1115に1つのメタ診断手順の識別子が格納されていてよい。診断の対象となるトポロジは、メタルール1100が適用されるトポロジと異なっていてよい。診断の対象となるトポロジに関する説明については後述する。
 例えば、図11Aのメタルール「MetaRule1」は、観測イベントとして「サーバ202上のiSCSIディスク151のディスクアクセスレスポンス時間異常」と、「ネットワークスイッチ203におけるI/Oポート271の送信ドロップパケット数異常」とが検知されたときに、「ネットワークスイッチ203におけるI/Oポート271の送信ドロップパケット数異常」がボトルネックであると結論付けられることを示している。また、メタルール「MetaRule1」を用いて分析を行う際には、トポロジ条件1114に格納された条件に基づいてメタルールを適用するトポロジの情報が、構成管理DB等から取得される。また、THEN部1112に記述された結論を詳細解析する場合には、「MetaDiagnosticProc1」で識別されるメタ診断手順を用い、取得したトポロジ情報のうち、「ネットワークスイッチ203のI/Oポート271」に当てはまる管理対象コンポーネントを起点とした別のトポロジに対して診断を実行する(フィールド1115中の「 起点=(NetworkSwitch NWSwitchPort)」を参照)。メタ診断手順を用いて詳細解析をする際に、イベント分析プログラム222の分析対象となったトポロジ内の管理対象コンポーネントを起点とし、診断対象トポロジを別に定義できるようにすることで、イベント分析の対象となったトポロジの周辺の管理対象コンポーネントも含めて診断対象とすることができる。なお、IF部1111に含まれる条件要素として、あるコンポーネントが正常であること(障害イベントが発生していないこと)を定義してもよい。また、THEN部1112のイベント種別1103が表すイベント種別は、新たに定義してもよく、イベント受信プログラム227が受信するイベントのイベント種別でなくてもよい。
 <展開ルール>
 展開ルールは、ITシステムにおいて発生し得るイベントの組み合わせと、それらのイベントが発生した場合の障害の原因候補となるイベントとの対応関係を示す情報である。実施例1では、展開ルールに定義される原因候補はシステム障害の伝播元となる障害を示す。展開ルールは、メタルール1100のトポロジ条件1114に基づいて、メタルール1100を適用可能なトポロジを管理対象ITシステムの中から検索し、検索されたトポロジに対してメタルール1100を適用した結果として生成されるルールである。また、展開ルールは、イベント分析プログラム222が分析時に使用する情報である。
 本実施例において、展開ルールは、メタルールと同様に、IF-THEN形式で記述するが、システム障害の原因イベントと、原因イベントによって引き起こされる観測イベントが記述されていれば、他の形式でもよい。
 図11Bは、展開ルールの構成例を示す。
 一般に、展開ルール1150も、メタルール1100と同様に、二つの部分(フィールド)、すなわちIF部1151と称される第1の部分と、THEN部1152と称される第2の部分とに分けることができる。IF部1151は一つ以上の条件要素を含んでもよい。
 展開ルール1150は、IF部1151のイベント(条件イベント)が検知された場合、THEN部1152のイベント(結論イベント)が障害の原因となることを示す。したがって、THEN部1152が表す管理対象コンポーネントのステータスが正常になれば、IF部1151が表す問題も解決することが見込まれる。
 本実施例においては、図10のイベントキューテーブル233に格納されるイベント情報が表す観測イベントとし、イベント分析プログラム222によって障害の原因候補を絞り込む。展開ルール1150のIF部1151は、条件要素毎にエントリを有し、各エントリが、装置ID1161、コンポーネントID1162、イベント種別1163および受信フラグ1164というフィールドを有する。すなわち、IF部1151の条件要素は、装置ID1161およびコンポーネントID1162によって指定される管理対象コンポーネントにおいてイベント種別1163の情報によって示される状態が発生することを示す。また、受信フラグ1164は、実際に条件要素が示すイベントを受信したか否かの結果を格納する。条件要素が示すイベントを受信した場合は、受信フラグ1164に「1」が格納され、条件要素が示すイベントを受信していない場合は、受信フラグ1164に「0」が格納される。受信フラグ1164に「1」が格納されてから所定の時間が経過するとその値が「0」に戻されるなどの処理が行われてもよい。
 IF部1151およびTHEN部1152の各々において、装置ID1161とコンポーネントID1162に格納される値は、メタルール1100のトポロジ条件1114に基づいて構成管理DB232から特定された装置IDおよびコンポーネントIDのうち、装置種別1101及びコンポーネント種別1102で定義された種別に該当する値である。
 また、展開ルール1150は、その展開ルール1150を一意に識別する展開ルールIDを格納するフィールドである展開ルールID1153を含む。また、展開ルール1150は、その展開ルール1150を用いて導出された結論に基づきさらに詳細に原因イベントを特定するための診断を実行するため、メタ診断手順の識別子、診断の対象となるトポロジの起点となる装置、および管理対象コンポーネントの識別子を格納するためのフィールド1155を有する。フィールド1155に格納される値のうち、メタ診断手順IDは、展開ルール1150を生成するときに使用したメタルール1100のフィールド1115に格納されている値と等しい。また、フィールド1155に格納される値のうち、起点として格納される装置IDおよびコンポーネントIDは、メタルール1100のトポロジ条件1114に基づいて構成管理DB232から特定された装置IDおよびコンポーネントIDのうち、メタルール1100のフィールド1115に格納された「起点の条件」に該当するIDである。図11Bの例では、「メタ診断手順ID=(識別子),起点=(装置ID コンポーネントID)」という形式で値が格納されている。図11Bは、図11Aのメタルール1100を図3~図8が示す構成管理DB232に基づいて展開し生成された展開ルール1150a~1150dを示す。例えば、展開ルール1150a「ExpandedRule1」は、観測イベントとして「サーバA(ID=SvA)のDドライブ(ID=DRIVE1)のディスクアクセスレスポンス時間異常」と、「ネットワークスイッチD(ID=SwD)におけるポート0(ID=SWPORT1)の送信ドロップパケット数異常」とが検知された場合、「ネットワークスイッチDにおけるポート0の送信ドロップパケット数異常」がボトルネックであると結論付けられることを示す。また、その展開ルール1150aのTHEN部1152に記述された結論を詳細解析する場合には、「MetaDiagnosticProc1」で識別されるメタ診断手順を用い、「装置IDがSwD、コンポーネントIDがSWPORT1」で識別される管理対象コンポーネントを起点としたトポロジに対して診断が実行される。なお、IF部1151に含まれる条件要素として、あるコンポーネントが正常であること(障害イベントが発生していないこと)を定義してもよい。
 <メタ診断手順リポジトリおよびメタ診断手順>
 メタ診断手順は、イベント分析プログラム222によって、ITシステムの障害の伝播元となる障害を絞り込んだ後、障害原因イベントを特定すべく実行される診断の一連の手順である。メタ診断手順は、診断に必要な情報を収集するステップと、収集した情報に基づいて判定を行うステップと、1つあるいは複数の判定の結果に基づいて導出される結論で構成される。メタ診断手順を実行する対象となる具体的な管理対象コンポーネントは定義されておらず、手順を実行する対象となるトポロジのパターンや構成のパターンが定義される。
 図12は、メタ診断手順リポジトリ234に常駐するメタ診断手順1200の構成例を示す。
 メタ診断手順1200は、そのメタ診断手順1200に関する情報を格納する基本オブジェクト1201と、診断に必要な情報を収集する手段を格納した情報収集オブジェクト1202と、収集した情報に基づいて判定する手段を格納した判定オブジェクト1203と、1つあるいは複数の判定の結果に基づいて導出される結論の情報を格納した結論オブジェクト1204とで構成される。本実施例においては、メタ診断手順1200は、オブジェクト構造であるが、情報を収集する手段の情報と、判定のステップの情報と、判定の結果に基づいて導出される結論の情報の組合せで構成されていれば、他のデータ構造であってもよい。オブジェクト1201~1204のうちオブジェクト1201以外は複数存在し得る。図12に例示されるメタ診断手順1200は、基本オブジェクト1201と、2つの情報収集オブジェクト1202aおよび1202bと、2つの判定オブジェクト1203aおよび1203bと、3つの結論オブジェクト1204a、1204bおよび1204cとで構成されている。
 基本オブジェクト1201は、5つのフィールド、すなわち、タイプ1211、ID1212、メタ診断手順ID1213、トポロジ条件ID1214およびNextID1215を有する。タイプ1211は、オブジェクトの種別を識別するための識別子(例えば、基本情報であることを示す「Start」)を格納する。ID1212は、オブジェクトを一意に識別するための識別子を格納する。メタ診断手順ID1213は、メタ診断手順1200を一意に識別するための識別子を格納する。トポロジ条件ID1214は、メタ診断手順1200を適用するトポロジの条件を一意に識別するための識別子を格納する。NextID1215は、最初に実行するステップを格納したオブジェクトの識別子を格納する。
 情報収集オブジェクト1202は、4つのフィールド、すなわち、タイプ1221、ID1222、手段ID1223およびNextID1224を有する。タイプ1221は、オブジェクトの種別を識別するための識別子(例えば、情報収集手段が格納されていることを示す「CollectInfo」)を格納する。ID1222は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。手段ID1223は、メタ収集手段を一意に識別するための識別子を格納する。手段ID1223に格納された識別子を基に、メタ収集手段リポジトリ236から診断に必要なメタ収集手段が検索される。NextID1225は、次に実行するステップを格納したオブジェクトの識別子を格納する。例えば、情報収集オブジェクト1202aは、診断実行時に、「GetInfo1」という識別子で識別されるメタ収集手段をメタ収集手段リポジトリ236から取得し、その手段に基づいて情報収集を行った後、IDが「2」のオブジェクトが示すステップを実行することを示している。
 判定オブジェクト1203は、5つのフィールド、すなわち、タイプ1231、ID1232、判定プログラムID1233、引数1234およびDecision Map1235を有する。タイプ1231は、オブジェクトの種別を識別するための識別子(例えば、判定ステップに関する情報が格納されていることを示す「Decision」)を格納する。ID1232は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。判定プログラムID1233は、収集した情報に基づいて判定を行うプログラムを一意に識別する識別子を格納する。判定プログラムIDに格納された識別子を基に、メモリ212に常駐する判定プログラム226が呼び出される。引数1234は、判定プログラム226によって判定を実行する際に使用する情報の識別情報を格納する。Decision Map1235は、キー1236とNextID1237の組合せの一覧を格納する。キー1236は、判定プログラム226の戻り値になり得る値を格納し、NextID1237は、オブジェクトの識別子を格納する。すなわち、Decision Map1235には、診断実行時に、判定プログラム226の戻り値に応じて、次に実行するステップを決定するための情報が格納される。例えば、判定オブジェクト1203aは、診断実行時に、「判定プログラム1」という識別子で識別される判定プログラム226を起動させ、「判定プログラム1」に引数として「1」という識別子で識別されるオブジェクト1202aで収集した情報を渡し、「判定プログラム1」の戻り値が「YES」であった場合は「3」という識別子で識別されるオブジェクト1202bが示すステップを実行し、戻り値が「NO」であった場合は「4」という識別子で識別されるオブジェクト1204aが示すステップを実行することを示している。また、1つの判定プログラムの例として、「判定プログラム1」は、「引数として与えられた性能情報の上昇率が事前に定義された値以上であるかどうかを判定し、その値以上であればYESを、その値未満であればNOを返すプログラム」などであってよい。
 結論オブジェクト1204は、3つのフィールド、すなわち、タイプ1241、ID1242およびConclusion1243を有する。タイプ1241は、オブジェクトの種別を識別するための識別子(例えば、結論に関する情報が格納されていることを示す「End」)を格納する。ID1242は、ID1212と同様に、オブジェクトを一意に識別するための識別子を格納する。Conclusion1243は、診断実行時において診断の結論となる情報を格納する。例えば、Conclusino1243に格納された情報が、出力デバイス217に表示されてもよい。例えば、診断実行時に、判定オブジェクト1203aの判定結果によって結論オブジェクト1204aが結論として選択された場合、診断結果として「“ネットワークスイッチポート”の帯域不足」が出力デバイス217に表示される。ただし、“ネットワークスイッチポート”には、トポロジ条件ID1214が示すトポロジ条件に基づいて構成管理DB232から取得したネットワークスイッチポートの識別情報が表示される。
 図13は、メタ診断手順1200を適用するトポロジ条件の構成例を示す。
 トポロジ条件1300は、2つのフィールド、すなわち、トポロジ条件ID1301および条件1302を有する。トポロジ条件ID1301は、トポロジ条件を一意に識別する識別子を格納する。トポロジ条件ID1301に格納される値は、図12の基本オブジェクト1201のトポロジ条件ID1214に格納される識別子と等しい。条件1302は、メタ診断手順1200を適用するトポロジの条件に関する情報を格納する。本実施例においては、構成管理DB232からトポロジの情報を取得する方式を例に挙げている。例えば、図13の条件1302に基づいてトポロジの情報を取得する場合、(1)スイッチポートテーブル600の装置ID603の値が、展開ルールのフィールド1155に格納された起点の装置IDと等しく、かつ(2)ネットワークI/Fテーブル500のID501の値が、(1)のスイッチポートテーブル600のレコードの接続先ポートの値と等しいレコードの組合せを取得する。つまり、条件1302が表す起点の管理対象コンポーネントと、その条件1302において起点の管理対象コンポーネントに関連付けられている管理対象コンポーネントとを含んだトポロジが特定される。条件1302に格納するトポロジ条件は、トポロジの情報を取得するための方法が記述されていれば、図13に示す形式でなくてよい。
 <メタ収集手段リポジトリおよびメタ収集手段>
 図14は、メタ収集手段リポジトリ236に格納されたメタ収集手段の構成例を示す。
 メタ収集手段1400は、2つのフィールド、すなわち、手段ID1401および収集手段1402を有する。手段ID1401は、メタ収集手段1400を一意に識別する識別子を格納する。手段ID1401に格納される値は、図12の情報収集オブジェクト1202の手段ID1223に格納される識別子と等しい。メタ収集手段1402は、診断に必要な情報収集手段を格納する。本実施例においては、診断に必要な情報の1つの例として、性能テーブル238から取得できる管理対象コンポーネントの性能情報が挙げられる。そのため、例えば、メタ収集手段1402aには、テーブルから情報を取得するためのクエリが格納される。ただし、どの管理対象コンポーネントの性能情報を収集するかは、イベント分析プログラム222の導出した結論によるため、管理対象コンポーネントの識別子は変数とする。図14の例では、ダブルクォーテーションでかこった部分を変数として表現している(この点は、メタ収集手段1402bについても同様である)。
 <展開診断手順リポジトリおよび展開診断手順>
 展開診断手順は、メタ診断手順とトポロジ情報に基づいて診断手順展開プログラム223によって展開される診断手順である。展開診断手順は、メタ診断手順と同様に、診断に必要な情報を収集するステップと、収集した情報に基づいて判定を行うステップと、1つあるいは複数の判定の結果に基づいて導出される結論で構成される。メタ診断手順には、実行する対象となる具体的なコンポーネントは定義されていなかったのに対し、展開診断手順は、トポロジ情報に基づいて、実行の対象となるコンポーネントが定義される。
 図15は、展開診断手順リポジトリ235に格納される展開診断手順1500の構成例を示す。なお、展開診断手順リポジトリ235は、一度生成した展開診断手順を別の診断で再利用するために保存するリポジトリであり、そのリポジトリが必ずしも管理計算機201に無くてもよい。また、図1では展開診断手順に「124」という参照符号が付されているが、図15に示す展開診断手順は図1の展開診断手順と構成が違っているため、図15の展開診断手順は図1の展開診断手順と違う参照符号「1500」を使用している。しかし、図1の展開診断手順も図15の展開診断手順も同じ方法で生成された手順でよい。
 展開診断手順1500は、展開診断手順に関する情報を格納する基本オブジェクト1501と、診断に必要な情報を収集する手段を格納した情報収集オブジェクト1502と、収集した情報に基づいて判定する手段を格納した判定オブジェクト1503と、1つあるいは複数の判定の結果に基づいて導出される結論の情報を格納した結論オブジェクト1504で構成される。本実施例においては、展開診断手順は、オブジェクト構造であるが、情報を収集する手段の情報と、判定のステップの情報と、判定の結果に基づいて導出される結論の情報の組合せで構成されていれば、他のデータ構造であってもよい。オブジェクト1501~1504のうちオブジェクト1501以外は複数存在し得る。図15に例示される展開診断手順1500は、基本オブジェクト1501と、2つの情報収集オブジェクト1502aおよび1502bと、2つの判定オブジェクト1503aおよび1503bと、3つの結論オブジェクト1504a、1504bおよび1504cとで構成されている。
 基本オブジェクト1501は、6つのフィールド、すなわち、タイプ1511、ID1212、メタ診断手順ID1513、展開診断手順ID1514,経路リスト1515およびNextID1516を有する。タイプ1511は、メタ診断手順1200のタイプ1211と同様に、オブジェクトの種別を識別するための識別子(例えば、基本情報であることを示す「Start」)を格納する。ID1512は、オブジェクトを一意に識別するための識別子を格納する。メタ診断手順ID1513は、展開診断手順1500を生成する際に使用したメタ診断手順1200の識別子を格納する。展開診断手順ID1514は、展開診断手順1500を一意に識別するための識別子を格納する。経路リスト1515は、診断実行時に、参照した展開診断手順1500のオブジェクトのIDの一覧を格納する。すなわち、経路リスト1515は、診断実行後に、診断のために収集した情報と判定結果と判定結果に基づいて導出された結論を取得できるようなデータ構造であればよい。NextID1516は、最初に実行するステップを格納したオブジェクトの識別子を格納する。
 情報収集オブジェクト1502は、4つのフィールド、すなわち、タイプ1521、ID1522、展開手段ID1523およびNextID1524を有する。タイプ1521は、メタ診断手順1200のタイプ1221と同様に、オブジェクトの種別を識別するための識別子(例えば、情報収集手段が格納されていることを示す「CollectInfo」)を格納する。ID1522は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。展開手段ID1523は、展開収集手段を一意に識別するための識別子を格納する。展開手段ID1223に格納された識別子を基に、展開収集手段リポジトリ237から診断に必要な展開収集手段が検索される。NextID1525は、次に実行するステップを格納したオブジェクトの識別子を格納する。例えば、情報収集オブジェクト1502aは、診断実行時に、「ExpandedGetInfo1-1」という識別子で識別される情報収集手段を展開収集手段リポジトリ237から取得し、その手段に基づいて情報収集を行った後、IDが「Proc1-1-2」のオブジェクトが示すステップを実行することを示している。
 判定オブジェクト1503は、5つのフィールド、すなわち、タイプ1531、ID1532、判定プログラムID1533、引数1534およびDecision Map1535を有する。タイプ1531は、メタ診断手順1200のタイプ1231と同様に、オブジェクトの種別を識別するための識別子(例えば、判定ステップに関する情報が格納されていることを示す「Decision」)を格納する。ID1532は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。判定プログラムID1533は、収集した情報に基づいて判定を行うプログラムを一意に識別する識別子を格納する。判定プログラムID1533には、メタ診断手順1200の判定プログラムID1233と等しい値が格納される。判定プログラムIDに格納された識別子を基に、メモリ212に常駐する判定プログラム226が呼び出される。引数1534は、判定プログラム226によって判定を実行する際に使用する情報の識別情報を格納する。Decision Map1535は、メタ診断手順1200のDecision Map1235と同様に、キー1536とNextID1537の組合せの一覧を格納する。キー1536は、判定プログラム226の戻り値になり得る値を格納し、NextID1537は、オブジェクトの識別子を格納する。すなわち、Decision Map1535には、診断実行時に、判定プログラム226の戻り値に応じて、次に実行するステップを決定するための情報が格納される。例えば、判定オブジェクト1503aは、診断実行時に、「判定プログラム1」という識別子で識別される判定プログラム226を起動させ、「判定プログラム1」に引数として「Proc1-1-1」という識別子で識別されるオブジェクト1502aで収集した情報を渡し、「判定プログラム1」の戻り値が「YES」であった場合は「Proc1-1-3」という識別子で識別されるオブジェクト1502bが示すステップを実行し、戻り値が「NO」であった場合は「Proc1-1-4」という識別子で識別されるオブジェクト1504aが示すステップを実行することを示している。
 結論オブジェクト1504は、3つのフィールド、すなわち、タイプ1541、ID1542およびConclusion1543を有する。タイプ1541は、メタ診断手順1200のタイプ1241と同様に、オブジェクトの種別を識別するための識別子(例えば、結論に関する情報が格納されていることを示す「Conclusion」)を格納する。ID1542は、ID1512と同様に、オブジェクトを一意に識別するための識別子を格納する。Conclusion1543には、診断実行時において、診断の結論となる情報が格納される。例えば、Conclusion1543に格納された情報が、出力デバイス217に表示されてもよい。例えば、診断実行時に、判定オブジェクト1503の判定結果によって結論オブジェクト1504aが結論として選択された場合、診断結果として「SWPORT1(ネットワークスイッチDのポート0)の帯域不足」が出力デバイス217に表示される。
 <展開収集手段リポジトリおよび展開収集手段>
 展開収集手段は、メタ展開収集手段とトポロジ情報に基づいて診断手順展開プログラム223によって、展開される情報収集手段である。メタ収集手段には、情報収集の対象となる具体的なコンポーネントは定義されず、本実施例においては、変数で表現されていた。これに対し、展開収集手段はトポロジ情報に基づいて、情報収集の対象となるコンポーネントが定義される。
 図16は、展開収集手段リポジトリ237に格納された展開収集手段の構成例を示す。
 展開収集手段1600は、2つのフィールド、すなわち、展開手段ID1601および展開収集手段1602を有する。展開手段ID1601は、展開収集手段を一意に識別する識別子を格納する。展開手段ID1601に格納される値は、図15の情報収集オブジェクト1502の展開手段ID1523に格納される識別子と等しい。展開収集手段1602は、診断に必要な情報収集手段を格納する。本実施例においては、診断に必要な情報の1つの例として、性能テーブル238から取得できる管理対象コンポーネントの性能情報を挙げている。そのため、例えば、展開収集手段1602aは、テーブルから情報を取得するためのクエリを格納する。他の展開収集手段1602b、1602cおよび1602dについても同様である。展開収集手段1602は、メタ収集手段1402と異なり、情報収集の対象を定義している。図16は、図14のメタ収集手段1400を、図13のトポロジ条件1300aに基づいて展開し生成された展開収集手段1600a~1600dの例を示す。
 <障害解析プログラムの処理>
 本実施例においては、イベントのパターンに基づいて障害原因解析を実行した後、その結果に基づいて、さらに詳細な障害原因イベントの特定を行うべく、診断を実行する。
 図17は、障害解析プログラム221により実行される障害原因解析処理の例のフローチャートを示す。
 障害解析プログラム221は、ITシステムにおいて障害が発生し、その障害に関するイベントをイベント受信プログラム227によって検知されるとこの処理を開始すべく構成されていてよい。また、ITシステムにおける障害の発生を管理者が検知し、入力デバイス214から管理者の指示により起動されるとこの処理が開始されてもよい。
 ステップS1701において、障害解析プログラム221は、イベント分析プログラム222を実行する。イベント分析プログラム222は、発生したイベントのパターンに基づいて障害原因イベントを絞り込む処理を実行する。本実施例においては、イベント分析プログラム222は、イベントキューテーブル233に格納されたイベント情報群と、メタルールリポジトリ231に格納されたメタルールと、構成管理DB232に格納された構成情報とに基づいて、システム障害の伝播元となる障害の候補を絞り込む。例えば、図10に示すイベントキューテーブル233のイベント情報群をイベント受信プログラム227が受信し、図11Aに示すメタルール1100と図3~図8のテーブルに基づいてイベント分析プログラム222が分析を行った場合、展開ルール1150a、1150b、1150c、1150dが生成される。そして、例えば、展開ルール1150aおよび1150bの各々のTHEN部1152の情報に基づいて、イベント分析プログラム222が、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)が障害の伝播元である」という結論を導出する。
 図18に、イベント分析結果画面1800の一例を示す。
 イベント分析結果画面1800は、イベント分析プログラム222が導出した結論をITシステムで発生した複数の障害の伝播元となる障害を原因候補として提示した画面である。イベント分析結果画面1800は、伝播元となる障害原因候補毎にエントリを有し、各エントリが、障害原因候補を表示する原因障害候補フィールド1801と、フィールド1801が示す原因候補に対する確からしさ(確信度)を表示する確信度フィールド1802と、診断実行ボタン1803とを有してよい。確信度フィールド1802に表示される確信度は、例えば、原因候補1811に関連する展開ルール1150のイベント受信率であってよい。イベント受信率は、例えば、「イベント受信率=(受信フラグ1164が「1」の条件要素数)/(条件要素の総数)」という式で算出されてよい。
 1つの原因候補1811に対して複数の展開ルールが存在する場合は、複数の展開ルールにそれぞれ対応した複数のイベント受信率に基づく値(例えば、イベント受信率の最大値、平均値、あるいは、最小値など)が確信度フィールド1802に表示されてよい。あるいは、原因候補1811に関連する全ての展開ルールの条件要素の総数と受信フラグ1164が「1」の条件要素数に基づいてイベント受信率が算出され、確信度フィールド1802に、算出された値が表示されてよい。また、原因候補は、イベント分析プログラム222の導出した結論に基づいて確信度の高い順に複数表示されてよい。
 管理者が所望の原因候補に対応した実行ボタン1803を押下すると、対応する原因候補の詳細診断を実行すべく、図17のステップS1702に進み、診断手順展開プログラム223が起動する。管理者によって詳細診断を実行するための入力インタフェースは、ボタンに限定せず、診断実行を管理計算機201に指示するいずれの入力インタフェースも採用可能である。また、診断手順展開プログラム223の開始は、管理者の指示ではなく、イベント分析プログラム222によって原因候補が導出された後に、導出された各々の原因候補に対して自動で実行されてもよい。また、自動で診断手順展開プログラム223を実行する場合には、イベント分析プログラム222が導出した原因候補のうち、確信度が一定値以上のものに対してのみ、診断手順展開プログラム223が実行されてもよい。
 本実施例においては、イベント分析プログラム222が導出した結論は、ITシステムで発生した複数の障害の伝播元となる障害を示しており、管理者が診断実行ボタン1803を押下し、それに応答して、伝播元となった障害の発生原因を特定する診断を実行すべく診断手順展開プログラム223が起動される。
 ステップS1702において、障害解析プログラム221は、ステップS1701で選択された原因候補の情報を入力として、診断手順展開プログラム223を起動する。診断手順展開プログラムは、入力された原因候補の情報、すなわち展開ルール1150のTHEN部1152の情報と、展開ルール1150と、メタ診断手順1200と、メタ収集手段1400と、構成管理DB232に格納された構成情報に基づいて、展開診断手順1500を生成する。診断手順展開プログラム223の詳細な処理の例については図19に示す。
 ステップS1703において、障害解析プログラム221は、展開診断手順1500を入力として、診断実行プログラム224を起動する。診断実行プログラム224は、展開診断手順1500に基づいて、診断を実行しITシステムの障害原因イベントを特定する。診断実行プログラム224の詳細な処理の例については図20に示す。
 ステップS1704において、障害解析プログラム221は、ステップS1703で診断を実行した展開診断手順1500を入力として、表示プログラム225を起動する。表示プログラム225は、入力された展開診断手順1500とその経路リスト1515に基づき、ステップS1703で導出された障害の原因に関する情報を出力デバイス217に表示する。
 本実施例においては、イベント分析プログラム222を実行した後に、診断手順展開プログラム223を実行しているが、イベント分析プログラム222の実行前に、診断手順展開プログラム223が実行されてもよい。例えば、診断手順展開プログラム223が、構成管理DB232の構成情報とメタルール1100に基づいて、イベント分析プログラム222が導出し得る原因候補を全て挙げ、そして、それらの原因候補を診断するのに必要な展開診断手順1500と展開収集手段1600を、メタ診断手順1200とメタ収集手段1400と構成管理DB232の構成情報に基づいて生成し、そして、それらを展開診断手順リポジトリ235及び展開収集手段リポジトリ237に格納してもよい。この場合、障害解析プログラム221は、イベント分析プログラム222を実行した後、イベント分析プログラム222によって導出された原因候補に対する展開診断手順1500を展開診断手順リポジトリ235から取得し、取得した展開診断手順1500を入力として診断実行プログラム224を起動する。
 また、本実施例においては、診断実行プログラム224が、診断に必要な情報を収集し、判定プログラム226が判定を実行する例を挙げているが、ステップS1702実行後に、生成した展開診断手順1500を表示プログラム225に渡し、表示プログラム225が出力デバイス217に展開診断手順1500を表示し、管理者が、その展開診断手順1500の通りに処理を行ってよい。
 <診断手順展開プログラムの処理>
 図19は、診断手順展開プログラム223により実行される処理の例のフローチャートを示す(ステップS1702)。
 ステップS1901において、診断手順展開プログラム223は、イベント分析プログラム222が障害の原因候補として導出した結論の情報を受信する。結論の情報は、展開ルール1150のTHEN部1152に格納された情報の組合せであってよい。例えば、診断手順展開プログラム223は、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)」という情報を受信する。
 ステップS1902において、診断手順展開プログラム223は、ステップS1901で受信した結論の情報に関連する展開ルール1150を取得する。すなわち、診断手順展開プログラム223は、受信した結論をTHEN部1152に持つ展開ルール1150を取得する。診断手順展開プログラム223は、ステップS1902で取得した全ての展開ルール1150の各々について、ステップS1904乃至S1912の処理を行う。以下、1つの展開ルール(以下、図19の説明において「対象展開ルール」)1150を例に取る。
 ステップS1904において、診断手順展開プログラム223は、対象展開ルール1150のフィールド1155に格納されているメタ診断手順IDから識別されるメタ診断手順1200をメタ診断手順リポジトリ234から取得する。診断手順展開プログラム223は、ステップS1904で取得した全てのメタ診断手順1200の各々について、ステップS1906乃至S1912の処理を行う。以下、1つのメタ診断手順(以下、図19の説明において「対象メタ診断手順」)1200を例に取る。
 ステップS1906において、診断手順展開プログラム223は、対象メタ診断手順1200が対象展開ルール1150のフィールド1155が示す起点に対して展開済みか否かを判定する。この判定の結果が真の場合(S1906:YES)、処理はステップS1907へ進み、この判定の結果が偽の場合(S1906:NO)、処理はステップS1908に進む。
 ステップS1907において、診断手順展開プログラム223は、対象展開ルール1150のフィールド1155が示す対象メタ診断手順と起点に基づいて展開した展開診断手順1500を、展開診断手順リポジトリ235から取得する。
 ステップS1908において、診断手順展開プログラム223は、対象メタ診断手順1200の基本オブジェクト1201のトポロジ条件ID1214に格納された識別子から識別されるトポロジ条件1300を取得する。
 ステップS1909において、診断手順展開プログラム223は、ステップS1908で取得したトポロジ条件1300の条件1302に格納された情報に基づき、構成管理DB232からトポロジ情報を取得する。取得するトポロジ情報が表すトポロジは、対象展開ルール1150のフィールド1155の中の「起点」が示す管理対象コンポーネント(装置あるいはその要素)を起点とする。例えば、対象展開ルール1150が図11Bの展開ルール1150aであった場合、起点は、装置IDが「SwD」およびコンポーネントIDが「SWPORT1」の管理対象コンポーネントである。また、トポロジ条件1300が図13のトポロジ条件1300aであった場合、診断手順展開プログラム223は、スイッチポートテーブル600の装置ID603が「SwD」のレコード(1行目~4行目のレコード)を参照し、かつ、ネットワークI/Fテーブル500のID501が、それらのレコードの接続先ポート604に格納された値と等しいレコード(2行目~4行目のレコード)を参照し、参照したレコードのIDの組合せ(SWPORT1-SWPORT2-SVIF1、SWPORT1―SWPORT3-SVIF2、SWPORT1-SWPORT4-SVIF3の3組)をトポロジ情報として取得する。
 また、トポロジ条件1300を用いて取得できるトポロジ情報のうち、起点となる管理対象コンポーネント以外の管理対象コンポーネント(あるいは、それらが構成する装置)において障害のイベントが発生していないトポロジに関しては、ステップS1909で取得するトポロジ情報から除いてもよい。管理対象コンポーネントで障害のイベントが発生しているか否かは、イベント受信プログラム227が、分析を開始する契機となった障害イベントを、検知した時刻から一定期間内に障害に関するイベントが発生したかどうかで判定してよい。これにより、診断の対象を、障害が発生しているトポロジに限定することができる。また、展開診断手順1500は、トポロジごとに生成されてもよいし、1組のトポロジ条件と起点に基づいて取得した全てのトポロジに対して1つ生成されてもよい。
 ステップS1910において、診断手順展開プログラム223は、メタ診断手順1200の情報収集オブジェクト1202の手段ID1223に格納された識別子から識別されるメタ収集手段1400をメタ収集手段リポジトリ236から取得する。そして、診断手順展開プログラム223は、ステップS1909で取得したトポロジ情報に基づいてメタ収集手段1400を展開することにより展開収集手段1600を生成する。メタ収集手段1400中の変数にトポロジ情報中のIDが代入されることにより、展開収集手段1600が生成される(展開収集手段1602が例えば図16に示した通りとなる)。
 ステップS1911において、診断手順展開プログラム223は、メタ診断手順1200とステップS1909で取得したトポロジ情報とステップS1910で生成した展開収集手段1600に基づいて展開診断手順1500を生成する。
 ステップS1912において、診断手順展開プログラム223は、ステップS1911で生成した展開診断手順1500を展開診断手順リポジトリ235に登録する。
 ステップS1913において、診断手順展開プログラム223は、生成あるいは展開診断手順リポジトリ235から取得した展開診断手順1500を呼び出し元プログラムに返す。
 なお、ステップS1904において、対象展開ルール1150のイベント受信率が一定値以下の場合には、対象展開ルールが、展開ルールに関連するメタ診断手順の展開及び診断実行の対象外とされてもよい。これにより、診断実行プログラム224が実行する展開診断手順を、イベント受信率が一定値以上の展開ルールに関連する展開診断手順に限定し、不要な診断の実行を削減することができる。
 図19の処理の具体例は次の通りである。ステップS1901において、イベント分析プログラム222の結論として、「ネットワークスイッチD(IDはSwD)のポート0(IDはSWPORT1)の送信ドロップパケット数異常(イベント種別の識別子はTxDropPacketNumError)」という情報を受信した場合、診断手順展開プログラム223は、ステップS1902において、図11Bの展開ルール1150aと1150bを取得する。展開ルール1150aを例に取ると、診断手順展開プログラム223は、ステップS1904において、図12のメタ診断手順1200を取得する。ステップS1906において、展開済みではないと判定された場合、診断手順展開プログラム223は、ステップS1908において、図13のトポロジ条件1300aを取得する。ステップS1909において、診断手順展開プログラム223は、3つのトポロジ情報(SWPORT1-SWPORT2-SVIF1、SWPORT1―SWPORT3-SVIF2、SWPORT1-SWPORT4-SVIF3)を取得する。メタ診断手順1200の2つの情報収集オブジェクト1202の手段ID1223には、それぞれ「GetInfo1」と「GetInfo2」が格納されているため、ステップS1910において、診断手順展開プログラム223は、図14のメタ収集手段1400aとトポロジ情報に基づいて展開収集手段1600aを生成し、メタ収集手段1400bとトポロジ情報に基づいて展開収集手段1600b、1600cおよび1600dを生成する。ステップS1911において、診断手順展開プログラム223は、メタ診断手順1200と取得したトポロジ情報から図15に示す展開診断手順1500を生成する。そして、ステップS1912において、診断手順展開プログラム223は、展開診断手順1500を展開診断手順リポジトリ235に格納し、ステップS1913において、診断手順展開プログラム223は、生成した展開診断手順1500を障害解析プログラム221に返す。
 <診断実行プログラムの処理>
 図20は、診断手順展開プログラム223により実行される処理の例のフローチャートを示す(ステップS1703)。
 ステップS2001において、診断実行プログラム224は、展開診断手順1500を受信する。診断実行プログラム224は、ステップS2001において受信した全ての展開診断手順に対して、ステップS2003乃至S2014の処理を繰り返す。以下、1つの展開診断手順(以下、図20の説明において「対象展開診断手順」)を例に取る。
 ステップS2003において、診断実行プログラム224は、対象展開診断手順1500を構成するオブジェクトのうち、タイプが「Start」である基本オブジェクト1501を参照する。
 ステップS2004において、診断実行プログラム224は、基本オブジェクト1501の経路リスト1515に、参照しているオブジェクトのIDを追加する。
 ステップS2005において、診断実行プログラム224は、参照しているオブジェクトの次のオブジェクトを参照する。参照しているオブジェクトが基本オブジェクト1501、あるいは、情報収集オブジェクト1502である場合には、診断実行プログラム224は、NextID1516あるいはNextID1524に格納されたIDを持つオブジェクトを参照する。判定オブジェクト1503を参照している場合は、後述のステップS2013において、診断実行プログラム224は、Decision Map1535に基づいて次のオブジェクトを決定する。
 ステップS2006において、診断実行プログラム224は、ステップS2005において参照したオブジェクトのタイプが「End」か否かを判定する。この判定結果が真の場合(S2006:YES)、処理はステップS2007へ進み、この判定結果が偽の場合(S2006:NO)、処理はステップS2014へ進む。
 ステップS2007において、診断実行プログラム224は、ステップS2005で参照したオブジェクトのタイプが「CollectInfo」か否かを判定する。この判定の結果が真の場合(S2007:YES)、処理はステップS2008へ進み、この判定の結果が偽の場合(S2007:NO)、処理はステップS2010へ進む。
 ステップS2008において、診断実行プログラム224は、参照しているオブジェクトの展開手段ID1523に格納された識別子から識別される展開収集手段1600を展開収集手段リポジトリ237から取得する。
 ステップS2009において、診断実行プログラム224は、ステップS2008で取得した展開収集手段に基づいて、管理対象装置や管理計算機201が持つリポジトリから情報を取得する。
 ステップS2010において、診断実行プログラム224は、参照しているオブジェクトの引数1534に格納された情報に基づいてステップS2009で収集した情報を取得する。
 ステップS2011において、診断実行プログラム224は、ステップS2010で取得した情報を入力とし、参照しているオブジェクトの判定プログラムID1533に格納された識別子から識別される判定プログラム226を起動する。
 ステップS2012において、診断実行プログラム224は、ステップS2011で実行した判定プログラム226から判定結果を受信する。
 ステップS2013において、診断実行プログラム224は、ステップS2012で受信した判定結果をキーとして、参照しているオブジェクトのDecision Map1535に格納されたNextID1537を取得し、次に参照するオブジェクトを決定する。
 ステップS2014において、診断実行プログラム224は、基本オブジェクト1501の経路リスト1515に、参照しているオブジェクトのIDを追加する。
 ステップS2015において、診断実行プログラム224は、受信した展開診断手順1500を呼び出し元プログラムに返す。
 図20の処理の具体例は次の通りである。例えば、ステップS2001において、図15に示す展開診断手順1500を受信した場合、診断実行プログラム224は、ステップS2003において、基本オブジェクト1501aを参照し、ステップS2004において、経路リスト1515にオブジェクトのID「Proc1-1-0」を追加する。次に、ステップS2005において、診断実行プログラム224は、NextID1516が示す識別子「Proc1-1-1」に基づいて情報収集オブジェクト1502を参照する。情報収集オブジェクト1502aはタイプが「CollectInfo」であるため、処理がステップS2008に進む。ステップS2008において、診断実行プログラム224は、展開手段ID「ExpandedGetInfo1-1」に基づいて、図16の展開情報手段1600aを取得する。そして、診断実行プログラム224は、展開収集手段1602に記述されたSQLクエリに基づいて性能テーブル238から情報を収集する。そして、ステップS2004に戻り、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1-1-1」を追加する。次に、ステップS2005で参照するオブジェクトは判定オブジェクト1503aとなるため、処理はステップS2010に進む。ステップS2010において、診断実行プログラム224は、展開情報手段1600aに基づいて取得した性能情報を取得し、ステップS2011において、診断実行プログラム224は、その性能情報を入力として「判定プログラム1」を起動する。ステップS2012において、「判定プログラム1」から「NO」という値を受信した場合には、診断実行プログラム224は、Decision Map1535に基づいて次に参照するオブジェクトはID「Proc1-1-4」を持つ結論オブジェクト1504aと決定する。再び、ステップS2004に戻り、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1-1-3」を追加し、ステップS2005で結論オブジェクト1504aを参照する。結論オブジェクト1504aはタイプが「End」であるため、処理がステップS2014に進み、診断実行プログラム224は、経路リスト1515にオブジェクトのID「Proc1-1-4」を追加する。そして、診断実行プログラム224は、経路リスト1515が更新された展開診断手順1500を、呼び出し元である障害解析プログラム221に返す。
 以上の処理により、診断手順展開プログラム223によって生成された展開診断手順に基づいて、診断実行プログラム224はITシステムで発生した障害の原因イベントを特定すべく、診断を実行することができる。
 なお、診断実行プログラム224は、ステップS2009において、収集した情報を出力デバイス217に表示し、ステップS2011において実行される判定プログラム226は、出力デバイス217に、判定基準と管理者が判定結果を入力する入力インタフェース(例えばボタン)を表示し、ステップS2012において受信する判定結果は、管理者が入力インタフェースを介して入力した判定結果であってもよい。
 また、診断実行プログラム224は、ステップS2010において、判定に使用する情報を取得できなかった場合、ステップS2011において、判定プログラム226は、複数の判定結果を返し、診断実行プログラム224は、複数の判定結果の各々について診断手順を続行し、複数の結論オブジェクト1504を参照し、表示プログラム225は、それら複数の結論オブジェクト1504に基づいて複数の原因イベントを表示してもよい。
 また、診断実行プログラム224は、情報収集オブジェクト1502に基づいた情報収集処理、および、判定オブジェクト1503に基づいた判定プログラム226の判定は、展開診断手順のオブジェクトの順に実行せず、並列に実行されてもよい。
 <表示プログラムの処理>
 図21は、表示プログラム225により実行される処理の例のフローチャートを示す(ステップS1704)。
 ステップS2101において、表示プログラム225は、展開診断手順1500を受信する。
 ステップS2102において、表示プログラム225は、受信した展開診断手順1500と、基本オブジェクト1501の経路リスト1515に格納されたリストに基づいて、診断実行プログラム224が最終的に参照した結論オブジェクト1504を取得し、診断結果として表示する。
 ステップS2103において、表示プログラム225は、受信した展開診断手順に基づいて、使用した診断手順を表示する。
 ステップS2104において、表示プログラム225は、受信した展開診断手順1500の基本オブジェクト1501の経路リスト1515に基づいて、診断実行プログラム224が使用した診断手順のうち、実行した手順を表示する。
 なお、ステップ2101~S2104によれば、情報が順次表示されるが、それに代えて、表示プログラム225は、表示対象の情報をメモリ212に書き込みし、全ての表示対象がメモリ212に書き込まれた場合に、それらの表示対象を含んだ画面(例えば図22の画面)を表示してもよい。
 図22は、診断結果画面の一例を示す。
 診断結果画面2200は、診断実行プログラム224が実行した診断手順とその診断結果を表示する画面であり、出力デバイス217に表示される。この画面2200は、具体的には、図15の展開診断手順とその手順を実行した結果を示す。診断結果画面2200は、診断実行プログラム224によって導出された診断結果を表示する診断結果フィールド2201と、診断実行プログラム224で使用した展開診断手順1500の情報を表示する診断手順フィールド2202で構成されていてよい。また、診断結果画面2200は、診断を実行したトポロジの情報を表示する診断対象トポロジフィールド2203と、診断実行時に収集し、判定に使用した情報を表示する診断対象データフィールド2204を有していてもよい。
 診断結果フィールド2201に表示されている情報は、ステップS2102において表示プログラム225により表示された情報(診断結果)の一例である。受信した展開診断手順1500の経路リスト1515に基づいて、診断実行プログラム224が最終的に参照した結論オブジェクト1504が取得されるが、フィールド2201には、その結論オブジェクト1504が、診断結果として表示されている。
 診断手順フィールド2202に表示されている情報は、ステップS2103において表示プログラム225により表示された情報(診断手順)の一例である。受信した展開診断手順1500の情報に基づき、診断実行プログラム224が使用した診断手順が取得されるが、フィールド2202には、その診断手順が表示されている。図22では、診断手順の表示の一例として、判定オブジェクト1503の引数1534が示す値と、判定オブジェクト1503から識別された判定プログラム226による判定基準と、結論オブジェクト1504が導出する結論の情報とが表示されている。図22の経路2223は、ステップS2104で、表示プログラム225が経路リスト1515に基づいて表示する「実行した手順」の一例である。図22に示すように、診断手順2221対して、「実行した手順」の流れを示す部分(矢印)が強調表示されてもよいし、実行した手順の一覧が表示されてもよい。
 診断対象トポロジフィールド2203に表示されている情報は、展開診断手順1500の対象となったトポロジを表す情報である。診断手順展開プログラム223が図19の処理においてトポロジ情報を展開診断手順1500と関連させて管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225の起動時に、表示プログラム225が、その保存されている情報をフィールド2203に表示してもよい。
 診断対象データフィールド2204には、診断実行プログラム224が展開診断手順1500の情報収集オブジェクト1502を参照した際に取得した情報が表示されている。診断実行プログラム224が図20の処理においてステップS2009で取得した情報を展開診断手順1500と関連させて管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225の起動時に、表示プログラム225が、その保存されている情報をフィールド2204に表示してもよい。
 また、診断対象トポロジフィールド2203において、判定の手順毎に、判定の対象となった管理対象コンポーネントに関する情報が表示されてもよい。例えば、図22の表示例において、管理者が、判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、判定オブジェクト1503に関連する判定プログラム226が判定対象とした管理対象コンポーネントの情報が強調表示されてもよい。例えば、管理者が、判定オブジェクト1503aの判定基準を表示した判定表示2222aを選択した場合、判定オブジェクト1503aの引数1534が示す情報は「Proc1-1-1の戻り値」であり、手順「Proc1-1-1」が収集する情報は「ネットワークスイッチDのポート0(識別子はSWPORT1)」の性能情報であるため、「ネットワークスイッチDのポート0」が強調表示されてもよい。
 また、診断対象トポロジフィールド2203において、判定の手順毎に、判定結果を決定する要素となった管理対象コンポーネントに関する情報が表示されてもよい。例えば、図22の表示例において、管理者が、展開診断手順1500の判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、診断対象トポロジフィールド2203に表示された管理対象コンポーネントのうち、判定結果を決定する要素となった管理対象コンポーネントの情報が強調表示されてもよい。例えば、判定表示2222bに関連する判定オブジェクト1503bは、「ネットワークスイッチDのポート0の送信ドロップパケット数の上昇率とサーバAのeth0、サーバBのeth0、サーバCのeth0の送信パケット数の上昇率をそれぞれ比較する。そして、1つでもネットワークDのポート0の送信ドロップパケット数と上昇率の等しいサーバが存在した場合には、結論表示2223aに関連する結論オブジェクト1504cを参照し、そうでなければ結論オブジェクト1504bを参照する」という判定情報を持つ展開診断手順1500のオブジェクトである。そして、サーバBのみがネットワークスイッチDのポート0の送信ドロップパケット数の上昇率と等しかった場合、診断実行プログラム224は結論オブジェクト1504cを参照する。この場合、結論オブジェクト1504cを参照する要因となった「サーバBのeth0(識別子はSVIF2)」と比較対象となった「ネットワークスイッチDのポート0(識別子はSWPORT1)」が強調表示されてもよい。診断実行プログラム224の実行時にステップS2010で取得した情報とステップS2012の判定結果を管理計算機201のメモリ212等の記憶領域に保存することで、これらの情報が表示されてもよい。判定オブジェクト1503bを例に取ると、判定プログラムID1533が示す「判定プログラム2」が、呼び出されて判定を行っており、「判定プログラム2」が、性能情報の上昇率が等しいコンポーネントのIDの組を返すプログラムであった場合、「判定プログラム2」の戻り値を管理計算機201のメモリ212等の記憶領域に保存し、表示プログラム225が、それらのIDを持つ管理対象コンポーネントの情報を表示してもよい。
 また、診断対象データフィールド2204において、判定の手順毎に、判定の対象となった情報が表示されてもよい。例えば、図22の表示例において、管理者が、判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、判定オブジェクト1503の引数1534が示す情報が強調表示されてもよい。例えば、管理者が、判定オブジェクト1503aの判定基準を表示した判定表示2222aを選択した場合、判定オブジェクト1503aの引数1534が示す情報2241bが強調表示されてもよい。
 また、診断対象データフィールド2204において、判定の手順毎に、判定結果を決定する要素となった情報が表示されてもよい。例えば、図22の表示例において、管理者が、展開診断手順1500の判定オブジェクト1503の判定基準を表示した判定表示2222を選択すると、診断対象データフィールド2204に表示された情報のうち、判定結果を決定する要素となった情報が強調表示されてもよい。例えば、判定表示2222bに関連する判定オブジェクト1503bは、「ネットワークスイッチDのポート0の送信ドロップパケット数の上昇率とサーバAのeth0、サーバBのeth0、サーバCのeth0の送信パケット数の上昇率をそれぞれ比較する。そして、1つでもネットワークDのポート0の送信ドロップパケット数と上昇率の等しいサーバが存在した場合には、結論表示2223aに関連する結論オブジェクト1504cを参照し、そうでなければ結論オブジェクト1504bを参照する」という判定情報を持つ展開診断手順1500のオブジェクトである。そして、サーバBのみがネットワークスイッチDのポート0の送信ドロップパケット数の上昇率と等しかった場合、診断実行プログラム224は、結論オブジェクト1504cを参照する。この場合、結論オブジェクト1504cを参照する要因となった「サーバBのeth0(識別子はSVIF2)の送信パケット数の性能情報」と比較対象となった「ネットワークスイッチDのポート0(識別子はSWPORT1)の送信ドロップパケット数の性能情報」が、強調表示されてもよい。診断実行プログラム224の実行時にステップS2010で取得した情報とステップS2012の判定結果を管理計算機201のメモリ212等の記憶領域に保存することで、これらの情報が表示されてもよい。
 また、イベント分析プログラム222の導出した1つの原因候補に対して複数の展開診断手順が実行された場合には、展開診断手順毎に診断結果の画面が表示されてもよい。
 また、診断実行プログラム224は、ステップS2009で収集した情報を一定期間、管理計算機201のメモリ212等の記憶領域に保存しておき、別の診断実行時に同じ管理対象コンポーネントに対して同じ情報を収集するステップを実行する際には、メモリ212等の記憶領域に既に保存されている情報を使用してもよい。収集した情報を出力デバイス217に表示する際には、収集した時刻が表示されてもよい。
 また、診断実行プログラム224は、ステップS2012で受信した判定結果を管理計算機201のメモリ212等の記憶領域に一定期間保存しておき、別の診断実行時に、同じ管理対象コンポーネントの同じ情報に基づいて判定を行う際には判定プログラムを実行せず、保存されている判定結果が使用されてもよい。判定結果を出力デバイス217に表示する際には、判定した時刻が表示されてもよい。
 以上に説明したように、実施例1によれば、イベント分析プログラム222によって導出された原因障害候補に対して関連する診断を実行し、診断においては、診断に必要な情報収集を実行し、収集した情報に対して判定を行い、その結果得られた結論によって障害の原因イベントを特定することができる。これにより、管理者は、障害の原因イベントを迅速に特定することができ、ITシステムの障害によるダウンタイムを短縮することができる。
 次に実施例2について説明する。以下の説明では、実施例1との差異を中心に説明し、同等の構成要素や、同等の機能を持つプログラム、同等の項目を持つテーブルについては、記載を省略又は簡略する。
 実施例1では、イベント分析プログラムによって導出された複数障害の伝播元となる障害に対して、診断を実行し、診断によって得られた結論を伝播元となる障害の発生原因として提示する。実施例1に例示される方法は、イベント分析プログラムによってわかる範囲で原因を特定した後、さらに詳細な原因を調査するのに有効である。一方、診断の有効な利用方法としては、他に、イベント分析プログラムによって導出される原因候補の確信度の精度を向上する(例えば確信度の値を高める)ことが挙げられる。
 実施例2では、イベント分析プログラムによって原因候補を導出後、診断を実行し、診断結果を、イベント分析機能によって導出された原因候補の確信度に反映させる例について説明する。
 図23は、実施例2におけるメタルール2300の構成例を示す。
 実施例2におけるメタルール2300の構成は、実施例1におけるメタルール1100の構成と実質的に同じである。実施例1のメタルール1100は、IF部1111を構成する条件要素1121は、イベント受信プログラム227が受信するイベントの種別を格納すべく、装置種別1101、コンポーネント種別1102、イベント種別1103で構成されている。これに対し、実施例2におけるメタルール2300は、診断の結果を反映すべく、IF部1111の条件要素として、メタ診断手順1200の識別子を格納するフィールド2311を有してよい。
 図24は、実施例2における展開ルール2400の構成例を示す。
 実施例2における展開ルール2400の構成は、実施例1における展開ルール1150の構成と実質的に同じである。メタルールと同様に、実施例1の展開ルール1150は、IF部1151について、条件要素は、イベント受信プログラム227が受信し得るイベントを格納すべく、装置ID1161、コンポーネントID1162およびイベント種別1163で構成されている。これに対し、実施例2における展開ルール2400には、診断の結果を反映すべく、IF部1151の条件要素として、展開診断手順の識別子を格納するフィールド2411を有してよい。
 図25は、実施例2における展開診断手順の構成例を示す。
 実施例2における展開診断手順2500の構成は、実施例1における展開診断手順1500の構成と実質的に同じである。展開診断手順2500は、診断の結果を反映すべく、結論オブジェクト1504のConclusion1543に、展開ルール2400の展開診断手順の識別子が格納されたフィールド2411に対応する受信フラグ1164を更新する指示が格納されてよい。
 図26は、実施例2において障害解析プログラム221により実行される障害原因解析処理の例のフローチャートを示す。障害解析プログラム221の開始のタイミングは実施例1に記載のタイミングでよい。
 ステップS1701において、障害解析プログラム221は、イベント分析プログラム222を実行する。実行される処理は、実施例1において説明したステップS1701の処理と同じである。
 ステップS1702において、障害解析プログラム221は、ステップS1701で選択された原因候補の情報を入力として、診断手順展開プログラム223を起動する。実行される処理は、実施例1において説明したステップS1702、あるいは図19の処理と実質的に同じである。ただし、診断手順展開プログラム223は、ステップS1909で展開診断手順2500を生成した後、ステップS1902で取得した展開ルール2400と、その展開ルール2400のベースとなったメタルール2300を取得する。そして、生成した展開診断手順2500が、メタルール2300の条件要素フィールド2311に格納されたメタ診断手順の識別子と同じメタ診断手順IDを持つ場合、診断手順展開プログラム223は、展開診断手順IDを、メタルール2300に関連する展開ルール2400の条件要素のフィールド2411に格納する。
 なお、展開診断手順が、展開ルールのIF部のコンポーネントIDの値を起点としたトポロジ情報に基づいて生成された場合は、診断手順展開プログラム223は、起点となったコンポーネントのIDを持つ展開ルールに限定して、展開診断手順IDを条件要素のフィールド2411に格納してもよい。また、診断手順展開プログラム223は、展開診断手順を生成する際に取得したトポロジ情報と展開ルールを生成するときに取得したトポロジ情報が等しい場合に限定して、展開ルールのフィールド2411に、展開診断手順IDを格納してもよい。
 ステップS1703において、障害解析プログラム221は、展開診断手順を入力として、診断実行プログラム224を起動する。実行される処理は、実施例1において説明したステップS1703の処理と同じである。
 ステップS2601において、障害解析プログラム221は、診断実行プログラム224から展開診断手順を受信し、展開診断手順の経路リスト1515に基づいて、診断実行プログラム224によって参照された展開診断手順2400の結論オブジェクト1504を参照する。
 ステップS2602において、障害解析プログラム221は、診断実行プログラム224から受信した展開診断手順2400の展開診断手順IDを条件要素に持つ展開ルールを探索する。そして、ステップS2601で参照した結論オブジェクト1504のConclusion1543に格納された指示のとおりに、展開ルール2400の条件要素2411の受信フラグ1164を更新する。
 例えば、診断実行プログラム224から受信した展開診断手順が図25の展開診断手順2500で、ステップS2061で結論オブジェクト1504dを参照した場合には、障害解析プログラム221は、条件要素に展開診断手順2500のIDである「ExpandedDeagnosticProc10-1」を持つ展開ルール2400の条件要素のフィールド2411に対応した受信フラグ1164を「1」に更新する。
 ステップS2603において、障害解析プログラム221は、各展開ルールのイベント受信率を算出する。実施例1で述べたとおり、イベント受信率の計算式は、「イベント受信率=(受信フラグ1164が「1」の条件要素数)/(条件要素の総数)」でよい。
 ステップS2604において、障害解析プログラム221は、表示プログラム225を起動する。表示プログラム225は、ステップS2603で算出したイベント受信率に基づいて、イベント分析結果画面1800において、ステップS1701で選択された原因候補の確信度を更新する。
 以上に説明したように、実施例2によれば、イベント分析プログラムによって導出された原因候補に対して関連する診断を実行し、その結果得られた結論によって原因候補の確信度を更新することで、より確からしい障害原因候補を優先して管理者に提示することができる。これにより、管理者は障害原因を迅速に特定することができる。
 以上、幾つかの実施例を説明したが、本発明はそれらの実施例に限定されない。例えば、メタルール1100が、そのメタルール1100に関連付けられているメタ診断手順1200のメタ診断手順ID及び起点を含むことに代えて又は加えて、メタ診断手順1200が、そのメタ診断手順1200に関連付けられているメタルール1100のメタルールIDと起点を含んでもよい。いずれの構成であっても、メタルール100とメタ診断手順1200とを多対多で関連付けることができる。
 201:管理計算機

 

Claims (15)

  1.  複数の管理対象コンポーネントのうちの1以上の管理対象コンポーネントで発生した1以上のイベントである1以上の発生イベントの原因解析を行う管理システムであって、
     記憶デバイスと、
     前記記憶デバイスに接続されたプロセッサと
    を有し、
     前記記憶デバイスが、構成管理情報と、複数のルールと、複数の汎用診断手順とを記憶し、
     前記構成管理情報は、前記複数の管理対象コンポーネントの構成に関する情報であり、
     前記複数のルールの各々は、1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示すルールであり、
     前記複数の汎用診断手順の各々は、前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順であり、
     前記プロセッサが、
      前記複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
      前記複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、前記特定された汎用診断手順と前記構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    管理システム。
  2.  前記プロセッサが、前記生成した展開診断手順を表す情報を表示する、
    請求項1記載の管理システム。
  3.  前記プロセッサが、前記特定された汎用診断手順と、前記構成管理情報を基に特定されるトポロジであり前記1以上の対象ルールの中の1以上の条件イベントの対象となる管理対象コンポーネントまたは前記1以上の対象ルール中の1以上の結論イベントの対象となる管理対象コンポーネントを起点としたトポロジに対して前記展開診断手段を生成する、
    請求項1記載の管理システム。
  4.  前記プロセッサが、前記特定された汎用診断手順と前記構成管理情報とに加えて、前記1以上の発生イベントの情報を基に、前記展開診断手順を生成する、
    請求項1記載の管理システム。
  5.  前記複数の汎用診断手順の各々が、1以上の情報収集定義と、1以上の判定定義と、複数の結論定義との組合せであり、
     前記1以上の情報収集定義の各々は、情報収集と情報収集元のコンポーネント種別とを表し、
     前記1以上の判定定義の各々は、収集した情報に基づいて判定することを表し、判定の結果として少なくとも1つの結論定義と少なくとも1つの情報収集定義とのうちの少なくとも一方に対応し、
     前記1以上の結論定義の各々は、結論を表し、
     少なくとも1つの判定定義が、少なくとも1つの結論定義に関連付けられている、
    請求項1記載の管理システム。
  6.  前記展開診断手順は、前記特定された汎用診断手順におけるコンポーネント種別に対しそのコンポーネント種別に該当する管理対象コンポーネントが前記構成管理情報を基に関連付けられることにより生成され、
     前記プロセッサが、前記展開診断手順を基に結論を決定し、決定した結論を表示する、
    請求項5記載の管理システム。
  7.  前記プロセッサは、前記選択された原因候補の基になる対象ルールに関連付けられている1以上の条件イベントのうち発生イベントに適合する条件イベントの割合が一定値以上の場合にのみ、前記選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を、展開診断手順の生成のための基とする、
    請求項1記載の管理システム。
  8.  前記プロセッサが、実行した定義及び収集した情報のうちの少なくとも一方を表示する、
    請求項6記載の管理システム。
  9.  前記プロセッサが、前記選択された原因候補の基になる対象ルールと前記1以上の発生イベントとを基に、前記1以上の原因候補の各々の確信度を算出し、
     前記プロセッサが、算出された1以上の確信度に基づいて、前記1以上の原因候補の中から診断対象とする原因候補を選択する、
    請求項1記載の管理システム。
  10.  前記プロセッサが、前記選択された原因候補の基になる対象ルールと前記1以上の発生イベントとを基に、前記1以上の原因候補の各々の確信度を算出し、
     前記複数の結論定義のうちの一部の結論定義が、算出された確信度を更新することを表しており、
     前記プロセッサが、前記展開診断手順を基に結論を決定し、決定した結論が確信度の更新であれば、前記選択された原因候補の確信度を更新する、
    請求項5記載の管理システム。
  11.  前記プロセッサが、前記展開診断手順を表示し、その後に、前記展開診断手順が表す判定についての結果を表す情報の入力を受け付け、受け付けた情報が表す判定結果に基づいて、実行する定義を決定する、
    請求項5記載の管理システム。
  12.  前記プロセッサが、前記展開診断手順を表示し、その後に、前記展開診断手順に基づき収集した情報のうち、判定結果を満たす情報を表示する、
    請求項5記載の管理システム。
  13.  前記プロセッサが、前記展開診断手順の実行において収集した情報と収集時刻、及び、前記展開診断手順の実行における判定結果と判定時刻、のうちの少なくとも一方を前記記憶デバイスに書き込み、別の展開診断手順の実行において、前記記憶デバイスに書き込まれている情報又は判定結果と同じ管理対象コンポーネントについての情報収集又は判定であり、且つ、前記記憶デバイスに書き込まれている収集時刻又は判定時刻から一定時間経過していなければ、前記記憶デバイスに記憶されている情報又は判定結果を前記別の展開診断手順における収集情報又は判定結果として扱う、
    請求項5記載の管理システム。
  14.  複数の管理対象コンポーネントのうちの1以上の管理対象コンポーネントで発生した1以上のイベントである1以上の発生イベントの原因解析を支援する方法であって、
     それぞれが1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示す複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
     それぞれが前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、
     前記特定された汎用診断手順と、前記複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    方法。
  15.  それぞれが1以上の条件イベントと前記1以上の条件イベントが発生した場合に原因となる結論イベントとの関連付けを示す複数のルールのうちの、前記1以上の発生イベントに関連する1以上の条件イベントが関連付けられている1以上のルールである1以上の対象ルールを基に、1以上の原因候補を特定し、
     それぞれが前記複数のルールのいずれかに関連付けられており1又は複数のコンポーネント種別を用いて定義され管理対象コンポーネントに依存しない汎用の診断手順である複数の汎用診断手順のうちの、前記1以上の原因候補のうちの選択された原因候補の基になる対象ルールに関連付けられている汎用診断手順を特定し、
     前記特定された汎用診断手順と、複数の管理対象コンポーネントの構成に関する情報である構成管理情報とに基づいて、1以上の管理対象コンポーネントに対して実行する診断手順であり前記選択された原因候補のより具体的な原因を特定する又は前記選択された原因候補の確からしさを更新するための展開診断手順を生成する、
    ことをコンピュータに実行させるためのコンピュータプログラム。

     
PCT/JP2013/082207 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法 WO2015079564A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2015550292A JP6208770B2 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法
GB1513880.3A GB2536317A (en) 2013-11-29 2013-11-29 Management system and method for assisting event root cause analysis
DE112013006475.8T DE112013006475T5 (de) 2013-11-29 2013-11-29 Verwaltungssystem und Verfahren zur Unterstützung einer Analyse in Bezug auf eine Hauptursache eines Ereignisses
CN201380070015.9A CN104903866B (zh) 2013-11-29 2013-11-29 对事件根本原因的分析予以支援的管理系统以及方法
US14/765,988 US20150378805A1 (en) 2013-11-29 2013-11-29 Management system and method for supporting analysis of event root cause
PCT/JP2013/082207 WO2015079564A1 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/082207 WO2015079564A1 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法

Publications (1)

Publication Number Publication Date
WO2015079564A1 true WO2015079564A1 (ja) 2015-06-04

Family

ID=53198550

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/082207 WO2015079564A1 (ja) 2013-11-29 2013-11-29 イベントの根本原因の解析を支援する管理システム及び方法

Country Status (6)

Country Link
US (1) US20150378805A1 (ja)
JP (1) JP6208770B2 (ja)
CN (1) CN104903866B (ja)
DE (1) DE112013006475T5 (ja)
GB (1) GB2536317A (ja)
WO (1) WO2015079564A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017051453A1 (ja) * 2015-09-24 2017-03-30 株式会社日立製作所 ストレージシステム、及び、ストレージシステムの管理方法
JP2017097879A (ja) * 2015-11-24 2017-06-01 株式会社日立製作所 クラウド環境における障害原因解析システムのルール検証のための方法及びシステム
JP2018528529A (ja) * 2015-08-05 2018-09-27 フェイスブック,インク. コネクテッド・デバイスのルール・エンジン
JP2018530035A (ja) * 2015-08-13 2018-10-11 ブル・エス・アー・エス トポロジカルデータを用いたスーパーコンピュータのための監視システム
JP2021174459A (ja) * 2020-04-30 2021-11-01 Necプラットフォームズ株式会社 障害処理装置、障害処理方法及びコンピュータプログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112150A1 (en) * 2014-01-23 2015-07-30 Hewlett-Packard Development Company, L.P. Volume migration for a storage area network
US10306490B2 (en) 2016-01-20 2019-05-28 Netscout Systems Texas, Llc Multi KPI correlation in wireless protocols
EP3403152B1 (en) 2016-03-09 2023-07-12 Siemens Aktiengesellschaft Smart embedded control system for a field device of an automation system
US11132620B2 (en) 2017-04-20 2021-09-28 Cisco Technology, Inc. Root cause discovery engine
JP2019009726A (ja) * 2017-06-28 2019-01-17 株式会社日立製作所 障害切り分け方法および管理サーバ
US11995518B2 (en) 2017-12-20 2024-05-28 AT&T Intellect al P Property I, L.P. Machine learning model understanding as-a-service
CN109905270B (zh) * 2018-03-29 2021-09-14 华为技术有限公司 定位根因告警的方法、装置和计算机可读存储介质
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US10931542B2 (en) * 2018-08-10 2021-02-23 Futurewei Technologies, Inc. Network embedded real time service level objective validation
JP7221644B2 (ja) * 2018-10-18 2023-02-14 株式会社日立製作所 機器故障診断支援システムおよび機器故障診断支援方法
US11520678B2 (en) * 2020-02-24 2022-12-06 International Business Machines Corporation Set diagnostic parameters command
US11169949B2 (en) 2020-02-24 2021-11-09 International Business Machines Corporation Port descriptor configured for technological modifications
US11327868B2 (en) 2020-02-24 2022-05-10 International Business Machines Corporation Read diagnostic information command
US11169946B2 (en) 2020-02-24 2021-11-09 International Business Machines Corporation Commands to select a port descriptor of a specific version
WO2021250873A1 (ja) * 2020-06-12 2021-12-16 日本電信電話株式会社 ルール生成装置、ルール生成方法およびプログラム
US11329933B1 (en) * 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
JP2022170275A (ja) * 2021-04-28 2022-11-10 富士通株式会社 ネットワークマップ作成支援プログラム、情報処理装置およびネットワークマップ作成支援方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JP2010086115A (ja) * 2008-09-30 2010-04-15 Hitachi Ltd イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107185B1 (en) * 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
US6675315B1 (en) * 2000-05-05 2004-01-06 Oracle International Corp. Diagnosing crashes in distributed computing systems
CN1300694C (zh) * 2003-06-08 2007-02-14 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
US7434099B2 (en) * 2004-06-21 2008-10-07 Spirent Communications Of Rockville, Inc. System and method for integrating multiple data sources into service-centric computer networking services diagnostic conclusions
JP2006060762A (ja) * 2004-07-21 2006-03-02 Hitachi Communication Technologies Ltd 無線通信システム、および、その診断方法、ならびに、無線通信システムの診断に用いる無線端末
CN100393048C (zh) * 2006-01-13 2008-06-04 武汉大学 一种建立网络故障诊断规则库的方法
JP4873985B2 (ja) * 2006-04-24 2012-02-08 三菱電機株式会社 設備機器用故障診断装置
US20090144214A1 (en) * 2007-12-04 2009-06-04 Aditya Desaraju Data Processing System And Method
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP2011008375A (ja) * 2009-06-24 2011-01-13 Hitachi Ltd 原因分析支援装置および原因分析支援方法
EP2455863A4 (en) * 2009-07-16 2013-03-27 Hitachi Ltd MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE
CN101710359B (zh) * 2009-11-03 2011-11-16 中国科学院计算技术研究所 一种集成电路故障诊断系统及方法
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
US8819220B2 (en) * 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system
JP5432867B2 (ja) * 2010-09-09 2014-03-05 株式会社日立製作所 計算機システムの管理方法、及び管理システム
US9065728B2 (en) * 2011-03-03 2015-06-23 Hitachi, Ltd. Failure analysis device, and system and method for same
JP5684946B2 (ja) * 2012-03-23 2015-03-18 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム
US9667473B2 (en) * 2013-02-28 2017-05-30 International Business Machines Corporation Recommending server management actions for information processing systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
JP2010086115A (ja) * 2008-09-30 2010-04-15 Hitachi Ltd イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
JP2011076293A (ja) * 2009-09-30 2011-04-14 Hitachi Ltd 障害の根本原因解析結果表示方法、装置、及びシステム
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528529A (ja) * 2015-08-05 2018-09-27 フェイスブック,インク. コネクテッド・デバイスのルール・エンジン
JP2018530035A (ja) * 2015-08-13 2018-10-11 ブル・エス・アー・エス トポロジカルデータを用いたスーパーコンピュータのための監視システム
US11436121B2 (en) 2015-08-13 2022-09-06 Bull Sas Monitoring system for supercomputer using topological data
WO2017051453A1 (ja) * 2015-09-24 2017-03-30 株式会社日立製作所 ストレージシステム、及び、ストレージシステムの管理方法
JP2017097879A (ja) * 2015-11-24 2017-06-01 株式会社日立製作所 クラウド環境における障害原因解析システムのルール検証のための方法及びシステム
JP2021174459A (ja) * 2020-04-30 2021-11-01 Necプラットフォームズ株式会社 障害処理装置、障害処理方法及びコンピュータプログラム
JP7007025B2 (ja) 2020-04-30 2022-01-24 Necプラットフォームズ株式会社 障害処理装置、障害処理方法及びコンピュータプログラム

Also Published As

Publication number Publication date
DE112013006475T5 (de) 2015-10-08
JPWO2015079564A1 (ja) 2017-03-16
CN104903866B (zh) 2017-12-15
GB201513880D0 (en) 2015-09-23
GB2536317A (en) 2016-09-14
US20150378805A1 (en) 2015-12-31
CN104903866A (zh) 2015-09-09
JP6208770B2 (ja) 2017-10-04

Similar Documents

Publication Publication Date Title
JP6208770B2 (ja) イベントの根本原因の解析を支援する管理システム及び方法
US10439922B2 (en) Service analyzer interface
US8635498B2 (en) Performance analysis of applications
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10291463B2 (en) Large-scale distributed correlation
US9294338B2 (en) Management computer and method for root cause analysis
JP5385982B2 (ja) 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5670598B2 (ja) コンピュータプログラムおよび管理計算機
US11138058B2 (en) Hierarchical fault determination in an application performance management system
JP5542398B2 (ja) 障害の根本原因解析結果表示方法、装置、及びシステム
US9628360B2 (en) Computer management system based on meta-rules
JP2007096796A (ja) ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US10929259B2 (en) Testing framework for host computing devices
US9021078B2 (en) Management method and management system
JP5295062B2 (ja) 複合イベント処理向けクエリ自動生成装置
US20150242416A1 (en) Management computer and rule generation method
Cinque et al. A logging approach for effective dependability evaluation of complex systems
Harper et al. Cookbook, a recipe for fault localization
Makanju et al. System state discovery via information content clustering of system logs
Kannan et al. A differential approach for configuration fault localization in cloud environments
Sheluhin et al. Anomaly states monitoring of large-scale systems with intellectual analysis of system logs
US8407531B2 (en) Method of collecting and correlating locking data to determine ultimate holders in real time
WO2013103008A1 (ja) 事象の原因を特定する情報システム、コンピュータ及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13898220

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14765988

Country of ref document: US

ENP Entry into the national phase

Ref document number: 201513880

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20131129

WWE Wipo information: entry into national phase

Ref document number: 1513880.3

Country of ref document: GB

WWE Wipo information: entry into national phase

Ref document number: 112013006475

Country of ref document: DE

Ref document number: 1120130064758

Country of ref document: DE

ENP Entry into the national phase

Ref document number: 2015550292

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 13898220

Country of ref document: EP

Kind code of ref document: A1

ENPC Correction to former announcement of entry into national phase, pct application did not enter into the national phase

Ref country code: GB