WO2018135254A1 - 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 - Google Patents

影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 Download PDF

Info

Publication number
WO2018135254A1
WO2018135254A1 PCT/JP2017/046678 JP2017046678W WO2018135254A1 WO 2018135254 A1 WO2018135254 A1 WO 2018135254A1 JP 2017046678 W JP2017046678 W JP 2017046678W WO 2018135254 A1 WO2018135254 A1 WO 2018135254A1
Authority
WO
WIPO (PCT)
Prior art keywords
influence
software
failure
devices
information
Prior art date
Application number
PCT/JP2017/046678
Other languages
English (en)
French (fr)
Inventor
近藤 玲子
幸洋 渡辺
大塚 浩
正洋 麻岡
横山 乾
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Publication of WO2018135254A1 publication Critical patent/WO2018135254A1/ja
Priority to US16/290,454 priority Critical patent/US10977108B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/065Generation of reports related to network devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]

Definitions

  • the present invention relates to an influence range specifying program, an influence range specifying method, and an influence range specifying device.
  • Many devices connected to a computer network system operate in cooperation with other devices, and the state of a certain device may depend on the state of the other device. Therefore, when a failure occurs in a device with a system, the device that depends on the device is also affected. The affected device may be slower or unable to operate than normal. For example, when the device A is a server and the device B is a client of the server, the operation state of the device B depends on the operation state of the device A. When the device A fails and stops, the device B also operates normally. become unable. Especially in a large-scale system, many devices are in a dependency relationship. For this reason, the influence of a failure occurring in a certain device extends not only to the device itself and the device directly connected to the device, but also to many other devices.
  • the presence / absence of an influence relationship between devices in the system can be determined, for example, by the presence / absence of a correlation of the usage status of the resource of the device. For example, if the timing at which the load on the CPU (Central Processing Unit) increases between the two devices matches, the two devices are CPU There is a correlation of usage status. Of these two devices, one is likely to be dependent on the other.
  • CPU Central Processing Unit
  • the presence / absence of an influence relationship between devices can be determined by the log co-occurrence relationship. For example, when a message such as an error log is output at approximately the same timing in each of the two devices, these devices have a log co-occurrence relationship. There is a high possibility that one of the two devices having the log co-occurrence relationship depends on the other.
  • failure analysis device that identifies a failure cause functional element that is a functional element expected to cause a system failure.
  • operation management device that can present the location of the failure and its cause in an easy-to-understand manner.
  • dependency information between devices or services is automatically collected and accumulated, the dependency management load is reduced, and the device that is affected when a failure occurs is identified and the importance of the failure is identified.
  • related information collection system there is a computer system control method for optimizing the execution of the processing and the order of execution in consideration of the effects and effects of the failure prevention / recovery processing in a highly available computer system that performs failure prevention / recovery processing.
  • information processing system that accurately identifies a tenant and a communication path affected by a failure when a failure occurs.
  • the conventional technology does not take into account the difference in dependency between devices for each software, and cannot correctly identify the affected range of software failures. For example, even when a software failure propagates from device A to device B, another software failure may propagate from device B to device A. Even if the failure impact range is determined without considering the difference in propagation direction of the failure impact for each software, the failure impact range when a failure occurs in a piece of software cannot be accurately identified. .
  • an object of the present invention is to be able to accurately identify the scope of influence of a software failure.
  • an influence range specifying program that causes a computer to execute the following processing.
  • the computer correlates the resource usage status based on the system configuration information indicating the connection relationship of a plurality of devices included in the network and the resource usage information indicating the time change of the resource usage status of each of the plurality of devices.
  • the communication path between the two devices is determined as the information transmission path.
  • the computer causes the first device on the information transmission path to execute the software for each of the plurality of software based on the message log in which the messages output by the plurality of devices executing each of the plurality of software are stored.
  • the software in the information transmission path An influence propagation model in which the direction from the first device to the second device is set as the influence propagation direction of the failure is generated. Thereafter, the computer acquires failure information indicating a failure-occurring device in which a failure of one of the plurality of software has occurred. Then, the computer will be able to reach the equipment that can be reached by following the direction of the influence propagation indicated in the influence propagation model of one software on the information transmission path. And information indicating the affected device is output.
  • FIG. 1 It is a figure which shows the structural example of the system which concerns on 1st Embodiment. It is a figure which shows the system configuration example of 2nd Embodiment. It is a figure which shows the example of 1 structure of the hardware of the management server used for 2nd Embodiment. It is a block diagram which shows the failure influence range detection function of a management server. It is a figure which shows an example of the information stored in an operation state information storage part. It is a figure which shows an example of the information stored in an influence propagation model memory
  • FIG. 1 is a diagram illustrating a configuration example of a system according to the first embodiment.
  • the influence range specifying device 10 is connected to a network N including a plurality of devices M1 to M4.
  • the influence range specifying device 10 is a device that specifies the influence range of a failure when a failure occurs in software executed in any of the devices.
  • the influence range specifying device 10 is a computer that executes, for example, an influence range specifying program in which a processing procedure for specifying an influence range of a failure is described.
  • the influence range specifying device 10 includes a storage unit 11 and a processing unit 12.
  • the storage unit 11 is, for example, a memory or a storage device included in the influence range specifying device 10.
  • the processing unit 12 is, for example, a processor included in the influence range specifying device 10.
  • the storage unit 11 stores system configuration information 11a, resource usage information 11b-1, 11b-2,... For each device, and message logs 11c-1, 11c-2,.
  • the system configuration information 11a is information indicating a connection relationship between a plurality of devices M1 to M4 included in the network N.
  • the used resource information 11b-1, 11b-2,... Is information indicating a time change of the resource usage status of each of the plurality of devices M1 to M4.
  • the message logs 11c-1, 11c-2,... Are information obtained by accumulating messages output by executing software corresponding to a plurality of devices M1 to M4. In the example of FIG. 1, message logs 11c-1, 11c-2,... For each software are used. However, if an identifier of software that causes the output of the message is set for each message, the system One message log may be held as a whole.
  • the processing unit 12 performs the following processing based on the information stored in the storage unit 11. First, the processing unit 12 determines a communication path between two devices having a correlation of resource usage status based on the system configuration information 11a and the used resource information 11b-1, 11b-2,. Determined as a transmission path. For example, the processing unit 12 calculates the correlation coefficient of the time series change of the resource usage status of each of the two devices, and when the correlation coefficient is equal to or greater than a predetermined value, the resource usage status between the two devices is calculated. Judge that there is a correlation. If there is a correlation between resource usage statuses between two devices, information exchange is performed between the two devices, and it is considered that they are operating in cooperation. Therefore, the processing unit 12 determines that the communication path between two devices having a correlation is an information transmission path used for information transmission.
  • the processing unit 12 generates an influence propagation model 13 based on the message logs 11c-1, 11c-2,. For example, the processing unit 12 calculates the co-occurrence probability of message output between the first device and the second device for each of the plurality of software. The co-occurrence probability is output when a second device adjacent to the first device executes the software within a predetermined time after the first device on the information transmission path outputs the message by executing the software. It is a probability.
  • the processing unit 12 sets the direction from the first device to the second device as the influence propagation direction of the corresponding software failure in the information transmission path.
  • a propagation model 13 is generated. For example, the processing unit 12 determines the first adjacent connection relationship that is the connection relationship on the influence propagation model 13 between the first device and the second device that have a co-occurrence probability that is greater than or equal to a threshold (co-occurrence relationship). Then, the propagation direction from the first device to the second device is set. Further, the processing unit 12 traces the information transmission path from the second device in the direction opposite to the first device, and the second adjacency that is the connection relation on the influence propagation model 13 between the devices on the traced path.
  • a propagation direction along the traced direction is set for the connection relation.
  • the device C is the first device
  • the device B is the second device.
  • the processing unit 12 sets the direction from the device C to the device B as the influence propagation direction for the influence propagation model 13. Further, the processing unit 12 traces the information transmission path from the device B, which is the second device, in the opposite direction to the device C, which is the first device, so that the adjacent connection relationship between the device A and the device B is on the traced path. Is detected. Then, the processing unit 12 complements the direction from the device B to the device A as the influence propagation direction along the direction along the information transmission path.
  • the processing unit 12 acquires failure information 14 indicating a failure occurrence device in which a failure of one software among a plurality of software has occurred.
  • the processing unit 12 that has acquired the fault information 14 detects a fault that has occurred in the faulty device from the faulty device by reaching the device in the direction of influence propagation indicated in the influence propagation model of one software on the information transmission path. Identified as an affected device that propagates the effects of Then, the processing unit 12 outputs the affected device information 15 indicating the affected device.
  • the influence propagation model 13 is created for each software, and the influence affected model is specified using the influence propagation model 13 corresponding to the software in which the trouble has occurred. Identified. By correctly identifying the affected range of the failure, it is possible to efficiently deal with the failure.
  • the processing unit 12 determines the propagation direction of the effect using the log co-occurrence relationship, and specifies only the device traced in the propagation direction of the influence as the device affected by the failure from the device in which the failure has occurred.
  • the processing unit 12 determines the information transmission path via the adjacent connection relation for each of the plurality of adjacent connection relations indicating the connection relation on the influence propagation model 13 between adjacent devices. You may set the weight according to a number. When the weight is set, the processing unit 12 outputs information indicating the weight of the adjacent connection relation when outputting the affected device information 15. As a result, when dealing with a software failure, it is possible to deal with the devices in descending order of importance and efficiently implement the measures.
  • the processing unit 12 When the processing unit 12 acquires fault information about a fault related to two or more pieces of software, the processing unit 12 may specify an affected device from the influence propagation model 13 of each of the two or more pieces of software. Thereby, it is possible to efficiently deal with a failure involving a plurality of software operating in cooperation.
  • FIG. 2 is a diagram illustrating a system configuration example according to the second embodiment.
  • the monitoring server 30 is a computer that monitors devices on the network 20.
  • the monitoring server 30 periodically acquires information indicating the usage status of the CPU and memory from each device, for example.
  • the monitoring server 30 acquires a log of messages output by software operating on each device from each device.
  • the monitoring server 30 detects a failure of each device. For example, the monitoring server 30 periodically transmits a survival confirmation signal to each device, and determines that a device that does not respond to the signal for a predetermined period or more is defective.
  • FIG. 3 is a diagram illustrating a configuration example of hardware of the management server used in the second embodiment.
  • the management server 100 is entirely controlled by a processor 101.
  • a memory 102 and a plurality of peripheral devices are connected to the processor 101 via a bus 109.
  • the processor 101 may be a multiprocessor.
  • the processor 101 is, for example, a CPU, an MPU (Micro Processing Unit), or a DSP (Digital Signal Processor). It is.
  • At least a part of the functions realized by the processor 101 executing the program may be realized by an electronic circuit such as an ASIC (Application Specific Integrated Circuit) or a PLD (Programmable Logic Device).
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • the memory 102 is used as a main storage device of the management server 100.
  • the memory 102 temporarily stores at least part of an OS (Operating System) program and application programs to be executed by the processor 101.
  • the memory 102 stores various data necessary for processing by the processor 101.
  • a volatile semiconductor storage device such as a RAM (Random Access Memory) is used.
  • Peripheral devices connected to the bus 109 include a storage device 103, a graphic processing device 104, an input interface 105, an optical drive device 106, a device connection interface 107, and a network interface 108.
  • the storage apparatus 103 writes and reads data electrically or magnetically with respect to a built-in recording medium.
  • the storage device 103 is used as an auxiliary storage device of a computer.
  • the storage device 103 stores an OS program, application programs, and various data.
  • an HDD Hard Disk Drive
  • an SSD Solid State Drive
  • a monitor 21 is connected to the graphic processing device 104.
  • the graphic processing device 104 displays an image on the screen of the monitor 21 in accordance with an instruction from the processor 101.
  • Examples of the monitor 21 include a display device using a CRT (Cathode Ray Tube) and a liquid crystal display device.
  • the keyboard 22 and the mouse 23 are connected to the input interface 105.
  • the input interface 105 transmits signals sent from the keyboard 22 and the mouse 23 to the processor 101.
  • the mouse 23 is an example of a pointing device, and other pointing devices can also be used. Examples of other pointing devices include a touch panel, a tablet, a touch pad, and a trackball.
  • the optical drive device 106 reads data recorded on the optical disc 24 using laser light or the like.
  • the optical disc 24 is a portable recording medium on which data is recorded so that it can be read by reflection of light.
  • the optical disc 24 includes DVD (Digital Versatile Disc), DVD-RAM, CD-ROM (Compact Disc Read Only Memory), CD -R (Recordable) / RW (ReWritable), etc.
  • the device connection interface 107 is a communication interface for connecting peripheral devices to the management server 100.
  • the memory device 25 and the memory reader / writer 26 can be connected to the device connection interface 107.
  • the memory device 25 is a recording medium equipped with a communication function with the device connection interface 107.
  • the memory reader / writer 26 is a device that writes data to the memory card 27 or reads data from the memory card 27.
  • the memory card 27 is a card type recording medium.
  • the network interface 108 is connected to the network 20.
  • the network interface 108 transmits and receives data to and from other computers or communication devices via the network 20.
  • the processing function of the second embodiment can be realized.
  • the apparatus shown in the first embodiment can also be realized by hardware similar to the management server 100 shown in FIG.
  • the management server 100 implements the processing functions of the second embodiment by executing a program recorded on a computer-readable recording medium, for example.
  • the program describing the processing contents to be executed by the management server 100 can be recorded in various recording media.
  • a program to be executed by the management server 100 can be stored in the storage device 103.
  • the processor 101 loads at least a part of the program in the storage apparatus 103 into the memory 102 and executes the program.
  • a program to be executed by the management server 100 can also be recorded on a portable recording medium such as the optical disc 24, the memory device 25, and the memory card 27.
  • the program stored in the portable recording medium becomes executable after being installed in the storage apparatus 103 under the control of the processor 101, for example.
  • the processor 101 can also read and execute a program directly from a portable recording medium.
  • FIG. 4 is a block diagram illustrating the failure influence range detection function of the management server.
  • the management server 100 includes an operation state information collection unit 110, an operation state information storage unit 120, an influence propagation model creation unit 130, an influence propagation model storage unit 140, a failure information collection unit 150, an influence range search unit 160, and an influence range display unit. 170.
  • the operation state information collection unit 110 collects information regarding the operation state of the devices in the system via the monitoring server 30. For example, the operating state information collection unit 110 collects system configuration information, usage resource information indicating the usage status of resources of each device, a message log, and the like. For example, in addition to the initial operation of the system, the operation state information collection unit 110 collects information at a regular timing such as a large-scale change of the system or once a month.
  • the operation state information storage unit 120 stores the information collected by the operation state information collection unit 110.
  • the operation state information storage unit 120 stores system configuration information 121, use resource information 122, a message log 123, and the like.
  • the influence propagation model creation unit 130 creates an influence propagation model for each software based on the information stored in the operation state information storage unit 120.
  • the influence propagation model creation unit 130 includes an information transmission path detection unit 131, an influence propagation direction determination unit 132, and an influence propagation direction complement unit 133.
  • the information transmission path detection unit 131 performs a correlation analysis of resource usage status between apparatuses, and detects a communication path between apparatuses having a correlation as an information transmission path.
  • the influence propagation direction determination unit 132 analyzes the co-occurrence relationship of messages between adjacent apparatuses, and determines the influence propagation direction. For example, the influence propagation direction determination unit 132, when a message is output at a high probability within a predetermined time after a message is output from one device, the message is output later from the device that output the message first. It is determined that the influence propagates to the device that has output.
  • the influence propagation direction complementing unit 133 complements the propagation path of the influence that cannot be detected by the influence propagation direction determining unit 132. For example, the influence propagation direction complementing unit 133 traces the information transmission path extracted by the information transmission path detection unit 131 downstream of the influence propagation direction determined by the influence propagation direction determination unit 132, and the downstream side to the end of the information transmission path. Complement the influence propagation direction for equipment.
  • the influence propagation model storage unit 140 stores influence propagation model information 141, 142,... For each software indicating the influence propagation model created by the influence propagation model creation unit 130.
  • the failure information collection unit 150 collects failure information indicating a failure that has occurred in any of the devices from the monitoring server 30.
  • the influence range search unit 160 searches for the failure influence range based on the influence propagation model information 141, 142,.
  • the influence range display unit 170 displays the searched influence range.
  • the influence range display unit 170 can also notify the designated administrator or user of the occurrence of the failure and the influence range.
  • each element shown in FIG. 4 can be realized, for example, by causing a computer to execute a program module corresponding to the element.
  • the operation state information storage unit 120 and the influence propagation model storage unit 140 are realized by using a part of the storage area of the memory 102 of the management server 100 or the storage apparatus 103.
  • FIG. 5 is a diagram illustrating an example of information stored in the operation state information storage unit.
  • the operating state information storage unit 120 stores system configuration information 121 indicating the connection relationship of devices to be managed.
  • system configuration information 121 a plurality of pairs of two directly connected devices are registered.
  • the operating state information storage unit 120 stores use resource information 122a, 122b,... For each device.
  • the used resource information 122a, 122b,... Includes the result of periodically measuring the usage status of resources such as the CPU and memory of the corresponding device. If it is the use condition regarding CPU, it will be shown to use resource information 122a, 122b, ... by the time series of the usage rate of CPU for every fixed time. In addition, in the case of the usage situation regarding the memory, the used memory capacity for every fixed time is indicated in the used resource information 122a, 122b,.
  • the operation state information storage unit 120 stores message logs 123a, 123b,... For each software type.
  • the message log 123a includes a message output by each of a plurality of devices by executing software of the name “software a”.
  • Each message includes information such as output time, output device, message type, message content, and the like.
  • FIG. 6 is a diagram illustrating an example of information stored in the influence propagation model storage unit.
  • the influence propagation model storage unit 140 stores influence propagation model information 141, 142,... For each software.
  • the influence propagation model information 141 is information indicating an influence propagation model for the software with the name “software a”.
  • the influence propagation model information 141 for example, a record for each connection relationship between two devices is registered. Each record has columns of ID, first end device, second end device, transmission, right direction, left direction, and weight.
  • connection relation ID a connection relation identifier (connection relation ID) is set.
  • the name of the device at one end in the connection relationship is set in the column of the device at the first end.
  • the name of the device at the second end of the other end in the connection relationship is set in the column of the device at the second end.
  • the transmission column the number of device pairs using the corresponding connection relationship as an information transmission path is set.
  • a flag indicating whether or not the influence is propagated from the first end device to the second end device is set. When the influence propagates from the first end device to the second end device, “1” is set in the right-hand column, and “0” is set in the corresponding column when the influence does not propagate.
  • a flag indicating whether or not the influence propagates from the second end device to the first end device is set.
  • “1” is set in the left direction column, and “0” is set in the corresponding column when the influence does not propagate.
  • a value (weight) indicating the strength of the influence of the failure is set in the weight column.
  • the influence propagation model 41 is defined by such influence propagation model information 141.
  • each device is represented by a node, and nodes having a connection relationship are connected by a line.
  • the weight of the corresponding connection relationship is represented by the thickness of the line.
  • the propagation direction of the influence is represented by an arrow at one end of the connected line.
  • an influence propagation model is created, and when a failure occurs, the range covered by the failure that has occurred is displayed using the influence propagation model.
  • FIG. 7 is a flowchart showing an example of the procedure of the influence propagation model creation process.
  • the influence propagation model creation process is started in response to, for example, an input of an influence propagation model creation instruction by the user.
  • the influence propagation model creation process can be started at a preset time. Further, the influence propagation model creation process may be executed periodically at regular time intervals. In the following, the process illustrated in FIG. 7 will be described in order of step number.
  • the information transmission path detection unit 131 in the influence propagation model creation unit 130 reads the system configuration information 121 from the operation state information storage unit 120.
  • the information transmission path detection unit 131 performs information transmission path detection processing. Details of the information transmission path detection process will be described later (see FIG. 10). By the information transmission path detection process, a value is set in the transmission column in each of the influence propagation model information 141, 142,.
  • Step S103 The influence propagation direction determination unit 132 in the influence propagation model creation unit 130 executes an influence propagation direction determination process. Details of the influence propagation direction determination process will be described later (see FIG. 14).
  • Step S104 The influence propagation direction complementing unit 133 in the influence propagation model creation unit 130 estimates the influence propagation direction of the undetermined path using the determination result of the influence propagation direction determination process, and supplements the influence propagation direction. . Details of the influence propagation direction complementing process will be described later (see FIG. 18).
  • Step S105 The influence propagation direction complementing unit 133 performs connection weighting processing. Details of the weighting process will be described later (see FIG. 20). In this procedure, the influence propagation model information 141, 142,... For each software as shown in FIG. Hereinafter, each process of steps S102 to S105 shown in FIG. 7 will be described in detail.
  • FIG. 8 is a diagram illustrating an information transmission path detection method.
  • correlation analysis of used resources between devices is used for detecting an information transmission path.
  • Correlation analysis is the quantification of the correlation between two variables.
  • a numerical value indicating the correlation is called a correlation coefficient.
  • the correlation coefficient is, for example, Pearson's product moment correlation coefficient.
  • a larger correlation coefficient value indicates a higher correlation between the two variables.
  • the information transmission path detection unit 131 performs correlation analysis for all combinations of two devices among the devices to be managed. For example, when performing the correlation analysis between the device A and the device B, the information transmission path detection unit 131 calculates a correlation coefficient between the use resource information 122a of the device A and the use resource information 122b of the device B. If the correlation coefficient is larger than a predetermined threshold (for example, “0.7”), there is a correlation between the resource usage statuses of device A and device B. In the example of FIG. 8, the threshold value indicating whether or not there is a correlation is “0.7”, but this value is an example, and another value such as “0.5” may be used as the threshold value.
  • a predetermined threshold for example, “0.7”
  • the information transmission path detection unit 131 detects a communication path between correlated devices as an information transmission path.
  • This information transmission path is not a path through which communication is possible, but is a path through which information communication that affects the partner apparatus is performed in actual operation. That is, even if a path exists between two devices on the configuration diagram of the connection relationship, the path may not be an information transmission path.
  • This path is a path that is physically connected but is not actually used in practice, or a path that was connected at the time of design but is not currently connected.
  • FIG. 9 is a diagram illustrating an example in which information transmission paths overlap.
  • the redundantly detected route has a higher possibility of performing information transmission that affects the devices. Therefore, the information transmission path detection unit 131 weights the more correlated paths that overlap each other, the stronger the relationship. For each connection path between adjacent devices, the number of information transmission paths passing through the path is used as a weighting value, and the value is used as a transmission value of the corresponding connection path.
  • the devices are connected in the order of device A, device C, device D, and device B.
  • the device A and the device B there is a correlation between the device A and the device B, and there is also a correlation between the device A and the device D.
  • the number of information transmission paths passing through the connection path between the devices A and C is two. Therefore, “2” is set as the transmission value for the connection path between the devices A and C.
  • the number of information transmission paths passing through the connection path between the devices C and D is two. Therefore, “2” is set as the transmission value for the connection path between the devices C and D.
  • the number of overlapping information transmission paths in the section between the device D and the device B is 1. Therefore, “1” is set as the transmission value for the connection path between the devices D and B.
  • an information transmission path is detected by correlation analysis of resource usage status between devices, and a value corresponding to the number of information transmission paths that pass through the connection relation as a value of connection relation transmission between adjacent devices Is set.
  • FIG. 10 is a flowchart illustrating an example of a procedure of information transmission path detection processing. In the following, the process illustrated in FIG. 10 will be described in order of step number.
  • the information transmission path detection unit 131 reads the system configuration information 121 from the operation state information storage unit 120. [Step S ⁇ b> 112] Based on the system configuration information 121, the information transmission path detection unit 131 extracts a communication path from the terminal device connected to the other terminal device. Details of this route extraction processing will be described later (see FIG. 11). By the route extraction process, a route list indicating the extracted route is created.
  • the information transmission path detection unit 131 extracts the connection relation between adjacent devices and sets the connection relation in the common influence propagation model information 140-1. For example, the information transmission path detection unit 131 creates common influence propagation model information 140-1 in an initial state. Then, the information transmission path detection unit 131 assigns an ID to each device pair having a connection relationship based on the system configuration information 121, and adds a record corresponding to each device pair to the common influence propagation model information 140-1. . The information transmission path detection unit 131 sets the names of the devices included in the device pair corresponding to the first device and the second device in the record to be added.
  • the information transmission path detection unit 131 sets the left side device as the first end device and the right side device as the second end device in the path shown in the device list created in step S112. At this time, the values in the right direction, left direction, and weight fields of each record registered in the common influence propagation model information 140-1 are “0”. The information transmission path detection unit 131 stores the created common influence propagation model information 140-1 in the memory 102.
  • Step S114 The information transmission path detection unit 131 creates the node list 42 that lists the devices included in the system. In the node list 42, the names of the respective devices are registered by eliminating duplication.
  • the information transmission path detection unit 131 selects one unselected device from the node list. [Step S116] The information transmission path detection unit 131 performs correlation analysis using the resource information 112 used between the selected device and another device.
  • Step S117 The information transmission path detection unit 131 determines the presence or absence of other correlated devices. If there is another correlated device, the information transmission path detecting unit 131 advances the process to step S118. If there is no other correlated device, the information transmission path detection unit 131 advances the process to step S119.
  • the information transmission path detection unit 131 performs a path determination process for searching for an information transmission path between the selected device and another device for each of the other devices having a correlation. Details of the route determination process will be described later (see FIG. 12). As a result of the route determination process, a value corresponding to the number of information transmission routes passing through the corresponding connection relationship is set in the transmission column of each record in the common influence propagation model information 140-1.
  • Step S119 The information transmission path detection unit 131 determines whether or not there is an unselected node in the node list 42. If there is an unselected node, the information transmission path detection unit 131 advances the process to step S115. If there is no unselected node, the information transmission path detection unit 131 ends the information transmission path detection process.
  • FIG. 11 is a flowchart illustrating an example of a procedure of route extraction processing. In the following, the process illustrated in FIG. 11 will be described in order of step number.
  • the information transmission path detection unit 131 reads the system configuration information 121.
  • the information transmission path detection unit 131 grasps the connection relationship between the apparatuses based on the system configuration information 121, and creates a path list 43 indicating the communication path from the terminal apparatus to the other terminal apparatus.
  • the terminal device is a device having only one adjacent device directly connected.
  • the devices A, B, and 2 are the end devices.
  • route information indicating the route from the device A to the device B, the route from the device A to the device 2, and the route from the device 2 to the device B is registered in the route list 43.
  • a route ID is assigned to the route information registered in the route list 43.
  • the name of the device through which the route is traced from the device at the end of the route to the device at the other end is set.
  • the information transmission route detection unit 131 stores the created route list 43 in the memory 102 and ends the route extraction process. Next, the route determination process will be described in detail.
  • FIG. 12 is a flowchart illustrating an example of the procedure of the route determination process. In the following, the process illustrated in FIG. 12 will be described in order of step number.
  • Step S141 The information transmission route detection unit 131 reads the route list 43 from the memory.
  • Step S142 The information transmission route detection unit 131 extracts route information including both of the two devices determined to be correlated by the correlation analysis in Step S116 from the route list 43.
  • the information transmission route detection unit 131 Based on the extracted route information, the information transmission route detection unit 131 extracts a combination of adjacent devices from two correlated devices and devices sandwiched between the devices.
  • the information transmission path detection unit 131 reads the common influence propagation model information from the memory 102.
  • the influence propagation model storage unit 140 stores the common influence propagation model information 140. Add 1 to the transmission value of the record corresponding to the combination of the extracted devices within -1.
  • the transmission value of the record corresponding to the set of the device A and the device C is “1”.
  • the transmission value of the record corresponding to the set of the device C and the device D is also “1”.
  • the transmission value of the record corresponding to the set of device D and device B is “2”.
  • the connection relationship between the device 2 and the device A is not used as an information transmission path, the value of transmission of the record corresponding to the set of the device 2 and the device A is “0”.
  • the information propagation path is detected as described above, and the result is set in the common influence propagation model information 140-1.
  • the influence propagation direction determination process will be described with reference to FIGS.
  • FIG. 13 is a diagram illustrating an example of determining the influence propagation direction.
  • FIG. 13 shows a determination example of the co-occurrence relationship regarding the software with the name “software a”.
  • a message co-occurrence relationship is used to determine the influence propagation direction.
  • the influence propagation direction determination unit 132 calculates a probability that another device outputs a message within a predetermined period after a device outputs a message, and sets it as a co-occurrence probability.
  • the influence propagation direction determination unit 132 uses a device that outputs a message first as a pre-message output device and a device that outputs a message later as a post-message output device, and registers a record for each pair of those devices. 50 is created. Thereafter, the influence propagation direction determination unit 132 calculates a co-occurrence probability for each pair of devices and sets the co-occurrence probability in the co-occurrence probability table 50. Then, the influence propagation direction determination unit 132 extracts a pair of devices having a co-occurrence probability larger than a threshold (for example, “0.7”) as a pair of devices having a co-occurrence relationship.
  • a threshold for example, “0.7”
  • the influence propagation direction determination unit 132 determines that the direction from the previous message output device to the subsequent message output device in the co-occurrence relationship is the influence propagation direction.
  • FIG. 14 is a flowchart illustrating an example of the procedure of influence propagation direction determination processing. In the following, the process illustrated in FIG. 14 will be described in order of step number.
  • the influence propagation direction determination unit 132 reads the message log of each software from the operation state information storage unit 120.
  • the influence propagation direction determination unit 132 performs message co-occurrence analysis for each combination of devices based on the message log for each software.
  • the influence propagation direction determination unit 132 determines whether or not there is a co-occurrence relationship between devices for at least one combination. If there is a co-occurrence relationship, the influence propagation direction determination unit 132 proceeds with the process to step S204. If there is no co-occurrence relationship, the influence propagation direction determination unit 132 ends the influence propagation direction determination process.
  • the influence propagation direction determination unit 132 creates the co-occurrence device lists 51, 52,. A pair of devices having a co-occurrence relationship is set in the co-occurrence device list 51, 52,. At this time, the influence propagation direction determination unit 132 creates influence propagation model information 141, 142,... For each software based on the common influence propagation model information 140-1. For example, the influence propagation direction determination unit 132 sets each of the plurality of copies of the common influence propagation model information 140-1 as the influence propagation model information 141, 142,.
  • the influence propagation direction determination unit 132 selects one unselected co-occurrence device list.
  • the influence propagation direction determination unit 132 selects one device pair (co-occurrence pair) having a co-occurrence relationship from the selected co-occurrence device list.
  • the influence propagation direction determination unit 132 performs direction assignment processing on the selected co-occurrence pair on the influence propagation model information of the same software as the selected co-occurrence device list. Details of the direction giving process will be described later (see FIG. 15).
  • Step S208 The influence propagation direction determination unit 132 determines whether there is an unselected co-occurrence pair among the co-occurrence pairs registered in the selected co-occurrence list. If there is an unselected co-occurrence pair, the influence propagation direction determination unit 132 proceeds with the process to step S206. If there is no unselected co-occurrence pair, the influence propagation direction determination unit 132 proceeds with the process to step S209.
  • Step S209 The influence propagation direction determination unit 132 determines whether there is an unselected co-occurrence device list. If there is an unselected co-occurrence device list, the influence propagation direction determination unit 132 proceeds with the process to step S205. If there is no unselected co-occurrence device list, the influence propagation direction determination unit 132 ends the influence propagation direction determination process.
  • FIG. 15 is a flowchart illustrating an example of the procedure of the direction assignment process. In the following, the process illustrated in FIG. 15 will be described in order of step number.
  • Step S ⁇ b> 211 The influence propagation direction determination unit 132 reads the route list 43 from the memory 102.
  • Step S212 The influence propagation direction determination unit 132 extracts a route including the co-occurrence pair selected in Step S206 from the route list 43.
  • the influence propagation direction determination unit 132 determines whether or not the order of the co-occurrence pairs is the same as the registration order in the route list 43.
  • the device set on the left in the co-occurrence device list is the influence source (order is first), and the device set on the right is the influence destination (after order).
  • the route list 43 the order of the devices on the left side is first, and the order of the devices on the right side is later. If the order is the same, the influence propagation direction determination unit 132 proceeds with the process to step S214. If the order is reversed, the influence propagation direction determination unit 132 proceeds with the process to step S215.
  • the influence propagation direction determination unit 132 sets the right direction column of the record including the pair of devices corresponding to the selected co-occurrence pair in the influence propagation model for the same software as the selected co-occurrence list. A value “1” indicating that there is an influence propagation is set. Thereafter, the direction giving process ends.
  • the influence propagation direction determination unit 132 sets the left direction column of the record including the device pair corresponding to the selected co-occurrence pair in the influence propagation model for the same software as the selected co-occurrence list. A value “1” indicating that there is an influence propagation is set. Thereafter, the direction giving process ends.
  • the influence propagation direction when a failure occurs is set in the influence propagation model information 141, 142,.
  • the influence propagation direction is determined based on the message log output when the software is executed, and the influence propagation direction cannot be determined for a device that does not record the software message log. Therefore, the influence propagation direction complementing unit 133 performs the effect propagation direction complementing process.
  • the influence propagation direction complementing process will be described with reference to FIGS.
  • FIG. 16 is a diagram illustrating an example of supplementing the influence propagation direction.
  • FIG. 16 shows an information transmission path from the device A to the device B. Then, the influence propagation direction is extracted from the co-occurrence relationship of the output messages in a part of the information transmission path. In the example of FIG. 16, the influence of the failure is propagated from the device C to the device D.
  • the influence of the failure is further propagated downstream in the extracted influence propagation direction. Furthermore, it can be estimated that the propagation of the influence of the failure ends at the device at the end of the information transmission path. Further, it can be estimated that the influence of the failure does not propagate on the upstream side of the extracted influence propagation direction.
  • the influence propagation direction complementing unit 133 complements the influence propagation direction toward the downstream device in the influence propagation direction in the route in which the influence propagation directions extracted from the logs overlap in the information transmission route.
  • the influence propagation direction from the device D to the device B is complemented.
  • FIG. 17 is a diagram illustrating an example of a complementary pattern in the influence propagation direction.
  • the devices on the information transmission path are arranged in the order registered in the path list 43.
  • the left device is the first device and the right device is the first device in the route list 43.
  • the influence propagation direction is the right direction (direction from the first end device to the second end device) as in the case of the software of the name “soft a”, the influence is applied to the right direction of the second end device.
  • the propagation direction is complemented.
  • the influence propagation direction is the left direction (direction from the second end device to the first end device) as in the case of the software of the name “soft b”, the influence is applied to the left direction of the first end device.
  • the propagation direction is complemented.
  • the co-occurrence relationship may be detected by the same device, as in the case of the software with the name “soft c” and the software with the name “soft d”. In this case, the influence propagation direction is supplemented for each software.
  • the influence of the failure is propagated, for example, through communication during software execution. Therefore, the influence propagation direction of certain software may be supplemented up to the device in which the software is installed. However, there may be cases where different software works in conjunction. In that case, the influence propagates between the linked software. Therefore, the influence propagation direction may be supplemented across a plurality of software operating in conjunction with each other.
  • the effect propagation direction is not supplemented to the devices C and A in which the software is not mounted.
  • the influence propagation direction based on the co-occurrence relationship is set and the software of the name “software f” is installed.
  • the influence propagation direction is supplemented within the range.
  • FIG. 18 is a flowchart illustrating an example of the procedure of influence propagation direction complement processing. In the following, the process illustrated in FIG. 18 will be described in order of step number.
  • the influence propagation direction complementing unit 133 reads one unprocessed influence propagation model information.
  • the influence propagation direction complementing unit 133 selects one record indicating a connection relationship between two devices included in the influence propagation model information.
  • the influence propagation direction complementing unit 133 checks whether the influence propagation direction is rightward or leftward. For example, the influence propagation direction complementing unit 133 acquires the value in the right column and the value in the left column of the selected record.
  • Step S304 The influence propagation direction complementing unit 133 determines whether either the value in the right column or the value in the left column is greater than zero. If at least one of the values is greater than 0, the influence propagation direction complementing unit 133 proceeds with the process to step S305. If both values are 0, the influence propagation direction complementing unit 133 proceeds with the process to step S307.
  • the influence propagation direction complementing unit 133 stores information (right or left) indicating the direction of influence propagation in the memory. If a value greater than 0 is set in the right column, information indicating the right is stored, and if a value greater than 0 is set in the left column, information indicating the left Is stored.
  • the influence propagation direction complementing unit 133 performs a direction complementing process. Details of the direction complementing process will be described later (see FIG. 19).
  • the direction of influence propagation corresponding to the influence propagation that could not be detected in the co-occurrence relationship is added to the influence propagation model information 141, 142,.
  • Step S307 The influence propagation direction complementing unit 133 determines whether or not all connection relationships in the read influence propagation model information have been selected. If there is an unselected connection relationship, the influence propagation direction complementing unit 133 proceeds with the process to step S302. Further, if all the connection relationships have been selected, the influence propagation direction complementing unit 133 proceeds with the process to step S308.
  • the influence propagation direction complementing unit 133 determines whether or not the processing of all the influence propagation model information 141, 142,.
  • the influence propagation direction complementing unit 133 ends the influence propagation direction complementing process if the process is completed for all the influence propagation model information 141, 142,. If there is unprocessed influence propagation model information, the influence propagation direction complementing unit 133 proceeds with the process to step S301.
  • FIG. 19 is a flowchart illustrating an example of the procedure of the direction complementing process. In the following, the process illustrated in FIG. 19 will be described in order of step number.
  • Step S311 The influence propagation direction complementing unit 133 reads the route list 43.
  • Step S ⁇ b> 312 The influence propagation direction complementing unit 133 determines from the route list 43 to step S ⁇ b> 312. A route including both devices in the connection relationship selected in 302 is extracted.
  • the influence propagation direction complementing unit 133 identifies the influence propagation direction of the co-occurrence relationship.
  • the influence propagation direction is the direction indicated in the information stored in step S305.
  • the influence propagation direction complementing unit 133 determines whether or not the influence propagation direction is the right direction. If the influence propagation direction complement unit 133 is in the right direction, the process proceeds to step S315. If the influence propagation direction complementing unit 133 is in the left direction, the process proceeds to step S318.
  • Step S315 The influence propagation direction complementing unit 133 determines whether there is a device on the right side on the route extracted in Step S312. If there is a device on the right side, the influence propagation direction complementing unit 133 proceeds with the process to step S316. Further, when there is no device on the right side, the influence propagation direction complementing unit 133 ends the direction complementing process.
  • Step S316 The influence propagation direction complementing unit 133 extracts all the inter-device connection relationships on the right side of the devices having the co-occurrence relationship from the route extracted in Step S312.
  • Step S317 The influence propagation direction complementing unit 133 adds 1 to the value in the right column of the record corresponding to the extracted connection relationship in the influence propagation model information read in Step S301. Thereafter, the direction complementing process ends.
  • Step S318 The influence propagation direction complementing unit 133 determines whether there is a device on the left side on the route extracted in Step S312. If there is a device on the left side, the influence propagation direction complementing unit 133 proceeds with the process to step S319. In addition, when there is no device on the left side, the influence propagation direction complementing unit 133 ends the direction complementing process.
  • Step S319 The influence propagation direction complementing unit 133 extracts all inter-device connection relationships on the left side of the devices having the co-occurrence relationship from the route extracted in Step S312.
  • Step S320 The influence propagation direction complementing unit 133 adds 1 to the value in the left column of the record corresponding to the extracted connection relationship in the influence propagation model information read in Step S301. Thereafter, the direction complementing process ends.
  • FIG. 20 is a flowchart illustrating an example of a weighting process. In the following, the process illustrated in FIG. 20 will be described in order of step number.
  • the influence propagation direction complementing unit 133 reads one piece of influence propagation model information.
  • the influence propagation direction complementing unit 133 selects one connection record from the read influence propagation model information.
  • the influence propagation direction complementing unit 133 sums the values in the fields of the selected record transmission, right direction, and left direction. [Step S324] The influence propagation direction complementing unit 133 stores the total value in the weight column of the selected record.
  • Step S325 The influence propagation direction complementing unit 133 determines whether or not all connection relationships indicated in the read influence propagation model information have been selected. If all the connection relationships have been selected, the influence propagation direction complementing unit 133 proceeds with the process to step S326. If there is an unselected connection relationship, the influence propagation direction complementing unit 133 proceeds with the process to step S322.
  • Step S326 The influence propagation direction complementing unit 133 determines whether or not the processing has been completed for all the influence propagation model information.
  • the influence propagation direction complementing unit 133 ends the weighting process when the process is completed for all the influence propagation model information.
  • the influence propagation direction complementing unit 133 proceeds with the process to step S321.
  • the influence propagation model information is generated as described above.
  • the affected range of the failure is searched based on the generated effect propagation model information, and the affected range is displayed.
  • FIG. 21 is a diagram illustrating a search example of an influence range when a failure occurs.
  • the influence propagation model storage unit 140 stores influence propagation model information 141, 142,... For each software.
  • the influence propagation model information 141 represents a software influence propagation model 61 having the name “software a”.
  • the influence propagation model information 142 represents a software influence propagation model 62 having the name “soft b”.
  • the influence range display unit 170 displays the influence propagation model 61 indicating the influence range of the failure.
  • FIG. 22 is a diagram illustrating an example of an influence propagation model when a plurality of pieces of software operate in conjunction with each other. For example, it is assumed that the software with the name “soft g” and the software with the name “soft h” operate in conjunction with each other.
  • an influence propagation model 65 in which the influence propagation directions in the influence propagation models 63 and 64 of the respective software are integrated is generated.
  • the influence range of the failure is displayed using the influence propagation model 65.
  • the influence propagation direction complementing unit 133 again supplements the influence propagation direction using a plurality of directions by each software.
  • An influence propagation model 65 for a plurality of software is generated.
  • FIG. 23 is a flowchart illustrating an example of the procedure of the failure handling support process.
  • the failure handling support process is executed, for example, when a failure occurrence is automatically detected or when the user inputs failure occurrence information.
  • the process illustrated in FIG. 23 will be described in order of step number.
  • the influence range search unit 160 reads the failure information 71 stored in the failure information supplement folder specified in advance.
  • the failure information 71 is acquired from the monitoring server 30 by the failure information collection unit 150, for example, and stored in the failure information supplement folder.
  • the failure information 71 for example, the name of the software in which the failure has occurred and the name of the device in which the failure has occurred are set for each identifier (ID) of the failure that has occurred.
  • Step S402 Upon acquiring the failure information 71, the influence range searching unit 160 searches for the failure influence range indicated in the failure information 71. Details of the influence range search process will be described later (see FIG. 24). As a result of the influence range search process, an influence range list 72 is generated. Influence range list 7 In 2, a device (affected device) affected by a failure and a weight of the influence of the device are set.
  • the influence range display unit 170 displays the influence range of the failure on the monitor 21 based on the influence range list 72.
  • the influence range display unit 170 displays an influence propagation model that graphically represents the contents shown in the influence range list 72.
  • the influence range display unit 170 displays, for example, a connection line between nodes in the influence propagation model with a thickness corresponding to the weight of a device on the downstream side of the influence propagation via the connection line.
  • the affected range display unit 170 notifies a user such as an administrator of the device and weight affected by the failure.
  • the influence range display unit 170 notifies an identifier of a device whose weight is a predetermined value or more as a device that is highly likely to be affected by the failure.
  • FIG. 24 is a flowchart illustrating an example of the procedure of the influence range search process. In the following, the process illustrated in FIG. 24 will be described in order of step number.
  • the influence range search unit 160 selects one piece of software in which a failure has occurred from the failure information 71.
  • the influence range searching unit 160 selects one of the devices in which a failure has occurred for the selected software from the failure information 71.
  • the influence range search unit 160 determines whether or not a plurality of pieces of software are linked. For example, the influence range search unit 160 determines that a plurality of pieces of software are linked when there is software that operates in conjunction with the selected software and other software designated in advance.
  • the influence range search part 160 advances a process to step S414, when several software is interlock
  • the influence range search part 160 advances a process to step S415, when several software is not interlock
  • the influence range search unit 160 supplements the influence propagation model information of the selected software with the influence propagation by the other software linked to the selected software.
  • the influence range searching unit 160 transmits the records of the influence propagation model information of the selected software, the right propagation direction, the left direction, and the weight propagation column, and the influence propagation model of the other software in which the failure occurs in conjunction with each other. Add the value set in the corresponding record in the information.
  • the influence range searching unit 160 reads the influence propagation model information of the selected software.
  • the influence range search unit 160 traces the connection relationship from the device in which the failure has occurred and searches for the affected device. Details of the search process will be described later (see FIG. 25).
  • Step S417 The influence range search unit 160 determines whether or not all the devices in which the failure of the selected software has occurred have been selected. If all the devices have been selected, the influence range search unit 160 advances the process to step S418. If there is an unprocessed device, the influence range search unit 160 proceeds with the process to step S412.
  • Step S418 The influence range search unit 160 determines whether or not all software in which a failure has occurred has been selected. If all the software has been selected, the influence range search unit 160 advances the process to step S419. If there is unselected software, the influence range search unit 160 proceeds with the process to step S411.
  • the influence range search unit 160 outputs the influence range list 72 indicating the influence range searched by the search process (step S416) as an influence range search result. Next, the search process will be described in detail.
  • FIG. 25 is a flowchart illustrating an example of a procedure of search processing. In the following, the process illustrated in FIG. 25 will be described in order of step number.
  • the affected range search unit 160 sets the device selected in step S412 as an affected device.
  • the influence range search unit 160 determines the connection relationship between adjacent devices including the affected device (a set of the first end device and the second end device) from the influence propagation model information of the software selected in Step S411. Select one.
  • Step S433 The influence range search unit 160 determines whether or not the selected device is the first device in the connection relationship. If the influence range search unit 160 is the first terminal device, the process proceeds to step S434. If the influence range search unit 160 is the second terminal device, the process proceeds to step S436.
  • the influence range search unit 160 determines whether or not the value in the right column of the selected connection-related record is greater than zero. If the value in the right column is greater than 0, the influence range search unit 160 advances the process to step S435. If the value in the right column is 0, the influence range search unit 160 advances the process to step S439.
  • Step S435 The influence range search unit 160 adds the second end device in the selected connection relationship to the influence device. Thereafter, the influence range search unit 160 proceeds with the process to step S438.
  • Step S436 The influence range search unit 160 determines whether or not the value in the left column of the selected connection-related record is greater than zero. If the value in the left column is greater than 0, the influence range search unit 160 advances the process to step S437. If the value in the left direction column is 0, the influence range search unit 160 advances the process to step S439.
  • the influence range searching unit 160 adds the first terminal device in the selected connection relationship to the influence device.
  • the affected range search unit 160 outputs the affected device and the weight of the record including the connection relation from which the affected device is extracted to the affected range list 72.
  • the influence range search unit 160 determines whether or not the influence propagation model information of the selected software has an unselected connection relationship including the affected device. If there is an unselected connection relationship, the influence range search unit 160 advances the process to step S432. If there is no unselected connection relationship, the influence range search unit 160 ends the search process.
  • FIG. 26 is a diagram illustrating a display example of the fault influence range.
  • FIG. 26 shows a network configuration display screen 81 when no failure has occurred and a network configuration display screen 82 after the failure has occurred.
  • a failure has occurred in the device A.
  • the influence of the failure is propagated to the devices C, D, and B.
  • the weight of the influence on the affected device is represented by the thickness of the arrow connected to the device.
  • the administrator can accurately grasp the device affected by the failure.
  • the weight of influence is expressed by the thickness of the line connecting the devices, it is possible to preferentially take measures for the devices that are greatly affected. As a result, failure countermeasures can be implemented efficiently, and adverse effects on system operation due to failures can be reduced.
  • FIG. 27 is a diagram illustrating a display example of the influence propagation range when a plurality of pieces of software are linked.
  • the device in which the influence of the software of the name “software e” propagates and the device of the influence of the software of the name “software f” are highlighted on the network configuration display screen 83.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】ソフトウェアの障害の影響範囲を正確に特定できるようにする。 【解決手段】処理部12は、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定する。次に処理部12は、第1機器と第2機器との間のメッセージの共起確率に基づいて、情報伝達経路内でのソフトウェアの障害の影響の伝搬方向を示す影響伝搬モデル13を生成する。その後、コンピュータは、一ソフトウェアの障害が発生した障害発生機器を示す障害情報14を取得する。そしてコンピュータは、情報伝達経路上を、障害発生機器から、該一ソフトウェアの影響伝搬モデルに示される伝搬方向に辿ることで到達できる機器を、障害発生機器で発生した障害の影響が伝搬する影響機器として特定して、影響機器を示す情報を出力する。

Description

影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
 本発明は、影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置に関する。
 コンピュータネットワークシステムに接続されている機器の多くは、他の機器と連携して動作しており、ある機器の状態が他の機器の状態に依存する場合がある。そのため、システムのある機器で障害が発生した場合、その機器に依存している機器も影響を受ける。影響を受けた機器は、通常よりも稼働が遅くなったり、稼働できなくなったりする。例えば、機器Aがサーバ、機器Bがそのサーバのクライアントの場合、機器Bの動作状態は機器Aの動作状態に依存し、機器Aで障害が発生し停止した場合、機器Bも通常の稼働ができなくなる。特に大規模システムにおいては、多くの機器が依存関係にある。そのため、ある機器で発生した障害の影響は、その機器自身やその機器に直接接続された機器に留まらず、それ以外の多くの機器にまで及ぶ。
 このような状況において、障害が発生した際に、どの機器が影響を受けるのか、その影響範囲をユーザやシステム管理者に速やかに通知することは重要である。
 システム内の機器間の影響関係の有無は、例えば機器のリソースの使用状況の相関関係の有無によって判断することができる。例えば2台の装置間でCPU(Central Processing Unit)の負荷が大きくなるタイミングが一致している場合、その2台の装置はCPU
の使用状況の相関関係がある。このような2台の装置は、一方が他方に依存している可能性が高い。
 また、機器間の影響関係の有無を、ログの共起関係によって判断することもできる。例えば、2台の装置それぞれにおいて、ほぼ同じタイミングでエラーログなどのメッセージが出力されている場合、それらの装置はログの共起関係がある。ログの共起関係が存在する2台の装置は、一方が他方に依存している可能性が高い。
 装置間の影響関係の調査に関する技術としては、例えば、システム障害の原因と予想される機能要素である障害原因機能要素を特定する障害解析装置がある。また、障害発生箇所とその原因をわかりやすく提示することを可能とする運用管理装置もある。さらに、機器間またはサービス間の依存関係情報を自動的に収集、蓄積し、依存関係管理の負荷を軽減すると共に、障害発生時などに影響を受ける機器の特定と障害重要性の把握を行う依存関係情報収集システムもある。さらに障害予防・復旧処理を行う高可用コンピュータシステムにおいて、障害予防・復旧処理の効果と影響を考慮して、処理の実行可否や実行順序を最適化するコンピュータシステムの制御方法がある。そして、障害が発生した場合に、障害により影響を受けるテナントおよび通信経路を正確に特定する情報処理システムもある。
国際公開第2010/016239号 国際公開第2010/032701号 特開2006-178834号公報 特開2008-009842号公報 特開2015-211374号公報
 しかし、従来の技術は、ソフトウェアごとの機器間の依存関係の違いが考慮されておらず、ソフトウェアの障害の影響範囲を正しく特定することができない。例えばあるソフトウェアの障害は機器Aから機器Bに伝搬する場合であっても、別のソフトウェアの障害は、機器Bから機器Aに伝搬する場合がある。このようなソフトウェアごとの障害の影響の伝搬方向の違いを考慮せずに障害の影響範囲を判断しても、あるソフトウェアに障害が発生した場合の障害の影響範囲を正確に特定することができない。
 1つの側面では、本発明は、ソフトウェアの障害の影響範囲を正確に特定できるようにすることを目的とする。
 1つの案では、以下の処理をコンピュータに実行させる影響範囲特定プログラムが提供される。
 コンピュータは、ネットワークに含まれる複数の機器の接続関係を示すシステム構成情報と、複数の機器それぞれのリソースの使用状況の時間変化を示す使用リソース情報とに基づいて、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定する。次にコンピュータは、複数の機器が複数のソフトウェアそれぞれを実行することで出力したメッセージを蓄積したメッセージログに基づいて、複数のソフトウェアそれぞれについて、情報伝達経路上の第1機器がソフトウェアを実行することでメッセージを出力した後一定時間以内に、第1機器に隣接する第2機器がソフトウェアを実行することでメッセージを出力する確率を示す共起確率が閾値以上の場合、情報伝達経路内でのソフトウェアの障害の影響伝搬方向として、第1機器から第2機器への方向が設定された影響伝搬モデルを生成する。その後、コンピュータは、複数のソフトウェアのうちの一ソフトウェアの障害が発生した障害発生機器を示す障害情報を取得する。するとコンピュータは、情報伝達経路上を、障害発生機器から、一ソフトウェアの影響伝搬モデルに示される影響伝搬方向に辿ることで到達できる機器を、障害発生機器で発生した障害の影響が伝搬する影響機器として特定し、影響機器を示す情報を出力する。
 1態様によれば、ソフトウェアの障害の影響範囲を正確に特定できる。
第1の実施の形態に係るシステムの構成例を示す図である。 第2の実施の形態のシステム構成例を示す図である。 第2の実施の形態に用いる管理サーバのハードウェアの一構成例を示す図である。 管理サーバの障害影響範囲検出機能を示すブロック図である。 動作状態情報記憶部に格納される情報の一例を示す図である。 影響伝搬モデル記憶部に格納される情報の一例を示す図である。 影響伝搬モデル作成処理の手順の一例を示すフローチャートである。 情報伝達経路の検出手法を示す図である。 情報伝達経路が重複する例を示す図である。 情報伝達経路検出処理の手順の一例を示すフローチャートである。 経路抽出処理の手順の一例を示すフローチャートである。 経路決定処理の手順の一例を示すフローチャートである。 影響伝搬方向判定例を示す図である。 影響伝搬方向判定処理の手順の一例を示すフローチャートである。 方向付与処理の手順の一例を示すフローチャートである。 影響伝搬方向補完例を示す図である。 影響伝搬方向の補完パターンの例を示す図である。 影響伝搬方向補完処理の手順の一例を示すフローチャートである。 方向補完処理の手順の一例を示すフローチャートである。 重み付け処理の手順の一例を示すフローチャートである。 障害発生時の影響範囲の探索例を示す図である。 複数のソフトが連動して動作する場合の影響伝搬モデルの例を示す図である。 障害対応支援処理の手順の一例を示すフローチャートである。 影響範囲探索処理の手順の一例を示すフローチャートである。 探索処理の手順の一例を示すフローチャートである。 障害の影響範囲表示例を示す図である。 複数のソフトが連動している場合の影響伝搬範囲の表示例を示す図である。
 以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
 〔第1の実施の形態〕
 まず、第1の実施の形態について説明する。なお、以下の説明では、ソフトウェアを単に「ソフト」と呼ぶこととする。
 図1は、第1の実施の形態に係るシステムの構成例を示す図である。複数の機器M1~M4を含むネットワークNに影響範囲特定装置10が接続されている。影響範囲特定装置10は、いずれかの機器で実行されているソフトに障害が発生した場合に、その障害の影響範囲を特定する装置である。影響範囲特定装置10は、例えば障害の影響範囲を特定する処理手順が記述された影響範囲特定プログラムを実行するコンピュータである。
 影響範囲特定装置10は、記憶部11と処理部12とを有する。記憶部11は、例えば影響範囲特定装置10が有するメモリまたはストレージ装置である。処理部12は、例えば影響範囲特定装置10が有するプロセッサである。
 記憶部11は、システム構成情報11a、機器ごとの使用リソース情報11b-1,11b-2,・・・、および管理対象となるソフトごとのメッセージログ11c-1,11c-2,・・・を記憶する。システム構成情報11aは、ネットワークNに含まれる複数の機器M1~M4の接続関係を示す情報である。使用リソース情報11b-1,11b-2,・・・は、複数の機器M1~M4それぞれのリソースの使用状況の時間変化を示す情報である。メッセージログ11c-1,11c-2,・・・は、複数の機器M1~M4が対応するソフトを実行することで出力したメッセージを蓄積した情報である。なお、図1の例では、ソフトごとのメッセージログ11c-1,11c-2,・・・としているが、各メッセージに、そのメッセージの出力原因となるソフトの識別子が設定されていれば、システム全体で1つのメッセージログを保持してもよい。
 処理部12は、記憶部11に記憶された情報に基づいて、以下の処理を行う。
 まず処理部12は、システム構成情報11aと、使用リソース情報11b-1,11b-2,・・・とに基づいて、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定する。例えば処理部12は、2つの機器それぞれのリソースの使用状況の時系列変化の相関係数を計算し、相関係数が所定値以上の場合、その2つの機器の間に、リソースの使用状況の相関関係があると判断する。2つの機器の間にリソースの使用状況の相関関係がある場合、その2つの機器間で情報交換が行われ、連携して動
作しているものと考えられる。そこで処理部12は、相関関係を有する2つの機器間の通信経路を、情報の伝達に使用される情報伝達経路であると判定する。
 次に処理部12は、メッセージログ11c-1,11c-2,・・・に基づいて、影響伝搬モデル13を生成する。例えば処理部12は、複数のソフトそれぞれについて、第1機器と第2機器との間のメッセージ出力の共起確率を計算する。共起確率は、情報伝達経路上の第1機器がソフトを実行することでメッセージを出力した後一定時間以内に、第1機器に隣接する第2機器がソフトを実行することでメッセージを出力する確率である。
 処理部12は、共起確率が閾値以上の場合、情報伝達経路内での対応するソフトの障害の影響伝搬方向として、第1機器から第2機器への方向が設定された、そのソフトの影響伝搬モデル13を生成する。例えば処理部12は、共起確率が閾値以上の関係(共起関係)にある第1機器と第2機器との間の影響伝搬モデル13上での接続関係である第1隣接接続関係に対して、第1機器から第2機器の方向への伝搬方向を設定する。さらに処理部12は、情報伝達経路上を、第2機器から、第1機器とは反対の方向に辿り、辿った経路上の機器間の影響伝搬モデル13上での接続関係である第2隣接接続関係に対して、辿った方向に沿った伝搬方向を設定する。図1の例では、機器Cが第1機器であり、機器Bが第2機器である。この場合、処理部12は、影響伝搬モデル13に対して、機器Cから機器Bへの方向を、影響の伝搬方向として設定する。さらに処理部12は、第2機器である機器Bから、第1機器である機器Cと反対方向に情報伝達経路を辿ることで、辿った経路上に、機器Aと機器Bとの隣接接続関係を検出する。すると処理部12は、情報伝達経路を辿った方向に沿って、機器Bから機器Aへの方向を、影響の伝搬方向として補完する。
 その後、処理部12は、複数のソフトのうちの一ソフトの障害が発生した障害発生機器を示す障害情報14を取得する。障害情報14を取得した処理部12は、情報伝達経路上を、障害発生機器から、一ソフトの影響伝搬モデルに示される影響伝搬方向に辿ることで到達できる機器を、障害発生機器で発生した障害の影響が伝搬する影響機器として特定する。そして処理部12は、影響機器を示す影響機器情報15を出力する。
 このようにして、ソフトごとに影響伝搬モデル13を作成し、障害が発生したソフトに対応する影響伝搬モデル13を用いて障害の影響を受ける機器を特定することで、障害の影響範囲が正確に特定される。障害の影響範囲の特定が正確に行われることで、障害の対応を効率的に行うことができる。
 しかも、機器間のリソース使用状況の相関関係と、出力メッセージの共起関係とを組み合わせたことで、障害の影響を受けない機器を、障害の影響を受ける機器として誤って特定することが抑止されている。すなわち、機器のリソースの使用状況の相関関係を用いる方法では、障害が影響する伝搬方向を考慮していないため、本来ならば障害発生から影響が及ぶ伝搬方向下流側の機器を影響範囲と特定すべきところ、影響を受けない上流側の機器も検出してしまう。そこで処理部12は、ログの共起関係を用いて影響の伝搬方向を定めておき、障害が発生した機器から、影響の伝搬方向に辿った機器のみを、障害の影響を受ける機器として特定する。これにより、障害が発生した機器から、影響の伝搬方向と反対方向に接続されている機器は、情報伝達経路内にあっても、障害の影響を受ける機器として出力されない。その結果、障害の影響範囲の特定精度が向上する。
 なお、処理部12は、影響伝搬モデル13の生成において、隣接する機器間の影響伝搬モデル13上での接続関係を示す複数の隣接接続関係それぞれに対し、隣接接続関係を経由する情報伝達経路の数に応じた重みを設定してもよい。重みを設定した場合、処理部12は、影響機器情報15を出力する際に、隣接接続関係の重みを示す情報を出力する。これにより、ソフトの障害に対処する際に、重要性の高い機器から順に対処し、対処を効率
的に実施することができる。
 また処理部12は、2以上のソフトが関連する障害についての障害情報を取得した場合には、2以上のソフトそれぞれの影響伝搬モデル13から影響機器を特定してもよい。これにより、連携して動作する複数のソフトが関与する障害について、効率的に対処することができる。
 〔第2の実施の形態〕
 次に第2の実施の形態について説明する。
 図2は、第2の実施の形態のシステム構成例を示す図である。ネットワーク20には、監視対象の機器として、例えばサーバ31a,31b,・・・、端末装置32a,32b,・・・、ストレージ装置33a,33b,・・・、ネットワーク機器34a,34b,・・・などがある。これらの機器は、監視サーバ30によって監視されている。監視サーバ30は、ネットワーク20上の機器を監視するコンピュータである。監視サーバ30は、例えば各機器から、CPUやメモリの使用状況を示す情報を定期的に取得する。また監視サーバ30は、各機器で動作しているソフトが出力したメッセージのログを、各機器から取得する。さらに監視サーバ30は、各機器の故障を検知する。例えば監視サーバ30は、各機器に対して生存確認のための信号を定期的に送信し、その信号に対して所定期間以上応答しない機器について、故障していると判定する。
 管理サーバ100は、監視サーバ30から情報を取得し、いずれかの機器が故障した場合に、その故障に影響範囲を検出する。
 図3は、第2の実施の形態に用いる管理サーバのハードウェアの一構成例を示す図である。管理サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)
である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
 メモリ102は、管理サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に必要な各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
 バス109に接続されている周辺機器としては、ストレージ装置103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
 ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
 グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置
などがある。
 入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
 光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD
-R(Recordable)/RW(ReWritable)などがある。
 機器接続インタフェース107は、管理サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
 ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
 以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した装置も、図3に示した管理サーバ100と同様のハードウェアにより実現することができる。
 管理サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。管理サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、管理サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また管理サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
 次に、管理サーバ100が有する障害影響範囲検出機能について説明する。
 図4は、管理サーバの障害影響範囲検出機能を示すブロック図である。管理サーバ100は、動作状態情報収集部110、動作状態情報記憶部120、影響伝搬モデル作成部130、影響伝搬モデル記憶部140、障害情報収集部150、影響範囲探索部160、および影響範囲表示部170を有する。
 動作状態情報収集部110は、システム内の機器の動作状態に関する情報を、監視サーバ30を介して収集する。例えば動作状態情報収集部110は、システムの構成情報、各機器のリソースの使用状況を示す使用リソース情報、メッセージログなどを収集する。動
作状態情報収集部110は、例えば、システム稼働初期に加え、システムの大規模な変更時や、月1回といった定期的なタイミングで、情報収集を行う。
 動作状態情報記憶部120は、動作状態情報収集部110が収集した情報を記憶する。例えば動作状態情報記憶部120は、システム構成情報121、使用リソース情報122、メッセージログ123などを記憶する。
 影響伝搬モデル作成部130は、動作状態情報記憶部120に格納されている情報に基づいて、ソフトごとの影響伝搬モデルを作成する。影響伝搬モデル作成部130は、情報伝達経路検出部131、影響伝搬方向判定部132、および影響伝搬方向補完部133を有している。
 情報伝達経路検出部131は、装置間のリソースの使用状況の相関分析を行い、相関関係を有する装置間の通信経路を、情報伝達経路として検出する。
 影響伝搬方向判定部132は、隣接する装置間のメッセージの共起関係を分析し、影響の伝搬方向を判定する。例えば影響伝搬方向判定部132は、一方の装置でメッセージが出力された後、所定時間内に、高確率で他方の装置でもメッセージが出力される場合、先にメッセージを出力した装置から、後にメッセージを出力した装置へ影響が伝搬すると判定する。
 影響伝搬方向補完部133は、影響伝搬方向判定部132によって検出できなかった影響の伝搬経路を補完する。例えば影響伝搬方向補完部133は、情報伝達経路検出部131で抽出した情報伝達経路を、影響伝搬方向判定部132で判定した影響伝搬方向の下流に辿り、情報伝達経路の末端までの下流側の機器にむけて、影響伝搬方向を補完する。
 影響伝搬モデル記憶部140は、影響伝搬モデル作成部130で作成された影響伝搬モデルを示す、ソフトごとの影響伝搬モデル情報141,142,・・・を記憶する。
 障害情報収集部150は、いずれかの機器で発生した障害を示す障害情報を、監視サーバ30から収集する。
 影響範囲探索部160は、障害情報収集部150が障害情報を収集すると、影響伝搬モデル情報141,142,・・・に基づいて、障害の影響範囲を探索する。
 影響範囲表示部170は、探索した影響範囲を表示する。また影響範囲表示部170は、指定した管理者やユーザに、障害の発生および影響範囲を通知することもできる。
 なお、図4に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図4に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。なお動作状態情報記憶部120と影響伝搬モデル記憶部140とは、管理サーバ100のメモリ102またはストレージ装置103の記憶領域の一部を用いて実現される。
 次に、動作状態情報記憶部120に格納される情報について詳細に説明する。
 図5は、動作状態情報記憶部に格納される情報の一例を示す図である。動作状態情報記憶部120には、管理対象の機器の接続関係を示すシステム構成情報121が格納されている。システム構成情報121には、直接接続された2つの機器のペアが複数登録されている。
 また動作状態情報記憶部120には、機器ごとの使用リソース情報122a,122b,・・・が格納されている。使用リソース情報122a,122b,・・・は、対応する
機器のCPUやメモリなどのリソースの使用状況を定期的に測定した結果が含まれる。CPUに関する使用状況であれば、一定時間ごとのCPUの使用率の時系列で使用リソース情報122a,122b,・・・に示される。またメモリに関する使用状況であれば、一定時間ごとの使用メモリ容量が使用リソース情報122a,122b,・・・に示される。
 さらに動作状態情報記憶部120には、ソフトの種別ごとのメッセージログ123a,123b,・・・が格納されている。例えばメッセージログ123aは、名称「ソフトa」のソフトを実行することによって、複数の機器それぞれで出力されたメッセージが含まれている。各メッセージには、例えば出力した時刻、出力機器、メッセージ種別、メッセージ内容などの情報が含まれる。
 次に、影響伝搬モデル記憶部140に格納される情報について詳細に説明する。
 図6は、影響伝搬モデル記憶部に格納される情報の一例を示す図である。影響伝搬モデル記憶部140には、ソフトごとの影響伝搬モデル情報141,142,・・・が格納されている。例えば影響伝搬モデル情報141は、名称「ソフトa」のソフトについての影響伝搬モデルを示す情報である。影響伝搬モデル情報141には、例えば、2台の機器の接続関係ごとのレコードが登録されている。各レコードには、ID、第1端の機器、第2端の機器、伝達、右方向、左方向、および重みの欄が設けられている。
 IDの欄には、接続関係の識別子(接続関係ID)が設定される。第1端の機器の欄には、接続関係における一方の端の機器の名称が設定される。第2端の機器の欄には、接続関係における他方の端第2端の機器の名称が設定される。伝達の欄には、対応する接続関係を情報伝達経路として使用している機器ペアの数が設定される。右方向の欄には、第1端の機器から第2端の機器へ影響が伝搬するか否かを示すフラグが設定される。第1端の機器から第2端の機器へ影響が伝搬する場合、右方向の欄に「1」が設定され、伝搬しない場合、該当欄に「0」が設定される。左方向の欄には、第2端の機器から第1端の機器へ影響が伝搬するか否かを示すフラグが設定される。第2端の機器から第1端の機器へ影響が伝搬する場合、左方向の欄に「1」が設定され、伝搬しない場合、該当欄に「0」が設定される。重みの欄には、障害の影響の強さを示す値(重み)が設定される。
 このような影響伝搬モデル情報141により、影響伝搬モデル41が定義されている。影響伝搬モデル41は、例えば各機器がノードで表され、接続関係を有するノード間が線で接続されている。例えば影響伝搬モデル41では、線の太さによって、対応する接続関係の重みが表される。また影響伝搬モデル41では、接続している線を一方の端の矢印によって、影響の伝搬方向が表されている。
 以上の構成のシステムにより、影響伝搬モデルが作成され、障害発生時には、発生した障害の影響が及ぶ範囲が、影響伝搬モデルを用いて表示される。
 次に、収集された動作状態情報に基づく、影響伝搬モデルの作成手順について詳細に説明する。
 図7は、影響伝搬モデル作成処理の手順の一例を示すフローチャートである。なお影響伝搬モデル作成処理は、例えばユーザによる影響伝搬モデル作成指示の入力に応じて開始される。また、予め設定された時刻に、影響伝搬モデル作成処理を開始することもできる。さらに、一定時間間隔で、定期的に影響伝搬モデル作成処理を実行してもよい。以下、図7に示す処理をステップ番号に沿って説明する。
 [ステップS101]影響伝搬モデル作成部130内の情報伝達経路検出部131は、動作状態情報記憶部120からシステム構成情報121を読み込む。
 [ステップS102]情報伝達経路検出部131は、情報伝達経路検出処理を実行する。情報伝達経路検出処理の詳細は後述する(図10参照)。情報伝達経路検出処理により、各影響伝搬モデル情報141,142,・・・における伝達の欄に値が設定される。
 [ステップS103]影響伝搬モデル作成部130内の影響伝搬方向判定部132は、影響伝搬方向判定処理を実行する。影響伝搬方向判定処理の詳細は後述する(図14参照)。
 [ステップS104]影響伝搬モデル作成部130内の影響伝搬方向補完部133は、影響伝搬方向判定処理の判定結果を用いて、未判定の経路の影響伝搬方向を推定し、影響伝搬方向を補完する。影響伝搬方向補完処理の詳細は後述する(図18参照)。
 [ステップS105]影響伝搬方向補完部133は、接続関係の重み付け処理を行う。重み付け処理の詳細は後述する(図20参照)。
 このような手順で、図6に示したようなソフトごとの影響伝搬モデル情報141,142,・・・を作成することができる。以下、図7に示すステップS102~S105の各処理について詳細に説明する。
 以下、図8~図12を参照して、情報伝達経路検出処理について説明する。
 図8は、情報伝達経路の検出手法を示す図である。第2の実施の形態では、情報伝達経路の検出に、機器間の使用リソースの相関分析を用いる。相関分析とは、2つの変数間の相関関係を数値化することである。相関関係を示す数値は、相関係数と呼ばれる。相関係数は、例えばピアソンの積率相関係数である。相関係数の値が大きいほど、2つの変数間に高い相関関係があることを示す。
 情報伝達経路検出部131は、管理対象の機器のうちの2つの機器の組み合わせすべてについて、相関分析を行う。例えば情報伝達経路検出部131は、機器Aと機器Bとの相関分析を行う場合、機器Aの使用リソース情報122aと機器Bの使用リソース情報122bとの間の相関係数を計算する。相関係数が所定の閾値(例えば「0.7」)より大きければ、機器Aと機器Bとのリソース使用状況に相関があることになる。なお図8の例では、相関があるか否かの閾値を「0.7」としているが、この値は一例であり、「0.5」などの別の値を閾値として用いてもよい。
 リソースの使用状況に相関がある機器間では、連携した処理に伴う情報伝達が行われているものと考えられる。そこで情報伝達経路検出部131は、相関がある機器間の通信経路を、情報伝達経路として検出する。この情報伝達経路は、単に通信が可能な経路ではなく、実際の運用において、相手装置に影響を与える情報通信が行われた経路である。すなわち接続関係の構成図上で2つの装置間に経路が存在していても、その経路は情報伝達経路ではない場合がある。この経路は、物理的に接続されてはいるが、実際にはあまり使用されていない経路、または設計時は接続されていたが、現在は接続されていない経路などである。
 なお、図8に示すように、リソースの使用状況の相関を有する機器間の経路を情報伝達経路として検出していくと、一部の経路が重複して検出されることもある。
 図9は、情報伝達経路が重複する例を示す図である。重複して検出された経路は、機器間の影響を及ぼしあう情報伝達を行っている可能性がより高くなる。そこで情報伝達経路検出部131は、相関がある経路が複数重なるものほど、関係が強いものとして重み付けする。隣接する機器間の接続経路ごとに、その経路を経由する情報伝達経路の数を重み付けの数値とし、その数値を該当接続経路の伝達の値として用いる。
 図9の例では、機器A、機器C、機器D、機器Bの順で各機器が接続されている。そして機器Aと機器Bとの間に相関があり、機器Aと機器Dとの間にも相関がある。この場合、機器Aと機器Cとの間の接続経路を経由する情報伝達経路数は2である。そこで機器Aと機器Cとの接続経路に対して、伝達の値として「2」が設定される。同様に、機器Cと機器Dとの間の接続経路を経由する情報伝達経路数は2である。そこで機器Cと機器Dとの接続経路に対して、伝達の値として「2」が設定される。また機器Dと機器Bとの間の区間の重複する情報伝達経路数は1である。そこで機器Dと機器Bとの接続経路に対して、伝達の値として「1」が設定される。
 このように、機器間のリソースの使用状況の相関分析による情報伝達経路が検出され、隣接する装置間の接続関係の伝達の値として、その接続関係を経由する情報伝達経路の数に応じた値が設定される。
 以下、情報伝達経路検出処理の手順を詳細に説明する。
 図10は、情報伝達経路検出処理の手順の一例を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。
 [ステップS111]情報伝達経路検出部131は、動作状態情報記憶部120からシステム構成情報121を読み込む。
 [ステップS112]情報伝達経路検出部131は、システム構成情報121に基づいて、接続関係の末端の機器から他の末端の機器までの通信の経路を抽出する。この経路抽出処理の詳細は後述する(図11参照)。経路抽出処理により、抽出された経路を示す経路リストが作成される。
 [ステップS113]情報伝達経路検出部131は、隣接する機器間の接続関係を抽出し、共通影響伝搬モデル情報140-1に設定する。例えば情報伝達経路検出部131は、初期状態の共通影響伝搬モデル情報140-1を作成する。そして情報伝達経路検出部131は、システム構成情報121に基づいて、接続関係を有する機器ペアそれぞれにIDを付与し、機器ペアそれぞれに対応するレコードを、共通影響伝搬モデル情報140-1に追加する。情報伝達経路検出部131は、追加されるレコードの第1の機器と第2端の機器とに、そのレコードに対応する機器ペアに含まれる機器の名称を設定する。この際、情報伝達経路検出部131は、ステップS112で作成した機器リストに示される経路において、左側の機器を第1端の機器、右側の機器を第2端の機器とする。この時点では、共通影響伝搬モデル情報140-1に登録された各レコードの右方向、左方向、および重みの欄の値は「0」である。情報伝達経路検出部131は、作成した共通影響伝搬モデル情報140-1をメモリ102に格納する。
 [ステップS114]情報伝達経路検出部131は、システム内に含まれる機器をリストアップしたノードリスト42を作成する。ノードリスト42には、各機器の名称が、重複を排除して登録されている。
 [ステップS115]情報伝達経路検出部131は、ノードリスト42から未選択の機器を1つ選択する。
 [ステップS116]情報伝達経路検出部131は、選択した機器と他の機器との使用リソース情報112を用いて、相関分析を行う。
 [ステップS117]情報伝達経路検出部131は、相関のある他の機器の有無を判断する。情報伝達経路検出部131は、相関のある他の機器がある場合、処理をステップS118に進める。また情報伝達経路検出部131は、相関のある他の機器がない場合、処理をステップS119に進める。
 [ステップS118]情報伝達経路検出部131は、相関のある他の機器それぞれについて、選択した機器と他の機器との間の情報伝達経路を探索する経路決定処理を行う。経路決定処理の詳細は後述する(図12参照)。経路決定処理の結果、共通影響伝搬モデル情報140-1における各レコードの伝達の欄に、対応する接続関係を経由する情報伝達経路の数に応じた値が設定される。
 [ステップS119]情報伝達経路検出部131は、ノードリスト42内に未選択のノードがあるか否かを判断する。情報伝達経路検出部131は、未選択のノードがあれば、処理をステップS115に進める。また情報伝達経路検出部131は、未選択のノードがなければ、情報伝達経路検出処理を終了する。
 次に、経路抽出処理について詳細に説明する。
 図11は、経路抽出処理の手順の一例を示すフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。
 [ステップS131]情報伝達経路検出部131は、システム構成情報121を読み込む。
 [ステップS132]情報伝達経路検出部131は、システム構成情報121に基づいて機器間の接続関係を把握し、末端の機器から他の末端の機器までの通信経路を示し経路リスト43を作成する。末端の機器とは、直接接続されている隣接機器が1台のみの機器である。
 例えば複数の機器が経路モデル44に示すような接続関係で接続されている場合、機器A、機器B、機器2が末端の機器となる。この場合、機器Aから機器Bまでの経路、機器Aから機器2までの経路、および機器2から機器Bまでの経路それぞれを示す経路情報が、経路リスト43に登録される。経路リスト43に登録される経路情報には経路IDが付与される。そして経路情報には、経路の末端の機器から、他方の末端の機器まで経路を辿ったときに経由する機器の名称が設定される。
 情報伝達経路検出部131は、作成した経路リスト43をメモリ102に格納し、経路抽出処理を終了する。
 次に、経路決定処理について詳細に説明する。
 図12は、経路決定処理の手順の一例を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。
 [ステップS141]情報伝達経路検出部131は、経路リスト43をメモリから読み込む。
 [ステップS142]情報伝達経路検出部131は、ステップS116における相関分析によって相関があると判断された2つの機器の両方を含む経路情報を、経路リスト43から抽出する。
 [ステップS143]情報伝達経路検出部131は、抽出した経路情報に基づいて、相関のある2つの機器、およびそれらの機器に挟まれる機器から、隣接する機器の組み合わせを抽出する。
 [ステップS144]情報伝達経路検出部131は、メモリ102から、共通影響伝搬モデル情報を読み込む。
 [ステップS145]影響伝搬モデル記憶部140は、共通影響伝搬モデル情報140
-1内の抽出した機器の組み合わせに対応するレコードの伝達の値に1を加算する。
 例えば経路モデル44に示す接続関係において、機器Aと機器Bとに相関があり、機器Bと機器Dとにも相関があるものとする。この場合、機器Aと機器Cとの組に対応するレコードの伝達の値は「1」である。機器Cと機器Dとの組に対応するレコードの伝達の値も「1」である。機器Dと機器Bとの組に対応するレコードの伝達の値は「2」である。また機器2と機器Aの間の接続関係は、情報伝達経路として使用されていないため、機器2と機器Aとの組に対応するレコードの伝達の値は「0」である。
 以上のようにして、情報伝搬経路の検出が行われ、その結果が共通影響伝搬モデル情報140-1に設定される。
 次に、図13~図15を参照して、影響伝搬方向判定処理について説明する。
 図13は、影響伝搬方向判定例を示す図である。図13には、名称「ソフトa」のソフトに関する共起関係の判定例が示されている。影響伝搬方向の判定には、メッセージの共起関係が用いられる。
 例えば判定対象のソフトのメッセージログ123aに基づいて、各機器がどの時刻にメッセージを出力したのかが判明する。そこで影響伝搬方向判定部132は、ある機器がメッセージを出力した後の所定の期間内に、他の機器がメッセージを出力する確率を計算し、共起確率とする。
 例えば影響伝搬方向判定部132は、先にメッセージを出力する機器を事前メッセージ出力機器、後にメッセージを出力する機器を事後メッセージ出力機器として、それらの機器のペアごとのレコードを登録した共起確率表50を作成する。その後、影響伝搬方向判定部132は、機器のペアごとに共起確率を計算し、共起確率表50に設定する。そして影響伝搬方向判定部132は、共起確率が閾値(例えば「0.7」)より大きい機器のペアを、共起関係がある機器のペアとして抽出する。
 共起関係がある機器のペアが検出された場合、その機器のペアにおける事前メッセージ出力機器から事後メッセージ出力機器へ、障害などの影響が伝搬すると予想できる。そこで影響伝搬方向判定部132は、共起関係における事前メッセージ出力機器から事後メッセージ出力機器の方向が、影響伝搬方向であると判定する。
 図14は、影響伝搬方向判定処理の手順の一例を示すフローチャートである。以下、図14に示す処理をステップ番号に沿って説明する。
 [ステップS201]影響伝搬方向判定部132は、動作状態情報記憶部120から、各ソフトのメッセージログを読み込む。
 [ステップS202]影響伝搬方向判定部132は、ソフトごとにメッセージログに基づいて、機器の組み合わせごとのメッセージの共起分析を行う。
 [ステップS203]影響伝搬方向判定部132は、少なくとも1つの組み合わせについて、機器間に共起関係があるか否かを判断する。影響伝搬方向判定部132は、共起関係がある場合、処理をステップS204に進める。また影響伝搬方向判定部132は、共起関係がない場合、影響伝搬方向判定処理を終了する。
 [ステップS204]影響伝搬方向判定部132は、ソフトごとの共起機器リスト51,52,・・・を作成する。共起機器リスト51,52,・・・には、共起関係を有する機器のペアが設定される。この際、影響伝搬方向判定部132は、共通影響伝搬モデル情報140-1に基づいて、ソフトごとの影響伝搬モデル情報141,142,・・・を作
成する。例えば影響伝搬方向判定部132は、共通影響伝搬モデル情報140-1の複数のコピーそれぞれを、ソフトごとの影響伝搬モデル情報141,142,・・・とする。
 [ステップS205]影響伝搬方向判定部132は、未選択の共起機器リストを1つ選択する。
 [ステップS206]影響伝搬方向判定部132は、選択した共起機器リストから、共起関係を有する機器のペア(共起ペア)を1つ選択する。
 [ステップS207]影響伝搬方向判定部132は、選択した共起機器リストと同じソフトの影響伝搬モデル情報に対して、選択した共起ペアに関する方向付与処理を行う。方向付与処理の詳細は後述する(図15参照)。
 [ステップS208]影響伝搬方向判定部132は、選択した共起リストに登録されている共起ペアのうち、未選択の共起ペアがあるか否かを判断する。影響伝搬方向判定部132は、未選択の共起ペアがある場合、処理をステップS206に進める。また影響伝搬方向判定部132は、未選択の共起ペアがなければ、処理をステップS209に進める。
 [ステップS209]影響伝搬方向判定部132は、未選択の共起機器リストがあるか否かを判断する。影響伝搬方向判定部132は、未選択の共起機器リストがあれば、処理をステップS205に進める。また影響伝搬方向判定部132は、未選択の共起機器リストがなければ、影響伝搬方向判定処理を終了する。
 次に、方向付与処理について詳細に説明する。
 図15は、方向付与処理の手順の一例を示すフローチャートである。以下、図15に示す処理をステップ番号に沿って説明する。
 [ステップS211]影響伝搬方向判定部132は、メモリ102から経路リスト43を読み込む。
 [ステップS212]影響伝搬方向判定部132は、経路リスト43から、ステップS206で選択した共起ペアを含む経路を抽出する。
 [ステップS213]影響伝搬方向判定部132は、共起ペアの順序が経路リスト43における登録順と同じか否かを判断する。共起ペアの順序は、共起機器リストにおいて左に設定されている機器が影響元(順序が先)、右に設定されている機器が影響先(順序が後)である。経路リスト43では、左側の機器の順序が先であり、右側の機器の順序が後である。影響伝搬方向判定部132は、順序が同じであれば、処理をステップS214に進める。また影響伝搬方向判定部132は、順序が逆であれば、処理をステップS215に進める。
 [ステップS214]影響伝搬方向判定部132は、選択している共起リストと同じソフトに関する影響伝搬モデルにおける、選択されている共起ペアに対応する機器のペアを含むレコードの右方向の欄に、影響の伝搬があることを示す値「1」を設置する。その後、方向付与処理が終了する。
 [ステップS215]影響伝搬方向判定部132は、選択している共起リストと同じソフトに関する影響伝搬モデルにおける、選択されている共起ペアに対応する機器のペアを含むレコードの左方向の欄に、影響の伝搬があることを示す値「1」を設置する。その後、方向付与処理が終了する。
 以上のようにして、影響伝搬モデル情報141,142,・・・に、障害発生時の影響
伝搬方向が設定される。しかし、影響伝搬方向の判定は、ソフトの実行時に出力されるメッセージのログに基づいており、ソフトのメッセージのログを記録していない機器については、影響伝搬方向を判定できない。そこで、影響伝搬方向補完部133により、影響伝搬方向の補完処理が行われる。以下、図16~図19を参照して、影響伝搬方向補完処理について説明する。
 図16は、影響伝搬方向補完例を示す図である。図16には、機器Aから機器Bまでの情報伝達経路を示している。そして、情報伝達経路の一部で、出力されるメッセージの共起関係などから影響伝搬方向が抽出されている。図16の例では、機器Cから機器Dの方向へ、障害の影響が伝搬されていく。
 ここで、情報は下流側に伝搬されていくため、抽出された影響伝搬方向の下流側では、さらに下流に障害の影響が伝搬するものと推定できる。さらに、障害の影響の伝搬は、情報伝達経路の末端の機器で終了するものと推定できる。また、抽出された影響伝搬方向の上流側は、障害の影響は伝搬しないものと推定できる。
 そこで影響伝搬方向補完部133は、情報伝達経路のうち、ログで抽出した影響伝搬方向が重なっている経路における影響伝搬方向の下流側の機器に向けて、影響伝搬方向を補完する。図16の例では、機器Dから機器Bへの影響伝搬方向が補完される。
 図17は、影響伝搬方向の補完パターンの例を示す図である。図17では、情報伝達経路上の各機器が、経路リスト43に登録されている順番で並べられているものとする。情報伝達経路上の隣接する機器のペアは、影響伝搬モデル情報141,142,・・・に登録されるとき、経路リスト43の並びにおいて左側の機器が第1端の機器、右側の機器が第2端の機器となる。
 名称「ソフトa」のソフトの場合のように、影響伝搬方向が右方向(第1端の機器から第2端の機器への方向)であれば、第2端の機器の右方向に、影響伝搬方向が補完される。名称「ソフトb」のソフトの場合のように、影響伝搬方向が左方向(第2端の機器から第1端の機器への方向)であれば、第1端の機器の左方向に、影響伝搬方向が補完される。
 また名称「ソフトc」のソフトと名称「ソフトd」のソフトの場合のように、同じ機器で共起関係が検出される場合もある。この場合、それぞれのソフトについて、影響伝搬方向が補完される。
 なお、障害の影響は、例えばソフト実行時に通信が行われることによって伝搬する。そのため、あるソフトの影響伝搬方向の補完は、そのソフトが実装されている機器までで留めてもよい。ただし、異なるソフトが連動して動作している場合も考えられる。その場合、連動しているソフト間で影響が伝搬する。そこで、連動して動作する複数のソフトを跨がって、影響伝搬方向を補完してもよい。
 例えば名称「ソフトe」のソフトと名称「ソフトd」のソフトとが、連動して動作している場合を考える。名称「ソフトe」のソフトは、機器D、機器E、機器Fには実装されているが、機器C、機器Aには実装されていないものとする。それに対して、名称「ソフトf」のソフトは、機器A、機器C、機器Dに実装されているものとする。このとき、名称「ソフトe」のソフトについて、機器Fと機器Eとで共起関係があり、左方向の影響伝搬があると判定されると、機器Dまでの影響伝搬方向の補完が行われる。名称「ソフトe」のソフトだけを考慮した場合、そのソフトが実装されていない機器C、機器Aへは、影響伝搬方向の補完は行われない。しかし名称「ソフトf」のソフトについて、機器Dと機
器Cとで共起関係があれば、その共起関係の基づく影響伝搬方向が設定されると共に、名称「ソフトf」のソフトが実装されている範囲内で影響伝搬方向が補完される。そして、障害発生時に、連動して動作する複数のソフトの障害影響範囲を重ね合わせて表示することで、障害の影響範囲を正しく表示することができる。
 次に、影響伝搬方向補完処理について詳細に説明する。
 図18は、影響伝搬方向補完処理の手順の一例を示すフローチャートである。以下、図18に示す処理をステップ番号に沿って説明する。
 [ステップS301]影響伝搬方向補完部133は、未処理の影響伝搬モデル情報を1つ読み込む。
 [ステップS302]影響伝搬方向補完部133は、影響伝搬モデル情報に含まれる2つの機器の接続関係を示すレコードを1つ選択する。
 [ステップS303]影響伝搬方向補完部133は、影響伝搬方向が右方向か左方向かをチェックする。例えば影響伝搬方向補完部133は、選択したレコードの右方向の欄の値と左方向の欄の値とを取得する。
 [ステップS304]影響伝搬方向補完部133は、右方向の欄の値または左方向の欄の値のいずれかが、0より大きいか否かを判断する。影響伝搬方向補完部133は、少なくともいずれか一方の値が0より大きい場合、処理をステップS305に進める。影響伝搬方向補完部133は、両方の値が共に0であれば、処理をステップS307に進める。
 [ステップS305]影響伝搬方向補完部133は、影響伝搬の方向を示す情報(右または左)をメモリに格納する。0より大きい値が設定されているのが右方向の欄であれば、右を示す情報が格納され、0より大きい値が設定されているのが左方向の欄であれば、左を示す情報が格納される。
 [ステップS306]影響伝搬方向補完部133は、方向補完処理を行う。方向補完処理の詳細は後述する(図19参照)。方向補完処理により、共起関係では検出できなかった影響伝搬に対応する影響伝搬の方向が、影響伝搬モデル情報141,142,・・・に追加される。
 [ステップS307]影響伝搬方向補完部133は、読み込んだ影響伝搬モデル情報内のすべての接続関係を選択したか否かを判断する。影響伝搬方向補完部133は、未選択の接続関係があれば、処理をステップS302に進める。また影響伝搬方向補完部133は、すべての接続関係が選択済みであれば、処理をステップS308に進める。
 [ステップS308]影響伝搬方向補完部133は、すべての影響伝搬モデル情報141,142,・・・の処理が完了したか否かを判断する。影響伝搬方向補完部133は、すべての影響伝搬モデル情報141,142,・・・について処理が完了していれば、影響伝搬方向補完処理を終了する。また影響伝搬方向補完部133は、未処理の影響伝搬モデル情報があれば、処理をステップS301に進める。
 次に、方向補完処理について詳細に説明する。
 図19は、方向補完処理の手順の一例を示すフローチャートである。以下、図19に示す処理をステップ番号に沿って説明する。
 [ステップS311]影響伝搬方向補完部133は、経路リスト43を読み込む。
 [ステップS312]影響伝搬方向補完部133は、経路リスト43から、ステップS
302で選択した接続関係の両方の機器を含む経路を抽出する。
 [ステップS313]影響伝搬方向補完部133は、共起関係の影響伝搬方向を特定する。影響伝搬方向は、ステップS305で格納した情報に示される方向である。
 [ステップS314]影響伝搬方向補完部133は、影響伝搬の方向が右方向か否かを判断する。影響伝搬方向補完部133は、右方向であれば処理をステップS315に進める。また影響伝搬方向補完部133は、左方向であれば処理をステップS318に進める。
 [ステップS315]影響伝搬方向補完部133は、ステップS312で抽出した経路上で右側に機器があるか否かを判断する。影響伝搬方向補完部133は、右側に機器がある場合、処理をステップS316に進める。また影響伝搬方向補完部133は、右側に機器がない場合、方向補完処理を終了する。
 [ステップS316]影響伝搬方向補完部133は、ステップS312で抽出した経路から、共起関係有する機器の右側の機器間接続関係をすべて抽出する。
 [ステップS317]影響伝搬方向補完部133は、ステップS301で読み込んだ影響伝搬モデル情報内の、抽出した接続関係に対応するレコードの右方向の欄の値に1を加算する。その後、方向補完処理が終了する。
 [ステップS318]影響伝搬方向補完部133は、ステップS312で抽出した経路上で左側に機器があるか否かを判断する。影響伝搬方向補完部133は、左側に機器がある場合、処理をステップS319に進める。また影響伝搬方向補完部133は、左側に機器がない場合、方向補完処理を終了する。
 [ステップS319]影響伝搬方向補完部133は、ステップS312で抽出した経路から、共起関係を有する機器の左側の機器間接続関係をすべて抽出する。
 [ステップS320]影響伝搬方向補完部133は、ステップS301で読み込んだ影響伝搬モデル情報内の、抽出した接続関係に対応するレコードの左方向の欄の値に1を加算する。その後、方向補完処理が終了する。
 以上のようにして、影響伝搬方向の補完処理が行われる。影響伝搬方向補完処理完了後、隣接する機器間の接続関係に対して重み付けが行われる。
 図20は、重み付け処理の手順の一例を示すフローチャートである。以下、図20に示す処理をステップ番号に沿って説明する。
 [ステップS321]影響伝搬方向補完部133は、影響伝搬モデル情報を1つ読み込む。
 [ステップS322]影響伝搬方向補完部133は、読み込んだ影響伝搬モデル情報から、1つの接続関係のレコードを選択する。
 [ステップS323]影響伝搬方向補完部133は、選択したレコードの伝達、右方向、および左方向の欄の値を合計する。
 [ステップS324]影響伝搬方向補完部133は、選択したレコードの重み欄に合計値を格納する。
 [ステップS325]影響伝搬方向補完部133は、読み込んだ影響伝搬モデル情報に示されるすべての接続関係を選択したか否かを判断する。影響伝搬方向補完部133は、すべての接続関係が選択済みであれば、処理をステップS326に進める。また影響伝搬方向補完部133は、未選択の接続関係があれば、処理をステップS322に進める。
 [ステップS326]影響伝搬方向補完部133は、すべての影響伝搬モデル情報について処理が完了したか否かを判断する。影響伝搬方向補完部133は、すべての影響伝搬モデル情報について処理が完了した場合、重み付け処理を終了する。影響伝搬方向補完部133は、未処理の影響伝搬モデル情報がある場合、処理をステップS321に進める。
 以上のようにして影響伝搬モデル情報が生成される。そして、いずれかの機器で障害が発生すると、生成された影響伝搬モデル情報に基づいて障害の影響範囲が探索され、影響範囲が表示される。
 以下、図21~図27を参照し、障害発生時の障害対応支援処理について説明する。障害発生時には、障害解析の支援のため、障害の影響範囲が探索される。
 図21は、障害発生時の影響範囲の探索例を示す図である。影響伝搬モデル記憶部140には、ソフトごとの影響伝搬モデル情報141,142,・・・が格納されている。例えば影響伝搬モデル情報141は、名称「ソフトa」のソフトの影響伝搬モデル61を表している。また影響伝搬モデル情報142は、名称「ソフトb」のソフトの影響伝搬モデル62を表している。
 ここで、例えば機器Cにおいて「ソフトa」についての障害が発生すると、その障害に関する情報が障害情報収集部150で取得され、影響範囲探索部160により障害の影響範囲が探索される。そして影響範囲表示部170により、障害の影響範囲を示す影響伝搬モデル61が表示される。このような影響伝搬モデル61を表示することで、管理者は、影響が大きい機器から順に対策を施し、障害の対策を効率的に行うことができる。
 なお、障害が検出されたソフトと連動して動作する他のソフトが存在する場合がある。その場合、各ソフトそれぞれの影響範囲を影響伝搬モデルが表示される。
 図22は、複数のソフトが連動して動作する場合の影響伝搬モデルの例を示す図である。例えば名称「ソフトg」のソフトと名称「ソフトh」のソフトとが連動して動作するものとする。複数のソフトが連動して動作する場合、それぞれのソフトの影響伝搬モデル63,64における影響の伝搬方向を統合した影響伝搬モデル65が生成される。そして障害発生時には、影響伝搬モデル65を用いて、障害の影響範囲が表示される。
 障害発生時には、複数のソフトの影響伝搬を反映させた影響伝搬モデル65が生成されていない場合、各ソフトによる複数の方向を用いて、再度、影響伝搬方向補完部133が影響伝搬方向を補完し、複数のソフトについての影響伝搬モデル65が生成される。
 次に、障害対応支援処理の手順について詳細に説明する。
 図23は、障害対応支援処理の手順の一例を示すフローチャートである。障害対応支援処理は、例えば障害発生が自動検知された場合、またはユーザが障害発生情報を入力した場合に実行される。以下、図23に示す処理をステップ番号に沿って説明する。
 [ステップS401]影響範囲探索部160は、予め指定された障害情報補完フォルダに格納されている障害情報71を読み取る。障害情報71は、例えば障害情報収集部150により監視サーバ30から取得され、障害情報補完フォルダに格納されている。障害情報71には、例えば発生した障害の識別子(ID)ごとに、障害が発生したソフトの名称と、障害が発生した機器の名称とが設定されている。
 [ステップS402]影響範囲探索部160は、障害情報71を取得すると、障害情報71に示される障害の影響範囲を探索する。影響範囲探索処理の詳細は後述する(図24参照)。影響範囲探索処理の結果、影響範囲リスト72が生成される。影響範囲リスト7
2は、障害の影響を受ける機器(影響機器)と、その機器の影響の重みとが設定されている。
 [ステップS403]影響範囲表示部170は、影響範囲リスト72に基づいて、障害の影響範囲をモニタ21に表示する。例えば影響範囲表示部170は、影響範囲リスト72に示される内容を図で表した影響伝搬モデルを表示する。影響範囲表示部170は、例えば影響伝搬モデルにおけるノード間の接続線を、その接続線を経由する影響伝搬の下流側の機器の重みに応じた太さで表示する。
 [ステップS404]影響範囲表示部170は、管理者などのユーザに、障害の影響を受ける機器と重みを通知する。例えば影響範囲表示部170は、重みが所定値以上の機器の識別子を、障害の影響を受ける可能性が高い機器として通知する。
 次に、影響範囲探索処理について説明する。
 図24は、影響範囲探索処理の手順の一例を示すフローチャートである。以下、図24に示す処理をステップ番号に沿って説明する。
 [ステップS411]影響範囲探索部160は、障害情報71から、障害が発生したソフトのうちの1つを選択する。
 [ステップS412]影響範囲探索部160は、障害情報71から、選択したソフトについての障害が発生した機器のうちの1つを選択する。
 [ステップS413]影響範囲探索部160は、複数のソフトが連動しているか否かを判断する。例えば影響範囲探索部160は、選択したソフトと連動して動作するものと予め指定された他のソフトが存在する場合、複数のソフトが連動していると判断する。影響範囲探索部160は、複数のソフトが連動している場合、処理をステップS414に進める。また影響範囲探索部160は、複数のソフトが連動していない場合、処理をステップS415に進める。
 [ステップS414]影響範囲探索部160は、選択したソフトと連動している他のソフトによる影響伝搬を、選択したソフトの影響伝搬モデル情報に補完する。例えば影響範囲探索部160は、選択したソフトの影響伝搬モデル情報の各レコードの伝達、右方向、左方向、および重みの欄に、連動して障害が発生している他のソフトの影響伝搬モデル情報における対応するレコードに設定されている値を加算する。
 [ステップS415]影響範囲探索部160は、選択したソフトの影響伝搬モデル情報を読み込む。
 [ステップS416]影響範囲探索部160は、障害が発生した機器から接続関係を辿り、影響を受ける機器を探索する。探索処理の詳細は後述する(図25参照)。
 [ステップS417]影響範囲探索部160は、選択したソフトの障害が発生したすべての機器を選択したか否かを判断する。影響範囲探索部160は、すべての機器が選択済みの場合、処理をステップS418に進める。また影響範囲探索部160は、未処理の機器がある場合、処理をステップS412に進める。
 [ステップS418]影響範囲探索部160は、障害が発生したすべてのソフトを選択したか否かを判断する。影響範囲探索部160は、すべてのソフトが選択済みの場合、処理をステップS419に進める。また影響範囲探索部160は、未選択のソフトがある場合、処理をステップS411に進める。
 〔ステップS419〕影響範囲探索部160は、探索処理(ステップS416)により探索された影響範囲を示す影響範囲リスト72を、影響範囲探索結果として出力する。
 次に、探索処理について詳細に説明する。
 図25は、探索処理の手順の一例を示すフローチャートである。以下、図25に示す処理をステップ番号に沿って説明する。
 [ステップS431]影響範囲探索部160は、ステップS412で選択した機器を、影響機器とする。
 [ステップS432]影響範囲探索部160は、ステップS411で選択したソフトの影響伝搬モデル情報から、影響機器を含む隣接機器間の接続関係(第1端の機器と第2端の機器との組)を1つ選択する。
 [ステップS433]影響範囲探索部160は、選択した機器が、接続関係における第1端の機器か否かを判断する。影響範囲探索部160は、第1端の機器であれば、処理をステップS434に進める。また影響範囲探索部160は、第2端の機器であれば、処理をステップS436に進める。
 [ステップS434]影響範囲探索部160は、選択した接続関係のレコードの右方向の欄の値が0より大きいか否かを判断する。影響範囲探索部160は、右方向の欄の値が0より大きい場合、処理をステップS435に進める。また影響範囲探索部160は、右方向の欄の値が0であれば、処理をステップS439に進める。
 [ステップS435]影響範囲探索部160は、選択した接続関係における第2端の機器を影響機器に追加する。影響範囲探索部160は、その後、処理をステップS438に進める。
 [ステップS436]影響範囲探索部160は、選択した接続関係のレコードの左方向の欄の値が0より大きいか否かを判断する。影響範囲探索部160は、左方向の欄の値が0より大きい場合、処理をステップS437に進める。また影響範囲探索部160は、左方向の欄の値が0であれば、処理をステップS439に進める。
 [ステップS437]影響範囲探索部160は、選択した接続関係における第1端の機器を影響機器に追加する。
 [ステップS438]影響範囲探索部160は、影響機器と、その影響機器の抽出元となった接続関係を含むレコードの重みとを、影響範囲リスト72へ出力する。
 [ステップS439]影響範囲探索部160は、選択したソフトの影響伝搬モデル情報に、影響機器を含む未選択の接続関係があるか否かを判断する。影響範囲探索部160は、未選択の接続関係がある場合、処理をステップS432に進める。また影響範囲探索部160は、未選択の接続関係がなければ、探索処理を終了する。
 以上のようにして、障害発生時には、障害対応支援処理として、障害の影響範囲が表示される。
 図26は、障害の影響範囲表示例を示す図である。図26には、障害は発生していないときのネットワーク構成表示画面81と、障害が発生した後のネットワーク構成表示画面82とを示している。図26の例では、機器Aで障害が発生している。そして、機器C、機器D、機器Bに障害の影響が伝搬していることが、ネットワーク構成表示画面82上で示されている。また影響を受ける機器についての影響の重みが、その機器に接続する矢印の太さで表されている。
 このように表示されることで、管理者は、障害の影響を受ける機器を正確に把握できる。しかも影響の重みが機器間を接続する線の太さで表されているため、大きな影響を受ける機器について、優先的に対策を施すことができる。その結果、障害の対策を効率的に実施できると共に、障害によるシステム運用への悪影響を少なく抑えることができる。
 複数のソフトの連動した動作により影響が伝搬している場合、それらを統合した影響伝搬範囲が表示される。
 図27は、複数のソフトが連動している場合の影響伝搬範囲の表示例を示す図である。図27の例では、名称「ソフトe」のソフトによる影響が伝搬する機器と、名称「ソフトf」のソフトによる影響が伝搬する機器とが、ネットワーク構成表示画面83において強調表示されている。これにより、複数のソフトが連動して影響が伝搬し、機器5で発生した障害の影響が機器Bにまで及ぶことを、ユーザが容易に認識できる。
 以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
 10 影響範囲特定装置
 11 記憶部
 11a システム構成情報
 11b-1,11b-2,・・・ 使用リソース情報
 11c-1,11c-2,・・・ メッセージログ
 12 処理部
 13 影響伝搬モデル
 14 障害情報
 15 影響機器情報

Claims (6)

  1.  コンピュータに、
     ネットワークに含まれる複数の機器の接続関係を示すシステム構成情報と、前記複数の機器それぞれのリソースの使用状況の時間変化を示す使用リソース情報とに基づいて、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定し、
     前記複数の機器が複数のソフトウェアそれぞれを実行することで出力したメッセージを蓄積したメッセージログに基づいて、前記複数のソフトウェアそれぞれについて、前記情報伝達経路上の第1機器がソフトウェアを実行することでメッセージを出力した後一定時間以内に、前記第1機器に隣接する第2機器が前記ソフトウェアを実行することでメッセージを出力する確率を示す共起確率が閾値以上の場合、前記情報伝達経路内での前記ソフトウェアの障害の影響伝搬方向として、前記第1機器から前記第2機器への方向が設定された影響伝搬モデルを生成し、
     前記複数のソフトウェアのうちの一ソフトウェアの障害が発生した障害発生機器を示す障害情報を取得し、
     前記情報伝達経路上を、前記障害発生機器から、前記一ソフトウェアの前記影響伝搬モデルに示される影響伝搬方向に辿ることで到達できる機器を、前記障害発生機器で発生した障害の影響が伝搬する影響機器として特定し、
     前記影響機器を示す情報を出力する、
     処理を実行させる影響範囲特定プログラム。
  2.  前記影響伝搬モデルの生成では、前記第1機器と前記第2機器との間の前記影響伝搬モデル上での接続関係である第1隣接接続関係に対して、前記第1機器から前記第2機器の方向への伝搬方向を設定し、前記情報伝達経路上を、前記第2機器から、前記第1機器とは反対の方向に辿り、辿った経路上の機器間の前記影響伝搬モデル上での接続関係である第2隣接接続関係に対して、辿った方向に沿った伝搬方向を設定する、
     請求項1記載の影響範囲特定プログラム。
  3.  前記影響伝搬モデルの生成では、隣接する機器間の前記影響伝搬モデル上での接続関係を示す複数の隣接接続関係それぞれに対し、隣接接続関係を経由する前記情報伝達経路の数に応じた重みを設定し、
     前記出力では、前記隣接接続関係の重みを示す情報を出力する、
     請求項1または2のいずれかに記載の影響範囲特定プログラム。
  4.  前記影響機器の特定では、2以上のソフトウェアが関連する障害についての障害情報を取得したとき、前記2以上のソフトウェアそれぞれの前記影響伝搬モデルから前記影響機器を特定する、
     請求項1ないし3のいずれかに記載の影響範囲特定プログラム。
  5.  コンピュータが、
     ネットワークに含まれる複数の機器の接続関係を示すシステム構成情報と、前記複数の機器それぞれのリソースの使用状況の時間変化を示す使用リソース情報とに基づいて、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定し、
     前記複数の機器が複数のソフトウェアそれぞれを実行することで出力したメッセージを蓄積したメッセージログに基づいて、前記複数のソフトウェアそれぞれについて、前記情報伝達経路上の第1機器がソフトウェアを実行することでメッセージを出力した後一定時間以内に、前記第1機器に隣接する第2機器が前記ソフトウェアを実行することでメッセージを出力する確率を示す共起確率が閾値以上の場合、前記情報伝達経路内での前記ソフ
    トウェアの障害の影響伝搬方向として、前記第1機器から前記第2機器への方向が設定された影響伝搬モデルを生成し、
     前記複数のソフトウェアのうちの一ソフトウェアの障害が発生した障害発生機器を示す障害情報を取得し、
     前記情報伝達経路上を、前記障害発生機器から、前記一ソフトウェアの前記影響伝搬モデルに示される影響伝搬方向に辿ることで到達できる機器を、前記障害発生機器で発生した障害の影響が伝搬する影響機器として特定し、
     前記影響機器を示す情報を出力する、
     影響範囲特定方法。
  6.  ネットワークに含まれる複数の機器の接続関係を示すシステム構成情報、前記複数の機器それぞれのリソースの使用状況の時間変化を示す使用リソース情報、および前記複数の機器が複数のソフトウェアそれぞれを実行することで出力したメッセージを蓄積したメッセージログを記憶する記憶部と、
     前記システム構成情報と前記複数の機器それぞれの前記使用リソース情報とに基づいて、リソースの使用状況の相関関係を有する2つの機器間の通信経路を、情報伝達経路と判定し、前記メッセージログに基づいて、前記複数のソフトウェアそれぞれについて、前記情報伝達経路上の第1機器がソフトウェアを実行することでメッセージを出力した後一定時間以内に、前記第1機器に隣接する第2機器が前記ソフトウェアを実行することでメッセージを出力する確率を示す共起確率が閾値以上の場合、前記情報伝達経路内での前記ソフトウェアの障害の影響伝搬方向として、前記第1機器から前記第2機器への方向が設定された影響伝搬モデルを生成し、前記複数のソフトウェアのうちの一ソフトウェアの障害が発生した障害発生機器を示す障害情報を取得し、前記情報伝達経路上を、前記障害発生機器から、前記一ソフトウェアの前記影響伝搬モデルに示される影響伝搬方向に辿ることで到達できる機器を、前記障害発生機器で発生した障害の影響が伝搬する影響機器として特定し、前記影響機器を示す情報を出力する、処理部と、
     を有する影響範囲特定装置。
PCT/JP2017/046678 2017-01-18 2017-12-26 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置 WO2018135254A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/290,454 US10977108B2 (en) 2017-01-18 2019-03-01 Influence range specifying method, influence range specifying apparatus, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017006312A JP6820473B2 (ja) 2017-01-18 2017-01-18 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
JP2017-006312 2017-01-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/290,454 Continuation US10977108B2 (en) 2017-01-18 2019-03-01 Influence range specifying method, influence range specifying apparatus, and storage medium

Publications (1)

Publication Number Publication Date
WO2018135254A1 true WO2018135254A1 (ja) 2018-07-26

Family

ID=62908466

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/046678 WO2018135254A1 (ja) 2017-01-18 2017-12-26 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Country Status (3)

Country Link
US (1) US10977108B2 (ja)
JP (1) JP6820473B2 (ja)
WO (1) WO2018135254A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN115277357A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 网络故障分析方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995485B (zh) * 2019-12-02 2022-03-04 黑龙江大学 一种无拓扑结构的社交消息传播范围预测方法
US11456911B1 (en) * 2021-09-01 2022-09-27 Jpmorgan Chase Bank, N.A. System and method for implementing a platform and language agnostic smart resiliency module

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004346A (ja) * 2004-06-21 2006-01-05 Fujitsu Ltd パターン検出プログラム
JP2007235897A (ja) * 2006-01-31 2007-09-13 Intec Netcore Inc ネットワーク監視装置及び方法
JP2008003709A (ja) * 2006-06-20 2008-01-10 Mitsubishi Electric Corp 管理装置及びタスク管理方法及びプログラム
JP2010009411A (ja) * 2008-06-27 2010-01-14 Hitachi Information Systems Ltd 仮想化環境運用支援システム及び仮想環境運用支援プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552447B2 (en) * 2004-05-26 2009-06-23 International Business Machines Corporation System and method for using root cause analysis to generate a representation of resource dependencies
US7631222B2 (en) * 2004-08-23 2009-12-08 Cisco Technology, Inc. Method and apparatus for correlating events in a network
JP2006178834A (ja) 2004-12-24 2006-07-06 Mitsubishi Electric Corp 依存関係情報収集システム及び依存関係情報収集方法
JP4859558B2 (ja) 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
JP5423677B2 (ja) 2008-08-04 2014-02-19 日本電気株式会社 障害解析装置、コンピュータプログラムおよび障害解析方法
JP5217820B2 (ja) * 2008-09-12 2013-06-19 富士通株式会社 支援プログラム、支援装置および支援方法
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
CN102143008A (zh) * 2010-01-29 2011-08-03 国际商业机器公司 用于数据中心的诊断故障事件的方法及装置
US8862927B2 (en) * 2011-08-09 2014-10-14 Symantec Corporation Systems and methods for fault recovery in multi-tier applications
US10162696B2 (en) * 2013-01-31 2018-12-25 Entit Software Llc Dependency monitoring
US9558056B2 (en) * 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
JP2015211374A (ja) 2014-04-28 2015-11-24 富士通株式会社 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
US9639411B2 (en) * 2015-07-24 2017-05-02 Bank Of America Corporation Impact notification system
US10083073B2 (en) * 2015-09-14 2018-09-25 Dynatrace Llc Method and system for real-time causality and root cause determination of transaction and infrastructure related events provided by multiple, heterogeneous agents
US10095569B2 (en) * 2015-11-02 2018-10-09 Servicenow, Inc. System and method for generating a graphical display region indicative of conditions of a computing infrastructure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004346A (ja) * 2004-06-21 2006-01-05 Fujitsu Ltd パターン検出プログラム
JP2007235897A (ja) * 2006-01-31 2007-09-13 Intec Netcore Inc ネットワーク監視装置及び方法
JP2008003709A (ja) * 2006-06-20 2008-01-10 Mitsubishi Electric Corp 管理装置及びタスク管理方法及びプログラム
JP2010009411A (ja) * 2008-06-27 2010-01-14 Hitachi Information Systems Ltd 仮想化環境運用支援システム及び仮想環境運用支援プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN115277357A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 网络故障分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20190196897A1 (en) 2019-06-27
US10977108B2 (en) 2021-04-13
JP6820473B2 (ja) 2021-01-27
JP2018116444A (ja) 2018-07-26

Similar Documents

Publication Publication Date Title
WO2018135254A1 (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
US9652318B2 (en) System and method for automatically managing fault events of data center
JP6867589B2 (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
WO2010061735A1 (ja) 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
JP6260130B2 (ja) ジョブ遅延検知方法、情報処理装置、およびプログラム
US8892510B2 (en) Analysis-program storing recording medium, analyzing apparatus, and analytic method
JP5692414B2 (ja) 検知装置、検知プログラムおよび検知方法
JP2014067369A (ja) 情報処理装置,プログラム,情報処理方法
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
WO2019142591A1 (ja) 異常検知装置
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
JP6432266B2 (ja) グループ化方法、グループ化装置、およびグループ化プログラム
JP2005258501A (ja) 障害影響範囲解析システム及び障害影響範囲解析方法及びプログラム
JP2007189644A (ja) 管理装置及び管理方法及びプログラム
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
JP2019009726A (ja) 障害切り分け方法および管理サーバ
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP2023136444A (ja) 解析プログラム、解析方法、および情報処理システム
JP7367495B2 (ja) 情報処理装置および通信ケーブルログ情報採取方法
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP5867962B2 (ja) 情報処理装置および故障診断方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17892272

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17892272

Country of ref document: EP

Kind code of ref document: A1