WO2009144825A1 - 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法 - Google Patents

復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法 Download PDF

Info

Publication number
WO2009144825A1
WO2009144825A1 PCT/JP2008/060070 JP2008060070W WO2009144825A1 WO 2009144825 A1 WO2009144825 A1 WO 2009144825A1 JP 2008060070 W JP2008060070 W JP 2008060070W WO 2009144825 A1 WO2009144825 A1 WO 2009144825A1
Authority
WO
WIPO (PCT)
Prior art keywords
work
information
recovery
failure
recovery method
Prior art date
Application number
PCT/JP2008/060070
Other languages
English (en)
French (fr)
Inventor
松原 正純
松本 安英
幸洋 渡辺
邦昭 嶋田
裕二 和田
森本 健司
大塚 浩
昭 勝野
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/060070 priority Critical patent/WO2009144825A1/ja
Priority to JP2010514317A priority patent/JP5024450B2/ja
Priority to GB1020140.8A priority patent/GB2472550B/en
Publication of WO2009144825A1 publication Critical patent/WO2009144825A1/ja
Priority to US12/955,264 priority patent/US8099626B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • H04L41/0856Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information by backing up or archiving configuration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • H04L41/0863Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions by rolling back to previous configuration versions

Definitions

  • the present invention relates to a recovery method management program, a recovery method management apparatus, and a recovery method management method that can present a recovery method for recovering a failure in an IT system including a plurality of servers, for example, to an operator.
  • FIG. 8 is a block diagram showing a schematic configuration inside a conventional recovery method management system.
  • a recovery method management system 100 shown in FIG. 8 includes an IT system 101 including a plurality of servers, an operator terminal 102 that monitors failures in the IT system 101, and a past recovery method database that stores and manages recovery methods for past failures. (Hereinafter simply referred to as DB) 103 and a past recovery method management apparatus 104 that manages the past recovery method DB 103.
  • DB past recovery method management apparatus
  • the operator terminal 102 includes an operation unit 111 for inputting information such as various commands, a display unit 112 for displaying various information, and a recovery operation for a failure in the IT system 101, for example, in response to command input from the operation unit 111 And a terminal control unit 114 for controlling the operator terminal 102 as a whole.
  • the past recovery method management device 104 searches the past recovery method search unit 121 for searching for a past recovery method corresponding to the failure status from the past recovery method DB 103, and this past recovery method search unit. And a recovery method presentation unit 122 that notifies the operator terminal 102 of a past recovery method corresponding to the failure status searched in 121.
  • the operator terminal 102 When the operator terminal 102 acquires a past recovery method corresponding to the failure status through the recovery method presenting unit 122, the operator terminal 102 displays the past recovery method on the display unit 112.
  • the operator terminal 102 can execute a recovery operation for the failure based on the past recovery method corresponding to the failure status being displayed on the display unit 112.
  • the operator terminal 102 notifies the failure status to the past recovery method management device 104, and the past recovery method management device 104 has a failure. Since the past recovery method is searched according to the situation and the searched past recovery method is presented to the operator terminal 102, the operator side does not know the recovery method for the failure in the past recovery method DB 103. Since it is possible to easily obtain a recovery method for a past failure situation that is being stored, the burden on the operator side can be greatly reduced.
  • the present invention has been made in view of the above points, and the purpose of the present invention is to provide a recovery method management program capable of selecting a recovery method for a failure without imposing a burden on the operator even if a failure occurs.
  • a recovery method management apparatus and a recovery method management method To provide a recovery method management apparatus and a recovery method management method.
  • the disclosed program executes a work on a work target in the system when detecting a work start command, and completes a work being executed on the work target when detecting a work completion command, and the work execution procedure
  • the work method information creation procedure for creating work method information indicating the work method for each work target executed in step S3, and when the work start command is detected, the system information before the work start in the system is acquired and the work
  • a completion command is detected, system information after the completion of work is acquired, and system changes before and after the work are determined for each work target based on the obtained difference information between the system information before the start of work and the system information after the completion of work.
  • Law management storage procedures that cause a computer to execute the device to requirements that cause a computer to execute the device to requirements.
  • the disclosure apparatus performs a work on a work target inside the system when detecting a work start command, and detects a work completion command, and completes a work being executed on the work target.
  • a work method information creation unit that creates work method information indicating a work method for each work target executed by the execution unit, and when detecting the work start command, acquires system information before the work start in the system, When the work completion command is detected, system information after completion of work is obtained, and before and after the work for each work object based on the obtained difference information between the system information before work start and the system information after work completion.
  • a work information management storage unit that stores and manages work method information and the pre- and post-work change information created by the pre-work change information creation unit for each work target, and the work method that is stored in the work information management storage unit Based on the information, a recovery method information creation unit that creates a recovery method information indicating a recovery method for each similar recovery work target among the work targets, and the change information before and after the work stored in the work information management storage unit Based on the recovery method before and after the recovery work for each recovery work target, the recovery information before and after the recovery information creation unit, the recovery method information created by the recovery method information creation unit and the change before and after the recovery It is a requirement to have a recovery method management storage unit that stores and manages the change information before and after the recovery created by the information creation unit for each restoration work target.
  • the disclosed method performs a work on a work target in the system when a work start command is detected, and performs a work execution step of completing a work being executed on the work target when detecting a work completion command;
  • a work method information creation step for creating work method information indicating a work method for each work target executed in the execution step and when the work start command is detected, system information before the work start in the system is acquired,
  • system information after completion of work is obtained, and before and after the work for each work object based on the obtained difference information between the system information before work start and the system information after work completion.
  • Pre-work change information creation step for creating pre-work change information related to change, and the work method
  • a work information management storage step for storing and managing the work method information created in the report creation step and the change information before and after work created in the work pre- and post-change information creation step in a work information management storage unit for each work target;
  • a recovery method information creation step of creating recovery method information indicating a recovery method for each similar recovery work object among the work objects, based on the work method information stored in the work information management storage unit;
  • Pre-recovery change information creation step for creating pre-recovery change information related to system changes before and after the recovery work based on the post-work change information stored in the information management storage unit, and the recovery method information creation
  • the recovery method information created in the step and the recovery information before and after the recovery created in the recovery information before and after the recovery step are used as the recovery work.
  • a recovery method managing storage step of storing management in the recovery method managing and storing unit for each elephant, to include a requirement.
  • the work information before and after the work based on the difference information between the system information before the work start and the work completion and the work method information indicating the work method are always obtained for each work target.
  • the management storage unit Stored in the management storage unit, and further related to system changes before and after the recovery work for each similar recovery work target among the work targets based on the work method information and the change information before and after the work stored in the work information management storage unit Change information before and after recovery and recovery method information indicating a recovery method are stored in the recovery method management storage unit.
  • the work method information and the change information before and after the work are always stored in the work information management storage unit for each work object, and the influence of each work on the system is grasped in advance.
  • the recovery method information for each recovery work and the change information before and after the recovery are stored in the recovery method management storage unit, so even if an unknown failure occurs, the stored contents of the recovery method management storage unit are used. Since it becomes possible to select a recovery method (recovery method information) for an unknown failure based on the recovery work target corresponding to the failure and the change information before and after the recovery, it is possible to reduce the burden on the operator.
  • FIG. 1 is a block diagram showing a schematic configuration inside a recovery method management system which is an embodiment of a recovery method management device of the present invention.
  • FIG. 2 is a block diagram showing a schematic configuration inside the work / recovery method management apparatus and the recovery method DB, which are the main parts of the present embodiment.
  • FIG. 3 is an explanatory diagram briefly showing the contents stored in the work information management storage unit and the recovery method management storage unit inside the recovery method DB.
  • FIG. 4 is an explanatory diagram briefly showing the relationship between the system information before the occurrence of the failure and the system information after the occurrence of the failure.
  • FIG. 5 is a flowchart showing the processing operation inside the recovery method management system related to the recovery method management processing.
  • FIG. 1 is a block diagram showing a schematic configuration inside a recovery method management system which is an embodiment of a recovery method management device of the present invention.
  • FIG. 2 is a block diagram showing a schematic configuration inside the work / recovery method management apparatus and the recovery method DB, which are the main
  • FIG. 6 is a flowchart showing the processing operation inside the recovery method management system related to the failure recovery method presentation processing.
  • FIG. 7 is a flowchart showing the processing operation inside the work / recovery method management apparatus related to the failure recovery method determination process.
  • FIG. 8 is a block diagram showing a schematic configuration inside the conventional recovery method management system.
  • Recovery method management system 1
  • IT system 3
  • Operator terminal 6
  • Recovery method DB 7
  • Work / Recovery Method Management Device 8
  • History Management DB 30
  • Management Control Unit 31
  • Work Method Information Creation Unit 32
  • Pre-Work Change Information Creation Unit 33
  • Recovery Method Information Creation Unit 34
  • Pre-Recovery Change Information Creation Unit 35
  • Fault Information Creation Unit 36
  • this embodiment based on the difference information between the system information before the work start and after the work is completed, the change information before and after the work created for each work object and the work method information indicating the work method created for each work object
  • the management storage unit By storing in the management storage unit, it is possible to grasp in advance the influence of each work on the system.
  • Information and recovery method information indicating a recovery method for each recovery work target are stored in the recovery method management storage unit.
  • the recovery method (recovery method information) for the unknown failure is stored on the basis of the recovery work target corresponding to the failure and the change information before and after the recovery, using the storage contents of the recovery method management storage unit. ) Can be selected, and the burden on the operator can be reduced.
  • FIG. 1 is a block diagram showing a schematic configuration inside the recovery method management system of the present embodiment.
  • a recovery method management system 1 shown in FIG. 1 includes an IT system 2 including a plurality of servers, an operator terminal 3 that monitors failures in the IT system 2, and a past recovery method DB 4 that stores and manages recovery methods for past failures. And a past recovery method management apparatus 5 that manages the past recovery method DB 4.
  • the operator terminal 3 includes, for example, an operation unit 11 for inputting information such as various commands, a display unit 12 for displaying various information, and a recovery operation for a failure in the IT system 2, for example, according to the command input of the operation unit 11. And a terminal control unit 14 for controlling the operator terminal 3 as a whole.
  • the past recovery method management device 5 upon detecting a failure status from the operator terminal 3, searches a past recovery method search unit 21 that searches the past recovery method DB 4 for a past recovery method corresponding to the fault status, and this past recovery method search unit And a recovery method presentation unit 22 for notifying the operator terminal 3 of a past recovery method corresponding to the failure status searched in 21.
  • the operator terminal 3 When the operator terminal 3 acquires a past recovery method corresponding to the failure status through the recovery method presentation unit 22, the operator terminal 3 displays the past recovery method on the display unit 12.
  • the operator terminal 3 executes the recovery work based on the past recovery method corresponding to the failure status being displayed on the display unit 12.
  • the work execution unit 13 of the operator terminal 3 detects the work start command from the operation unit 11
  • the work execution unit 13 executes the work for the work target inside the IT system 2 and detects the work completion command from the operation unit 11. The work being executed for the work target is completed.
  • the recovery method management system 1 stores a recovery method DB 6 that stores and manages a recovery method for an unknown failure, a work / recovery method management device 7 that manages the recovery method DB 6, and system information inside the IT system 2 at predetermined timings. And a history management DB 8 for sequentially storing the history.
  • the system information includes configuration information, performance information, status information, and the like in the IT system 2, and the configuration information includes, for example, servers, CPUs, memories, applications, etc. in the IT system 2, as shown in FIG.
  • the performance information corresponds to information related to performance, such as CPU clock frequency, memory capacity, and average response time of applications.
  • FIG. 2 is a block diagram showing a schematic configuration inside the work / recovery method management device 7 and the recovery method DB 6.
  • the work / recovery method management device 7 shown in FIG. 2 includes a management control unit 30 that manages and controls the entire work / recovery method management device 7 and the recovery method DB 6.
  • the management control unit 30 includes a work method information creation unit 31 that creates work method information indicating a work method for each work target executed by the work execution unit 13 on the operator terminal 3 side, and a work start command on the operator terminal 3 side.
  • a work method information creation unit 31 that creates work method information indicating a work method for each work target executed by the work execution unit 13 on the operator terminal 3 side, and a work start command on the operator terminal 3 side.
  • the work target corresponds to a work target such as “server 1 state” and “server 1 memory state” as shown in FIG.
  • the work method information corresponds to information indicating a work method for a work target such as “execute a shutdown command for the server 1” or “replace memory of the server 1”.
  • the work method information creation unit 31 creates work method information in accordance with, for example, manual input or work command input on the operator terminal 3 side.
  • the work start / back change information creation unit 32 detects a work start command on the operator terminal 3 side, the system information before starting work in the IT system 2 is acquired from the history management DB 8 or the IT system 2 and the operator terminal 3 side When a work completion command is detected, system information after completion of the work is acquired from the history management DB 8 or the IT system 2.
  • the pre-work change information creation unit 32 acquires the system information before the start of work and the system information after the work is completed, based on the obtained difference information between the system information before the start of work and the system information after the work is completed.
  • the change information before and after the work related to the system change before and after the work is created for each work target.
  • the change information before and after the work is “error ⁇ normal” and the work target is “average response time of the application 1”.
  • it corresponds to a system change before and after the work for each work object such as “3000 msec ⁇ 50 msec”.
  • the recovery method DB 6 stores the work method information created by the work method information creation unit 31 and the work before / after change information created by the work before / after change information creation unit 32 for each work target. A portion 41 is provided.
  • the management control unit 30 creates recovery method information that creates a recovery method information indicating a recovery method for each similar recovery work target among the work targets based on the work method information stored in the work information management storage unit 41.
  • a portion 33 is provided.
  • the similar recovery work target is, for example, “server state” in which work targets such as “server 1 state” and “server 2 state” stored in the work information management storage unit 41 shown in FIG. It corresponds to a work object such as.
  • the recovery method information includes work method information such as “execute a shutdown command for server 1” and “execute a shutdown command for server 2” stored in the work information management storage unit 41 shown in FIG. This corresponds to the work method information such as “execute shutdown command”.
  • management control unit 30 creates change information before and after recovery based on the change information before and after the work stored in the work information management storage unit 41 to create change information before and after the recovery related to the system change before and after the recovery work.
  • Part 34 is provided.
  • the recovery method DB 6 stores the recovery method information created by the recovery method information creation unit 33 and the change information before and after restoration created by the recovery information creation unit 34 for each restoration work target as shown in FIG.
  • a recovery method management storage unit 42 for management is provided.
  • the management control unit 30 acquires system information before the failure occurrence from the history management DB 8 and acquires system information after the failure occurrence from the history management DB 8 or the IT system 2. 35.
  • the failure information creation unit 35 creates failure pre- and post-failure change information related to the failure target and system change before and after the failure based on the acquired difference information between the system information before the failure occurrence and the system information after the failure occurrence. It is.
  • the failure target corresponds to a failure target such as “server 1 state” or “server 1 memory state” where the failure has occurred.
  • the change information before and after the failure includes, for example, “normal ⁇ error” when the failure target is “memory state of the server 1”, “50 msec ⁇ 3000 msec” when the failure target is “average response time of the application 1”, and the like. This corresponds to a system change before and after the occurrence of a failure for each failure target.
  • the management control unit 30 when the recovery work target and the recovery information before and after the recovery corresponding to the failure target and the recovery information before and after the failure created in the failure information creation unit 35 are in the recovery method management storage unit 42, A recovery method search unit 36 that acquires recovery method information corresponding to the change information from the recovery method management storage unit 42 and notifies the past recovery method management device 5 to present the acquired recovery method information to the operator terminal 3 is provided. ing.
  • the recovery method search unit 36 determines whether or not a recovery work target corresponding to the failure target created by the failure information creation unit 35 exists in the recovery method management storage unit 42.
  • the recovery method search unit 36 stores the recovery method change information before and after the recovery work corresponding to the failure target change information before and after the failure target as the recovery method management. It is determined whether or not it is in the storage unit 42.
  • the recovery method search unit 36 restores the recovery method information corresponding to the recovery information before and after recovery when the recovery operation target recovery information corresponding to the recovery target before and after the recovery information in the recovery method exists in the recovery method management storage unit 42. It is acquired from the management storage unit 42.
  • the recovery information before and after recovery corresponding to the recovery information before and after the failure is, for example, from the state “error” after the failure when the failure target “memory state of the server 1” is “normal ⁇ error”. This corresponds to the change information “error ⁇ normal” before and after the recovery operation target “server memory state” for returning to the state “normal” before the occurrence of the failure.
  • the recovery method information is “memory part replacement” as shown in FIG.
  • FIG. 5 is a flowchart showing the processing operation inside the recovery method management system 1 related to the recovery method management processing.
  • the recovery method management process shown in FIG. 5 is a process for constantly updating the recovery method DB 6 that stores and manages a recovery method for an unknown failure from work.
  • the management control unit 30 inside the work / recovery method management apparatus 7 determines whether or not a work start command on the operator terminal 3 side has been detected (step S11).
  • Step S11 When the work start / back change information creation unit 32 in the management control unit 30 detects a work start command (Yes in step S11), the system information before the work start in the IT system 2 is acquired from the history management DB 8 or the IT system 2. (Step S12).
  • the operator terminal 3 executes the work inside the IT system 2 corresponding to the work start command (step S13).
  • the pre-work change information creation unit 32 determines whether or not a work completion command on the operator terminal 3 side has been detected (step S14).
  • step S15 When the work completion change information creation unit 32 detects a work completion command on the operator terminal 3 side (Yes in step S14), the system information after completion of work in the IT system 2 is acquired (step S15).
  • the pre-work change information creation unit 32 acquires difference information between the system information before the work start and the system information after the work is completed (step S16), and relates to the system change before and after the work for each work target based on the difference information. Pre-work change information is created (step S17).
  • the work method information creation unit 31 creates work method information indicating a work method for each work target.
  • the management control unit 30 works the work method information created by the work method information creation unit 31 and the work before / after change information created by the work before / after change information creation unit 32 for each work target. It memorize
  • the recovery method information creation unit 33 in the management control unit 30 creates recovery method information for each recovery work target obtained by collecting similar work targets (steps). S19).
  • the recovery work target corresponds to a “server state” in which the work targets “server 1 state” and “server 2 state” are aggregated, and the recovery method information executes a “shutdown command”. ".
  • the before-and-after-change information creation unit 34 in the management control unit 30 creates before-and-after-change information for each restoration work target that is a collection of similar work objects based on the before-and-after work information stored in the work information management storage unit 41. (Step S20).
  • the management control unit 30 restores the recovery method information created by the restoration method information creation unit 33 and the change information before and after restoration created by the before-and-after-change information creation unit 34 for each restoration work target.
  • the processing operation of FIG. 5 is terminated.
  • step S11 When the management control unit 30 does not detect a work start command in step S11 (No in step S11), the management operation unit 30 ends the processing operation of FIG.
  • step S14 If the work control command is not detected in step S14 (No in step S14), the management control unit 30 continues the determination process in step S14 to monitor whether or not the work completion command is detected.
  • work information management storage is always performed for each work target, and the change information before and after the work based on the difference information between the system information before the work starts and after the work is completed, and the work method information indicating the work method. Since it is stored in the unit 41, the influence of each work on the system can be grasped in advance.
  • each similar recovery work target among the work objects is related to the system change before and after the recovery work. Since the recovery method information before and after the recovery and the recovery method information indicating the recovery method are stored in the recovery method management storage unit 42, even if an unknown failure occurs, the stored contents of the recovery method management storage unit 42 are used. Based on the recovery work target corresponding to the failure and the change information before and after the recovery, it becomes possible to select the recovery method (recovery method information) for the unknown failure.
  • FIG. 6 is a flowchart showing processing operations in the recovery method management system 1 related to the failure recovery method presentation processing.
  • the failure recovery method management process shown in FIG. 6 is a process for presenting a recovery method for a failure to the operator terminal 3 when a failure occurs.
  • the past recovery method search unit 21 on the past recovery method management device 5 side detects a failure status corresponding to the failure from the operator terminal 3 (step S31).
  • a search is made from the past recovery method DB 4 (step S32).
  • the past recovery method search unit 21 determines whether or not there is a past recovery method corresponding to the failure status in the past recovery method DB 4 (step S33).
  • the past recovery method search unit 21 acquires a past recovery method corresponding to the failure status from the past recovery method DB 4 (Step S34). ).
  • the restoration method presentation unit 22 presents the restoration method corresponding to the acquired failure status to the operator terminal 3 (step S35), and ends the processing operation of FIG.
  • the past recovery method management device 5 notifies the work / recovery method management device 7 of the failure status from the operator terminal 3 when there is no past recovery method corresponding to the failure status in the past recovery method DB 4 (No in step S33). (Step S36).
  • the failure information creation unit 35 in the management control unit 30 on the work / recovery method management device 7 side acquires the system information before the failure occurrence from the history management DB 8 (step S37).
  • the failure information creation unit 35 acquires system information after the failure has occurred from the history management DB 8 or the IT system 2 (step S38).
  • the failure information creation unit 35 acquires difference information between the system information before the failure and the system information after the failure (step S39), and creates the failure target and the change information before and after the failure based on the acquired difference information (Ste S40).
  • the management control unit 30 executes a failure recovery method determination process (see FIG. 7) that determines a recovery method for the failure based on the failure target and the change information before and after the failure (step S41). ) By notifying the determined recovery method to the past recovery method management device 5 (step S42), the process proceeds to step S35 in order to present the recovery method to the operator terminal 3.
  • the failure recovery method presentation process shown in FIG. 6 if a failure occurs and the failure recovery method DB 4 corresponding to the failure state from the operator terminal 3 is present, the past recovery method corresponding to the failure state in the past recovery method DB 4 is displayed. Since the acquired past recovery method is presented to the operator terminal 3 as a failure recovery method, even if a failure occurs, the operator can recognize the recovery method for the failure. It can be greatly reduced.
  • the failure recovery method presentation process if a failure occurs and it is not in the past recovery method DB 4 corresponding to the failure status from the operator terminal 3, the failure target is determined based on the system information before and after the failure according to the failure status. And change information before and after the failure, and after a failure recovery method determination process (see FIG. 7) described later, the recovery work target and the change information before and after the recovery corresponding to the failure target and the change information before and after the failure are stored in the recovery method management storage unit 42. In this case, the recovery method information corresponding to the change information before and after the recovery is acquired from the recovery method management storage unit 42, and the acquired recovery method information is presented to the operator terminal 3. Even if a failure occurs, the recovery method for the failure can be recognized, and the burden can be greatly reduced.
  • FIG. 7 is a flowchart showing the processing operation inside the work / recovery method management apparatus 7 related to the failure recovery method determination process.
  • the failure recovery method determination process shown in FIG. 7 is a process for determining a recovery method for an unknown failure because there is no recovery method for the failure state in the past recovery method DB 4.
  • the recovery method search unit 36 in the management control unit 30 on the work / recovery method management apparatus 7 side designates one failure target among the failure targets created in step S40 of FIG. 6 (step S51).
  • the failure target is “average response time of application 1” and “CPU status” in step S40, the failure target is designated in step S51.
  • the recovery method search unit 36 determines whether or not the recovery work target corresponding to the failure target is in the recovery method management storage unit 42 (step S52). For example, when the failure target is “average response time of application 1”, the recovery work target of “average response time of application” corresponding to “average response time of application 1” is the recovery method management storage as shown in FIG. It is determined whether or not it is in the unit 42.
  • the recovery method search unit 36 sets the failure target to the state before the failure based on the change information before and after the failure.
  • step S53 it is determined whether or not the recovery method target change information corresponding to the failure target change information before and after the failure is in the recovery method management storage unit 42.
  • the recovery method search unit 36 when the recovery before / after change information of the recovery work target corresponding to the failure target change information of the failure target is in the recovery method management storage unit 42 (Yes in step S53), the recovery corresponding to the recovery before / after change information. Method information is acquired from the recovery method management storage unit 42 (step S54).
  • the recovery operation target change information “reduction” corresponding to the failure target change information “50 msec ⁇ 3000 msec” exists in the recovery method management storage unit 42, the recovery operation target change information “reduction” "Increase the value of the parameter MaxThreads" is acquired.
  • the recovery method search unit 36 determines the acquired recovery method information as a recovery method for the failure target (step S55), and determines whether or not there is a next failure target. Determination is made (step S56).
  • the recovery method search unit 36 When there is no next failure target (No at Step S56), the recovery method search unit 36 notifies the recovery method information corresponding to the failure target to the past recovery method management device 5 (Step S57), thereby performing the processing operation of FIG. Exit.
  • the recovery method search unit 36 determines whether or not the failure target has changed before and after the failure in the recovery method management storage unit 42. If there is no change information before and after the recovery operation target corresponding to (No in step S53), the process proceeds to step S56 to determine whether or not there is a next failure target.
  • Step S56 When there is a next failure target (Yes at Step S56), the recovery method search unit 36 proceeds to Step S51 to designate the failure target.
  • recovery method information is sequentially acquired for each failure target, and then the recovery method information for each failure target is presented to the operator terminal 3 via the past recovery method management device 5. Will do.
  • the recovery method information is sequentially acquired for each failure target.
  • the recovery method information for the failure target is not limited to one.
  • the recovery method information of the work target “CPU status” “CPU replacement”
  • the change information before and after the work based on the difference information between the system information before the work is started and after the work is completed, and the work method information indicating the work method are always stored in the work information management storage unit 41 for each work target. As a result, it is possible to grasp in advance the influence of each work on the system.
  • the past recovery method corresponding to the failure status in the past recovery method DB 4 is acquired and acquired. Since the past recovery method is presented to the operator terminal 3 as a failure recovery method, even if a failure occurs, the operator can recognize the recovery method for the failure, greatly reducing the burden. be able to.
  • the failure target is determined based on the system information before and after the failure according to the failure status. And before and after the failure change information are created, and after the failure recovery method decision process (see FIG. 7), the recovery work target and the change information before and after the recovery corresponding to the failure target and the before and after change information are in the recovery method management storage unit 42.
  • the recovery method information corresponding to the change information before and after the recovery is acquired from the recovery method management storage unit 42, and the acquired recovery method information is presented to the operator terminal 3. Even if this occurs, the recovery method for the failure can be recognized, and the burden can be greatly reduced.
  • the recovery work target and the change information before and after the recovery corresponding to the failure target and the change information before and after the failure are in the recovery method management storage unit 42, the state after the failure occurs is returned to the state before the failure. Therefore, the recovery method information corresponding to the recovery work target and the change information before and after the recovery is acquired from the recovery method management storage unit 42, and the acquired recovery method information is determined as the recovery method for the failure. Even if a failure occurs, it is possible to determine a recovery method for the failure without burdening the operator.
  • each component of each device illustrated is functionally described, and is not necessarily physically configured as illustrated, and a specific aspect of each device is illustrated. Needless to say, it cannot be limited.
  • each device various processing functions performed in each device are performed on a CPU (Central Processing Unit) (or a micro computer such as an MPU (Micro Processing Unit) or MCU (Micro Controller Unit)) or on the same CPU (or MPU, MCU, etc.).
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • MCU Micro Controller Unit
  • all or any part of the program may be executed on a program that is analyzed and executed by a microcomputer) or on hardware based on wired logic.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 常時、作業対象毎に作業方法情報及び作業前後変化情報を記憶する作業情報管理記憶部(41)と、記憶中の作業方法情報に基づき、作業対象の内、類似する復旧作業対象毎に復旧方法情報を作成する復旧方法情報作成部(33)と、記憶中の作業前後変化情報に基づき、復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成部(34)と、復旧方法情報及び復旧前後変化情報を復旧作業対象毎に記憶管理する復旧方法管理記憶部(42)と有し、障害に該当する復旧作業対象及び復旧前後変化情報に基づき、未知の障害に対する復旧方法情報を選択することが可能になる。

Description

復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法
 本発明は、例えば複数のサーバ等を含むITシステム内の障害を復旧するための復旧方法をオペレータ側に提示可能にする復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法に関する。
 従来、複数のサーバ等を含むITシステム内に障害が発生し、オペレータが、その障害を復旧する復旧方法を知らない場合、復旧方法手順書に基づき、オペレータ判断で復旧作業を行うようにしていた。
 しかしながら、復旧方法手順書の膨大な情報から適切な復旧方法を選択する作業は、オペレータ自身のスキルに大きく依存し、オペレータ自身に大きな負担がかかることになる。
 そこで、近年では、復旧方法を選択する際のオペレータの負担を軽減すべく、次のような復旧方法管理システムが知られている。
 図8は、従来の復旧方法管理システム内部の概略構成を示すブロック図である。
 図8に示す復旧方法管理システム100は、複数のサーバ等を含むITシステム101と、ITシステム101内の障害を監視するオペレータ端末102と、過去の障害に対する復旧方法を記憶管理する過去復旧方法データベース(以下、単にDBと称する)103と、過去復旧方法DB103を管理する過去復旧方法管理装置104とを有している。
 オペレータ端末102は、様々なコマンド等の情報を入力する操作部111と、様々な情報を表示する表示部112と、操作部111のコマンド入力に応じて、例えばITシステム101内の障害に対する復旧作業を実行する作業実行部113と、オペレータ端末102全体を制御する端末制御部114とを有している。
 過去復旧方法管理装置104は、オペレータ端末102からの障害状況を検出すると、過去復旧方法DB103から障害状況に対応する過去の復旧方法を検索する過去復旧方法検索部121と、この過去復旧方法検索部121にて検索した障害状況に対応する過去の復旧方法をオペレータ端末102に通知する復旧方法提示部122とを有している。
 オペレータ端末102は、復旧方法提示部122を通じて障害状況に対応する過去の復旧方法を取得すると、過去の復旧方法を表示部112に表示するものである。
 その結果、オペレータ端末102は、表示部112に表示中の障害状況に対応する過去の復旧方法に基づき、障害に対する復旧作業を実行することができる。
 従って、従来の復旧方法管理システム100では、ITシステム101内に障害が発生したとしても、オペレータ端末102が障害状況を過去復旧方法管理装置104に通知すると共に、過去復旧方法管理装置104側では障害状況に応じて過去の復旧方法を検索し、検索した過去の復旧方法をオペレータ端末102に提示するようにしたので、オペレータ側では、障害に対する復旧方法を知らなくても、過去復旧方法DB103内に記憶中の過去の障害状況に対する復旧方法を簡単に取得できるため、オペレータ側の負担を大幅に軽減することができる。
特開平6-103047号公報 特開2008-90504号公報
 しかしながら、上記従来の復旧方法管理システム100によれば、過去復旧方法DB103の記憶内容に大きく依存することになるため、過去復旧方法DB103に記憶されていない未知の障害状況に対する復旧方法についてはオペレータ判断に委ねられていることから、オペレータ側に負担がかかる。
 本発明は上記点に鑑みてなされたものであり、その目的とするところは、障害が発生したとしても、オペレータに負担をかけることなく、障害に対する復旧方法を選択可能にした復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法を提供することにある。
 開示プログラムは、作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行手順と、前記作業実行手順にて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成手順と、前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成手順と、前記作業方法情報作成手順にて作成した前記作業方法情報と前記作業前後変化情報作成手順にて作成した前記作業前後変化情報とを前記作業対象毎に作業情報管理記憶部に記憶管理する作業情報管理記憶手順と、前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成手順と、前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成手順と、前記復旧方法情報作成手順にて作成した前記復旧方法情報及び前記復旧前後変化情報作成手順にて作成した前記復旧前後変化情報を前記復旧作業対象毎に復旧方法管理記憶部に記憶管理する復旧方法管理記憶手順と、をコンピュータ装置に実行させることを要件とする。
 また、開示装置は、作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行部と、前記作業実行部にて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成部と、前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成部と、前記作業方法情報作成部にて作成した前記作業方法情報と前記作業前後変化情報作成部にて作成した前記作業前後変化情報とを前記作業対象毎に記憶管理する作業情報管理記憶部と、前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成部と、前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成部と、前記復旧方法情報作成部にて作成した前記復旧方法情報及び前記復旧前後変化情報作成部にて作成した前記復旧前後変化情報を前記復旧作業対象毎に記憶管理する復旧方法管理記憶部と、を有することを要件とする。
 また、開示方法は、作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行ステップと、前記作業実行ステップにて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成ステップと、前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成ステップと、前記作業方法情報作成ステップにて作成した前記作業方法情報と前記作業前後変化情報作成ステップにて作成した前記作業前後変化情報とを前記作業対象毎に作業情報管理記憶部に記憶管理する作業情報管理記憶ステップと、前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成ステップと、前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成ステップと、前記復旧方法情報作成ステップにて作成した前記復旧方法情報及び前記復旧前後変化情報作成ステップにて作成した前記復旧前後変化情報を前記復旧作業対象毎に復旧方法管理記憶部に記憶管理する復旧方法管理記憶ステップと、を含むことを要件とする。
 開示プログラム、開示装置及び開示方法によれば、作業開始前及び作業完了後のシステム情報との差分情報に基づく作業前後変化情報と作業方法を示す作業方法情報とを常時、作業対象毎に作業情報管理記憶部に記憶し、さらに、作業情報管理記憶部に記憶中の作業方法情報及び作業前後変化情報に基づき、作業対象の内、類似する復旧作業対象毎に、復旧作業前後のシステム変化に関わる復旧前後変化情報と復旧方法を示す復旧方法情報とを復旧方法管理記憶部に記憶するようにした。
 つまり、常時、作業対象毎に作業方法情報及び作業前後変化情報を作業情報管理記憶部に記憶して、各作業がシステムに及ぼす影響を事前に把握し、これら作業方法情報及び作業前後変化情報に基づき、復旧作業対象毎の復旧方法情報及び復旧前後変化情報を復旧方法管理記憶部に記憶するようにしたので、未知の障害が発生したとしても、復旧方法管理記憶部の記憶内容を利用して、障害に該当する復旧作業対象及び復旧前後変化情報に基づき、未知の障害に対する復旧方法(復旧方法情報)を選択することが可能になるため、オペレータへの負担を軽減できるという効果を奏する。
図1は、本発明の復旧方法管理装置の実施例である復旧方法管理システム内部の概略構成を示すブロック図である。 図2は、本実施例の要部である作業/復旧方法管理装置及び復旧方法DB内部の概略構成を示すブロック図である。 図3は、復旧方法DB内部の作業情報管理記憶部及び復旧方法管理記憶部内部の記憶内容を端的に示す説明図である。 図4は、障害発生前のシステム情報と障害発生後のシステム情報との関係を端的に示す説明図である。 図5は、復旧方法管理処理に関わる復旧方法管理システム内部の処理動作を示すフローチャートである。 図6は、障害復旧方法提示処理に関わる復旧方法管理システム内部の処理動作を示すフローチャートである。 図7は、障害復旧方法決定処理に関わる作業/復旧方法管理装置内部の処理動作を示すフローチャートである。 図8は、従来技術の復旧方法管理システム内部の概略構成を示すブロック図である。
符号の説明
 1 復旧方法管理システム
 2 ITシステム
 3 オペレータ端末
 6 復旧方法DB
 7 作業/復旧方法管理装置
 8 履歴管理DB
 30 管理制御部
 31 作業方法情報作成部
 32 作業前後変化情報作成部
 33 復旧方法情報作成部
 34 復旧前後変化情報作成部
 35 障害情報作成部
 36 復旧方法検索部
 以下、図面に基づき本発明の復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法に関わる実施例について詳細に説明する。
 まず、最初に本実施例の概要を説明する。本実施例では、作業開始前及び作業完了後のシステム情報との差分情報に基づき、作業対象毎に作成した作業前後変化情報と作業対象毎に作成した作業方法を示す作業方法情報とを作業情報管理記憶部に記憶することで、常時、各作業がシステムに及ぼす影響を事前に把握できる。
 さらに、本実施例では、作業情報管理記憶部に記憶中の作業方法情報及び作業前後変化情報に基づき、作業対象の内、類似する復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報と復旧作業対象毎に復旧方法を示す復旧方法情報とを復旧方法管理記憶部に記憶する。
 この結果、未知の障害が発生したとしても、復旧方法管理記憶部の記憶内容を利用して、障害に該当する復旧作業対象及び復旧前後変化情報に基づき、未知の障害に対する復旧方法(復旧方法情報)を選択することが可能になるため、オペレータへの負担を軽減できるというものである。
 図1は、本実施例の復旧方法管理システム内部の概略構成を示すブロック図である。
 図1に示す復旧方法管理システム1は、複数のサーバ等を含むITシステム2と、ITシステム2内の障害を監視するオペレータ端末3と、過去の障害に対する復旧方法を記憶管理する過去復旧方法DB4と、過去復旧方法DB4を管理する過去復旧方法管理装置5とを有している。
 オペレータ端末3は、様々なコマンド等の情報を入力する操作部11と、様々な情報を表示する表示部12と、操作部11のコマンド入力に応じて、例えばITシステム2内の障害に対する復旧作業を実行する作業実行部13と、オペレータ端末3全体を制御する端末制御部14とを有している。
 過去復旧方法管理装置5は、オペレータ端末3からの障害状況を検出すると、過去復旧方法DB4から障害状況に対応する過去の復旧方法を検索する過去復旧方法検索部21と、この過去復旧方法検索部21にて検索した障害状況に対応する過去の復旧方法をオペレータ端末3に通知する復旧方法提示部22とを有している。
 オペレータ端末3は、復旧方法提示部22を通じて障害状況に対応する過去の復旧方法を取得すると、過去の復旧方法を表示部12に表示するものである。
 その結果、オペレータ端末3は、表示部12に表示中の障害状況に対応する過去の復旧方法に基づき復旧作業を実行するものである。
 また、オペレータ端末3の作業実行部13は、操作部11からの作業開始コマンドを検出すると、ITシステム2内部の作業対象に対する作業を実行すると共に、操作部11からの作業完了コマンドを検出すると、作業対象に対する実行中の作業を完了するものである。
 さらに、復旧方法管理システム1は、未知の障害に対する復旧方法を記憶管理する復旧方法DB6と、復旧方法DB6を管理する作業/復旧方法管理装置7と、ITシステム2内部のシステム情報を所定タイミング毎に順次履歴記憶する履歴管理DB8とを有している。
 尚、システム情報とは、ITシステム2内の構成情報・性能情報・ステータス情報等を含み、構成情報は、図4に示すように、例えばITシステム2内のサーバ、CPU、メモリやアプリケーション等の構成に関わる情報に相当し、性能情報は、例えばCPUのクロック周波数、メモリの容量、アプリケーションの平均レスポンス時間等の性能に関わる情報に相当するものである。
 図2は、作業/復旧方法管理装置7及び復旧方法DB6内部の概略構成を示すブロック図である。
 図2に示す作業/復旧方法管理装置7は、作業/復旧方法管理装置7全体及び復旧方法DB6を管理制御する管理制御部30を有している。
 管理制御部30は、オペレータ端末3側の作業実行部13にて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成部31と、オペレータ端末3側の作業開始コマンドを検出すると、ITシステム2内部の作業開始前のシステム情報を取得すると共に、オペレータ端末3側の作業完了コマンドを検出すると、作業完了後のシステム情報を取得する作業前後変化情報作成部32とを有している。
 尚、作業対象とは、図3に示すように、例えば“サーバ1の状態”や“サーバ1のメモリの状態”等の作業の対象に相当するものである。
 作業方法情報は、図3に示すように、例えば“サーバ1に対してshutdownコマンドを実行”や“サーバ1のメモリ交換”等のように作業対象に対する作業方法を示す情報に相当するものである。
 作業方法情報作成部31は、例えばオペレータ端末3側の手入力や作業コマンド入力に応じて作業方法情報を作成するものである。
 作業前後変化情報作成部32は、オペレータ端末3側の作業開始コマンドを検出すると、ITシステム2内部の作業開始前のシステム情報を履歴管理DB8又はITシステム2から取得すると共に、オペレータ端末3側の作業完了コマンドを検出すると、作業完了後のシステム情報を履歴管理DB8又はITシステム2から取得するものである。
 また、作業前後変化情報作成部32は、作業開始前のシステム情報及び作業完了後のシステム情報を取得すると、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成するものである。
 尚、作業前後変化情報は、図3に示すように、例えば作業対象を“サーバ1のメモリの状態”とした場合、“error→normal”や、作業対象を“アプリ1の平均レスポンス時間”とした場合、“3000msec→50msec”等のように作業対象毎の作業前後のシステム変化に相当するものである。
 また、復旧方法DB6は、作業方法情報作成部31にて作成した作業方法情報と、作業前後変化情報作成部32にて作成した作業前後変化情報とを作業対象毎に記憶管理する作業情報管理記憶部41を有している。
 また、管理制御部30は、作業情報管理記憶部41に記憶中の作業方法情報に基づき、作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成部33を有している。
 尚、類似する復旧作業対象とは、例えば図3に示す作業情報管理記憶部41に記憶中の“サーバ1の状態”や“サーバ2の状態”等の作業対象を集約した“サーバの状態”等の作業対象に相当するものである。
 復旧方法情報は、例えば図3に示す作業情報管理記憶部41に記憶中の“サーバ1に対してshutdownコマンドを実行”や“サーバ2に対してshutdownコマンドを実行”等の作業方法情報を集約した“shutdownコマンドを実行”等の作業方法情報に相当するものである。
 また、管理制御部30は、作業情報管理記憶部41に記憶中の作業前後変化情報に基づき、復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成部34を有している。
 また、復旧方法DB6は、復旧方法情報作成部33にて作成した復旧方法情報及び復旧前後変化情報作成部34にて作成した復旧前後変化情報を、図3に示すように復旧作業対象毎に記憶管理する復旧方法管理記憶部42を有している。
 また、管理制御部30は、障害発生コマンドを検出すると、障害発生前のシステム情報を履歴管理DB8から取得し、障害発生後のシステム情報を履歴管理DB8又はITシステム2から取得する障害情報作成部35を有している。
 障害情報作成部35は、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成するものである。
 尚、障害対象とは、例えば、障害が発生した“サーバ1の状態”や“サーバ1のメモリの状態”等の障害の対象に相当するものである。
 障害前後変化情報は、例えば障害対象を“サーバ1のメモリの状態”とした場合、“normal→error”や、障害対象を“アプリ1の平均レスポンス時間”とした場合、“50msec→3000msec”等のように障害対象毎の障害発生前後のシステム変化に相当するものである。
 また、管理制御部30は、障害情報作成部35にて作成した障害対象及び障害前後変化情報に該当する復旧作業対象及び復旧前後変化情報が復旧方法管理記憶部42内にある場合、この復旧前後変化情報に対応する復旧方法情報を復旧方法管理記憶部42から取得し、取得した復旧方法情報をオペレータ端末3に提示すべく、過去復旧方法管理装置5に通知する復旧方法検索部36を有している。
 復旧方法検索部36は、障害情報作成部35にて作成した障害対象に該当する復旧作業対象が復旧方法管理記憶部42内にあるか否かを判定するものである。
 復旧方法検索部36は、障害対象に該当する復旧作業対象が復旧方法管理記憶部42内にある場合、この障害対象の障害前後変化情報に該当する復旧作業対象の復旧前後変化情報が復旧方法管理記憶部42内にあるか否かを判定するものである。
 復旧方法検索部36は、障害対象の障害前後変化情報に該当する復旧作業対象の復旧前後変化情報が復旧方法管理記憶部42内にある場合、復旧前後変化情報に対応する復旧方法情報を復旧方法管理記憶部42から取得するものである。
 尚、障害前後変化情報に該当する復旧前後変化情報とは、例えば障害対象“サーバ1のメモリの状態”で障害前後変化情報が“normal→error”の場合、障害発生後の状態“error”から障害発生前の状態“normal”に戻すための復旧作業対象“サーバのメモリの状態”の復旧前後変化情報“error→normal”に相当するものである。この場合、復旧方法情報は、図3に示すように“メモリ部品交換”ということになる。
 次に本実施例の復旧方法管理システム1の動作について説明する。図5は、復旧方法管理処理に関わる復旧方法管理システム1内部の処理動作を示すフローチャートである。
 図5に示す復旧方法管理処理とは、常時、作業から、未知の障害に対する復旧方法を記憶管理する復旧方法DB6を更新するための処理である。
 図5において作業/復旧方法管理装置7内部の管理制御部30は、オペレータ端末3側の作業開始コマンドを検出したか否かを判定する(ステップS11)。
 管理制御部30内部の作業前後変化情報作成部32は、作業開始コマンドを検出した場合(ステップS11肯定)、ITシステム2内部の作業開始前のシステム情報を履歴管理DB8又はITシステム2から取得する(ステップS12)。
 オペレータ端末3は、作業開始コマンドに対応するITシステム2内部の作業を実行する(ステップS13)。
 さらに、作業前後変化情報作成部32は、オペレータ端末3側の作業完了コマンドを検出したか否かを判定する(ステップS14)。
 作業前後変化情報作成部32は、オペレータ端末3側の作業完了コマンドを検出した場合(ステップS14肯定)、ITシステム2内部の作業完了後のシステム情報を取得する(ステップS15)。
 作業前後変化情報作成部32は、作業開始前のシステム情報と作業完了後のシステム情報との差分情報を取得し(ステップS16)、差分情報に基づき、作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する(ステップS17)。尚、作業方法情報作成部31は、作業対象毎に作業方法を示す作業方法情報を作成する。
 管理制御部30は、作業対象毎に、図3に示すように、作業方法情報作成部31にて作成した作業方法情報及び、作業前後変化情報作成部32にて作成した作業前後変化情報を作業情報管理記憶部41に記憶する(ステップS18)。
 管理制御部30内の復旧方法情報作成部33は、作業情報管理記憶部41に記憶中の作業方法情報に基づき、類似する作業対象を集約した復旧作業対象毎に復旧方法情報を作成する(ステップS19)。尚、復旧作業対象は、例えば図3に示すように作業対象“サーバ1の状態”や“サーバ2の状態”を集約した“サーバの状態”に相当し、復旧方法情報は“shutdownコマンドを実行”に相当するものである。
 管理制御部30内の復旧前後変化情報作成部34は、作業情報管理記憶部41に記憶中の作業前後変化情報に基づき、類似する作業対象を集約した復旧作業対象毎に復旧前後変化情報を作成する(ステップS20)。
 管理制御部30は、図3に示すように、復旧方法情報作成部33にて作成した復旧方法情報及び、復旧前後変化情報作成部34にて作成した復旧前後変化情報を復旧作業対象毎に復旧方法管理記憶部42に記憶することで(ステップS21)、図5の処理動作を終了する。
 管理制御部30は、ステップS11にて作業開始コマンドを検出しなかった場合(ステップS11否定)、図5の処理動作を終了する。
 管理制御部30は、ステップS14にて作業完了コマンドを検出しなかった場合(ステップS14否定)、作業完了コマンドを検出したか否かを監視すべく、ステップS14の判定処理を継続する。
 図5に示す復旧方法管理処理では、作業開始前及び作業完了後のシステム情報との差分情報に基づく作業前後変化情報と作業方法を示す作業方法情報とを常時、作業対象毎に作業情報管理記憶部41に記憶するようにしたので、各作業がシステムに及ぼす影響を事前に把握することができる。
 さらに、復旧方法管理処理では、作業情報管理記憶部41に記憶中の作業方法情報及び作業前後変化情報に基づき、作業対象の内、類似する復旧作業対象毎に、復旧作業前後のシステム変化に関わる復旧前後変化情報と復旧方法を示す復旧方法情報とを復旧方法管理記憶部42に記憶するようにしたので、未知の障害が発生したとしても、復旧方法管理記憶部42の記憶内容を利用して、障害に該当する復旧作業対象及び復旧前後変化情報に基づき、未知の障害に対する復旧方法(復旧方法情報)を選択することが可能になる。
 次に、障害発生時に障害に対する復旧方法をオペレータ端末3に提示する障害復旧方法提示処理について説明する。図6は、障害復旧方法提示処理に関わる復旧方法管理システム1内部の処理動作を示すフローチャートである。
 図6に示す障害復旧方法管理処理とは、障害発生時に障害に対する復旧方法をオペレータ端末3に提示するための処理である。
 図6において過去復旧方法管理装置5側の過去復旧方法検索部21は、障害発生時に、オペレータ端末3から障害に対応する障害状況を検出すると(ステップS31)、障害状況に対応する過去復旧方法を過去復旧方法DB4から検索する(ステップS32)。
 過去復旧方法検索部21は、過去復旧方法DB4内に障害状況に対応した過去復旧方法があるか否かを判定する(ステップS33)。
 過去復旧方法検索部21は、過去復旧方法DB4内に障害状況に対応した過去復旧方法がある場合(ステップS33肯定)、過去復旧方法DB4から障害状況に対応した過去復旧方法を取得する(ステップS34)。
 復旧方法提示部22は、取得した障害状況に対応する復旧方法をオペレータ端末3に提示することで(ステップS35)、図6の処理動作を終了する。
 また、過去復旧方法管理装置5は、過去復旧方法DB4内に障害状況に対応した過去復旧方法がない場合(ステップS33否定)、オペレータ端末3からの障害状況を作業/復旧方法管理装置7に通知する(ステップS36)。
 作業/復旧方法管理装置7側の管理制御部30内部の障害情報作成部35は、障害発生前のシステム情報を履歴管理DB8から取得する(ステップS37)。
 障害情報作成部35は、障害発生後のシステム情報を履歴管理DB8又はITシステム2から取得する(ステップS38)。
 障害情報作成部35は、障害発生前のシステム情報と障害発生後のシステム情報との差分情報を取得し(ステップS39)、取得した差分情報に基づき、障害対象及び障害前後変化情報を作成する(ステップS40)。
 管理制御部30は、障害対象及び障害前後変化情報を作成すると、障害対象及び障害前後変化情報に基づき障害に対する復旧方法を決定する障害復旧方法決定処理(図7参照)を実行した後(ステップS41)、決定した復旧方法を過去復旧方法管理装置5に通知することで(ステップS42)、復旧方法をオペレータ端末3に提示すべく、ステップS35に移行する。
 図6に示す障害復旧方法提示処理では、障害が発生し、オペレータ端末3からの障害状況に対応する過去復旧方法DB4内にある場合、過去復旧方法DB4内の障害状況に対応する過去復旧方法を取得し、取得した過去復旧方法を障害の復旧方法としてオペレータ端末3に提示するようにしたので、オペレータは、障害が発生したとしても、障害に対する復旧方法を認識することができるため、その負担を大幅に軽減することができる。
 障害復旧方法提示処理では、障害が発生し、オペレータ端末3からの障害状況に対応する過去復旧方法DB4内にない場合、障害状況に応じて障害発生前及び障害発生後のシステム情報に基づき障害対象及び障害前後変化情報を作成し、後述する障害復旧方法決定処理(図7参照)を経て、障害対象及び障害前後変化情報に該当する復旧作業対象及び復旧前後変化情報が復旧方法管理記憶部42内にある場合、この復旧前後変化情報に対応した復旧方法情報を復旧方法管理記憶部42から取得し、取得した復旧方法情報をオペレータ端末3に提示するようにしたので、オペレータは、過去にない未知の障害が発生したとしても、障害に対する復旧方法を認識することができるため、その負担を大幅に軽減することができる。
 次に、図6に示すステップS41の障害復旧方法決定処理について説明する。図7は、障害復旧方法決定処理に関わる作業/復旧方法管理装置7内部の処理動作を示すフローチャートである。
 図7に示す障害復旧方法決定処理とは、障害状況に対する復旧方法が過去復旧方法DB4内になく、未知の障害に対する復旧方法を決定するための処理である。
 作業/復旧方法管理装置7側の管理制御部30内部の復旧方法検索部36は、図6のステップS40にて作成した障害対象の内、一の障害対象を指定する(ステップS51)。尚、ステップS40にて障害対象が“アプリ1の平均レスポンス時間”及び“CPUのステータス”の場合、ステップS51にて障害対象を指定するものである。
 復旧方法検索部36は、障害対象に該当する復旧作業対象が復旧方法管理記憶部42内にあるか否かを判定する(ステップS52)。尚、例えば障害対象が“アプリ1の平均レスポンス時間”の場合、図3に示すように“アプリ1の平均レスポンス時間”に該当する“アプリの平均レスポンス時間”の復旧作業対象が復旧方法管理記憶部42内にあるか否かを判定するものである。
 復旧方法検索部36は、復旧方法管理記憶部42内に障害対象に該当する復旧作業対象がある場合(ステップS52肯定)、障害対象の障害前後変化情報に基づき、障害対象を障害発生前の状態に戻すべく、障害対象の障害前後変化情報に該当する復旧作業対象の復旧前後変化情報が復旧方法管理記憶部42内にあるか否かを判定する(ステップS53)。
 尚、例えば、図4に示すように障害対象“アプリ1の平均レスポンス時間”の障害前後変化情報が“50msec→3000msec”の場合、障害発生後の状態“3000msec”を障害発生前の状態“50msec”に戻すべく、図3に示すように障害対象の障害前後変化情報“50msec→3000msec”に該当する復旧作業対象の復旧前後変化情報“減少”が復旧方法管理記憶部42内にあるか否か判定するものである。
 復旧方法検索部36は、障害対象の障害前後変化情報に該当する復旧作業対象の復旧前後変化情報が復旧方法管理記憶部42内にある場合(ステップS53肯定)、復旧前後変化情報に対応する復旧方法情報を復旧方法管理記憶部42から取得する(ステップS54)。
 尚、障害対象の障害前後変化情報“50msec→3000msec”に該当する復旧作業対象の復旧前後変化情報“減少”が復旧方法管理記憶部42内にある場合、復旧作業対象の復旧前後変化情報“減少”に対応する復旧方法情報“パラメータMaxThreadsの値を増やす”を取得するものである。
 復旧方法検索部36は、復旧前後変化情報に対応する復旧方法情報を取得すると、取得した復旧方法情報を障害対象に対する復旧方法として決定し(ステップS55)、次の障害対象があるか否かを判定する(ステップS56)。
 復旧方法検索部36は、次の障害対象がない場合(ステップS56否定)、障害対象に対応する復旧方法情報を過去復旧方法管理装置5に通知することで(ステップS57)、図7の処理動作を終了する。
 また、復旧方法検索部36は、復旧方法管理記憶部42内に障害対象に該当する復旧作業対象がない場合(ステップS52否定)、又は復旧方法管理記憶部42内に障害対象の障害前後変化情報に該当する復旧作業対象の復旧前後変化情報がない場合(ステップS53否定)、次の障害対象があるか否かを判定すべく、ステップS56に移行する。
 復旧方法検索部36は、次の障害対象がある場合(ステップS56肯定)、障害対象を指定すべく、ステップS51に移行する。
 尚、障害発生時に複数の障害対象を作成した場合、障害対象毎に復旧方法情報を順次取得し、その後、過去復旧方法管理装置5経由で、障害対象毎の復旧方法情報をオペレータ端末3に提示することになる。
 また、障害対象毎に復旧方法情報を順次取得するようにしたが、障害対象に対する復旧方法情報は一個に限らず、例えば作業対象“CPUのステータス”の復旧方法情報の場合は、“CPU交換”や“サーバ再起動”等の複数の場合もある。
 図7に示す障害復旧方法決定処理では、障害対象及び障害前後変化情報に該当する復旧作業対象及び復旧前後変化情報が復旧方法管理記憶部42内にある場合、障害発生後の状態から障害発生前の状態に戻すべく、復旧作業対象及び復旧前後変化情報に対応する復旧方法情報を復旧方法管理記憶部42から取得し、取得した復旧方法情報を障害に対する復旧方法として決定するようにしたので、過去にない未知の障害が発生したとしても、オペレータへの負担を要することなく、障害に対する復旧方法を決定することができる。
 本実施例では、作業開始前及び作業完了後のシステム情報との差分情報に基づく作業前後変化情報と作業方法を示す作業方法情報とを常時、作業対象毎に作業情報管理記憶部41に記憶するようにしたので、各作業がシステムに及ぼす影響を事前に把握することができる。
 また、本実施例では、作業情報管理記憶部41に記憶中の作業方法情報及び作業前後変化情報に基づき、作業対象の内、類似する復旧作業対象毎に、復旧作業前後のシステム変化に関わる復旧前後変化情報と復旧方法を示す復旧方法情報とを復旧方法管理記憶部42に記憶するようにしたので、未知の障害が発生したとしても、復旧方法管理記憶部42の記憶内容を利用して、障害に該当する復旧作業対象及び復旧前後変化情報に基づき、未知の障害に対する復旧方法(復旧方法情報)を選択することが可能になる。
 また、本実施例では、障害が発生し、オペレータ端末3からの障害状況に対応する過去復旧方法DB4内にある場合、過去復旧方法DB4内の障害状況に対応する過去復旧方法を取得し、取得した過去復旧方法を障害の復旧方法としてオペレータ端末3に提示するようにしたので、オペレータは、障害が発生したとしても、障害に対する復旧方法を認識することができるため、その負担を大幅に軽減することができる。
 また、本実施例では、障害が発生し、オペレータ端末3からの障害状況に対応する過去復旧方法DB4内にない場合、障害状況に応じて障害発生前及び障害発生後のシステム情報に基づき障害対象及び障害前後変化情報を作成し、障害復旧方法決定処理(図7参照)を経て、障害対象及び障害前後変化情報に該当する復旧作業対象及び復旧前後変化情報が復旧方法管理記憶部42内にある場合、この復旧前後変化情報に対応した復旧方法情報を復旧方法管理記憶部42から取得し、取得した復旧方法情報をオペレータ端末3に提示するようにしたので、オペレータは、過去にない未知の障害が発生したとしても、障害に対する復旧方法を認識することができるため、その負担を大幅に軽減することができる。
 また、本実施例では、障害対象及び障害前後変化情報に該当する復旧作業対象及び復旧前後変化情報が復旧方法管理記憶部42内にある場合、障害発生後の状態から障害発生前の状態に戻すべく、復旧作業対象及び復旧前後変化情報に対応する復旧方法情報を復旧方法管理記憶部42から取得し、取得した復旧方法情報を障害に対する復旧方法として決定するようにしたので、過去にない未知の障害が発生したとしても、オペレータへの負担を要することなく、障害に対する復旧方法を決定することができる。
 以上、本発明の実施例について説明したが、本実施例によって本発明の技術的思想の範囲が限定されるものではなく、特許請求の範囲に記載した技術的思想の範囲を逸脱しない限り、各種様々な実施例が実施可能であることは言うまでもない。また、本実施例に記載した効果は、これに限定されるものではない。
 また、本実施例で説明した各種処理の内、自動的に行われるものとして説明した処理の全部又は一部を手動で行うことも可能であることは勿論のこと、その逆に、手動で行われるものとして説明した処理の全部又は一部を自動で行うことも可能であることは言うまでもない。また、本実施例で説明した処理手順、制御手順、具体的名称、各種データやパラメータを含む情報についても、特記した場合を除き、適宜変更可能であることは言うまでもない。
 また、図示した各装置の各構成要素は機能概念的に記載したものであって、必ずしも物理的に図示のように構成されるものではなく、その各装置の具体的な態様は図示のものに限縮されるものでは到底ないことは言うまでもない。
 さらに、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(又はMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上、又は同CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行するプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしても良いことは言うまでもない。

Claims (9)

  1.  作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行手順と、
     前記作業実行手順にて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成手順と、
     前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成手順と、
     前記作業方法情報作成手順にて作成した前記作業方法情報と、前記作業前後変化情報作成手順にて作成した前記作業前後変化情報とを前記作業対象毎に作業情報管理記憶部に記憶管理する作業情報管理記憶手順と、
     前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成手順と、
     前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成手順と、
     前記復旧方法情報作成手順にて作成した前記復旧方法情報及び前記復旧前後変化情報作成手順にて作成した前記復旧前後変化情報を前記復旧作業対象毎に復旧方法管理記憶部に記憶管理する復旧方法管理記憶手順と、
    をコンピュータ装置に実行させることを特徴とする復旧方法管理プログラム。
  2.  前記システム内部のシステム情報を所定タイミング毎に履歴管理記憶部に順次記憶する履歴管理記憶手順と、
     障害発生コマンドを検出すると、障害発生前及び障害発生後のシステム情報を前記履歴管理記憶部から取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成手順と、
     前記障害情報作成手順にて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示手順と、
    を前記コンピュータ装置に実行させることを特徴とする請求項1記載の復旧方法管理プログラム。
  3.  前記システム内部のシステム情報を所定タイミング毎に履歴管理記憶部に順次記憶する履歴管理記憶手順と、
     障害発生コマンドを検出すると、前記障害発生前のシステム情報を前記履歴管理記憶部から取得すると共に、前記障害発生後のシステム情報を前記システムから取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成手順と、
     前記障害情報作成手順にて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示手順と、
    を前記コンピュータ装置に実行させることを特徴とする請求項1記載の復旧方法管理プログラム。
  4.  作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行部と、
     前記作業実行部にて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成部と、
     前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成部と、
     前記作業方法情報作成部にて作成した前記作業方法情報と、前記作業前後変化情報作成部にて作成した前記作業前後変化情報とを前記作業対象毎に記憶管理する作業情報管理記憶部と、
     前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成部と、
     前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成部と、
     前記復旧方法情報作成部にて作成した前記復旧方法情報及び前記復旧前後変化情報作成部にて作成した前記復旧前後変化情報を前記復旧作業対象毎に記憶管理する復旧方法管理記憶部と、
    を有することを特徴とする復旧方法管理装置。
  5.  前記システム内部のシステム情報を所定タイミング毎に順次記憶する履歴管理記憶部と、
     障害発生コマンドを検出すると、障害発生前及び障害発生後のシステム情報を前記履歴管理記憶部から取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成部と、
     前記障害情報作成部にて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示部と、
    を有することを特徴とする請求項4記載の復旧方法管理装置。
  6.  前記システム内部のシステム情報を所定タイミング毎に順次記憶する履歴管理記憶部と、
     障害発生コマンドを検出すると、前記障害発生前のシステム情報を前記履歴管理記憶部から取得すると共に、前記障害発生後のシステム情報を前記システムから取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成部と、
     前記障害情報作成部にて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示部と、
    を有することを特徴とする請求項4記載の復旧方法管理装置。
  7.  作業開始コマンドを検出すると、システム内部の作業対象に対する作業を実行すると共に、作業完了コマンドを検出すると、前記作業対象に対する実行中の作業を完了する作業実行ステップと、
     前記作業実行ステップにて実行した作業対象毎に作業方法を示す作業方法情報を作成する作業方法情報作成ステップと、
     前記作業開始コマンドを検出すると、前記システム内部の作業開始前のシステム情報を取得すると共に、前記作業完了コマンドを検出すると、作業完了後のシステム情報を取得し、これら取得した作業開始前のシステム情報と作業完了後のシステム情報との差分情報に基づき、前記作業対象毎に作業前後のシステム変化に関わる作業前後変化情報を作成する作業前後変化情報作成ステップと、
     前記作業方法情報作成ステップにて作成した前記作業方法情報と、前記作業前後変化情報作成ステップにて作成した前記作業前後変化情報とを前記作業対象毎に作業情報管理記憶部に記憶管理する作業情報管理記憶ステップと、
     前記作業情報管理記憶部に記憶中の前記作業方法情報に基づき、前記作業対象の内、類似する復旧作業対象毎に復旧方法を示す復旧方法情報を作成する復旧方法情報作成ステップと、
     前記作業情報管理記憶部に記憶中の前記作業前後変化情報に基づき、前記復旧作業対象毎に復旧作業前後のシステム変化に関わる復旧前後変化情報を作成する復旧前後変化情報作成ステップと、
     前記復旧方法情報作成ステップにて作成した前記復旧方法情報及び前記復旧前後変化情報作成ステップにて作成した前記復旧前後変化情報を前記復旧作業対象毎に復旧方法管理記憶部に記憶管理する復旧方法管理記憶ステップと、
    を含むことを特徴とする復旧方法管理方法。
  8.  前記システム内部のシステム情報を所定タイミング毎に履歴管理記憶部に順次記憶する履歴管理記憶ステップと、
     障害発生コマンドを検出すると、障害発生前及び障害発生後のシステム情報を前記履歴管理記憶部から取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成ステップと、
     前記障害情報作成ステップにて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示ステップと、
    を含むことを特徴とする請求項7記載の復旧方法管理方法。
  9.  前記システム内部のシステム情報を所定タイミング毎に履歴管理記憶部に順次記憶する履歴管理記憶ステップと、
     障害発生コマンドを検出すると、前記障害発生前のシステム情報を前記履歴管理記憶部から取得すると共に、前記障害発生後のシステム情報を前記システムから取得し、これら取得した障害発生前のシステム情報と障害発生後のシステム情報との差分情報に基づき、障害対象及び、障害発生前後のシステム変化に関わる障害前後変化情報を作成する障害情報作成ステップと、
     前記障害情報作成ステップにて作成した前記障害対象及び前記障害前後変化情報に該当する前記復旧作業対象及び前記復旧前後変化情報が前記復旧方法管理記憶部内にある場合、この復旧前後変化情報に対応する前記復旧方法情報を前記復旧方法管理記憶部から取得し、取得した前記復旧方法情報を提示する復旧方法提示ステップと、
    を含むことを特徴とする請求項7記載の復旧方法管理方法。
PCT/JP2008/060070 2008-05-30 2008-05-30 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法 WO2009144825A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2008/060070 WO2009144825A1 (ja) 2008-05-30 2008-05-30 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法
JP2010514317A JP5024450B2 (ja) 2008-05-30 2008-05-30 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法
GB1020140.8A GB2472550B (en) 2008-05-30 2008-05-30 Recovery method management program, recovery method management device, and recovery method management method
US12/955,264 US8099626B2 (en) 2008-05-30 2010-11-29 Recovery method management device, recovery method management method and computer product for recovering a failure of IT system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060070 WO2009144825A1 (ja) 2008-05-30 2008-05-30 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/955,264 Continuation US8099626B2 (en) 2008-05-30 2010-11-29 Recovery method management device, recovery method management method and computer product for recovering a failure of IT system

Publications (1)

Publication Number Publication Date
WO2009144825A1 true WO2009144825A1 (ja) 2009-12-03

Family

ID=41376724

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/060070 WO2009144825A1 (ja) 2008-05-30 2008-05-30 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法

Country Status (4)

Country Link
US (1) US8099626B2 (ja)
JP (1) JP5024450B2 (ja)
GB (1) GB2472550B (ja)
WO (1) WO2009144825A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096075A (ja) * 2012-11-12 2014-05-22 Hitachi Ltd システム作業履歴管理方法
WO2014171047A1 (ja) * 2013-04-17 2014-10-23 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
WO2022168269A1 (ja) * 2021-02-05 2022-08-11 日本電信電話株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114993A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 一种应用系统的配置信息处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314751A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 障害対策支援方法
JPH1069400A (ja) * 1996-08-29 1998-03-10 Hitachi Ltd 計算機システムおよびその障害回復支援方法
JP2005018103A (ja) * 2003-06-23 2005-01-20 Nec Corp 性能向上サービス提供システムおよび性能向上サービス提供方法
JP2005122383A (ja) * 2003-10-15 2005-05-12 Omron Corp 復旧手順分析支援システム及び復旧手順分析支援方法
JP2005346331A (ja) * 2004-06-02 2005-12-15 Nec Corp 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103047A (ja) 1991-12-12 1994-04-15 Fujitsu Ltd プログラム作成支援装置及びプログラム実行支援装置
US5832529A (en) * 1996-10-11 1998-11-03 Sun Microsystems, Inc. Methods, apparatus, and product for distributed garbage collection
US6151683A (en) * 1997-03-31 2000-11-21 Sun Microsystems, Inc. Rebuilding computer states remotely
US6385707B1 (en) * 1998-02-24 2002-05-07 Adaptec, Inc. Method and apparatus for backing up a disk drive upon a system failure
JP4728565B2 (ja) * 2003-07-16 2011-07-20 日本電気株式会社 障害復旧装置および障害復旧方法ならびにプログラム
US8191068B2 (en) * 2004-10-27 2012-05-29 Nec Corporation Resource management system, resource information providing method and program
US20070168720A1 (en) * 2005-11-30 2007-07-19 Oracle International Corporation Method and apparatus for providing fault tolerance in a collaboration environment
US7801699B1 (en) * 2006-04-10 2010-09-21 Cadence Design Systems, Inc. Regression test modules for detecting and reporting changes in process design kits
JP5127186B2 (ja) * 2006-08-31 2013-01-23 株式会社リコー ワークフロー管理システム、ワークフロー管理方法、ワークフロー管理プログラムおよび記録媒体
JP2008090504A (ja) 2006-09-29 2008-04-17 Oki Electric Ind Co Ltd コンピュータ保守支援システム及び解析サーバ
US9223629B2 (en) * 2007-01-31 2015-12-29 Hewlett-Packard Development Company, L.P. Data processing system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314751A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 障害対策支援方法
JPH1069400A (ja) * 1996-08-29 1998-03-10 Hitachi Ltd 計算機システムおよびその障害回復支援方法
JP2005018103A (ja) * 2003-06-23 2005-01-20 Nec Corp 性能向上サービス提供システムおよび性能向上サービス提供方法
JP2005122383A (ja) * 2003-10-15 2005-05-12 Omron Corp 復旧手順分析支援システム及び復旧手順分析支援方法
JP2005346331A (ja) * 2004-06-02 2005-12-15 Nec Corp 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096075A (ja) * 2012-11-12 2014-05-22 Hitachi Ltd システム作業履歴管理方法
WO2014171047A1 (ja) * 2013-04-17 2014-10-23 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
JPWO2014171047A1 (ja) * 2013-04-17 2017-02-16 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
WO2022168269A1 (ja) * 2021-02-05 2022-08-11 日本電信電話株式会社 情報処理装置、情報処理方法、及び、情報処理プログラム

Also Published As

Publication number Publication date
GB2472550B (en) 2013-02-27
GB2472550A (en) 2011-02-09
JPWO2009144825A1 (ja) 2011-09-29
US8099626B2 (en) 2012-01-17
GB201020140D0 (en) 2011-01-12
US20110072305A1 (en) 2011-03-24
JP5024450B2 (ja) 2012-09-12

Similar Documents

Publication Publication Date Title
US9870295B2 (en) Automation of workflow creation and failure recovery
JP4924514B2 (ja) 仮想マシン管理プログラム、管理サーバ装置及び仮想マシン管理方法
JP5365051B2 (ja) 管理プログラム、管理装置及び管理方法
JP5024450B2 (ja) 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法
WO2015159577A1 (ja) 状態監視装置
JP2016057803A (ja) 異常検知手順開発装置および異常検知手順開発方法
CN104123219A (zh) 测试软件的方法和设备
US20170307480A1 (en) Data Display System
JP5622647B2 (ja) シナリオ生成装置およびシナリオ生成プログラム
WO2018036531A1 (zh) 一种测试用例生成方法
JP2009009300A (ja) バッチプロセス解析システムおよびバッチプロセス解析方法
JP2018088177A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
JP2013077134A (ja) 状態表示・指示入力装置
JP2009223743A (ja) 障害解析支援システム及び障害解析支援方法
JP6574146B2 (ja) サービス監視装置及びサービス監視方法
JP2018190324A (ja) 比較プログラム、比較装置及び比較方法
CN109445877B (zh) 一种检测游戏服务器多线程使用同一虚拟机的方法
JP2017173882A (ja) プラント運転監視制御システムおよびプラント運転監視制御方法
JP2011186866A (ja) プラント監視・制御装置およびその保守支援方法
JP5591072B2 (ja) ソフトウェア自動試験装置及びソフトウェア自動試験方法
JP7453196B2 (ja) 作業システム及びプログラム
JP2015179355A (ja) 重畳表示支援装置及び重畳表示支援プログラム
JP2020038473A (ja) 分析装置および不良対策支援方法
JP6946953B2 (ja) 制御プログラム開発支援装置、制御プログラム開発支援システム、制御プログラム開発支援方法、および、制御プログラム開発支援プログラム
US20160119200A1 (en) Systems and methods for providing user analytics

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08777068

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010514317

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 1020140

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20080530

WWE Wipo information: entry into national phase

Ref document number: 1020140.8

Country of ref document: GB

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08777068

Country of ref document: EP

Kind code of ref document: A1