WO2019026171A1 - ストレージシステムの管理システム - Google Patents

ストレージシステムの管理システム Download PDF

Info

Publication number
WO2019026171A1
WO2019026171A1 PCT/JP2017/027817 JP2017027817W WO2019026171A1 WO 2019026171 A1 WO2019026171 A1 WO 2019026171A1 JP 2017027817 W JP2017027817 W JP 2017027817W WO 2019026171 A1 WO2019026171 A1 WO 2019026171A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
information
recovery
registration
match rate
Prior art date
Application number
PCT/JP2017/027817
Other languages
English (en)
French (fr)
Inventor
孝明 五之治
岸本 敏道
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US16/488,218 priority Critical patent/US11010238B2/en
Priority to PCT/JP2017/027817 priority patent/WO2019026171A1/ja
Publication of WO2019026171A1 publication Critical patent/WO2019026171A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers

Definitions

  • the present invention relates generally to storage system management.
  • Patent Document 1 discloses a technique for generating a procedure for resuming the service of an information system stopped due to the occurrence of a failure.
  • Patent Document 2 discloses a technique for displaying work candidates for solving a problem from a trouble handling case registered for an IT system.
  • a storage system is configured by associating a plurality of components in a complex manner.
  • failure analysis information which is information indicating the relationship between a storage system failure and failure details including knowledge base information
  • the storage system management system is a failure that has occurred. Identify the match rate with Each of the one or more registered failures is a failure whose information is registered in failure analysis information.
  • the management system displays, for each of the one or more registration failures, information on the registration failure including the identified match rate.
  • FIG. 1 shows an overview of one embodiment. The structure of the whole system which concerns on this embodiment is shown. Indicates the configuration of the failure status table. The configuration of the failure analysis table is shown. 7 shows the configuration of a determination criteria table. The configuration of the recovery procedure table is shown. An example of a recovery script generation is shown typically. The configuration of the recovery script screen is shown. The flow of processing performed when a failure occurs in the storage device is shown. The flow of condition determination processing is shown. The flow of recovery script creation processing is shown.
  • the “interface unit” may include at least one of a user interface unit and a communication interface unit.
  • the user interface unit includes at least one I / O device of one or more I / O devices (eg, input devices (eg, keyboard and pointing device), output devices (eg, display devices)), and a display computer.
  • the communication interface unit may include one or more communication interface devices.
  • the one or more communication interface devices may be one or more same type communication interface devices (for example, one or more NICs (Network Interface Card)) or two or more different type communication interface devices (for example, NIC and HBA (Host Bus) Adapter)).
  • the “storage unit” includes at least the memory unit of the memory unit and the PDEV unit.
  • the PDEV part contains one or more PDEVs.
  • the memory unit includes one or more memories.
  • the at least one memory may be volatile memory or non-volatile memory.
  • the storage unit is mainly used in processing by the processor unit.
  • processor unit includes one or more processors. At least one processor is typically a CPU (Central Processing Unit).
  • CPU Central Processing Unit
  • the processor may include hardware circuitry that performs some or all of the processing.
  • information may be described by an expression such as “xxx table”, but the information may be expressed by any data structure. That is, the "xxx table” can be called “xxx information” to indicate that the information does not depend on the data structure.
  • the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. Good.
  • processing may be described with “program” as the subject, but the program is executed by a processor (for example, a CPU (Central Processing Unit)) to appropriately determine the processing defined.
  • the subject of the processing may be a processor (or an apparatus or system including the processor) in order to perform using a storage unit (for example, memory) and / or an interface device (for example, communication port).
  • the processor may also include hardware circuitry that performs some or all of the processing.
  • the program may be installed on a device such as a computer from a program source.
  • the program source may be, for example, a program distribution server or a computer readable (eg, non-transitory) recording medium.
  • two or more programs may be realized as one program, or one program may be realized as two or more programs.
  • PDEV means a physical storage device, and typically, a non-volatile storage device (for example, an auxiliary storage device) such as an HDD (Hard Disk Drive) or an SSD (Solid State). Drive).
  • a non-volatile storage device for example, an auxiliary storage device
  • HDD Hard Disk Drive
  • SSD Solid State
  • the "storage system” includes one or more physical storage devices.
  • the at least one physical storage device may be a general purpose physical computer.
  • At least one storage device may execute a virtual computer (for example, a virtual machine (VM)) or may execute software-defined anything (SDx).
  • VM virtual machine
  • SDx software-defined anything
  • SDS Software Defined Storage
  • SDDC Software-defined Datacenter
  • component means a component of a storage system, and more specifically, each of a plurality of node devices (for example, storage devices) configuring the storage system and each storage device It is a generic term for each of the plurality of parts it has.
  • node devices there are physical node devices (for example, network switches) and logical node devices (for example, virtual machines).
  • logical node devices for example, virtual machines.
  • parts there are physical parts (for example, microprocessors) and logical parts (for example, logical volumes).
  • the management system may be configured with one or more computers.
  • the management computer displays information (specifically, the management computer displays information on its own display device, or the management computer transmits display information to a remote display computer )
  • the management computer is a management system.
  • the plurality of computers (the display computer may include the display computer when the display is performed) is the management system.
  • the storage management server 111 is a management computer
  • the management client 155 is a display computer.
  • the display computer may be an example of a display device.
  • the accumulation server 101 may also be interpreted as a management computer.
  • the storage management server 111 and the accumulation server 101 may be integrated.
  • a virtual system in which two or more of the storage management server 111, management client 155, storage server 101, storage system 100, and development client 192 are executed on physical computing resources of the same computing system (eg, cloud computing system) System may be used.
  • FIG. 1 shows an overview of one embodiment.
  • a storage management server 111 that manages the storage system 100 exists.
  • the storage management server 111 may exist, for example, for each user company.
  • the storage management server 111 displays information as support for failure recovery on the management client 155 which is a client of the server 111.
  • the storage management server 111 executes the information acquisition program 161 and the recovery support program 173.
  • the storage management server 111 also manages configuration information 163, log information 171 and script template information 170.
  • the configuration information 163 is information related to the configuration of the storage system 100.
  • the log information 171 is information on a log of behavior and performance of the storage system 100.
  • the script template information 170 includes information on one or more script templates
  • the “script template” is a script template for recovery procedure. The combination of one or more recovery procedures of the plurality of recovery procedures and their execution order defines a failure recovery process.
  • the storage server 101 that manages a failure analysis table 51, which is an example of failure analysis information that is information about past failures and their recovery.
  • the failure analysis table 51 includes a failure analysis table for each failure.
  • the accumulation server 101 may be, for example, common to a plurality of user companies.
  • the accumulation server 101 receives information on a fault from the development client 192 which is a client of the server 101 and stores the information in the fault analysis table 51.
  • the accumulation server 101 executes an accumulation program (for example, DBMS (Database Management System)) 153.
  • the accumulation server 101 and the storage management server 111 may be integrated.
  • SIM Service Information Message
  • the SIM includes information indicating a failure component (component of failure state) and failure content (content of failure of the failure component). That is, the component is associated with the SIM for each component in the failure state.
  • the recovery support program 173 When receiving the SIM, the recovery support program 173 performs failure condition collection based on the information included in the SIM (S102). Specifically, for example, the recovery support program 173 performs the following.
  • the recovery support program 173 acquires, via the information acquisition program 161, information related to the failure component specified from the SIM from at least one of the configuration information 163 and the log information 171.
  • the recovery support program 173 creates a failure status table, which is a table that holds information indicating a failure status, based on the acquired information and the information that the SIM has.
  • the recovery support program 173 transmits the created failure status table to the storage program 53 of the storage server 101.
  • the recovery support program 173 receives extraction result information including the information extracted from the failure analysis table 51 using the failure situation table from the accumulation server 101.
  • the extraction result information includes one or more extraction entries. Each extraction entry includes at least a part of a value column identified using the failure status table.
  • the recovery support program 173 When the recovery support program 173 receives the extraction result information, it performs failure analysis (S103). Specifically, for example, the recovery support program 173 extracts extraction entries one by one from the received extraction result information. The recovery support program 173 calculates, for each extracted entry extracted, the matching rate between the extracted entry and the failure status table.
  • the recovery support program 173 displays recovery processing (S104).
  • S104 for example, the recovery support program 173 determines the display priority based on the calculated matching rate for each extraction entry included in the extraction result information. Also, the recovery support program 173 arranges and displays information of one or more failure recovery processes respectively corresponding to one or more extraction entries included in the extraction result information in the order of high display priority. Information on failure recovery processing may be arranged in the order of execution of one or more recovery procedures that constitute the failure recovery processing.
  • the recovery support program 173 may create a recovery procedure recovery script for the extracted entry before the information display in S104 or when the user-desired recovery procedure is selected from the information display screen.
  • the recovery script may be one in which a parameter value (for example, an ID number of a failure component) is input to a parameter item in the script template.
  • the “user” is a user of the management client 155 (for example, an employee of a user company).
  • the recovery support program 173 executes a recovery script (script in which a command is described) corresponding to the selected recovery procedure (S105).
  • FIG. 2 shows the configuration of the entire system according to the present embodiment.
  • the storage system 100 is connected to a communication network 121 (for example, the Internet or a Wide Area Network (WAN)), and is configured of a plurality of components.
  • the storage system 100 includes, for example, one or more storage devices 151 and one or more hosts 153 connected to the one or more storage devices 151.
  • a host 153 is connected to the storage device 151 via a communication network 122 (for example, a SAN (Storage Area Network) or a LAN (Local Area Network)).
  • a communication network 122 for example, a SAN (Storage Area Network) or a LAN (Local Area Network)
  • the host 153 may be a physical computer or a virtual computer.
  • the host 153 sends an I / O request specifying a logical volume to the storage device 151.
  • the storage device 151 has a PDEV group 163 and a controller 161 connected to the PDEV group 163.
  • the PDEV group 163 may have one or more RAID (Redundant Array of Independent (or Inexpensive) Disks) groups.
  • a RAID group is composed of a plurality of PDEVs, and stores data according to a predetermined RAID level.
  • the controller 561 includes, for example, an interface unit (for example, a plurality of ports), a storage unit, and a processor unit connected to them.
  • the controller 561 provides a plurality of logical volumes.
  • logical volumes there are substantial logical volumes (real volumes) 165 based on RAID groups, and there are also virtual logical volumes (virtual volumes) 167 according to thin provisioning.
  • the accumulation server 101 includes an interface unit 107, a storage unit 105, and a processor unit 103 connected to them.
  • the interface unit 107 is connected to the communication network 121.
  • the storage unit 105 stores information such as the failure analysis table 51 and a program such as the accumulation program 53.
  • the processor unit 103 executes a program in the storage unit 105 (a program such as a storage program 53).
  • the management client 155 and the storage management server 111 are connected to the communication network 121.
  • the storage management server 111 includes an interface unit 137, a storage unit 135, and a processor unit 133 connected thereto.
  • the interface unit 137 is connected to the communication network 121.
  • the storage unit 135 stores information such as log information 171, configuration information 163, and script template information 170.
  • the storage unit 135 stores programs such as an information acquisition program 161 and a recovery support program 173.
  • the processor unit 133 executes the programs in the storage unit 135 (programs such as the information acquisition program 161 and the recovery support program 173).
  • the information acquisition program 161 is a program for acquiring information, and has, for example, an information acquisition API (Application Programming Interface).
  • Information related to the storage system 100 can be acquired by executing various commands (for example, GetStorageVersion) defined in the information acquisition API.
  • Information on the storage system 100 is stored as configuration information 163 on the storage management server 111, and is periodically (or irregularly) synchronized with the storage system 100 (for example, the storage apparatus 151) to update the information. Be done.
  • the recovery support program 173 supports, for example, the above-described S102 to S105, that is, recovery of a failure.
  • FIG. 3 shows the configuration of the failure status table.
  • the failure status table 300 has a value column.
  • the plurality of values included in the value column are roughly classified into basic information 301 and fault information 302.
  • the fault corresponding to the fault status table 300 is referred to as "target fault”.
  • Basic information 301 includes information such as occurrence time 311, model 312, and version 313.
  • the occurrence time 311 indicates the occurrence time of the failure. The time is represented by year, month, hour, minute, and second, but may be represented more coarsely or finely.
  • the model 312 indicates the model of the storage apparatus 151 in which the target failure has occurred.
  • the version 313 indicates the version of the storage device in which the target failure has occurred.
  • the fault information 302 includes information such as a summary 321, an SIM list 322, and an operation 323.
  • the outline 321 shows an outline of the target fault that has occurred.
  • the SIM list 322 is a list of SIMs corresponding to the occurrence of the target failure, specifically, a list of one or more failure IDs respectively included in one or more notified SIMs.
  • the failure ID is, for example, an ID as a combination of a failure component type ID number, a failure content ID number, and a failure component ID number. Specifically, for example, in the failure ID “AA ## xx”, “AA” is the ID number of the failure component type, “##” indicates the failure content, and “xx” is the failure component. It is an ID number.
  • An operation 323 is information on a screen operation (an operation performed by a user on a screen such as a GUI (Graphical User Interface)) which has caused the target failure.
  • the operation 323 includes information such as a content 3231, an object 3232 and an error code 3233.
  • the content 3231 indicates the content of the screen operation.
  • An object 3232 indicates an object of screen operation.
  • the error code 3233 indicates an error code displayed as a result of screen operation.
  • the outline 321 and the operation 323 may be manually input or edited by the user.
  • the SIM list 322 may be automatically set in the failure status table 300 by the recovery support program 173.
  • the basic information 301 may be information acquired from the configuration information 163 or the log information 171 through the information acquisition program 161 based on the SIM.
  • the fault status table 300 may include, for example, at least the SIM list 322.
  • FIG. 4 shows the configuration of the failure analysis table.
  • the failure analysis table 51 has one or more value columns respectively corresponding to one or more failures in the past.
  • One failure corresponding to one value column in the failure analysis table 51 is referred to as “registration failure”.
  • a plurality of values possessed by each value column are roughly classified into basic information 401, fault information 402, analysis information 403 and history 404.
  • one past registration failure will be taken as an example (in the description of FIG. 4, “notable registration failure”).
  • the basic information 401 is basic information of the storage device in which the attention registration failure has occurred.
  • the basic information 401 includes a failure number 411, an occurrence time 412, a model 413, a device serial number 414, and a version 415.
  • the failure number 411 is an ID number of the attention registration failure.
  • the occurrence time 412 indicates the occurrence time of the attention registration failure.
  • a model 413 indicates the model of the storage device in which the attention registration failure has occurred.
  • the device serial number 414 indicates the serial number of the storage device in which the target registration failure has occurred.
  • the version 415 indicates the version of the storage device in which the target registration failure has occurred.
  • the fault information 402 includes information such as a summary 421, an SIM list 422, and an operation 423.
  • An overview 421 shows an overview of the attention registration failure.
  • the SIM list 422 is a list of SIMs notified due to the occurrence of the target registration failure (specifically, a list of one or more failure IDs respectively included in one or more notified SIMs).
  • the operation 423 is information on the screen operation that has caused the attention registration failure.
  • Operation 423 includes information such as content 4231, object 4232 and error code 4233.
  • the content 4231 shows the content of the screen operation.
  • An object 4232 indicates an object of screen operation.
  • the error code 4233 indicates an error code displayed as a result of screen operation.
  • the analysis information 403 includes information such as the determination criteria 431 and the recovery procedure creation method 432.
  • the determination criterion 431 is information on the determination criterion whether to match the attention registration failure.
  • the details of the judgment criteria 431 may be a link to the judgment criteria table 500 shown in FIG.
  • the recovery procedure creation method 432 is information regarding creation of a series of recovery procedures.
  • the details of the recovery procedure creation method 432 may be a link to the recovery procedure table 600 shown in FIG. That is, the determination criterion table 500 and the recovery procedure table 600 may be prepared for each value column (for each registration failure).
  • the history 404 shows the history of recovery from the attention registration failure in the past.
  • the history 404 includes information such as adoption number 401 and basic / fault information 442.
  • the adopted number 441 indicates the number (number of cases) of failure recovery processing (a series of recovery procedures) adopted according to the value column of the noted registration failure.
  • the basic / fault information 442 is a list of basic information 301 and fault information 302 included in the fault status table for each fault up to this point in which the fault recovery processing has been adopted.
  • FIG. 5 shows the configuration of the determination reference table.
  • the determination criterion table 500 holds information on each of one or more determination conditions.
  • the “determination condition” is a condition corresponding to the same or similar failure as the target failure.
  • At least the judgment reference table 500 in the failure analysis table 51 corresponds to a knowledge base, for example, knowledge (knowledge at a development source) input from the development client 192.
  • the determination criterion table 500 has a value column corresponding to one or more determination conditions.
  • the plurality of values included in the value column are one or more value sets (one or more values) respectively corresponding to the one or more determination conditions 501.
  • the value set has one or more determination condition elements 511.
  • the determination condition 501A it is as follows. That is, the outline 511Aa shows an outline of the contents of the determination of whether the determination condition 501A is satisfied.
  • the determination method 511Ba indicates a method of determination as to whether the determination condition 501A is satisfied. The method indicated by the determination method 511Ba can be appropriately added from the development client 192.
  • the determination target 511Ca indicates a target (for example, a component type or a file) to be checked to determine whether the determination condition 501A is satisfied.
  • the execution API 551Da indicates an API used to determine whether the determination condition 501A is satisfied.
  • the keyword 511Ea indicates a keyword used to determine whether the determination condition 501A is satisfied.
  • the necessity for recovery 511Fa indicates whether or not recovery is necessary.
  • FIG. 6 shows the configuration of the recovery procedure table.
  • Recovery procedure table 600 holds information about each of one or more recovery procedures. Specifically, for example, the recovery procedure table 600 has value columns corresponding to one or more recovery procedures. The plurality of values included in the value column are one or more value sets (one or more values) corresponding to one or more recovery procedures 601, respectively. For each recovery procedure 601, the value set comprises one or more recovery procedure elements 611. Taking recovery procedure 601A as an example, it is as follows. That is, the recovery procedure 601A is associated with a component (at least one of a fault component and a fault related component described later). The overview 611Aa shows an overview of the recovery procedure 601A.
  • the procedure name 611Ba indicates the name of the recovery procedure 601A, in other words, the name of the script template corresponding to the recovery procedure 601A.
  • the script template (file) corresponding to the recovery procedure 601A can be acquired from the script template information 170 using the procedure name 611Ba as a key.
  • the parameter 611Ca1 is information on parameters in the script template.
  • the parameter 611Ca1 includes a target component 621CAa11 and an attribute 621CBa11.
  • the target component 621CAa11 indicates the type of component corresponding to the parameter value set in the script template.
  • the attribute 621CBa11 indicates the attribute of the component indicated by the target component 621CAa11, specifically, for example, whether it is a failure component or a failure related component.
  • the “failure related component” is a component related to a failure component (a component where a failure has occurred), specifically, for example, at least a part of the structure of the storage system 100 has each component as a node and between nodes as an edge. If it is a tree structure (topology), the fault related component may be a component connected to the fault component via one or more edges. Also, for example, in the case where at least a part of the structure of the storage system 100 is an inclusion structure in which one component is included in another component, the failure related component is included in the failure component, or It is good. Whichever structure is adopted, the fault related component may be an upper or lower component of the fault component.
  • the parameter 611C further includes a related component 611CC (see, for example, the parameter 611Cb2, the attribute 621Cb22 and the related component 621CCb23).
  • FIG. 7 schematically shows an example of recovery script generation.
  • a plurality of script templates 701 are stored in the script template information 170 (for example, folder).
  • the recovery support program 173 specifies the script template 701A as the script template 701 corresponding to the procedure name 611B in the recovery procedure 601 selected by the user.
  • the recovery procedure 601 is assumed to have a parameter 611C for the faulty component as the parameter 611C.
  • the recovery support program 173 is identified from the SIM list 322 in the failure status table 300 in the parameter item (#LU highlighted in bold and underline) in the specified script template 701A. Set the ID number (ID number of LU as a failure component).
  • the recovery support program 173 specifies the script template 701B as the script template 701 corresponding to the procedure name 611B in the recovery procedure 601 selected by the user.
  • the recovery procedure 601 has parameters 611C for the faulty component and parameters 611C for the fault related component.
  • the recovery support program 173 sets the ID number of the failed component (LU) in the first parameter item (#LU highlighted in bold and underlined) in the specified script template 701B. Further, the recovery support program 173 uses the second parameter item (#Port highlighted in bold and underline) in the script template 701B identified by the ID number of the failure related component (port) (SIM in the failure status table 300).
  • the ID number (ID number of a port as a failure related component) specified from the list 322 is set.
  • FIG. 8 shows the configuration of the recovery script screen.
  • the recovery script screen 800 is displayed by the recovery support program 173.
  • the recovery script screen 800 has a plane area in which the recovery script list 810 is displayed, a plane area in which the selection script list 850 is displayed, and a plane area in which the execution button 802 is displayed.
  • the recovery script list 810 is a list of information on one or more registration failures (for example, N registration failures (N is a natural number) having the highest display priority described later) whose match rate is higher than 0%.
  • “Information on registration failure” is a summary (information indicated by the registration failure summary 421), SIM match rate, condition match rate, and number of adoptions (information indicated by the number of registration failures 441) And.
  • the above “match rate” is at least the SIM match rate of the SIM match rate and the condition match rate.
  • the SIM match rate is a rate at which the SIM list 422 corresponding to the registration failure matches the SIM list 322 corresponding to the target failure. For example, if the SIM list 422 is SIM1, SIM2 and SIM3 and the SIM list 322 corresponding to the target failure is SIM1, SIM2 and SIM4, two of the three SIMs of the SIM list 422 have two SIM lists 322.
  • the SIM match rate is 2/3 because it matches the internal SIM.
  • the condition match rate is a match rate between all the conditions 501 included in the determination criteria table 500 corresponding to the registration failure and the target failure (the ratio of the number of conditions 501 satisfied by the target failure to the number of conditions 501). For example, when the determination criterion table 500 has three conditions 501 and the target failure satisfies two conditions 501 among the three conditions 501, the condition matching rate is 2/3.
  • “information on registration failure” further includes the procedure name of one or more recovery procedures specified based on the value column corresponding to the registration failure to be displayed.
  • “information on registration failure” further includes the procedure name of one or more recovery procedures specified based on the value column corresponding to the registration failure to be displayed.
  • a recovery script corresponding to the procedure name displayed on the recovery script screen 800 is generated, but the procedure name is selected by the user from the recovery script list 810.
  • a recovery script may be generated.
  • the registration failure with the higher display priority is positioned higher.
  • the display priority corresponds to the relative display position of the registration failure of the display target.
  • the display priority is defined by the SIM matching rate, the condition matching rate, and the number of adopted cases, but may be defined by at least one of the SIM matching rate, the condition meeting rate, and the number of adopted cases. It is an example of emphasizing and displaying the information about the registration fault whose display priority is higher as the information regarding the registration fault whose display priority is higher is displayed higher. Highlighting may be displayed in a large font, displayed in a thick font, displayed in a different color, or the like instead of or in addition to displaying in the upper layer.
  • the degree of influence on display priority is the highest in the SIM match rate, the second highest in the condition match rate, and the lowest in the number of adoptions. That is, the higher the SIM match rate, the higher the display priority. When the SIM match rate is the same, the higher the condition match rate, the higher the display priority.
  • SIM match rate most affects display priority is that SIM is information output from a device in the storage system 100 and is considered to be the most reliable (in other words, Different SIMs are likely to be different obstacles.
  • the second reason that the condition match rate affects the display priority is that the determination condition is the information associated as a part of the developer's knowledge, and using such information is one of the features of the present embodiment. It is because.
  • a recovery script (script having a parameter value set) corresponding to the selected recovery procedure is displayed by the recovery support program 173 in the selected script list 850.
  • Ru The user can view a recovery script (script in which a command is described) corresponding to the selected recovery procedure.
  • the recovery support program 173 may receive from the user the correction or download of the script displayed in the selected script list 850.
  • the information indicated by the basic information / failure information 442 in the history 404 may be displayed by the recovery support program 173. Thereby, the user can know the presence or absence of the record.
  • the recovery support program 173 applies the all recovery scripts displayed in the selected script list 850 to the storage system 100 (the storage apparatus 151 in which the target failure has occurred), thereby recovering. Script is executed.
  • FIG. 9 shows the flow of processing performed when a failure occurs in the storage device 151.
  • the storage device 151 When a failure occurs in the storage device 151 (S901), the storage device 151 notifies the storage management server 111 of one or more SIMs related to the failure (target failure) (S902).
  • the storage management server 111 receives one or more SIMs.
  • the recovery support program 173 creates the failure status table 300 based on the received one or more SIMs (S903). Specifically, for example, the recovery support program 173 registers all the received SIMs (failure IDs) in the failure status table 300 as the SIM list 322. Also, the recovery support program 173 registers the time of receiving the SIM in the failure status table 300 as the occurrence time 311. In addition, the recovery support program 173 acquires information related to the storage device 151 as the SIM issuer, from at least one of the configuration information 163 and the log information 171 through the information acquisition program 161 (information acquisition API). (Model and version of storage device) are registered in the failure status table 300 as model 312 and version 313. Note that the recovery support program 173 uses the information acquisition program 161 (information acquisition API) to extract information on components related to the component identified from the failure ID in the SIM from at least one of the configuration information 163 and the log information 171. You may get it.
  • the recovery support program 173 transfers the failure status table 300 created in S903 to the storage server 101 (S904).
  • the accumulation server 101 receives the failure status table 300.
  • the accumulation program 53 calculates the SIM match rate (S905). Specifically, for example, from the failure analysis table 51, the storage program 53 can register a registered failure (value column) including failure content that matches the failure content in each SIM included in the received SIM list 322 in the failure status table 300. Extract.
  • the accumulation program 53 calculates, for each of the identified registration failures, an SIM matching ratio which is a matching ratio between the SIM list 422 in the registration failure and the SIM list 322 in the received failure status table 300.
  • the storage program 53 transmits each identified registration failure (value column) to the storage management server 111 instead of the storage program 53 calculating the SIM match rate, and the recovery support program 173 transmits each registration failure.
  • the SIM match rate may be calculated.
  • the accumulation program 53 transfers the extraction result information to the storage management server 111 (S906).
  • the extraction result information includes, among the registration failures extracted in S905, information on registration failures whose SIM matching rate exceeds 0%. Information on registration failure with a SIM match rate of 0% is not included in the extraction result information, so reduction of the information amount of the extraction result information can be expected. Information on each registration failure whose SIM match rate exceeds 0% is referred to as "extraction entry".
  • the extraction entry includes failure information 402 in the value column, analysis information 403 (judgment reference table 500 and recovery procedure table 600), history 404, and SIM matching rate calculated in S905.
  • the storage management server 111 receives the extraction result information.
  • the recovery support program 173 calculates the condition matching rate for each extraction entry (S907). Specifically, the recovery support program 173 performs the condition determination process shown in FIG.
  • the recovery support program 173 creates a recovery script based on each extracted entry (S908). Specifically, the recovery support program 173 performs a recovery script creation process shown in FIG.
  • the recovery support program 173 displays the recovery script screen 800 on the management client 155 (S909).
  • the display of the recovery script screen 800 may be performed, for example, in response to a query or display request from the management client 155.
  • information on registration failures is arranged in the descending order of display priority.
  • the information on registration failure includes an outline (information indicated by the outline 421 in the extraction entry), an SIM coincidence rate (SIM coincidence rate in the extraction entry), a condition conformity rate (conditional agreement rate calculated in S 907), and It includes the number (information indicated by the adopted number 411 in the extraction entry) and the recovery script name (information indicated by the procedure name 611B in the recovery procedure table 600 in the extraction entry).
  • the user 901 looks at the recovery script screen 800, selects a recovery script, and instructs the storage management server 111 to execute the selected recovery script (for example, the execution button 802 is pressed) (S911).
  • the recovery support program 173 executes the recovery script selected by the user in response to an instruction from the user 901 (management client 155) (S912). That is, the recovery support program 173 executes a failure recovery process including sending a command according to the recovery script selected by the user to the storage device 151.
  • the recovery support program 173 detects the success of failure recovery and stores the execution result (for example, information including the failure status table 300 transferred in S904). (S914).
  • the accumulation server 101 receives the execution result.
  • the accumulation program 53 updates the failure analysis table 51 based on the received execution result (S915). Specifically, for example, the accumulation program 53 specifies a registration failure corresponding to the adopted recovery procedure from the failure analysis table 51, and basic information 301 and failure information 302 in the failure status table 300 for the specified registration failure. Is added to the basic information / failure information 422, and the value represented by the adopted number 441 is incremented by one.
  • the recovery support program 173 collects dumps from the storage device 151 of the SIM notification source, and stores the collected dumps in the storage server 101.
  • the development client 192 acquires and displays the dump stored in the accumulation server 101.
  • the developer analyzes the dump.
  • the development client 192 stores, in the failure analysis table 51, information input by the developer based on the analysis result.
  • the failure analysis table 51 may be manually edited by the developer.
  • FIG. 10 shows the flow of the condition determination process.
  • the recovery support program 173 executes the following for all extraction entries in the extraction result information (loop (A)).
  • one extraction entry will be taken as an example (referred to as a “target extraction entry” in the description of FIG. 10).
  • (10-1) S1001 (10-2) Any one of S1002 to S1005, S1012 and S1013, and S1022, and (10-3) S1031
  • the recovery support program 173 executes the above (10-1) and (10-2) for all the determination conditions 501 specified from the focused extraction entry (loop (B)).
  • one determination condition 501 will be taken as an example (referred to as “focus determination condition 501” in the description of FIG. 10).
  • the recovery support program 173 determines the determination method 511B in the attention determination condition 501 (S1001). As values indicated by the determination method 511B, there are a first method “determination by failure API with detailed API”, a second method “determination by log file”, and no setting “ ⁇ ”.
  • the first method is a method of using the information acquisition program 161 (information acquisition API) to refer to the detailed information of the failure component.
  • the second method is a method of searching log information 171 (for example, one or more log files) with a keyword. No setting means that neither the first method nor the second method is set.
  • the recovery support program 173 determines from the SIM list 322 in the failure status table 300 the SIM of the determination target component type (target indicated by the determination target 511C in the attention determination condition 501). Are identified (S1002).
  • the recovery support program 173 extracts the ID number of the determination target component from the SIM identified in S1002 (S1003).
  • the recovery support program 173 acquires information associated with the ID number extracted in S1003 through the information acquisition program 161 (S1004).
  • the recovery support program 173 searches for the information associated with the keyword (the keyword indicated by the keyword 511E in the attention determination condition 501) from the information acquired in S1004 (S1005). If it hits, the judgment result is OK, and if it does not hit, the judgment result is NG.
  • the recovery support program 173 opens the determination target file (the file indicated by the determination target 511C in the attention determination condition 501) from the log information 171 (S1012).
  • the recovery support program 173 searches the file opened in S1012 for information associated with the keyword (the keyword indicated by the keyword 511E in the attention determination condition 501) (S1013). If it hits, the judgment result is OK, and if it does not hit, the judgment result is NG.
  • the recovery support program 173 When the determination method 511B indicates no setting, the recovery support program 173 performs a predetermined process (S1022). For example, the recovery support program 173 transmits, to the developer, a message (for example, an electronic mail) instructing the input of the determination method 511B for the attention determination condition 501. The developer who has seen the message can add the determination method 511B to the attention determination condition 501.
  • a message for example, an electronic mail
  • condition match rate number of OK / (number of OK + number of NG)
  • FIG. 11 shows the flow of recovery script creation processing.
  • the recovery support program 173 executes the following for all extraction entries in the extraction result information (loop (A)).
  • one extraction entry will be taken as an example (referred to as a “target extraction entry” in the description of FIG. 11).
  • (11-1) S1101 (11-2)
  • S1102 (11-3) Any one of S1103 and S1104 and S1113 to S1115, (11-4) S1121, and (11-5) S1031
  • the recovery support program 173 executes the above (11-1) to (11-4) for all recovery procedures 601 specified from the focused extraction entry (loop (B)).
  • one recovery procedure 601 will be taken as an example (in the description of FIG. 11, it will be referred to as “focused recovery procedure 601”).
  • the recovery support program 173 acquires a script template (file) corresponding to the procedure name 611B in the recovery procedure of interest 601 from the script template information 170 (S1101).
  • the recovery support program 173 executes the above (11-2) and (11-3) for all parameters 611C in the recovery procedure of interest 601 (loop (C)).
  • one parameter 611C will be taken as an example (referred to as “target parameter 611C” in the description of FIG. 11).
  • the recovery support program 173 determines the attribute 621CB in the parameter of interest 611C (S1102).
  • the recovery support program 173 specifies the SIM of the target component type (target indicated by the target component 621CA in the parameter of interest 611C) from the SIM list 322 in the failure status table 300 (S1103) ).
  • the recovery support program 173 extracts the component ID number from the SIM specified in S1103 (S1104).
  • the recovery support program 173 specifies the SIM of the related component type (target indicated by the related component 621CC in the parameter of interest 611C) from the SIM list 322 in the failure status table 300 ( S1113).
  • the recovery support program 173 extracts the component ID number from the SIM specified in S1113 (S1114).
  • the recovery support program 173 uses the ID number acquired in S1114 to configure the information on the target component (information including the ID number of the target component) as the configuration information 163 or the log information 171 through the information acquisition program 161 (information acquisition API). (S1115).
  • the failure component and the API may correspond on a one-on-one basis.
  • the recovery support program 173 creates a recovery script corresponding to the recovery procedure of interest 601 (S1121). That is, the recovery support program 173 sets the ID numbers (parameter values) acquired for all the parameters 611C in the recovery procedure of interest 601 in the parameter items in the script template acquired in S1101.
  • recovery scripts are prepared for all recovery procedures 601.
  • the recovery support program 173 creates a recovery command in which recovery scripts of all recovery procedures 601 are merged (S1131).
  • the general computer displays the failure recovery method linked to the ID in response to the input of the ID of the occurred failure.
  • the failure and details about the failure (specifically, for example, the SIM list notified from the storage device in which the failure has occurred, and a failure that is the same as or similar to the failure)
  • the relationship between the applicable condition) and a series of recovery procedures for the failure is accumulated in the failure analysis table 51 according to the knowledge of the developer.
  • the matching rate with the SIM list input for the registration failure and the matching rate with one or more judgment conditions input for the registration failure are used Be done. This can improve the accuracy of the register.
  • the failure analysis table 51 stores the number of adopted cases which is an example of information updated based on feedback, and the number of adopted cases affects the display priority in addition to the matching rate. This contributes to improving the accuracy of the register.
  • a recovery script is automatically generated using an SIM or an ID number (ID number of a component) extracted from configuration information. Be done. Since the storage system 100 has many components, automatically generating a recovery script will reduce the work for failure recovery for the user.
  • a program more complicated than the script may be generated, or a program corresponding to two or more recovery procedures may be generated, or registration failure
  • a program corresponding to a series of recovery procedures (disaster recovery processing) corresponding to the recovery of B. may be generated.
  • the recovery procedure displayed may be a request item required for investigating the cause of the failure instead of the recovery script.

Abstract

ストレージシステムの管理システムが、ストレージシステムの障害とナレッジベースの情報を含む障害詳細との関係を障害毎に示す情報である障害解析情報を基に、1以上の登録障害の各々について、発生した障害との合致率を特定する。記1以上の登録障害の各々は、障害解析情報に情報が登録されている障害である。管理システムは、当該1以上の登録障害の各々について、特定された合致率を含み登録障害に関する情報を、表示する。

Description

ストレージシステムの管理システム
 本発明は、概して、ストレージシステムの管理に関する。
 例えば、特許文献1が、障害の発生により停止した情報システムのサービスを再開する手順を生成する技術を開示する。また、例えば、特許文献2が、ITシステムについて登録されたトラブル対処事例からトラブルを解決するための作業候補を表示する技術を開示する。
WO2015/072078 特許第5223413号
 一般に、ストレージシステムは、複数のコンポーネントが複雑に関連して構成されている。
 このため、1つの障害によって複数のコンポーネントが障害状態となるケースがある。その場合、必ずしも、障害状態となっている全てのコンポーネントを回復する必要があるわけではなく、障害の原因となっているコンポーネントだけを回復すれば済むことが少なくない。しかし、特許文献1の技術では、回復手順は各コンポーネントの手順を単純に組み合わせた静的な手順であり、障害の原因となるコンポーネントの特定ができず、適切な回復手順の提供は難しい。また、特許文献2の技術では、解決対象のトラブルにコンポーネントが関連付けられていないため、コンポーネントとの関連でトラブルを解決することは難しい。
 一方で、上記ケースとは逆に、発生した1つの障害のみが通知されその障害に派生する障害まで通知されないケースや、障害が発生しているコンポーネントに対してだけではなく障害が発生していないコンポーネントに対しても操作が必要になるケースが少なくない。このようなケースについても、特許文献1及び2のいずれの技術でも解決が難しい。
 ストレージシステムの管理システムが、ストレージシステムの障害とナレッジベースの情報を含む障害詳細との関係を障害毎に示す情報である障害解析情報を基に、1以上の登録障害の各々について、発生した障害との合致率を特定する。記1以上の登録障害の各々は、障害解析情報に情報が登録されている障害である。管理システムは、当該1以上の登録障害の各々について、特定された合致率を含み登録障害に関する情報を、表示する。
 ストレージシステムで発生した障害を迅速に回復することが期待できる。
一実施形態の概要を示す。 本実施形態に係るシステム全体の構成を示す。 障害状況テーブルの構成を示す。 障害解析テーブルの構成を示す。 判定基準テーブルの構成を示す。 回復手順テーブルの構成を示す。 回復スクリプト生成の一例を模式的に示す。 回復スクリプト画面の構成を示す。 ストレージ装置で障害が生じた場合に行われる処理の流れを示す。 条件判定処理の流れを示す。 回復スクリプト作成処理の流れを示す。
 以下の説明では、「インターフェース部」は、ユーザインターフェース部と、通信インターフェース部とのうちの少なくとも1つを含んでよい。ユーザインターフェース部は、1以上のI/Oデバイス(例えば入力デバイス(例えばキーボード及びポインティングデバイス)と出力デバイス(例えば表示デバイス))と表示用計算機とのうちの少なくとも1つのI/Oデバイスを含んでよい。通信インターフェース部は、1以上の通信インターフェースデバイスを含んでよい。1以上の通信インターフェースデバイスは、1以上の同種の通信インターフェースデバイス(例えば1以上のNIC(Network Interface Card))であってもよいし2以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
 また、以下の説明では、「記憶部」は、メモリ部及びPDEV部のうちの少なくともメモリ部を含む。PDEV部は、1以上のPDEVを含む。メモリ部は、1以上のメモリを含む。少なくとも1つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。記憶部は、主に、プロセッサ部による処理の際に使用される。
 また、以下の説明では、「プロセッサ部」は、1以上のプロセッサを含む。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)である。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。
 また、以下の説明では、「xxxテーブル」といった表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
 また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶部(例えばメモリ)及び/又はインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有する装置又はシステム)とされてもよい。また、プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な(例えば非一時的な)記録媒体であってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
 また、以下の説明では、「PDEV」は、物理的な記憶デバイスを意味し、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
 また、以下の説明では、「ストレージシステム」は、1以上の物理的なストレージ装置を含む。少なくとも1つの物理的なストレージ装置が、汎用的な物理計算機であってもよい。少なくとも1つのストレージ装置が、仮想的な計算機(例えばVM(Virtual Machine))を実行してもよいし、SDx(Software-Defined anything)を実行してもよい。SDxとしては、例えば、SDS(Software Defined Storage)(仮想的なストレージ装置の一例)又はSDDC(Software-defined Datacenter)を採用することができる。
 また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通符号を使用し、同種の要素を区別して説明する場合は、参照符号を使用することがある。
 また、以下の説明では、「コンポーネント」とは、ストレージシステムの構成要素を意味し、具体的には、ストレージシステムを構成する複数のノード装置(例えばストレージ装置)の各々、及び、各ストレージ装置が有する複数の部品の各々の総称である。ノード装置として、物理的なノード装置(例えばネットワークスイッチ)もあれば論理的なノード装置(例えば仮想マシン)もある。また、部品として、物理的な部品(例えばマイクロプロセッサ)もあれば論理的な部品(例えば論理ボリューム)もある。
 また、以下の説明では、管理システムは、一以上の計算機で構成されてよい。具体的には、例えば、管理計算機が情報を表示する場合(具体的には、管理計算機が自分の表示デバイスに情報を表示する、或いは、管理計算機が表示用情報を遠隔の表示用計算機に送信する場合)、管理計算機が管理システムである。また、例えば、複数の計算機で管理計算機と同等の機能が実現されている場合は、当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機を含んでよい)が、管理システムである。本実施形態では、ストレージ管理サーバ111が管理計算機であり、管理クライアント155が、表示用計算機である。表示用計算機は、表示デバイスの一例でよい。蓄積サーバ101も管理計算機と解釈されてもよい。ストレージ管理サーバ111と蓄積サーバ101が一体でもよい。ストレージ管理サーバ111、管理クライアント155、蓄積サーバ101、ストレージシステム100及び開発クライアント192のうちの2以上が、同一のコンピューティングシステム(例えばクラウドコンピューティングシステム)の物理コンピューティングリソース上で実行される仮想的なシステムでもよい。
 図1は、一実施形態の概要を示す。
 ストレージシステム100を管理するストレージ管理サーバ111が存在する。ストレージ管理サーバ111は、例えば、ユーザ企業毎に存在してよい。ストレージ管理サーバ111は、当該サーバ111のクライアントである管理クライアント155に、障害回復の支援としての情報を表示する。ストレージ管理サーバ111は、情報取得プログラム161及び回復支援プログラム173を実行する。また、ストレージ管理サーバ111は、構成情報163、ログ情報171及びスクリプトテンプレート情報170を管理する。構成情報163は、ストレージシステム100の構成に関する情報である。ログ情報171は、ストレージシステム100の挙動や性能のログに関する情報である。スクリプトテンプレート情報170は、1以上のスクリプトテンプレートに関する情報を含む「スクリプトテンプレート」とは、回復手順のスクリプトのテンプレートである。複数の回復手順のうちの1以上の回復手順とその実行順序との組合せにより障害回復処理が定義される。
 過去の障害とその回復とに関する情報である障害解析情報の一例である障害解析テーブル51を管理する蓄積サーバ101が存在する。障害解析テーブル51は、障害毎に障害解析テーブルを含む。蓄積サーバ101は、例えば、複数のユーザ企業に共通でよい。蓄積サーバ101は、当該サーバ101のクライアントである開発クライアント192から、障害に関する情報を受けて障害解析テーブル51に蓄積する。蓄積サーバ101は、蓄積プログラム(例えば、DBMS(Database Management System))153を実行する。蓄積サーバ101とストレージ管理サーバ111は一体でもよい。
 以下、ストレージシステム100で障害が発生した場合に行われる処理の一例の概要を説明する。
 ストレージシステム100で障害が発生すると、ストレージシステム100からメッセージ(以下、SIM(Service Information Message))が能動的に(又は回復支援プログラム173からの問合せに応答して)ストレージ管理サーバ111に通知される(S101)。SIMは、障害コンポーネント(障害状態のコンポーネント)と障害内容(当該障害コンポーネントの障害の内容)とを示す情報を含む。すなわち、障害状態のコンポーネント毎に、SIMには、当該コンポーネントが関連付けられている。
 回復支援プログラム173は、SIMを受けた場合、当該SIMに含まれている情報を基に障害状況収集を行う(S102)。具体的には、例えば、回復支援プログラム173は、下記を行う。回復支援プログラム173は、情報取得プログラム161を通じて、SIMから特定される障害コンポーネントに関わる情報を構成情報163及びログ情報171のうちの少なくとも一方から取得する。回復支援プログラム173は、取得した情報と、SIMが有する情報とを基に、障害状況を示す情報を保持するテーブルである障害状況テーブルを作成する。回復支援プログラム173は、作成した障害状況テーブルを蓄積サーバ101の蓄積プログラム53に送信する。回復支援プログラム173は、当該障害状況テーブルを用いて障害解析テーブル51から抽出された情報を含む抽出結果情報を、蓄積サーバ101から受信する。抽出結果情報は、1以上の抽出エントリを含む。各抽出エントリは、当該障害状況テーブルを用いて特定された値カラムの少なくとも一部を含む。
 回復支援プログラム173は、抽出結果情報を受けた場合、障害解析を行う(S103)。具体的には、例えば、回復支援プログラム173は、受信した抽出結果情報から、抽出エントリを1件ずつ取り出す。回復支援プログラム173は、取り出した抽出エントリ毎に、当該抽出エントリと、障害状況テーブルとの合致率を算出する。
 回復支援プログラム173は、回復処理表示を行う(S104)。S104では、例えば、回復支援プログラム173は、抽出結果情報が有する抽出エントリ毎に、算出された合致率を基に、表示優先度を決定する。また、回復支援プログラム173は、抽出結果情報が有する1以上の抽出エントリにそれぞれ対応した1以上の障害回復処理の情報を表示優先度の高い順に並べて表示する。障害回復処理の情報は、当該障害回復処理を構成する1以上の回復手順が実行順序で並んでいてよい。
 回復支援プログラム173は、S104での情報表示の前に、又は、情表表示画面からユーザ所望の回復手順が選択された場合に、抽出エントリについて、回復手順の回復スクリプトを作成してよい。回復スクリプトは、スクリプトテンプレートにおけるパラメータ項目にパラメータ値(例えば、障害コンポーネントのID番号)が入力されたものでよい。なお、「ユーザ」とは、管理クライアント155のユーザ(例えばユーザ企業の従業員)である。
 回復支援プログラム173は、選択された回復手順に対応した回復スクリプト(コマンドが記載されたスクリプト)を実行する(S105)。
 以下、本実施形態を詳細に説明する。
 図2は、本実施形態に係るシステム全体の構成を示す。
 ストレージシステム100は、通信ネットワーク121(例えばインターネット又はWAN(Wide Area Network))に接続されており、複数のコンポーネントから構成されている。ストレージシステム100は、例えば、1以上のストレージ装置151と、1以上のストレージ装置151に接続された1以上のホスト153を含む。ストレージ装置151には、例えば、通信ネットワーク122(例えばSAN(Storage Area Network)又はLAN(Local Area Network))を介してホスト153が接続される。
 ホスト153は、物理計算機でも仮想計算機でもよい。ホスト153は、論理ボリュームを指定したI/O要求をストレージ装置151に送信する。
 ストレージ装置151は、PDEV群163と、PDEV群163に接続されたコントローラ161とを有する。
 PDEV群163は、1以上のRAID(Redundant Array of Independent (or Inexpensive) Disks)グループを有してよい。RAIDグループは、複数のPDEVで構成されており、所定のRAIDレベルに従いデータを記憶する。
 コントローラ561は、例えば、インターフェース部(例えば複数のポート)、記憶部及びそれらに接続されたプロセッサ部を有する。コントローラ561は、複数の論理ボリュームを提供する。論理ボリュームとしては、RAIDグループに基づく実体的な論理ボリューム(実ボリューム)165もあれば、シンプロビジョニングに従う仮想的な論理ボリューム(仮想ボリューム)167もある。
 蓄積サーバ101は、インターフェース部107、記憶部105及びそれらに接続されたプロセッサ部103を有する。インターフェース部107は、通信ネットワーク121に接続される。記憶部105は、障害解析テーブル51といった情報、及び、蓄積プログラム53といったプログラムを格納する。プロセッサ部103は、記憶部105内のプログラム(蓄積プログラム53といったプログラム)を実行する。
 管理クライアント155及びストレージ管理サーバ111が、通信ネットワーク121に接続される。ストレージ管理サーバ111は、インターフェース部137、記憶部135及びそれらに接続されたプロセッサ部133を有する。インターフェース部137は、通信ネットワーク121に接続される。記憶部135は、ログ情報171、構成情報163及びスクリプトテンプレート情報170といった情報を格納する。また、記憶部135は、情報取得プログラム161及び回復支援プログラム173といったプログラムを格納する。プロセッサ部133は、記憶部135内のプログラム(情報取得プログラム161及び回復支援プログラム173といったプログラム)を実行する。
 情報取得プログラム161は、情報を取得するためのプログラムであり、例えば、情報取得API(Application Programming Interface)を有する。情報取得APIに定義されている様々なコマンド(例えば、GetStorageVersion)を実行することで、ストレージシステム100に関する情報の取得が可能である。ストレージシステム100に関する情報は、構成情報163としてストレージ管理サーバ111上に格納されており、定期的に(又は不定期的に)ストレージシステム100(例えばストレージ装置151)と同期がとられて情報が更新される。
 回復支援プログラム173は、例えば上述のS102~S105、すなわち、障害の回復の支援を行う。
 図3は、障害状況テーブルの構成を示す。
 障害状況テーブル300は、値カラムを有する。値カラムが有する複数の値は、基本情報301と障害情報302とに大別される。障害状況テーブル300に対応する障害を、「対象障害」と言う。
 基本情報301は、発生時刻311、機種312及びバージョン313といった情報を含む。発生時刻311は、障害の発生時刻を示す。時刻は、年月時刻分秒で表現されるが、それよりも粗く又は細かく表現されてもよい。機種312は、対象障害が発生したストレージ装置151の機種を示す。バージョン313は、対象障害が発生したストレージ装置のバージョンを示す。
 障害情報302は、概要321、SIMリスト322及び操作323といった情報を含む。
 概要321は、発生した対象障害の概要を示す。
 SIMリスト322は、対象障害の発生に対応したSIMの一覧、具体的には、通知された1以上のSIMがそれぞれ含む1以上の障害IDの一覧である。障害IDは、例えば、障害コンポーネント種別のID番号と、障害内容のID番号と、障害コンポーネントのID番号との組合せとしてのIDである。具体的には、例えば、障害ID“AA##xx”において、“AA”は、障害コンポーネント種別のID番号であり、“##”は、障害内容を示し、“xx”は、障害コンポーネントのID番号である。
 操作323は、対象障害の原因となった画面操作(ユーザがGUI(Graphical User Interface)のような画面に対して行った操作)に関する情報である。操作323は、内容3231、対象3232及びエラーコード3233といった情報を含む。内容3231は、画面操作の内容を示す。対象3232は、画面操作の対象を示す。エラーコード3233は、画面操作の結果として表示されたエラーコードを示す。
 概要321及び操作323は、ユーザにより手動で入力又は編集されてよい。SIMリスト322が、回復支援プログラム173により自動で障害状況テーブル300に設定されてよい。基本情報301は、SIMを基に構成情報163又はログ情報171から情報取得プログラム161を通じて取得された情報でよい。障害状況テーブル300は、例えば、少なくともSIMリスト322を含んでいればよい。
 図4は、障害解析テーブルの構成を示す。
 障害解析テーブル51は、過去の1以上の障害にそれぞれ対応した1以上の値カラムを有する。障害解析テーブル51における1つの値カラムに対応した1つの障害を、「登録障害」と言う。各値カラムが有する複数の値は、基本情報401、障害情報402、解析情報403及び履歴404に大別される。以下、過去の1つの登録障害を例に取る(図4の説明において「注目登録障害」)。
 基本情報401は、注目登録障害が発生したストレージ装置の基本的な情報である。基本情報401は、障害番号411、発生時刻412、機種413、装置製番414及びバージョン415を含む。障害番号411は、注目登録障害のID番号である。発生時刻412は、注目登録障害の発生時刻を示す。機種413は、注目登録障害が発生したストレージ装置の機種を示す。装置製番414は、注目登録障害が発生したストレージ装置の製番を示す。バージョン415は、注目登録障害が発生したストレージ装置のバージョンを示す。
 障害情報402は、概要421、SIMリスト422及び操作423といった情報を含む。概要421は、注目登録障害の概要を示す。SIMリスト422は、注目登録障害の発生が原因で通知されたSIMの一覧(具体的には、通知された1以上のSIMがそれぞれ含む1以上の障害IDの一覧)である。操作423は、注目登録障害の原因となった画面操作に関する情報である。操作423は、内容4231、対象4232及びエラーコード4233といった情報を含む。内容4231は、画面操作の内容を示す。対象4232は、画面操作の対象を示す。エラーコード4233は、画面操作の結果として表示されたエラーコードを示す。
 解析情報403は、判定基準431及び回復手順作成方法432といった情報を含む。判定基準431は、注目登録障害に合致するか否かの判定基準に関する情報である。判定基準431の詳細は、図5に示す判定基準テーブル500へのリンクでよい。回復手順作成方法432は、一連の回復手順の作成に関する情報である。回復手順作成方法432の詳細は、図6に示す回復手順テーブル600へのリンクでよい。すなわち、判定基準テーブル500及び回復手順テーブル600は、値カラム毎(登録障害毎)に用意されてよい。
 履歴404は、過去に注目登録障害から回復したことの履歴を示す。履歴404は、採用件数401及び基本/障害情報442といった情報を含む。採用件数441は、注目登録障害の値カラムに従う障害回復処理(一連の回復手順)が採用された回数(件数)を示す。基本/障害情報442は、当該障害回復処理を採用したこれまでの各障害についての障害状況テーブルが有する基本情報301及び障害情報302のリストである。
 図5は、判定基準テーブルの構成を示す。
 判定基準テーブル500は、1以上の判定条件の各々に関する情報を保持する。「判定条件」とは、対象障害と同一又は類似の障害であることに該当する条件である。障害解析テーブル51のうち少なくとも判定基準テーブル500は、ナレッジベース、例えば、開発クライアント192から入力されたナレッジ(開発元でのナレッジ)に相当する。
 具体的には、例えば、判定基準テーブル500は、1以上の判定条件に対応した値カラムを有する。値カラムが有する複数の値は、1以上の判定条件501にそれぞれ対応した1以上の値セット(1以上の値)である。判定条件501毎に、値セットは、1以上の判定条件要素511を有する。判定条件501Aを例に取ると、次の通りである。すなわち、概要511Aaは、判定条件501Aを満たすか否かの判定の内容の概要を示す。判定方法511Baは、判定条件501Aを満たすか否かの判定の方法を示す。判定方法511Baが示す方法は、開発クライアント192から適宜追加可能である。判定対象511Caは、判定条件501Aを満たすか否かの判定のためにチェックされる対象(例えばコンポーネント種別又はファイル)を示す。実行API551Daは、判定条件501Aを満たすか否かの判定のために使用されるAPIを示す。キーワード511Eaは、判定条件501Aを満たすか否かの判定に使用されるキーワードを示す。回復要否511Faは、回復が必要か否かを示す。
 図6は、回復手順テーブルの構成を示す。
 回復手順テーブル600は、1以上の回復手順の各々に関する情報を保持する。具体的には、例えば、回復手順テーブル600は、1以上の回復手順に対応した値カラムを有する。値カラムが有する複数の値は、1以上の回復手順601にそれぞれ対応した1以上の値セット(1以上の値)である。回復手順601毎に、値セットは、1以上の回復手順要素611を有する。回復手順601Aを例に取ると、次の通りである。すなわち、回復手順601Aは、コンポーネント(障害コンポーネント及び後述の障害関連コンポーネントのうちの少なくとも1つ)に関連付けられている。概要611Aaは、回復手順601Aの概要を示す。手順名611Baは、回復手順601Aの名前、言い換えれば、回復手順601Aに対応したスクリプトテンプレートの名前を示す。手順名611Baをキーに、回復手順601Aに対応したスクリプトテンプレート(ファイル)をスクリプトテンプレート情報170から取得することができる。パラメータ611Ca1は、スクリプトテンプレートにおけるパラメータに関する情報である。パラメータ611Ca1は、対象コンポーネント621CAa11及び属性621CBa11を含む。対象コンポーネント621CAa11は、スクリプトテンプレートに設定されるパラメータ値に対応したコンポーネントの種類を示す。属性621CBa11は、対象コンポーネント621CAa11が示すコンポーネントの属性、具体的には、例えば、障害コンポーネントであるか、或いは、障害関連コンポーネントであるかを示す。「障害関連コンポーネント」とは、障害コンポーネント(障害が発生したコンポーネント)に関連したコンポーネント、具体的には、例えば、ストレージシステム100の少なくとも一部の構造が、各コンポーネントをノードとしノード間をエッジとした木構造(トポロジー)である場合、障害関連コンポーネントは、障害コンポーネントに1以上のエッジを介して接続されたコンポーネントでよい。また、例えば、ストレージシステム100の少なくとも一部の構造が、或るコンポーネントを別のコンポーネントが包含する包含構造の場合、障害関連コンポーネントは、障害コンポーネントに包含される、又は、障害コンポーネントを包含するコンポーネントでよい。いずれの構造が採用されても、障害関連コンポーネントは、障害コンポーネントの上位又は下位のコンポーネントであってよい。なお、属性621CBが“障害関連コンポーネント”の場合、パラメータ611Cは、更に、関連コンポーネント611CCを含む(例えば、パラメータ611Cb2、属性621Cb22及び関連コンポーネント621CCb23を参照)。
 図7は、回復スクリプト生成の一例を模式的に示す。
 スクリプトテンプレート情報170(例えばフォルダ)に、複数のスクリプトテンプレート701(例えばファイル)が格納されている。
 回復支援プログラム173が、ユーザにより選択された回復手順601中の手順名611Bに対応するスクリプトテンプレート701として、スクリプトテンプレート701Aを特定したとする。当該回復手順601は、パラメータ611Cとして、障害コンポーネントについてのパラメータ611Cを有しているとする。回復支援プログラム173が、特定したスクリプトテンプレート701Aにおけるパラメータ項目(太字及びアンダーラインで強調された#LU)に、障害コンポーネント(LU)のID番号(障害状況テーブル300中のSIMリスト322から特定されるID番号(障害コンポーネントとしてのLUのID番号)を設定する。
 回復支援プログラム173が、ユーザにより選択された回復手順601中の手順名611Bに対応するスクリプトテンプレート701として、スクリプトテンプレート701Bを特定したとする。当該回復手順601は、パラメータ611Cとして、障害コンポーネントについてのパラメータ611Cと障害関連コンポーネントについてのパラメータ611Cとを有しているとする。回復支援プログラム173が、特定したスクリプトテンプレート701Bにおける第1のパラメータ項目(太字及びアンダーラインで強調された#LU)に、障害コンポーネント(LU)のID番号を設定する。また、回復支援プログラム173が、特定したスクリプトテンプレート701Bにおける第2のパラメータ項目(太字及びアンダーラインで強調された#Port)に、障害関連コンポーネント(ポート)のID番号(障害状況テーブル300中のSIMリスト322から特定されるID番号(障害関連コンポーネントとしてのポートのID番号)を設定する。
 図8は、回復スクリプト画面の構成を示す。
 回復スクリプト画面800は、回復支援プログラム173により表示される。回復スクリプト画面800は、回復スクリプト一覧810が表示されるプレーン領域と、選択スクリプト一覧850が表示されるプレーン領域と、実行ボタン802が表示されるプレーン領域とを有する。
 回復スクリプト一覧810は、合致率が0%より高い1以上の登録障害(例えば、後述の表示優先度が最も高いN個の登録障害(Nは自然数))に関する情報の一覧である。
 回復スクリプト一覧810において、「登録障害に関する情報」は、概要(登録障害の概要421が示す情報)と、SIM合致率と、条件合致率と、採用件数(登録障害の採用件数441が示す情報)とを含む。上記の「合致率」とは、SIM合致率と条件合致率とのうちの少なくともSIM合致率である。
 SIM合致率は、登録障害に対応したSIM一覧422が対象障害に対応したSIM一覧322と合致する割合である。例えば、SIM一覧422が、SIM1、SIM2及びSIM3であり、対象障害に対応したSIM一覧322が、SIM1、SIM2及びSIM4の場合、SIM一覧422が有する3つのSIMのうち2つのSIMがSIM一覧322内のSIMと合致したため、SIM合致率は2/3である。
 条件合致率は、登録障害に対応した判定基準テーブル500が有する全条件501と対象障害との合致率(条件501の数に対する、対象障害が満たす条件501の数の割合)である。例えば、判定基準テーブル500が、3つの条件501を有しており、対象障害が、その3つの条件501のうち2つの条件501を満たす場合、条件合致率は2/3である。
 また、回復スクリプト一覧810において、「登録障害に関する情報」は、更に、表示対象の登録障害に対応した値カラムを基に特定された1以上の回復手順の手順名を含む。本実施形態では、回復スクリプト画面800が表示される場合に、回復スクリプト画面800に表示される手順名に対応した回復スクリプトが生成されるが、回復スクリプト一覧810から手順名がユーザにより選択された場合に(例えば、手順名に対応したチェックボックスにチェックマークが入力された場合に)回復スクリプトが生成されてもよい。
 回復スクリプト一覧810において、表示優先度が高い登録障害ほど、上位に位置する。表示優先度は、表示対象の登録障害の相対的な表示位置に相当する。本実施形態では、表示優先度は、SIM合致率、条件合致率及び採用件数で定義されるが、SIM合致率、条件合致率及び採用件数のうちの少なくとも1つで定義されてもよい。なお、表示優先度が高い登録障害に関する情報ほど上位に表示することは、表示優先度が高い登録障害に関する情報ほど強調して表示することの一例である。強調表示は、上位に表示することに代えて又は加えて、大きいフォントで表示する、太いフォントで表示する、異なる色で表示する等でもよい。
 表示優先度に影響する度合は、SIM合致率が最も高く、次に条件合致率が高く、採用件数が最も低い。つまり、SIM合致率が高い程、表示優先度が高い。SIM合致率が同じ場合、条件合致率が高い程、表示優先度が高い。
 SIM合致率が最も表示優先度に影響する理由は、SIMは、ストレージシステム100内の装置から出力される情報であり、最も信頼性が高いと考えられるためである(別の言い方をすれば、SIMが違っていれば違う障害である可能性が高いと考えられるためである)。
 条件合致率が2番目に表示優先度に影響する理由は、判定条件は開発者のナレッジの一部として関連付けられた情報でありそのような情報を利用することが本実施形態の特徴の1つであるからである。
 採用件数が3番目に表示優先度に影響する理由は、新しく追加されたばかりの登録障害の採用件数はゼロであるからである。
 回復スクリプト一覧810からユーザにより回復手順が選択された場合、当該選択された回復手順に対応した回復スクリプト(パラメータ値が設定されたスクリプト)が、回復支援プログラム173により、選択スクリプト一覧850に表示される。ユーザは、選択した回復手順に対応した回復スクリプト(コマンドが記載されたスクリプト)を見ることができる。なお、選択スクリプト一覧850に表示されたスクリプトの修正又はダウンロードを、回復支援プログラム173は、ユーザから受け付けてよい。
 各登録障害について、採用件数がクリックされるといった所定の操作が行われた場合、履歴404中の基本情報/障害情報442が示す情報が、回復支援プログラム173により表示されてよい。これにより、ユーザは、実績の有無を知ることができる。
 実行ボタン802がユーザにより押された場合、回復支援プログラム173は、選択スクリプト一覧850に表示された全ての回復スクリプトをストレージシステム100(対象障害が発生したストレージ装置151)に適用することで、回復スクリプトが実行される。
 以下、本実施形態で行われる処理の一例を説明する。
 図9は、ストレージ装置151で障害が生じた場合に行われる処理の流れを示す。
 ストレージ装置151で障害が発生すると(S901)、ストレージ装置151から、当該障害(対象障害)に関わる1以上のSIMが、ストレージ管理サーバ111に通知される(S902)。
 ストレージ管理サーバ111が、1以上のSIMを受信する。回復支援プログラム173は、受信した1以上のSIMを基に、障害状況テーブル300を作成する(S903)。具体的には、例えば、回復支援プログラム173は、受信した全てのSIM(障害ID)を、SIM一覧322として、障害状況テーブル300に登録する。また、回復支援プログラム173は、SIMを受信した時刻を、発生時刻311として、障害状況テーブル300に登録する。また、回復支援プログラム173は、SIMの発行元のストレージ装置151に関する情報を、情報取得プログラム161(情報取得API)を通じて、構成情報163及びログ情報171のうちの少なくとも一方から取得し、取得した情報(ストレージ装置の機種及びバージョン)を、機種312及びバージョン313として、障害状況テーブル300に登録する。なお、回復支援プログラム173は、SIM中の障害IDから特定されるコンポーネントに関連するコンポーネントに関する情報を、情報取得プログラム161(情報取得API)を通じて、構成情報163及びログ情報171のうちの少なくとも一方から取得してもよい。
 回復支援プログラム173は、S903で作成した障害状況テーブル300を蓄積サーバ101に転送する(S904)。
 蓄積サーバ101は、障害状況テーブル300を受信する。蓄積プログラム53は、SIM合致率を算出する(S905)。具体的には、例えば、蓄積プログラム53は、受信した障害状況テーブル300中のSIM一覧322が有する各SIMにおける障害内容と一致する障害内容を含む登録障害(値カラム)を、障害解析テーブル51から抽出する。蓄積プログラム53は、特定した登録障害毎に、登録障害中のSIM一覧422と受信した障害状況テーブル300中のSIM一覧322との合致率であるSIM合致率を算出する。なお、蓄積プログラム53がSIM合致率を算出することに代えて、蓄積プログラム53が、特定した各登録障害(値カラム)をストレージ管理サーバ111に送信し、回復支援プログラム173が、各登録障害についてSIM合致率を算出してもよい。
 蓄積プログラム53は、抽出結果情報をストレージ管理サーバ111に転送する(S906)。抽出結果情報は、S905で抽出された登録障害のうち、SIM合致率が0%を超える登録障害の情報を含む。SIM合致率が0%の登録障害の情報は抽出結果情報に含まれないので、抽出結果情報の情報量の削減が期待できる。SIM合致率が0%を超える各登録障害についての情報を、「抽出エントリ」と言う。抽出エントリは、値カラムのうちの障害情報402、解析情報403(判定基準テーブル500及び回復手順テーブル600)及び履歴404と、S905で算出されたSIM合致率とを含む。
 ストレージ管理サーバ111は、抽出結果情報を受信する。回復支援プログラム173は、各抽出エントリについて、条件合致率を算出する(S907)。具体的には、回復支援プログラム173は、図10に示す条件判定処理を行う。
 回復支援プログラム173は、各抽出エントリを基に、回復スクリプトを作成する(S908)。具体的には、回復支援プログラム173は、図11に示す回復スクリプト作成処理を行う。
 回復支援プログラム173は、回復スクリプト画面800を管理クライアント155に表示する(S909)。回復スクリプト画面800の表示は、例えば、管理クライアント155からの問合せ又は表示要求に応答して行われてよい。回復スクリプト画面800では、表示優先度の高い順に、登録障害に関する情報が並んでいる。登録障害に関する情報は、概要(抽出エントリ中の概要421が示す情報)と、SIM合致率(抽出エントリ中のSIM合致率)と、条件合致率(S907で算出された条件合致率)と、採用件数(抽出エントリ中の採用件数411が示す情報)と、回復スクリプト名(抽出エントリ中の回復手順テーブル600が有する手順名611Bが示す情報)とを含む。
 ユーザ901は、回復スクリプト画面800を見て、回復スクリプトを選択し、選択した回復スクリプトの実行をストレージ管理サーバ111に指示する(例えば実行ボタン802を押す)(S911)。
 回復支援プログラム173は、ユーザ901(管理クライアント155)からの指示に応答して、ユーザにより選択された回復スクリプトを実行する(S912)。すなわち、回復支援プログラム173は、ユーザにより選択された回復スクリプトに従うコマンドをストレージ装置151に送信することを含む障害回復処理を実行する。
 ストレージ装置151の障害が回復した場合(S913)、回復支援プログラム173は、障害回復の成功を検出して、実行結果(例えば、S904で転送した障害状況テーブル300を含んだ情報)を蓄積サーバ101に転送する(S914)。
 蓄積サーバ101は、実行結果を受信する。蓄積プログラム53は、受信した実行結果を基に、障害解析テーブル51を更新する(S915)。具体的には、例えば、蓄積プログラム53は、採用された回復手順に対応する登録障害を障害解析テーブル51から特定し、特定した登録障害について、障害状況テーブル300中の基本情報301及び障害情報302を、基本情報/障害情報422に追加し、且つ、採用件数441が表す値を1インクリメントする。
 なお、回復スクリプト画面800においてユーザ所望の回復スクリプト(回復手順)が表示されなかった場合、又は、障害回復処理が失敗の場合、次の処理が行われてよい。すなわち、回復支援プログラム173が、SIMの通知元のストレージ装置151からダンプを収集し、収集したダンプを蓄積サーバ101に格納する。開発クライアント192が、蓄積サーバ101に格納されたダンプを取得し表示する。開発者が、ダンプを解析する。開発クライアント192が、開発者によって解析結果を基に入力された情報を、障害解析テーブル51に格納する。障害解析テーブル51が、開発者により手動で編集されてよい。
 図10は、条件判定処理の流れを示す。
 回復支援プログラム173は、抽出結果情報中の全抽出エントリについて、下記を実行する(ループ(A))。以下、1つの抽出エントリを例に取る(図10の説明において「注目抽出エントリ」と言う)。
(10-1)S1001
(10-2)S1002~S1005、S1012及びS1013、及びS1022のうちのいずれか、及び、
(10-3)S1031
 回復支援プログラム173は、注目抽出エントリから特定される全ての判定条件501について、上記(10-1)及び(10-2)を実行する(ループ(B))。以下、1つの判定条件501を例に取る(図10の説明において「注目判定条件501」と言う)。
 回復支援プログラム173は、注目判定条件501中の判定方法511Bを判定する(S1001)。判定方法511Bが示す値として、第1方法“障害コンポーネントの詳細APIによる判定”、第2方法“ログファイルによる判定”、及び、設定無し“-”がある。第1方法は、障害コンポーネントの詳細情報を参照するために情報取得プログラム161(情報取得API)を使用する方法である。第2方法は、ログ情報171(例えば1以上のログファイル)をキーワードで検索する方法である。設定無しは、第1方法及び第2方法のいずれも設定されていないことを意味する。
 判定方法511Bが第1方法を示している場合、回復支援プログラム173は、障害状況テーブル300中のSIM一覧322から、判定対象コンポーネント種別(注目判定条件501中の判定対象511Cが示す対象)のSIMを特定する(S1002)。回復支援プログラム173は、S1002で特定したSIMから、判定対象コンポーネントのID番号を抽出する(S1003)。回復支援プログラム173は、S1003で抽出したID番号が関連付けられている情報を、情報取得プログラム161を通じて取得する(S1004)。回復支援プログラム173は、S1004で取得された情報から、キーワード(注目判定条件501中のキーワード511Eが示すキーワード)に関連付けられている情報を検索する(S1005)。ヒットした場合、判定結果はOKであり、ヒットしない場合、判定結果はNGである。
 判定方法511Bが第2方法を示している場合、回復支援プログラム173は、ログ情報171から、判定対象ファイル(注目判定条件501中の判定対象511Cが示すファイル)を開く(S1012)。回復支援プログラム173は、S1012で開いたファイルから、キーワード(注目判定条件501中のキーワード511Eが示すキーワード)に関連付けられている情報を検索する(S1013)。ヒットした場合、判定結果はOKであり、ヒットしない場合、判定結果はNGである。
 判定方法511Bが設定無しを示している場合、回復支援プログラム173は、所定の処理を行う(S1022)。例えば、回復支援プログラム173は、開発者に対して、注目判定条件501について判定方法511Bの入力を指示するメッセージ(例えば電子メール)を送信する。そのメッセージを見た開発者は、注目判定条件501に対して判定方法511Bを追加できる。
 注目抽出エントリの全ての判定条件501について上記(10-1)及び(10-2)が行われると、全ての判定条件501の各々について、判定結果がOKであるかNGであるかが得られている(例えば、各判定条件501についての判定結果が記憶部135に蓄積されている)。回復支援プログラム173は、全ての判定条件501の判定結果を基に、注目抽出エントリについて条件合致率(例えば、条件合致率=OKの数/(OKの数+NGの数))を算出する(S1031)。
 なお、判定結果がOKの判定条件のうちの全てが、回復要否511F“否”を含んでいる場合、注目抽出エントリについて、回復手順は表示されないでよい。回復要否511F“否”は、無問題(回復済み又は 回復不要)を意味するからである。
 図11は、回復スクリプト作成処理の流れを示す。
 回復支援プログラム173は、抽出結果情報中の全抽出エントリについて、下記を実行する(ループ(A))。以下、1つの抽出エントリを例に取る(図11の説明において「注目抽出エントリ」と言う)。
(11-1)S1101
(11-2)S1102
(11-3)S1103及びS1104と、S1113~S1115とのうちのいずれか、
(11-4)S1121、及び、
(11-5)S1031
 回復支援プログラム173は、注目抽出エントリから特定される全ての回復手順601について、上記(11-1)~(11-4)を実行する(ループ(B))。以下、1つの回復手順601を例に取る(図11の説明において「注目回復手順601」と言う)。
 回復支援プログラム173は、注目回復手順601中の手順名611Bに該当するスクリプトテンプレート(ファイル)をスクリプトテンプレート情報170から取得する(S1101)。
 回復支援プログラム173は、注目回復手順601中の全パラメータ611Cについて、上記(11-2)及び(11-3)を実行する(ループ(C))。以下、1つのパラメータ611Cを例に取る(図11の説明において「注目パラメータ611C」と言う)。
 回復支援プログラム173は、注目パラメータ611C中の属性621CBを判定する(S1102)。
 属性621CBが“障害コンポーネント”の場合、回復支援プログラム173は、障害状況テーブル300中のSIM一覧322から、対象コンポーネント種別(注目パラメータ611C中の対象コンポーネント621CAが示す対象)のSIMを特定する(S1103)。回復支援プログラム173は、S1103で特定したSIMから、コンポーネントのID番号を抽出する(S1104)。
 属性621CBが“障害関連コンポーネント”の場合、回復支援プログラム173は、障害状況テーブル300中のSIM一覧322から、関連コンポーネント種別(注目パラメータ611C中の関連コンポーネント621CCが示す対象)のSIMを特定する(S1113)。回復支援プログラム173は、S1113で特定したSIMから、コンポーネントのID番号を抽出する(S1114)。回復支援プログラム173は、S1114で取得したID番号を用いて、対象コンポーネントの情報(対象コンポーネントのID番号を含む情報)を、情報取得プログラム161(情報取得API)を通じて、構成情報163又はログ情報171から取得する(S1115)。なお、障害コンポーネントとAPIは1対1で対応していてよい。
 回復支援プログラム173は、注目回復手順601に対応した回復スクリプトを作成する(S1121)。すなわち、回復支援プログラム173は、注目回復手順601中の全パラメータ611Cについて取得されたID番号(パラメータ値)を、S1101で取得されたスクリプトテンプレートにおけるパラメータ項目に設定する。
 注目抽出エントリの全ての回復手順601について上記(11-1)~(11-4)が行われると、全ての回復手順601について、回復スクリプトが用意されている。回復支援プログラム173は、全ての回復手順601の回復スクリプトをマージした回復コマンドを作成する(S1131)。
 以上が、本実施形態についての説明である。
 一比較例によれば、一般的な計算機は、発生した障害のIDの入力に応答して当該IDに紐付いている障害回復方法を表示する。しかし、このような一般的な計算機に関する技術を、ストレージシステム100の障害の回復に適用することは困難である。なぜなら、ストレージシステム100では、或るコンポーネントで障害が生じると、当該コンポーネントを含む複数のコンポーネントについてSIM(障害が原因で通知されるメッセージの一例)が通知されるが、そのような複数のSIMを見ても、全体としてどのような障害であるか(障害の根本原因の見当をつけること)が難しい。
 本実施形態によれば、障害毎に、障害と、当該障害に関する詳細(具体的には、例えば、当該障害が発生したストレージ装置から通知されるSIM一覧と、当該障害と同一又は類似の障害に該当する条件)と、当該障害の一連の回復手順との関係が、開発元のナレッジに従い障害解析テーブル51に蓄積される。対象障害(発生した障害)に該当する登録障害の見当をつけるにあたり、登録障害に関して入力されたSIM一覧との合致率、及び、登録障害に関して入力された1以上の判定条件との合致率が利用される。これにより、見当の精度を高めることができる。
 また、本実施形態によれば、障害解析テーブル51には、フィードバックを基に更新される情報の一例である採用件数が蓄積され、採用件数が、合致率に加えて表示優先度に影響する。これは、見当の精度を高めることに貢献する。
 また、本実施形態によれば、一連の回復手順(障害回復処理)における各回復手順について、SIM又は構成情報から抽出されたID番号(コンポーネントのID番号)を用いて回復スクリプトが自動的に生成される。ストレージシステム100は、多くのコンポーネントを有するため、自動的に回復スクリプトが生成されることは、ユーザにとって、障害回復のための作業が軽減されることになる。
 以上、一実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
 例えば、回復手順毎に回復スクリプトが生成されることに代えて、スクリプトよりも複雑なプログラムが生成されてもよいし、2以上の回復手順に対応したプログラムが生成されてもよいし、登録障害の回復に対応した一連の回復手順(障害回復処理)に対応したプログラムが生成されてもよい。
 また、例えば、表示される回復手順は、回復スクリプトに代えて、障害の原因調査に必要となる依頼事項であってもよい。
100:ストレージシステム

Claims (11)

  1.  複数のコンポーネントを有するストレージシステムの障害とナレッジベースの情報を含む障害詳細との関係を障害毎に示す情報である障害解析情報を基に、1以上の登録障害の各々について、発生した障害との合致率を特定し、
      前記1以上の登録障害の各々は、前記障害解析情報に情報が登録されている障害であり、
     前記1以上の登録障害の各々について、特定された合致率を含み登録障害に関する情報を、表示する、
    ことを計算機に実行させるコンピュータプログラム。
  2.  前記障害解析情報において、前記障害毎に、前記障害詳細は、当該障害が発生したストレージシステムから通知される1以上のメッセージであるメッセージ一覧を含み、
     各メッセージには、当該メッセージに対応し障害状態のコンポーネントが関連付けられており、
     前記1以上の登録障害の各々について、前記合致率は、当該登録障害に対応したメッセージ一覧と発生した障害に対応したメッセージ一覧との合致率であるメッセージ合致率を含む、
    請求項1記載のコンピュータプログラム。
  3.  前記障害解析情報において、前記障害毎に、前記障害詳細は、更に、当該障害と同一又は類似の障害に該当する1以上の条件である1以上の判定条件を含み、
     前記1以上の登録障害の各々について、前記合致率は、当該登録障害に対応した1以上の判定条件と発生した障害との合致率である条件合致率を含む、
    請求項2記載のコンピュータプログラム。
  4.  各判定条件は、判定方法、判定対象及びキーワードを示す情報を含み、
     前記各判定条件は、当該判定条件中の判定方法及び判定対象を用いて特定された情報を当該キーワードで検索した結果がヒットの場合に、当該判定条件が該当したことになり、
     前記1以上の登録障害の各々について、前記条件合致率は、当該登録障害に対応した判定条件の数のうち、該当した判定条件の数の割合である、
    請求項3記載のコンピュータプログラム。
  5.  前記1以上の登録障害の各々について、当該登録障害に関する情報の表示は、当該登録障害の表示優先度が高いほど強調されており、
     前記1以上の登録障害の各々について、前記表示優先度は、メッセージ合致率が高いほど高い、
    請求項3記載のコンピュータプログラム。
  6.  前記障害解析情報において、前記障害毎に、前記障害詳細は、当該障害の一連の回復手順が採用された回数である採用件数を含み、
     前記1以上の登録障害の各々について、当該登録障害に関する情報は、当該登録障害に対応した採用件数を含み、
     前記1以上の登録障害の各々について、前記表示優先度は、メッセージ合致率が同じであれば条件合致率が高いほど高い、
    請求項4記載のコンピュータプログラム。
  7.  前記障害解析情報において、前記障害毎に、前記障害詳細は、当該障害の一連の回復手順に関する情報を含み、
     前記1以上の登録障害の各々について、当該登録障害に関する情報は、当該登録障害に対応した一連の回復手順に関する情報を含む、
    請求項1記載のコンピュータプログラム。
  8.  前記障害解析情報において、前記障害毎に、当該障害の一連の回復手順に関する情報は、手順名を含み、
     前記一連の回復手順を構成する1以上の回復手順の各々には、コンポーネントが関連付けられており、
     前記コンピュータプログラムは、
      前記1以上の登録障害にそれぞれ対応した1以上の一連の回復手順のうち、少なくともユーザにより選択された一連の回復手順を構成する各回復手順について、当該回復手順を実行するための回復プログラムを生成し、
      前記1以上の登録障害にそれぞれ対応した1以上の一連の回復手順のうち、前記ユーザにより選択された一連の回復手順を構成する各回復手順について、前記生成した回復プログラムに関する情報を表示する、
    ことを更に計算機に実行させる請求項7記載のコンピュータプログラム。
  9.  前記各回復手順について生成された回復プログラムは、回復スクリプトであり、
     前記発生した障害について、当該障害が発生したストレージシステムから1以上のメッセージが通知されるようになっており、
     各メッセージには、当該メッセージに対応し障害状態のコンポーネントが関連付けられており、
     前記コンピュータプログラムは、前記各回復手順について、
      当該回復手順に関連付いたコンポーネントに対応するメッセージ中のコンポーネントID番号と、当該値を用いて前記ストレージシステムの構成に関する構成情報から取得されたコンポーネントID番号とのうちの少なくとも1つを、当該回復手順に対応したスクリプトテンプレートに設定することで、当該回復手順に対応した回復スクリプトを生成する、
    ことを計算機に実行させる請求項8記載のコンピュータプログラム。
  10.  複数のコンポーネントを有するストレージシステムの管理システムであって、
     表示デバイスに接続されたインターフェースデバイスを有するインターフェース部と、
     前記インターフェース部に接続された1以上のプロセッサを含むプロセッサ部と
    を有し、
     前記プロセッサ部は、
      前記ストレージシステムの障害とナレッジベースの情報を含む障害詳細との関係を障害毎に示す情報である障害解析情報を基に、1以上の登録障害の各々について、発生した障害との合致率を特定し、
        前記1以上の登録障害の各々は、前記障害解析情報に情報が登録されている障害であり、
      前記1以上の登録障害の各々について、特定された合致率を含み登録障害に関する情報を、前記表示デバイスに表示する、
    管理システム。
  11.  複数のコンポーネントを有するストレージシステムの障害の回復を支援する方法であって、
     前記ストレージシステムの障害とナレッジベースの情報を含む障害詳細との関係を障害毎に示す情報である障害解析情報を基に、1以上の登録障害の各々について、発生した障害との合致率を特定し、
      前記1以上の登録障害の各々は、前記障害解析情報に情報が登録されている障害であり、
     前記1以上の登録障害の各々について、特定された合致率を含み登録障害に関する情報を、表示する、
    方法。
PCT/JP2017/027817 2017-08-01 2017-08-01 ストレージシステムの管理システム WO2019026171A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/488,218 US11010238B2 (en) 2017-08-01 2017-08-01 Management system of storage system
PCT/JP2017/027817 WO2019026171A1 (ja) 2017-08-01 2017-08-01 ストレージシステムの管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/027817 WO2019026171A1 (ja) 2017-08-01 2017-08-01 ストレージシステムの管理システム

Publications (1)

Publication Number Publication Date
WO2019026171A1 true WO2019026171A1 (ja) 2019-02-07

Family

ID=65233548

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/027817 WO2019026171A1 (ja) 2017-08-01 2017-08-01 ストレージシステムの管理システム

Country Status (2)

Country Link
US (1) US11010238B2 (ja)
WO (1) WO2019026171A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021077220A (ja) * 2019-11-12 2021-05-20 株式会社野村総合研究所 管理システム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7251168B2 (ja) * 2019-01-28 2023-04-04 富士フイルムビジネスイノベーション株式会社 設計支援システムおよびプログラム
US11436072B2 (en) * 2020-02-27 2022-09-06 Hewlett Packard Enterprise Development Lp System and method for collecting contextual log files from a computing system
CN112910981B (zh) * 2021-01-27 2022-07-26 联想(北京)有限公司 一种控制方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189167A (ja) * 1992-01-14 1993-07-30 Shikoku Nippon Denki Software Kk ディスク障害自動復旧方法
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2011076409A (ja) * 2009-09-30 2011-04-14 Hitachi Solutions Ltd 障害原因解析システム及びプログラム
JP2014119982A (ja) * 2012-12-17 2014-06-30 Hitachi Systems Ltd インシデント管理システム、インシデント管理方法、およびプログラム
JP2014134956A (ja) * 2013-01-10 2014-07-24 Nec Corp 障害分析支援装置、障害分析支援方法、及びプログラム
JP2017076299A (ja) * 2015-10-16 2017-04-20 富士通株式会社 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5223413B2 (ja) 1973-02-01 1977-06-24
JP5223413B2 (ja) 2008-03-27 2013-06-26 富士通株式会社 Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
US7962472B2 (en) * 2008-09-29 2011-06-14 International Business Machines Corporation Self-optimizing algorithm for real-time problem resolution using historical data
US8185781B2 (en) * 2009-04-09 2012-05-22 Nec Laboratories America, Inc. Invariants-based learning method and system for failure diagnosis in large scale computing systems
US8468391B2 (en) * 2010-08-04 2013-06-18 International Business Machines Corporation Utilizing log event ontology to deliver user role specific solutions for problem determination
JPWO2015072078A1 (ja) 2013-11-13 2017-03-16 日本電気株式会社 サービス再開手順生成装置、サービス再開手順生成方法およびサービス再開手順生成プログラム
US10263836B2 (en) * 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
CN107196780A (zh) * 2016-03-15 2017-09-22 伊姆西公司 用于管理设备的故障的方法和装置
US11429473B2 (en) * 2016-11-30 2022-08-30 Red Hat, Inc. Automated problem resolution

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189167A (ja) * 1992-01-14 1993-07-30 Shikoku Nippon Denki Software Kk ディスク障害自動復旧方法
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2011076409A (ja) * 2009-09-30 2011-04-14 Hitachi Solutions Ltd 障害原因解析システム及びプログラム
JP2014119982A (ja) * 2012-12-17 2014-06-30 Hitachi Systems Ltd インシデント管理システム、インシデント管理方法、およびプログラム
JP2014134956A (ja) * 2013-01-10 2014-07-24 Nec Corp 障害分析支援装置、障害分析支援方法、及びプログラム
JP2017076299A (ja) * 2015-10-16 2017-04-20 富士通株式会社 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021077220A (ja) * 2019-11-12 2021-05-20 株式会社野村総合研究所 管理システム
JP7385436B2 (ja) 2019-11-12 2023-11-22 株式会社野村総合研究所 管理システム

Also Published As

Publication number Publication date
US20200241947A1 (en) 2020-07-30
US11010238B2 (en) 2021-05-18

Similar Documents

Publication Publication Date Title
US10222983B2 (en) Storage management computer and management method of storage apparatus
US9710367B1 (en) Method and system for dynamic test case creation and documentation to the test repository through automation
CN110928772B (zh) 一种测试方法及装置
US8752040B2 (en) Upgrade tracking system
WO2019026171A1 (ja) ストレージシステムの管理システム
US10509696B1 (en) Error detection and mitigation during data migrations
US20210191845A1 (en) Unit testing of components of dataflow graphs
JP6637599B2 (ja) 管理システム及び管理方法
JP2014048673A (ja) ワークフロー生成サーバ、及び方法
US9940182B1 (en) Business rule engine validation systems and related methods
US11860892B2 (en) Offline index builds for database tables
CN112714908A (zh) 依赖性图形控制的对象和计算管线迁移
JP4882498B2 (ja) 運用管理装置および運用管理方法ならびにプログラム
WO2016113913A1 (ja) サービスを作成する管理システム
US20210111962A1 (en) Topographical search
US20210240730A1 (en) Selective synchronization of database objects
US8056052B2 (en) Populating service requests
US9965379B1 (en) Cross-platform API test flow synthesizer
JP2016134721A (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
US9626117B2 (en) Computer system and management method for computer system
US11144592B2 (en) Extendable JSON configuration architecture
JP7478651B2 (ja) ワンストップサービスシステム、ワンストップサービスハブ装置、およびワンストップサービス方法
US11487708B1 (en) Interactive visual data preparation service
US8793167B2 (en) Account conversion of information technology systems
CN108959604B (zh) 维护数据库集群的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17920329

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17920329

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP