WO2017026017A1 - 管理計算機および計算機システムの管理方法 - Google Patents

管理計算機および計算機システムの管理方法 Download PDF

Info

Publication number
WO2017026017A1
WO2017026017A1 PCT/JP2015/072562 JP2015072562W WO2017026017A1 WO 2017026017 A1 WO2017026017 A1 WO 2017026017A1 JP 2015072562 W JP2015072562 W JP 2015072562W WO 2017026017 A1 WO2017026017 A1 WO 2017026017A1
Authority
WO
WIPO (PCT)
Prior art keywords
countermeasure procedure
countermeasure
evaluation
plan
procedure
Prior art date
Application number
PCT/JP2015/072562
Other languages
English (en)
French (fr)
Inventor
信明 小崎
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US15/554,123 priority Critical patent/US20180052729A1/en
Priority to PCT/JP2015/072562 priority patent/WO2017026017A1/ja
Priority to JP2017534045A priority patent/JP6622808B2/ja
Publication of WO2017026017A1 publication Critical patent/WO2017026017A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Definitions

  • the present invention relates to management of a computer system, and relates to a management computer, a management method of a computer system, and related technologies.
  • Patent Literature 1 mainly refers to operation data such as a disk operation rate, generates a specific countermeasure based on the countermeasure rule, evaluates the effect, and presents it to the administrator. Thereby, the administrator can easily determine or select a specific countermeasure for solving the problem of the computer system.
  • Patent Document 1 described above, there is no processing that refers to and considers the operation policy such as the importance of parts constituting the computer system, such as the importance of virtual servers and logical volumes, and the importance of customers in use. For this reason, the countermeasure recommended in Patent Document 1 may adversely affect more important elements such as important customers.
  • the computer system which is one aspect of the invention disclosed in the present application holds information on the operation policy for each part constituting the customer and the computer system, and takes measures based on the operation policy when generating a countermeasure for the problem.
  • the impact range of the measures is divided, and countermeasures are generated so that the impact on the higher-order customers is less than or equal to the impact on the lower-order customers. For example, what is necessary is just to implement
  • the generated countermeasure may be operated by the administrator, or the management computer may present the candidate for the countermeasure to the administrator, and the management computer may execute it after obtaining the administrator's approval. It may be automatically executed by the management computer based on the approval or the learning result.
  • Another aspect of the present invention is a management computer that includes a processor, an input device, an output device, and a storage device, and manages a plurality of computer systems.
  • the management computer includes a countermeasure procedure plan generation module that generates a countermeasure procedure plan for changing the states of parts of a plurality of computer systems.
  • This countermeasure procedure plan generation module is in accordance with the constraint that, among a plurality of computer systems or parts thereof, the influence on the upper rank computer system or its parts is smaller than the influence on the lower rank computer system or its parts. Generate a proposed countermeasure procedure.
  • Another aspect of the present invention is a computer system management method in which a management computer having a processor, an input device, an output device, and a storage device manages a plurality of computer systems.
  • the management computer when the management computer generates a countermeasure procedure plan for changing the state of a part of a plurality of computer systems, the management computer has an effect on the computer system of the higher rank or the part of the parts. Then, a countermeasure procedure plan is generated in accordance with a constraint condition that it is smaller than the influence on the lower rank computer system or its components.
  • the components of the computer system are, for example, a tenant, a server, a virtual computer, a storage volume, an IO processing unit, and the like, and their granularity and classification are arbitrary.
  • the constraint condition is created automatically or manually by a person based on the operation policy of the computer system. In some cases, the constraint condition may be the operation policy itself. Further, the definition and granularity of ranking of the computer system or its components may be arbitrary.
  • the management computer can present a countermeasure with high importance, for example, a countermeasure having a small influence on a higher-order customer, among countermeasures that can solve the problem. Problems, configurations, and effects other than those described above will become apparent from the description of the following embodiments.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of a computer system 2 of the embodiment of FIG.
  • FIG. 2 is a block diagram showing a hardware configuration example of a computer system 2 of the embodiment of FIG.
  • FIG. 2 is a block diagram mainly showing functions of a management server 201 in a hardware configuration example of a computer system 2 in the embodiment of FIG. 1.
  • FIG. 6 is a table showing an example of a connection relationship correspondence table 400 that forms part of the system configuration information 234;
  • the table figure which shows an example of the server rank table 500 which makes a part of operation policy information 233.
  • FIG. 5 is a table showing an example of a procedure of a problem solving process 900 of the management server 201.
  • the conceptual diagram which shows the example of the production
  • the flowchart which shows the example of a procedure of the production
  • FIG. 5 is a table showing an example of a constraint condition pattern table 1300; The table figure which shows an example of the evaluation result table 1400 of a countermeasure procedure plan.
  • summary of a cut-off process when the evaluation result of a countermeasure procedure plan is as having illustrated in FIG. Explanatory drawing which shows the numerical formula example used by calculation processing S1503 of the comprehensive evaluation value of FIG.
  • FIG. FIG. 6 is a table showing an example of a pattern table 2000.
  • the conceptual diagram which illustrates the mode of a change of the value of the execution performance 2005 at the time of performing a memory
  • aaa table such as “aaa list”, “aaaDB (Database)”, “aaa queue” (aaa is an arbitrary character string). May not necessarily be expressed in a data structure other than a table, list, DB, queue, or the like. Therefore, “aaa table”, “aaa list”, “aaaDB”, “aaa queue”, etc. may be referred to as “aaa information” to indicate that they are not dependent on the data structure.
  • program may be used as the subject. However, since the program performs processing determined by being executed by the processor using a memory and a communication port (communication control device), the processor The subject may be an explanation. Further, the processing disclosed with the program as the subject may be processing performed by a computer such as a management server or an information processing apparatus. Further, part or all of the program may be realized by dedicated hardware.
  • the program distribution server includes a processor and a storage resource, and the storage resource further stores a distribution program and a program to be distributed.
  • the processor executes the distribution program
  • the processor of the program distribution server distributes the distribution target program to other computers.
  • the computer has input / output devices.
  • input / output devices include a display, a keyboard, and a pointer device, but other devices may be used.
  • a serial interface or an Ethernet interface is used as the input / output device, a display computer having a display or keyboard or pointer device is connected to the interface, and the display information is transmitted to the display computer.
  • the display computer may perform the display, or the input may be replaced by the input / output device by receiving the input.
  • a set of one or more computers that manage the information processing system and display the display information of this embodiment may be referred to as a management system.
  • a management computer hereinafter, management computer
  • the management computer displays display information
  • the management computer is a management system
  • a combination of a management computer and a display computer is also a management system.
  • a plurality of computers may realize processing equivalent to that of the management computer.
  • the plurality of computers if the display computer performs the display, display (Including computers) is the management system.
  • the countermeasures mentioned here are, for example, information including details of specific operations such as migrating the virtual machine with ID 00_1 to the host machine with ID02, and restricting disk access of the virtual machine with ID00_1 to 1000 IOPS. Point to. Hereinafter, it is expressed as a countermeasure, a countermeasure plan, an action plan, etc. Also, qualitative information that does not include the details of specific operations, such as migrating a virtual machine from one host machine to another, or limiting the number of disk accesses to the virtual machine, It is called a rule, or simply a rule.
  • FIG. 1 is a diagram for explaining an outline of a problem solving process flow in the computer system of this embodiment.
  • the outline of the system of the present embodiment will be described using a system to which the present embodiment is not applied as a comparative example.
  • the computer system 1 shows a computer system of a comparative example to which this embodiment is not applied.
  • the computer system 1 includes a server 203 that is a management target, a storage 204, a network device 205, and a management server 201 that manages these management target device groups.
  • the operation policy 233 which is a specified value of the importance and performance of a tenant system configured by an application operating on the management target device or an application group operating on the management target device, is an Excel that exists outside the management server 201.
  • Tenants that use the system are weighted as super-tenant 11, important tenant 12, and normal tenant 13.
  • the management server 201 detects a problem (# 1) that has occurred in the important tenant 12 by the monitoring function 2011 (# 2), and performs cause analysis by the cause analysis function 2012 (# 3).
  • the countermeasure procedure draft creation function 2013 generates a countermeasure procedure draft that solves the problem based on the countermeasure procedure rules 231 and the operation data 232 in the auxiliary storage device 213 (# 4), and executes the generated countermeasure procedure as an execution base function Registration is executed by 2014 (# 5).
  • the server 203 received from the management server 201 (# 6) migrates the virtual machine (exemplified as VM in the figure) running on the server 203 to another server device 203 (# 7). ). As a result, even if the problem occurring in the important tenant 12 can be solved, the super important tenant 11 may be adversely affected (# 8).
  • the countermeasure procedure proposal indicates a problem solving procedure proposal such as migrating VM_1 from the server apparatus_1 to the server apparatus_2.
  • coping procedure plan generation process for example, various procedures such as migrating VM_3 from the server apparatus_1 to the server apparatus_3 and limiting the upper limit of requests of the tenant system A from 100 requests / second to 50 requests / second are performed.
  • This is a process of generating a plan, estimating effects and impacts, and assigning priorities.
  • the VM used by the important tenant 12 is migrated to the server where the VM used by the super important tenant 11 is located. is there.
  • the computer system 2 exemplifies the outline of the computer system in this embodiment.
  • a countermeasure procedure plan is generated in consideration of the operation policy, and priority is given to an important tenant.
  • the computer system 2 stores the operation policy 233 that existed outside the management server 201 in the computer system 1 on the management server 201 and does not include the external file 208. 1 is the same system configuration.
  • the process flow is the same, but differs from the computer system 1 in that the operation policy 233 is referred to in the process of generating the countermeasure procedure.
  • the super important tenant 11 is not adversely affected, and the range of the adverse effect can be limited to the normal tenant 13.
  • this embodiment has the effect of using the operation policy as a constraint condition in the coping procedure draft generation process and preferentially treating the higher rank.
  • the system configuration illustrated in FIG. 1 omits some of the details of the system configuration described in FIG.
  • FIG. 2A is a block diagram showing a hardware configuration example of the computer system 2 of the embodiment of FIG.
  • the management server 201 includes a processor 211, a main storage device 212, an auxiliary storage device 213, an input device 214, an output device 205, and a network I / F 216.
  • the processor 211, the main storage device 212, the auxiliary storage device 213, the input device 214, the output device 205, and the network I / F 216 are connected to the bus 217.
  • the processor 211 executes the problem solving process 220.
  • the problem solving process 220 is software (program) stored in the main storage device 212 such as a semiconductor memory, for example, and executes a desired function by using hardware resources of the management server 201 such as the processor 211. Note that the processing by the problem solving processing 220 may be realized by hardware such as an integrated circuit instead of being executed by the processor 211.
  • the auxiliary storage device 213 such as a magnetic disk device stores the handling procedure rule 231, the operation data 232, the operation policy 233, and the system configuration information 234 as data.
  • the auxiliary storage device 213, the handling procedure rule 231, the operation data 232, the operation policy 233, and the system configuration information 234 may be stored in different storage devices.
  • the handling procedure rule 231 is, for example, when an excess of the CPU usage rate of a specific server device is detected, an arbitrary virtual machine running on the server device is migrated to another arbitrary server device However, it occurred in a computer system, such as limiting the amount of I / O to the logical volume existing on the disk when it detected that the threshold of the operation rate of the storage disk that constitutes the volume pool on the storage device was exceeded. It is a group of processing methods for generating a procedure for solving a problem.
  • the countermeasure procedure rule 231 may include at least one processing method.
  • the operation data 232 refers to operation information such as the resource usage rate of the computer system and the number of received requests for a certain period, such as the CPU usage rate information of the server device 203 for the past month.
  • the operation policy 233 includes at least one of “importance” and “performance target value”.
  • the importance is an importance as exemplified by gold, silver, and copper. Any information can be used as long as gold is more important than silver and silver is more important than copper.
  • the performance target value is, for example, a response time of 100 milliseconds or less or a throughput of 100 requests / second.
  • the system configuration information 234 is information for specifying the connection relationship between the management target device groups such as the server 203, the storage 204, and the network device 205, and the connection relationship between the management target tenant system and the management target device group.
  • the auxiliary storage device 213 may be an external storage device connected to the management server 201 via an I / F (not shown) or a network I / F 216, for example, the storage device 204. Further, the main storage device 212 and the auxiliary storage device 203 may be the same device.
  • the input device 214 is a device for inputting data by an operation of an administrator such as a keyboard.
  • the output device 215 is a device that displays the execution result of the processor 211, such as a printer or a monitor.
  • the input device 214 and the output device 215 may be an integrated device.
  • the operation terminal 202 may be connected to the computer system 201.
  • the operation terminal 202 is a computer that operates the management computer 201.
  • the operation terminal 202 includes an input device 241 and an output device 242.
  • the input device 241 is a device that inputs data by an operation of an administrator. Input data is transmitted to the management server 201 via the network 206.
  • the output device 242 is a device that displays data from the management server 201.
  • the input device 241 and the output device 242 may be an integrated device.
  • the computer system 2 includes a management server 201, an operation terminal 202, a server device 203, a storage device 204, and a network device 205.
  • the network device 205 relays data among the management server 201, the operation terminal 202, the server device 203, and the storage device 204.
  • FIG. 2B is a block diagram showing a hardware configuration example of the computer system 2 of the embodiment of FIG. 1 centering on a management target device group that is a management target of the management server 201.
  • the management target device group is a system in which a server device 203, a storage device 204, and a network device 205 are connected to each other via a network 206 or a SAN (Storage Area Network).
  • SAN Storage Area Network
  • the server device 203 includes a processor 261, a main memory 262, a network I / F 263, an auxiliary storage device 264, and an HBA (Host Bus Adapter) 365.
  • a processor 261 a main memory 262
  • a network I / F 263 a network I / F 263
  • an auxiliary storage device 264 a network I / F 263
  • an HBA Hypervisor Adapter
  • the auxiliary storage device 264 may be a network I / F 263, an HBA 265, or an external storage device connected via an I / F of an external device (not shown).
  • the server device 203 may be a virtual machine.
  • the server device 203 is a monitoring target device of the management server 201.
  • the server device 203 executes software and virtual machines that constitute the tenant system.
  • the network I / F 263 is connected to another network I / F 252 and an IP (Internet Protocol) switch 205A, which is an example of the network device 205, via the network 206.
  • the HBA 265 is connected to a port of an FC (Fiber Channel) switch that is an example of the network device 205.
  • FC Fiber Channel
  • the storage device 204 is a management target device of the management server 201 and provides storage capacity used by the server 203 or software operating on the management server 201.
  • the storage apparatus 204 includes an IO processing unit 251, a network I / F 252, an IO port 253, a DISK 254, and an IO port 255.
  • the DISK 254 may form a RAID group 256 with a plurality of DISKs 254.
  • the RAID group 256 may constitute a volume pool 257 from a single or a plurality of RAID groups 256.
  • the data of the auxiliary storage device 264 may be stored in the logical volume 258.
  • the logical volume 258 only needs to exist in any one of the volume pool 257, the RAID group 256, or the DISK 254.
  • the network I / F 252 is an interface for connecting to a network 206 such as a LAN (Local Area Network) by Ethernet (registered trademark), for example.
  • the IO port 253 and the IO port 255 are interfaces connected to a SAN (Storage Area Network) such as a fiber channel.
  • the storage apparatus 204 may manage a logical volume 259 that exists in an external storage apparatus 209 connected via the IO port 255.
  • the network device 205 exemplified here includes an IP switch 205A and an FC switch 205B.
  • the IP switch 205A includes a network I / F 216 of the management server 201, a network I / F 263 of the server device 203, a network I / F 252 of the storage device 204, a network IF (not shown) of the FC switch 205B, and other IP switches 205B. It is connected to a network I / F (not shown).
  • the FC switch 205B transfers data between the server apparatus 203 and the storage apparatus 204.
  • the FC switch 205B has a plurality of ports 271.
  • the port 271 of the FC switch 205B is connected to the HBA 265 of the server apparatus 203 and the IO port 253 of the storage apparatus 204.
  • the network device 205 may be a management target device of the management server 201.
  • FIG. 2C is a functional block diagram for explaining a functional configuration example of the management server 201 in the hardware configuration example of the computer system 2 of the embodiment of FIG.
  • the processor 211 of the management server 201 realizes various functions under the control of the problem solving processing program 220 in the main memory 220.
  • modules corresponding to functions are defined in the problem solving processing program 220, but these modules do not need to be physically separated. Also, these modules need not correspond to independent programs or subroutines.
  • the problem solving processing program 220 has a countermeasure procedure plan generating module 2201.
  • the countermeasure procedure plan generation module 2201 includes a candidate acquisition module 2202 and a filtering module 2203.
  • the problem solution processing program 220 further includes a countermeasure procedure plan evaluation module 2204, a countermeasure procedure plan priority ranking module 2205, a countermeasure procedure plan presentation module 2206, a selection module 2207, and a countermeasure procedure plan execution module 2208. Any one of these modules may be omitted, or another module may be added.
  • the whole processing example by the problem solving processing program 220 will be described later with reference to FIG.
  • the function realized by the countermeasure procedure plan generation module 2201 corresponds to the processing S903 in FIG. 9, and details will be described later with reference to FIG.
  • the function realized by the candidate acquisition module 2202 corresponds to the processing S1103 in FIG. 11, and acquires a list of operation target candidates for problem solving.
  • the function realized by the filtering module 2203 corresponds to step S1104 in FIG.
  • the function realized by the countermeasure procedure plan evaluation module 2204 corresponds to the processing S904 in FIG.
  • the function realized by the countermeasure procedure plan prioritization module 2205 corresponds to the process S905 of FIG. 9, and details will be described later with reference to FIG.
  • the function realized by the countermeasure procedure plan presenting module 2206 corresponds to step S906 in FIG.
  • the function realized by the selection module 2207 corresponds to step S907 in FIG.
  • the function realized by the countermeasure procedure plan execution module corresponds to step S908 in FIG.
  • the main memory 212 or the auxiliary storage device 213 holds a constraint condition 2131 reflecting the operation policy 233.
  • the restriction condition 2131 may be partially or entirely the same as the operation policy 233, but a more specific rule may be prepared based on the operation policy 233.
  • the constraint condition 2131 may be created automatically from the operation policy 233 based on the program by the management server 201 itself, or may be created separately by the administrator and input from outside the management server 201. This process corresponds to the processes S1101 to S1102 of FIG. Examples of constraint conditions will be described later with reference to FIGS.
  • the above configuration may be configured by a single computer, or may be configured by another computer in which any part of the input device, output device, processing device, and storage device is connected via a network.
  • functions equivalent to those configured by software can be realized by hardware such as FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit).
  • FIG. 3 is a block diagram showing an example of a tenant system configured on the computer system 2 of FIG.
  • the tenant A includes a server device 203 named HV1 and virtual machines VM_A1 to A4 existing on the server device 203 named HV2.
  • the server devices 203 HV1 and HV2 have a plurality (two as an example in the figure) of CPUs 201 and HBAs 265.
  • the storage device 204 ST1 has a plurality (two in the figure as an example) of IO processing units 251 and a plurality (three in the figure as an example) of the volume pool 257.
  • the virtual machines constituting the tenant A are VM_A1, VM_A2, VM_A3, and VM_A4.
  • the virtual machine VM_A1 is processed by a processor 201 named CPU1 of HV1 and connected to a storage apparatus 204 named ST1 via an HBA265 named HBA1.
  • the auxiliary storage device 264 of VM_A1 is a logical volume 258 named Vol_A1 that is processed by the IO processing unit 251 named unit 1 and exists on the volume pool 257 named pool 1.
  • Vol_A1 a logical volume 258 named Vol_A1 that is processed by the IO processing unit 251 named unit 1 and exists on the volume pool 257 named pool 1.
  • VM_A2, VM_A3, and VM_A4 the connection relationship as illustrated in FIG. 3 is illustrated. In FIG. 3, the connection relationships of other components are omitted for simplicity of explanation.
  • FIG. 4 is an explanatory diagram showing an example of the connection relationship correspondence table 400 included in the system configuration information 234.
  • the system configuration information 234 may include, for example, information (not shown) such as CPU processing specification information.
  • Correspondence correspondence table 400 is information for associating tenant systems with system components, and is information prepared in advance by a manual or some program.
  • the connection relationship correspondence table 400 includes a tenant name field 401, a server name field 402, a host name field 403, a CPU name field 404, an HBA name field 405, a storage name field 406, and an IO processing unit name field 407. And a pool name field 408 and a logical volume name field 409.
  • the connection relationship correspondence table 400 may not include some of these fields, may include other fields (not illustrated), or may be stored in a plurality of tables. .
  • the tenant name field 401 is an area for storing a tenant name.
  • the tenant name is identification information that uniquely identifies the tenant.
  • the server name field 402 is an area for storing a server name of a server constituting the tenant.
  • the server name is identification information that uniquely identifies the server.
  • the server may be a physical server or a virtual machine.
  • Each of the following fields 403 to 409 is identifier information for uniquely identifying a component having a connection relationship.
  • Operation policy information may be managed at a fine granularity such as for each server or logical volume, or may be managed at a coarse granularity such as for each tenant or application, but in the following example, for each server or logical volume An example of managing the operation policy is shown below.
  • FIG. 5 is an explanatory diagram showing an example of the server rank table 500 that forms part of the operation policy information 233.
  • the server rank table 500 is information that associates the server 203 with the importance of the server (shown as rank in the figure), and is information prepared in advance by a manual or some program.
  • the server rank table 500 has a server name field 501 and a rank field 502.
  • the server rank table 500 may have fields (not shown) other than these fields.
  • the rank of each virtual machine is maintained such that the rank of VM_A1 is gold and the rank of VM_A2 is silver.
  • FIG. 6 is an explanatory diagram showing an example of the volume rank table 600 that forms part of the operation policy information 233.
  • the volume rank table 600 is information that associates the logical volume 258 with the importance of the logical volume (indicated by rank in the figure), and is information prepared in advance by a manual or some program.
  • the volume rank table 600 has a volume name field 601 and a rank field 602.
  • the volume rank table 600 may have fields (not shown) other than these.
  • FIG. 7 is an explanatory diagram showing an example of the server rank detail table 700 that forms part of the operation policy information 233.
  • the server rank detail table 700 is information for storing the importance level of the rank given to the server 203 and the target value of the service level provided in each rank, and is information prepared in advance by a manual or some program.
  • the server rank detail table 700 has an importance field 701, a rank field 702, a response time field 703, and an RTO field 704.
  • the server rank detail table 700 may not have some of these fields, or may have other fields (not shown).
  • the importance field 701 is a field indicating the priority of the rank, and the rank field 702 is an identifier for uniquely specifying a specific rank.
  • FIG. 7 shows that the Platinum rank is the most important, followed by the gold rank, and then the silver rank. There may be a plurality of ranks 702 having the same importance 701.
  • the response time field 703 stores a response time target value.
  • the aim is to provide a service level such that an average response time of a request to a Platinum rank VM is within 20 milliseconds.
  • the management server 201 or the computer system administrator determines that there is no problem if the average response time is within 20 milliseconds if the server is a Platinum rank server. If it exceeds 2 seconds, it can be determined that a problem has occurred in the service level.
  • the RTO field 704 is a field for storing the recovery target time. For example, in the case of the Platinum rank, the RTO is 5 minutes. Therefore, if a problem occurs that the average response time exceeds 20 milliseconds on the server of the Platinum rank, the problem will occur within 5 minutes after the problem occurs. It can be seen that this is an operational policy that aims to be solved.
  • FIG. 8 is an explanatory diagram showing an example of the volume rank detail table 800 that forms part of the operation policy information 233.
  • the volume rank detailed table 800 is information for storing the importance level of the rank given to the logical volume 258 and the target value of the service level provided in each rank, and is information prepared in advance by a manual or some program.
  • the volume rank detail table 800 has an importance field 801, a rank field 802, a response time field 803, and an IOPS field 804.
  • the volume rank detail table 800 may not have some of these fields, or may have other fields (not shown).
  • the problem solving process is a process executed by causing the processor 211 to execute the problem solving process program 220 stored in the management computer 201.
  • FIG. 9 is a flowchart showing a procedure example of the problem solving process 900 of the management server 201. First, a description will be given of a trigger when this flowchart is performed.
  • the problem solving process according to this flowchart may be executed by an instruction from the administrator input from the input device 214 of the management computer 201. Further, the management server 201 may be periodically executed, for example, every 5 minutes. Further, the notification may be executed when the management server 201 receives the notification of the occurrence of the problem transmitted from the computer system that is the management target device of the management server 201 via the network I / F 216.
  • the management server 201 performs problem detection processing (step S901), cause location identification processing (step S902), countermeasure procedure plan generation processing (step S903), countermeasure procedure plan evaluation processing (step S904), A countermeasure procedure proposal prioritization process (step S905), a countermeasure procedure proposal presentation process (step S906), an administrator selection (step S907), and a countermeasure procedure draft execution process (step S908) are executed.
  • the problem solving process flow 900 may include other processing steps (not shown), and some of these processing steps may not exist.
  • the management server 201 detects a problem occurring in the computer system. For example, the collected resource usage rate is compared with a threshold value of the resource usage rate, and when the resource usage rate exceeds the threshold value, it is detected that a problem has occurred. In addition, for example, the collected system log text is analyzed, and when a specific character string such as “Error” or “Warning” is included, it is detected.
  • step S902 for example, when the response time of the tenant A exceeds the threshold and deteriorates, the tenant A is referred to the connection relation correspondence table 400 illustrated in FIG. Check the operating status of the computer system components VM_A1 and VM_A2 that are being used, and the cause of the disk 254 of the storage device 204 named ST1 is high, so the response time of the logical volume becomes a bottleneck. It is processing such as detecting that it has become.
  • steps S901 and S902 are not necessarily performed if there is an alternative means, for example, the administrator manually identifies the cause location. It does not have to be executed.
  • a countermeasure procedure draft that solves the problem of the cause identified in step S902 is created.
  • the upper limit of the IO to the VOL_A4 is limited to 50 IOPS
  • the upper limit of the IO to the VOL_A4 is limited from 50 IOPS to 30 IOPS
  • This is a process for creating a procedure plan such as newly constructing a logical volume for replication and distributing the load of the load read request.
  • the operation policy 233 is referred to, and processing is performed such that the adverse effect on the higher rank server and logical volume is smaller than the lower rank.
  • the countermeasure procedure plan evaluation process is a process for simulating and evaluating the effect of one or more countermeasure procedure plans generated in step S903. For example, influences and effects are calculated for each rank, and a plurality of types of procedure proposals are evaluated based on the same standard. In order to evaluate the proposed procedure from various perspectives, in addition to the impact, the effect, estimated execution time, and cost (for example, the amount of investment required when additional hardware is required) may be evaluated. . In the countermeasure procedure draft evaluation process (step S904), for example, it may be executed as an internal process of the countermeasure procedure draft generation process (step S903), or may be replaced by receiving a value manually calculated by the administrator. It may be done.
  • the countermeasure procedure proposal generated in step S903 is cut off or rearranged based on the evaluation result evaluated in step S904. For example, in all the items evaluated in step S904, when the measure procedure plan 1 is lower than the measure procedure plan 2, the measure procedure plan 1 is deleted from candidates to be cut off and presented to the administrator. Alternatively, it is deleted from candidates for automatic execution. Then, when the evaluation is made with a plurality of items, the comprehensive evaluation result of the countermeasure procedure plan is calculated based on the uniform standard, and the priority is given in the order of good evaluation result. Details of the prioritization process (step S905) of the countermeasure procedure plan will be described with reference to FIG.
  • step S906 the countermeasure procedure proposal is presented to the administrator of the computer system according to the rank calculated in step S905 via the output device 215 of the management server 201 or the output device 242 of the operation terminal 202. It is processing. Step S906 does not necessarily have to be executed, for example, when there is a preset setting that the countermeasure procedure plan with the highest overall evaluation of the countermeasure procedure plan calculated in step S905 may be automatically executed.
  • the administrator selection process is a process of receiving a countermeasure procedure plan selected by the computer system administrator via the input device 214 of the management server 201 or the input device 241 of the operation terminal 202.
  • information for changing the weight of the comprehensive evaluation in step S905 may be received.
  • the item of the influence on the gold rank is information such that the parameter is changed so as to work negatively with respect to the overall evaluation.
  • step S907 information for changing the constraint condition may be received.
  • information for changing the constraint condition is information that excludes a constraint condition in which the adverse effect on SLO exceeds 60% even with a copper rank.
  • information that changes the constraint condition is received, it is preferable that there is a branch of processing that executes step S903 again.
  • step S907 there may be a branch of processing that is executed again from step S901 when information from the administrator cannot be received for a certain period or longer.
  • the problem may be solved naturally after 10 minutes or more, or the problem may be worsened.
  • This is a branch for proposing an optimal countermeasure according to such a change in state.
  • FIG. 9 shows branches returning from step S907 to step S901, step S903, and step S905, but some of these branches may not exist, and include a branch (not shown). Also good. Further, for example, it may be determined that the countermeasure procedure plan having the highest comprehensive evaluation value is automatically selected by the administrator by a pre-setting such that the countermeasure procedure plan having the highest comprehensive evaluation value may be automatically executed.
  • the countermeasure procedure plan execution process is a process for executing or registering the execution of the countermeasure procedure plan selected in step S907. For example, when a coping procedure for migrating a virtual machine is selected in step S907, execution registration of the process of migrating to the host machine is performed.
  • the countermeasure procedure plan execution process (step S908) is not necessarily executed, for example, when the management server 201 does not have a function of executing the countermeasure procedure and the administrator manually operates the management target device group. It is not necessary.
  • the countermeasure procedure plan selected by the administrator may be stored as an execution result. Details of the processing in the case where the execution result is stored in step S908 will be described with reference to FIG.
  • FIG. 10 is an explanatory diagram showing an outline of a procedure example of the countermeasure procedure draft generation process (step S903 in FIG. 9).
  • the management server 201 generates a constraint condition pattern 1001 based on the operation policy information 233, and generates a countermeasure procedure plan according to the constraint condition.
  • the constraint pattern 1001 may be created by an operator based on the operation policy information 233 and input to the management server 201.
  • the influence range is classified. For example, the influence range is classified for each rank of gold, silver, and copper.
  • the degree of impact is also classified. For example, if the impact on the performance is 10% from the range where the SLO can be satisfied, the impact is “small”, if the SLO is violated 10% to 30%, the impact is “medium”, and the SLO is violated more than 30%. The case is classified as “Large”. “-” Means that the violating effect is not allowed.
  • a pattern 1001 is generated with a constraint that the influence on the upper rank is less than or equal to the lower rank. For example, gold has no influence, silver has a small influence, copper has a small influence, and gold, silver, or copper has a small influence. For example, a pattern in which the influence on gold is small and silver and copper have no influence is excluded.
  • the candidates for the operation target are filtered or the upper limit of the operation is set according to the constraint condition pattern 1001.
  • the constraint condition pattern 1001. For example, when the upper limit of IO is set for a virtual machine running on the server apparatus 203 as a countermeasure against the problem that the network I / F 263 of the server apparatus 203 is a bottleneck, the problem is considered as the operation target candidate 1002.
  • a list of virtual machines running on the generated server apparatus 203 is acquired.
  • step S903 is to identify the candidate 1002 to be investigated by using the generated one or more constraint condition patterns 1001 and generate a countermeasure procedure draft.
  • FIG. 11 is a flowchart illustrating a procedure example of the countermeasure procedure plan generation process (step S903) illustrated in FIG.
  • the management server 201 performs an impact classification process (step S1101), a constraint pattern generation process (step S1102), an operation target candidate acquisition process (step S1103), and an operation target candidate filter process (step S1103).
  • Step S1104), an operation upper limit setting process (Step S1105), and a countermeasure procedure plan generation process (S1106) are executed.
  • the plan procedure proposal generation processing flow 1100 may include processing steps (not shown) other than these, and the order of some processes may be different.
  • the management server 201 classifies the impact range based on the operation policy 233. For example, the influence range is classified for each rank of gold, silver, and copper. In addition, the degree of impact is also classified. For example, “S1” is a category that does not affect the performance, “S2” is a range where the impact on the performance is 10% off from the range where the SLO can be satisfied, and “S3” is a range where the SLO is 10% to 20% off. The range in which the SLO is violated more than 20% but can be used is classified as “S4”, and the range in which the SLO cannot be used is classified as “S5”. Moreover, it defines so that an evaluation value may be evaluated highly in the order of small influence. An example in which the degree of influence is divided is shown in FIG.
  • FIG. 12 is an explanatory diagram showing an example of the influence degree classification table 1200 generated in the influence classification process (S1101) of FIG.
  • the influence degree division table 1200A includes a division field 1201, a service quality field 1202, and an evaluation value field 1203.
  • the partitioned field 1201 uniquely identifies the partitioned performance.
  • the service quality field 1202 indicates the range of performance in the category field 1201.
  • the evaluation value field 1203 stores an evaluation value given to the countermeasure procedure proposal when the effect or influence of the countermeasure procedure proposal corresponds to the classification field 1201.
  • the influence degree division table 1200A may not include some of these fields, or may include fields (not shown).
  • the influence degree classification table 1200 may be stored in the main memory 212, or may be stored in the auxiliary storage device 213 as a part of the operation policy information 233, for example.
  • the impact degree classification table 1200B shows another example of the table.
  • the quality of service field 1202 may be defined regardless of the SLO, such as when the SLO is not defined. For example, when the degree of influence on the resource usage rate is classified, such as the usage rate of the IO processing unit of the storage apparatus, the classification may be performed based on a threshold value of the resource usage rate. Further, the number of categories and the range for each category may be set manually by the administrator, or may be generated by the management server 201 calculating the number and range of categories by some processing.
  • the management server 201 generates a constraint condition pattern in which the influence on the upper rank is less than or equal to the influence of the lower rank. For example, when the influence is classified as shown in FIG. 12, gold has no influence S1, silver has a small influence S2, copper has a slight influence S3, and gold, silver, and copper have little influence.
  • the pattern is S2. For example, a pattern in which the influence on gold is S3 and silver and copper have no influence is excluded. An example of the pattern to be generated is shown in FIG.
  • FIG. 13 is an explanatory diagram showing an example of a constraint condition pattern table 1300 generated in the constraint pattern generation process (S1102) of FIG.
  • the constraint pattern table 1300 includes a gold field 1301, a silver field 1302, and a copper field 1303. These fields may be generated based on the rank defined in the operation policy 233.
  • S1 indicating that there is no influence is indicated by a thin character so that it is easy to visually recognize that the influence range is close to the lower rank (copper rank side).
  • step S1101 and step S1102 may utilize the result performed in advance. Since the operation policy is not frequently changed, for example, step S1101 and step S1102 are executed at the timing when the operation policy is first defined or when the operation policy is changed.
  • the partition table 1200 and the constraint condition pattern table 1300 may be held.
  • the constraint pattern table 1300 may be created with a large granularity such as a computer system or a tenant, or may be created with the granularity of virtual machines or storages that are their components, as shown in FIGS. Good.
  • the constraint condition pattern table 1300 may be stored in the main memory 212, or may be stored in the auxiliary storage device 213 as a part of the operation policy information 233, for example.
  • the management server 201 acquires a list of operation target candidates and also acquires operation target rank information.
  • a connection correspondence table in FIG. 4 is used.
  • a case where an upper limit of IO is set for a virtual machine running on the server apparatus 203 will be described as an example.
  • server rank information is acquired from the operation policy 233.
  • VM_A1 and VM_A1 are acquired as candidates for operation, and then VM_A1 is a gold rank from the server rank table 500 of FIG. It acquires that VM_A2 is a silver rank.
  • the process of filtering operation target candidates is a process of filtering operation target candidates according to a constraint pattern. For example, when filtering based on the constraint pattern shown in the first row of the constraint condition pattern table 1300 shown in FIG. 13, the gold rank and the silver rank are not affected. The rank is excluded from the operation target. For example, when filtering based on the constraint pattern shown in the second row of the constraint pattern table 1300 shown in FIG. 13, the gold rank is not affected, the silver rank is S2, and the copper rank is S3. Therefore, the gold rank is excluded from the operation target.
  • the upper limit of the operation is set based on the constraint condition. For example, when the countermeasure procedure plan for setting the upper limit of the IO of the virtual machine is set based on the second line of the constraint condition pattern table 1300 shown in FIG. 13, the influence on the silver rank is S2, The upper limit of IO is set to a value 10% lower than the SLO for the silver rank virtual machine and the influence on the copper rank is S3. Therefore, for the virtual machine of the copper rank, the upper limit is 20 from the SLO. Set the upper limit of IO to a lower value.
  • a countermeasure procedure plan that migrates a virtual machine to an external host machine until the bottleneck of the host machine is eliminated by the constraint condition in the second row of the constraint condition pattern table 1300 shown in FIG. 13 is generated.
  • a restriction condition is given such that the frequency selected for migration is gold: silver: copper 0: 1: 2.
  • search for migration so that both the silver rank and the copper rank are candidates for migration, and twice, only the copper rank is a candidate for migration. If you do it, you can.
  • the countermeasure procedure plan generation process (step S1106) is a process of generating a countermeasure procedure plan according to the list of operation target candidates generated in step S1104 and the upper limit generated in step S1105.
  • the countermeasure procedure plan itself may be generated using a known technique.
  • Steps S1104, S1105, and S1106 may be repeated for all the patterns generated in step S1102, or only one or more of the patterns generated in step S1102 may be used. May be executed.
  • FIG. 14 is an explanatory diagram showing an example of a countermeasure procedure plan evaluation result table 1400 generated by the countermeasure procedure draft evaluation process (S904) of FIG.
  • the countermeasure procedure plan evaluation result table 1400 includes a countermeasure procedure plan ID field 1401, an influence field 1402, an effect field 1403, an execution result field 1404, and a cost field 1405. Some of these fields may not exist in the countermeasure result evaluation result table 1400, or other fields (not shown) may be included.
  • the countermeasure procedure plan ID field 1401 stores an identifier for uniquely identifying a countermeasure procedure plan.
  • the influence field 1402 stores the evaluation result of the influence of the simulated countermeasure procedure proposal. As illustrated in FIG. 14, the influence field 1402 may be divided and evaluated for each rank, or may not be subdivided.
  • the effect field 1403 stores the evaluation result of the effect of the simulated countermeasure procedure plan. The effect field 1403 may be subdivided and evaluated for each rank as illustrated in FIG. 14, or may not be subdivided.
  • the execution result field 1404 stores an evaluation value of the execution result of the countermeasure procedure plan.
  • the cost field 1405 is, for example, an amount for purchasing hardware in order to add hardware, a contract amount required for a virtual machine instance newly constructed to deal with scale-out, Stores the evaluation value of the amount necessary to execute the proposed procedure.
  • FIG. 14 shows that the larger the evaluation value of any item, the better.
  • the evaluation result table 1400 may be created with a large granularity such as a computer system or a tenant, or may be created with the granularity of a virtual computer or a storage as those components as shown in FIGS.
  • the evaluation result table 1400 of the countermeasure procedure plan may be stored in the main memory 212, or may be stored in the auxiliary storage device 213 as a part of the operation policy information 233, for example.
  • FIG. 15 is a flowchart showing details of the prioritization process (step S905) of the countermeasure procedure plan.
  • the management server 201 executes a cut-off process (step S1501), a comprehensive evaluation value calculation process (step S1502), and a rearrangement process (step S1503).
  • the prioritized processing flow 1500 for the proposed countermeasure procedure may include other processing steps (not shown), or some steps may not exist. In the priority processing flow 1500 for the proposed countermeasure procedure, the order of these steps may be switched.
  • step S1501 all evaluation values of a specific countermeasure procedure proposal are compared with evaluation values of other countermeasure procedure proposals and evaluation values of other countermeasure procedure proposals, and are small in all items. In this case, when some evaluation values are the same and other evaluation values are small, that is, when there is no evaluation value that is excellent in some item, the process is performed.
  • FIG. 16 is an explanatory diagram illustrating an outline of the cut-off process when the evaluation result of the proposed countermeasure procedure is as illustrated in FIG. The explanation is as described above.
  • the comprehensive evaluation value calculation process (step S1502) is a process of calculating the comprehensive evaluation value of the countermeasure procedure plan.
  • the countermeasure procedure proposal is evaluated from the viewpoints of influence, effect, performance record, and cost.
  • FIG. 17 is an example of a comprehensive evaluation value calculation formula used in the comprehensive evaluation value calculation process (S1502) of FIG.
  • each evaluation value has a constant (A, B, C in FIG. 17,
  • the comprehensive evaluation value is calculated by means such as calculating and obtaining the sum of the values multiplied by D).
  • the constant multiplied by each evaluation value may be a value arbitrarily set by the administrator or may be any value calculated by the management server 201.
  • the rearrangement process is a process of rearranging in the descending order of the comprehensive evaluation calculated in step S1502.
  • the countermeasure procedure of FIG. 14 is evaluated based on the mathematical formula of FIG. 17, and the rearrangement process is performed.
  • the prioritization process (S905) of the countermeasure procedure plan a list in which the countermeasure procedures in FIG. 14 are rearranged in the order of the evaluation score is obtained.
  • the result is presented by the proposed countermeasure procedure presentation process (S ⁇ b> 906).
  • the administrator selection process (S907), the administrator selects a desired plan from the countermeasure procedure plan, and the selected countermeasure procedure is executed in the countermeasure procedure plan execution process (S908). It should be noted that the steps after the proposed procedure procedure presentation process (S906) may be omitted, and the process may be completed once until the proposed procedure procedure is stored as data.
  • Embodiment 1 is a system in which an administrator can select a candidate from candidates that have been prioritized by the priority order processing (S905) of the countermeasure procedure plan. However, since a certain skill is required for the work selected from the candidates, it is desirable that support is provided on the system. In the second embodiment, an example will be described in which an administrator can assist in selecting a candidate with high validity when selecting a candidate.
  • Example 2 is based on the configuration of Example 1, and the following configuration may be added.
  • FIG. 18 is a flowchart showing an example of a procedure for executing a countermeasure procedure plan (step S908) in the case where the execution result of the countermeasure procedure plan executed by the management server 201 is stored, and is referred to as a learning process flow 1800 here.
  • the countermeasure procedure draft execution process (step S908) simply executes the selected procedure and counts the execution results.
  • the management server 201 is an administrator. The execution results are evaluated for each pattern of evaluation of the coping procedure plan selected by. Therefore, even if the countermeasure procedure proposals are of different types, if the evaluation pattern is the same, the same pattern is reflected in the execution result.
  • the process of increasing the evaluation value of the execution result is stored or stored, and the process of decreasing the evaluation value of the execution result is described as forgetting process or forgetting.
  • the administrator and the user can arbitrarily define the evaluation pattern of the proposed countermeasure procedure. For example, “the effect on gold is 5, the effect on silver is 4, the effect on silver is 1”, or “the effect on gold is 4, the effect on silver is 3 and the effect on silver is 2” Thus, a numerical value can be shown for each rank.
  • “No effect of 2 or less on all ranks of gold, silver and copper” “Only 3 or more effects on all ranks of gold, silver and copper” “No effect of 2 or less on all ranks of gold, silver and copper”
  • the condition may be set as “only three or more effects for all ranks of gold, silver, and copper”.
  • the management server 201 performs role acquisition processing (step S1801), variable acquisition processing (step S1802), selected pattern storage processing (step S1803), and unselected pattern forgetting processing (step S1804). Then, an execution registration process (step S1805) is executed.
  • the management server acquires the role (role) of the administrator who selected the countermeasure procedure plan. For example, information that the administrator is an expert role with a high system management skill or a general role with a low skill is acquired.
  • step S1802 the storage variable 1902 and the forgetting variable 1903 of the row corresponding to the role acquired in step S1801 are acquired from the variable table 1900.
  • FIG. 19 is an explanatory diagram showing an example of the variable table 1900.
  • the variable table 1900 holds variables used in the execution performance learning process executed in steps S1803 and S1804, and is information prepared in advance by a manual or some program.
  • the variable table 1900 has a roll field 1901, a storage variable 1902, and a forgetting variable 1903.
  • the variable table 1900 may not have some of these fields, or may have other fields not shown.
  • the role field 1901 is an identifier that uniquely identifies the administrator's role.
  • the management server performs a storage process of the selected countermeasure procedure plan evaluation pattern. For example, this can be realized by adding a certain value to the existing execution performance value. For example, when storing the pattern of the proposed countermeasure procedure selected by the administrator role, a value of 5 is acquired from the storage variable field 1902 of the variable table 1900 in step S1802, and the countermeasure procedure proposal selected by the administrator is applicable. The value of 5 is added to the execution result value of the pattern to be performed.
  • the number of applicable patterns is not limited to one, and a plurality of patterns may be applicable.
  • the management server performs the forgetting process of the evaluation pattern of the countermeasure procedure plan that has not been selected. For example, it can be realized by multiplying an existing execution performance evaluation value by a numerical value from 0 to less than 1. For example, when forgetting the evaluation pattern of the countermeasure procedure plan not selected for the administrator role, a value of 0.6 is obtained from the forgetting variable field 1903 of the variable table 1900 in step S1802, and the administrator did not select it. Multiply the values of execution results of all patterns by a value of 0.6.
  • the execution registration process (S1805) is a process for performing execution registration of the countermeasure procedure plan selected by the administrator.
  • FIG. 20 is an explanatory diagram showing an example of the pattern table 2000.
  • the pattern table 2000 is a table that manages the execution results for each pattern of evaluation of the countermeasure procedure proposal selected by the administrator, and is generated when the administrator selects the countermeasure procedure proposal for the first time and selected by the administrator. As long as there is a pattern, it is only necessary to hold the execution results. Alternatively, the execution results may be held in all the evaluation result patterns of the proposed countermeasure procedure that the management server has generated.
  • the pattern table 2000 has a pattern ID field 2001, an influence field 2002, an effect field 2003, a cost field 2004, and an execution result field 2005.
  • the pattern table 2000 may basically have fields equivalent to the evaluation result table 1400 of the countermeasure procedure plan, but some of these fields exist.
  • a field (not shown) may be provided, such as an evaluation field for storing a value obtained by evaluating a problem occurrence state.
  • the management server 201 compares the table 1400 and the table 2000 when calculating the evaluation value of the execution result of the countermeasure procedure plan in the countermeasure procedure plan evaluation process (step S904).
  • the value of the execution result 2005 in which the effect field 1402 and the effect field 2002 of the countermeasure procedure plan match, the effect field 1403 and the effect field 2003 match, and the cost field 1405 and the cost field 2004 match are set as the execution result 1404.
  • the value of the execution result 2005 in which the influence field 1402 and the influence field 2002 of the countermeasure procedure proposal match and the effect field 1403 and the effect field 2003 match may be calculated as the value of the execution result 1404.
  • the value of the execution result 2005 in which the influence field 1402 and the influence field 2002 of the countermeasure procedure plan match may be calculated as the value of the execution result 1404.
  • an arbitrary value such as 0 may be input as the evaluation value of the execution result 1404.
  • FIG. 21 illustrates an example of a change in the value of the execution result 2005 when the storage role and the forgetting process are executed when the user of the administrator role selects the countermeasure procedure plan corresponding to the pattern ID 1. ing. A predetermined value is added to the weight of the selected pattern, and the weight of the unselected pattern is reduced at the same rate.
  • both the storage process (step S1803) and the forgetting process (step S1804) are executed, but only one of them may be executed and the other may not be executed. Further, the storage process (step S1803) and the forgetting process (step S1804) may be executed in the reverse order. If the administrator's role is not taken into consideration, steps S1801 and S1802 are not necessarily executed, and a constant storage variable 1902 and forgetting variable 1903 may always be used in the learning process.
  • the variable table 1900 and the pattern table 2000 may be stored in the main memory 212, or may be stored in the auxiliary storage device 213.
  • the countermeasure procedure plan evaluation pattern 2000 is weighted by learning the past candidate selection process as described above.
  • this information is used to emphasize candidates having the same pattern as the pattern whose execution result value is greater than or equal to a predetermined value (for example, 5 or more), for example, in the processing procedure proposal presentation process (S906) of FIG. Display can be made. Thereby, the administrator can know the tendency of selection of past countermeasure procedure proposal candidates.
  • a predetermined value for example, 5 or more
  • the weighting is reflected on the value of the execution result 1404 in the evaluation result table 1400 of the countermeasure procedure plan in FIG. 14 in the first embodiment, and the overall evaluation value calculation process (S1502) in FIG. Evaluation is performed based on the mathematical formula of and a rearrangement process is performed.
  • the prioritization reflecting the past selection pattern is obtained.
  • the execution result 2005 of the pattern ID 2001 having the same pattern is calculated (added or integrated) to the execution result 1404 of the countermeasure procedure plan and the weight is reflected.
  • the difference in the value of the execution result 2005 of the evaluation pattern of the countermeasure procedure plan in FIG. 21 for each pattern increases. It may be cut.
  • the present invention is not limited to the above-described embodiments, and includes various modifications and equivalent configurations within the scope of the appended claims.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment may be replaced with the configuration of another embodiment.
  • another configuration may be added, deleted, or replaced.
  • each of the above-described configurations, functions, processing units, processing means, etc. may be realized in hardware by designing a part or all of them, for example, with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.
  • Information such as programs, tables, and files that realize each function is recorded on a storage device such as a memory, hard disk, or SSD (Solid State Drive), or on an IC card, SD card, DVD, Blue Ray Disk, or other optical disk. It can be stored on a medium.
  • a storage device such as a memory, hard disk, or SSD (Solid State Drive), or on an IC card, SD card, DVD, Blue Ray Disk, or other optical disk. It can be stored on a medium.
  • control lines and information lines indicate what is considered necessary for the explanation, and do not necessarily indicate all control lines and information lines necessary for mounting. In practice, it can be considered that almost all the components are connected to each other.
  • 201 management server
  • 211 processor
  • 212 main storage
  • 213 auxiliary storage device
  • 220 problem solving processing
  • 2131 constraint conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機である。この管理計算機は、複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備える。この対策手順案生成モジュールは、複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、対策手順案を生成する。

Description

管理計算機および計算機システムの管理方法
 本発明は、計算機システムの管理に係り、管理計算機および計算機システムの管理方法および関連技術に関する。
 従来、計算機システムで問題が発生したとき、管理者の判断を補助する目的で推奨する対処策を提案する管理システムがある(例えば下記特許文献1を参照)。特許文献1の管理システムは、例えばディスク稼働率など主に稼働データを参照し、対処ルールに基づいて具体的な対処策を生成し、その効果を評価し、管理者に提示する。これにより、管理者は計算機システムの問題を解決するための具体的な対処策を容易に判断または選択できる。
公開番号WO2014/073045
 しかしながら、上述した特許文献1では、計算機システムを構成する部品、例えば仮想サーバや論理ボリュームなどの重要度や利用している顧客の重要度など、運用方針を参照し考慮する処理が無い。そのため、特許文献1で推奨される対処策ではより重要度の高い要素、例えば重要顧客に悪影響を与える可能性がある。
 例えば、仮想マシンをとあるホストサーバから別のホストサーバに移動させるような対処策を生成する場合、実験用の仮想マシンなどのように比較的重要度の低い仮想マシンが他にも存在するにも関わらず、重要顧客が利用している仮想マシンを移動対象として選択するような対処策が生成される。計算機システムの管理者は対処策の実行により重要な仮想マシンに悪影響がでないように対処策の詳細を確認し、必要があれば対処策を修正しなければならないという問題がある。
 本願において開示される発明の一側面となる計算機システムは、顧客および計算機システムを構成する部品毎に運用方針に関する情報を保持し、問題への対処策を生成する際に、運用方針に基づいて対処策の影響範囲を区分し、上位の顧客への影響が下位の顧客への影響以下になるように対処策を生成する。例えば、対処策の操作の対象から上位の顧客を除外する、または性能への影響が上位の方が小さくなるような操作を施すことで実現されれば良い。生成した対処策は、管理者が操作を行ってもよいし、管理計算機が対処策の候補を管理者に提示し、管理者の承認を得てから管理計算機が実行しても良いし、事前承認や学習結果などに基づき管理計算機により自動で実行されても良い。
 本願発明の他の一側面は、プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機である。この管理計算機は、複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備える。この対策手順案生成モジュールは、複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、対策手順案を生成する。
 本発明の他の一側面は、プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法である。この方法では、管理計算機は、複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、対策手順案を生成する。
 ここで、計算機システムの部品とは、例えば、テナント、サーバ、仮想計算機、ストレージのボリューム、IO処理ユニットなどであり、その粒度や分類は任意である。制約条件は、具体的な例としては、計算機システムの運用方針に基づいて、自動的にあるいは人の手によって作成される。場合によっては、制約条件は運用方針そのものでもよい。また、計算機システムまたはその部品のランク分けの定義や粒度も任意でよい。
 本発明の代表的な実施の形態によれば、管理計算機は問題を解決できる対処策の中でも、重要性の高い要素、例えば上位の顧客への影響が小さい対処策を提示できる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
本発明実施例の計算機システムにおける問題解決処理フローの概要を説明する概念ブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201を中心に示すブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の管理対象である管理対象装置群を中心に示すブロック図。 図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の機能を主に示すブロック図。 図1の計算機システム2上に構成されるテナントシステムの一例を示すブロック図。 システム構成情報234の一部をなす、接続関係の対応テーブル400の一例を示す表図。 運用方針情報233の一部をなす、サーバランクテーブル500の一例を示す表図。 運用方針情報233の一部をなす、ボリュームランクテーブル600の一例を示す表図。 運用方針情報233の一部をなす、サーバランク詳細テーブル700の一例を示す表図。 運用方針情報233の一部をなす、ボリュームランク詳細テーブル800の一例を示す表図。 管理サーバ201の問題解決処理900の手順例を示す流れ図。 図9の対策手順案の生成処理S903の例を示す概念図。 図9の対策手順案の生成処理ステップS903の手順例を示す流れ図。 影響度合いの区分テーブル1200の例を示す表図。 制約条件のパターンテーブル1300の一例を示す表図。 対策手順案の評価結果テーブル1400の一例を示す表図。 図9の対策手順案の優先順位付ステップS905の手順例を示す流れ図。 対策手順案の評価結果が図14に例示するとおりであった場合の足切り処理の概要を例示する説明図。 図15の総合評価値の算出処理S1503で用いる数式例を示す説明図。 管理サーバ201が実行する対策手順案の実行実績を記憶する場合の、対策手順案の実行処理(ステップS908)の手順例を示す流れ図。 変数テーブル1900の一例を示す表図。 パターンテーブル2000の一例を示す表図。 記憶処理と忘却処理を実行した際の実行実績2005の値の変化の様子を例示する概念図。
 以後の説明では「aaaテーブル」、「aaaリスト」、「aaaDB(Database)」、「aaaキュー」(aaaは任意の文字列)等の表現にて本実施例の情報を説明するが、これら情報は必ずしもテーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。
 また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID(IDentification)」という表現を用いるが、これらについてはお互いに置換が可能である。
 また、以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
 また、各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。この場合、プログラム配布サーバは、プロセッサと記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムを記憶する。そして、配布プログラムをプロセッサが実行することで、プログラム配布サーバのプロセッサは、配布対象のプログラムを他の計算機に配布する。
 また、計算機は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインタフェースやイーサーネットインタフェースを入出力デバイスとし、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
 以後、情報処理システムを管理し、本実施例の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理用の計算機(以下、管理計算機)が表示用情報を表示する場合は管理計算機が管理システムである、また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含む)が管理システムである。
 ここで言う対処策とは、例えば、IDが00_1の仮想マシンをID02のホストマシンにマイグレーションする、ID00_1の仮想マシンのDiskアクセスを1000IOPSに制限するといった具体的な操作の内容を含んだ情報のことを指す。以後、対処策、対処プラン、アクションプランなどと表現する。また、具体的な操作の内容を含まない、例えば、仮想マシンをとあるホストマシンから別のマシンにマイグレーションする、仮想マシンのDiskアクセス数を制限するといった定性的な情報のことを、以後、対策ルール、あるいは単にルールと呼ぶ。
 図1は、本実施例の計算機システムにおける問題解決処理フローの概要を説明する図である。ここでは、本実施例が適用されないシステムを比較例として、本実施例のシステムの概要を説明する。
 計算機システム1は、本実施例が適用されていない比較例の計算機システムを示している。計算機システム1は、管理対象であるサーバ203と、ストレージ204と、ネットワーク装置205と、これら管理対象装置群を管理する管理サーバ201とを備える。また、管理対象装置上で稼働するアプリケーション、または管理対象装置上で稼働するアプリケーション群により構成されるテナントシステムの重要度や性能の規定値である運用方針233は、管理サーバ201外部に存在するExcelなどの外部ファイル208に保持される。システムを使用するテナントには、超重要テナント11、重要テナント12、通常テナント13のように重み付けがされている。
 管理サーバ201は、重要テナント12で発生した問題(#1)を監視機能2011により検知し(#2)、原因解析機能2012により原因解析を実施する(#3)。対策手順案作成機能2013は、補助記憶デバイス213内の、対策手順ルール231や稼働データ232に基づいて問題を解決する対処手順案を生成し(#4)、生成された対処手順を実行基盤機能2014により実行登録する(#5)。管理サーバ201より受信したサーバ203は(#6)、サーバ203上で稼働している仮想マシン(図中ではVMと例示している)を別のサーバ装置203上にマイグレーションを実施する(#7)。その結果、重要テナント12で発生した問題を解決できても、超重要テナント11に悪影響を与えることがある(#8)。
 通常、特定のテナントで発生した問題を解決したい場合、問題が発生したテナントよりも、より重要である(以後、より重要であることを上位ランクと記載する。また、逆に、より重要ではない方を下位ランクと記載する。)テナントに悪影響を与えることは避けたいと考える。しかし、比較例では上位ランクのテナントに悪影響をあたえることがある。これは、管理サーバが対処手順案を生成するとき、稼働データ232や対処手順ルール231に従って対処手順を生成するが、管理サーバ外部に存在する運用方針233は参照していないためである。ここでいう対処手順案とは、例えば、VM_1番をサーバ装置_1からサーバ装置_2へマイグレーションする、といった問題解決手順の案のことを示す。対処手順案生成処理では、例えば、VM_3をサーバ装置_1からサーバ装置_3へマイグレーションする、テナントシステムAのリクエストの上限を100リクエスト/秒から50リクエスト/秒に制限する、のように、様々な手順案を生成し、効果や影響を見積もり、優先順位を付ける処理である。
 図1の比較例のシステム1では、重要テナント12が使用していたVMを、超重要テナント11が使用しているVMがあるサーバへマイグレーションしているため、超重要テナント11に影響する場合がある。
 計算機システム2は、本実施例における計算機システムの概要を例示している。システム2では、運用方針を考慮して対策手順案を生成し、重要なテナントを優先する。構成の一例として、計算機システム2は、計算機システム1では管理サーバ201の外部に存在していた運用方針233を管理サーバ201上に記憶しており、外部のファイル208を含まないこと以外は計算機システム1と同様のシステム構成である。処理の流れも同様であるが、対処手順案を生成する処理で運用方針233を参照する点が計算機システム1と異なる。これにより、重要テナント12で発生した問題を解決するとき、超重要テナント11には悪影響を与えず、悪影響の範囲を通常テナント13に限定することができる。
 前述の通り、本実施例は対処手順案生成処理において運用方針を制約条件として活用し、上位ランクを優遇する効果を有する。なお、図1に例示するシステム構成は、説明の簡易化のために図2A以降で説明するシステム構成の詳細の一部を省略し、一部を誇張表現している。
 図2Aは、図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201を中心に示すブロック図である。管理サーバ201はプロセッサ211と、主記憶デバイス212と、補助記憶デバイス213と、入力装置214と、出力装置205と、ネットワークI/F216と、を有する。プロセッサ211、主記憶デバイス212、補助記憶デバイス213、入力装置214、出力装置205、およびネットワークI/F216はバス217に接続される。
 プロセッサ211が、問題解決処理220を実行する。問題解決処理220は例えば半導体メモリ等の主記憶デバイス212に格納されるソフトウェア(プログラム)であり、プロセッサ211等の管理サーバ201のハードウェア資源を利用して、所望の機能を実行する。なお、問題解決処理220による処理は、プロセッサ211で実行される代わりに、例えば集積回路等のハードウェアで実現してもよい。
 例えば磁気ディスク装置等の補助記憶デバイス213は、対処手順ルール231と、稼働データ232と、運用方針233と、システム構成情報234をデータとして記憶する。補助記憶デバイス213、対処手順ルール231、および稼働データ232と、運用方針233と、システム構成情報234はそれぞれ異なる記憶デバイスに保存されていてもよい。
 ここで、対処手順ルール231とは、例えば、特定のサーバ装置のCPU使用率の閾値超過を検出した場合に、サーバ装置上で稼働している任意の仮想マシンを別の任意のサーバ装置にマイグレーションするだとが、ストレージ装置上のボリュームプールを構成する記憶ディスクの稼働率の閾値超過を検出した場合に、ディスク上に存在する論理ボリュームへのIO量に制限をかけるといった、計算機システムで発生した問題を解決するための手順を生成する処理方式群のことである。対策手順ルール231は1種類以上の処理方式を含んでおればよい。
 稼働データ232とは、例えば、過去1ヶ月のサーバ装置203のCPU使用率情報など、一定期間の計算機システムのリソース使用率や受信したリクエスト数などの稼働情報のことを指す。
 運用方針233は、「重要度」と「性能の目標値」の少なくともいずれかを含む。重要度とは、例えば、金、銀、銅で例示されるような重要度である。金は銀よりも重要で、銀は、銅よりも重要であるといった優劣のつけられる情報であればよい。また、性能の目標値とは、例えば、応答時間が100ミリ秒以内だとか、スループットが100リクエスト/秒などである。これらの運用方針は、例えば、仮想マシン毎や論理ボリューム毎で保持していても良いし、アプリケーション毎やテナントシステム毎など粗粒度で保持しアプリケーションやテナントシステムを構成する全ての仮想マシンインスタンスに対し同様の運用方針を適用するといった保持の形式でもよい。
 システム構成情報234とは、サーバ203、ストレージ204、ネットワーク装置205等の管理対象装置群の接続関係や、管理対象であるテナントシステムと管理対象装置群の接続関係を特定する情報である。
 補助記憶デバイス213は、管理サーバ201に不図示の外部装置へのI/FやネットワークI/F216を介して接続される外部の記憶装置、例えばストレージ装置204であってもよい。また、主記憶デバイス212と補助記憶デバイス203は同一デバイスであってもよい。
 入力装置214は、キーボード等の管理者の操作によりデータを入力するデバイスである。出力装置215は、プリンタやモニタ等、プロセッサ211の実行結果を表示するデバイスである。入力装置214と出力装置215は、一体型の装置でもよい。
 また、計算機システム201には、操作端末202が接続されていてもよい。操作端末202は、管理計算機201を操作するコンピュータである。操作端末202は入力装置241と出力装置242と、を有する。入力装置241は、管理者の操作によりデータを入力するデバイスである。入力データは、ネットワーク206を介して管理サーバ201に送信される。出力デバイス242は、管理サーバ201からのデータを表示するデバイスである。入力装置241と出力装置242は、一体型の装置でもよい。
 また、計算機システム2には、管理サーバ201と、操作端末202と、サーバ装置203と、ストレージ装置204と、ネットワーク装置205が含まれる。ネットワーク装置205は管理サーバ201と、操作端末202と、サーバ装置203と、ストレージ装置204との間のデータを中継する。
 図2Bは、図1の実施例の計算機システム2のハードウェア構成例を、管理サーバ201の管理対象である管理対象装置群を中心に示すブロック図である。管理対象装置群は、サーバ装置203と、ストレージ装置204と、ネットワーク装置205と、がネットワーク206やSAN(Storage Area Network)を介して相互に接続されるシステムである。
 サーバ装置203は、プロセッサ261と、主記憶262と、ネットワークI/F263と、補助記憶デバイス264と、HBA(Host Bus Adapter)365と、を含む。
 補助記憶デバイス264は、ネットワークI/F263や、HBA265や、不図示の外部装置のI/Fを介して接続される外部の記憶装置であってもよい。また、サーバ装置203は仮想マシンであってもよい。サーバ装置203は、管理サーバ201の監視対象装置である。サーバ装置203は、テナントシステムを構成するソフトウェアや仮想マシンを実行する。ネットワークI/F263は、ネットワーク206を介して、他のネットワークI/F252や、ネットワーク装置205の一例であるIP(Internet Protcol)スイッチ205Aに接続される。HBA265は、ネットワーク装置205の一例であるFC(Fiber Channel)スイッチのポートに接続される。
 ストレージ装置204は、管理サーバ201の管理対象装置であり、サーバ203上、または管理サーバ201上で動作するソフトウェアが使用する記憶容量を提供する。ストレージ装置204は、IO処理ユニット251と、ネットワークI/F252と、IOポート253と、DISK254と、IOポート255と、を有する。DISK254は複数のDISK254によりRAIDグループ256を構成していてよい。RAIDグループ256は、単一または複数のRAIDグループ256からボリュームプール257を構成していてよい。例えば、サーバ装置203の補助記憶デバイスとしてストレージ装置204が利用されている場合に、補助記憶デバイス264のデータが論理ボリューム258に記憶されておればよい。論理ボリューム258は、ボリュームプール257、またはRAIDグループ256、またはDISK254上のいずれかに存在しておればよい。
 ネットワークI/F252は、例えばイーサネット(登録商標)によるLAN(Local Area Network)などのネットワーク206に接続するためのインタフェースである。IOポート253およびIOポート255は、例えばファイバチャネルなどのようなSAN(Storage Area Network)に接続するインタフェースである。また、ストレージ装置204はIOポート255を介して接続される外部のストレージ装置209に存在する論理ボリューム259を管理していてもよい。
 ここで例示するネットワーク装置205には、IPスイッチ205AとFCスイッチ205Bがある。IPスイッチ205Aは管理サーバ201のネットワークI/F216と、サーバ装置203のネットワークI/F263と、ストレージ装置204のネットワークI/F252と、FCスイッチ205Bの不図示のネットワークIF、他のIPスイッチ205Bの不図示のネットワークI/Fに接続される。FCスイッチ205Bは、サーバ装置203とストレージ装置204との間でデータ転送する。FCスイッチ205Bは複数のポート271を有する。FCスイッチ205Bのポート271は、サーバ装置203のHBA265と、ストレージ装置204のIOポート253と、に接続される。ネットワーク装置205は、管理サーバ201の管理対象装置であってもよい。
 図2Cは、図1の実施例の計算機システム2のハードウェア構成例において、管理サーバ201の機能構成例を説明する機能ブロック図である。
 管理サーバ201のプロセッサ211は、主記憶220内の問題解決処理プログラム220の制御により各種の機能を実現する。便宜的に、問題解決処理プログラム220内に機能に対応するモジュールを定義するが、これらモジュールは物理的に分離されている必要はない。また、これらモジュールは、独立したプログラムまたはサブルーチンに対応する必要はない。問題解決処理プログラム220は、対策手順案生成モジュール2201を有する。対策手順案生成モジュール2201は、候補取得モジュール2202、フィルタリングモジュール2203を含む。問題解決処理プログラム220は、さらに、対策手順案評価モジュール2204、対策手順案優先順位付モジュール2205、対策手順案提示モジュール2206、選択モジュール2207、対策手順案実行モジュール2208を備える。このうちのいずれかのモジュールが省略されていてもよいし、他のモジュールが追加されてもよい。
 問題解決処理プログラム220による処理例の全体は図9で後述される。対策手順案生成モジュール2201が実現する機能は、図9の処理S903に相当し、詳細は図11で後述する。候補取得モジュール2202が実現する機能は、図11の処理S1103に相当し、問題解決のための操作対象の候補の一覧を取得する。フィルタリングモジュール2203が実現する機能は、図11の処理S1104に相当する。
 対策手順案評価モジュール2204が実現する機能は、図9の処理S904に相当する。対策手順案優先順位付けモジュール2205が実現する機能は、図9の処理S905に相当し、詳細は図15で後述する。対策手順案提示モジュール2206が実現する機能は、図9の処理S906に相当する。選択モジュール2207が実現する機能は、図9の処理S907に相当する。対策手順案実行モジュールが実現する機能は、図9の処理S908に相当する。
 主記憶212または補助記憶デバイス213は、運用方針233を反映した制約条件2131を保持する。制約条件2131は、一部または全部が運用方針233と同じであってもよいが、より具体化されたルールを運用方針233に基づいて準備してもよい。制約条件2131は、管理サーバ201自身がプログラムに基づいて運用方針233から自動的に作成してもよいし、管理者が別途作成し、管理サーバ201外部から入力してもよい。この処理は図11の処理S1101~S1102に相当する。制約条件の例は、図12~図13で後述する。
 以上の構成は、単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。また、ソフトウェアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。
 図3は、図1の計算機システム2上に構成されるテナントシステムの一例を示すブロック図である。この例では、テナントAはHV1という名称のサーバ装置203と、HV2という名称のサーバ装置203上に存在する仮想マシンVM_A1~A4で構成される。サーバ装置203であるHV1とHV2は複数(図中では例として2つ)のCPU201とHBA265を有する。ストレージ装置204であるST1は複数(図中では例として2つ)のIO処理ユニット251と、複数(図中では例として3つ)のボリュームプール257を有する。
 テナントAを構成する仮想マシンは、VM_A1、VM_A2、VM_A3、VM_A4である。仮想マシンVM_A1はHV1のCPU1という名称のプロセッサ201で処理され、HBA1という名称のHBA265を経由してST1という名称のストレージ装置204に接続されている。
 VM_A1の補助記憶デバイス264はユニット1という名称のIO処理ユニット251で処理され、プール1という名称のボリュームプール257上に存在するVol_A1という名称の論理ボリューム258である。VM_A2と、VM_A3とVM_A4に関しても同様に、図3に示すような接続関係であることを例示している。なお、図3では説明の簡易化のため、その他の構成要素の接続関係を省略して記載している。
 図4は、システム構成情報234に含まれる接続関係の対応テーブル400の一例を示す説明図である。システム構成情報234は、接続関係の対応テーブル400の他に、例えば、CPUの処理スペック情報など、不図示の情報を含んでいてもよい。
 対応関係の対応テーブル400は、テナントシステムとシステムコンポーネントを対応付ける情報であり、予め手動または何らかのプログラムにより用意された情報である。接続関係の対応テーブル400は、テナント名フィールド401と、サーバ名フィールド402と、ホスト名フィールド403と、CPU名フィールド404と、HBA名フィールド405と、ストレージ名フィールド406と、IO処理ユニット名フィールド407と、プール名フィールド408と、論理ボリューム名フィールド409と、を有する。接続関係の対応テーブル400は、これらのフィールドのうち幾つかが存在しなくても良いし、不図示の別のフィールドを含んでいても良いし、複数のテーブルに分けて記憶されていてもよい。
 テナント名フィールド401は、テナント名を格納する領域である。テナント名はテナントを一意に特定する識別情報である。サーバ名フィールド402は、テナントを構成するサーバのサーバ名を格納する領域である。サーバ名はサーバを一意に特定する識別情報である。なお、ここでサーバは物理的なサーバでもよいし、仮想マシンであってもよい。以下の各フィールド403~409は、接続関係にあるコンポーネントを一意に特定する識別子情報である。
 次に、上述した運用方針情報233の一例について、図5~8を用いて説明する。運用方針情報は、サーバ毎や論理ボリューム毎などの細粒度で管理しても良いし、テナントやアプリ毎など粗粒度で管理していても良いが、以下の例ではサーバ毎や論理ボリューム毎に運用方針を管理している場合の例を示す。
 図5は、運用方針情報233の一部をなす、サーバランクテーブル500の一例を示す説明図である。サーバランクテーブル500は、サーバ203とサーバの重要度(図中ではランクと表示している)を対応づける情報であり、予め手動または何らかのプログラムにより用意された情報である。サーバランクテーブル500は、サーバ名フィールド501と、ランクフィールド502と、を有する。サーバランクテーブル500は、これらのフィールド以外の不図示のフィールドを有していてもよい。この例では、VM_A1のランクが金で、VM_A2のランクが銀であるというように、仮想マシン毎のランクを保持している。
 図6は、運用方針情報233の一部をなす、ボリュームランクテーブル600の一例を示す説明図である。ボリュームランクテーブル600は、論理ボリューム258と論理ボリュームの重要度(図中ではランクと表示している)を対応づける情報であり、予め手動または何らかのプログラムにより用意された情報である。ボリュームランクテーブル600は、ボリューム名フィールド601と、ランクフィールド602と、を有する。ボリュームランクテーブル600は、これら以外の不図示のフィールドを有していてもよい。
 図7は、運用方針情報233の一部をなす、サーバランク詳細テーブル700の一例を示す説明図である。サーバランク詳細テーブル700は、サーバ203に付与されるランクの重要度や、各ランクで提供するサービスレベルの目標値を格納する情報であり、予め手動または何らかのプログラムにより用意された情報である。サーバランク詳細テーブル700は、重要度フィールド701と、ランクフィールド702と、応答時間フィールド703と、RTOフィールド704と、を有する。サーバランク詳細テーブル700は、これらのフィールドの内幾つかが存在しなくても良いし、これら以外の不図示のフィールドを有していても良い。
 重要度フィールド701は、ランクの優先度合いを示すフィールドであり、ランクフィールド702は特定のランクを一意に特定する識別子である。図7ではPlatinumランクが最も重要で、その次に金ランクが重要で、さらにその次に銀ランクが重要であることを示している。重要度701が同じである複数のランク702が存在していてもよい。
 応答時間フィールド703は、応答時間の目標値を格納するフィールドである。例えば、PlatinumランクのVMへのリクエストの平均的な応答時間が20ミリ秒以内に収まるようなサービスレベルの提供を目指していることがわかる。管理サーバ201または計算機システムの管理者は、サーバの応答時間を監視するとき、Platinumランクのサーバであれば、平均的な応答時間が20ミリ秒に収まっておれば問題ないと判定し、20ミリ秒を超えるようであれば、サービスレベルに問題が発生していると判断できる。
 RTOフィールド704は、回復目標時間を格納するフィールドである。例えば、Platinumランクの場合RTOが5分となっているため、Platinumランクのサーバで平均的な応答時間が20ミリ秒を超える問題が発生した場合、問題が発生してから5分以内に問題を解決させることを目標としている運用方針であることが分かる。
 図8は、運用方針情報233の一部をなす、ボリュームランク詳細テーブル800の一例を示す説明図である。ボリュームランク詳細テーブル800は、論理ボリューム258に付与されるランクの重要度や、各ランクで提供するサービスレベルの目標値を格納する情報であり、予め手動または何らかのプログラムにより用意された情報である。ボリュームランク詳細テーブル800は、重要度フィールド801と、ランクフィールド802と、応答時間フィールド803と、IOPSフィールド804と、を有する。ボリュームランク詳細テーブル800は、これらのフィールドのうち幾つかが存在しなくてもよいし、これら以外の不図示のフィールドを有していてもよい。
 次に、管理計算機201の問題解決処理について説明する。問題解決処理は、管理計算機201に記憶されている問題解決処理プログラム220をプロセッサ211に実行させることにより実行される処理である。
 図9は管理サーバ201の問題解決処理900の手順例を示すフローチャートである。まず、本フローチャートが事項される際のトリガについて説明する。
 本フローチャートによる問題解決処理は、管理計算機201の入力装置214から入力される管理者からの指示によって実行されてもよい。また、管理サーバ201が、例えば5分おき等のように、定期的に実行されてもよい。また、管理サーバ201の管理対象装置である計算機システムが送信した問題発生の通知を、管理サーバ201がネットワークI/F216を介して受信した際に実行されてもよい。
 図9において、管理サーバ201は、問題の検出処理(ステップS901)、原因箇所の特定処理(ステップS902)、対策手順案の生成処理(ステップS903)、対策手順案の評価処理(ステップS904)、対策手順案の優先順位付処理(ステップS905)、対策手順案の提示処理(ステップS906)、管理者の選択(ステップS907)、対策手順案の実行処理(ステップS908)を実行する。問題解決処理フロー900は、これら以外の不図示の処理ステップを含んでいてもよし、これらの処理ステップの幾つかが存在しなくても良い。
 問題の検出処理(ステップS901)では、管理サーバ201は計算機システムで発生している問題を検出する。例えば、収集したリソース使用率とリソース使用率の閾値を比較し、リソース使用率が閾値を超過している場合に問題が発生したことを検出する。他に、例えば、収集したシステムログのテキストを解析し、「Error」や「警告」などの特定の文字列が含まれる場合に、問題が発生したことを検出するような処理である。
 原因箇所の特定ステップ(ステップS902)では、例えば、テナントAの応答時間が閾値を超過して悪化している場合に、図4に例示する接続関係の対応テーブル400を参照して、テナントAが利用している計算機システムコンポーネントであるVM_A1やVM_A2などの稼働状況を確認していき、原因がST1という名称のストレージ装置204のDisk254の稼働率が高いために、論理ボリュームの応答時間がボトルネックになっていることを検出するなどの処理である。
 なお、対策手順案の生成処理(ステップS903)に原因箇所が入力されるのであれば、ステップS901とステップS902は、例えば管理者が手動で原因箇所と特定するなどの代替手段があれば、必ずしも実行されなくても良い。
 対策手順案の生成処理(ステップS903)では、ステップS902で特定した原因箇所の問題を解決する対策手順案を生成する。例えば、Disk254の稼働率を下げるために、VOL_A4という名称の論理ボリュームをボリュームプール3からボリュームプール4へマイグレーションする手順案や、VOL_A4という名称の論理ボリュームをボリュームプール3からボリュームプール5へマイグレーションする手順案や、Disk254の稼働率を下げるために、VOL_A4へのIOの上限を50IOPSに制限するという手順案や、Disk254の稼働率を下げるために、VOL_A4へのIOの上限を50IOPSから30IOPSに制限する、レプリケーション用途の論理ボリュームを新規に構築して負荷読み込み要求の負荷を分散する、等という手順案などを生成する処理である。このとき、運用方針233を参照し、上位ランクのサーバや論理ボリュームへの悪影響が下位ランクよりも小さくなるような処理を施す。対策手順案の生成処理(ステップS903)の詳細は図11で説明する。
 対策手順案の評価処理(ステップS904)では、ステップS903で生成した一つ以上の対策手順案の効果をシミュレートし、評価する処理である。例えば、ランク毎に影響と効果を算出し、複数種類の手順案を同一の基準で評価する。多角的な視点で手順案を評価するために、影響の他に、効果や推定される実行時間、コスト(例えばハードウェアの追加が必要な場合に必要な投資金額など)を評価してもよい。対策手順案の評価処理(ステップS904)では、例えば、対策手順案の生成処理(ステップS903)の内部処理として実行されていても良いし、管理者が手動で算出した値を受信することで代替されるのでも良い。
 対策手順案の優先順位処理(ステップS905)では、ステップS904で評価した評価結果に基づいて、ステップS903で生成した対策手順案の足切りや並び替えを行う。例えば、ステップS904で評価した全ての項目において、対策手順案1が対策手順案2よりも下回る場合、対策手順案1は、足切りを行い管理者に提示する候補からは削除する。または、自動実行する候補からは削除する。そして、複数の項目で評価されている場合、一律基準で対策手順案の総合評価結果を算出し、評価結果の良い順に優先順位をつけるといった処理を行う。なお、対策手順案の優先順位付処理(ステップS905)の詳細は図15で説明する。
 対策手順案の提示処理(ステップS906)では、管理サーバ201の出力装置215または操作端末202の出力装置242を介して、ステップS905で算出した順位に従って対策手順案を計算機システムの管理者に提示する処理である。ステップS906は、例えば、ステップS905で算出した対処手順案の総合評価が最も高い対処手順案を自動で実行してよいという事前設定が有るような場合、必ずしも実行されなくても良い。
 管理者の選択処理(ステップS907)では、管理サーバ201の入力装置214または操作端末202の入力装置241を介して、計算機システムの管理者が選択した対策手順案を受信する処理である。ステップS907では、管理者が選択した対策手順案を受信する他に、ステップS905における総合評価の重みづけを変更するような情報を受信しても良い。例えば、金ランクに対する影響がある対策手順案の総合評価値を小さくするために、金ランクへの影響の項目は総合評価に対してマイナスに働くようにパラメータを変更するといった情報である。総合評価の重みづけを変更する情報を受信した場合、ステップS905の処理を再度実行するような処理の分岐があると良い。
 また、ステップS907では、制約条件を変更するような情報を受信しても良い。例えば、銅ランクであってもSLOへの悪影響が60%を越えるような制約条件を除外するといった情報である。制約条件を変更するような情報を受信した場合、ステップS903を再度実行するような処理の分岐があると良い。
 また、ステップS907では、一定期間以上管理者からの情報を受信できなかった場合に、ステップS901から再度実行するような処理の分岐が有ってもよい。例えば、性能問題の場合10分以上たつと自然に問題が解決する場合もあるし、問題が悪化している場合もある。そのような状態の変化に合わせて最適な対処策を提案するための分岐である。
 なお、図9では、ステップS907からステップS901とステップS903とステップS905に戻る分岐を示しているが、これらの分岐のうち幾つかが存在しなくても良いし、不図示の分岐を含んでいてもよい。また、例えば、総合評価値が一番高い対処手順案を自動で実行してよいといった事前設定により、総合評価値が最も高い対策手順案を自動で管理者が選択したと判定してもよい。
 対策手順案の実行処理(ステップS908)では、ステップS907で選択された対策手順案を実行、または実行登録する処理である。例えば、仮想マシンをマイグレーションする対処手順がステップS907で選択された場合に、ホストマシンにマイグレーションする処理の実行登録を行う。対策手順案の実行処理(ステップS908)は、例えば、管理サーバ201が対策手順を実行する機能を有しておらず、管理者が手動で管理対象装置群を操作する場合などは、必ずしも実行されなくても良い。また、ステップS908では、管理者が選択した対策手順案を実行実績として記憶してもよい。ステップS908において実行実績を記憶する場合の処理の詳細を図18で説明する。
 図10は、対策手順案の生成処理(図9のステップS903)の手順例の概要を示す説明図である。管理サーバ201は、運用方針情報233に基づいて制約条件のパターン1001を生成し、制約条件に従って対策手順案を生成する。制約条件のパターン1001は、運用方針情報233に基づいてオペレータが作成して管理サーバ201に入力してもよい。
 制約条件のパターン1001の生成では、影響範囲を区分する。例えば、金・銀・銅のランク毎に影響範囲を区分する。併せて、影響の度合いも区分する。例えば、性能への影響がSLOを満足できる範囲から10%違反する範囲は影響を「小」、SLOを10%から30%違反する場合を影響「中」、SLOを30%よりも大きく違反する場合を影響「大」と区分する。「-」は違反する影響を許容しないことを意味する。
 次に、上位ランクへの影響が下位ランク以下になるような制約でパターン1001を生成する。例えば、金は影響なし、銀は影響小、銅は影響中といったパターンや、金も銀も銅も影響が小となるようなパターンである。例えば、金への影響が小で、銀と銅は影響が無いといったパターンは除外する。
 制約条件に従った対策手順案では、制約条件のパターン1001に従って操作対象の候補をフィルタしたり、操作の上限を設定したりする。例えば、サーバ装置203のネットワークI/F263がボトルネックとなっている問題に対する対策としてサーバ装置203上で稼働する仮想マシンに対してIOの上限を設定する場合に、操作対象の候補1002として問題の発生しているサーバ装置203で稼働している仮想マシンの一覧を取得する。
 図10では、金ランクであるVM_1とVM_2とVM_3と、銀ランクであるVM_4とVM_5とVM_6と、銅ランクであるVM_7とVM_8とVM_9が稼働していることを想定している。金と銀への影響がなく、銅への影響が中である制約条件を考慮してフィルタリングする場合、金と銀ランクである仮想マシンは操作対象の候補から除外し、銅ランクであるVM_7とVM_8とVM_9にIOの上限を設定する。また、銅ランクへの影響の制約が中であるため、SLOで規定されている値から30%低い値にIOの上限を設定する。このように、生成した一つ以上の制約条件のパターン1001で捜査対象の候補1002を特定し、対策手順案を生成していくのが対策手順案の生成処理(ステップS903)である。
 図11は、図10に例示した対策手順案の生成処理(ステップS903)の手順例を示すフローチャートである。図11において、管理サーバ201は、影響の区分処理(ステップS1101)、制約パターンの生成処理(ステップS1102)、操作対象の候補を取得する処理(ステップS1103)、操作対象の候補をフィルタする処理(ステップS1104)、操作の上限を設定する処理(ステップS1105)、対策手順案の生成処理(S1106)を実行する。策手順案の生成処理フロー1100は、これら以外の不図示の処理ステップを含んでいても良いし、幾つかの処理の順番が異なっていても良い。
 影響の区分処理(ステップS1101)では、管理サーバ201は運用方針233に基づいて影響範囲を区分する。例えば、金・銀・銅のランク毎に影響範囲を区分する。併せて、影響の度合いも区分する。例えば、性能への影響が無い区分を「S1」、性能への影響がSLOを満足できる範囲から10%違反する範囲を「S2」、SLOを10%から20%違反する範囲を「S3」、SLOを20%よりも大きく違反するが利用可能である範囲を「S4」、利用不可能となる範囲を「S5」と区分する。また、影響の小さい順に評価値を高く評価するように定義しておく。影響度合いを区分した例を図12に示す。
 図12は、図11の影響の区分処理(S1101)で生成される、影響度合いの区分テーブル1200の例を示す説明図である。影響度合いの区分テーブル1200Aは、区分フィールド1201と、サービス品質フィールド1202と、評価値フィールド1203と、を有する。区分フィールド1201は、区分された性能を一意に特定する。サービス品質フィールド1202は、区分フィールド1201における性能の範囲を示している。評価値フィールド1203は、対策手順案の効果や影響が区分フィールド1201に対応する場合に、対策手順案に与える評価値を格納している。影響度合いの区分テーブル1200Aは、これらのフィールドの内幾つかが存在しなくても良いし、不図示のフィールドを有していてもよい。影響度合いの区分テーブル1200は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。
 影響度合いの区分テーブル1200Bは、テーブルの他の例を示す。サービス品質フィールド1202は、SLOが定義されていない場合など、SLOと関係なく定めてもよい。例えばストレージ装置のIO処理ユニットの使用率などのように、リソース使用率に対する影響度合いを区分する場合は、リソース使用率の閾値に基づいて区分されてもよい。また、区分の数や区分毎の範囲は、管理者が手動で設定していても良いし、管理サーバ201が、何らかの処理によって区分の数と範囲を算出して生成されてもよい。
 図11に戻り説明する。制約パターンの生成処理(ステップS1102)では、管理サーバ201は上位ランクへの影響が下位ランクの影響以下になるような制約条件のパターンを生成する。例えば、影響が図12のように区分されている場合に、金は影響のないS1、銀は影響が小さいS2、銅はやや影響があるS3といったパターンや、金も銀も銅も影響が小さいS2となるようなパターンである。例えば、金への影響がS3で、銀と銅は影響が無いといったパターンは除外する。生成するパターンの例を図13に示す。
 図13は、図11の制約パターンの生成処理(S1102)で生成される、制約条件のパターンテーブル1300の一例を示す説明図である。この例では、制約条件のパターンテーブル1300は、金フィールド1301と、銀フィールド1302と、銅フィールド1303と、を有する。これらのフィールドは、運用方針233で定義されている、ランクに基づいて生成されれば良い。図13では、影響範囲が下位ランク(銅ランク側)に寄っていることを視認しやすいように、影響がないことを示すS1を薄い文字で示している。 なお、ステップS1101とステップS1102は、事前に実行された結果を利用してもよい。運用方針は頻繁に変更されるものではないため、例えば、最初に運用方針が定義されたタイミングや運用方針に変更が加わったタイミングでステップS1101とステップS1102を実行しておき、生成された影響度合いの区分テーブル1200と制約条件のパターンテーブル1300を保持しておくのでもよい。
 制約条件のパターンテーブル1300は、計算機システムやテナントのような大きな粒度で作成してもよいし、図5~8に示すように、それらの部品となる仮想計算機やストレージの粒度で作成してもよい。制約条件のパターンテーブル1300は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。
 図11に戻り説明する。操作対象の候補を取得する処理(ステップS1103)では、管理サーバ201は操作対象の候補の一覧を取得し、併せて、操作対象のランク情報も取得する。操作対象の候補の一覧を取得するためには、例えば図4の接続関係の対応テーブルを利用する。サーバ装置203のネットワークI/F263がボトルネックとなっている問題に対する対策として、サーバ装置203上で稼働する仮想マシンに対してIOの上限を設定する場合を例に説明する。この場合は、図4の接続関係の対応テーブル400の、ホストマシン名403が問題の発生したサーバ装置名である行のサーバ名402を全て取得する。次に、運用方針233からサーバのランク情報を取得する。例えば、図4における、HV1というホストマシンで問題が発生している場合は、VM_A1とVM_A1を操作対象の候補として取得し、次に、図5のサーバランクテーブル500から、VM_A1が金ランクで、VM_A2が銀ランクであることを取得する。
 操作対象の候補をフィルタする処理(ステップS1104)では、制約条件のパターンに従って操作対象の候補をフィルタする処理である。例えば、図13に示す制約条件のパターンテーブル1300の一行目に示す制約条件のパターンに基づいてフィルタする場合、金ランクと銀ランクには影響を与えないことになっているため、金ランクと銀ランクは操作対象から除外する。例えば、図13に示す制約条件のパターンテーブル1300の二行目に示す制約条件のパターンに基づいてフィルタする場合、金ランクには影響がなく、銀ランクはS2の、銅ランクにはS3の影響があるため、金ランクは操作対象から除外する。
 操作の上限を設定する処理(ステップS1105)では、制約条件に基づいて操作の上限を設定する。例えば、仮想マシンのIOの上限を設定する対策手順案を、図13に示す制約条件のパターンテーブル1300の2行目に基づいて上限を設定する場合、銀ランクへの影響はS2であるため、銀ランクの仮想マシンに対してはSLOから最大で10%低い値にIOの上限を設定し、銅ランクへの影響はS3であるため、銅ランクの仮想マシンに対してはSLOから最大で20%低い値にIOの上限を設定する。
 例えば、図13に示す制約条件のパターンテーブル1300の2行目の制約条件でホストマシンのボトルネックが解消されるまで仮想マシンを外部のホストマシンにマイグレーションさせていくような対処手順案を生成する場合、例えば、マイグレーション対象に選ばれる頻度が金:銀:銅が0:1:2となるような制約条件を与える。具体的には、三回に一度は、銀ランクと銅ランクの両方がマイグレーション対象の候補になり、三回に二度は、銅ランクのみがマイグレーション対象の候補となるように、マイグレーションの探索を行えば実現できる。
 対策手順案の生成処理(ステップS1106)では、ステップS1104で生成した操作対象の候補の一覧と、ステップS1105で生成した上限に従って、対策手順案を生成する処理である。なお、対策手順案自体は、公知の技術を用いて生成されればよい。
 ステップS1104とステップS1105とステップS1106は、ステップS1102で生成されたパターンの全てのパターンで実行を繰り返してもよいし、ステップS1102で生成されたパターンのうちの一つ以上の幾つかのパターンだけで実行されてもよい。
 図14は、図9の対策手順案の評価処理(S904)で生成される、対策手順案の評価結果テーブル1400の一例を示す説明図である。対策手順案の評価結果テーブル1400は、対策手順案IDフィールド1401と、影響フィールド1402と、効果フィールド1403と、実行実績フィールド1404と、コストフィールド1405と、を有する。対策手受案の評価結果テーブル1400は、これらのフィールドの内幾つかが存在しなくても良いし、これらのフィールド以外の不図示のフィールドを有していてもよい。
 対策手順案IDフィールド1401は、対策手順案を一意に特定する識別子が格納されている。影響フィールド1402は、シミュレートされた対策手順案の影響の評価結果が格納されている。影響フィールド1402は図14に例示する様にランク毎に細分化されて評価されていてもよいし、細分化されていなくても良い。効果フィールド1403は、シミュレートされた対策手順案の効果の評価結果が格納されている。効果フィールド1403は、図14に例示するようにランク毎に細分化されて評価されていてもよいし、細分化されていなくてもよい。実行実績フィールド1404は、対策手順案の実行実績の評価値を格納する。コストフィールド1405は、例えば、ハードウェアを追加するために、ハードウェアを購入する金額であったり、スケールアウトによる対処を行うために新規で構築する仮想マシンインスタンスに必要な契約金額であったり、対策手順案を実行するために必要な金額の評価値を格納する。図14においては、どの項目の評価値も値が大きい方が優れていることを示している。
 評価結果テーブル1400は、計算機システムやテナントのような大きな粒度で作成してもよいし、図5~8に示すように、それらの部品となる仮想計算機やストレージの粒度で作成してもよい。対策手順案の評価結果テーブル1400は、主記憶212に格納しておいてもよいし、例えば運用方針情報233の一部として、補助記憶デバイス213に格納しておいてもよい。 図15は、対策手順案の優先順位付処理(ステップS905)の詳細を示すフローチャートである。図15において、管理サーバ201は、足切り処理(ステップS1501)、総合評価値の算出処理(ステップS1502)、並び替え処理(ステップS1503)を実行する。対策手順案の優先順位付処理フロー1500は、これら以外の不図示の処理ステップを含んでいてもよいし、幾つかのステップが存在しなくても良い。対策手順案の優先順位付処理フロー1500は、これらのステップの順番が入れ替わっていてもよい。
 足切り処理(ステップS1501)は、特定の対策手順案のすべての評価値が他の対策手順案の評価値と他の対策手順案の評価値をすべての項目で比較し、すべての項目で小さい場合、または、一部の評価値が同じでその他の評価値が小さい場合、つまり、どこかの項目で優れている評価値が存在しない場合、足切りを行う処理である。
 例えば、図14において、対策手順案IDが2の対策手順案と、対策手順案IDが4の対策手順案を比較すると、対策手順案4の金ランクへの影響フィールド1402の値は、対策手順案IDが2の対策手順案よりも小さく、その他の項目の評価値が同じである。そのため、対策手順案IDが4の対策手順案は足切りされる。また、対策手順案IDが3の対策手順案は、対策手順案IDが2の対策手順案と比較し、すべての評価値において評価値が小さいため、対策手順案IDが3の対策手順案は足切りされる。一方、対策手順案IDが1の対策手順案を対策手順案IDが2の対策手順案と比較すると、影響フィールド1402の銀の項目は対策手順案IDが1の対策手順案が優れており、効果フィールド1403の金の項目は対策手順案IDが2の対策手順案が優れている。このように、どこかの項目で優れた評価値を持つ対策手順案は足切りされない。足切りの概要を図16に例示する。
 図16は、対策手順案の評価結果が図14に例示するとおりであった場合の足切り処理の概要を例示する説明図である。解説は前述の通りである。
 総合評価値の算出処理(ステップS1502)は、対策手順案の総合評価値を算出する処理である。図14に例示する対策手順案の評価結果では、影響と、効果と、実行実績と、コストの観点で対策手順案の評価を実施している。
 図17は、図15の総合評価値の算出処理(S1502)で用いる、総合評価値の計算式の一例である。これらの全ての評価値を考慮した優先順位付を実行するために、例えば、図17に例示する式のように、それぞれの評価値に定数(図17中のAと、Bと、Cと、D)を乗算した値の総和を算出して求めるなどの手段により、総合評価値を算出する。なお、それぞれの評価値に乗算する定数は、管理者が任意に設定した値でもよいし、管理サーバ201が算出した任意の値でもよい。
 並び替え処理(ステップS1503)は、ステップS1502で算出した総合評価の高い順に並びかえる処理である。この処理により、例えば図14の対策手順を、図17の数式に基づいて評価し、並び替え処理を行う。
図9に戻り説明を続ける。対策手順案の優先順位付処理(S905)により、図14の対策手順を、評価得点順に並び替えた一覧が得られる。図9の例では、対策手順案の提示処理(S906)により結果を提示する。管理者の選択処理(S907)では対策手順案から管理者が所望の案を選択し、対策手順案の実行処理(S908)で、選択された対策手順を実行する。なお、対策手順案の提示処理(S906)以降は省略し、対策手順案をデータとして保持するまでで処理を一度終えてもよい。
 実施例1は、対策手順案の優先順位付処理(S905)により優先順位をつけられた候補から、管理者が候補を選択することができるシステムである。ただし、候補から選択する作業には一定のスキルが要求されるため、システム上のサポートがされることが望ましい。実施例2では、管理者が候補を選択するうえで、妥当性の高い候補を選択することを支援できる例を説明する。
 実施例2は、実施例1の構成を基本とし、以下の構成を追加すればよい。
 図18は、管理サーバ201が実行する対策手順案の実行実績を記憶する場合の、対策手順案の実行処理(ステップS908)の手順例を示すフローチャートであり、ここでは学習処理フロー1800とよぶ。なお、実施例1では、対策手順案の実行処理(ステップS908)は単に選択された手順を実行し、実行実績をカウントするのみであったが、実施例2においては、管理サーバ201は管理者が選択した対処手順案の評価のパターン毎に実行実績の評価を行う。従って、異なる種類の対策手順案であっても、評価のパターンが同じであれば、同じパターンとして実行実績に反映される。本実施例においては、実行実績の評価値を増加させる処理を記憶処理、または記憶すると記載し、実行実績の評価値を減少させる処理を忘却処理、または忘却すると記載する。
 対策手順案の評価のパターンは、管理者やユーザが任意に定義することができる。例えば、「金への影響が5、銀への影響が4、銀への影響が1」、あるいは、「金への影響が4、銀への影響が3、銀への影響が2」のようにランクごとに数値を示すことができる。また、「金銀銅全てのランクに対して2以下の影響がない」「金銀銅全てのランクに対して3以上の効果のみである」「金銀銅全てのランクに対して2以下の影響がなく、かつ、金銀銅全てのランクに対して3以上の効果のみである」のように条件を設定してもよい。
 図18において、管理サーバ201は、ロール取得処理(ステップS1801)と、変数取得処理(ステップS1802)、選択されたパターンの記憶処理(ステップS1803)、選択されなかったパターンの忘却処理(ステップS1804)、実行登録処理(ステップS1805)を実行する。
 ロール取得処理(ステップS1801)では、管理サーバは対策手順案を選択した管理者のロール(役割)を取得する。例えば、管理者がシステム管理スキルの高い専門者ロールであるだとか、スキルの低い一般ロールであるといった情報を取得する。
 変数取得処理(ステップS1802)では、変数テーブル1900からステップS1801で取得したロールに該当する行の記憶変数1902と忘却変数1903を取得する。
 図19は、変数テーブル1900の一例を示す説明図である。変数テーブル1900は、ステップS1803とステップS1804で実行される実行実績の学習処理で利用される変数を保持しており、予め手動または何らかのプログラムにより用意された情報である。変数テーブル1900は、ロールフィールド1901と、記憶変数1902と、忘却変数1903を有する。変数テーブル1900は、これらのフィールドの幾つかが存在しなくても良いし、その他の不図示のフィールドを有していても良い。ロールフィールド1901は、管理者のロールを一意に特定する識別子である。
 図18に戻り、選択されたパターンの記憶処理(ステップS1803)では、管理サーバは選択された対策手順案の評価のパターンの記憶処理を行う。例えば、既存の実行実績の値に一定値を加算することで実現できる。例えば、管理者ロールにより選択された対策手順案のパターンを記憶する場合、ステップS1802に於いて変数テーブル1900の記憶変数フィールド1902から5という値を取得し、管理者が選択した対策手順案が該当するパターンの実行実績値に対して5の値を加算する。該当するパターンとしては1つに限る必要はなく、複数のパターンが該当してもよい。
 選択されなかったパターンの忘却処理(ステップS1804)では、管理サーバは選択されなかった対策手順案の評価のパターンの忘却処理を行う。例えば、既存の実行実績の評価値に対して、0から1未満の数値を乗算することで実現できる。例えば、管理者ロールに選択されなかった対策手順案の評価のパターンを忘却する場合、ステップS1802において変数テーブル1900の忘却変数フィールド1903から0.6という値を取得し、管理者が選択しなかったすべてのパターンの実行実績の値に対して0.6の値を乗算する。
 同様に、一般ロールにより選択された対策手順案の評価のパターンについては、一般ロールに対応する記憶変数1902と忘却変数1903を用いて同様の処理を行う。以上の記憶処理(S1803)と忘却処理(S1804)により、経験的に妥当と思われる対策手順案の評価パターンに対する重み付けを行うことができる。
 実行登録処理(S1805)は、管理者が選択した対策手順案の実行登録を行う処理である。
 図20は、パターンテーブル2000の一例を示す説明図である。パターンテーブル2000は、管理者が選択した対策手順案の評価のパターン毎に実行実績を管理しているテーブルであり、管理者が対策手順案を初めて選択したときに生成され管理者が選択したことのあるパターンだけ実行実績を保持していればよい。または、管理サーバが生成したことのある対策手順案の全ての評価結果のパターンにおいて実行実績を保持していてもよい。
 パターンテーブル2000は、パターンIDフィールド2001と、影響フィールド2002と、効果フィールド2003と、コストフィールド2004と、実行実績フィールド2005と、を有する。ランクごとに数値を示すパターンの例では、パターンテーブル2000は、基本的に対策手順案の評価結果テーブル1400と同等のフィールドを有しておればよいが、これらのフィールドのうち幾つかが存在しなくてもよいし、例えば、問題の発生状況を評価した値を格納する評価フィールドなどのように、不図示のフィールドを有していても良い。
 なお、管理サーバ201は、対策手順案の評価処理(ステップS904)において、対策手順案の実行実績の評価値を計算する際に、テーブル1400とテーブル2000を比較する。一例としては、対策手順案の影響フィールド1402と影響フィールド2002が一致し、効果フィールド1403と効果フィールド2003が一致し、コストフィールド1405、コストフィールド2004が一致する実行実績2005の値を、実行実績1404の値として算出する。あるいは、対策手順案の影響フィールド1402と影響フィールド2002が一致し、効果フィールド1403と効果フィールド2003が一致する実行実績2005の値を、実行実績1404の値として算出してもよい。あるいは、対策手順案の影響フィールド1402と影響フィールド2002が一致する実行実績2005の値を、実行実績1404の値として算出してもよい。
 対策手順案の評価結果と一致するパターンの実行実績が存在しない場合、実行実績1404の評価値は、例えば0など任意の値が入力されればよい。
 図21は、管理者ロールの利用者が、パターンIDが1に該当する対策手順案を選択した場合において、記憶処理と忘却処理を実行した際の実行実績2005の値の変化の様子を例示している。選択されたパターンの重みに所定値が加算され、選択されないパターンが同一割合で重み付が減少する。
 学習処理フロー1800では、記憶処理(ステップS1803)と忘却処理(ステップS1804)を両方実行しているが、両者の内の一方だけが実行されて、他方が実行されなくても良い。また、記憶処理(ステップS1803)と忘却処理(ステップS1804)は逆の順番で実行されてもよい。また、管理者のロールを考慮しない場合は、必ずしもステップS1801とS1802は実行されず、つねに一定値の記憶変数1902と忘却変数1903が学習処理で利用され続けていても良い。 変数テーブル1900やパターンテーブル2000は、主記憶212に格納しておいてもよいし、補助記憶デバイス213に格納しておいてもよい。
 実施例2の対策手順案の実行処理(S908)では、以上のように対策手順案の評価のパターン2000は過去の候補選択の経緯を学習し、重み付けがされている。
 従って、実施例2ではこの情報を利用し、例えば、図9の対策手順案の提示処理(S906)において、実行実績値が所定以上(例えば5以上)のパターンと同じパターンを持つ候補について、強調表示を行うことができる。これにより、管理者は過去の対策手順案候補の選択の傾向を知ることができる。
 別の例としては、実施例1における図14の対策手順案の評価結果テーブル1400の実行実績1404の値に上記重みづけを反映させ、図15の総合評価値の算出処理(S1502)において図17の数式に基づいて評価し、並び替え処理を行う。この場合、過去の選択パターンを反映した優先順位付が得られることになる。実行実績1404の値に重みづけを反映する手法としては、例えば、対策手順案の実行実績1404に、同じパターンを持つパターンID2001の実行実績2005を演算(加算あるいは積算等)して重みづけを反映した実行実績1404とする方法がある。
 また、実施例2では、図21の対策手順案の評価のパターンの実行実績2005の値のパターンごとの差が大きくなるため、一定以下の値の評価パターンと同じパターンを持つ対策手順案は足切りとしてもよい。
 なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
 また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD、Blue Ray Disk、その他の光ディスク等の記録媒体に格納することができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
 計算機システムの運用管理に利用することができる。
 201:管理サーバ、211:プロセッサ、212:主記憶、213:補助記憶デバイス、220:問題解決処理、2131:制約条件

Claims (15)

  1.  プロセッサと、入力装置と、出力装置と、記憶装置を有し、複数の計算機システムを管理する管理計算機であって、
     前記複数の計算機システムの部品の状態を変更する対策手順案を生成する、対策手順案生成モジュールを備え、
     前記対策手順案生成モジュールは、
     前記複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成する、
     管理計算機。
  2.  前記対策手順案生成モジュールは、
     前記上位ランクの計算機システムの部品の状態を変更し、かつ、前記下位ランクの計算機システムの部品の状態を変更しない対策手順案を、前記生成する対策手順案から除外するフィルタリングモジュールを有する、
     請求項1記載の管理計算機。
  3.  前記制約条件は、前記計算機システムまたはその部品が満たすべき品質を品質区分として定義し、前記計算機システムまたはその部品ごとに前記品質区分を対応づけた情報を含み、
     前記対策手順案生成モジュールは、
     前記品質区分を満足するように、前記複数の対策手順案を生成する、
     請求項1記載の管理計算機。
  4.  前記対策手順案生成モジュールで生成した、一つ以上の前記対策手順案の効果をシミュレートし評価する、対策手順案評価モジュールと、
     前記対策手順案評価モジュールの評価結果に基づいて、前記一つ以上の対策手順案の優先順位付を行う、対策手順案優先順位付けモジュールと、
     をさらに備える、
     請求項1記載の管理計算機。
  5.  前記対策手順案評価モジュールは、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記評価結果情報は、少なくとも第1の対策手順案と第2の対策手順案の評価結果情報を含み、
     前記対策手順案優先順位付けモジュールは、
     前記評価結果情報において、(1)前記第1の対策手順案の全ての評価値が、前記第2の対策手順案よりも下回る場合、あるいは、(2)前記第1の対策手順案の一部の評価値が、前記第2の対策手順案よりも下回り、かつ、前記第1の対策手順案の他の評価値が、第2の対策手順案と同じ値の場合、前記第1の対策手順案を対策手順案から除外する、
     請求項4記載の管理計算機。
  6.  前記対策手順案評価モジュールは、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果、影響、実行実績、及びコストの少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記対策手順案優先順位付けモジュールは、
     前記評価値に基づいて所定の演算を行うことにより総合評価値を得、前記総合評価値に基づいて、前記一つ以上の対策手順案を並び替える、
     請求項4記載の管理計算機。
  7.  対策手順案提示モジュールと、選択モジュールと、対策手順案実行モジュールをさらに備え、
     前記対策手順案評価モジュールは、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記対策手順案提示モジュールは、
     前記評価結果情報を提示し、
     前記選択モジュールは、
     前記提示した評価結果情報に基づいて1または複数の対策手順案を操作者に選択させ、
     前記対策手順案実行モジュールは、
     パターンID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値と、実行実績を対応付けたパターン情報を管理し、
     前記選択モジュールで選択された対策手順案の評価結果情報と所定の関係を有する前記パターン情報の前記実行実績に対して加算および重み付けの少なくとも一つを行う、
     請求項4記載の管理計算機。
  8.  前記対策手順案実行モジュールは、
     前記選択モジュールで選択された対策手順案の評価結果情報と同じパターンを有する前記パターン情報の前記実行実績に対して値を増加させ、選択されなかったパターンの実行実績の値を減少させて前記実行実績を管理する、
     請求項7に記載の管理計算機。
  9.  プロセッサと、入力装置と、出力装置と、記憶装置を有する管理計算機が、複数の計算機システムを管理する計算機システムの管理方法であって、
     前記管理計算機は、前記複数の計算機システムの部品の状態を変更する対策手順案を生成する際に、
     前記複数の計算機システムまたはその部品のうち、上位ランクの計算機システムまたはその部品への影響が、下位ランクの計算機システムまたはその部品への影響より小さくなるという制約条件に従って、前記対策手順案を生成する、
     計算機システムの管理方法。
  10.  前記管理計算機は、
     前記上位ランクの計算機システムの部品の状態を変更し、かつ、前記下位ランクの計算機システムの部品の状態を変更しない対策手順案を、前記生成する対策手順案から除外するフィルタリング処理を行う、
     請求項9記載の計算機システムの管理方法。
  11.  前記制約条件は、前記計算機システムまたはその部品が満たすべき品質を品質区分として定義し、前記計算機システムまたはその部品ごとに前記品質区分を対応づけた情報を含み、
     前記管理計算機は、
     前記品質区分を満足するように、前記複数の対策手順案を生成する、
     請求項9記載の計算機システムの管理方法。
  12.  前記管理計算機は、
     一つ以上の前記対策手順案の効果をシミュレートして評価する評価処理と、
     前記評価結果に基づいて、前記一つ以上の対策手順案の優先順位付けを行う優先順位付け処理を行う、
     請求項9記載の計算機システムの管理方法。
  13.  前記評価処理では、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記評価結果情報は、少なくとも第1の対策手順案と第2の対策手順案の評価結果情報を含み、
     前記優先順位付け処理では、
     前記評価結果情報において、(1)前記第1の対策手順案の全ての評価値が、前記第2の対策手順案よりも下回る場合、あるいは、(2)前記第1の対策手順案の一部の評価値が、前記第2の対策手順案よりも下回り、かつ、前記第1の対策手順案の他の評価値が、前記第2の対策手順案と同じ値の場合、前記第1の対策手順案を対策手順案から除外する、
     請求項12記載の計算機システムの管理方法。
  14.  前記評価処理では、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果、影響、実行実績、及びコストの少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記優先順位付け処理では、
     前記評価値に基づいて所定の演算を行うことにより総合評価値を得、前記総合評価値に基づいて、前記一つ以上の対策手順案を並び替える、
     請求項12記載の計算機システムの管理方法。
  15.  前記管理計算機は、
     対策手順案提示処理と、選択処理と、対策手順案実行処理をさらに実行し、
     前記評価処理では、
     前記一つ以上の対策手順案を特定する対策手順案IDと、該対策手順案毎ID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値を対応付けた対策手順案の評価結果情報を生成し、
     前記対策手順案提示処理では、
     前記評価結果情報を提示し、
     前記選択処理では、
     前記提示した評価結果情報に基づいて1または複数の対策手順案を操作者に選択させ、
     前記対策手順案実行処理では、
     パターンID毎に、前記複数の計算機システムまたはその部品の上位ランク及び下位ランクの其々に対する効果および影響の少なくとも一つの評価値と、実行実績を対応付けたパターン情報を管理し、
     前記選択モジュールで選択された対策手順案の評価結果情報と所定の関係を有する前記パターン情報の前記実行実績に対して値を増加させ、それ以外のパターン情報の前記実行実績に対して値を減少させる、
     請求項12記載の計算機システムの管理方法。
PCT/JP2015/072562 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法 WO2017026017A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/554,123 US20180052729A1 (en) 2015-08-07 2015-08-07 Management computer and computer system management method
PCT/JP2015/072562 WO2017026017A1 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法
JP2017534045A JP6622808B2 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/072562 WO2017026017A1 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法

Publications (1)

Publication Number Publication Date
WO2017026017A1 true WO2017026017A1 (ja) 2017-02-16

Family

ID=57983663

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/072562 WO2017026017A1 (ja) 2015-08-07 2015-08-07 管理計算機および計算機システムの管理方法

Country Status (3)

Country Link
US (1) US20180052729A1 (ja)
JP (1) JP6622808B2 (ja)
WO (1) WO2017026017A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074798A (ja) * 2017-10-12 2019-05-16 株式会社日立製作所 リソース管理装置、リソース管理方法、及びリソース管理プログラム
JP2021140810A (ja) * 2017-04-26 2021-09-16 京セラ株式会社 端末装置、プログラム、電力管理装置、およびサーバ

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755928B1 (en) 2020-04-27 2023-09-12 Wells Fargo Bank, N.A. Computing cluster configuration standardization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009842A (ja) * 2006-06-30 2008-01-17 Hitachi Ltd コンピュータシステムの制御方法及びコンピュータシステム
WO2013171944A1 (ja) * 2012-05-15 2013-11-21 日本電気株式会社 仮想マシン管理システム、仮想マシン管理方法およびプログラム
WO2015040688A1 (ja) * 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826940B2 (ja) * 2004-06-02 2006-09-27 日本電気株式会社 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
US8074103B2 (en) * 2007-10-19 2011-12-06 Oracle International Corporation Data corruption diagnostic engine
US7904753B2 (en) * 2009-01-06 2011-03-08 International Business Machines Corporation Method and system to eliminate disruptions in enterprises
US8732524B2 (en) * 2011-08-03 2014-05-20 Honeywell International Inc. Systems and methods for using a corrective action as diagnostic evidence
DE112012005598T5 (de) * 2012-03-08 2014-10-16 Hewlett-Packard Development Company, L.P. Identifizieren und Einstufen von Lösungen aus mehreren Datenquellen
US9063856B2 (en) * 2012-05-09 2015-06-23 Infosys Limited Method and system for detecting symptoms and determining an optimal remedy pattern for a faulty device
US8990639B1 (en) * 2012-05-31 2015-03-24 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US8977899B1 (en) * 2012-09-14 2015-03-10 CSC Holdings, LLC Assisted device recovery
WO2014073045A1 (ja) * 2012-11-07 2014-05-15 株式会社日立製作所 計算機システム、ストレージ管理計算機及びストレージ管理方法
US9081680B2 (en) * 2013-03-15 2015-07-14 Accenture Global Services Limited System-level issue detection and handling
US20160062857A1 (en) * 2013-04-17 2016-03-03 Nec Corporation Fault recovery routine generating device, fault recovery routine generating method, and recording medium
US9250993B2 (en) * 2013-04-30 2016-02-02 Globalfoundries Inc Automatic generation of actionable recommendations from problem reports
US9183074B2 (en) * 2013-06-21 2015-11-10 Dell Products, Lp Integration process management console with error resolution interface
WO2015016925A1 (en) * 2013-07-31 2015-02-05 Hewlett-Packard Development Company, L.P. Automated remote network target computing device issue resolution
US9448907B2 (en) * 2013-10-27 2016-09-20 Bank Of America Corporation Computer application maturity illustration system with single point of failure analytics and remediation techniques
US20150302336A1 (en) * 2014-04-17 2015-10-22 Bank Of America Corporation Strategic partner governance framework and performance tracking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009842A (ja) * 2006-06-30 2008-01-17 Hitachi Ltd コンピュータシステムの制御方法及びコンピュータシステム
WO2013171944A1 (ja) * 2012-05-15 2013-11-21 日本電気株式会社 仮想マシン管理システム、仮想マシン管理方法およびプログラム
WO2015040688A1 (ja) * 2013-09-18 2015-03-26 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021140810A (ja) * 2017-04-26 2021-09-16 京セラ株式会社 端末装置、プログラム、電力管理装置、およびサーバ
JP7301906B2 (ja) 2017-04-26 2023-07-03 京セラ株式会社 端末装置、プログラム、電力管理装置、およびサーバ
JP2019074798A (ja) * 2017-10-12 2019-05-16 株式会社日立製作所 リソース管理装置、リソース管理方法、及びリソース管理プログラム

Also Published As

Publication number Publication date
US20180052729A1 (en) 2018-02-22
JPWO2017026017A1 (ja) 2018-05-31
JP6622808B2 (ja) 2019-12-18

Similar Documents

Publication Publication Date Title
US9870330B2 (en) Methods and systems for filtering collected QOS data for predicting an expected range for future QOS data
JP6165886B2 (ja) 動的ストレージサービスレベル・モニタリングの管理システムおよび方法
US9411834B2 (en) Method and system for monitoring and analyzing quality of service in a storage system
JP4516306B2 (ja) ストレージネットワークの性能情報を収集する方法
US20150081484A1 (en) Automated cost calculation for virtualized infrastructure
US10564998B1 (en) Load balancing using predictive VM-based analytics
US9146793B2 (en) Management system and management method
US9886451B2 (en) Computer system and method to assist analysis of asynchronous remote replication
US20150199136A1 (en) Method and system for monitoring and analyzing quality of service in a storage system
US10073866B2 (en) Dynamic test case prioritization for relational database systems
US9747156B2 (en) Management system, plan generation method, plan generation program
US10225158B1 (en) Policy based system management
US9773026B1 (en) Calculation of system utilization
US10002025B2 (en) Computer system and load leveling program
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
JP6622808B2 (ja) 管理計算機および計算機システムの管理方法
US11775330B2 (en) Load balancing VM selection and movement
US11599404B2 (en) Correlation-based multi-source problem diagnosis
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
US10042572B1 (en) Optimal data storage configuration
AU2021363719B2 (en) Generating and updating a performance report
JP7135780B2 (ja) ライブマイグレーション調整プログラム及びライブマイグレーション調整方法
WO2006011905A2 (en) Methods and systems for managing an application environment and portions thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15900972

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15554123

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2017534045

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15900972

Country of ref document: EP

Kind code of ref document: A1