WO2011142042A1 - サーバの信頼性可視化方法、計算機システム及び管理サーバ - Google Patents

サーバの信頼性可視化方法、計算機システム及び管理サーバ Download PDF

Info

Publication number
WO2011142042A1
WO2011142042A1 PCT/JP2010/058573 JP2010058573W WO2011142042A1 WO 2011142042 A1 WO2011142042 A1 WO 2011142042A1 JP 2010058573 W JP2010058573 W JP 2010058573W WO 2011142042 A1 WO2011142042 A1 WO 2011142042A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
server
reliability
component
failure
Prior art date
Application number
PCT/JP2010/058573
Other languages
English (en)
French (fr)
Inventor
誠司 阿口
高本 良史
昇 小幡
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2012514673A priority Critical patent/JP5477602B2/ja
Priority to US13/642,825 priority patent/US20130198370A1/en
Priority to PCT/JP2010/058573 priority patent/WO2011142042A1/ja
Publication of WO2011142042A1 publication Critical patent/WO2011142042A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Definitions

  • the present invention relates to a method for visualizing computer reliability by quantifying it.
  • Virtualization has permeated enterprise systems and has begun to be used as a platform to support in-house cloud for server integration.
  • server resource management products that flexibly allocate server resources are attracting attention.
  • Server resource management can flexibly add necessary tasks to appropriate servers or add servers to tasks that lack performance by grasping resource allocation status and availability. For example, a method for evaluating the availability of memory and CPU resources using a star rating function (number of stars) has been commercialized.
  • a star rating function number of stars
  • Patent Document 1 an attempt to take into account not only the free resources of the server to be allocated but also the hardware failure history is disclosed in Patent Document 1, for example.
  • Patent Document 1 when selecting a server to switch from the active system to the standby system, a server having a low system down probability due to hardware factors is taken into consideration by taking into account a hardware failure history acquired in advance. It becomes possible to select.
  • Patent Document 1 when selecting a server to switch from the active system to the standby system, it is possible to select a server having a low system down probability due to a hardware factor by considering a hardware failure history. It becomes possible.
  • the server administrator selects a physical server on which an application is to be executed or when selecting a physical server on which a virtual server is to be executed, not only the reliability of the physical server but also the OS running on the physical server
  • the reliability of software such as a virtualization unit (hypervisor) is also an important factor when selecting a server.
  • a virtualization unit hypervisor
  • Patent Document 1 since the reliability of these software is not considered, there is a problem that the server administrator cannot select an appropriate physical server to which resources are allocated.
  • a typical example of the present invention is as follows. That is, configuration information, failure information, and operation information of hardware and software installed in the physical server are acquired in consideration of life cycle information of the physical server, and a reliability index of the hardware and software is calculated. Further, the reliability of the entire physical server is evaluated based on the hardware and software reliability indicators. According to the present invention, the reliability of the hardware and software installed in the physical server is quantified in consideration of the life cycle information of the physical server, and the reliability of the entire physical server is determined based on the quantified reliability index. By providing the reliability, it is possible to evaluate the reliability of a physical server that is a business allocation destination with higher accuracy.
  • FIG. 1 is a block diagram showing an overall configuration of a computer system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the management server in the embodiment of the present invention.
  • FIG. 3 is a block diagram showing the configuration of the physical server in the embodiment of the present invention.
  • FIG. 4 is an explanatory diagram of the outline in the embodiment of the present invention.
  • FIG. 5 is an explanatory diagram illustrating an example of a server management table according to the embodiment of this invention.
  • FIG. 6 is an explanatory diagram illustrating an example of a virtual server management table according to the embodiment of this invention.
  • FIG. 7 is an explanatory diagram showing an example of a component classification table in the embodiment of the present invention.
  • FIG. 1 is a block diagram showing an overall configuration of a computer system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the management server in the embodiment of the present invention.
  • FIG. 3 is a block diagram showing the configuration of the physical
  • FIG. 8 is an explanatory diagram illustrating an example of a log classification table according to the embodiment of this invention.
  • FIG. 9 is an explanatory diagram showing an example of a life cycle classification table in the embodiment of the present invention.
  • FIG. 10 is an explanatory diagram illustrating an example of an operation history information management table according to the embodiment of this invention.
  • FIG. 11 is an explanatory diagram illustrating an example of a server allocation management table according to the embodiment of this invention.
  • FIG. 12 is an explanatory diagram showing an example of the configuration information evaluation table in the embodiment of the present invention.
  • FIG. 13 is an explanatory diagram illustrating an example of a failure information evaluation table according to the embodiment of this invention.
  • FIG. 14 is an explanatory diagram showing an example of an operation information evaluation table in the embodiment of the present invention.
  • FIG. 15 is an explanatory diagram showing an example of a reliability evaluation weight table in the embodiment of the present invention.
  • FIG. 16 is an explanatory diagram showing an example of a reliability display screen according to the embodiment of the present invention.
  • FIG. 17 is a flowchart illustrating an example of processing performed by the server information acquisition unit according to the embodiment of the present invention.
  • FIG. 18 is a flowchart illustrating an example of processing performed in the life cycle information acquisition unit according to the embodiment of the present invention.
  • FIG. 19 is a flowchart illustrating an example of processing performed by the configuration information acquisition unit according to the embodiment of the present invention.
  • FIG. 20 is a flowchart illustrating an example of processing performed by the operation history information acquisition unit according to the embodiment of the present invention.
  • FIG. 21 is a flowchart illustrating an example of processing performed by the latest failure information acquisition unit according to the embodiment of the present invention.
  • FIG. 22 is a flowchart illustrating an example of processing performed in the reliability evaluation unit according to the embodiment of the present invention.
  • FIG. 23 is a flowchart illustrating an example of processing performed by the physical server reliability calculation unit according to the embodiment of this invention.
  • FIG. 24 is a flowchart illustrating an example of processing performed by the virtual environment reliability calculation unit according to the embodiment of this invention.
  • FIG. 25 is a flowchart showing an example of processing performed in step 2404 of FIG. 24 in the embodiment of the present invention.
  • FIG. 1 shows an overall view of an embodiment of the present invention.
  • the center of control in this embodiment is the management server 101.
  • the management server 101 includes a server information acquisition unit 102, a life cycle information acquisition unit 103, a configuration information acquisition unit 104, an operation history information acquisition unit 105, a latest failure information acquisition unit 106, a reliability evaluation unit 107, and a physical server reliability calculation unit.
  • the table includes an evaluation table 118, an operation information evaluation table 119, and a reliability evaluation weight table 120.
  • the server information acquisition unit 102 may include a life cycle information acquisition unit 103, a configuration information acquisition unit 104, and an operation history information acquisition unit 105.
  • the management target of the management server 101 is a physical server 123, a server virtualization unit 122, a virtual server 121, a disk array device 125, and a virtual server image storage disk 124.
  • the server virtualization unit 122 is configured by, for example, a hypervisor, a VMM (Virtual Machine monitor), or the like, and has a function of operating a plurality of virtual servers 121 on the physical server 123.
  • a plurality of servers can be integrated with the server 123.
  • the disk array device 125 is connected to the physical server 123 via the SAN 310.
  • the disk array device 125 includes a virtual server image storage disk 124 in which a program executed by the virtual server 121 is stored.
  • FIG. 2 shows the configuration of the management server 101 in the present invention.
  • the management server 101 includes a memory 201, a processor 202, an FCA (Fibre Channel Adapter) 203, a NIC (Network Interface Card) 204, a BMC (Baseboard Management Controller) 205, an input device 207, and an output device 208.
  • the processor 202 executes various programs stored in the memory 201.
  • the FCA 203 is connected to the disk array device 209 via the SAN 310.
  • the NIC 204 and the BMC 205 are connected to the network 206.
  • the NIC 204 mainly communicates with various programs on the memory 201, and the BMC 205 is used to detect a failure of the management server and communicate with other servers via the network 206.
  • the NIC 204 and the BMC 205 are connected to the same network 206, but may be connected to different networks.
  • the NIC 204 can be connected to a business network
  • the BMC 205 can be connected to a management network.
  • one FCA 203 and one NIC 204 are provided, but a plurality may be provided.
  • a server information acquisition unit 102 On the memory 201, a server information acquisition unit 102, a life cycle information acquisition unit 103, a configuration information acquisition unit 104, an operation history information acquisition unit 105, a latest failure information acquisition unit 106, a reliability evaluation unit 107, and a physical server reliability calculation Unit 108, virtual environment reliability calculation unit 109, server management table 110, virtual server management table 111 component classification table 112, log classification table 114, life cycle classification table 115, server allocation management table 116, configuration information evaluation table 117, failure An information evaluation table 118, an operation information evaluation table 119, and a reliability evaluation weight table 120 are stored.
  • Each program stored in the memory 201 is executed by the processor 202.
  • the physical server 123 includes a memory 301, a processor 304, a FCA (Fibre Channel Adapter) 305, a NIC (Network Interface Card) 306, a BMC (Baseboard Management Controller) 307, and an input device 320.
  • the processor 304 executes various programs stored in the memory 301.
  • the FCA 305 is connected to the disk array device 125 via the SAN 310.
  • the NIC 306 and the BMC 307 are connected to the network 308.
  • the NIC 306 mainly communicates with various programs on the memory 301, and the BMC 307 detects a failure of the physical server 123 and is used to communicate with the management server 101 and other servers via the network 308. In addition, the BMC 307 controls the power supply of the physical server 123 according to a command from the management server 101. In this embodiment, the NIC 306 and the BMC 307 are connected to the same network 308, but may be connected to different networks. Further, one FCA 305 and one NIC 306 are provided, but a plurality of FCAs 305 and NICs 306 may exist. By operating the server virtualization unit 122 on the memory 301, a plurality of virtual servers 121 can be constructed by dividing or sharing the computer resources of the physical server 123.
  • Each of the virtual servers 121 can operate an OS (Operating System) 302 independently.
  • the server virtualization unit 122 executes by the processor 304, the virtual server 121 can be constructed.
  • the server virtualization unit 122 reads a predetermined virtual server OS image 309 in the virtual server image storage disk 124 set in advance for each virtual server 121, and constructs independent virtual servers 121.
  • a control I / F (Interface) 303 of the server virtualization unit 122 is a virtual network interface of the server virtualization unit 122.
  • the server virtualization unit 122 is externally (managed server 101) via the NIC 306 and the network 308. It is for control.
  • the server virtualization unit 122 can receive a command from the management server 101 via the control I / F 303 to create or delete the virtual server 121.
  • the input device 320 is used for an administrator to manually set life cycle information.
  • FIG. 4 shows an outline of the operation of the present invention.
  • the management server 101 is connected to a management target physical server 123 via a network, and the server information acquisition unit 102 acquires configuration information, failure information, operation information, life cycle information, and the like of each component of the physical server 123. It can be transferred to the physical server reliability calculation unit 108.
  • the server information acquisition unit 102 acquires each information via the life cycle information acquisition unit 103, the configuration information acquisition unit 104, and the operation history information acquisition unit 105, as will be described later.
  • the configuration information acquired from the physical server 123 by the physical server reliability calculation unit 108 includes, for example, information related to hardware and software from the server virtualization unit 122 and the OS 302 of each virtual server 121.
  • the failure information acquired from the physical server 123 by the physical server reliability calculation unit 108 includes, for example, a failure detected by the BMC 307, an error detected by the server virtualization unit 122 and the OS 302 of each virtual server 121, and the like.
  • the log information that the physical server reliability calculation unit 108 acquires from the physical server 123 includes, for example, log information of the server virtualization unit 122, log information of the OS 302 of each virtual server 121, log information of the BMC 307, and server virtualization unit In an environment where 122 does not exist, it is configured with OS log information on the physical server 123.
  • the log information of the physical server 123 is a generic name for the server virtualization unit 122, the log information of the OS 302 of the virtual server 121, the BMC 307, and the log information of the OS.
  • the management server 101 handles the accumulated log information acquired from the physical server 123 as operation history information.
  • the physical server reliability calculation unit 108 calculates the reliability of the configuration information of the physical server 123 402. Then, the reliability calculation 403 of the operation history information and the reliability calculation 404 of the failure information are performed, and the reliability calculation result of the physical server 123 is displayed (406) based on these information.
  • an OS factor and a hardware factor are separated as a factor of a system failure (405).
  • the management server 101 transmits the information acquisition unit 330 as an agent for acquiring the boot OS and configuration information and the like. After the information acquisition unit 330 is operated on the physical server 123 that is “”, the server information acquisition unit 102 may acquire the information.
  • the information acquisition unit 330 may reside on the physical server 123 or the server virtualization unit 122.
  • FIG. 5 shows details of the server management table 110.
  • the server management table stores detailed information regarding the physical server 123.
  • the physical server identifier 501 stores an identifier for specifying the physical server 123.
  • the startup disk 502 indicates the location of the startup disk of the physical server 123.
  • the server identifier 503 indicates a unique identifier that the FCA connected to the disk array device has.
  • the server mode 504 indicates the operating state of the physical server 123 and stores information for determining whether the server virtualization unit 122 is operating. For example, the physical server 123 whose server mode 504 is “server virtualization unit” indicates that one or more virtual servers 121 can be executed. Further, the physical server 123 whose server mode 504 is “basic” indicates that one OS can be executed.
  • the processor identifier and memory identifier 505 stores an identifier for specifying the processor 304 and the memory 301.
  • the processor and memory 506 stores frequency information of the processor 304 of the physical server 123, and performance information such as the number of cores and memory capacity.
  • the network identifier 507 stores information for identifying the NIC 306 that the physical server 123 has.
  • the disk 508 stores an identifier of a disk that the physical server 123 has (or can access).
  • the OS identifier 510 stores an identifier for identifying the OS.
  • the virtualization unit identifier 511 stores an identifier that identifies the server virtualization unit 122 when the server virtualization unit 122 is operating on the physical server 123.
  • the virtualization unit identifier 511 is associated with a virtual server management table 111 described later.
  • the server status 512 indicates the status and role of the physical server 123, and in the example shown in the figure, information indicating whether it is the active system or the standby system is stored.
  • the server state 512 may be set by an administrator who uses the management server 101 or can be updated when the management server 101 performs system switching.
  • the life cycle 513 stores information for specifying life cycle information of the physical server 123.
  • Each information of the server management table 110 may reflect values set by the administrator of the management server 101 from the input device 207 in addition to reflecting the configuration information and life cycle information acquired by the server information acquisition unit 102. Good.
  • FIG. 6 shows details of the virtual server management table 111.
  • the virtual server management table 111 stores detailed information regarding the server virtualization unit 122 and the virtual server 121.
  • the virtualization unit identifier 601 stores information for identifying a plurality of server virtualization units 122 managed by the management server 101.
  • the control I / F 602 stores a network address serving as access information for controlling the server virtualization unit 122 from the outside.
  • the virtual server identifier 603 stores a unique identifier for each virtual server 121 assigned by each server virtualization unit 122.
  • the virtual server OS image 604 stores the OS image used by the virtual server 121 and the location of the OS image.
  • a processor and memory allocation amount 605 indicates a computer resource amount allocated to the virtual server 121.
  • the state 606 stores whether the virtual server 121 is currently operating.
  • the processor and memory actual usage 607 stores the capacity of the processor 304 and the memory 301 that are actually used by the virtual server 121.
  • the actual usage amount 607 can be acquired by, for example, having means (not shown) for periodically collecting performance information from the server virtualization unit 122, the OS running on the virtual server 121, and the like. As the actual usage amount 607, a method of storing an average usage amount per unit time can be considered.
  • the network assignment 608 stores assignment information between the identifier of the virtual NIC assigned to the virtual server 121 and the NIC 306 (physical NIC) of the physical server 123 corresponding to the virtual NIC.
  • the disk 609 stores the location of the OS image file assigned to the virtual server and the image file for data storage.
  • FIG. 7 shows details of the component classification table 112.
  • the component classification table 112 stores information for the operation history information acquisition unit 105 to classify each component of the physical server 123.
  • the component 701 stores the names of components that make up the physical server 123.
  • components constituting the physical server 123 are assumed to be a processor, memory, NIC, FCA, BMC, disk array, server virtualization unit, virtual server, and OS.
  • FIG. 8 shows details of the log classification table 113.
  • the log classification table 113 stores an identifier for classifying the log information acquired from the physical server 123 or the server virtualization unit 122 by the operation history information acquisition unit 105.
  • the log classification 801 stores identifiers when log contents acquired from the physical server 123 and the like are classified into a “configuration information” log, a “failure information” log, and an “operation information” log.
  • the log content 802 stores the detailed content of the classified log.
  • the log classified into the configuration information shows an example in which the log contents are detailed into “addition” and “deletion” of components.
  • the log classified as “failure information” shows an example in which the log contents are detailed as “temporary” and “fatal”.
  • the “temporary” log indicates a failure in which the physical server 123 does not stop, and the “fatal” log indicates a failure in which the physical server 123 has stopped.
  • the log classified as “operation information” shows an example in which the physical server 123 is detailed to “start” and “stop”.
  • FIG. 9 shows details of the life cycle classification table 114.
  • the life cycle classification table 114 stores information for classifying the life cycle information phases of the physical server 123 by the life cycle information acquisition unit 103 as described above.
  • the life cycle information is information indicating the operation state of the physical server 123.
  • the life cycle 901 stores information for identifying life cycle information of the physical server 123.
  • classification is made into discard, construction, operation, and optimization. “Discard” means a period until the life cycle of the physical server 123 completes and is reused next time.
  • the life cycle information When the life cycle information is “discard”, it indicates a state where the physical server 123 is not providing a business, in other words, a state where it is not used.
  • Construction means a period during which the physical server 123 or the virtual server 121 is actually constructed. The construction of this embodiment represents a period including a plan and a design stage when using a physical server.
  • construction this indicates a state where the physical server 123 is preparing to provide a business.
  • the server virtualization unit 122 assigns a virtual MAC to the virtual server 121. The period is included in the “constructed” state.
  • “Operation” means a period during which the physical server 123 is actually operated.
  • the physical server 123 indicates a state in which the OS 302 is executed on the OS 302 or the virtual server 121 to provide a business.
  • “Optimization” means a period during which server resources are added and deleted in order to equalize the load at the stage of operation.
  • the life cycle information is “optimized”, it indicates a state in which the configuration of the physical server 123 whose life cycle information is “operated” is changed, for example, addition of hardware resources such as the memory 301 or a virtual server The period during which the resource allocation to 121 is changed is shown.
  • the life cycle information as described above is set for each physical server 123 by an administrator or the like.
  • FIG. 10 shows details of the operation history information management table 115.
  • the operation history information management table 115 stores the result of the operation history information acquisition unit 105 classifying the log information of the physical server 123 using the component classification table 112, the log classification table 113, and the life cycle classification table 114.
  • the time stamp 1001 stores the occurrence time of the acquired log information.
  • the log information occurrence time can be the time stamp of the log information recorded when the log information of the physical server 123 or the like is generated.
  • the component 1002 stores the name of the component corresponding to the log information and the component identifier.
  • the log classification 1003 stores the result of classification of log information acquired from the physical server 123 by the operation history information acquisition unit 105 using the log classification table 113.
  • the log content 1004 stores the result of classifying the log information acquired from the physical server 123 using the log classification table 113 by the operation history information acquisition unit 105.
  • the life cycle 1005 stores the result of the life cycle information acquisition unit 103 classifying the life cycle information acquired from the physical server 123 using the life cycle classification table 114.
  • FIG. 11 shows details of the server allocation management table 116.
  • information related to the allocation status of tasks to the physical server 123 is stored by the configuration information acquisition unit 104.
  • the server identifier 1101 stores information for identifying the physical server 123.
  • the status 1102 stores “assigned” or “unassigned” as information relating to the assignment state of the work of the physical server 123.
  • FIG. 12 shows details of the configuration information evaluation table 117.
  • the configuration information evaluation table 117 stores the result of the physical server reliability calculation unit 108 calculating the reliability index of each component based on the identifier of each component configuring the physical server 123.
  • the component 1201 stores the name of the component of the physical server 123.
  • the evaluation 1202 stores an index whose reliability is scored (numerical) by the physical server reliability calculation unit 108 based on the identifier of each component of the physical server 123.
  • the physical server reliability calculation unit 108 is premised on that the correspondence between the identifier of each component and the evaluation 1202 can be acquired in advance.
  • the evaluation 1202 stores a reliability index.
  • the physical server reliability calculation unit 108 acquires in advance a table and a function for calculating the evaluation 1202 from the type and performance information of each component of the physical server 123. Then, the physical server reliability calculation unit 108 calculates an evaluation 1202 from the information and table of each component stored in the server management table 110. For example, when the component 1201 is a processor, the physical server reliability calculation unit 108 sets the evaluation 1202 higher as the operating frequency of the processor is higher, and sets the evaluation 1202 higher as the number of cores of the processor is higher. .
  • the physical server reliability calculation unit 108 sets the evaluation 1202 higher as the capacity increases.
  • a reliability index for each component is stored in the evaluation 1202 from all log information related to the physical server 123. Therefore, an index of reliability related to the configuration of each current component (hardware or software) and an index of reliability related to the configuration of each past component (hardware or software) are stored.
  • the configuration information evaluation table 117 may be displayed on the output device 208 of the management server 101.
  • FIG. 13 shows details of the failure information evaluation table 118.
  • the failure information evaluation table 118 stores the number of failure occurrences of each component constituting the physical server 123 and the result of the physical server reliability calculation unit 108 scoring the reliability index for each component based on the number of failures. ing.
  • the component 1301 stores the names of components that make up the physical server 123.
  • the number of failures 1302 stores the number of failures of components constituting the physical server 123.
  • the evaluation 1303 stores failure information evaluation, which is an index that the physical server reliability calculation unit 108 converts the reliability into a score (numerical value) based on the number of failures of each component of the physical server 123.
  • the calculation formula for failure information evaluation of each component of this embodiment is as follows.
  • Component failure information evaluation 100 ⁇ number of failure occurrences ⁇ 10 (1)
  • a reliability index for failure is stored in the evaluation 1303 for each component from all the log information related to the physical server 123. Therefore, an index of reliability with respect to a failure for each current component (hardware or software) and an index of reliability with respect to a failure for each past component (hardware or software) are stored.
  • the failure information evaluation table 118 may be displayed on the output device 208 of the management server 101.
  • FIG. 14 shows details of the operation information evaluation table 119.
  • the operation information evaluation table 119 stores the continuous operation time of each component of the physical server 123 and the result of the physical server reliability calculation unit 108 converting the reliability index into a score (numerical value) based on the continuous operation time.
  • the component 1401 stores the names of components that make up the physical server 123.
  • the continuous operation time 1402 stores the continuous operation time of components constituting the physical server 123.
  • the evaluation 1403 stores operation information evaluation that is an index obtained by scoring the reliability of each component of the physical server reliability calculation unit 108 based on the continuous operation time of each component of the physical server 123.
  • the calculation formula of the operation information evaluation of each component of this embodiment is as follows.
  • Component operation information evaluation number of months of maximum continuous operation x 10 (2)
  • an index of reliability for operation is stored in the evaluation 1403 for each component from all log information related to the physical server 123. Therefore, a reliability index for the operation for each current component (hardware or software) and a reliability index for the operation for each past component (hardware or software) are stored.
  • the operation information evaluation table 119 may be displayed on the output device 208 of the management server 101.
  • FIG. 15 shows details of the reliability evaluation weight table 120.
  • the reliability evaluation weight table 120 stores configuration information, failure information, and weighting information for operation information when the physical server reliability calculation unit 108 calculates the reliability of the physical server 123.
  • the reliability information 1501 is information used when evaluating the reliability of the physical server 123, and stores “configuration information”, “failure information”, or “operation information”.
  • the weight 1502 stores information on weighting when evaluating the reliability of the physical server 123. In this embodiment, weights are assigned so that the sum of “configuration information”, “failure information”, and “operation information” is 100%.
  • This table may be given manually by the system administrator from the input device 207 of the management server 101.
  • FIG. 16 shows details of the reliability display screen.
  • the reliability evaluation screen includes a physical server 123 that has been evaluated for reliability, a reliability index obtained by scoring configuration information, failure information, and operation information, and a reliability index for the entire physical server 123 that has been scored by comprehensive evaluation.
  • the physical server identifier 1601 stores the identifier of the physical server 123 whose reliability is to be evaluated.
  • the configuration information evaluation 1602 stores an index of reliability of the configuration information of the physical server 123.
  • the failure information evaluation 1603 stores an index of reliability of failure information of the physical server 123.
  • the operation information evaluation 1604 stores an index of reliability of the operation information of the physical server 123.
  • the comprehensive information evaluation 1605 stores a comprehensive index of the reliability of the physical server 123 in consideration of the configuration information evaluation, the failure information evaluation, the operation information evaluation of the physical server 123, and the contents of the reliability evaluation weight table 120. .
  • the allocation status 1606 stores the allocation status of the physical server 123.
  • the calculation formulas for the reliability configuration information evaluation, failure information evaluation, operation information evaluation, and comprehensive evaluation of the physical server 123 of the present embodiment are as follows.
  • Configuration information evaluation total evaluation of each component in the configuration information evaluation table 117 ⁇ Number of components .
  • Failure information evaluation total evaluation of each component in the failure information evaluation table 118 ⁇ Number of components .
  • Operation information evaluation total evaluation of each component in the operation information evaluation table 118 ⁇ Number of components .
  • the reliability calculation unit 107 calculates each evaluation as an index indicating the reliability of each physical server 123, and the reliability calculation unit 107 further calculates (6)
  • a comprehensive index is calculated as a comprehensive evaluation from the equation and displayed on the output device 208 as shown in FIG.
  • FIG. 17 shows a flowchart of processing performed by the server information acquisition unit 102. This process is executed when an administrator or the like inputs a predetermined command from the input device 207 of the management server 101. Or you may perform with a predetermined period.
  • the server information acquisition unit 102 acquires life cycle information, configuration information, and operation history information of the physical server 123.
  • the life cycle information acquisition unit 103 is called to acquire the life cycle information of the physical server 123.
  • step 1702 the configuration information acquisition unit is called to acquire the configuration information of the physical server 123.
  • step 1703 the operation history information acquisition unit is called to acquire operation history information of the physical server 123.
  • the processing is repeated until information acquisition of all the physical servers 123 is completed.
  • FIG. 18 shows a flowchart of processing performed in the life cycle information acquisition unit 103. This process is a process executed in step 1701 of FIG.
  • the life cycle information acquisition unit 103 after acquiring the life cycle information of the physical server 123, a method for acquiring the information of the physical server is determined.
  • life cycle information is acquired from the physical server 123.
  • the life cycle information is set manually by the administrator from the input device 320 and stored in the disk array device 125.
  • the management server 101 instructs the physical server 123 to start up, and obtains life cycle information from the disk array device 125.
  • the method of turning on the power from the outside can be realized by an existing technology for starting the physical server 123 from an external server, such as PXE (Preboot Execution Environment) boot.
  • PXE Preboot Execution Environment
  • step 1802 it is determined whether or not the life cycle information of the physical server 123 acquired in step 1801 is discarded. If the life cycle information is discarded, the information acquisition OS is transmitted to the physical server 123 in step 1803.
  • the information acquisition OS acquires life cycle information from the physical server 123 and notifies the management server 101 of the life cycle information.
  • step 1805 life cycle information is set in the server management table 110. If the life cycle information is not discarded, the process proceeds to step 1804.
  • step 1804 the information acquisition agent installed in advance in the physical server 123 is activated to acquire life cycle information, and then the process proceeds to step 1805 where life cycle information is set in the server management table 110.
  • FIG. 19 shows a flowchart of processing performed by the configuration information acquisition unit 104. This process is a process executed in step 1702 of FIG.
  • the configuration information acquisition unit 104 acquires configuration information of the physical server 123.
  • step 1901 the configuration information acquisition unit 104 acquires a virtualization unit identifier from the physical server 123.
  • step 1902 it is determined whether the server virtualization unit 122 exists in the physical server 123 with reference to the virtualization unit identifier acquired in step 1901. If the server virtualization unit 122 exists, the configuration information is acquired from the virtual server 121 in step 1903, and the virtual server management table 111 is updated with the acquired configuration information in step 1904. If the server virtualization unit 122 does not exist, Steps 1903 and 1904 are not executed.
  • step 1905 the server identifier, the type and number of components, and the server status are acquired from the OS of the physical server 123 or the server virtualization unit 122.
  • step 1906 the server management table 110 is updated with the information acquired in step 1905.
  • step 1907 server allocation information is acquired from the OS of the physical server 123 or the server virtualization unit 122.
  • step 1908 the server allocation management table 116 is updated with the acquired server allocation information.
  • the virtual server management table 111, the server management table 110, and the server allocation management table 116 are updated to the latest values.
  • FIG. 20 shows a flowchart of processing performed by the operation history information acquisition unit 105. This process is a process executed in step 1703 of FIG.
  • the operation history information acquisition unit 105 classifies the operation information acquired from the physical server 123 using the component classification table 112, the log classification table 113, and the life cycle classification table 114, and registers the operation information in the operation history information management table 115.
  • step 2001 the operation history information acquisition unit 105 acquires operation history information (log information) from the physical server 123.
  • step 2002 the operation history information acquired in step 2001 is sorted by time stamp.
  • step 2003 the component from which the operation history information is output is identified using the component classification table 112.
  • step 2004, the log classification table 113 is used to identify whether the acquired operation history information belongs to configuration information, failure information, or operation information.
  • step 2005 the contents of the operation history information are identified according to the classification result of the operation history information.
  • the log classification table 113 is also used for this identification.
  • step 2006 the life cycle information when the operation history information is output is classified using the life cycle classification table 114.
  • the operation history information acquisition unit 105 accumulates the life cycle information and the period for each physical server 123, thereby acquiring the operation state of the physical server 123 when the operation history information (log information) is generated. it can.
  • the operation history information acquisition unit 105 stores the result of classifying the operation history information in the operation history information management table 115.
  • step 2008 it is determined whether or not the classification of the operation history information of the physical server 123 has been completed. If the classification has not been completed, the processing from step 2001 to step 2008 is repeated. If the classification is completed, the process proceeds to step 2009. In step 2009, the latest failure information acquisition unit 106 is called.
  • FIG. 21 shows a flowchart of processing performed by the latest failure information acquisition unit 106.
  • the latest failure information acquisition unit 106 actually inspects each component of the physical server 123 and reflects the inspection result in the operation history information management table 115.
  • the latest failure information acquisition unit 106 checks each component of the physical server 123.
  • the component classification table 112 is referred to.
  • Each component is inspected by the above-described agent, information acquisition OS, or the like, and the inspection result is notified to the management server 101.
  • step 2102 if the inspection result of each component is determined and there is no abnormality, the process proceeds to step 2105.
  • step 2105 it is determined whether all components have been inspected. If all components have not been inspected, the process returns to step 2101 to inspect the next component.
  • step 2103. the latest failure information acquisition unit 106 acquires the current time.
  • step 2104 the latest failure information acquisition unit 106 reflects the component inspection result and the current time in the operation history information management table 115.
  • FIG. 22 shows a flowchart of processing performed by the reliability evaluation unit 107. This process is executed when an administrator or the like inputs a reliability display command from the input device 207 of the management server 101.
  • the physical server reliability calculation unit 108 performs scoring and outputs the reliability of the physical server to the output device 208.
  • step 2201 the physical server reliability calculation unit 108 is called to generate the configuration information evaluation table 117.
  • step 2202 the reliability evaluation unit 107 calculates the configuration information evaluation of the physical server 123 based on the configuration information evaluation table 117 and the reliability weight table 120 generated by the physical server reliability calculation unit 108. In the present embodiment, the configuration information evaluation average score of each component is multiplied by the weight 1502 of the configuration information in the reliability evaluation weight table 120.
  • step 2203 the reliability evaluation unit 107 calculates the failure information evaluation of the physical server 123 based on the failure information evaluation table 118 and the reliability weight table 120 generated by the physical server reliability calculation unit 108. In the present embodiment, the average score of each component is multiplied by the failure information weight 1502 of the reliability evaluation weight table 120.
  • the reliability evaluation unit 107 calculates the operation information evaluation of the physical server 123 based on the operation information evaluation table 118 and the reliability weight table 120 generated by the physical server reliability calculation unit 108. In this embodiment, the average score of each component is multiplied by the weight 1502 of the operation information in the reliability evaluation weight table 120.
  • the reliability evaluation unit 107 calculates the overall evaluation of the physical server 123 by the above-described equation (6) based on the configuration information evaluation, the failure information evaluation, and the operation information evaluation calculated as described above. In the present embodiment, the sum total of the configuration information evaluation, the failure information evaluation, and the operation information evaluation is calculated as a comprehensive evaluation.
  • the comprehensive evaluation may be calculated using an index other than the configuration information evaluation, the failure information evaluation, and the operation information evaluation.
  • an index other than the configuration information evaluation, the failure information evaluation, and the operation information evaluation For example, from the viewpoint of hardware, a physical server having an elapsed time with a low failure occurrence probability based on an elapsed time from the introduction of the physical server 123 and a bathtub curve that is a general index of the number of hardware failures.
  • a method of adding 123 is also possible. Also, from a software perspective, it is possible to add the number of patches applied to the software installed in the physical server 123 and the importance of the patches.
  • step 2206 it is determined whether or not the reliability evaluation of all physical servers 123 has been completed.
  • the process returns to Step 2201 and proceeds to the reliability evaluation of the next physical server 123. If the calculation of the reliability index of all the physical servers 123 has been completed, the reliability evaluation results of all the physical servers are displayed on the output device 208 together with the allocation status in step 2207.
  • the reliability evaluation unit 107 refers to the configuration information evaluation table 117, the failure information evaluation table 118, and the operation information evaluation table 119, and evaluates the configuration information and failure information according to the above-described equations (3) to (5). Request evaluation and operational information evaluation.
  • FIG. 23 shows a flowchart of processing performed by the physical server reliability calculation unit 108. This process is a process performed in step 2201 of FIG.
  • the physical server reliability calculation unit 108 evaluates the reliability of the configuration information, failure information, and operation information of the physical server 123, and stores the evaluation results in the configuration information evaluation table 117, failure information evaluation table 118, and operation information evaluation table 119, respectively. To do.
  • the physical server reliability calculation unit 108 acquires model information of hardware currently installed in the physical server 123 from the server management table 110.
  • step 2302 for the components constituting the physical server 123 from the information in the server management table 110 acquired in step 2301, the physical server reliability calculation unit 108 evaluates the evaluation 1202 from the correspondence between the identifier of each component and the evaluation 1202 described above. calculate.
  • the physical server reliability calculation unit 108 updates the configuration information evaluation table 117 with the calculated evaluation 1202 and component.
  • step 2303 the physical server reliability calculation unit 108 refers to the operation history information management table 115 and counts the number of failures that have occurred for each component currently mounted on the physical server 123.
  • failure information evaluation is calculated for each component from the counted number of failures using the above equation (1).
  • the physical server reliability calculation unit 108 updates the failure information evaluation table 118 by associating the component with the failure information evaluation.
  • the physical server reliability calculation unit 108 refers to the operation history information management table 115 and calculates the continuous operation time from the previous failure occurrence or the previous start-up for each component currently installed in the physical server 123. To do. When the physical server 123 is stopped (the life cycle information is “discard”), the period from the previous failure occurrence or the previous start to the previous stop is obtained as the continuous operation time.
  • the physical server reliability calculation unit 108 determines whether the server virtualization unit 122 exists in the physical server 123. If the server virtualization unit 122 exists, the virtualization environment reliability calculation unit 2308 is called.
  • step 2307 the physical server reliability calculation unit 108 refers to the operation history information management table 115, and determines whether or not there is a fatal failure history by the OS between the system startup of a certain physical server 123 and the next system startup. Determine. If there is a fatal failure history by the OS, the OS counts each component as a system failure caused by the OS, and stores it in step 2312 so that it can be reflected in the continuous operation time of the OS in the operation information evaluation table 119. On the other hand, if there is no fatal failure history by the OS, it is determined in step 2309 whether there is a fatal failure history of the physical server due to hardware factors currently installed in the physical server 123.
  • This determination is made, for example, by accurately identifying the fatal failure of a hardware factor by leaving in the operation history information whether or not a function such as an OS machine check handler that is executed when a hardware failure occurs is left. Is possible. If there is a fatal failure history of the physical server due to hardware factors, it is counted for each component as a system failure due to hardware factors, and is reflected in the continuous operation time of the hardware operation information evaluation table 119 in step 2312. When the counting of the cause of the system failure is completed, the process proceeds to step 2312. In step 2312, the physical server reliability calculation unit 108 calculates an operation information evaluation from the calculated continuous operation time for each component using the above equation (2), and associates the component with the operation information evaluation to evaluate the operation information. The table 119 is updated.
  • FIG. 24 is a flowchart of processing performed by the virtual environment reliability calculation unit 109. This process is a process performed in step 2308 of FIG.
  • the virtualization environment reliability calculation unit 109 calculates the reliability of the server virtualization unit 122 and the virtual server 121 of the physical server 123 having the server virtualization unit 122.
  • the virtualization environment reliability calculation unit 109 refers to the operation history information management table 115 and acquires the operation history of the server virtualization unit 122.
  • the virtualization environment reliability calculation unit 109 separately counts the occurrence of a failure caused by the server virtualization unit 122 and the failure caused by the hardware of the physical server 123 for each component, and evaluates the operation information.
  • the table 119 is held so that the result can be reflected.
  • the virtualization environment reliability calculation unit 109 refers to the operation history information management table 115, selects one virtual server 121, and acquires an operation history.
  • the virtualization environment reliability calculation unit 109 separates and counts failure occurrences caused by the virtual server 121 and failure occurrences caused by the hardware of the physical server 123 for each component, and determines an operation information evaluation table. 119 is held so that the result can be reflected.
  • step 2405 the virtualization environment reliability calculation unit 109 updates the failure information evaluation table 118 for each component counted in steps 2402 and 2404.
  • step 2406 an evaluation result is obtained from the operation history of the virtual server 121 and the server virtualization unit 122 and reflected in the operation information evaluation table 119.
  • step 2407 it is determined whether the evaluation of all virtual servers 121 has been completed. If not completed, the process returns to step 2403 to calculate the reliability index of the next virtual server 121.
  • FIG. 25 is a subroutine showing details of the processing performed in step 2404 of FIG.
  • step 2501 the virtualization environment reliability calculation unit 109 refers to the operation history information management table 115, and for the virtual server 121 selected in step 2403 in FIG. 24, from the previous startup to the next startup.
  • step 2502 the virtual environment reliability calculation unit 109 refers to the operation history information management table 115 for the virtual server 121 currently focused on, and the virtual server between the previous startup time and the next startup time. 121 (OS 302) determines the presence or absence of a failure. If there is no failure caused by the virtual server 121 (OS 302), the subroutine is terminated and the process proceeds to step 2405 in FIG. 24.
  • step 2503 the number of faults caused by the virtual server 121 is counted and the subroutine is terminated.
  • the virtualization environment reliability calculation unit 109 distinguishes a failure occurring in the virtual server 121 into a software factor and a hardware or server virtualization unit 122 factor. Then, the virtual environment reliability calculation unit 109 counts the number of failures that are caused by the virtual server 121.
  • the management server 101 collects the configuration information, operation information, and failure information of a plurality of physical servers 123, and determines each component from the configuration information, operation information, and failure information of each physical server 123. Calculate the reliability index in numerical form. On the reliability display screen shown in FIG.
  • the overall evaluation 1605 indicating the reliability of each physical server 123 and the assignment state 1606 of the work to the physical server 123 are output to the output device 208.
  • the administrator of the management server 101 assigns a task to the physical server 123
  • the administrator can refer to the reliability display screen so that the administrator can display not only the free resources of the physical server 123 but also the reliability index of each physical server 123. Reliability can be taken into account based on this.
  • the reliability display screen provided by the management server 101 is based on the result of analyzing the type and configuration information of the physical server 123, the information of the operating OS and the server virtualization unit 122, and the past operation information. Can be visualized.
  • the administrator can easily assign a server having reliability corresponding to a service level agreement (SLA) assigned to the physical server 123.
  • SLA service level agreement
  • the management server 101 transmits the information acquisition unit 330 to the physical server 123 and starts the physical server 123, and then the information acquisition unit 330 performs each information To get. Then, the management server 101 acquires each piece of information by the information acquisition unit 330 operated in advance in the physical server 123 when the life cycle information does not satisfy the condition of “discard”.
  • the administrator can automatically acquire the configuration information, the failure information, and the operation information of the physical server 123 without grasping the operation state of the physical server 123.
  • the present invention can be applied to a computer system including a plurality of physical servers and a management server that assigns a task to the physical servers, a management server, and a program of the management server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

物理サーバに搭載されたハードウェア及びソフトウェアの信頼性を数値化して、複数の物理サーバの信頼性の指標をそれぞれ算出する。物理サーバに搭載されているハードウェア及びソフトウェアの構成情報、障害情報、稼動情報を物理サーバのライフサイクル情報も考慮に入れて収集し、ハードウェア及びソフトウェアの信頼性の指標を数値化して算出する。さらに、ハードウェア及びソフトウェアの信頼性の指標を元に物理サーバ全体の信頼性の指標を求める。

Description

サーバの信頼性可視化方法、計算機システム及び管理サーバ
 本発明は、計算機の信頼性を数値化することにより可視化する方法に関するものである。
 仮想化が企業システムにも浸透し、サーバを統合する用途から企業内クラウドを支える基盤として活用され始めた。企業内クラウドの運用管理では、サーバリソースの割り当てを柔軟化するサーバリソース管理製品が注目されている。
サーバリソース管理は、リソースの割り当て状況や空き状況を把握することで、必要な業務を適切なサーバに割り当てや性能が不足した業務へのサーバの追加などが柔軟化できる。例えば、メモリやCPUリソースの空き状況をスターレーティング機能(星の数)で評価する方法などが製品化されている。
 さらに、割り当てるサーバの空きリソースだけでなく、ハードウェアの障害履歴を考慮に入れる試みは、例えば、特許文献1に開示されている。特許文献1では、現用系から待機系への切り替え先のサーバを選択する際に、あらかじめ取得しておいたハードウェアの障害履歴を考慮することで、ハードウェア要因によるシステムダウン確率の低いサーバを選択することが可能となる。
特開平8−36502号公報
 上記記特許文献1では、現用系から待機系への切り替え先のサーバを選択する際に、ハードウェアの障害履歴を考慮することで、ハードウェア要因によるシステムダウン確率の低いサーバを選択することが可能となる。
 一方、サーバ管理者がアプリケーションを実行させたい物理サーバを選択する場合や、仮想サーバを実行させたい物理サーバを選択する場合は、物理サーバの信頼性だけでなく、物理サーバで稼動しているOSや、仮想化部(ハイパバイザ)といったソフトウェアの信頼性もサーバを選択する際の重要な要素である。さらに、OSを稼動させるために物理サーバを選択する場合でも、過去に搭載されているOSの動作実績が重要な要素となる。しかし、特許文献1では、これらソフトウェアの信頼性について考慮されていないため、サーバ管理者がリソースを割り当てる適切な物理サーバを選択できない、という問題があった。
 本発明の代表的な一例を示せば以下の通りである。すなわち、物理サーバに搭載されているハードウェア及びソフトウェアの構成情報、障害情報、稼動情報を物理サーバのライフサイクル情報も考慮に入れて取得し、ハードウェア及びソフトウェアの信頼性の指標を算出する。さらに、ハードウェア及びソフトウェアの信頼性の指標を元に物理サーバ全体の信頼性を評価する。
 本発明によれば、物理サーバに搭載されたハードウェア及びソフトウェアの信頼性を、物理サーバのライフサイクル情報も考慮して数値化し、数値化した信頼性の指標を元に、物理サーバ全体の信頼性を提供することで、より精度高く業務の割当先となる物理サーバの信頼性を評価することができる。
 図1は、本発明の実施の形態における計算機システムの全体の構成を示すブロック図である。
 図2は、本発明の実施の形態における管理サーバの構成を示すブロック図である。
 図3は、本発明の実施の形態における物理サーバの構成を示すブロック図である。
 図4は、本発明の実施の形態における概要の説明図である。
 図5は、本発明の実施の形態におけるサーバ管理テーブルの一例を示す説明図である。
 図6は、本発明の実施の形態における仮想サーバ管理テーブルの一例を示す説明図である。
 図7は、本発明の実施の形態におけるコンポーネント分類テーブルの一例を示す説明図である。
 図8は、本発明の実施の形態におけるログ分類テーブルの一例を示す説明図である。
 図9は、本発明の実施の形態におけるライフサイクル分類テーブルの一例を示す説明図である。
 図10は、本発明の実施の形態における稼動履歴情報管理テーブルの一例を示す説明図である。
 図11は、本発明の実施の形態におけるサーバ割当管理テーブルの一例を示す説明図である。
 図12は、本発明の実施の形態における構成情報評価テーブルの一例を示す説明図である。
 図13は、本発明の実施の形態における障害情報評価テーブルの一例を示す説明図である。
 図14は、本発明の実施の形態における稼動情報評価テーブルの一例を示す説明図である。
 図15は、本発明の実施の形態における信頼性評価重みテーブルの一例を示す説明図である。
 図16は、本発明の実施の形態における信頼性表示画面の一例を示す説明図である。
 図17は、本発明の実施の形態におけるサーバ情報取得部で行われる処理の一例を示すフローチャートである。
 図18は、本発明の実施の形態におけるライフサイクル情報取得部で行われる処理の一例を示すフローチャートである。
 図19は、本発明の実施の形態における構成情報取得部で行われる処理の一例を示すフローチャートである。
 図20は、本発明の実施の形態における稼動履歴情報取得部で行われる処理の一例を示すフローチャートである。
 図21は、本発明の実施の形態における最新障害情報取得部で行われる処理の一例を示すフローチャートである。
 図22は、本発明の実施の形態における信頼性評価部で行われる処理の一例を示すフローチャートである。
 図23は、本発明の実施の形態における物理サーバ信頼性算出部で行われる処理の一例を示すフローチャートである。
 図24は、本発明の実施の形態における仮想化環境信頼性算出部で行われる処理の一例を示すフローチャートである。
 図25は、本発明の実施の形態における図24のステップ2404で行われる処理の一例を示すフローチャートである。
 以下、本発明の実施形態を、図面を用いて詳細に説明する。
 図1は、本発明における実施形態の全体図を示している。本実施形態における制御の中心は、管理サーバ101である。管理サーバ101は、サーバ情報取得部102、ライフサイクル情報取得部103、構成情報取得部104、稼動履歴情報取得部105、最新障害情報取得部106、信頼性評価部107、物理サーバ信頼性算出部108、仮想環境信頼性算出部109、サーバ管理テーブル110、仮想サーバ管理テーブル111コンポーネント分類テーブル112、ログ分類テーブル114、ライフサイクル分類テーブル115、サーバ割当管理テーブル116、構成情報評価テーブル117、障害情報評価テーブル118、稼動情報評価テーブル119、信頼性評価重みテーブル120から構成される。なお、サーバ情報取得部102は、ライフサイクル情報取得部103、構成情報取得部104、稼動履歴情報取得部105を含んでいてもよい。
 管理サーバ101の管理対象は、物理サーバ123、サーバ仮想化部122、仮想サーバ121、ディスクアレイ装置125、仮想サーバイメージ格納ディスク124である。ここで、サーバ仮想化部122は、例えば、ハイパーバイザやVMM(Virtual Machine monitor)等で構成され、物理サーバ123上で複数の仮想サーバ121を稼動させる機能を有しており、単一の物理サーバ123に複数のサーバを統合することができる。
 ディスクアレイ装置125は、SAN310を介して物理サーバ123に接続される。ディスクアレイ装置125には、仮想サーバ121で実行されるプログラムが格納された仮想サーバイメージ格納ディスク124がある。本発明における実施形態では、管理サーバ101が物理サーバ123の信頼性を算出するシステムを構成する。
 図2は、本発明における管理サーバ101の構成を示す。管理サーバ101は、メモリ201、プロセッサ202、FCA(Fibre Channel Adapter)203、NIC(Network Interface Card)204、BMC(Baseboard Management Controller)205、入力装置207、出力装置208から構成される。プロセッサ202は、メモリ201内に格納された各種プログラムを実行する。FCA203はSAN310を介してディスクアレイ装置209と接続される。NIC204およびBMC205はネットワーク206に接続される。NIC204は、主にメモリ201上の各種プログラムと通信し、BMC205は管理サーバの障害などを検知し、ネットワーク206を介して他のサーバと通信するために使用する。本実施形態では、NIC204とBMC205は同一のネットワーク206に接続されているが、異なるネットワークに接続しても良い。例えば、NIC204を業務ネットワークに接続し、BMC205を管理ネットワークに接続することができる。また、FCA203、NIC204はそれぞれ一つずつであるが、複数設けても良い。
 メモリ201上には、サーバ情報取得部102、ライフサイクル情報取得部103、構成情報取得部104、稼動履歴情報取得部105、最新障害情報取得部106、信頼性評価部107、物理サーバ信頼性算出部108、仮想環境信頼性算出部109、サーバ管理テーブル110、仮想サーバ管理テーブル111コンポーネント分類テーブル112、ログ分類テーブル114、ライフサイクル分類テーブル115、サーバ割当管理テーブル116、構成情報評価テーブル117、障害情報評価テーブル118、稼動情報評価テーブル119、信頼性評価重みテーブル120が格納される。プロセッサ202によりメモリ201に格納された各プログラムが実行される。
 図3は、管理サーバ101の管理対象となるサーバ仮想化部122が稼働している物理サーバ123の詳細な構成を示している。物理サーバ123は、メモリ301、プロセッサ304、FCA(Fibre Channel Adapter)305、NIC(Network Interface Card)306、BMC(Baseboard Management Controller)307、入力装置320から構成される。
 プロセッサ304は、メモリ301内に格納された各種プログラムを実行する。FCA305はSAN310を介してディスクアレイ装置125と接続される。NIC306およびBMC307はネットワーク308に接続される。NIC306は、主にメモリ301上の各種プログラムと通信し、BMC307は物理サーバ123の障害などを検知し、ネットワーク308を介して管理サーバ101や他のサーバと通信するために使用する。また、BMC307は管理サーバ101からの指令に応じて物理サーバ123の電源の制御を行う。本実施形態では、NIC306とBMC307は同一のネットワーク308に接続されているが、異なるネットワークに接続しても良い。また、FCA305、NIC306はそれぞれ一つずつであるが、複数存在しても良い。
 メモリ301上では、サーバ仮想化部122が稼働することで、物理サーバ123の計算機資源を分割または共有することで複数の仮想サーバ121を構築することができる。仮想サーバ121は、それぞれ独立にOS(Operating System)302を稼働させることができる。
 プロセッサ304によりサーバ仮想化部122が実行されると、仮想サーバ121を構築することができる。サーバ仮想化部122は、仮想サーバ121毎にあらかじめ設定された仮想サーバイメージ格納ディスク124内の所定の仮想サーバOSイメージ309を読み込み、それぞれ独立した仮想サーバ121をそれぞれ構築する。仮想サーバ121毎に仮想サーバOSイメージ309を設けておくことで、まったく異なるOSやアプリケーションを単一の物理サーバ123上で複数稼働させることができる。
 サーバ仮想化部122の制御I/F(Interface)303は、サーバ仮想化部122の仮想的なネットワークインタフェースであり、NIC306及びネットワーク308を介して外部(管理サーバ101)からサーバ仮想化部122を制御するためのものである。サーバ仮想化部122は制御I/F303を介して管理サーバ101からの指令を受け付けて仮想サーバ121の作成や削除などを行うことができる。入力装置320は、管理者がライフサイクル情報を手動で設定するために用いられる。
 図4は、本発明の動作概要を示す。管理サーバ101は、管理対象となる物理サーバ123とネットワークを介して接続され、サーバ情報取得部102が物理サーバ123の各コンポーネントの構成情報、障害情報、稼動情報、ライフサイクル情報などを取得して物理サーバ信頼性算出部108へ転送することができる。なお、サーバ情報取得部102は、後述するように、ライフサイクル情報取得部103、構成情報取得部104、稼動履歴情報取得部105を介して各情報を取得する。
 本実施形態では、物理サーバ信頼性算出部108が物理サーバ123から取得する構成情報は、例えば、サーバ仮想化部122及び各仮想サーバ121のOS302からハードウェア及びソフトウェアに関する情報で構成される。
 また、物理サーバ信頼性算出部108が物理サーバ123から取得する障害情報は、例えば、BMC307が検知した障害やサーバ仮想化部122及び各仮想サーバ121のOS302が検知したエラー等で構成される。
 また、物理サーバ信頼性算出部108が物理サーバ123から取得するログ情報は、例えば、サーバ仮想化部122のログ情報、各仮想サーバ121のOS302のログ情報、BMC307のログ情報及びサーバ仮想化部122が存在しない環境では物理サーバ123上のOSのログ情報で構成される。
 なお、以下の説明では、サーバ仮想化部122、仮想サーバ121のOS302のログ情報、BMC307及びOSのログ情報の総称を物理サーバ123のログ情報とする。管理サーバ101は、物理サーバ123から取得したログ情報を蓄積したものを稼動履歴情報として扱う。
 本概要図では物理サーバ123は1台のみであるが、複数台の物理サーバ123が存在しても良い。本発明では、管理サーバ101が物理サーバ123の各コンポーネントの構成情報、障害情報、稼動情報、ライフサイクル情報を取得すると、物理サーバ信頼性算出部108が物理サーバ123の構成情報の信頼性算出402、稼動履歴情報の信頼性算出403、障害情報の信頼性算出404を行い、これらの情報をもとに物理サーバ123の信頼性算出結果の表示(406)を行う。尚、稼動履歴情報の信頼性を算出する際には、後述するように、システム障害の要因として、OS要因とハード要因を切り分ける(405)。
 なお、物理サーバ123のライフサイクル情報が「破棄」で停止している場合には、管理サーバ101が起動用のOSと、構成情報等を取得するエージェントとして情報取得部330を送信し、「破棄」となっている物理サーバ123上で情報取得部330を稼動させてからサーバ情報取得部102による上記情報の取得を行えばよい。
 また、情報取得部330は、物理サーバ123上やサーバ仮想化部122条に常駐してもよい。
 図5は、サーバ管理テーブル110の詳細を示している。サーバ管理テーブルは、物理サーバ123に関する詳細な情報が格納される。
 物理サーバ識別子501は、物理サーバ123を特定するための識別子を格納する。起動ディスク502は、物理サーバ123の起動ディスクの場所を示す。サーバ識別子503は、ディスクアレイ装置と接続されるFCAが有する固有の識別子を示す。サーバモード504は、物理サーバ123の稼働状態を示しており、サーバ仮想化部122が稼働しているか否かを判別するための情報が格納されている。例えば、サーバモード504が「サーバ仮想化部」となっている物理サーバ123では、1つ以上の仮想サーバ121が実行可能であることを示す。また、サーバモード504が「基本」となっている物理サーバ123では、1つのOSが実行可能であることを示す。
 プロセッサ識別子及びメモリ識別子505はプロセッサ304やメモリ301を特定するための識別子を格納する。プロセッサ及びメモリ506は、物理サーバ123のプロセッサ304の周波数情報、コア数やメモリ容量等の性能情報が格納される。ネットワーク識別子507は、物理サーバ123が有するNIC306を識別するための情報が格納される。物理サーバ123が複数のNIC306を備える場合は、複数の識別子が格納される。
 ディスク508は、物理サーバ123が有する(またはアクセス可能な)ディスクの識別子が格納される。OS識別子510は、OSを特定する識別子が格納されている。仮想化部識別子511は、物理サーバ123上でサーバ仮想化部122が稼働している場合に、サーバ仮想化部122を特定する識別子が格納される。この仮想化部識別子511は、後で述べる仮想サーバ管理テーブル111と関連づけられている。
 サーバ状態512は、物理サーバ123の状態や役割を示しており、図示の例では現用系か待機系かを示す情報が格納されている。サーバ状態512は、管理サーバ101を利用する管理者などが設定してもよいし、管理サーバ101が系切替を行ったときに更新することができる。ライフサイクル513は物理サーバ123のライフサイクル情報を特定する情報が格納されている。
 上記サーバ管理テーブル110の各情報は、サーバ情報取得部102が取得した構成情報、ライフサイクル情報を反映させる他に、管理サーバ101の管理者などが入力装置207から設定した値を格納してもよい。
 図6は、仮想サーバ管理テーブル111の詳細を示している。仮想サーバ管理テーブル111は、サーバ仮想化部122及び仮想サーバ121に関する詳細な情報が格納される。なお、仮想サーバ121に対する物理サーバ123のリソースの割り当ては、管理サーバ101の図示しない管理部が実行する。仮想サーバ121に対するリソースの割り当てについては公知または周知の技術を適用すればよいので、本実施形態では詳述しない。
 仮想化部識別子601は、管理サーバ101が管理している複数のサーバ仮想化部122を識別するための情報が格納される。制御I/F602は、サーバ仮想化部122を外部から制御するためのアクセス情報となるネットワークアドレスが格納される。
 仮想サーバ識別子603は、各サーバ仮想化部122が割り当てた仮想サーバ121毎にユニークな識別子が格納される。仮想サーバOSイメージ604は、仮想サーバ121がどのOSイメージを使用して起動したか、OSイメージの場所が格納されている。プロセッサ及びメモリ割当量605は、当該仮想サーバ121に割当てられる計算機リソース量を示す。状態606は、仮想サーバ121が現在稼働中か否かが格納されている。プロセッサ及びメモリ実使用量607は、当該仮想サーバ121が実際に使用しているプロセッサ304やメモリ301の容量が格納される。実使用量607は、例えば、サーバ仮想化部122や仮想サーバ121上で稼動するOSなどから定期的に性能情報を収集する手段(図示省略)を有することによって取得することができる。また、実使用量607は、単位時間当たりの平均使用量を格納するなどの方法が考えられる。
 ネットワーク割当608は、仮想サーバ121に割り当てられた仮想NICの識別子と、当該仮想NICに対応する物理サーバ123が有するNIC306(物理NIC)との割当情報が格納される。ディスク609は、仮想サーバに割り当てられたOSイメージファイルやデータ格納用のイメージファイルの場所が格納される。
 図7は、コンポーネント分類テーブル112の詳細を示している。コンポーネント分類テーブル112は、稼動履歴情報取得部105が物理サーバ123の各コンポーネントを分類するための情報が格納されている。コンポーネント701は、物理サーバ123を構成するコンポーネントの名称が格納されている。図示の例では、物理サーバ123を構成するコンポーネントを、プロセッサ、メモリ、NIC、FCA,BMC、ディスクアレイ、サーバ仮想化部、仮想サーバ、OSとした例を示す。
 図8は、ログ分類テーブル113の詳細を示している。ログ分類テーブル113は、物理サーバ123やサーバ仮想化部122から取得したログ情報を稼動履歴情報取得部105で分類するための識別子が格納されている。
 ログ分類801は、物理サーバ123等から取得したログ内容を「構成情報」のログ、「障害情報」のログ、「稼動情報」のログに分類した際の識別子が格納されている。ログ内容802は、分類したログの詳細な内容が格納されている。本実施形態では、構成情報に分類されたログは、ログ内容をコンポーネントの「追加」と「削除」に詳細化した例を示している。「障害情報」に分類されたログは、ログ内容を「一時的」と「致命的」に詳細化した例を示している。なお、「一時的」のログは物理サーバ123が停止に至らない障害を示し、「致命的」のログは物理サーバ123が停止した障害を示す。「稼動情報」に分類されたログは、物理サーバ123の「起動」と「停止」に詳細化した例を示している。
 図9は、ライフサイクル分類テーブル114の詳細を示している。ライフサイクル分類テーブル114は物理サーバ123のライフサイクル情報のフェーズを上述したようにライフサイクル情報取得部103で分類するための情報を格納している。なお、ライフサイクル情報は、物理サーバ123の運用状態を示す情報である。
 ライフサイクル901は、物理サーバ123のライフサイクル情報を識別するための情報が格納されている。本実施形態では、上述のように破棄、構築、運用、最適化に分類している。
 「破棄」とは、物理サーバ123のライフサイクルが一巡し、次に再利用されるまでの期間を意味する。ライフサイクル情報が「破棄」の場合は、物理サーバ123が業務を提供していない状態、換言すれば利用されていない状態を示す。
 「構築」とは、実際に物理サーバ123または仮想サーバ121を構築する期間を意味する。本実施形態の構築は、物理サーバ利用時の計画及び設計段階も含めた期間を表す。ライフサイクル情報が「構築」の場合は、物理サーバ123で業務を提供するための準備を行っている状態を示し、例えば、サーバ仮想化部122が、仮想サーバ121に仮想のMACを割り当てている期間などが「構築」の状態に含まれる。
 「運用」とは、実際に物理サーバ123が運用されている期間を意味する。ライフサイクル情報が「運用」の場合、物理サーバ123では、OS302または仮想サーバ121上でOS302が実行されて、業務を提供している状態を示す。
 「最適化」とは、運用が進んだ段階で、負荷を平準化するために、サーバリソースを追加及び削除する期間を意味する。ライフサイクル情報が「最適化」の場合は、一旦、ライフサイクル情報が「運用」となった物理サーバ123の構成を変更する状態を示し、例えば、メモリ301などのハードウェアリソースの追加や仮想サーバ121に対するリソースの割り当ての変更を行っている期間を示す。
 上記のようなライフサイクル情報は、管理者などによって物理サーバ123毎に設定される。
 図10は、稼動履歴情報管理テーブル115の詳細を示している。稼動履歴情報管理テーブル115は、物理サーバ123のログ情報を、コンポーネント分類テーブル112、ログ分類テーブル113、ライフサイクル分類テーブル114を用いて稼動履歴情報取得部105が分類した結果が格納されている。
 タイムスタンプ1001は、取得したログ情報の発生時刻を格納する。ログ情報の発生時刻は、物理サーバ123等のログ情報を生成した際に記録されているタイムスタンプを当該ログ情報の発生時刻とすることができる。コンポーネント1002は、ログ情報に対応するコンポーネントの名称と、コンポーネントの識別子が格納されている。ログ分類1003は、物理サーバ123から取得したログ情報を稼動履歴情報取得部105がログ分類テーブル113を用いて分類した結果が格納される。ログ内容1004は、物理サーバ123から取得したログ情報をログ分類テーブル113を稼動履歴情報取得部105が用いて分類した結果が格納される。ライフサイクル1005は、物理サーバ123から取得したライフサイクル情報をライフサイクル情報取得部103がライフサイクル分類テーブル114を用いて分類した結果が格納される。
 図11は、サーバ割当管理テーブル116の詳細を示している。サーバ割当管理テーブル116は、物理サーバ123に対する業務の割当状態に関する情報が構成情報取得部104により格納される。サーバ識別子1101は、物理サーバ123を識別するための情報が格納されている。ステータス1102は、物理サーバ123の業務の割当状態に関する情報として、「割当中」と「未割当」の何れかがが格納されている。なお、物理サーバ123または仮想サーバ121に対する業務(アプリケーション)の割り当ては、管理サーバ101の図示しない管理部が行うものとする。なお、業務の割り当てについては公知または周知の技術を適用すればよいので、本実施形態では詳述しない。
 図12は、構成情報評価テーブル117の詳細を示している。構成情報評価テーブル117は、物理サーバ123を構成する各コンポーネントの識別子を元に、物理サーバ信頼性算出部108が各コンポーネントの信頼性の指標を算出した結果が格納されている。
 コンポーネント1201は、物理サーバ123のコンポーネントの名称が格納されている。評価1202は、物理サーバ123の各コンポーネントの識別子を元に、物理サーバ信頼性算出部108が信頼性を点数(数値)化した指標が格納されている。物理サーバ信頼性算出部108は、本実施形態では、あらかじめ各コンポーネントの識別子と評価1202の対応関係が取得できていることを前提としている。なお、評価1202は信頼性の指標が格納される。例えば、物理サーバ信頼性算出部108は、物理サーバ123の各コンポーネントの種類や性能情報から評価1202を算出するためのテーブルや関数を予め取得しておく。そして、物理サーバ信頼性算出部108は、サーバ管理テーブル110に格納された各コンポーネントの情報とテーブルから評価1202を算出する。一例を示せば、コンポーネント1201が、プロセッサの場合、物理サーバ信頼性算出部108は、プロセッサの動作周波数が高いほど評価1202を高くし、また、プロセッサのコア数が多いほど評価1202を高く設定する。また、コンポーネント1201がメモリの場合では、物理サーバ信頼性算出部108は、容量が大きくなるにつれて評価1202を高く設定する。
 構成情報評価テーブル117では、物理サーバ123に関する全てのログ情報からコンポーネント毎の信頼性の指標が評価1202に格納される。したがって、現在のコンポーネント(ハードウェアまたはソフトウェア)毎の構成に関する信頼性の指標と、過去のコンポーネント(ハードウェアまたはソフトウェア)毎の構成に関する信頼性の指標が格納される。なお、構成情報評価テーブル117を管理サーバ101の出力装置208に表示するようにしてもよい。
 図13は、障害情報評価テーブル118の詳細を示している。障害情報評価テーブル118は、物理サーバ123を構成する各コンポーネントの障害発生回数と、その障害回数を元に物理サーバ信頼性算出部108が各コンポーネントについて信頼性の指標を点数化した結果が格納されている。
 コンポーネント1301には、物理サーバ123を構成するコンポーネント名称が格納されている。障害回数1302には、物理サーバ123を構成するコンポーネントの障害発生回数が格納されている。評価1303は、物理サーバ123の各コンポーネントの障害回数を元に物理サーバ信頼性算出部108が信頼性を点数(数値)化した指標である障害情報評価が格納されている。
 本実施形態の各コンポーネントの障害情報評価の計算式は以下の通りである。
コンポーネントの障害情報評価=100 − 障害発生回数×10 …(1)
 なお、障害情報評価テーブル118では、物理サーバ123に関する全てのログ情報からコンポーネント毎に障害に対する信頼性の指標が評価1303に格納される。したがって、現在のコンポーネント(ハードウェアまたはソフトウェア)毎の障害に対する信頼性の指標と、過去のコンポーネント(ハードウェアまたはソフトウェア)毎の障害に対する信頼性の指標が格納される。なお、障害情報評価テーブル118を管理サーバ101の出力装置208に表示するようにしてもよい。
 図14は、稼動情報評価テーブル119の詳細を示している。稼動情報評価テーブル119は、物理サーバ123の各コンポーネントの連続稼働時間と、その連続稼働時間を元に物理サーバ信頼性算出部108が信頼性の指標を点数(数値)化した結果が格納されている。コンポーネント1401は、物理サーバ123を構成するコンポーネント名称が格納されている。連続稼働時間1402は、物理サーバ123を構成するコンポーネントの連続稼働時間が格納されている。評価1403は、物理サーバ123の各コンポーネントの連続稼動時間を元に物理サーバ信頼性算出部108各コンポーネントの信頼性を点数化した指標である稼動情報評価が格納されている。
 本実施形態の各コンポーネントの稼動情報評価の計算式は以下の通りである。
コンポーネントの稼動情報評価=最大連続稼動の月数×10 ……(2)
 なお、稼動情報評価テーブル119では、物理サーバ123に関する全てのログ情報からコンポーネント毎に稼動に対する信頼性の指標が評価1403に格納される。したがって、現在のコンポーネント(ハードウェアまたはソフトウェア)毎の稼動に対する信頼性の指標と、過去のコンポーネント(ハードウェアまたはソフトウェア)毎の稼動に対する信頼性の指標が格納される。なお、稼動情報評価テーブル119を管理サーバ101の出力装置208に表示するようにしてもよい。
 図15は、信頼性評価重みテーブル120の詳細を示している。信頼性評価重みテーブル120は、物理サーバ信頼性算出部108が物理サーバ123の信頼性を算出する際の、構成情報、障害情報、稼動情報の重み付けの情報を格納する。信頼性情報1501は、物理サーバ123の信頼性を評価する際の元になる情報で、「構成情報」、「障害情報」または「稼動情報」が格納されている。重み1502は、物理サーバ123の信頼性を評価する際の重み付けの情報が格納されている。本実施形態では、「構成情報」、「障害情報」、「稼動情報」の合計が100%となるように重みを割り振っている。本テーブルは、システム管理者が管理サーバ101の入力装置207から、手動で与えても良い。
 図16は、信頼性表示画面の詳細を示している。信頼性評価画面は、信頼性を評価した物理サーバ123と、構成情報、障害情報、稼動情報を点数化した信頼性の指標と、総合評価を点数化した物理サーバ123全体の信頼性の指標を割り当て状態とともに出力装置208に出力した結果である。
 物理サーバ識別子1601は、信頼性を評価する物理サーバ123の識別子が格納されている。構成情報評価1602は、物理サーバ123の構成情報の信頼性の指標が格納されている。障害情報評価1603は、物理サーバ123の障害情報の信頼性の指標が格納されている。稼動情報評価1604は、物理サーバ123の稼動情報の信頼性の指標が格納されている。総合情報評価1605は、物理サーバ123の構成情報評価、障害情報評価、稼動情報評価と、信頼性評価重みテーブル120の内容を加味した物理サーバ123の信頼性の総合的な指標が格納されている。割当状態1606は、物理サーバ123の割当状態が格納されている。
 本実施形態の物理サーバ123の信頼性の構成情報評価、障害情報評価、稼動情報評価、総合評価の計算式は以下の通りである。
構成情報評価=構成情報評価テーブル117の各コンポーネントの評価の合計
       ÷コンポーネント数  ………(3)
障害情報評価=障害情報評価テーブル118の各コンポーネントの評価の合計
       ÷コンポーネント数  ………(4)
稼動情報評価=稼動情報評価テーブル118の各コンポーネントの評価の合計
       ÷コンポーネント数  ………(5)
総合評価=構成情報評価×信頼性評価重みテーブルの構成情報の重み
 +障害情報評価×信頼性評価重みテーブルの障害情報の重み
 +稼動情報評価×信頼性評価重みテーブルの稼動情報の重み ……(6)
 上記(3)~(5)式より信頼性算出部107は、物理サーバ123毎の信頼性を示す指標としての各評価を算出し、さらに信頼性算出部107は、各評価から上記(6)式より総合的な指標を総合評価として算出して図16で示すように出力装置208に表示する。
 図17は、サーバ情報取得部102で行われる処理のフローチャートを示す。この処理は、管理サーバ101の入力装置207から管理者などが所定の指令を入力したときなどに実行される。または、所定の周期で実行してもよい。
 サーバ情報取得部102では、物理サーバ123のライフサイクル情報、構成情報、稼動履歴情報を取得する。ステップ1701ではライフサイクル情報取得部103を呼び出し、物理サーバ123のライフサイクル情報を取得する。ステップ1702では構成情報取得部を呼び出し、物理サーバ123の構成情報を取得する。ステップ1703では稼動履歴情報取得部を呼び出し、物理サーバ123の稼動履歴情報を取得する。情報を取得する物理サーバ123が複数ある場合は、全ての物理サーバ123の情報取得が完了するまで繰り返す。
 図18は、ライフサイクル情報取得部103で行われる処理のフローチャートを示す。この処理は、図17のステップ1701で実行される処理である。ライフサイクル情報取得部103では、物理サーバ123のライフサイクル情報を取得した後、物理サーバの情報を取得する方法を決定する。
 ステップ1801では、物理サーバ123からライフサイクル情報を取得する。ライフサイクル情報は入力装置320から管理者が手動で設定し、ディスクアレイ装置125に格納済みとする。物理サーバ123の電源が遮断されている場合は、管理サーバ101から物理サーバ123に起動を指令して、ディスクアレイ装置125からライフサイクル情報を取得する。外部から電源を入れる方法は、PXE(Preboot eXecution Environment)ブートのように外部のサーバから物理サーバ123を起動させる既存技術で実現することが可能である。
 ステップ1802では、ステップ1801で取得した物理サーバ123のライフサイクル情報が破棄か否かを判定する。ライフサイクル情報が破棄である場合は、ステップ1803で情報取得用OSを物理サーバ123に送信する。情報取得用OSは物理サーバ123でライフサイクル情報を取得し、管理サーバ101に通知する。その後、ステップ1805に移り、サーバ管理テーブル110にライフサイクル情報を設定する。ライフサイクル情報が破棄でない場合は、ステップ1804に移る。
 ステップ1804では、物理サーバ123に予めインストールした情報取得用agentを起動させてライフサイクル情報を取得させた後、ステップ1805に移り、サーバ管理テーブル110にライフサイクル情報を設定する。
 図19は、構成情報取得部104で行われる処理のフローチャートを示す。この処理は、図17のステップ1702で実行される処理である。構成情報取得部104では、物理サーバ123の構成情報を取得する。ステップ1901では、構成情報取得部104が物理サーバ123から仮想化部識別子を取得する。ステップ1902では、ステップ1901で取得した仮想化部識別子を参照し、物理サーバ123にサーバ仮想化部122が存在するかを判定する。サーバ仮想化部122が存在する場合は、ステップ1903で仮想サーバ121から構成情報を取得し、ステップ1904では取得した構成情報で仮想サーバ管理テーブル111を更新する。
 サーバ仮想化部122が存在しない場合は、ステップ1903、ステップ1904を実行しない。ステップ1905では、物理サーバ123のOSまたはサーバ仮想化部122からサーバ識別子、コンポーネントの種別と数、サーバ状態を取得する。ステップ1906では、ステップ1905で取得した情報でサーバ管理テーブル110を更新する。ステップ1907では、物理サーバ123のOSまたはサーバ仮想化部122からサーバ割当情報を取得する。ステップ1908では、取得したサーバ割当情報でサーバ割当管理テーブル116を更新する。
 上記処理により仮想サーバ管理テーブル111、サーバ管理テーブル110、サーバ割当管理テーブル116が最新の値に更新される。
 図20は、稼動履歴情報取得部105で行われる処理のフローチャートを示す。この処理は、図17のステップ1703で実行される処理である。稼動履歴情報取得部105では、コンポーネント分類テーブル112、ログ分類テーブル113、ライフサイクル分類テーブル114を用いて物理サーバ123から取得した稼動情報を分類し、稼動履歴情報管理テーブル115に登録する。
 ステップ2001では、稼動履歴情報取得部105が物理サーバ123から稼動履歴情報(ログ情報)を取得する。ステップ2002では、ステップ2001で取得した稼動履歴情報をタイムスタンプでソートする。ステップ2003では、稼動履歴情報の出力元のコンポーネントを、コンポーネント分類テーブル112を用いて識別する。
 ステップ2004では、取得した稼動履歴情報が、構成情報、障害情報、稼動情報の何れに属するかをログ分類テーブル113を用いて識別する。ステップ2005では、稼動履歴情報の分類結果に応じて、稼動履歴情報の内容を識別する。この識別の際にもログ分類テーブル113を用いる。ステップ2006では、稼動履歴情報の出力時のライフサイクル情報を、ライフサイクル分類テーブル114を用いて分類する。この処理は、稼動履歴情報取得部105が物理サーバ123毎のライフサイクル情報と期間を蓄積しておくことで、稼動履歴情報(ログ情報)が生成された時点の物理サーバ123の運用状態を取得できる。
 ステップ2007では、稼動履歴情報取得部105が稼動履歴情報を分類した結果を稼動履歴情報管理テーブル115へ格納する。ステップ2008では、物理サーバ123の稼動履歴情報の分類が完了したか否かを判定する。分類が完了していない場合は、ステップ2001からステップ2008の処理を繰り返す。分類が完了している場合は、ステップ2009に移る。ステップ2009では、最新障害情報取得部106を呼び出す。
 図21は、最新障害情報取得部106で行われる処理のフローチャートを示す。最新障害情報取得部106では、物理サーバ123の各コンポーネントを実際に検査し、検査の結果を稼動履歴情報管理テーブル115に反映する。
 ステップ2101では、最新障害情報取得部106が物理サーバ123の各コンポーネントを検査する。検査するコンポーネントを決定する際は、コンポーネント分類テーブル112を参照する。各コンポーネントの検査は、上述したエージェントや情報取得用OS等で実施し、検査結果を管理サーバ101に通知する。
 ステップ2102では、各コンポーネントの検査結果を判定して異常がない場合は、ステップ2105に移る。ステップ2105では全コンポーネントの検査が完了したか否を判定し、全てのコンポーネントの検査が完了していない場合は、ステップ2101に戻って、次のコンポーネントの検査を実施する。
 コンポーネントの検査結果が異常である場合は、ステップ2103に移る。ステップ2103では最新障害情報取得部106が現在時刻を取得する。ステップ2104では最新障害情報取得部106がコンポーネントの検査結果と現在時刻を稼動履歴情報管理テーブル115に反映する。
 上記処理によって、現在の物理サーバ123に異常があるか否かを検出することができる。
 図22は、信頼性評価部107で行われる処理のフローチャートを示す。この処理は、管理サーバ101の入力装置207から管理者などが信頼性の表示の指令を入力したときなどに実行される。信頼性評価部107では、物理サーバ信頼性算出部108により点数化を実行させて、物理サーバの信頼性を出力装置208に出力する。
 ステップ2201では、物理サーバ信頼性算出部108を呼び出し、構成情報評価テーブル117を生成させる。ステップ2202では、物理サーバ信頼性算出部108により生成された構成情報評価テーブル117と信頼性重みテーブル120を元に、信頼性評価部107が物理サーバ123の構成情報評価を算出する。本実施形態では、各コンポーネントの構成情報評価の平均点数と、信頼性評価重みテーブル120の構成情報の重み1502を乗算する。
 ステップ2203では、物理サーバ信頼性算出部108により生成された障害情報評価テーブル118と信頼性重みテーブル120を元に、信頼性評価部107が物理サーバ123の障害情報評価を算出する。本実施形態では、各コンポーネントの平均点数と、信頼性評価重みテーブル120の障害情報の重み1502を乗算する。
 ステップ2204では、物理サーバ信頼性算出部108により生成された稼動情報評価テーブル118と信頼性重みテーブル120を元に、信頼性評価部107が物理サーバ123の稼動情報評価を算出する。本実施形態では、各コンポーネントの平均点数と、信頼性評価重みテーブル120の稼動情報の重み1502を乗算する。
 ステップ2205では、上記のように算出した構成情報評価、障害情報評価、稼動情報評価を元に信頼性評価部107が物理サーバ123の総合評価を上述した(6)式により算出する。本実施形態では、構成情報評価、障害情報評価、稼動情報評価を加算した総和を総合評価として算出する。なお、構成情報評価、障害情報評価、稼動情報評価以外の指標を用いて総合評価を算出しても良い。例えば、ハードウェアの視点では、物理サーバ123の導入時からの経過時間と、ハードウェアの故障発生回数の一般的な指標であるバスタブ曲線を元に、故障の発生確率が低い経過時間の物理サーバ123を加点するという方法も可能である。また、ソフトウェアの視点では、物理サーバ123に搭載されているソフトウェアに適用されているパッチ数や、パッチの重要度を加算する方法も可能である。
 ステップ2206では、全ての物理サーバ123の信頼性評価が完了したか否かを判定する。全ての物理サーバ123の信頼性評価が完了していない場合は、ステップ2201に戻って次の物理サーバ123の信頼性評価に移る。全ての物理サーバ123の信頼性の指標の算出が完了している場合は、ステップ2207で全物理サーバの信頼性評価結果を割当状態とともに出力装置208へ表示する。
 ステップ2207では、信頼性評価部107が構成情報評価テーブル117、障害情報評価テーブル118及び稼動情報評価テーブル119を参照して、上述した(3)~(5)式により、構成情報評価と障害情報評価及び稼動情報評価を求める。そして、信頼性評価部107は、信頼性評価重みテーブル120を参照して、上述の(6)式より総合評価を算出して図16で示すように物理サーバ123毎の評価を出力装置208に表示する。
 図23は、物理サーバ信頼性算出部108で行われる処理のフローチャートを示す。この処理は、図22のステップ2201で行われる処理である。物理サーバ信頼性算出部108では物理サーバ123の構成情報、障害情報、稼動情報の信頼性を評価し、評価結果をそれぞれ構成情報評価テーブル117、障害情報評価テーブル118、稼動情報評価テーブル119に格納する。
 ステップ2301では、物理サーバ信頼性算出部108がサーバ管理テーブル110から現在物理サーバ123に搭載されているハードウェアの機種情報を取得する。ステップ2302では、ステップ2301で取得したサーバ管理テーブル110の情報から物理サーバ123を構成するコンポーネントについて、物理サーバ信頼性算出部108は、上述した各コンポーネントの識別子と評価1202の対応関係から評価1202を算出する。物理サーバ信頼性算出部108は算出した評価1202とコンポーネントで構成情報評価テーブル117を更新する。
 ステップ2303では、物理サーバ信頼性算出部108が、稼動履歴情報管理テーブル115を参照し、現在物理サーバ123に搭載されているコンポーネント毎に発生した障害の回数をカウントする。ステップ2304では、カウントした障害の回数からコンポーネント毎に上記(1)式を用いて障害情報評価を算出する。そして、物理サーバ信頼性算出部108は、コンポーネントと障害情報評価を対応付けて障害情報評価テーブル118を更新する。
 ステップ2305では、物理サーバ信頼性算出部108が、稼動履歴情報管理テーブル115を参照し、現在物理サーバ123に搭載されているコンポーネント毎に前回の障害発生または前回の起動からの連続稼働時間を算出する。また、物理サーバ123が停止している場合(ライフサイクル情報が「破棄」)には、前回の障害発生または前回の起動から直前の停止時までの期間を連続稼働時間として求める。
 ステップ2306では、物理サーバ信頼性算出部108が、物理サーバ123にサーバ仮想化部122が存在するか否かを判定する。サーバ仮想化部122が存在する場合は、仮想化環境信頼性算出部2308を呼び出す。サーバ仮想化部122が存在しない場合は、ステップ2307へ移る。
 ステップ2307では、物理サーバ信頼性算出部108が、稼動履歴情報管理テーブル115を参照し、ある物理サーバ123のシステム起動から、次回のシステム起動の間にOSによる致命的障害履歴があるか否かを判定する。OSによる致命的な障害履歴がある場合は、OSが要因のシステム障害としてコンポーネント毎にカウントし、ステップ2312で稼動情報評価テーブル119のOSの連続稼働時間に反映できるように保持する。
 一方、OSによる致命的障害履歴が無い場合は、ステップ2309で、現在物理サーバ123に搭載されているハードウェア要因による物理サーバの致命的な障害履歴があるか否かを判定する。この判定は、例えば、ハードウェアの障害発生時に実行されるOSのマシンチェックハンドラなどの関数の実行の有無を稼動履歴情報に残しておくことにより、ハードウェア要因の致命的な障害を正確に把握することが可能である。ハードウェア要因による物理サーバの致命的な障害履歴が存在する場合は、ハードウェア要因のシステム障害としてコンポーネント毎にカウントし、ステップ2312ではハードウェアの稼動情報評価テーブル119の連続稼働時間に反映させる。
 システム障害の要因をカウントが終了したら、ステップ2312に移る。ステップ2312では、物理サーバ信頼性算出部108が上記算出したコンポーネント毎の連続稼動時間から、上記(2)式を用いて稼動情報評価を算出し、コンポーネントと稼動情報評価を対応付けて稼動情報評価テーブル119を更新する。
 上記処理により構成情報評価テーブル117、障害情報評価テーブル118、稼動情報評価テーブル119にはコンポーネント毎に信頼性を示す評価1202,1303及び1403が設定される。
 図24は、仮想化環境信頼性算出部109で行われる処理のフローチャートを示す。この処理は、図23のステップ2308で行われる処理である。仮想化環境信頼性算出部109では、サーバ仮想化部122を有する物理サーバ123のサーバ仮想化部122と仮想サーバ121の信頼性を算出する。
 ステップ2401では、仮想化環境信頼性算出部109が稼動履歴情報管理テーブル115を参照して、サーバ仮想化部122の稼動履歴を取得する。
 ステップ2402では、仮想化環境信頼性算出部109はサーバ仮想化部122が要因となる障害発生と、物理サーバ123のハードウェアが要因となる障害発生をコンポーネント毎に切り分けてカウントし、稼動情報評価テーブル119に結果を反映できるように保持する。
 ステップ2403では、仮想化環境信頼性算出部109が稼動履歴情報管理テーブル115を参照して、ひとつの仮想サーバ121を選択して稼動履歴を取得する。ステップ2404では、仮想化環境信頼性算出部109は、仮想サーバ121が要因となる障害発生と、物理サーバ123のハードウェアが要因となる障害発生をコンポーネント毎に切り分けてカウントし、稼動情報評価テーブル119に結果を反映できるように保持する。
 ステップ2405では、仮想化環境信頼性算出部109が、上記ステップ2402、2404でカウントしたコンポーネント毎に障害情報評価テーブル118を更新する。
 ステップ2406では、仮想サーバ121及びサーバ仮想化部122の稼動履歴から評価結果を求めて稼動情報評価テーブル119に反映する。ステップ2407では、全仮想サーバ121の評価が完了したかを判定する。完了していない場合は、ステップ2403へ戻り次の仮想サーバ121の信頼性の指標を算出する。
 図25は、図24のステップ2404で行われる処理の詳細を示すサブルーチンである。ステップ2501で仮想化環境信頼性算出部109は、稼動履歴情報管理テーブル115を参照して、図24のステップ2403で選択した仮想サーバ121について、前回の起動時から次の起動時までの間にハードウェアまたはサーバ仮想化部122が要因となった障害の有無を判定する。ハードウェアまたはサーバ仮想化部122が要因となった障害がある場合には、サブルーチンを終了して図24のステップ2405へ進む。一方、ハードウェアまたはサーバ仮想化部122が要因となった障害が無い場合には、ステップ2502へ進む。
 ステップ2502では、現在着目している仮想サーバ121について、仮想化環境信頼性算出部109は、稼動履歴情報管理テーブル115を参照して、前回の起動時から次の起動時までの間に仮想サーバ121(OS302)が要因となる障害の有無を判定する。仮想サーバ121(OS302)が要因となる障害がない場合にはサブルーチンを終了して図24のステップ2405に進み、当該障害がある場合には、ステップ2503へ進む。
 ステップ2503では、仮想サーバ121が要因となる障害の発生数をカウントしてサブルーチンを終了する。
 上記処理によりで仮想化環境信頼性算出部109は仮想サーバ121に発生した障害を、ソフトウェアの要因とハードウェアまたはサーバ仮想化部122の要因に区別する。そして、仮想化環境信頼性算出部109は、仮想サーバ121が起因となる障害の発生回数をカウントする。
 以上のように、本発明では、管理サーバ101が複数の物理サーバ123の構成情報と稼動情報及び障害情報をそれぞれ収集して、各物理サーバ123の構成情報と稼動情報及び障害情報からコンポーネント毎の信頼性の指標を数値化した算出する。そして、図16に示した信頼性表示画面では物理サーバ123毎の信頼性を示す総合評価1605と、物理サーバ123への業務の割り当て状態1606を出力装置208に出力する。
 管理サーバ101の管理者が物理サーバ123に業務を割り当てる際に、信頼性表示画面を参照することで、管理者は、物理サーバ123の空きリソースだけではなく、各物理サーバ123の信頼性の指標に基づいて信頼性を考慮することが可能となる。
 また、管理サーバ101が提供する信頼性表示画面は、物理サーバ123の種別や構成情報、稼動するOSやサーバ仮想化部122の情報、過去の稼動情報を分析した結果に基づいて、物理サーバ123の信頼性を可視化することができる。管理者は信頼性表示画面を参照することで、物理サーバ123へ割り当てる業務のSLA(Service Level Agreement)に対応した信頼性を備えたサーバを容易に割り当てることが可能となる。
 また、管理サーバ101は、ライフサイクル情報が「破棄」となる条件を満たしたときには、物理サーバ123に情報取得部330を送信して、物理サーバ123を起動させてから情報取得部330により各情報を取得する。そして、管理サーバ101は、ライフサイクル情報が「破棄」となる条件を満たしていないときには、物理サーバ123に予め稼動させた情報取得部330により各情報を取得する。このようにライフサイクル情報を用いることで、管理者が物理サーバ123の運用状態を把握することなく、物理サーバ123の構成情報、障害情報及び稼動情報を自動的に取得することが可能となる。
 本発明は、複数の物理サーバと、物理サーバに業務を割り当てる管理サーバを備えた計算機システム、管理サーバ及び管理サーバのプログラムに適用することができる。

Claims (15)

  1.  ネットワークを介してサーバに接続された管理サーバを有する計算機システムにおいて、
     前記管理サーバは、
     前記サーバの構成情報を取得する構成情報取得部と、
     前記サーバの障害情報を取得する障害情報取得部と、
     前記サーバの稼動情報を取得する稼動情報取得部と、
     前記取得した構成情報と、障害情報及び稼動情報から前記サーバの信頼性の指標を演算する信頼性評価部と、を備え、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するコンポーネントを抽出し、前記障害情報から前記コンポーネント毎の障害情報を抽出し、前記稼動情報から前記コンポーネント毎の連続稼動時間を算出し、前記コンポーネント毎の障害情報と前記連続稼動時間から前記サーバのコンポーネント毎の信頼性の指標を演算することを特徴とする計算機システム。
  2.  請求項1に記載の計算機システムであって、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するハードウェアのコンポーネントを抽出し、前記障害情報から前記ハードウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ハードウェアのコンポーネント毎の連続稼動時間を演算し、前記ハードウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のハードウェアのコンポーネントと過去のハードウェアのコンポーネントの信頼性の指標を演算することを特徴とする計算機システム。
  3.  請求項1に記載の計算機システムであって、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するソフトウェアのコンポーネントを抽出し、前記障害情報から前記ソフトウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ソフトウェアのコンポーネント毎の連続稼動時間を算出し、前記ソフトウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のソフトウェアのコンポーネントと過去のソフトウェアのコンポーネントの信頼の指標を算出することを特徴とする計算機システム。
  4.  請求項1に記載の計算機システムであって、
     前記管理サーバは、
     前記サーバの運用状態を示すライフサイクル情報を取得するライフサイクル情報取得部をさらに備え、
     前記信頼性評価部は、
     前記ライフサイクル情報が所定の条件を満たしたときに、前記サーバに情報取得部を送信し、前記情報取得部から前記構成情報と前記障害情報及び前記稼動情報を取得することを特徴とする計算機システム。
  5.  請求項4に記載の計算機システムであって、
     前記信頼性評価部は、
     前記ライフサイクル情報が所定の条件を満たしていないときには、予め前記サーバが備えた情報取得部から、前記構成情報と、前記障害情報及び前記稼動情報を取得することを特徴とする計算機システム。
  6.  ネットワークを介してサーバに接続された管理サーバで前記サーバの信頼性を数値化するサーバの信頼性可視化方法において、
     前記管理サーバが、前記サーバの構成情報を取得する第1のステップと、
     前記管理サーバが、前記サーバの障害情報を取得する第2のステップと、
     前記管理サーバが、前記サーバの稼動情報を取得する第3のステップと、
     前記管理サーバが、前記取得した構成情報と、障害情報及び稼動情報から前記サーバの信頼性の指標を演算する第4のステップと、を含み、
     前記第4のステップは、
     前記構成情報から前記サーバを構成するコンポーネントを抽出し、前記障害情報から前記コンポーネント毎の障害情報を抽出し、前記稼動情報から前記コンポーネント毎の連続稼動時間を算出し、前記コンポーネント毎の障害情報と前記連続稼動時間から前記サーバのコンポーネント毎の信頼性の指標を演算することを特徴とするサーバの信頼性可視化方法。
  7.  請求項6に記載のサーバのサーバの信頼性可視化方法であって、
     前記第4のステップは、
     前記構成情報から前記サーバを構成するハードウェアのコンポーネントを抽出し、前記障害情報から前記ハードウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ハードウェアのコンポーネント毎の連続稼動時間を演算し、前記ハードウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のハードウェアのコンポーネントと過去のハードウェアのコンポーネントの信頼性の指標を演算することを特徴とするサーバのサーバの信頼性可視化方法。
  8.  請求項6に記載のサーバの信頼性可視化方法であって、
     前記第4のステップは、
     前記構成情報から前記サーバを構成するソフトウェアのコンポーネントを抽出し、前記障害情報から前記ソフトウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ソフトウェアのコンポーネント毎の連続稼動時間を算出し、前記ソフトウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のソフトウェアのコンポーネントと過去のソフトウェアのコンポーネントの信頼性の指標を算出することを特徴とするサーバの信頼性可視化方法。
  9.  請求項6に記載のサーバの信頼性可視化方法であって、
     前記管理サーバが、前記サーバの運用状態を示すライフサイクル情報を取得するステップをさらに含み、
     前記第4のステップは、
     前記ライフサイクル情報が所定の条件を満たしたときに、前記サーバに情報取得部を送信し、前記情報取得部から前記構成情報と前記障害情報及び前記稼動情報を取得することを特徴とするサーバの信頼性可視化方法。
  10.  請求項9に記載のサーバの信頼性可視化方法であって、
     前記第4のステップは、
     前記ライフサイクル情報が所定の条件を満たしていないときには、予め前記サーバが備えた情報取得部から、前記構成情報と、前記障害情報及び前記稼動情報を取得することを特徴とするサーバの信頼性可視化方法。
  11.  ネットワークを介してサーバに接続された管理サーバにおいて、
     前記管理サーバは、
     前記サーバの構成情報を取得する構成情報取得部と、
     前記サーバの障害情報を取得する障害情報取得部と、
     前記サーバの稼動情報を取得する稼動情報取得部と、
     前記取得した構成情報と、障害情報及び稼動情報から前記サーバの信頼性の指標を演算する信頼性評価部と、を備え、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するコンポーネントを抽出し、前記障害情報から前記コンポーネント毎の障害情報を抽出し、前記稼動情報から前記コンポーネント毎の連続稼動時間を算出し、前記コンポーネント毎の障害情報と前記連続稼動時間から前記サーバのコンポーネント毎の信頼性の指標を演算することを特徴とする管理サーバ。
  12.  請求項11に記載の管理サーバであって、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するハードウェアのコンポーネントを抽出し、前記障害情報から前記ハードウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ハードウェアのコンポーネント毎の連続稼動時間を演算し、前記ハードウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のハードウェアのコンポーネントと過去のハードウェアのコンポーネントの信頼性の指標を演算することを特徴とする管理サーバ。
  13.  請求項11に記載の管理サーバであって、
     前記信頼性評価部は、
     前記構成情報から前記サーバを構成するソフトウェアのコンポーネントを抽出し、前記障害情報から前記ソフトウェアのコンポーネント毎の障害情報を抽出し、前記稼動情報から前記ソフトウェアのコンポーネント毎の連続稼動時間を算出し、前記ソフトウェアのコンポーネント毎の障害情報と前記連続稼動時間から前記サーバの現在のソフトウェアのコンポーネントと過去のソフトウェアのコンポーネントの信頼性の指標を算出することを特徴とする管理サーバ。
  14.  請求項11に記載の管理サーバであって、
     前記管理サーバは、
     前記サーバの運用状態を示すライフサイクル情報を取得するライフサイクル情報取得部をさらに備え、
     前記信頼性評価部は、
     前記ライフサイクル情報が所定の条件を満たしたときに、前記サーバに情報取得部を送信し、前記情報取得部から前記構成情報と前記障害情報及び前記稼動情報を取得することを特徴とする管理サーバ。
  15.  請求項14に記載の管理サーバであって、
     前記信頼性評価部は、
     前記ライフサイクル情報が所定の条件を満たしていないときには、予め前記サーバが備えた情報取得部から、前記構成情報と、前記障害情報及び前記稼動情報を取得することを特徴とする管理サーバ。
PCT/JP2010/058573 2010-05-14 2010-05-14 サーバの信頼性可視化方法、計算機システム及び管理サーバ WO2011142042A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012514673A JP5477602B2 (ja) 2010-05-14 2010-05-14 サーバの信頼性可視化方法、計算機システム及び管理サーバ
US13/642,825 US20130198370A1 (en) 2010-05-14 2010-05-14 Method for visualizing server reliability, computer system, and management server
PCT/JP2010/058573 WO2011142042A1 (ja) 2010-05-14 2010-05-14 サーバの信頼性可視化方法、計算機システム及び管理サーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/058573 WO2011142042A1 (ja) 2010-05-14 2010-05-14 サーバの信頼性可視化方法、計算機システム及び管理サーバ

Publications (1)

Publication Number Publication Date
WO2011142042A1 true WO2011142042A1 (ja) 2011-11-17

Family

ID=44914108

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/058573 WO2011142042A1 (ja) 2010-05-14 2010-05-14 サーバの信頼性可視化方法、計算機システム及び管理サーバ

Country Status (3)

Country Link
US (1) US20130198370A1 (ja)
JP (1) JP5477602B2 (ja)
WO (1) WO2011142042A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056471A (ja) * 2012-09-13 2014-03-27 Toshiba Corp 制御システム
US20140157063A1 (en) * 2012-12-05 2014-06-05 International Business Machines Corporation Evaluating Reliability of a Software Module Using Development Life Cycle
JP2015069449A (ja) * 2013-09-30 2015-04-13 株式会社日立システムズ 情報システム
JPWO2013094006A1 (ja) * 2011-12-19 2015-04-27 富士通株式会社 プログラム、情報処理装置および方法
JPWO2013114911A1 (ja) * 2012-02-01 2015-05-11 日本電気株式会社 リスク評価システム、リスク評価方法、及びプログラム
JP2018169969A (ja) * 2017-03-30 2018-11-01 Kddi株式会社 信頼性判定装置、信頼性判定システムおよびソースコード共有システム
WO2023276038A1 (ja) * 2021-06-30 2023-01-05 楽天モバイル株式会社 サーバ管理装置、サーバ管理方法およびプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011291640B2 (en) * 2010-08-18 2015-11-12 Security First Corp. Systems and methods for securing virtual machine computing environments
WO2012070294A1 (ja) * 2010-11-26 2012-05-31 日本電気株式会社 可用性評価装置及び可用性評価方法
US20130198637A1 (en) * 2012-01-27 2013-08-01 Sungard Availability Services Lp Cloud service dashboard
CA2869425A1 (en) 2012-04-06 2013-10-10 Security First Corp. Systems and methods for securing and restoring virtual machines
TW201426551A (zh) * 2012-12-26 2014-07-01 Hon Hai Prec Ind Co Ltd 虛擬機啟動排程系統及方法
US9075704B2 (en) * 2013-01-25 2015-07-07 Hewlett-Packard Development Company, L.P. Mitigating risks during a high availibility and disaster recovery (HA/DR) rehearsal
US10162656B2 (en) 2014-11-26 2018-12-25 Vmware, Inc. Minimizing guest operating system licensing costs in a processor based licensing model in a virtual datacenter
US11182713B2 (en) 2015-01-24 2021-11-23 Vmware, Inc. Methods and systems to optimize operating system license costs in a virtual data center
JP2017033079A (ja) * 2015-07-29 2017-02-09 富士通株式会社 ソフトウェア導入支援プログラム、ソフトウェア導入支援装置およびソフトウェア導入支援方法
US10346237B1 (en) * 2015-08-28 2019-07-09 EMC IP Holding Company LLC System and method to predict reliability of backup software
US10523702B2 (en) * 2015-12-23 2019-12-31 Mcafee, Llc Methods and apparatus to control network connections
CN109117115A (zh) * 2018-07-16 2019-01-01 精硕科技(北京)股份有限公司 数据运算调度处理方法及装置、存储介质、处理器
CN109522193A (zh) * 2018-10-22 2019-03-26 网宿科技股份有限公司 一种运维数据的处理方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH027136A (ja) * 1988-06-27 1990-01-11 Toshiba Corp 稼働状況管理装置
JP2001265538A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体
WO2010023756A1 (ja) * 2008-08-29 2010-03-04 富士通株式会社 仮想プロセッサを含む情報処理装置、情報処理方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH027136A (ja) * 1988-06-27 1990-01-11 Toshiba Corp 稼働状況管理装置
JP2001265538A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体
WO2010023756A1 (ja) * 2008-08-29 2010-03-04 富士通株式会社 仮想プロセッサを含む情報処理装置、情報処理方法、およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013094006A1 (ja) * 2011-12-19 2015-04-27 富士通株式会社 プログラム、情報処理装置および方法
JPWO2013114911A1 (ja) * 2012-02-01 2015-05-11 日本電気株式会社 リスク評価システム、リスク評価方法、及びプログラム
JP2014056471A (ja) * 2012-09-13 2014-03-27 Toshiba Corp 制御システム
US20140157063A1 (en) * 2012-12-05 2014-06-05 International Business Machines Corporation Evaluating Reliability of a Software Module Using Development Life Cycle
US20140157235A1 (en) * 2012-12-05 2014-06-05 International Business Machines Corporation Evaluating Reliability of a Software Module Using Development Life Cycle
US9146792B2 (en) * 2012-12-05 2015-09-29 International Business Machines Corporation Evaluating reliability of a software module using development life cycle
US9152486B2 (en) * 2012-12-05 2015-10-06 International Business Machines Corporation Evaluating reliability of a software module using development life cycle
JP2015069449A (ja) * 2013-09-30 2015-04-13 株式会社日立システムズ 情報システム
JP2018169969A (ja) * 2017-03-30 2018-11-01 Kddi株式会社 信頼性判定装置、信頼性判定システムおよびソースコード共有システム
WO2023276038A1 (ja) * 2021-06-30 2023-01-05 楽天モバイル株式会社 サーバ管理装置、サーバ管理方法およびプログラム

Also Published As

Publication number Publication date
US20130198370A1 (en) 2013-08-01
JP5477602B2 (ja) 2014-04-23
JPWO2011142042A1 (ja) 2013-07-22

Similar Documents

Publication Publication Date Title
JP5477602B2 (ja) サーバの信頼性可視化方法、計算機システム及び管理サーバ
EP3425512B1 (en) Software analytics platform
US8595737B2 (en) Method for migrating a virtual server to physical server according to a variation ratio, a reference execution time, a predetermined occupied resource amount and a occupancy amount
JP5719974B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US8191069B2 (en) Method of monitoring performance of virtual computer and apparatus using the method
US8006134B2 (en) Method for analyzing fault caused in virtualized environment, and management server
JP4651127B2 (ja) 仮想マシンコンピュータシステム及び仮想マシンコンピュータシステムのフェールセーフ方法
CN110417686B (zh) 云资源动态调度系统
US20110246835A1 (en) Management server and management system
US8429455B2 (en) Computer system management method and management system
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
US9135078B2 (en) Configuration information management server, configuration information management method and configuration management program
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
US20110113429A1 (en) Incident management method and operation management server
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
US9021078B2 (en) Management method and management system
JP5740338B2 (ja) 仮想環境運用支援システム
EP2562651A1 (en) Management system and management method for computer system
CN107453888A (zh) 高可用性的虚拟机集群的管理方法及装置
CN107168819B (zh) 一种操作系统重启方法及装置
US20140165058A1 (en) System resource management method for virtual system
Brandt et al. New systems, new behaviors, new patterns: Monitoring insights from system standup
CN110928679B (zh) 一种资源分配方法及装置
JP6234759B2 (ja) 情報システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10851424

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012514673

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13642825

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10851424

Country of ref document: EP

Kind code of ref document: A1