WO2014080492A1 - 計算機システム、クラスタ管理方法、及び管理計算機 - Google Patents

計算機システム、クラスタ管理方法、及び管理計算機 Download PDF

Info

Publication number
WO2014080492A1
WO2014080492A1 PCT/JP2012/080326 JP2012080326W WO2014080492A1 WO 2014080492 A1 WO2014080492 A1 WO 2014080492A1 JP 2012080326 W JP2012080326 W JP 2012080326W WO 2014080492 A1 WO2014080492 A1 WO 2014080492A1
Authority
WO
WIPO (PCT)
Prior art keywords
restore
computers
computer
information
server
Prior art date
Application number
PCT/JP2012/080326
Other languages
English (en)
French (fr)
Inventor
洋司 大西
記弘 仲
高本 良史
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US13/824,575 priority Critical patent/US9201740B2/en
Priority to PCT/JP2012/080326 priority patent/WO2014080492A1/ja
Publication of WO2014080492A1 publication Critical patent/WO2014080492A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Definitions

  • the present invention relates to a system, a method, and a computer for realizing high-speed computer switching when a failure occurs in a computer system configured with a cluster.
  • a cluster system including an active server that executes a job and a standby server that takes over the job when a failure occurs is used.
  • a cold standby system is known.
  • data necessary for business execution is stored in at least one of an external storage system and an internal storage device provided in a server.
  • the active server and the standby server are connected to the same storage system via a SAN (Storage Area Network). Normally, a communication path between the active server and the storage system is established, and the active server executes a job using data stored in the storage system.
  • SAN Storage Area Network
  • a cluster system using a storage system is used in a system that places importance on reliability, and a cluster system that uses an internal storage device is used in a system that places importance on price.
  • a cluster system using a storage system the communication path between the active server and the storage system is switched to the communication path between the standby server and the storage system.
  • a cluster system using an internal storage device backup data of data stored in the internal storage device of the active server is acquired, and the backup data is restored to the internal storage device of the standby server.
  • the management server distributes, in advance, a disk image similar to the business service provided by the active server in which a failure has occurred to the standby server. As a result, the time until the failover is completed can be shortened.
  • Patent Document 1 when the disk image service distributed to the standby server is different from the job of the active server in which a failure has occurred, it is necessary to redistribute the disk image of the active server. For this reason, the time until completion of failover may not be shortened. In addition, since the disk image distributed to the standby server is different from the state of the active server at the time of the failure, the business state of the active server before the failure cannot be restored. That is, there is a problem that the disk image distributed to the standby server becomes obsolete.
  • an object of the present invention is to provide a system and method capable of distributing an appropriate disk image to a standby server in advance and restoring the business state of an active server before the occurrence of a failure.
  • a typical example of the invention disclosed in the present application is as follows. That is, a computer system comprising a plurality of computers and a management computer that manages a cluster composed of the plurality of computers, wherein each of the plurality of computers includes a first processor and the first processor. A first memory to be connected; a storage device connected to the first processor; and a first network interface connected to the first processor, wherein the management computer comprises: a second processor; A plurality of computers having a second memory connected to a second processor and a second network interface connected to the second processor, and constituting the cluster, using the storage device And a plurality of second computers that take over the work executed by the first computer in which a failure has occurred.
  • the management computer includes a plurality of backup acquisition units that acquire backup images of the plurality of first computers, one or more first computers, and one or more second computers.
  • a restore pair management unit that generates a restore pair for each of the plurality of restore pairs, and selects a common image to be restored to the one or more second computers included in one restore pair, and When the server management information for managing the hardware configuration information and the software configuration information of each of the plurality of computers constituting the cluster is held, and the restore pair management unit detects that the cluster configuration has been changed
  • the plurality of first computers have a plurality of groups having a common software configuration for providing the business.
  • At least one or more second computers are allocated to each of the groups, and for each of the plurality of groups, one or more first computers included in one group, and at least one allocated to the one group.
  • One or more restore pairs are generated by associating with one or more second computers, and for each of the plurality of restore pairs, the one or more first computers included in the one restore pair.
  • the common image is determined from the backup images, the restore pair identification information, and the one or more first computer identification information included in the restore pair.
  • restore pair management information in which the identification information of the one or more second computers included in the restore pair and the identification information of the common image of the restore pair are associated with each other.
  • the plurality of first computers in the restore pair have the same software configuration for providing business, there is no need to distribute the backup image to the standby server again.
  • the difference between the common image and each backup image of the first computer included in the restore pair can be reduced. Therefore, an appropriate backup image can be distributed to the second computer, and quick switching to the second computer can be realized.
  • FIG. 1 is a block diagram showing a configuration of a computer system according to the first embodiment of the present invention.
  • the computer system includes a management server 100, a plurality of servers 110, a plurality of storage apparatuses 120, an external storage apparatus 180, an FC (Fiber Channel) -SW 130, and a hardware configuration change detection unit 150.
  • the management server 100 is connected to a plurality of servers 110, a plurality of storage apparatuses 120, and a hardware configuration change detection unit 150 via a network 140. Further, the management server 100 is connected to the external storage device 180 via a network or directly.
  • the hardware configuration change detection unit 150 is connected to a plurality of servers 110.
  • the plurality of servers 110 are connected to the plurality of storage apparatuses 120 via the SAN configured by the FC-SW 130.
  • the present invention is not limited to the connection type of the network 140, and a WAN (Wide Area Network) or a LAN (Local Area Network) can be considered.
  • the hardware configuration change detection unit 150 may be connected to the plurality of servers 110 via a network or directly.
  • the server 110 is a computer that executes business. This embodiment includes an active server 110 that actually executes a job and a standby server 110 that takes over the job when a failure occurs in the active server 110.
  • the active server 110 uses the internal storage device 305 (see FIG. 3) or LU (Logical Unit) 121 to execute a predetermined job. In this embodiment, it is assumed that the active server 110 executes a job using both the internal storage device 305 (see FIG. 3) and the LU 121.
  • the present invention has the same effect even when the active server 110 executes business using only the internal storage device 305 (see FIG. 3).
  • the hardware configuration and software configuration of the server 110 will be described later with reference to FIG.
  • the active server 110 and the standby server 110 have the same hardware configuration.
  • a computer system configured with a cold standby cluster is assumed.
  • a cold standby group 160 is configured from a plurality of servers 110.
  • the business is taken over between the servers 110 included in the cold standby group 160.
  • the standby server 110 is in a power-off state.
  • the present embodiment is characterized in that a plurality of restore pairs 170 are generated in the cold standby group 160, as will be described later.
  • the restore pair 170 is a group composed of one or more active servers 110 and one or more standby servers 110.
  • the restore pair 170 is generated so that efficient backup image acquisition and high-speed backup image restoration can be realized. A method for generating the restore pair 170 will be described later.
  • the standby server 110 included in the same restore pair 170 takes over the business.
  • a restore pair 1 composed of an active server A, an active server B, and a standby server X
  • a restore pair 2 composed of an active server C and a standby server Y are generated.
  • the hardware configuration change detection unit 150 detects a change in the hardware configuration of the server 110.
  • the hardware configuration change detection unit 150 is described as one device, but the present invention is not limited to this.
  • the management server 100, the server 110, or the storage device 120 may include the hardware configuration change detection unit 150 as a program module.
  • the management server 100 manages the entire computer system including a cold standby cluster. Specifically, the management server 100 generates a restore pair 170 and acquires a backup image of the active server 110 for each restore pair 170. Further, the management server 100 monitors the behavior of the active server 110 and switches to the standby server 110 when a failure of the active server 110 is detected.
  • the management server 100 includes a server management unit 101 and a backup unit 102 in order to realize the control described above.
  • the server management unit 101 manages server 110 information and cluster information.
  • the backup unit 102 acquires a backup image necessary for taking over the business.
  • the backup unit 102 generates a restore pair 170 in order to obtain an optimal backup image.
  • the server management unit 101 and the backup unit 102 cooperate with each other to execute server switching processing.
  • the backup unit 102 executes a backup image restore process to the standby server 110.
  • the hardware configuration and software configuration of the management server 100 will be described later with reference to FIG.
  • the storage device 120 provides a storage area to be allocated to the active server 110.
  • the storage apparatus 120 includes a disk controller (not shown), a plurality of storage devices (not shown), and a disk interface (not shown). Further, the storage apparatus 120 includes a management interface 122 for connecting to the management server 100.
  • the storage apparatus 120 generates an LU 121 from storage areas of a plurality of storage devices, and provides the LU 121 to the active server 110.
  • the LU 121 stores programs such as an OS (Operation System) and applications, and various types of information necessary for executing the programs. Further, as a storage device, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like can be considered. Further, the storage apparatus 130 may configure RAID using a plurality of storage devices.
  • the external storage device 180 stores programs and information necessary for the management server 100 to execute processing.
  • a backup image of the active server 110 is stored in the external storage device 180. It is assumed that the external storage device 180 has the same configuration as the storage device 120. Note that the external storage apparatus 180 may use a tape as a storage device.
  • the FC-SW 130 constitutes a SAN that connects a plurality of servers 110 and a plurality of storage apparatuses 120.
  • one FC-SW 130 constitutes a SAN, but a plurality of FC-SWs 130 may constitute a SAN.
  • the types of the management server 100 and the server 110 may be any of a physical server, a blade server, a virtualization server, a logical physical partition or a physically partitioned server, and the like.
  • the present invention is not limited to the types of the management server 100 and the server 110, and the effects of the present invention can be obtained.
  • FIG. 2 is a block diagram illustrating a hardware configuration and a software configuration of the management server 100 according to the first embodiment of this invention.
  • the management server 100 includes a processor 201, a memory 202, a network interface 203, and a disk interface 204.
  • the management server 100 may include an input device such as a keyboard and a mouse, and an output device such as a display.
  • the processor 201 includes one or more arithmetic devices and executes a program stored in the memory 202.
  • the processor 201 executes the program, the function of the management server 100 can be realized.
  • the program when the program is mainly described, it indicates that the processor 201 is executing the program.
  • the memory 202 stores a program executed by the processor 201 and information necessary for executing the program.
  • the program and information stored in the memory 202 will be described later.
  • the network interface 203 is an interface for communicating with other devices via the IP network.
  • the disk interface 204 is an interface for accessing the storage device 120 or the like.
  • one network interface 203 and one disk interface 204 are shown as representatives, but the management server 100 may include a plurality of network interfaces 203 and a plurality of disk interfaces 204.
  • the management server 100 when the management server 100 includes two network interfaces 203, it is conceivable that the management server 100 is connected to the management network via one network interface 203 and is connected to the business network via the other network interface 203. .
  • the memory 202 stores a program for realizing the server management unit 101 and the backup unit 102 and a management table group. Note that the memory 202 may store a program and information (not shown). First, the server management unit 101 will be described.
  • the server management unit 101 manages the hardware configuration and software configuration of the plurality of servers 110.
  • the server management unit 101 includes a plurality of program modules and a plurality of tables.
  • the server management unit 101 includes a server configuration information acquisition unit 211, a BIOS information acquisition unit 212, a cold standby group generation unit 213, a switching destination server selection unit 214, a WWN change unit 215, a BIOS information restore unit 216, a server A table 221 and a cold standby group table 222.
  • the server configuration information acquisition unit 211 acquires performance information of the server 110 such as a hardware configuration and a software configuration from the plurality of servers 110 included in the cold standby group 160 via the network 140.
  • the server configuration information acquisition unit 211 transmits an agent for collecting information to each server 110 and acquires performance information of the server 110 from the agent. Further, a method in which the server configuration information acquisition unit 211 acquires the performance information of the server 110 by inquiring of an OS running on the active server 110 is also conceivable.
  • the above-described method for acquiring the performance information of the server 110 is an example, and the present invention is not limited to this.
  • the BIOS information acquisition unit 212 acquires BIOS information from a plurality of active servers 110 included in the cold standby group 160 via the network 140.
  • the BIOS information includes the BIOS settings and the boot order in the active server 110.
  • BIOS information acquisition unit 212 acquires BIOS information by inquiring of an OS running on the active server 110 is also conceivable.
  • BIOS information acquisition method is merely an example, and the present invention is not limited to this.
  • the cold standby group generation unit 213 generates the cold standby group 160 in accordance with an instruction from an administrator or a user.
  • the switching destination server selection unit 214 is the standby server 110 that takes over the work of the active server 110, that is, the switching destination standby server. 110 is selected.
  • the WWN changing unit 215 switches the connection between the storage device 120 that provides a storage area for storing information necessary for business and the server 110. That is, the WWN changing unit 215 switches the LU connection from the active server 110 where the failure has occurred to the standby server 110.
  • the WWN changing unit 215 switches the WWN (World Wide Name) used by the server 110 to perform fiber channel communication with the LU 121.
  • the WWN is a unique device identifier.
  • an identifier equivalent to WWN such as iSCSI Qualified Name is changed.
  • the BIOS information restoration unit 216 restores the BIOS information acquired by the BIOS information acquisition unit 212 to the standby server 110 that is the switching destination.
  • the server table 221 stores information regarding the configuration of the plurality of servers 110. Specifically, the configuration information of the server 110 acquired by the server configuration information acquisition unit 211 and the BIOS information acquired by the BIOS information acquisition unit 212 are stored. Details of the server table 221 will be described later with reference to FIG.
  • the cold standby group table 222 stores information related to the configuration of the cold standby group 160. Specifically, information regarding the cold standby group 160 generated by the cold standby group generation unit 213 is stored. Details of the cold standby group table 222 will be described later with reference to FIG.
  • the backup unit 102 acquires a backup image of the active server 110 included in the cold standby group 160 and performs various settings for failure recovery.
  • the backup unit 102 includes a plurality of program modules and a plurality of tables.
  • the backup unit 102 includes a restore pair generation unit 231, a full backup acquisition unit 232, a common image determination unit 233, an individual image generation unit 234, a difference information reception unit 235, a backup acquisition / restore agent 236, and a restore unit 237.
  • the restore pair generation unit 231 generates a restore pair 170 based on the performance information of the server 110 and the like.
  • the full backup acquisition unit 232 acquires a full backup image of the active server 110.
  • the common image determination unit 233 determines a common image to be restored to the standby server 110 included in the restore pair 170.
  • the common image indicates a full backup image of any active server 110 included in the restore pair 170.
  • the individual image generation unit 234 generates an individual image that is difference data between the common image and the full backup image of each server 110.
  • the difference information receiving unit 235 acquires the difference information regarding the updated data among the data stored in the internal storage device 305 (see FIG. 3) after acquiring the full backup image. As will be described later, the difference information is acquired by a difference information acquisition unit 311 (see FIG. 3) operating on the active server 110.
  • the backup acquisition / restore agent 236 acquires a full backup image from the active server 110, and restores the full backup image, individual image, and difference information to the standby server 110.
  • the backup acquisition / restore agent 236 is deployed to the active server 110 when a full backup image is acquired, and is deployed to the standby server 110 when the backup image is restored.
  • the backup acquisition / restore agent 236 may be installed in the active server 110.
  • a method of storing in advance in the internal storage device 305 (see FIG. 3) of the active server 110 or the LU 121 used by the active server 110 is conceivable.
  • the restore unit 237 restores the backup image, individual image, and difference information necessary for taking over the work to the standby server 110.
  • the configuration change receiving unit 238 receives a notification that the hardware configuration and software configuration in the computer system have been changed. As a change in the hardware configuration, addition or deletion of the server 110 can be considered. Further, the software configuration can be changed by changing the OS of the active server 110, upgrading the OS, and adding or deleting an application.
  • the restore pair table 241 stores information for managing the restore pair 170 generated by the restore pair generation unit 231. Details of the restore pair table 241 will be described later with reference to FIG.
  • the full backup image configuration table 242 stores information for managing the full backup image of the active server 110 acquired from the start of operation of the business system to the present. Details of the full backup image configuration table 242 will be described later with reference to FIG.
  • the individual image configuration table 243 stores information for managing individual images. Details of the individual image configuration table 243 will be described later with reference to FIG.
  • the backup data table 244 stores information for managing the backup image in the latest active server 110. Details of the backup data table 244 will be described later with reference to FIG.
  • each of the plurality of program modules may be implemented together as one program module, or each of the plurality of functions possessed by one program module may be implemented as a plurality of program modules.
  • the management server 100 may include a restore pair management unit having functions realized by the restore pair generation unit 231, the common image determination unit 233, and the individual image generation unit 234. Further, the management server 100 may include a common image restore unit that restores a common image, an individual image restore unit that restores an individual image, and a differential information restore unit that restores differential information, instead of the restore unit 237.
  • FIG. 3 is a block diagram illustrating a hardware configuration and a software configuration of the server 110 according to the first embodiment of this invention.
  • the server 110 includes a processor 301, a memory 302, a network interface 303, and a disk interface.
  • the server 110 may include an input device such as a keyboard and a mouse, and an output device such as a display.
  • the processor 301 includes one or more arithmetic devices and executes a program stored in the memory 302.
  • the functions of the server 110 can be realized by the processor 301 executing the program.
  • the program when the program is mainly described, it indicates that the program is being executed by the processor 301.
  • the memory 302 stores a program executed by the processor 301 and information necessary for executing the program.
  • the program and information stored in the memory 302 will be described later.
  • the network interface 303 is an interface for communicating with other devices via the IP network.
  • the disk interface 304 is an interface for accessing the storage device 120 and the like.
  • one network interface 303 and one disk interface 304 are shown as representatives, but the management server 100 may include a plurality of network interfaces 303 and a plurality of disk interfaces 304.
  • the server 110 when the server 110 includes two network interfaces 303, it is conceivable that the server 110 is connected to a management network via one network interface 303 and is connected to a business network via the other network interface 303.
  • the internal storage device 305 stores information necessary for business execution. For example, a program for realizing an OS, an application, and the like is stored.
  • the storage area of the internal storage device 305 includes a file area in which one or more partitions are stored, and an area in which MBR (Master Boot Record) that manages the partition information and the configuration of the internal storage device 305 is stored. Including.
  • a plurality of files are stored in the partition.
  • a plurality of files are also referred to as a file set.
  • the memory 302 of the active server 110 stores a program for realizing the difference information acquisition unit 311 and the software configuration change detection unit 312. Although not shown, the memory 302 also stores an OS and applications. Since the standby server 110 is in a power-off state, the above-described program is not loaded onto the memory 302.
  • the difference information acquisition unit 311 monitors the state of the file stored in the internal storage device 305 and, when the data is updated, notifies the management server 100 that the file has been updated.
  • the notification includes file identification information and updated file contents as information about the updated file.
  • the software configuration change detection unit 312 monitors the configuration of the program in the active server 110 and, when the configuration of the program is changed, notifies the management server 100 that the configuration of the program has been changed. As the case where the program configuration is changed, a new application may be added, the OS version may be upgraded, the OS type may be changed, and the like.
  • FIG. 4 is an explanatory diagram illustrating an example of the server table 221 according to the first embodiment of this invention.
  • the server table 221 stores performance information and BIOS information of the server 110 included in the computer system.
  • the server table 221 includes a server name 401, a processor 402, a memory 403, a storage device 404, a read error count 405, an OS 406, a storage apparatus 407, a WWN 408, an LU 409, and BIOS information 410.
  • the processor 402, the memory 403, the storage device 404, the read error count 405, the OS 406, the storage device 407, the WWN 408, and the LU 409 store the performance information of the server 110 acquired by the server configuration information acquisition unit 211. Also, the BIOS information 410 stores the BIOS information acquired by the BIOS information acquisition unit 212.
  • the server name 401 stores identification information for uniquely identifying the server 110.
  • the name of the server 110 is used as the identification information of the server 110. Note that the present invention is not limited to this, and any information may be used as long as the information can uniquely identify the server 110 in the computer system.
  • the processor 402 stores performance information of the processor 301 included in the server 110.
  • the type of the processor 301 the number of clocks, the number of cores, and the like can be considered.
  • the type of the processor 301 indicates a product name or an architecture name of the processor 301.
  • the memory 403 stores performance information of the memory 302 included in the server 110.
  • the memory performance information the standard, capacity, latency and the like of the memory 302 can be considered.
  • the storage device 404 stores performance information of the internal storage device 305 included in the server 110.
  • the performance information of the internal storage device 305 the version of the storage device, the reading speed, the writing speed, the capacity, and the like can be considered.
  • the read error count 405 stores the error count when reading data in the internal storage device 305.
  • “0” is stored as an initial value.
  • the OS 406 stores information related to the type of OS running on the active server 110. Note that the OS is not running on the standby server 110. Therefore, the OS 406 of the entry corresponding to the standby server 110 is blank.
  • the storage device 407 stores identification information for uniquely identifying the storage device 120 connected to the active server 110 that executes the business.
  • the name of the storage device 120 is used as identification information. Note that the present invention is not limited to this, and any information may be used as long as the information can uniquely identify the storage apparatus 120 in the computer system.
  • the WWN 408 stores a WWN used when connected to the storage apparatus 120.
  • the standby server 110 is connected to the storage device 407 in advance in order to take over the work of the active server 110 when a failure occurs. Therefore, predetermined information is stored in the storage devices 407 and WWN 408 of entries corresponding to the standby server 110.
  • the LU 409 stores the performance information of the LU 121 assigned to the active server 110. As the performance information of the LU 121, the capacity of the LU 121 and the like can be considered. Note that the LU 121 is not allocated to the standby server 110, that is, the connection with the LU 121 is not activated. Therefore, the LU 409 of the entry corresponding to the standby server 110 is blank.
  • BIOS information 410 identification information of a file storing the BIOS information of the server 110 is stored.
  • BIOS information is information including BIOS settings, boot order, and the like.
  • the BIOS information is information necessary for starting the standby server 110 that takes over the business.
  • the performance information of the server 110 is not limited to that described above, and may include the performance of the network interface 303, the type of application executed on the server 110, and the like. Further, in a computer system in which a virtual computer is used as the active server 110 and the standby server 110, the performance information of the server 110 includes the type and version of a program that implements a virtualization unit that manages the virtual computer. Also good.
  • FIG. 5 is an explanatory diagram illustrating an example of the cold standby group table 222 according to the first embodiment of this invention.
  • the cold standby group table 222 stores information related to the configuration of the cold standby group 160. Specifically, the cold standby group table 222 includes a cold standby group name 501, an active server name 502, and a standby server name 503.
  • the cold standby group name 501 stores identification information for uniquely identifying the cold standby group 160.
  • the name of the cold standby group 160 is used as identification information of the cold standby group 160.
  • the present invention is not limited to this, and any information may be used as long as it can uniquely identify the cold standby group 160.
  • the active server name 502 identification information for uniquely identifying the active server 110 included in the cold standby group 160 is stored.
  • the standby server name 503 stores identification information for uniquely identifying the standby server 110 included in the cold standby group 160.
  • the same information as the server name 401 is used for the active server name 502 and the standby server name 503.
  • FIG. 6 is an explanatory diagram illustrating an example of the restore pair table 241 according to the first embodiment of this invention.
  • the restore pair table 241 stores information regarding the configuration of the restore pair 170. Specifically, the restore pair table 241 includes a restore pair name 601, a cold standby group name 602, a standby server name 603, an active server name 604, a priority 605, a common image name 606, and a restore flag 607.
  • the restore pair name 601 stores identification information for uniquely identifying the restore pair 170.
  • the name of the restore pair 170 is used as the identification information of the restore pair 170. Note that the present invention is not limited to this, and any information may be used as long as the information can uniquely identify the restore pair 170.
  • the cold standby group name 602 stores identification information for uniquely identifying the cold standby group 160 in which the restore pair 170 is generated.
  • the cold standby group name 602 uses the same information as the cold standby group name 501.
  • the standby server name 603 stores identification information for uniquely identifying the standby server 110 included in the restore pair 170
  • the active server name 604 stores the active server included in the restore pair 170. Identification information for uniquely identifying 110 is stored.
  • the same information as the standby server name 503 is used for the standby server name 603, and the same information as the active server name 502 is used for the active server name 604.
  • the priority 605 stores a value used when determining a common image. In this embodiment, it is assumed that the smaller the value is, the higher the priority is. In this embodiment, higher priority, that is, a smaller value is set for the active server 110 that is more likely to fail.
  • identification information of the common image in the restore pair 170 is stored.
  • the name of the common image is used as identification information for the common image.
  • the present invention is not limited to this, and any information may be used as long as the information can uniquely identify the common image.
  • the restore flag 607 information indicating whether or not the common image has been restored in the standby server 110 is stored.
  • “not yet” is stored in the restore flag 607
  • the restore flag 607 “Done” is stored.
  • one restore pair 170 includes one standby server 110 and one or more active servers 110.
  • the restore pair 170 may be composed of a plurality of standby servers 110 and a plurality of active servers. In this case, it is desirable that the number of standby servers 110 included in the restore pair 170 is smaller than the number of active servers 110 included in the restore pair 170. This is because it is necessary to prepare a large number of standby servers 110 in the computer system, which is costly and computer resources are not effectively utilized.
  • FIG. 7 is an explanatory diagram illustrating an example of the full backup image configuration table 242 according to the first embodiment of this invention.
  • the full backup image configuration table 242 stores information on the configuration of the full backup image acquired from the active server 110. Specifically, the full backup image configuration table 242 includes a full backup image name 701, an active server name 702, an MBR image name 703, a file set name 704, and a time stamp 705.
  • the full backup image name 701 identification information for identifying the full backup image acquired from the active server 110 is stored.
  • the name of the full backup image is used as identification information of the full backup image. Note that the present invention is not limited to this, and any information may be used as long as the information can identify the full backup image.
  • the active server name 702 stores identification information for uniquely identifying the server 110 from which the full backup image has been acquired.
  • the active server name 702 uses the same information as the active server name 502.
  • the MBR image name 703 identification information for uniquely identifying the MBR image included in the storage area of the internal storage device 305 is stored.
  • the name of the MBR image is used as the identification information of the MBR image.
  • the present invention is not limited to this, and any information may be used as long as it is information that can uniquely identify an MBR image.
  • identification information for identifying the file set stored in the partition is stored.
  • the partition name and the file set name are used as identification information. Note that the present invention is not limited to this, and any information may be used as long as the file set can be identified.
  • the time stamp 705 stores the time when the full backup image is generated.
  • the full backup image configuration table 242 stores information about the deployed image deployed on the active server 110 or installed on the active server 110. Stores information about the image. In this case, the MBR image name 703, the file set name 704, and the time stamp 705 are left blank.
  • FIG. 8 is an explanatory diagram illustrating an example of the individual image configuration table 243 according to the first embodiment of this invention.
  • the individual image configuration table 243 stores information on the configuration of the individual image, which is difference data between the common image and the full backup image of each server 110. Specifically, the individual image configuration table 243 includes an individual image name 801, an MBR image name 802, file set names 803 and 804, and a time stamp 805.
  • identification information for uniquely identifying the individual image is stored.
  • the name of the individual image is used as identification information of the individual image.
  • this invention is not limited to this, What kind of information may be sufficient as long as it is information which can identify an individual image.
  • the MBR image name 802 stores identification information for uniquely identifying the MBR image included in the full backup image of the server 110.
  • the same information as the MBR image name 703 is used for the MBR image name 802.
  • the file set name 803 stores the identification information of the file set added or updated from the common image among the difference data between the common image and the full backup image of the server 110.
  • the file set name 804 stores identification information of a file deleted from the common image among the difference data between the common image and the full backup image of the server 110.
  • the same information as the file set name 704 is used for the file set name 803 and the file set name 804.
  • the time stamp 805 stores the time when the individual image is generated.
  • FIG. 9 is an explanatory diagram illustrating an example of the backup data table 244 according to the first embodiment of this invention.
  • the backup data table 244 stores information for managing the latest backup image of the active server 110. Specifically, the backup data table 244 includes an active server name 901, a common image name 902, an individual image name 903, a difference information name 904, and a time stamp 905.
  • identification information for uniquely identifying the active server 110 is stored.
  • the same information as the server name 401 is used.
  • common image name 902 identification information for uniquely identifying the common image in the restore pair 170 including the active server 110 corresponding to the active server name 901 is stored.
  • the same information as the common image name 606 is used.
  • the individual image name 903 identification information for uniquely identifying the individual image generated for the active server 110 is stored.
  • the individual image name 903 uses the same information as the individual image name 801.
  • the difference information name 904 stores identification information for uniquely identifying the difference information that is updated data of the active server 110 during the period when the full backup image is acquired.
  • the name of the difference information is used as information for identifying the difference information.
  • the time stamp 905 stores the time when the difference information is generated.
  • FIG. 10 is an explanatory diagram showing an outline of processing in the first embodiment of the present invention.
  • a business system is built on the computer system.
  • the following processing is executed.
  • the management server 100 First, software such as an OS is manually installed in the server 110 or deployed from the management server 100 or the like.
  • the management server 100 generates the cold standby group 160 based on an input from the administrator or the user. For example, the administrator or the user sets various information for generating the cold standby group 160 using a predetermined interface.
  • the management server 100 acquires a full backup image of the active server 110.
  • the management server 100 generates a plurality of restore pairs 170 and determines a common image in each restore pair 170.
  • the management server 100 restores the common image determined by the standby server 110 in each restore pair. Furthermore, the management server 100 generates an individual image of the active server 110 included in each restore pair.
  • the management server 100 When a business system is constructed and operation of the system is started, the management server 100 periodically acquires a full backup image. When acquiring a full backup image, the following processing is executed.
  • the management server 100 acquires a full backup image of the active server 110.
  • the management server 100 generates a plurality of restore pairs 170 and determines a common image in each restore pair 170.
  • the management server 100 restores the common image determined by the standby server 110 in each restore pair. Furthermore, the management server 100 generates an individual image of the active server 110 included in each restore pair.
  • the management server 100 acquires the full backup image, and acquires the difference information until the next full backup image is acquired.
  • the management server 100 monitors the behavior of the active server 110 during operation of the business system, and executes the following processing when a failure of the active server 110 is detected.
  • the management server 100 executes server switching processing. At this time, the standby server 110 in the restore pair 170 including the active server 110 in which the failure has occurred takes over the work of the active server 110.
  • the management server 100 uses the individual image and the common image of the active server 110 in which the failure has occurred, and the active server in a state in which business can be executed, that is, when a full backup image is acquired. 110 state is restored.
  • the management server 100 may apply the individual image to the common image. Therefore, the recovery at the time of failure of the active server 110 can be speeded up.
  • the management server 100 can restore the state of the active server 110 before the failure occurs by applying the difference information.
  • the management server 100 acquires a full backup image of the active server 110 after the server switching process is completed.
  • the management server 100 generates a plurality of restore pairs 170 and determines a common image in each restore pair 170.
  • the management server 100 restores the common image determined by the standby server 110 in each restore pair. Furthermore, the management server 100 generates an individual image of the active server 110 included in each restore pair.
  • the common image is restored to the standby server 110 for each restore pair 170. At this time, it is necessary to restore the common image that can provide the work executed by the active server 110 in which the failure has occurred. This is because the server 110 can be switched at high speed by reducing the process of restoring the backup image to the standby server 110 again.
  • the management server 100 classifies the active server 110 having the same or similar business type and business execution configuration based on the configuration of the active server 110, and restore pair 170 based on the classification result. Is generated. As a result, it is possible to solve the problem that the task realized by the common image is different from the task executed by the active server 110 in which a failure has occurred.
  • the management server 100 can restore the state of the active server 110 before the failure occurs by applying the difference information generated during the full backup image acquisition cycle when the server 110 is switched. .
  • FIGS. 11A and 11B are flowcharts for explaining an overview of processing executed by the management server 100 according to the first embodiment of the present invention.
  • the management server 100 sets software such as an OS and applications in the server 110 in order to construct a business system (step S1101).
  • the management server 100 receives an input of software from an administrator or a user and installs the software on a predetermined server 110.
  • the management server 100 reads software from the external storage device 180 and deploys the software to a predetermined server 110.
  • the server configuration information acquisition unit 211 acquires the performance information of the server 110 from the server 110
  • the BIOS information acquisition unit 212 acquires the BIOS information from the server 110 set as the active server 110.
  • the server management unit 101 updates the server table 221 based on the acquired performance information and BIOS information of the server 110. Further, the server management unit 101 stores the acquired BIOS information in the external storage apparatus 180. Since a method for acquiring various information from the server 110 may use a known technique, the description thereof is omitted.
  • the management server 100 generates the cold standby group 160 based on the input from the administrator or the user (step S1102).
  • the cold standby group generation unit 213 generates a cold standby group.
  • the method for generating the cold standby group 160 is not described because a known technique may be used.
  • the management server 100 starts monitoring the active server 110 after the cold standby group 160 is generated. Note that the present invention is not limited to the start timing of the monitoring process of the active server 110.
  • the management server 100 acquires a full backup image of the active server 110 included in the cold standby group 160 (step S1103). Specifically, the following processing is executed.
  • the management server 100 transmits a backup acquisition / restore agent 236 to the active server 110 and instructs acquisition of a full backup image.
  • the backup acquisition / restore agent 236 operating on the active server 110 acquires a full backup image of the internal storage device 305 and transmits the acquired full backup image to the management server 100.
  • the full backup acquisition unit 232 of the management server 100 stores the received full backup image in the external storage device 180 and updates the full backup image configuration table 242. In addition, the management server 100 initializes the backup data table 244. This is because the backup data table 244 is a table for managing the latest backup image.
  • the management server 100 determines whether or not the business executed using the business system has ended (step S1104). For example, when the cold standby group 160 is deleted due to the suspension of the business, the management server 100 determines that the business is terminated.
  • the management server 100 ends the series of processes.
  • the management server 100 executes a restore pair generation process (step S1105). Details of the restore pair generation process will be described later with reference to FIGS. 14 and 15.
  • the management server 100 executes a common image restore process (step S1106). Details of the common image restoration process will be described later with reference to FIG.
  • the management server 100 executes an individual image generation process (step S1107). Details of the individual image generation processing will be described later with reference to FIG.
  • FIG. 12 is an explanatory diagram showing a backup image in the first embodiment of the present invention.
  • FIG. 12 shows a common image, a full back image of server A, and a full backup image of server D as an example.
  • the internal storage device 305 of the server 110 includes an MBR and one or more partitions.
  • a partition is a logical partition, and a plurality of files (file sets) are stored in the partition.
  • the management server 100 generates the individual image A by comparing the common image with the full backup image of the server A, and also compares the common image with the full backup image D of the server D. An individual image D is generated.
  • the management server 100 determines whether or not a failure of the active server 110 has been detected (step S1108). Note that the timing of detecting a failure in the active server 110 is not limited to this, and may be detected in any processing step.
  • the management server 100 proceeds to step S1010.
  • step S1109 If it is determined that a failure of the active server 110 has been detected, the management server 100 executes server switching processing (step S1109), and then returns to step S1108. Details of the server switching process will be described later with reference to FIG.
  • the management server 100 determines whether or not a change in the system configuration has been detected (step S1110).
  • the management server 100 when the configuration change receiving unit 238 of the management server 100 receives a notification of addition of the server 110 or deletion of the server 110 from the hardware configuration change detection unit 150, the management server 100 has detected a change in the system configuration. Is determined. In addition, the management server 100 determines that a change in the system configuration has been detected when the software configuration change detection unit 312 is notified of an OS version change, an OS change, or a virtualization unit change.
  • the management server 100 returns to step S1103. This is because it is necessary to generate the restore pair 170 anew.
  • the management server 100 determines whether or not a difference has been detected in the internal storage device 305 of the active server 110 (step S1111).
  • the management server 100 determines that the difference of the internal storage device 305 of the active server 110 has been detected. .
  • the difference information acquisition unit 311 transmits the difference information together with the identification information of the active server 110 and the generation time of the difference information.
  • the management server 100 proceeds to step S1113.
  • the management server 100 stores the received difference information in the external storage device 180 and updates the backup data table 244 (step S1112). ). Specifically, the following processing is executed.
  • the difference information receiving unit 235 of the management server 100 refers to the backup data table 244 and searches for an entry that matches the received identification information of the active server 110.
  • the management server 100 stores the received difference information identification information in the difference information name 904 of the searched entry, and stores the received generation time in the time stamp 905 of the searched entry.
  • FIG. 13 is an explanatory diagram illustrating an example of the backup table 245 according to the first embodiment of this invention.
  • the management server stores the identification information and generation time of the difference information in the entry of the corresponding active server 110. That is, when a plurality of difference information is received from one active server 110, the management server 100 stores information on the plurality of difference information in an entry corresponding to the active server 110.
  • the management server 100 determines whether or not a certain period has elapsed after acquiring the full backup image (step S1113). That is, it is determined whether the full backup image acquisition cycle has elapsed.
  • the management server 100 When it is determined that the full backup image acquisition cycle has not elapsed, the management server 100 returns to Step S1111.
  • the management server 100 When it is determined that the full backup image acquisition cycle has elapsed, the management server 100 returns to Step S1103.
  • FIG. 14 is a flowchart illustrating an example of a restore pair generation process executed by the management server 100 according to the first embodiment of this invention.
  • the OS included in the image restored to the standby server 110 is different from the OS of the active server 110 in which a failure has occurred, the restored image cannot be used and a full backup of the active server 110 is performed. You need to restore the image again. Therefore, high-speed server 110 switching cannot be realized.
  • a full backup image is efficiently restored by classifying the plurality of active servers 110 included in the cold standby group 160 into servers 110 having the same or similar configuration for executing business.
  • a restore pair 170 is generated.
  • the server 110 can be switched at high speed.
  • the restore pair generation unit 231 executes a restore pair generation process for each cold standby group 160.
  • a case where there is one cold standby group 160 will be described as an example.
  • the restore pair generation unit 231 classifies the plurality of active servers 110 included in the cold standby group 160 into a plurality of groups (step S1401). Specifically, the following processing is executed.
  • the restore pair generation unit 231 identifies a plurality of active servers 110 included in the cold standby group 160 with reference to the cold standby group table 222. In addition, the restore pair generation unit 231 refers to the server table 221 and acquires information regarding the configurations of all identified active servers 110.
  • the restore pair generation unit 231 acquires information stored in the OS 406 of the server table 221.
  • the restore pair generation unit 231 classifies the plurality of active servers 110 into a plurality of groups for each type of OS. Note that the group includes at least one active server 110.
  • the restore pair generation unit 231 divides a plurality of active servers 110 into a plurality of groups based on a hardware configuration such as a type of the active server 110, a software type such as an application type, or a type of virtualization software. You may classify.
  • the restore pair generation unit 231 assigns a plurality of standby servers 110 included in the cold standby group 160 to each group (step S1402).
  • the restore pair generation unit 231 determines the number of standby servers 110 to be assigned to each group based on the number of active servers 110 included in each group.
  • the restore pair generation unit 231 refers to the server table 221 to determine, for each group, the standby server 110 having the same or similar hardware configuration as that of the active server 110 included in the group. Assign only numbers.
  • the restore pair generation unit 231 determines, for each group, the priority order of the active server 110 included in the group (step S1403).
  • the restore pair generation unit 231 determines that the priority of the active server 110 that may cause a failure is higher. For example, the following determination method can be considered.
  • One method is to make a determination based on failure history information such as a read error of the internal storage device 305.
  • the restore pair generation unit 231 refers to the server table 221 and determines a higher priority in descending order of the read error count 405 of the entry corresponding to the active server 110 included in the group.
  • Another method is a method of determining based on the operating time of the active server 110.
  • the restore pair generation unit 231 determines a higher priority in order from the active server 110 having a longer operation time.
  • the restore pair generation unit 231 may determine a higher priority in the order of entries in the server table 221.
  • the above-described priority determination method is an example, and the present invention is not limited to this.
  • the restore pair generation unit 231 generates a plurality of restore pairs 170 by associating the active server included in each group with the standby server 110 assigned to each group (step S1404). Specifically, the following processing is executed.
  • the restore pair generation unit 231 selects one group to be processed.
  • the restore pair generation unit 231 generates one or more restore pairs 170 by associating the active server 110 with the standby server 110 based on the priority order of the active server 110 included in the selected group. To do.
  • the restore pair generation unit 231 determines identification information of the plurality of generated restore pairs 170.
  • one restore pair 170 is generated.
  • the spare server 110 is generated.
  • many restore pairs 170 as the number of servers 110 are generated.
  • the following method can be considered.
  • the restore pair generation unit 231 associates one standby server 110 with the active server 110 whose priority value is an odd number, and the other Are associated with the active server 110 having an even priority.
  • the restore pair generation unit 231 assigns numbers “0” to “n ⁇ 1” to the standby servers 110.
  • the restore pair generation unit 231 calculates a remainder obtained by dividing the priority value of the active server 110 by “n”.
  • the restore pair generation unit 231 associates the standby server whose assigned number is “k” with the active server 110 whose calculated remainder is “k”.
  • the method described above is an example, and the present invention is not limited to this. Any method may be used as long as the active server 110 that is likely to cause a failure is associated with the standby server 110 so as not to concentrate on the single standby server 110.
  • a restore pair 170 is constituted by one spare server and one or more active servers 110.
  • the standby server 110 included in the restore pair 170 takes over the business.
  • the restore pair generation unit 231 executes the process described above for all groups.
  • the restore pair generation unit 231 updates the restore pair table 241 based on the generated information on the plurality of restore pairs 170 (step S1405). Specifically, the following processing is executed.
  • the restore pair generation unit 231 stores the identification information of each of the plurality of generated restore pairs 170 in the restore pair name 601 and stores the identification information of the cold standby group 160 in the cold standby group name 602.
  • the restore pair generation unit 231 stores the identification information of the standby server 110 included in the restore pair 170 in the standby server name 603, and the active server 110 included in the restore pair 170 in the active server name 604. The identification information of is stored. Further, the restore pair generation unit 231 stores the priority determined in step 1403 as the priority 605. At this time, the common image name 606 and the restore flag 607 are blank.
  • the restore pair generation unit 231 outputs an execution instruction for the common image determination process to the common image determination unit 233 (step S1406).
  • the restore pair generation unit 231 is in a waiting state until it receives a notification from the common image determination unit 233 that processing has been completed. Details of the common image determination process will be described later with reference to FIG.
  • the restore pair generation unit 231 updates the restore pair table 241 based on the processing result received from the common image determination unit 233 (step S1407), and ends the process.
  • the restore pair generation unit 231 identifies the entry to be updated by referring to the restore pair table 241 based on the identification information of the restore pair 170 included in the processing result.
  • the restore pair generation unit 231 stores the identification information of the determined common image in the common image name 606 of the identified entry, and stores “not yet” in the restore flag 607.
  • step S1403 may be omitted.
  • the restore pair generation unit 231 generates the restore pair 170 by associating the active server 110 included in each group with one or more standby servers 110 assigned to the group.
  • step S1401 to step S1404 will be described with reference to FIG.
  • step S1401 the following processing is executed.
  • the restore pair generation unit 231 refers to the cold standby group table 222, and the “cold standby group table 1” includes five active servers, server A, server B, server C, server D, and server E, as the active server 110. It is specified that the system server 110 is included.
  • the restore pair generation unit 231 refers to the server table 221 and classifies the group into a group 1 in which the OS 406 is “OS1” and a group 2 in which the OS 406 is “OS2”.
  • Group 1 includes server A, server B, server D, and server E, and group 2 includes server C.
  • step S1402 the following processing is executed.
  • the number of active servers 110 included in the group 1 is “4” and the number of active servers 110 included in the group 2 is “1”.
  • the number of standby servers 110 assigned to each group is determined so that the ratio of 4 to 1 is obtained. Note that the ratio is a guideline, and it is not always necessary to determine the number of standby servers 110 so as to completely match the ratio.
  • the restore pair generation unit 231 Since the number of standby servers 110 included in “cold standby group 1” is “3”, the restore pair generation unit 231 has two standby servers 110 in group 1 and group 2 based on the ratio described above. One spare server is assigned to. Here, it is assumed that the restore pair generation unit 231 assigns server X and server Y to group 1 and assigns server Z to group 2.
  • step S1403 the following processing is executed.
  • a priority order determination method based on the number of read errors 405 is applied will be described.
  • the restore pair generation unit 231 assigns a higher priority in the order of server D, server B, server A, and server E in group 1, and assigns a higher priority to server C in group 2.
  • step S1404 the following processing is executed.
  • the restore pair generation unit 231 associates server X with server D and server A, associates standby server Y with server B and server E, and associates server Z with server C. Three restore pairs 170 are generated.
  • FIG. 15 is a flowchart illustrating an example of the common image determination process executed by the management server 100 according to the first embodiment of the present invention.
  • the common image determination unit 233 starts the process when receiving an execution instruction for the common image determination process from the restore pair generation unit 231.
  • the common image determination unit 233 refers to the restore pair table 241 and selects the restore pair 170 to be processed from the plurality of generated restore pairs 170 (step S1501).
  • the common image determination unit 233 selects an entry for the restore pair 170 from the restore pair table 241. In this embodiment, it is assumed that entries are selected in order from the top of the restore pair table 241.
  • Steps S1501 to S1507 are loop processing of the restore pair 170.
  • the processing of steps S1502 to S1506 is repeatedly executed for each restore pair 170.
  • the common image determination unit 233 determines whether or not the full backup images of all the active servers 110 included in the selected restore pair 170 are deployment images (step S1502). That is, it is determined whether the process is a process when the business system is configured or a process when the business system is operated. When the full backup images of all the active servers 110 are deployment images, it is determined that the processing is performed when the business system is configured. Specifically, the following processing is executed.
  • the common image determination unit 233 refers to the restore pair table 241 and acquires identification information of all the active servers 110 included in the selected restore pair 170.
  • the common image determination unit 233 refers to the full backup image configuration table 242 based on the acquired identification information of the server 110, and identifies the full backup image of each active server 110 included in the selected restore pair 170. Get information. Specifically, the common image determination unit 233 searches for an entry that matches the identification information of the server 110 from which the active server name 702 is acquired, and identifies the full backup image from the full backup image name 701 of the searched entry. Get information.
  • the common image determination unit 233 determines whether the full backup image of each active server 110 included in the selected restore pair 170 is a deployment image based on the acquired identification information of the full backup image.
  • the common image determination unit 233 determines whether the full backup images of all the active servers 110 included in the selected restore pair 170 are deployment images based on the determination result described above.
  • the common image determination unit 233 selects the deployment image having the highest number of application times from the deployment images. (Step S1503).
  • the management server 100 holds the number of times of deployment image application and determines a common image based on the number of application times.
  • step S1502 If it is determined in step S1502 that the full backup images of all the active servers 110 included in the restore pair 170 are not deployment images, the common image determination unit 233 determines that all the active servers 110 included in the restore pair 170 The latest full backup image is selected (step S1504).
  • the common image determination unit 233 refers to the full backup image configuration table 242 and identifies entries corresponding to all the active servers 110 included in the restore pair 170. The common image determination unit 233 selects an entry having the latest time stamp 805 from among the identified entries.
  • the common image determination unit 233 identifies the common part of each full back image by comparing the selected full back images (step S1505).
  • the common image determination unit 233 sets the full server A, server B, and server C full. Compare backup images. That is, the common image determination unit 233 compares the full backup image of server A with the full backup images of server B and server C, and compares the full backup image of server B with the full backup images of server A and server C. The full backup image of server C is compared with the full backup images of server A and server B.
  • the common image determination unit 233 determines, as a common image, a full backup image that has the most common parts with other full backup images based on the comparison result of the full backup images (step S1506).
  • the full backup image having the largest number of common files or the largest data capacity of the common files is determined as the common image.
  • the number of files that the full back image of server A has in common with the full backup images of server B and server C is “100”
  • the full backup image of server B has the same file as the full backup images of server A and server C.
  • the full backup image of the server B is determined as the common image.
  • step S1507 if the processing has not been completed for all the restore pairs 170, the common image determination unit 233 returns to step S1502 and selects the next restore pair 170. In step S1507, when the processing has been completed for all the restore pairs 170, the common image determination unit 233 ends the processing.
  • the common image determination unit 233 transmits a process completion notification including the common image identification information and the restore pair identification information to the restore pair generation unit 231 after the processing is completed.
  • FIG. 16 is a flowchart illustrating an example of the common image restore process executed by the management server 100 according to the first embodiment of this invention.
  • the common image restore process is executed by the restore unit 237.
  • the restore unit 237 refers to the restore pair table 241 and selects a restore pair 170 to be processed from among a plurality of restore pairs 170 (step S1601).
  • the restore unit 237 selects an entry for the restore pair 170 from the restore pair table 241. In this embodiment, it is assumed that entries are selected in order from the top of the restore pair table 241.
  • Steps S1601 to S1604 are loop processing of the restore pair 170.
  • the processing of steps S1602 to S1603 is repeatedly executed for each restore pair 170.
  • the restore unit 237 restores the common image to the standby server 110 included in the selected restore pair 170 (step S1602). Specifically, the following processing is executed.
  • the restore unit 237 refers to the restore pair table 241 and identifies the common image based on the common image name 606 of the entry corresponding to the selected restore pair 170.
  • the restore unit 237 acquires a full backup image corresponding to the specified common image from the external storage device 180.
  • the restore unit 237 transmits an activation instruction together with the backup acquisition / restore agent 236 to the standby server 110 corresponding to the standby server name 603 of the entry. As a result, the backup acquisition / restore agent 236 operates on the standby server 110.
  • the restore unit 237 transmits the acquired full backup image to the standby server 110.
  • the backup acquisition / restore agent 236 operating on the standby server 110 restores the received image to the internal storage device 305.
  • the restore unit 237 updates the restore flag 607 of the restore pair table 241 (step S1603).
  • the restore unit 237 stores “Done” in the restore flag 607 of the restore pair table 241.
  • the restore unit 237 returns to step S1602 and selects the next restore pair 170.
  • the restore unit 237 ends the processing.
  • FIG. 17 is an explanatory diagram illustrating an example of the restore pair table 241 according to the first embodiment of this invention.
  • the restore pair table 241 shown in FIG. 17 shows a state after the common image restore process is completed.
  • FIG. 18 is a flowchart illustrating an example of an individual image generation process executed by the management server 100 according to the first embodiment of the present invention.
  • the common image determination unit 233 refers to the restore pair table 241 and selects a restore pair 170 to be processed from the plurality of restore pairs 170 (step S1801).
  • the common image determination unit 233 selects an entry for the restore pair 170 from the restore pair table 241. In this embodiment, it is assumed that entries are selected in order from the top of the restore pair table 241.
  • step S1801 to step S1811 is a loop processing of the restore pair 170.
  • the processing from step S1802 to step S1810 is repeatedly executed for each restore pair 170.
  • the individual image generation unit 234 selects one active server included in the selected restore pair 170 (step S1802).
  • step S1802 to step S1810 is a loop processing of the active server 110.
  • the processing in steps S1803 to S1809 is repeatedly executed for each active server 110.
  • the individual image generation unit 234 identifies the common image of the selected restore pair 170 and the full backup image of the selected active server 110 (step S1803). Specifically, the following processing is executed.
  • the individual image generation unit 234 refers to the restore pair table 241 to identify an entry corresponding to the selected restore pair 170, and acquires common image identification information from the common image name 606 of the identified entry. In addition, the individual image generation unit 234 identifies the entry of the full backup image corresponding to the common image by referring to the full backup image configuration table 242 based on the identification information of the common image.
  • the individual image generation unit 234 refers to the full backup image configuration table 242 and identifies an entry corresponding to the selected active server 110.
  • the common image of the selected restore pair 170 is also described as a target common image
  • the full backup image of the selected active server 110 is also described as a target full backup image.
  • the individual image generation unit 234 identifies the MBR image of the target full backup image (step S1804).
  • the individual image generation unit 234 specifies the MBR image of the target full backup image by referring to the MBR image name 703 of the entry of the specified active server 110.
  • the individual image generation unit 234 selects one partition from the file area of the target full backup image (step S1805).
  • step S1805 to step S1807 is a partition loop processing.
  • the process of step S1806 is repeatedly executed for each partition of the target full backup image.
  • the individual image generation unit 234 compares the partition of the target full backup image with the partition of the target common image corresponding to the partition, and records the difference file set (step S1806).
  • the individual image generation unit 234 records the changed file and the deleted file on the memory 202 as a difference file set from the file set stored in the target common image partition.
  • the difference file set may be recorded in the external storage device 180.
  • step S1807 when the processing has not been completed for all partitions of the target full backup image, the individual image generation unit 234 returns to step S1805 and executes the same processing for the next partition.
  • step S1807 when the processing is completed for all partitions of the target full backup image, the individual image generation unit 234, based on the MBR image specified in step S1804 and the difference file recorded in step S1806, An individual image is generated (step S1808).
  • the generated individual image is stored in the external storage device 180.
  • the individual image generation unit 234 does not have to generate a specific image.
  • the individual image generation unit 234 may generate information that can be recognized as an individual image by associating the MBR image and the difference file.
  • the individual image generation unit 234 updates the individual image configuration table 243 and the backup data table 244 based on the generated individual image information (step S1809).
  • the individual image configuration table 243 is updated as follows.
  • the individual image generation unit 234 adds an entry to the individual image configuration table 243, stores the identification information of the generated individual image in the individual image name 801 of the entry, and is specified as the MBR image name 802 in step S1802. MBR identification information is stored.
  • the individual image generation unit 234 stores the identification information of the added or updated file set in the difference file set in the file set name 803 of the added entry, and stores the identification information of the difference file set in the file set name 804. The identification information of the deleted file set is stored. Furthermore, the individual image generation unit 234 stores the time when the individual image is generated in the time stamp 805.
  • the backup data table 244 is updated as follows.
  • the individual image generation unit 234 adds a new entry to the backup data table 244 and stores the identification information of the selected active server 110 in the active server name 901 of the entry. Further, the individual image generation unit 234 stores the identification information of the identified common image in the common image name 902 of the added entry, and gives the identification information of the generated individual image to the individual image name 903.
  • difference information name 904 and the time stamp 905 are blank.
  • step S1809 The above is the processing of step S1809.
  • step S1810 if the individual image generation unit 234 has not completed processing for all the active servers 110 included in the selected restore pair 170, the individual image generation unit 234 returns to step S1802 and returns to the next active operation. The same server 110 is selected and the same processing is executed.
  • step 1810 If the processing has been completed for all active servers 110 included in the restore pair 170 selected in step 1810, the individual image generation unit 234 proceeds to step S1811.
  • step S1811 if the processing has not been completed for all the restore pairs 170, the process returns to step S1801 to select the next restore pair 170 and execute the same processing.
  • step S1811 if the processing has been completed for all the restore pairs 170, the individual image generation unit 234 ends the processing.
  • the individual image generation unit 234 reflects the difference information in the individual image when the difference information of a predetermined number or more is stored in the difference information name 904 of one entry of the backup data table 244 or periodically. As a result, a new individual image may be generated.
  • FIG. 19 is a flowchart illustrating an example of server switching processing executed by the management server 100 according to the first embodiment of this invention.
  • the management server 100 When the management server 100 detects a failure of the active server 110, the management server 100 starts server switching processing. In this embodiment, it is assumed that the server management unit 101 acquires the identification information of the active server 110 in which a failure has occurred and information such as the cause of the failure.
  • the present invention is not limited to the failure detection method of the active server 110. Any method may be used as long as it can identify the active server 110 in which the failure has occurred.
  • the management server 100 stops the active server 110 where the failure has occurred (step S1901).
  • the management server 100 transmits a stop instruction to the backup acquisition / restore agent 236 operating on the active server 110.
  • the backup acquisition / restore agent 236 changes the active server 110 to a power-off state.
  • the management server 100 executes a standby server selection process for selecting the standby server 110 (step S1902). Further, the management server 100 executes a restore process for restoring backup data to the selected standby server 110 (step S1903).
  • the management server 100 gives the WWN of the active server 110 to the standby server selected by the standby server selection process (step S1904).
  • the WWN changing unit 215 assigns the WWN used by the active server 110 to the standby server 110.
  • the management server 100 sets the BIOS setting information of the active server 110 in the standby server 110 selected by the standby server selection process (step S1905). Specifically, the following processing is executed.
  • the BIOS information restoration unit 216 searches the entry of the active server 110 with reference to the server table 221 based on the identification information of the active server 110.
  • the BIOS information restore unit 216 acquires identification information of the BIOS information of the active server 110 based on the BIOS information 410 of the searched entry.
  • the BIOS information restoration unit 216 acquires the specified BIOS information of the active server 110 from the external storage device 180 based on the identification information of the acquired BIOS information. Furthermore, the BIOS information restoration unit 216 sets the acquired BIOS information in the standby server 110.
  • the management server 100 activates the selected standby server 110 (step S1906) and ends the process. For example, the management server 100 transmits an activation instruction for the standby server 110 to the backup acquisition / restore agent 236 operating on the standby server 110.
  • FIG. 20 is a flowchart illustrating an example of a standby server selection process executed by the management server 100 according to the first embodiment of this invention.
  • the management server 100 determines whether or not the active server 110 in which the failure has occurred is the active server 110 included in the restore pair 170 (step S2001).
  • the switching destination server selection unit 214 refers to the active server name 604 of the restore pair table 241 based on the identification information of the active server 110 in which the failure has occurred. When an entry storing the identification information of the active server 110 in which the failure has occurred is found in the active server name 604, the switching destination server selection unit 214 determines that the active server in which the active server 110 is included in the restore pair 170. The server 110 is determined.
  • the management server 100 selects the standby server 110 from the standby servers 110 included in the restore pair 170. Select (step S2002), and the process ends.
  • a method may be considered in which the switching destination server selection unit 214 selects a standby server 110 having the same hardware configuration as that of the active server 110.
  • the present invention is not limited to the method for selecting the standby server 110 to be switched to.
  • the switching destination standby server 110 is automatically selected.
  • the management server 100 selects any standby server 110 from the standby servers 110 included in the cold standby group 160. Is selected (step S2003), and the process is terminated.
  • FIG. 21 is a flowchart illustrating an example of a restore process executed by the management server 100 according to the first embodiment of this invention.
  • the management server 100 determines whether or not the common image has been restored to the standby server 110 that is the switching destination (step S2101).
  • the restore unit 237 refers to the restore pair table 241 based on the identification information of the switching destination standby server 110 and searches for an entry corresponding to the standby server 110. The restore unit 237 determines whether or not “Done” is stored in the restore flag 607 of the retrieved entry.
  • the management server 100 restores the common image to the spare server 110 (step S2102), and proceeds to step S2103.
  • the restore unit 237 refers to the common image name 606 of the retrieved entry, identifies the common image, and acquires the specific common image from the external storage apparatus 180. Further, the restore unit 237 restores the acquired common image to the switching destination standby server 110.
  • the management server 100 restores the individual image of the active server 110 to the spare server 110 (step S2103). Specifically, the following processing is executed.
  • the restore unit 237 searches the entry corresponding to the active server 110 with reference to the backup data table 244 based on the identification information of the active server 110 where the failure has occurred.
  • the restore unit 237 refers to the individual image name 903 of the retrieved entry and specifies identification information of the individual image.
  • the restore unit 237 acquires an individual image from the external storage apparatus 180 based on the identification information of the specified individual image information, and restores the acquired individual image to the standby server 110.
  • the management server 100 restores the difference information of the active server 110 to the standby server 110 (step S2104), and ends the process. Specifically, the following processing is executed.
  • the restore unit 237 searches the entry of the active server 110 with reference to the backup data table 244 based on the identification information of the active server 110 where the failure has occurred.
  • the restore unit 237 refers to the difference information name 904 and the time stamp 905 of the retrieved entry, and acquires the difference information identification information and the generation time.
  • the restore unit 237 acquires the difference information from the external storage device 180 based on the identification information of the acquired difference information.
  • the restoration unit 237 restores the acquired difference information to the standby server 110 that is the switching destination in order from the oldest generation time.
  • step S2103 when the individual image itself is not generated, part of the processing in step S2103 is different. Specifically, the restoration unit 237 refers to the individual image name 903 of the searched entry, and the processing after specifying the identification information of the individual image is different.
  • the restore unit 237 refers to the individual image configuration table 243 based on the identified individual image identification information, and searches for an entry in which the individual image identification information acquired in the individual image name 801 is stored.
  • the restore unit 237 specifies information constituting the individual image based on the MBR image name 802 and the file set names 803 and 804 of the searched entry.
  • the restore unit 237 acquires information constituting the individual image from the external storage apparatus 180 and restores the acquired information to the standby server 110.
  • the present invention is characterized in that the active server 110 having a common configuration for executing business is included in the same restore pair 170. Further, the present invention is characterized in that a common image to be restored to the standby server 110 is determined for each restore pair 170.
  • the standby server 110 can take over the business only by reflecting the individual image of the active server 110 in which the failure has occurred in the common image. That is, since it is not necessary to restore a different full-back image to the standby server 110, the switching time to the standby server 110 can be shortened.
  • the present invention is characterized in that the backup server 110 is restored in advance using a full backup image having many common parts with other full backup images as a common image.
  • the first embodiment by reflecting the difference information in the common image, it is possible to restore the state of the business before the failure of the active server 110, and thus it is possible to prevent the backup image from becoming obsolete.
  • the common image is determined based on the common part between the full backup images.
  • the second embodiment is different in that the common image is determined based on an index indicating the possibility of failure. .
  • the difference from the first embodiment will be mainly described.
  • the management server 100, the server 110, and each table in the second embodiment is the same as that in the first embodiment, description thereof is omitted.
  • the common image determination process is different.
  • FIG. 22 is a flowchart illustrating an example of the common image determination process executed by the management server 100 according to the second embodiment of the present invention.
  • step S1501 to step S1503 and the processing from step S1507 are the same as those in the first embodiment, description thereof will be omitted.
  • step S1502 If it is determined in step S1502 that the full backup images of all the active servers 110 included in the restore pair 170 are not deployment images, the common image determination unit 233 refers to the server table 221 (step S2201), and the failure The full backup image of the active server 110 having the highest possibility of occurrence is determined as a common image (step S2202).
  • the common image determination unit 233 refers to the restore pair table 241 and identifies an entry corresponding to the selected restore pair 170.
  • the common image determination unit 233 refers to the priority 605 of the identified entry, and selects the active server 110 having the smallest value of the priority 605.
  • the common image determination unit 233 determines the full backup image of the selected active server 110 as a common image.
  • the priority 605 is determined based on the number of read errors and the like, it becomes an index indicating the possibility of failure.
  • the full backup image of the active server 110 that is likely to cause a failure is restored to the standby server 110 as a common image, so that the active server 110 can be transferred to the standby server 110 at high speed. Can be switched.
  • the common image determination unit 233 determines the common image based on the common part of the full backup image, and determines the common image based on the priority 605 when operating the business system. Conceivable.
  • the various software illustrated in the present embodiment can be stored in various recording media (for example, non-temporary storage media) such as electromagnetic, electronic, and optical, and through a communication network such as the Internet. It can be downloaded to a computer.
  • recording media for example, non-temporary storage media
  • a communication network such as the Internet. It can be downloaded to a computer.

Abstract

 障害が発生した現用系サーバから予備系サーバへの高速な切替処理を実現するシステム及び方法を提供する。 複数の計算機と、複数の計算機から構成されるクラスタを管理する管理計算機と、を備える計算機システムであって、クラスタは、記憶デバイスを用いて業務を実行する複数の第1の計算機と、業務を引き継ぐ複数の第2の計算機とを含み、管理計算機は、バックアップ取得部と、リストアペア管理部とを有し、リストアペア管理部は、複数の第1の計算機を、業務を提供するためのソフトウェア構成が共通する複数のグループに分類し、複数のグループ毎に、一つのグループに含まれる一つ以上の第1の計算機と、少なくとも一つ以上の第2の計算機とを対応づけることによって、一つ以上のリストアペアを生成し、一つのリストアペアに含まれる一つ以上の第1の計算機のバックアップイメージの中から共通イメージを決定する。

Description

計算機システム、クラスタ管理方法、及び管理計算機
 本発明は、クラスタが構成された計算機システムにおいて、障害発生時に、計算機の切り替えの高速化を実現するシステム、方法、及び計算機に関する。
 計算機システムの可用性を確保するために、業務を実行する現用系サーバ、及び障害発生時に業務を引き継ぐ予備系サーバから構成されるクラスタシステムが用いられる。このようなクラスタシステムとして、コールドスタンバイ方式のシステムが知られている。
 クラスタシステムでは、業務の実行に必要なデータが外部のストレージシステム又はサーバが備える内部記憶装置の少なくともいずれかに格納される。
 前述したデータがストレージに格納される場合、現用系サーバ及び予備系サーバが、SAN(Storage Area Network)を介して、同一のストレージシステムに接続される。通常、現用系サーバとストレージシステムとの間の通信経路が確立され、現用系サーバがストレージシステムに格納されたデータを用いて業務を実行する。
 ストレージシステムを用いたクラスタシステムは信頼性を重視するシステムにおいて用いられ、内部記憶装置を用いたクラスタシステムは価格を重視するシステムにおいて用いられる。
 現用系サーバに障害が発生した場合、前述した二つの方式では、以下のようにして現用系サーバから予備系サーバに切り替えられる。
 ストレージシステムを用いたクラスタシステムでは、現用系サーバとストレージシステムとの間の通信経路から、予備系サーバとストレージシステムとの間の通信経路に切り替えられる。内部記憶装置を用いたクラスタシステムでは、現用系サーバの内部記憶装置に格納されるデータのバックアップデータを取得し、予備系サーバの内部記憶装置に当該バックアップデータをリストアする。
 現用系サーバから予備系サーバへの切り替え方法としては、様々な方法が知られている(例えば、特許文献1参照)。
特開2009-129148号公報
 特許文献1に記載の発明では、管理サーバが、予め、障害が発生した現用系サーバが提供する業務サービスと同様のディスクイメージを、予備系サーバに配信する。これによってフェイルオーバ完了までの時間を短縮することができる。
 しかし、特許文献1では、予備系サーバに配信されたディスクイメージの業務が、障害が発生した現用系サーバの業務と異なる場合、現用系サーバのディスクイメージを再配信する必要がある。そのため、フェイルオーバ完了までの時間を短縮することができない場合がある。また、予備系サーバに配信されたディスクイメージは、障害発生時の現用系サーバの状態とは異なるため、障害発生前の現用系サーバの業務状態を復元することができない。すなわち、予備系サーバに配信されたディスクイメージが陳腐化するという問題がある。
 本発明は、前述した課題を解決することを目的とする。すなわち、予備系サーバに適切なディスクイメージを予め配信し、かつ、障害発生前の現用系サーバの業務状態を復元することが可能なシステム及び方法を提供することを目的とする。
 本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の計算機と、前記複数の計算機から構成されるクラスタを管理する管理計算機と、を備える計算機システムであって、前記複数の計算機の各々は、第1のプロセッサ、前記第1のプロセッサに接続される第1のメモリ、前記第1のプロセッサに接続される記憶デバイス、及び前記第1のプロセッサに接続される第1のネットワークインタフェースを有し、前記管理計算機は、第2のプロセッサ、前記第2のプロセッサに接続される第2のメモリ、及び前記第2のプロセッサに接続される第2のネットワークインタフェースを有し、前記クラスタを構成する前記複数の計算機は、前記記憶デバイスを用いて業務を実行する複数の第1の計算機と、障害が発生した第1の計算機が実行する業務を引き継ぐ複数の第2の計算機とを含み、前記管理計算機は、前記複数の第1の計算機の各々のバックアップイメージを取得するバックアップ取得部と、一つ以上の第1の計算機と、一つ以上の第2の計算機とから構成される複数のリストアペアを生成し、前記複数のリストアペア毎に、一つのリストアペアに含まれる前記一つ以上の第2の計算機にリストアする共通イメージを選択するリストアペア管理部と、を有し、前記クラスタを構成する複数の計算機の各々のハードウェア構成の情報及びソフトウェア構成の情報を管理するサーバ管理情報を保持し、前記リストアペア管理部は、前記クラスタの構成が変更されたことを検出した場合に、前記サーバ管理情報を参照して、前記複数の第1の計算機を、前記業務を提供するためのソフトウェア構成が共通する複数のグループに分類し、前記サーバ管理情報を参照して、前記複数の第1の計算機の各々のハードウェア構成の情報及び前記複数の第2の計算機の各々のハードウェア構成の情報に基づいて、前記複数のグループの各々に、少なくとも一つ以上の第2の計算機を割り当て、前記複数のグループ毎に、一つのグループに含まれる一つ以上の第1の計算機と、前記一つのグループに割り当てられた少なくとも一つ以上の第2の計算機とを対応づけることによって、一つ以上のリストアペアを生成し、前記複数のリストアペア毎に、前記一つのリストアペアに含まれる前記一つ以上の第1の計算機の前記バックアップイメージの中から、前記共通イメージを決定し、前記リストアペアの識別情報、前記リストアペアに含まれる前記一つ以上の第1の計算機の識別情報、前記リストアペアに含まれる前記一つ以上の第2の計算機の識別情報、及び前記リストアペアの前記共通イメージの識別情報を対応づけたリストアペア管理情報を生成することを特徴とする。
 本発明によれば、リストアペア内の複数の第1の計算機は業務を提供するためのソフトウェア構成が共通するため、予備系サーバにバックアップイメージを再度配信する必要がない。また、共通イメージと、リストアペアに含まれる第1の計算機の各々のバックアップイメージとの差異を小さくできる。したがって、第2の計算機に適切なバックアップイメージを配信でき、かつ、第2の計算機への迅速な切り替えを実現できる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の実施例における計算機システムの構成を示すブロック図である。 本発明の実施例1の管理サーバのハードウェア構成及びソフトウェア構成を説明するブロック図である。 本発明の実施例1のサーバのハードウェア構成及びソフトウェア構成を説明するブロック図である。 本発明の実施例1におけるサーバテーブルの一例を示す説明図である。 本発明の実施例1におけるコールドスタンバイグループテーブルの一例を示す説明図である。 本発明の実施例1におけるリストアペアテーブルの一例を示す説明図である。 本発明の実施例1におけるフルバックアップイメージ構成テーブルの一例を示す説明図である。 本発明の実施例1における個別イメージ構成テーブルの一例を示す説明図である。 本発明の実施例1におけるバックアップデータテーブルの一例を示す説明図である。 本発明の実施例1における処理の概要を示す説明図である。 本発明の実施例1における管理サーバが実行する処理の概要を説明するフローチャートである。 本発明の実施例1における管理サーバが実行する処理の概要を説明するフローチャートである。 本発明の実施例1におけるバックアップイメージを示す説明図である。 本発明の実施例1におけるバックアップテーブルの一例を示す説明図である。 本発明の実施例1における管理サーバが実行するリストアペア生成処理の一例を説明するフローチャートである。 本発明の実施例1における管理サーバが実行する共通イメージ決定処理の一例を説明するフローチャートである。 本発明の実施例1における管理サーバが実行する共通イメージリストア処理の一例を説明するフローチャートである。 本発明の実施例1におけるリストアペアテーブルの一例を示す説明図である。 本発明の実施例1における管理サーバが実行する個別イメージ生成処理の一例を説明するフローチャートである。 本発明の実施例1における管理サーバが実行するサーバ切替処理の一例を説明するフローチャートである。 本発明の実施例1における管理サーバが実行する予備系サーバ選択処理の一例を説明するフローチャートである。 本発明の実施例1における管理サーバが実行するリストア処理の一例を説明するフローチャートである。 本発明の実施例2における管理サーバが実行する共通イメージ決定処理の一例を説明するフローチャートである。
 以下、本発明の実施例を添付図面に基づいて説明する。
 図1は、本発明の実施例1における計算機システムの構成を示すブロック図である。
 本実施例の計算機システムは、管理サーバ100、複数のサーバ110、複数のストレージ装置120、外部ストレージ装置180、FC(Fiber Channel)-SW130、及びハードウェア構成変更検出部150から構成される。
 管理サーバ100は、ネットワーク140を介して、複数のサーバ110、複数のストレージ装置120、及びハードウェア構成変更検出部150と接続される。また、管理サーバ100は、ネットワークを介して、又は、直接外部ストレージ装置180と接続される。
 ハードウェア構成変更検出部150は、複数のサーバ110と接続される。複数のサーバ110は、FC-SW130から構成されるSANを介して、複数のストレージ装置120と接続される。
 なお、本発明は、ネットワーク140の接続形式に限定されず、WAN(Wide Area Network)又はLAN(Local Area Network)が考えられる。また、ハードウェア構成変更検出部150は、ネットワークを介して、又は、直接、複数のサーバ110と接続されてもよい。
 サーバ110は、業務を実行する計算機である。本実施例では、実際に業務を実行する現用系サーバ110と、現用系サーバ110に障害が発生した場合に、業務を引き継ぐ予備系サーバ110とを含む。
 現用系サーバ110は、内部記憶デバイス305(図3参照)又はLU(Logical Unit)121の少なくともいずれかを用いて、所定の業務を実行する。本実施例では、現用系サーバ110は、内部記憶デバイス305(図3参照)及びLU121の両方を用いて業務を実行するものとする。
 なお、本発明は、現用系サーバ110が内部記憶デバイス305(図3参照)のみを用いて業務を実行している場合でも同様の効果を奏する。
 サーバ110のハードウェア構成及びソフトウェア構成については、図3を用いて後述する。なお、現用系サーバ110及び予備系サーバ110は同一のハードウェア構成である。
 本実施例では、コールドスタンバイ方式のクラスタが構成された計算機システムを想定する。具体的には、複数のサーバ110からコールドスタンバイグループ160が構成される。この場合、コールドスタンバイグループ160に含まれるサーバ110間で業務が引き継がれる。コールドスタンバイグループ160に含まれるサーバ110のうち、予備系サーバ110は、電源OFFの状態となっている。
 また、本実施例では、後述するように、コールドスタンバイグループ160内に複数のリストアペア170が生成される点に特徴がある。
 ここで、リストアペア170は、一つ以上の現用系サーバ110と一つ以上の予備系サーバ110とから構成されるグループである。リストアペア170は、効率的なバックアップイメージの取得、及び、高速なバックアップイメージのリストアを実現できるように生成される。リストアペア170の生成方法については後述する。
 また、リストアペア170に含まれる現用系サーバ110に障害が発生した場合、同一のリストアペア170に含まれる予備系サーバ110が業務を引き継ぐ。
 図1に示す例では、現用系サーバA、現用系サーバB及び予備系サーバXから構成されるリストアペア1と、現用系サーバC及び予備系サーバYから構成されるリストアペア2とが生成される。
 ハードウェア構成変更検出部150は、サーバ110のハードウェア構成の変更を検出する。本実施例では、ハードウェア構成変更検出部150は、一つの装置として記載しているが本発明はこれに限定されない。例えば、管理サーバ100、サーバ110又はストレージ装置120が、プログラムモジュールとしてハードウェア構成変更検出部150を備えてもよい。
 管理サーバ100は、コールドスタンバイ方式のクラスタが構成される計算機システム全体を管理する。具体的には、管理サーバ100は、リストアペア170を生成し、リストアペア170毎に、現用系サーバ110のバックアップイメージを取得する。また、管理サーバ100は、現用系サーバ110の挙動を監視し、現用系サーバ110の障害を検出した場合に、予備系サーバ110に切り替える。
 本実施例では、管理サーバ100は、前述した制御を実現するために、サーバ管理部101及びバックアップ部102を備える。
 サーバ管理部101は、サーバ110の情報及びクラスタの情報を管理する。バックアップ部102は、業務を引き継ぐために必要なバックアップイメージを取得する。また、バックアップ部102は、最適なバックアップイメージを取得するために、リストアペア170を生成する。
 サーバ管理部101及びバックアップ部102は、現用系サーバ110の障害を検出した場合に、互いに連携してサーバ切替処理を実行する。このとき、バックアップ部102は、予備系サーバ110へのバックアップイメージのリストア処理を実行する。
 管理サーバ100のハードウェア構成及びソフトウェア構成については、図2を用いて後述する。
 ストレージ装置120は、現用系サーバ110に割り当てる記憶領域を提供する。ストレージ装置120は、ディスクコントローラ(図示省略)、複数の記憶デバイス(図示省略)、ディスクインタフェース(図示省略)を備える。また、ストレージ装置120は、管理サーバ100と接続するための管理インタフェース122を備える。
 本実施例では、ストレージ装置120は、複数の記憶デバイスの記憶領域からLU121が生成し、当該LU121を現用系サーバ110に提供する。なお、LU121には、OS(Operationg System)及びアプリケーション等のプログラム及びプログラムの実行に必要な各種情報が格納される。また、記憶デバイスとしては、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等が考えられる。また、ストレージ装置130は、複数の記憶デバイスを用いてRAIDを構成してもよい。
 外部ストレージ装置180は、管理サーバ100が処理を実行するために必要なプログラム及び情報を格納する。本実施例では、外部ストレージ装置180に、現用系サーバ110のバックアップイメージが格納される。なお、外部ストレージ装置180は、ストレージ装置120と同一の構成であるものとする。なお、外部ストレージ装置180は、記憶デバイスとしてテープを用いてもよい。
 FC-SW130は、複数のサーバ110と複数のストレージ装置120とを接続するSANを構成する。図1では、一つのFC-SW130がSANを構成するが、複数のFC-SW130からSANが構成されてもよい。
 なお、管理サーバ100及びサーバ110の種別は、物理サーバ、ブレードサーバ、仮想化サーバ、又は、論理物理分割若しくは物理分割されたサーバ等のいずれであってもよい。本発明は、管理サーバ100及びサーバ110の種別に限定されず、本発明の効果を得ることができる。
 図2は、本発明の実施例1の管理サーバ100のハードウェア構成及びソフトウェア構成を説明するブロック図である。
 管理サーバ100は、プロセッサ201、メモリ202、ネットワークインタフェース203、及びディスクインタフェース204を備える。なお、管理サーバ100は、キーボード及びマウス等の入力装置、並びにディスプレイ等の出力装置を備えてもよい。
 プロセッサ201は、一つ以上の演算装置を備え、メモリ202に格納されるプログラムを実行する。プロセッサ201がプログラムを実行することによって、管理サーバ100が備える機能を実現することができる。以下、プログラムを主体にして説明する場合、プロセッサ201によって当該プログラムが実行されていることを示す。
 メモリ202は、プロセッサ201によって実行されるプログラム及び当該プログラムの実行に必要な情報を格納する。メモリ202に格納されるプログラム及び情報については、後述する。
 ネットワークインタフェース203は、IPネットワークを介して、他の装置と通信するためのインタフェースである。ディスクインタフェース204は、ストレージ装置120等にアクセスするためのインタフェースである。
 図2では、ネットワークインタフェース203及びディスクインタフェース204を、それぞれ代表して一つずつ示しているが、管理サーバ100は、複数のネットワークインタフェース203及び複数のディスクインタフェース204を備えてもよい。
 例えば、管理サーバ100が二つのネットワークインタフェース203を備える場合、一つのネットワークインタフェース203を介して管理用のネットワークと接続し、他方のネットワークインタフェース203を介して業務用のネットワークと接続することが考えられる。
 次に、メモリ202に格納されるプログラム及び情報について説明する。
 メモリ202は、サーバ管理部101及びバックアップ部102を実現するプログラム及び管理テーブル群を格納する。なお、メモリ202は、図示しないプログラム及び情報を格納してもよい。まず、サーバ管理部101について説明する。
 サーバ管理部101は、複数のサーバ110のハードウェア構成及びソフトウェア構成を管理する。サーバ管理部101は、複数のプログラムモジュール及び複数のテーブルから構成される。
 具体的には、サーバ管理部101は、サーバ構成情報取得部211、BIOS情報取得部212、コールドスタンバイグループ生成部213、切替先サーバ選択部214、WWN変更部215、BIOS情報リストア部216、サーバテーブル221、及びコールドスタンバイグループテーブル222を含む。
 サーバ構成情報取得部211は、ネットワーク140を介して、コールドスタンバイグループ160に含まれる複数のサーバ110から、ハードウェア構成及びソフトウェア構成等のサーバ110の性能情報を取得する。
 例えば、サーバ構成情報取得部211は、各サーバ110に情報収集用のエージェントを送信し、当該エージェントからサーバ110の性能情報を取得する方法が考えられる。また、サーバ構成情報取得部211は、現用系サーバ110上で稼働するOSに問い合わせることによって、サーバ110の性能情報を取得する方法も考えられる。なお、前述したサーバ110の性能情報の取得方法は一例であって、本発明はこれに限定されない。
 BIOS情報取得部212は、ネットワーク140を介して、コールドスタンバイグループ160に含まれる複数の現用系サーバ110から、BIOS情報を取得する。ここで、BIOS情報には、現用系サーバ110におけるBIOSの設定及びブート順等が含まれる。
 例えば、BIOS情報取得部212は、現用系サーバ110上で稼働するOSに問い合わせることによって、BIOS情報を取得する方法も考えられる。なお、前述したBIOS情報の取得方法は一例であって、本発明はこれに限定されない。
 コールドスタンバイグループ生成部213は、管理者又はユーザ等の指示にしたがって、コールドスタンバイグループ160を生成する。
 切替先サーバ選択部214は、コールドスタンバイグループ160に含まれる現用系サーバ110の障害が検出された場合に、当該現用系サーバ110の業務を引き継ぐ予備系サーバ110、すなわち、切り替え先の予備系サーバ110を選択する。
 WWN変更部215は、業務に必要な情報を格納する記憶領域を提供するストレージ装置120と、サーバ110との接続を切り替える。すなわち、WWN変更部215は、障害が発生した現用系サーバ110から予備系サーバ110にLUとの接続を切り替える。
 具体的には、WWN変更部215は、サーバ110がLU121とファイバチャネル通信を行うために用いるWWN(World Wide Name)を切り替える。WWNは、ユニークなデバイス識別子である。なお、サーバ110とストレージ装置120とがIP-SANなどを介して接続される場合、iSCSI Qualified NameのようなWWNと同等の識別子が変更される。
 BIOS情報リストア部216は、切り替え先の予備系サーバ110に、BIOS情報取得部212によって取得されたBIOS情報をリストアする。
 サーバテーブル221は、複数のサーバ110の構成に関する情報を格納する。具体的には、サーバ構成情報取得部211によって取得されたサーバ110の構成情報及びBIOS情報取得部212によって取得されたBIOS情報が格納される。サーバテーブル221の詳細については、図4を用いて後述する。
 コールドスタンバイグループテーブル222は、コールドスタンバイグループ160の構成に関する情報を格納する。具体的には、コールドスタンバイグループ生成部213によって生成されたコールドスタンバイグループ160に関する情報が格納される。コールドスタンバイグループテーブル222の詳細については、図5を用いて後述する。
 次に、バックアップ部102について説明する。
 バックアップ部102は、コールドスタンバイグループ160に含まれる現用系サーバ110のバックアップイメージを取得し、障害復旧のための各種設定を行う。バックアップ部102は、複数のプログラムモジュール及び複数のテーブルから構成される。
 具体的には、バックアップ部102は、リストアペア生成部231、フルバックアップ取得部232、共通イメージ決定部233、個別イメージ生成部234、差分情報受信部235、バックアップ取得/復元エージェント236、リストア部237、構成変更受信部238、リストアペアテーブル241、フルバックアップイメージ構成テーブル242、個別イメージ構成テーブル243、及びバックアップデータテーブル244を含む。
 リストアペア生成部231は、サーバ110の性能情報等に基づいて、リストアペア170を生成する。
 フルバックアップ取得部232は、現用系サーバ110のフルバックアップイメージを取得する。
 共通イメージ決定部233は、リストアペア170に含まれる予備系サーバ110にリストアする共通イメージを決定する。ここで、共通イメージは、リストアペア170に含まれる任意の現用系サーバ110のフルバックアップイメージを示す。
 個別イメージ生成部234は、共通イメージと各サーバ110のフルバックアップイメージとの差分データである個別イメージを生成する。
 差分情報受信部235は、フルバックアップイメージを取得した後に内部記憶デバイス305(図3参照)に格納されるデータのうち、更新されたデータに関する差分情報を取得する。後述するように、差分情報は、現用系サーバ110上で稼働する差分情報取得部311(図3参照)によって取得される。
 バックアップ取得/復元エージェント236は、現用系サーバ110からフルバックアップイメージを取得し、また、予備系サーバ110にフルバックアップイメージ、個別イメージ及び差分情報をリストアする。
 バックアップ取得/復元エージェント236は、フルバックアップイメージの取得時に現用系サーバ110にデプロイされ、バックアップイメージのリストア時に予備系サーバ110にデプロイされる。なお、現用系サーバ110にバックアップ取得/復元エージェント236をインストールしてもよい。例えば、現用系サーバ110の内部記憶デバイス305(図3参照)、又は、現用系サーバ110が使用するLU121に予め格納する方法が考えられる。
 リストア部237は、業務を引き継ぐために必要なバックアップイメージ、個別イメージ、及び差分情報を予備系サーバ110にリストアする。
 構成変更受信部238は、計算機システム内のハードウェア構成及びソフトウェア構成の変更があった旨を受信する。ハードウェア構成の変更としては、サーバ110の追加又は削除等が考えられる。また、ソフトウェア構成の変更としては、現用系サーバ110のOSの変更、OSのバージョンアップ、及び、アプリケーションの追加又は削除等が考えられる。
 リストアペアテーブル241は、リストアペア生成部231によって生成されたリストアペア170を管理するための情報を格納する。リストアペアテーブル241の詳細については、図6を用いて後述する。
 フルバックアップイメージ構成テーブル242は、業務システムが運用を開始してから現在までに取得された現用系サーバ110のフルバックアップイメージを管理するための情報を格納する。フルバックアップイメージ構成テーブル242の詳細については、図7を用いて後述する。
 個別イメージ構成テーブル243は、個別イメージを管理するための情報を格納する。個別イメージ構成テーブル243の詳細については、図8を用いて後述する。
 バックアップデータテーブル244は、最新の現用系サーバ110におけるバックアップイメージを管理するための情報を格納する。バックアップデータテーブル244の詳細については、図9を用いて後述する。
 なお、各複数のプログラムモジュールの各々が有する機能をまとめて一つプログラムモジュールとして実現してもよいし、一つのプログラムモジュールが有する複数の機能の各々を複数のプログラムモジュールとして実現してもよい。
 例えば、管理サーバ100は、リストアペア生成部231、共通イメージ決定部233、及び個別イメージ生成部234によって実現される機能を備えたリストアペア管理部を備えてもよい。また、管理サーバ100は、リストア部237の代わりに、共通イメージをリストアする共通イメージリストア部、個別イメージをリストアする個別イメージリストア部、及び差分情報をリストアする差分情報リストア部を備えてもよい。
 図3は、本発明の実施例1のサーバ110のハードウェア構成及びソフトウェア構成を説明するブロック図である。
 サーバ110は、プロセッサ301、メモリ302、ネットワークインタフェース303、ディスクインタフェースを備える。なお、サーバ110は、キーボード及びマウス等の入力装置、並びにディスプレイ等の出力装置を備えてもよい。
 プロセッサ301は、一つ以上の演算装置を備え、メモリ302に格納されるプログラムを実行する。プロセッサ301がプログラムを実行することによって、サーバ110が備える機能を実現することができる。以下、プログラムを主体にして説明する場合、プロセッサ301によって当該プログラムが実行されていることを示す。
 メモリ302は、プロセッサ301によって実行されるプログラム及び当該プログラムの実行に必要な情報を格納する。メモリ302に格納されるプログラム及び情報については、後述する。
 ネットワークインタフェース303は、IPネットワークを介して、他の装置と通信するためのインタフェースである。ディスクインタフェース304は、ストレージ装置120等にアクセスするためのインタフェースである。
 図3では、ネットワークインタフェース303及びディスクインタフェース304を、それぞれ代表して一つずつ示しているが、管理サーバ100は、複数のネットワークインタフェース303及び複数のディスクインタフェース304を備えてもよい。
 例えば、サーバ110が二つのネットワークインタフェース303を備える場合、一つのネットワークインタフェース303を介して管理用のネットワークと接続し、他方のネットワークインタフェース303を介して業務用のネットワークと接続することが考えられる。
 内部記憶デバイス305は、業務の実行に必要な情報を格納する。例えば、OS、アプリケーション等を実現するプログラムが格納される。なお、内部記憶デバイス305の記憶領域は、一つ以上のパーティションが格納されるファイル領域と、パーティションの情報及び内部記憶デバイス305の構成を管理するMBR(Master Boot Record)が格納される領域とを含む。また、パーティションには複数のファイルが格納される。以下、複数のファイルをファイルセットとも記載する。
 現用系サーバ110のメモリ302には、差分情報取得部311及びソフトウェア構成変更検出部312を実現するためのプログラムが格納される。図示していないが、メモリ302にはOS及びアプリケーションも格納される。なお、予備系サーバ110は電源OFFの状態であるため、前述したプログラムはメモリ302上にはロードされない。
 差分情報取得部311は、内部記憶デバイス305に格納されるファイルの状態を監視し、当該データが更新された場合に、ファイルが更新された旨を管理サーバ100に通知する。なお、当該通知には、更新されたファイルに関する情報として、ファイルの識別情報及び更新されたファイルの内容が含まれる。
 ソフトウェア構成変更検出部312は、現用系サーバ110におけるプログラムの構成を監視し、当該プログラムの構成が変更された場合に、プログラムの構成が変更された旨を管理サーバ100に通知する。プログラムの構成が変更される場合としては、新たなアプリケーションの追加、OSのバージョンアップ、及びOSの種類の変更等が考えられる。
 次に、管理サーバ100が備える各テーブルの構成について説明する。
 図4は、本発明の実施例1におけるサーバテーブル221の一例を示す説明図である。
 サーバテーブル221は、計算機システムに含まれるサーバ110の性能情報及びBIOS情報を格納する。具体的には、サーバテーブル221は、サーバ名401、プロセッサ402、メモリ403、記憶デバイス404、読み出しエラー回数405、OS406、ストレージ装置407、WWN408、LU409、及びBIOS情報410を含む。
 プロセッサ402、メモリ403、記憶デバイス404、読み出しエラー回数405、OS406、ストレージ装置407、WWN408、及びLU409には、サーバ構成情報取得部211によって取得されたサーバ110の性能情報が格納される。また、BIOS情報410には、BIOS情報取得部212によって取得されたBIOS情報が格納される。
 サーバ名401には、サーバ110を一意に識別するための識別情報が格納される。本実施例では、サーバ110の識別情報として、サーバ110の名称が用いられる。なお、本発明はこれに限定されず、計算機システム内でサーバ110を一意に識別できる情報であればどのような情報でもよい。
 プロセッサ402には、サーバ110が備えるプロセッサ301の性能情報が格納される。プロセッサ301の性能情報としては、プロセッサ301の種別、クロック数、コア数等が考えられる。ここで、プロセッサ301の種別とは、プロセッサ301の製品名、又はアーキテクチャ名等を示す。
 メモリ403には、サーバ110が備えるメモリ302の性能情報が格納される。メモリの性能情報としては、メモリ302の規格、容量、レイテイシ等が考えられる。
 記憶デバイス404には、サーバ110が備える内部記憶デバイス305の性能情報が格納される。内部記憶デバイス305の性能情報としては、記憶デバイスのバージョン、読出速度、書込速度、及び容量等が考えられる。
 読み出しエラー回数405には、内部記憶デバイス305におけるデータの読み出し時のエラー回数が格納される。なお、業務システムの構築時には、初期値として「0」が格納される。
 OS406には、現用系サーバ110上で稼働するOSの種別に関する情報が格納される。なお、予備系サーバ110上ではOSが稼働していない。したがって、予備系サーバ110に対応するエントリのOS406は空欄である。
 ストレージ装置407には、業務を実行する現用系サーバ110と接続されるストレージ装置120を一意に識別するための識別情報が格納される。本実施例では、識別情報として、ストレージ装置120の名称を用いる。なお、本発明はこれに限定されず、計算機システム内でストレージ装置120を一意に識別できる情報であればどのような情報でもよい。WWN408は、ストレージ装置120と接続時に用いられるWWNを格納する。
 なお、予備系サーバ110は、障害発生時に、現用系サーバ110の業務を引き継ぐために予め、ストレージ装置407と接続されている。そのため、予備系サーバ110に対応するエントリのストレージ装置407及びWWN408には、所定の情報が格納される。
 LU409には、現用系サーバ110に割り当てられたLU121の性能情報が格納される。LU121の性能情報としては、LU121の容量等が考えられる。なお、予備系サーバ110にはLU121が割り当てられていない、すなわち、LU121との接続が有効化されていない。したがって、予備系サーバ110に対応するエントリのLU409は空欄である。
 BIOS情報410には、サーバ110のBIOS情報を格納するファイルの識別情報が格納される。ここで、BIOS情報とは、BIOSの設定及びブート順等を含む情報である。BIOS情報は、業務を引き継ぐ予備系サーバ110の起動に必要な情報である。
 なお、サーバ110の性能情報は、前述したものに限られず、ネットワークインタフェース303の性能、サーバ110上で実行されるアプリケーションの種別等が含まれてもよい。また、仮想計算機が現用系サーバ110及び予備系サーバ110として用いられる計算機システムでは、サーバ110の性能情報として、仮想計算機を管理する仮想化部を実現するプログラムの種別、及びバージョン等が含まれてもよい。
 図5は、本発明の実施例1におけるコールドスタンバイグループテーブル222の一例を示す説明図である。
 コールドスタンバイグループテーブル222は、コールドスタンバイグループ160の構成に関する情報を格納する。具体的には、コールドスタンバイグループテーブル222は、コールドスタンバイグループ名501、現用系サーバ名502、及び予備系サーバ名503を含む。
 コールドスタンバイグループ名501には、コールドスタンバイグループ160を一意に識別するための識別情報が格納される。本実施例では、コールドスタンバイグループ160の識別情報としてコールドスタンバイグループ160の名称が用いられる。なお、本発明はこれに限定されず、コールドスタンバイグループ160を一意に識別できる情報であればどのような情報であってもよい。
 現用系サーバ名502には、コールドスタンバイグループ160に含まれる現用系サーバ110を一意に識別するための識別情報が格納される。予備系サーバ名503には、コールドスタンバイグループ160に含まれる予備系サーバ110を一意に識別するための識別情報が格納される。現用系サーバ名502及び予備系サーバ名503には、サーバ名401と同一の情報が用いられる。
 図6は、本発明の実施例1におけるリストアペアテーブル241の一例を示す説明図である。
 リストアペアテーブル241は、リストアペア170の構成に関する情報を格納する。具体的には、リストアペアテーブル241は、リストアペア名601、コールドスタンバイグループ名602、予備系サーバ名603、現用系サーバ名604、優先順位605、共通イメージ名606、及びリストアフラグ607を含む。
 リストアペア名601には、リストアペア170を一意に識別するための識別情報が格納される。本実施例では、リストアペア170の識別情報としてリストアペア170の名称が用いられる。なお、本発明はこれに限定されず、リストアペア170を一意に識別できる情報であればどのような情報でもあってもよい。
 コールドスタンバイグループ名602は、リストアペア170が生成されたコールドスタンバイグループ160を一意に識別するための識別情報が格納される。コールドスタンバイグループ名602にはコールドスタンバイグループ名501と同一の情報が用いられる。
 予備系サーバ名603には、リストアペア170に含まれる予備系サーバ110を一意に識別するための識別情報が格納され、また、現用系サーバ名604には、リストアペア170に含まれる現用系サーバ110を一意に識別するための識別情報が格納される。予備系サーバ名603には予備系サーバ名503と同一の情報が用いられ、また、現用系サーバ名604には現用系サーバ名502と同一の情報が用いられる。
 優先順位605には、共通イメージを決定する場合に用いられる値が格納される。本実施例では、値が小さいものほど優先順位が上位であるものとする。また、本実施例では、障害が発生しやすい現用系サーバ110ほど上位の優先順位、すなわち、小さな値が設定される。
 共通イメージ名606には、リストアペア170における共通イメージの識別情報が格納される。本実施例では、共通イメージの識別情報として共通イメージの名称が用いられる。なお、本発明はこれ限定されず、共通イメージを一意に識別できる情報であればどのような情報であってもよい。
 リストアフラグ607には、予備系サーバ110に共通イメージをリストア済みであるか否かを示す情報が格納される。本実施例では、予備系サーバ110に共通イメージがリストアされていない場合、リストアフラグ607には「未」が格納され、予備系サーバ110に共通イメージがリストア済みである場合、リストアフラグ607には「済」が格納される。
 図6に示す例では、一つのリストアペア170は、一つの予備系サーバ110と一つ以上の現用系サーバ110とから構成される。
 なお、本発明はこれに限定されず、リストアペア170は、複数の予備系サーバ110と複数の現用系サーバとから構成されてもよい。この場合、リストアペア170に含まれる予備系サーバ110の数は、リストアペア170に含まれる現用系サーバ110の数より小さいほうが望ましい。これは、計算機システムに、多くの予備系サーバ110を準備する必要があるためコストがかかり、また、計算機リソースが有効に活用されないためである。
 図7は、本発明の実施例1におけるフルバックアップイメージ構成テーブル242の一例を示す説明図である。
 フルバックアップイメージ構成テーブル242は、現用系サーバ110から取得されたフルバックアップイメージの構成に関する情報を格納する。具体的には、フルバックアップイメージ構成テーブル242は、フルバックアップイメージ名701、現用系サーバ名702、MBRイメージ名703、ファイルセット名704、及びタイムスタンプ705を含む。
 フルバックアップイメージ名701には、現用系サーバ110から取得されたフルバックアップイメージを識別するための識別情報が格納される。本実施例では、フルバックアップイメージの識別情報として、フルバックアップイメージの名称が用いられる。なお、本発明はこれに限定されずフルバックアップイメージを識別できる情報であればどのような情報であってもよい。
 現用系サーバ名702には、フルバックアップイメージが取得されたサーバ110を一意に識別するための識別情報が格納される。現用系サーバ名702には現用系サーバ名502と同一の情報が用いられる。
 MBRイメージ名703には、内部記憶デバイス305の記憶領域に含まれるMBRのイメージを一意に識別するための識別情報が格納される。本実施例では、MBRのイメージの識別情報としてMBRのイメージの名称が用いられる。なお、本発明はこれに限定されずMBRのイメージを一意に識別できる情報であればどのような情報であって絵もよい。
 ファイルセット名704には、パーティションに格納されるファイルセットを識別するための識別情報が格納される。本実施例では識別情報として、パーティションの名称及びファイルセットの名称が用いられる。なお、本発明はこれに限定されずファイルセットを識別できる情報であればどのような情報であってもよい。
 タイムスタンプ705には、フルバックアップイメージが生成された時刻が格納される。
 なお、業務システムの構築時に、フルバックアップイメージが取得されていない場合、フルバックアップイメージ構成テーブル242には、現用系サーバ110にデプロイされたデプロイイメージに関する情報、又は、現用系サーバ110にインストールされたイメージに関する情報が格納される。この場合、MBRイメージ名703、ファイルセット名704及びタイムスタンプ705は空欄のままである。
 図8は、本発明の実施例1における個別イメージ構成テーブル243の一例を示す説明図である。
 個別イメージ構成テーブル243は、共通イメージと各サーバ110のフルバックアップイメージとの差分データである個別イメージの構成に関する情報を格納する。具体的には、個別イメージ構成テーブル243は、個別イメージ名801、MBRイメージ名802、ファイルセット名803、804、及びタイムスタンプ805を含む。
 個別イメージ名801には、個別イメージを一意に識別するための識別情報が格納される。本実施例では、個別イメージの識別情報として個別イメージの名称が用いられる。なお、本発明はこれに限定されず、個別イメージを識別できる情報であればどのような情報であってもよい。
 MBRイメージ名802は、サーバ110のフルバックアップイメージに含まれるMBRのイメージを一意に識別するための識別情報が格納される。MBRイメージ名802には、MBRイメージ名703と同一の情報が用いられる。
 ファイルセット名803には、共通イメージとサーバ110のフルバックアップイメージとの間の差分データのうち、共通イメージから追加又は更新されたファイルセットの識別情報が格納される。ファイルセット名804には、共通イメージとサーバ110のフルバックアップイメージとの間の差分データのうち、共通イメージから削除されたファイルの識別情報が格納される。ファイルセット名803及びファイルセット名804には、ファイルセット名704と同一の情報が用いられる。
 タイムスタンプ805には、個別イメージが生成された時刻が格納される。
 図9は、本発明の実施例1におけるバックアップデータテーブル244の一例を示す説明図である。
 バックアップデータテーブル244は、最新の現用系サーバ110のバックアップイメージを管理するための情報を格納する。具体的には、バックアップデータテーブル244は、現用系サーバ名901、共通イメージ名902、個別イメージ名903、差分情報名904、及びタイムスタンプ905を含む。
 現用系サーバ名901には、現用系サーバ110を一意に識別するための識別情報が格納される。現用系サーバ名901には、サーバ名401と同一の情報が用いられる。
 共通イメージ名902には、現用系サーバ名901に対応する現用系サーバ110が含まれるリストアペア170における共通イメージを一意に識別するための識別情報が格納される。共通イメージ名902には、共通イメージ名606と同一の情報が用いられる。
 個別イメージ名903には、現用系サーバ110に対して生成された個別イメージを一意に識別するための識別情報が格納される。個別イメージ名903には、個別イメージ名801と同一の情報が用いられる。
 差分情報名904には、フルバックアップイメージが取得される期間の間に、現用系サーバ110の更新されたデータである差分情報を一意に識別するための識別情報が格納される。本実施例では、差分情報を識別する情報として差分情報の名称が用いられる。
 タイムスタンプ905には、差分情報が生成された時刻が格納される。
 次に、具体的な処理について説明する。まず、本実施例における処理の概要について説明する。
 図10は、本発明の実施例1における処理の概要を示す説明図である。
 初めに、計算機システム上に業務システムが構築される。業務システムの構築時には、以下のような処理が実行される。
 まず、サーバ110にOS等のソフトウェアが手動でインストールされ、又は、管理サーバ100等からデプロイされる。次に、管理サーバ100は、管理者又はユーザからの入力に基づいて、コールドスタンバイグループ160を生成する。例えば、管理者又はユーザは、所定のインタフェースを用いて、コールドスタンバイグループ160を生成するための各種情報を設定する。
 次に、管理サーバ100は、現用系サーバ110のフルバックアップイメージを取得する。管理サーバ100は、複数のリストアペア170を生成し、各リストアペア170における共通イメージを決定する。管理サーバ100は、各リストアペア内の予備系サーバ110に決定された共通イメージをリストアする。さらに、管理サーバ100は、各リストアペアに含まれる現用系サーバ110の個別イメージを生成する。
 業務システムが構築され、当該システムの運用が開始されると、管理サーバ100は、周期的にフルバックアップイメージを取得する。フルバックアップイメージの取得時には、以下のような処理が実行される。
 管理サーバ100は、現用系サーバ110のフルバックアップイメージを取得する。管理サーバ100は、複数のリストアペア170を生成し、各リストアペア170における共通イメージを決定する。管理サーバ100は、各リストアペア内の予備系サーバ110に決定された共通イメージをリストアする。さらに、管理サーバ100は、各リストアペアに含まれる現用系サーバ110の個別イメージを生成する。
 また、管理サーバ100は、フルバックアップイメージを取得し、次にフルバックアップイメージを取得するまでの間に、差分情報を取得する。
 また、管理サーバ100は、業務システムの運用中、現用系サーバ110の挙動を監視しており、現用系サーバ110の障害発生を検出された場合、以下のような処理を実行する。
 管理サーバ100は、サーバ切替処理を実行する。このとき、障害が発生した現用系サーバ110が含まれるリストアペア170内の予備系サーバ110が、当該現用系サーバ110の業務を引き継ぐ。
 具体的には、管理サーバ100は、障害が発生した現用系サーバ110の個別イメージ、及び共通イメージを用いて、業務が実行可能な状態、すなわち、フルバックアップイメージが取得された時の現用系サーバ110の状態を復元する。
 このように、予備系サーバ110の内部記憶デバイス305に共通イメージが予めリストアされているため、管理サーバ100は、共通イメージに個別イメージを適用すればよい。したがって、現用系サーバ110の障害発生時における復旧を高速化することができる。
 さらに、管理サーバ100は、差分情報を適用することによって、障害が発生する前の現用系サーバ110の状態を復元することができる。
 管理サーバ100は、サーバ切替処理が完了した後、現用系サーバ110のフルバックアップイメージを取得する。管理サーバ100は、複数のリストアペア170を生成し、各リストアペア170における共通イメージを決定する。管理サーバ100は、各リストアペア内の予備系サーバ110に決定された共通イメージをリストアする。さらに、管理サーバ100は、各リストアペアに含まれる現用系サーバ110の個別イメージを生成する。
 前述したように、リストアペア170毎に、予備系サーバ110に共通イメージがリストアされる。このとき、障害が発生した現用系サーバ110が実行する業務を提供可能な共通イメージをリストアする必要がある。予備系サーバ110に再度バックアップイメージをリストアする処理を削減することによって、高速なサーバ110の切り替えを実現するためである。
 そこで、管理サーバ100は、現用系サーバ110の構成に基づいて、業務の種別、及び業務実行のための構成が同一又は類似する現用系サーバ110を分類し、当該分類結果に基づいてリストアペア170を生成する。これによって、共通イメージによって実現される業務と障害が発生した現用系サーバ110が実行する業務とが異なるという課題を解決することができる。
 また、管理サーバ100は、サーバ110の切り替え時に、フルバックアップイメージの取得周期の間に生じた差分情報を適用することによって、障害が発生する前の現用系サーバ110の状態を復元することができる。
 図11A及び図11Bは、本発明の実施例1における管理サーバ100が実行する処理の概要を説明するフローチャートである。
 管理サーバ100は、業務システムを構築するために、サーバ110に、OS及びアプリケーション等のソフトウェアを設定する(ステップS1101)。
 例えば、管理サーバ100は、管理者又はユーザから、ソフトウェアの入力を受け付け、所定のサーバ110に当該ソフトウェアをインストールする。また、管理サーバ100は、外部ストレージ装置180から、ソフトウェアを読み出し、所定のサーバ110に当該ソフトウェアをデプロイする。
 このとき、サーバ構成情報取得部211がサーバ110からサーバ110の性能情報を取得し、また、BIOS情報取得部212が現用系サーバ110として設定されたサーバ110からBIOS情報を取得する。サーバ管理部101は、取得されたサーバ110の性能情報及びBIOS情報に基づいて、サーバテーブル221を更新する。また、サーバ管理部101は、外部ストレージ装置180に取得されたBIOS情報を格納する。サーバ110から各種情報を取得する方法は公知の技術を用いればよいため説明を省略する。
 次に、管理サーバ100は、管理者又はユーザからの入力に基づいて、コールドスタンバイグループ160を生成する(ステップS1102)。
 具体的には、コールドスタンバイグループ生成部213が、コールドスタンバイグループを生成する。コールドスタンバイグループ160の生成方法は、公知の技術を用いればよいため説明を省略する。
 本実施例では、コールドスタンバイグループ160が生成された後に、管理サーバ100は、現用系サーバ110の監視を開始する。なお、本発明は、現用系サーバ110の監視処理の開始タイミングに限定されない。
 次に、管理サーバ100は、コールドスタンバイグループ160に含まれる現用系サーバ110のフルバックアップイメージを取得する(ステップS1103)。具体的には、以下のような処理が実行される。
 管理サーバ100は、現用系サーバ110にバックアップ取得/復元エージェント236を送信し、フルバックアップイメージの取得を指示する。現用系サーバ110上で稼働するバックアップ取得/復元エージェント236は、内部記憶デバイス305のフルバックアップイメージを取得し、管理サーバ100に取得されたフルバックアップイメージを送信する。
 管理サーバ100のフルバックアップ取得部232は、受信したフルバックアップイメージを外部ストレージ装置180に格納し、また、フルバックアップイメージ構成テーブル242を更新する。また、管理サーバ100は、バックアップデータテーブル244を初期化する。バックアップデータテーブル244は、最新のバックアップイメージを管理するテーブルであるためである。
 なお、業務システムの構築時には、フルバックアップイメージが取得されなくてもよい。また、バックアップ取得/復元エージェント236は、現用系サーバ110上で稼働し続けるものとする。
 以上がステップS1103の処理である。
 次に、管理サーバ100は、業務システムを用いて実行される業務が終了したか否かを判定する(ステップS1104)。例えば、業務の停止に伴ってコールドスタンバイグループ160が削除された場合、管理サーバ100は、業務が終了したと判定する。
 業務が終了したと判定された場合、管理サーバ100は、一連の処理を終了する。
 業務が終了していないと判定された場合、管理サーバ100は、リストアペア生成処理を実行する(ステップS1105)。リストアペア生成処理の詳細については、図14及び図15を用いて後述する。
 管理サーバ100は、共通イメージリストア処理を実行する(ステップS1106)。共通イメージリストア処理の詳細については、図16を用いて後述する。
 管理サーバ100は、個別イメージ生成処理を実行する(ステップS1107)。個別イメージ生成処理の詳細については、図18を用いて後述する。
 ここで、フルバックアップイメージ、共通イメージ、及び個別イメージについて説明する。
 図12は、本発明の実施例1におけるバックアップイメージを示す説明図である。
 図12では、共通イメージ、サーバAのフルバックイメージ及びサーバDのフルバックアップイメージを一例として示す。
 サーバ110の内部記憶デバイス305には、MBR及び一つ以上のパーティションから構成される。パーティションは、論理的な区画であり、パーティション内に複数のファイル(ファイルセット)が格納される。
 管理サーバ100は、後述するように、共通イメージとサーバAのフルバックアップイメージとを比較することによって個別イメージAを生成し、また、共通イメージとサーバDのフルバックアップイメージDとを比較することによって個別イメージDを生成する。
 図11A及び図11Bの説明に戻る。
 次に、管理サーバ100は、現用系サーバ110の障害を検出したか否かを判定する(ステップS1108)。なお、現用系サーバ110の障害を検出するタイミングはこれに限定されず、どの処理ステップにおいて検出されてもよい。
 現用系サーバ110の障害を検出していないと判定された場合、管理サーバ100は、ステップS1010に進む。
 現用系サーバ110の障害を検出したと判定された場合、管理サーバ100は、サーバ切替処理を実行し(ステップS1109)、その後ステップS1108に戻る。サーバ切替処理の詳細については、図19を用いて後述する。
 次に、管理サーバ100は、システム構成の変更を検出したか否かを判定する(ステップS1110)。
 例えば、管理サーバ100の構成変更受信部238が、ハードウェア構成変更検出部150から、サーバ110の追加又はサーバ110の削除の通知を受信した場合、管理サーバ100は、システム構成の変更を検出したと判定する。また、管理サーバ100は、ソフトウェア構成変更検出部312からOSのバージョン変更、OSの変更、又は仮想化部の変更等が通知された場合、システム構成の変更を検出したと判定する。
 システム構成の変更を検出したと判定された場合、管理サーバ100は、ステップS1103に戻る。これは、改めてリストアペア170を生成する必要があるためである。
 システム構成の変更を検出していないと判定された場合、管理サーバ100は、現用系サーバ110の内部記憶デバイス305の差分が検出されたか否かを判定する(ステップS1111)。
 具体的には、管理サーバ100の差分情報受信部235が差分情報取得部311から差分情報を受信した場合、管理サーバ100は、現用系サーバ110の内部記憶デバイス305の差分を検出したと判定する。なお、差分情報取得部311は、現用系サーバ110の識別情報及び差分情報の生成時刻とともに差分情報を送信する。
 現用系サーバ110の内部記憶デバイス305の差分が検出されていないと判定された場合、管理サーバ100は、ステップS1113に進む。
 現用系サーバ110の内部記憶デバイス305の差分が検出されたと判定された場合、管理サーバ100は、受信した差分情報を外部ストレージ装置180に格納し、また、バックアップデータテーブル244を更新する(ステップS1112)。具体的には、以下のような処理が実行される。
 管理サーバ100の差分情報受信部235は、バックアップデータテーブル244を参照し、受信した現用系サーバ110の識別情報に一致するエントリを検索する。管理サーバ100は、検索されたエントリの差分情報名904に受信した差分情報の識別情報を格納し、検索されたエントリのタイムスタンプ905に受信した生成時刻を格納する。
 図13は、本発明の実施例1におけるバックアップテーブル245の一例を示す説明図である。管理サーバは、差分情報を受信するたびに、対応する現用系サーバ110のエントリに差分情報の識別情報及び生成時刻を格納する。すなわち、一つの現用系サーバ110から複数の差分情報を受信した場合、管理サーバ100は、当該現用系サーバ110に対応するエントリに複数の差分情報に関する情報を格納する。
 以上が、ステップS1112の処理である。
 次に、管理サーバ100は、フルバックアップイメージを取得してから一定期間経過したか否かを判定する(ステップS1113)。すなわち、フルバックアップイメージの取得周期を経過したか否かが判定される。
 フルバックアップイメージの取得周期を経過していないと判定された場合、管理サーバ100は、ステップS1111に戻る。
 フルバックアップイメージの取得周期を経過したと判定された場合、管理サーバ100は、ステップS1103に戻る。
 図14は、本発明の実施例1における管理サーバ100が実行するリストアペア生成処理の一例を説明するフローチャートである。
 予備系サーバ110にリストアされたイメージに含まれるOSと、障害が発生した現用系サーバ110のOSとが異なる場合、当該リストアされたイメージを使用することができず、現用系サーバ110のフルバックアップイメージを再度リストアする必要がある。したがって、高速なサーバ110の切り替えを実現できない。
 本発明では、コールドスタンバイグループ160に含まれる複数の現用系サーバ110を、業務を実行のための構成が同一又は類似のサーバ110毎に分類することによって、効率的なフルバックアップイメージのリストアを行うためのリストアペア170を生成する。これによって、高速なサーバ110の切り替えが実現できる。
 リストアペア生成部231は、コールドスタンバイグループ160毎にリストアペア生成処理を実行する。以下では、コールドスタンバイグループ160が一つの場合を例に説明する。
 リストアペア生成部231は、コールドスタンバイグループ160に含まれる複数の現用系サーバ110を複数のグループに分類する(ステップS1401)。具体的には、以下のような処理が実行される。
 リストアペア生成部231は、コールドスタンバイグループテーブル222を参照してコールドスタンバイグループ160に含まれる複数の現用系サーバ110を特定する。また、リストアペア生成部231は、サーバテーブル221を参照して、特定された全ての現用系サーバ110の構成に関する情報を取得する。
 本実施例では、リストアペア生成部231は、サーバテーブル221のOS406に格納される情報を取得する。リストアペア生成部231は、OSの種別毎に、複数の現用系サーバ110を複数のグループに分類する。なお、グループには、少なくとも一つ以上の現用系サーバ110が含まれる。
 なお、前述した分類方法は一例であって、本発明はこれに限定されない。例えば、リストアペア生成部231は、現用系サーバ110の種別等のハードウェア構成、アプリケーションの種別、又は仮想化ソフトウェアの種別等のソフトウェア構成に基づいて、複数の現用系サーバ110を複数のグループに分類してもよい。
 以上が、ステップS1401の処理である。
 次に、リストアペア生成部231は、各グループに対して、コールドスタンバイグループ160に含まれる複数の予備系サーバ110を割り当てる(ステップS1402)。
 具体的には、リストアペア生成部231は、各グループに含まれる現用系サーバ110の数に基づいて、各グループに割り当てる予備系サーバ110の数を決定する。
 さらに、リストアペア生成部231は、サーバテーブル221を参照して、グループに含まれる現用系サーバ110のハードウェア構成と同一又は類似のハードウェア構成の予備系サーバ110を、各グループに決定された数だけ割り当てる。
 なお、前述した予備系サーバ110の割り当て方法は一例であって、本発明はこれに限定されない。
 次に、リストアペア生成部231は、各グループについて、当該グループに含まれる現用系サーバ110の優先順位を決定する(ステップS1403)。
 具体的には、リストアペア生成部231は、障害が発生する可能性のある現用系サーバ110の優先順位が高くなるように決定する。例えば、以下のような決定方法が考えられる。
 一つの方法は、内部記憶デバイス305の読み出しエラー等の障害履歴情報に基づいて決定する方法である。この場合、リストアペア生成部231は、サーバテーブル221を参照して、グループに含まれる現用系サーバ110に対応するエントリの読み出しエラー回数405の値が大きいものから順に、高い優先順位を決定する。
 他の方法は、現用系サーバ110の稼働時間に基づいて決定する方法である。この場合、リストアペア生成部231は、稼働時間が長い現用系サーバ110から順に、高い優先順位を決定する。
 業務システムの構成時には障害が発生する可能性が不明である場合がある。この場合、リストアペア生成部231は、サーバテーブル221のエントリ順に、高い優先順位を決定すればよい。
 なお、前述した優先順位の決定方法は一例であって、本発明はこれに限定されない。
 次に、リストアペア生成部231は、各グループに含まれる現用系サーバと、各グループに割り当てられた予備系サーバ110とを対応づけることによって、複数のリストアペア170を生成する(ステップS1404)。具体的には、以下のような処理が実行される。
 リストアペア生成部231は、処理対象となるグループを一つ選択する。リストアペア生成部231は、選択されたグループに含まれる現用系サーバ110の優先順位に基づいて、現用系サーバ110と予備系サーバ110とを対応づけることによって、一つ以上のリストアペア170を生成する。また、リストアペア生成部231は、生成された複数のリストアペア170の識別情報を決定する。
 本実施例では、選択されたグループに一つの予備系サーバ110が割り当てられる場合、一つのリストアペア170が生成され、また、選択されたグループに複数の予備系サーバ110が割り当てられる場合、予備系サーバ110の数だけ複数のリストアペア170が生成される。複数のリストアペア170を生成する方法としては、例えば、以下のような方法が考えられる。
 グループに二つの予備系サーバ110が割り当てられている場合、リストアペア生成部231は、一つの予備系サーバ110と、優先順位の値が奇数である現用系サーバ110とを対応づけ、また、他の予備系サーバ110と、優先順位が偶数である現用系サーバ110とを対応づける。
 また、他の方法としては以下のような方法が考えられる。グループにn台の予備系サーバ110が割り当てられている場合、リストアペア生成部231は、各予備系サーバ110に「0」から「n-1」の番号を割り当てる。リストアペア生成部231は、現用系サーバ110の優先順位の値を「n」で除算した余りを算出する。リストアペア生成部231は、割り当てられた番号が「k」である予備系サーバと、算出された余りが「k」である現用系サーバ110とを対応づける。
 前述した方法は一例であって、本発明はこれに限定されない。障害が発生する可能性の高い現用系サーバ110が、一つの予備系サーバ110に集中しないように対応づけられる方法であればどのような方法であってもよい。
 本実施例では、一つの予備系サーバと一つ以上の現用系サーバ110とからリストアペア170が構成される。現用系サーバ110に障害が発生した場合、リストアペア170に含まれる予備系サーバ110が業務を引き継ぐ。
 リストアペア生成部231は、全てのグループに対して前述した処理を実行する。
 以上がステップS1404の処理である。
 次に、リストアペア生成部231は、生成された複数のリストアペア170に関する情報に基づいて、リストアペアテーブル241を更新する(ステップS1405)。具体的には、以下のような処理が実行される。
 リストアペア生成部231は、リストアペア名601に、生成された複数のリストアペア170の各々の識別情報を格納し、コールドスタンバイグループ名602にコールドスタンバイグループ160の識別情報を格納する。
 また、リストアペア生成部231は、予備系サーバ名603に、リストアペア170に含まれる予備系サーバ110の識別情報を格納し、現用系サーバ名604に、リストアペア170に含まれる現用系サーバ110の識別情報を格納する。さらに、リストアペア生成部231は、優先順位605に、ステップ1403において決定された優先順位を格納する。このとき、共通イメージ名606及びリストアフラグ607は空欄の状態となっている。
 以上がステップS1405の処理である。
 次に、リストアペア生成部231は、共通イメージ決定部233に対して、共通イメージ決定処理の実行指示を出力する(ステップS1406)。リストアペア生成部231は、共通イメージ決定部233から処理が終了した旨の通知を受信するまで待ち状態となる。なお、共通イメージ決定処理の詳細については、図16を用いて後述する。
 リストアペア生成部231は、共通イメージ決定部233から受信した処理結果に基づいて、リストアペアテーブル241を更新し(ステップS1407)、処理を終了する。
 具体的には、リストアペア生成部231は、処理結果に含まれるリストアペア170の識別情報に基づいて、リストアペアテーブル241を参照し、更新するエントリを特定する。リストアペア生成部231は、特定されたエントリの共通イメージ名606に決定された共通イメージの識別情報を格納し、リストアフラグ607に「未」を格納する。
 なお、ステップS1403の処理を省略してもよい。この場合、リストアペア生成部231は、各グループに含まれる現用系サーバ110と、当該グループに割り当てられた一つ以上の予備系サーバ110とを対応づけることによって、リストアペア170を生成する。
 ここで、図4を用いて、ステップS1401からステップS1404までの処理の具体例について説明する。
 ステップS1401では、以下のような処理が実行される。
 リストアペア生成部231は、コールドスタンバイグループテーブル222を参照して、「コールドスタンバイグループテーブル1」には現用系サーバ110としてサーバA、サーバB、サーバC、サーバD、及びサーバEの五つの現用系サーバ110が含まれることを特定する。
 リストアペア生成部231は、サーバテーブル221を参照して、OS406が「OS1」であるグループ1と、OS406が「OS2」であるグループ2とに分類する。グループ1には、サーバA、サーバB、サーバD、及びサーバEが含まれ、グループ2には、サーバCが含まれる。
 ステップS1402では、以下のような処理が実行される。
 リストアペア生成部231は、グループ1に含まれる現用系サーバ110の数は「4」であり、グループ2に含まれる現用系サーバ110の数は「1」であるため、リストアペア生成部231は、4対1の比率となるように、各グループに割り当てる予備系サーバ110の数を決定する。なお、当該比率は目安であり、必ずしも当該比率と完全に一致するように予備系サーバ110の数を決定する必要はない。
 「コールドスタンバイグループ1」に含まれる予備系サーバ110の数は「3」であるため、リストアペア生成部231は、前述した比率に基づいて、グループ1に予備系サーバ110を二つ、グループ2に予備系サーバを一つ割り当てる。ここでは、リストアペア生成部231は、グループ1にサーバX、及びサーバYを割り当て、グループ2にサーバZを割り当てるものとする。
 ステップS1403では、以下のような処理が実行される。ここでは、読み出しエラー回数405に基づく優先順位の決定方法を適用した場合について説明する。
 リストアペア生成部231は、グループ1ではサーバD、サーバB、サーバA、サーバEの順に高い優先順位を付与し、グループ2ではサーバCに高い優先順位を付与する。
 ステップS1404では、以下のような処理が実行される。
 リストアペア生成部231は、サーバXとサーバD及びサーバAとを対応づけて、予備系サーバYとサーバB及びサーバEとを対応付けて、また、サーバZとサーバCとを対応づけることによって、三つのリストアペア170を生成する。
 図15は、本発明の実施例1における管理サーバ100が実行する共通イメージ決定処理の一例を説明するフローチャートである。
 共通イメージ決定部233は、リストアペア生成部231から共通イメージ決定処理の実行指示を受信すると処理を開始する。
 共通イメージ決定部233は、リストアペアテーブル241を参照して、生成された複数のリストアペア170の中から、処理対象のリストアペア170を選択する(ステップS1501)。
 具体的には、共通イメージ決定部233は、リストアペアテーブル241から、リストアペア170のエントリを選択する。本実施例では、リストアペアテーブル241の上から順にエントリが選択されるものとする。
 ステップS1501~ステップS1507は、リストアペア170のループ処理である。各リストアペア170に対して、ステップS1502~ステップS1506の処理が繰り返し実行される。
 共通イメージ決定部233は、選択されたリストアペア170に含まれる全ての現用系サーバ110のフルバックアップイメージがデプロイイメージであるか否かを判定する(ステップS1502)。すなわち、業務システムの構成時の処理、又は、業務システムの運用時の処理の何れであるかが判定される。全ての現用系サーバ110のフルバックアップイメージがデプロイイメージである場合、業務システム構成時の処理であると判定される。具体的には以下のような処理が実行される。
 共通イメージ決定部233は、リストアペアテーブル241を参照して、選択されたリストアペア170に含まれる全ての現用系サーバ110の識別情報を取得する。
 共通イメージ決定部233は、取得されたサーバ110の識別情報に基づいて、フルバックアップイメージ構成テーブル242を参照して、選択されたリストアペア170に含まれる各現用系サーバ110のフルバックアップイメージの識別情報を取得する。具体的には、共通イメージ決定部233は、現用系サーバ名702が取得されたサーバ110の識別情報と一致するエントリを検索し、検索されたエントリのフルバックアップイメージ名701からフルバックアップイメージの識別情報を取得する。
 共通イメージ決定部233は、取得されたフルバックアップイメージの識別情報に基づいて、選択されたリストアペア170に含まれる各現用系サーバ110のフルバックアップイメージがデプロイイメージであるか否かを判定する。
 共通イメージ決定部233は、前述した判定結果に基づいて、選択されたリストアペア170に含まれる全ての現用系サーバ110のフルバックアップイメージがデプロイイメージであるか否かを判定する。
 以上がステップS1502の処理である。
 リストアペア170に含まれる全ての現用系サーバ110のフルバックアップイメージがデプロイイメージであると判定された場合、共通イメージ決定部233は、デプロイイメージの中から、最も適用回数が多いデプロイイメージを共通イメージとして決定する(ステップS1503)。例えば、管理サーバ100が、デプロイイメージの適用回数を保持し、当該適用回数に基づいて共通イメージを決定する。
 ステップS1502において、リストアペア170に含まれる全ての現用系サーバ110のフルバックアップイメージがデプロイイメージでないと判定された場合、共通イメージ決定部233は、リストアペア170に含まれる全ての現用系サーバ110の最新のフルバックアップイメージを選択する(ステップS1504)。
 具体的には、共通イメージ決定部233は、フルバックアップイメージ構成テーブル242を参照して、リストアペア170に含まれる全ての現用系サーバ110に対応するエントリを特定する。共通イメージ決定部233は、特定されたエントリのうち、タイムスタンプ805が最新のエントリを選択する。
 共通イメージ決定部233は、選択されたフルバックイメージを比較することによって、各フルバックイメージの共通部分を特定する(ステップS1505)。
 例えば、リストアペア170に現用系サーバ110としてサーバA、サーバB、及びサーバCの三つの現用系サーバ110が含まれる場合、共通イメージ決定部233は、サーバA、サーバB、及びサーバCのフルバックアップイメージをそれぞれ比較する。すなわち、共通イメージ決定部233は、サーバAのフルバックアップイメージについて、サーバB及びサーバCのフルバックアップイメージと比較し、サーバBのフルバックアップイメージについて、サーバA及びサーバCのフルバックアップイメージと比較し、サーバCのフルバックアップイメージについて、サーバA及びサーバBのフルバックアップイメージと比較する。
 共通イメージ決定部233は、フルバックアップイメージの比較結果に基づいて、他のフルバックアップイメージとの共通部分が最も多いフルバックアップイメージを共通イメージとして決定する(ステップS1506)。
 本実施例では、共通するファイルの数、又は共通するファイルのデータ容量が最も多いフルバックアップイメージが共通イメージとして決定される。例えば、サーバAのフルバックイメージがサーバB及びサーバCのフルバックアップイメージと共通するファイルの数が「100」、サーバBのフルバックアップイメージがサーバA及びサーバCのフルバックアップイメージと共通するファイルの数が「200」、サーバCのフルバックアップイメージがサーバA及びサーバBのフルバックアップイメージと共通するファイル数が「120」である場合、サーバBのフルバックアップイメージが共通イメージとして決定される。
 ステップS1507において、全てのリストアペア170について処理が完了していない場合、共通イメージ決定部233は、ステップS1502に戻り、次のリストアペア170を選択する。ステップS1507において、全てのリストアペア170について処理が完了している場合、共通イメージ決定部233は、処理を終了する。
 なお、共通イメージ決定部233は、処理が終了した後、共通イメージの識別情報、及びリストアペアの識別情報を含む処理完了通知をリストアペア生成部231に送信する。
 図16は、本発明の実施例1における管理サーバ100が実行する共通イメージリストア処理の一例を説明するフローチャートである。
 共通イメージリストア処理は、リストア部237によって実行される。
 リストア部237は、リストアペアテーブル241を参照して、複数のリストアペア170の中から、処理対象のリストアペア170を選択する(ステップS1601)。
 具体的には、リストア部237は、リストアペアテーブル241から、リストアペア170のエントリを選択する。本実施例では、リストアペアテーブル241の上から順にエントリが選択されるものとする。
 ステップS1601~ステップS1604は、リストアペア170のループ処理である。各リストアペア170に対して、ステップS1602~ステップS1603の処理が繰り返し実行される。
 リストア部237は、選択されたリストアペア170に含まれる予備系サーバ110に、共通イメージをリストアする(ステップS1602)。具体的には、以下のような処理が実行される。
 リストア部237は、リストアペアテーブル241を参照し、選択されたリストアペア170に対応するエントリの共通イメージ名606に基づいて、共通イメージを特定する。リストア部237は、特定された共通イメージに対応するフルバックアップイメージを外部ストレージ装置180から取得する。
 リストア部237は、当該エントリの予備系サーバ名603に対応する予備系サーバ110にバックアップ取得/復元エージェント236とともに、起動指示を送信する。これによって、予備系サーバ110上でバックアップ取得/復元エージェント236が稼働する。
 リストア部237は、予備系サーバ110に、取得されたフルバックアップイメージを送信する。このとき、予備系サーバ110上で稼働するバックアップ取得/復元エージェント236が、受信したイメージを、内部記憶デバイス305にリストアする。
 以上がステップS1602の処理である。
 次に、リストア部237は、リストアペアテーブル241のリストアフラグ607を更新する(ステップS1603)。
 具体的には、リストア部237は、リストアペアテーブル241のリストアフラグ607に、「済」を格納する。
 全てのリストアペア170について処理が完了していない場合、リストア部237は、ステップS1602に戻り、次のリストアペア170を選択する。全てのリストアペア170について処理が完了している場合、リストア部237は、処理を終了する。
 図17は、本発明の実施例1におけるリストアペアテーブル241の一例を示す説明図である。図17に示すリストアペアテーブル241は、共通イメージリストア処理が終了した後の状態を示す。
 図18は、本発明の実施例1における管理サーバ100が実行する個別イメージ生成処理の一例を説明するフローチャートである。
 共通イメージ決定部233は、リストアペアテーブル241を参照して、複数のリストアペア170の中から、処理対象のリストアペア170を選択する(ステップS1801)。
 具体的には、共通イメージ決定部233は、リストアペアテーブル241から、リストアペア170のエントリを選択する。本実施例では、リストアペアテーブル241の上から順にエントリが選択されるものとする。
 ステップS1801~ステップS1811の処理は、リストアペア170のループ処理である。各リストアペア170に対して、ステップS1802~ステップS1810の処理が繰り返し実行される。
 個別イメージ生成部234は、選択されたリストアペア170に含まれる現用系サーバを一つ選択する(ステップS1802)。
 ステップS1802~ステップS1810の処理は、現用系サーバ110のループ処理である。各現用系サーバ110に対して、ステップS1803~ステップS1809の処理が繰り返し実行される。
 個別イメージ生成部234は、選択されたリストアペア170の共通イメージ、及び選択された現用系サーバ110のフルバックアップイメージを特定する(ステップS1803)。具体的には、以下のような処理が実行される。
 個別イメージ生成部234は、リストアペアテーブル241を参照して、選択されたリストアペア170に対応するエントリを特定し、特定されたエントリの共通イメージ名606から共通イメージの識別情報を取得する。また、個別イメージ生成部234は、共通イメージの識別情報に基づいて、フルバックアップイメージ構成テーブル242を参照することによって、共通イメージに対応するフルバックアップイメージのエントリを特定する。
 また、個別イメージ生成部234は、フルバックアップイメージ構成テーブル242を参照して、選択された現用系サーバ110に対応するエントリを特定する。
 以下の説明では、選択されたリストアペア170の共通イメージを対象共通イメージとも記載し、選択された現用系サーバ110のフルバックアップイメージを対象フルバックアップイメージとも記載する。
 以上がステップS1803の処理である。
 次に、個別イメージ生成部234は、対象フルバックアップイメージのMBRイメージを特定する(ステップS1804)。
 具体的には、個別イメージ生成部234は、特定された現用系サーバ110のエントリのMBRイメージ名703を参照することによって、対象フルバックアップイメージのMBRイメージを特定する。
 次に、個別イメージ生成部234は、対象フルバックアップイメージのファイル領域の中からパーティションを一つ選択する(ステップS1805)。
 ステップS1805~ステップS1807の処理は、パーティションのループ処理である。対象フルバックアップイメージのパーティション毎に、ステップS1806の処理が繰り返し実行される。
 個別イメージ生成部234は、対象フルバックアップイメージのパーティションと、当該パーティションに対応する対象共通イメージのパーティションとを比較し、差分ファイルセットを記録する(ステップS1806)。
 具体的には、個別イメージ生成部234は、対象共通イメージのパーティションに格納されるファイルセットから変更されたファイル及び削除されたファイルを差分ファイルセットとして、メモリ202上に記録する。なお、差分ファイルセットは、外部ストレージ装置180に記録されてもよい。
 ステップS1807において、対象フルバックアップイメージの全てのパーティションについて処理が完了していない場合、個別イメージ生成部234は、ステップS1805に戻り、次のパーティションについて同様の処理を実行する。
 ステップS1807において、対象フルバックアップイメージの全てのパーティションについて処理が完了している場合、個別イメージ生成部234は、ステップS1804において特定されたMBRイメージ、及びステップS1806において記録された差分ファイルに基づいて、個別イメージを生成する(ステップS1808)。生成された個別イメージは、外部ストレージ装置180に格納される。
 なお、個別イメージ生成部234は、具体的なイメージを生成しなくともよい。例えば、個別イメージ生成部234は、MBRイメージ及び差分ファイルを対応づけることによって、個別イメージとして認識できる情報を生成できればよい。
 個別イメージ生成部234は、生成された個別イメージの情報に基づいて、個別イメージ構成テーブル243及びバックアップデータテーブル244を更新する(ステップS1809)。
 個別イメージ構成テーブル243については以下のように更新される。
 個別イメージ生成部234は、個別イメージ構成テーブル243にエントリを追加し、当該エントリの個別イメージ名801に、生成された個別イメージの識別情報を格納し、MBRイメージ名802に、ステップS1802において特定されたMBRの識別情報を格納する。
 また、個別イメージ生成部234は、追加されたエントリのファイルセット名803に、差分ファイルセットのうち、追加又は更新されたファイルセットの識別情報を格納し、ファイルセット名804に差分ファイルセットのうち、削除されたファイルセットの識別情報を格納する。さらに、個別イメージ生成部234は、タイムスタンプ805に、個別イメージが生成された時刻を格納する。
 バックアップデータテーブル244については以下のように更新される。
 個別イメージ生成部234は、バックアップデータテーブル244に新たなエントリを追加し、当該エントリの現用系サーバ名901に、選択された現用系サーバ110の識別情報を格納する。また、個別イメージ生成部234は、追加されたエントリの共通イメージ名902に、特定された共通イメージの識別情報を格納し、個別イメージ名903に、生成された個別イメージの識別情報を付与する。
 なお、差分情報名904及びタイムスタンプ905は、空欄の状態である。
 以上がステップS1809の処理である。
 ステップS1810において、個別イメージ生成部234は、選択されたリストアペア170に含まれる全ての現用系サーバ110について処理が完了していない場合、個別イメージ生成部234は、ステップS1802に戻り、次の現用系サーバ110を選択して同様の処理を実行する。
 ステップ1810において選択されたリストアペア170に含まれる全ての現用系サーバ110について処理が完了している場合、個別イメージ生成部234は、ステップS1811に進む。
 ステップS1811において、全てのリストアペア170について処理が完了していない場合、ステップS1801に戻り、次のリストアペア170を選択して同様の処理を実行する。
 ステップS1811において、全てのリストアペア170について処理が完了している場合、個別イメージ生成部234は、処理を終了する。
 なお、個別イメージ生成部234は、バックアップデータテーブル244の一つのエントリの差分情報名904に所定数以上の差分情報が格納されている場合、又は、周期的に、個別イメージに差分情報を反映させることによって、新たな個別イメージを生成してもよい。
 図19は、本発明の実施例1における管理サーバ100が実行するサーバ切替処理の一例を説明するフローチャートである。
 管理サーバ100は、現用系サーバ110の障害を検出すると、サーバ切替処理を開始する。本実施例では、サーバ管理部101は、障害が発生した現用系サーバ110の識別情報、及び障害の原因等の情報を取得するものとする。
 なお、本発明は現用系サーバ110の障害検出方法に限定されない。障害が発生した現用系サーバ110を特定できる方法であればどのような方法を用いてもよい。
 管理サーバ100は、障害が発生した現用系サーバ110を停止させる(ステップS1901)。
 例えば、管理サーバ100は、現用系サーバ110上で稼働するバックアップ取得/復元エージェント236に停止指示を送信する。バックアップ取得/復元エージェント236は、当該停止指示を受信すると、現用系サーバ110を電源OFFの状態に変更する。
 管理サーバ100は、予備系サーバ110を選択するための予備系サーバ選択処理を実行する(ステップS1902)。また、管理サーバ100は、選択された予備系サーバ110にバックアップデータをリストアするためのリストア処理を実行する(ステップS1903)。
 予備系サーバ選択処理の詳細については、図20を用いて後述する。また、リストア処理の詳細については、図21を用いて後述する。
 管理サーバ100は、予備系サーバ選択処理によって選択された予備系サーバに、現用系サーバ110のWWNを付与する(ステップS1904)。
 具体的には、WWN変更部215が、予備系サーバ110に、現用系サーバ110が使用していたWWNを付与する。
 管理サーバ100は、予備系サーバ選択処理によって選択された予備系サーバ110に、現用系サーバ110のBIOSの設定情報を設定する(ステップS1905)。具体的には、以下のような処理が実行される。
 BIOS情報リストア部216が、現用系サーバ110の識別情報に基づいてサーバテーブル221を参照して、現用系サーバ110のエントリを検索する。BIOS情報リストア部216は、検索されたエントリのBIOS情報410に基づいて、現用系サーバ110のBIOS情報の識別情報を取得する。
 BIOS情報リストア部216は、取得されたBIOS情報の識別情報に基づいて、外部ストレージ装置180から、特定された現用系サーバ110のBIOS情報を取得する。さらに、BIOS情報リストア部216は、取得されたBIOS情報を、予備系サーバ110に設定する。
 以上がステップS1905の処理である。
 次に、管理サーバ100は、選択された予備系サーバ110を起動させ(ステップS1906)、処理を終了する。例えば、管理サーバ100は、予備系サーバ110上で稼働するバックアップ取得/復元エージェント236に、予備系サーバ110の起動指示を送信する。
 図20は、本発明の実施例1における管理サーバ100が実行する予備系サーバ選択処理の一例を説明するフローチャートである。
 管理サーバ100は、障害が発生した現用系サーバ110がリストアペア170に含まれる現用系サーバ110であるか否かを判定する(ステップS2001)。
 具体的には、切替先サーバ選択部214は、障害が発生した現用系サーバ110の識別情報に基づいて、リストアペアテーブル241の現用系サーバ名604を参照する。現用系サーバ名604に、障害が発生した現用系サーバ110の識別情報が格納されるエントリが見つかった場合、切替先サーバ選択部214は、当該現用系サーバ110がリストアペア170に含まれる現用系サーバ110であると判定する。
 障害が発生した現用系サーバがリストアペア170に含まれる現用系サーバ110であると判定された場合、管理サーバ100は、当該リストアペア170に含まれる予備系サーバ110の中から予備系サーバ110を選択し(ステップS2002)、処理を終了する。
 例えば、切替先サーバ選択部214は、現用系サーバ110のハードウェア構成と同一のハードウェア構成である予備系サーバ110を選択する方法が考えられる。なお、本発明は切替先の予備系サーバ110の選択方法に限定されない。
 なお、本実施例では、一つ以上の現用系サーバ110と一つの予備系サーバ110とからリストアペア170が構成されるため、切替先の予備系サーバ110は自動的に選択される。
 障害が発生した現用系サーバがリストアペア170に含まれる現用系サーバ110でないと判定された場合、管理サーバ100は、コールドスタンバイグループ160に含まれる予備系サーバ110の中から任意の予備系サーバ110を選択し(ステップS2003)、処理を終了する。
 図21は、本発明の実施例1における管理サーバ100が実行するリストア処理の一例を説明するフローチャートである。
 管理サーバ100は、切替先の予備系サーバ110に共通イメージがリストアされているか否かを判定する(ステップS2101)。
 具体的には、リストア部237は、切替先の予備系サーバ110の識別情報に基づいて、リストアペアテーブル241を参照して、当該予備系サーバ110に対応するエントリを検索する。リストア部237は、検索されたエントリのリストアフラグ607に「済」が格納されているか否かを判定する。
 切替先の予備系サーバ110に共通イメージがリストアされていないと判定された場合、管理サーバ100は、当該予備系サーバ110に、共通イメージをリストアし(ステップS2102)、ステップS2103に進む。
 具体的には、リストア部237は、検索されたエントリの共通イメージ名606を参照して共通イメージを特定し、外部ストレージ装置180から特定共通イメージを取得する。さらに、リストア部237は、取得された共通イメージを切替先の予備系サーバ110にリストアする。
 切替先の予備系サーバ110に共通イメージがリストアされていると判定された場合、管理サーバ100は、当該予備系サーバ110に、現用系サーバ110の個別イメージをリストアする(ステップS2103)。具体的には、以下のような処理が実行される。
 リストア部237は、障害が発生した現用系サーバ110の識別情報に基づいて、バックアップデータテーブル244を参照し、当該現用系サーバ110に対応するエントリを検索する。リストア部237は、検索されたエントリの個別イメージ名903を参照して、個別イメージの識別情報を特定する。
 リストア部237は、特定された個別イメージ情報の識別情報に基づいて、外部ストレージ装置180から個別イメージを取得し、取得された個別イメージを予備系サーバ110にリストアする。
 以上がステップS2103の処理である。
 次に、管理サーバ100は、予備系サーバ110に、現用系サーバ110の差分情報をリストアし(ステップS2104)、処理を終了する。具体的には、以下のような処理が実行される。
 リストア部237は、障害が発生した現用系サーバ110の識別情報に基づいて、バックアップデータテーブル244を参照し、当該現用系サーバ110のエントリを検索する。リストア部237は、検索されたエントリの差分情報名904及びタイムスタンプ905を参照して、差分情報の識別情報及び生成時刻を取得する。
 リストア部237は、取得された差分情報の識別情報に基づいて、外部ストレージ装置180から、差分情報を取得する。リストア部237は、生成時刻が古いものから順に、取得された差分情報を切替先の予備系サーバ110にリストアする。
 なお、個別イメージそのものが生成されない場合、ステップS2103の処理の一部が異なる。具体的には、リストア部237は、検索されたエントリの個別イメージ名903を参照して、個別イメージの識別情報を特定した後の処理が異なる。
 リストア部237は、特定された個別イメージの識別情報に基づいて、個別イメージ構成テーブル243を参照し、個別イメージ名801に取得された個別イメージの識別情報が格納されるエントリを検索する。リストア部237は、検索されたエントリのMBRイメージ名802、ファイルセット名803、804に基づいて、個別イメージを構成する情報を特定する。
 さらに、リストア部237は、外部ストレージ装置180から、個別イメージを構成する情報を取得し、取得された情報を予備系サーバ110にリストアする。
 以上で説明したように、本発明は、業務を実行するための構成が共通する現用系サーバ110が同一のリストアペア170に含まれることに特徴がある。また、本発明は、リストアペア170毎に予備系サーバ110にリストアする共通イメージを決定することに特徴がある。
 これによって、障害が発生した現用系サーバ110の個別イメージを共通イメージに反映させるのみで、予備系サーバ110が業務を引き継ぐことができる。すなわち、異なるフルバックイメージを予備系サーバ110にリストアする必要がなくなるため、予備系サーバ110への切替時間を短縮することができる。
 また、本発明は、他のフルバックアップイメージとの共通部分が多いフルバックアップイメージを共通イメージとして、予め予備系サーバ110リストアすることに特徴がある。
 これによって、共通イメージと、各現用系サーバ110のフルバックアップイメージとの間の差異が最小となるため個別イメージのデータサイズが最小となり、予備系サーバ110への切替時間をより短縮することができる。
 また、実施例1では、さらに、共通イメージに差分情報を反映させることによって、現用系サーバ110の障害が発生する前の業務の状態を復元できるため、バックアップイメージの陳腐化を防止することができる。
 第1の実施例では、フルバックアップイメージ間の共通部分に基づいて、共通イメージを決定していたが、第2の実施例では、障害発生の可能性を示す指標に基づいて決定する点が異なる。以下、第1の実施例との差異を中心に説明する。
 第2の実施例の計算機システム、管理サーバ100、サーバ110、及び各テーブルの構成は、第1の実施例と同一であるため説明を省略する。
 第2の実施例では、共通イメージ決定処理が異なる。
 図22は、本発明の実施例2における管理サーバ100が実行する共通イメージ決定処理の一例を説明するフローチャートである。
 ステップS1501からステップS1503の処理、及びステップS1507の処理は、第1の実施例と同一であるため説明を省略する。
 ステップS1502において、リストアペア170に含まれる全ての現用系サーバ110のフルバックアップイメージがデプロイイメージでないと判定された場合、共通イメージ決定部233は、サーバテーブル221を参照して(ステップS2201)、障害発生の可能性が最も高い現用系サーバ110のフルバックアップイメージを共通イメージとして決定する(ステップS2202)。
 具体的には、共通イメージ決定部233は、リストアペアテーブル241を参照して、選択されたリストアペア170に対応するエントリを特定する。共通イメージ決定部233は、特定されたエントリの優先順位605を参照して、当該優先順位605の値が最も小さい現用系サーバ110を選択する。共通イメージ決定部233は、選択された現用系サーバ110のフルバックアップイメージを共通イメージとして決定する。
 本実施例では、優先順位605は、読み出しエラー回数等に基づいて決定されているため、障害発生の可能性を示す指標となる。
 その他の処理は、第1の実施例と同一であるため説明を省略する。
 実施例2によれば、障害が発生する可能性の高い現用系サーバ110のフルバックアップイメージを共通イメージとして予備系サーバ110にリストアすることによって、当該現用系サーバ110から予備系サーバ110へ高速に切り替えることができる。
 なお、第1の実施例及び第2の実施例を組合せてもよい。例えば、業務システムの構築時に、共通イメージ決定部233は、フルバックアップイメージの共通部分に基づいて共通イメージを決定し、業務システムの運用時に、優先順位605に基づいて共通イメージを決定する実施例が考えられる。
 なお、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体(例えば、非一時的な記憶媒体)に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。
 さらに、本実施例では、ソフトウェアによる制御を用いた例について説明したが、その一部をハードウェアによって実現することも可能である。
 以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

Claims (15)

  1.  複数の計算機と、前記複数の計算機から構成されるクラスタを管理する管理計算機と、を備える計算機システムであって、
     前記複数の計算機の各々は、第1のプロセッサ、前記第1のプロセッサに接続される第1のメモリ、前記第1のプロセッサに接続される記憶デバイス、及び前記第1のプロセッサに接続される第1のネットワークインタフェースを有し、
     前記管理計算機は、第2のプロセッサ、前記第2のプロセッサに接続される第2のメモリ、及び前記第2のプロセッサに接続される第2のネットワークインタフェースを有し、
     前記クラスタを構成する前記複数の計算機は、前記記憶デバイスを用いて業務を実行する複数の第1の計算機と、障害が発生した第1の計算機が実行する業務を引き継ぐ複数の第2の計算機とを含み、
     前記管理計算機は、
     前記複数の第1の計算機の各々のバックアップイメージを取得するバックアップ取得部と、
     一つ以上の第1の計算機と、一つ以上の第2の計算機とから構成される複数のリストアペアを生成し、前記複数のリストアペア毎に、一つのリストアペアに含まれる前記一つ以上の第2の計算機にリストアする共通イメージを選択するリストアペア管理部と、を有し、
     前記クラスタを構成する複数の計算機の各々のハードウェア構成の情報及びソフトウェア構成の情報を管理するサーバ管理情報を保持し、
     前記リストアペア管理部は、
     前記クラスタの構成が変更されたことを検出した場合に、前記サーバ管理情報を参照して、前記複数の第1の計算機を、前記業務を提供するためのソフトウェア構成が共通する複数のグループに分類し、
     前記サーバ管理情報を参照して、前記複数の第1の計算機の各々のハードウェア構成の情報及び前記複数の第2の計算機の各々のハードウェア構成の情報に基づいて、前記複数のグループの各々に、少なくとも一つ以上の第2の計算機を割り当て、
     前記複数のグループ毎に、一つのグループに含まれる一つ以上の第1の計算機と、前記一つのグループに割り当てられた少なくとも一つ以上の第2の計算機とを対応づけることによって、一つ以上のリストアペアを生成し、
     前記複数のリストアペア毎に、前記一つのリストアペアに含まれる前記一つ以上の第1の計算機の前記バックアップイメージの中から、前記共通イメージを決定し、
     前記リストアペアの識別情報、前記リストアペアに含まれる前記一つ以上の第1の計算機の識別情報、前記リストアペアに含まれる前記一つ以上の第2の計算機の識別情報、及び前記リストアペアの前記共通イメージの識別情報を対応づけたリストアペア管理情報を生成することを特徴とする計算機システム。
  2.  請求項1に記載の計算機システムであって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記リストアペア管理部は、
     前記共通イメージを選択する場合に、前記複数のリストアペアの中から処理対象のリストアペアを選択し、
     前記選択されたリストアペアに含まれる前記複数の第1の計算機の各々の前記バックアップイメージを比較して、共通部分を算出し、
     前記算出の結果に基づいて、前記共通部分が最も多い第1の計算機の前記バックアップイメージを、前記共通イメージとして選択し、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアすることを特徴とする計算機システム。
  3.  請求項1に記載の計算機システムであって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記サーバ管理情報は、前記複数の第1の計算機の稼働状態を示す稼働履歴情報を含み、
     前記リストアペア管理部は、
     前記共通イメージを選択する場合に、前記複数のリストアペアの中から処理対象のリストアペアを選択し、
     前記サーバ管理情報を参照して、前記選択されたリストアペアに含まれる前記複数の第1の計算機の前記稼働履歴情報を取得し、
     前記取得された稼働履歴情報に基づいて、障害が発生する可能性の高い第1の計算機を特定し、
     前記特定された第1の計算機の前記バックアップイメージを前記共通イメージとして選択し、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアすることを特徴とする計算機システム。
  4.  請求項2又は請求項3に記載の計算機システムであって、
     前記管理計算機は、
     制御部と、I/Oインタフェースと、複数の記憶デバイスとを有し、前記複数の第1の計算機の各々の前記バックアップイメージを格納するストレージ装置と接続され、
     前記第1の計算機の識別情報と、前記第1の計算機のバックアップイメージの識別情報とを対応づけたバックアップイメージ管理情報を保持し、
     前記リストアペア管理部は、
     前記複数のリストアペアの中から処理対象のリストアペアを選択し、
     前記リストアペア管理情報及び前記バックアップイメージ管理情報に基づいて、前記選択されたリストアペアに含まれる前記複数の第1の計算機の各々の前記バックアップイメージと、前記選択されたリストアペアの前記共通イメージとを特定し、
     前記特定された複数の第1の計算機の各々の前記バックアップイメージと、前記特定された共通イメージとを比較して、複数の第1の差分情報を取得し、
     前記取得された複数の第1の差分情報に基づいて、前記共通イメージに反映することによって前記複数の第1の計算機の各々が実行する業務の状態を復元するための複数の個別イメージを生成し、
     前記生成された複数の個別イメージを前記ストレージ装置に格納することを特徴とする計算機システム。
  5.  請求項4に記載の計算機システムであって、
     前記管理計算機は、
     第1の計算機の障害が検出された場合に、当該第1の計算機が含まれるリストアペアに含まれる前記一つ以上の第2の計算機の中から、切替先の第2の計算機を決定する切替先サーバ決定部と、
     障害が発生した第1の計算機が実行する業務の状態を復元するためにバックアップデータをリストアするリストア部と、を有し、
     第1の計算機の識別情報、共通イメージの識別情報、及び個別イメージの識別情報を対応づけたバックアップデータ管理情報を保持し、
     前記切替先サーバ決定部は、
     前記障害が発生した第1の計算機の識別情報に基づいて、前記リストアペア管理情報を参照して、前記障害が発生した第1の計算機が含まれるリストアペアを特定し、
     前記特定されたリストアペアに含まれる前記一つ以上の第2の計算機の中から、切替先となる第2の計算機を選択し、
     前記リストア部は、
     前記障害が発生した第1の計算機の識別情報に基づいて、前記バックアップデータ管理情報を参照して、前記ストレージ装置から、前記障害が発生した第1の計算機の個別イメージを取得し、
     前記取得された個別イメージを、前記選択された第2の計算機に格納される前記共通イメージに反映することによって、前記障害が発生した第1の計算機が実行する業務の状態を復元することを特徴とする計算機システム。
  6.  請求項5に記載の計算機システムであって、
     前記複数の第1の計算機の各々は、前記記憶デバイスに生じた差分データを、第2の差分情報として取得し、前記取得された第2の差分情報を前記管理計算機に送信する差分情報取得部を有し、
     前記管理計算機は、前記バックアップイメージが取得されてから次に前記バックアップイメージが取得されるまでの間に、前記第2の差分情報を受信した場合に、前記受信した第2の差分情報を前記ストレージ装置に格納し、
     第2の差分情報の識別情報、前記第2の差分情報が生成された時間、及び前記第2の差分情報を送信した第1の計算機の識別情報を対応づけて前記バックアップデータ管理情報に格納し、
     前記リストア部は、
     前記取得された個別イメージを、前記選択された第2の計算機に格納される前記共通イメージに反映した後、前記バックアップデータ管理情報を参照して、前記ストレージ装置から、前記障害が発生した第1の計算機から受信した前記第2の差分情報を取得し、
     前記取得された第2の差分情報が生成された時間が古いものから順に、前記取得された第2の差分情報を、前記個別イメージが反映された共通イメージに反映することによって、前記障害が発生した第1の計算機が実行する業務の状態を復元することを特徴とする計算機システム。
  7.  複数の計算機から構成されるクラスタを含む計算機システムにおけるクラスタ管理方法であって、
     前記計算機システムは、前記クラスタを管理する管理計算機を有し、
     前記複数の計算機の各々は、第1のプロセッサ、前記第1のプロセッサに接続される第1のメモリ、前記第1のプロセッサに接続される記憶デバイス、及び前記第1のプロセッサに接続される第1のネットワークインタフェースを有し、
     前記管理計算機は、第2のプロセッサ、前記第2のプロセッサに接続される第2のメモリ、及び前記第2のプロセッサに接続される第2のネットワークインタフェースを有し、
     前記クラスタを構成する前記複数の計算機は、前記記憶デバイスを用いて業務を実行する複数の第1の計算機と、第1の計算機に障害が発生した場合に、前記第1の計算機が実行する業務を引き継ぐ複数の第2の計算機とを含み、
     前記管理計算機は、
     前記複数の第1の計算機の各々のバックアップイメージを取得するバックアップ取得部と、
     一つ以上の第1の計算機と、一つ以上の第2の計算機とから構成される複数のリストアペアを生成し、前記複数のリストアペア毎に、一つのリストアペアに含まれる前記一つ以上の第2の計算機にリストアする共通イメージを選択するリストアペア管理部と、を有し、
     前記クラスタを構成する複数の計算機の各々のハードウェア構成の情報及びソフトウェア構成の情報を管理するサーバ管理情報を保持し、
     前記方法は、
     前記リストアペア管理部が、前記クラスタの構成が変更されたことを検出した場合に、前記サーバ管理情報を参照して、前記複数の第1の計算機を、前記業務を提供するためのソフトウェア構成が共通する複数のグループに分類する第1のステップと、
     前記リストアペア管理部が、前記サーバ管理情報を参照して、前記複数の第1の計算機の各々のハードウェア構成の情報及び前記複数の第2の計算機の各々のハードウェア構成の情報に基づいて、前記複数のグループの各々に、少なくとも一つ以上の第2の計算機を割り当てる第2のステップと、
     前記リストアペア管理部が、前記複数のグループ毎に、一つのグループに含まれる一つ以上の第1の計算機と、前記一つのグループに割り当てられた少なくとも一つ以上の第2の計算機とを対応づけることによって、一つ以上のリストアペアを生成する第3のステップと、
     前記リストアペア管理部が、前記複数のリストアペア毎に、前記一つのリストアペアに含まれる前記一つ以上の第1の計算機の前記バックアップイメージの中から、前記共通イメージを決定する第4のステップと、
     前記リストアペア管理部が、前記リストアペアの識別情報、前記リストアペアに含まれる一つ以上の第1の計算機の識別情報、前記リストアペアに含まれる一つ以上の第2の計算機の識別情報、及び前記リストアペアの共通イメージの識別情報を対応づけたリストアペア管理情報を生成する第5のステップと、
     を含むことを特徴とするクラスタ管理方法。
  8.  請求項7に記載のクラスタ管理方法であって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記第4のステップは、
     前記複数のリストアペアの中から処理対象のリストアペアを選択するステップと、
     前記選択されたリストアペアに含まれる前記複数の第1の計算機の各々の前記バックアップイメージを比較して、共通部分を算出するステップと、
     前記算出の結果に基づいて、前記共通部分が最も多い第1の計算機の前記バックアップイメージを、前記共通イメージとして選択するステップと、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアするステップと、
     を含むことを特徴とするクラスタ管理方法。
  9.  請求項7に記載のクラスタ管理方法であって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記サーバ管理情報は、前記複数の第1の計算機の稼働状態を示す稼働履歴情報を含み、
     前記第4のステップは、
     前記複数のリストアペアの中から処理対象のリストアペアを選択するステップと、
     前記サーバ管理情報を参照して、前記選択されたリストアペアに含まれる前記複数の第1の計算機の前記稼働履歴情報を取得するステップと、
     前記取得された稼働履歴情報に基づいて、障害が発生する可能性の高い第1の計算機を特定するステップと、
     前記特定された第1の計算機の前記バックアップイメージを前記共通イメージとして選択するステップと、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアするステップと、
     を含むことを特徴とするクラスタ管理方法。
  10.  請求項8又は請求項9に記載のクラスタ管理方法であって、
     前記管理計算機は、
     制御部と、I/Oインタフェースと、複数の記憶デバイスとを有し、前記複数の第1の計算機の各々の前記バックアップイメージを格納するストレージ装置と接続され、
     前記第1の計算機の識別情報と、前記第1の計算機のバックアップイメージの識別情報とを対応づけたバックアップイメージ管理情報を保持し、
     前記方法は、
     前記リストアペア管理部が、前記複数のリストアペアの中から処理対象のリストアペアを選択するステップと、
     前記リストアペア管理部が、前記リストアペア管理情報及び前記バックアップイメージ管理情報に基づいて、前記選択されたリストアペアに含まれる前記複数の第1の計算機の各々の前記バックアップイメージと、前記選択されたリストアペアの前記共通イメージとを特定するステップと、
     前記リストアペア管理部が、前記特定された複数の第1の計算機の各々の前記バックアップイメージと、前記特定された共通イメージとを比較して、複数の第1の差分情報を取得するステップと、
     前記リストアペア管理部が、前記取得された複数の第1の差分情報に基づいて、前記共通イメージに反映することによって前記複数の第1の計算機の各々が実行する業務の状態を復元するための複数の個別イメージを生成するステップと、
     前記リストアペア管理部が、前記生成された複数の個別イメージを前記ストレージ装置に格納するステップと、
     を含むことを特徴とするクラスタ管理方法。
  11.  請求項10に記載のクラスタ管理方法であって、
     前記管理計算機は、
     第1の計算機の障害が検出された場合に、当該第1の計算機が含まれるリストアペアに含まれる前記一つ以上の第2の計算機の中から、切替先の第2の計算機を決定する切替先サーバ決定部と、
     障害が発生した第1の計算機が実行する業務の状態を復元するためにバックアップデータをリストアするリストア部と、を有し、
     第1の計算機の識別情報、共通イメージの識別情報、及び個別イメージの識別情報を対応づけたバックアップデータ管理情報を保持し、
     前記方法は、
     前記切替先サーバ決定部が、前記障害が発生した第1の計算機の識別情報に基づいて、前記リストアペア管理情報を参照して、前記障害が発生した第1の計算機が含まれるリストアペアを特定するステップと、
     前記切替先サーバ決定部が、前記特定されたリストアペアに含まれる前記一つ以上の第2の計算機の中から、切替先となる第2の計算機を選択するステップと、
     前記リストア部が、前記障害が発生した第1の計算機の識別情報に基づいて、前記バックアップデータ管理情報を参照して、前記ストレージ装置から、前記障害が発生した第1の計算機の個別イメージを取得するステップと、
     前記リストア部が、前記取得された個別イメージを、前記選択された第2の計算機に格納される前記共通イメージに反映することによって、前記障害が発生した第1の計算機が実行する業務の状態を復元するステップと、
     を含むことを特徴とするクラスタ管理方法。
  12.  請求項11に記載のクラスタ管理方法であって、
     前記複数の第1の計算機の各々は、前記記憶デバイスに生じた差分データを、第2の差分情報として取得し、前記取得された第2の差分情報を前記管理計算機に送信する差分情報取得部を有し、
     前記方法は、
     前記管理計算機が、前記バックアップイメージが取得されてから次に前記バックアップイメージが取得されるまでの間に、前記第2の差分情報を受信した場合に、前記受信した第2の差分情報を前記ストレージ装置に格納するステップと、
     前記管理計算機が、第2の差分情報の識別情報、前記第2の差分情報が生成された時間、及び前記第2の差分情報を送信した第1の計算機の識別情報を対応づけて前記バックアップデータ管理情報に格納するステップと、
     前記リストア部が、前記取得された個別イメージを、前記選択された第2の計算機に格納される前記共通イメージに反映した後、前記バックアップデータ管理情報を参照して、前記ストレージ装置から、前記障害が発生した第1の計算機から受信した前記第2の差分情報を取得するステップと、
     前記リストア部が、前記取得された第2の差分情報が生成された時間が古いものから順に、前記取得された第2の差分情報を、前記個別イメージが反映された共通イメージに反映することによって、前記障害が発生した第1の計算機が実行する業務の状態を復元するステップと、
     を含むことを特徴とするクラスタ管理方法。
  13.  複数の計算機から構成されるクラスタを管理する管理計算機であって、
     前記複数の計算機の各々は、第1のプロセッサ、前記第1のプロセッサに接続される第1のメモリ、前記第1のプロセッサに接続される記憶デバイス、前記第1のプロセッサに接続される第1のネットワークインタフェース、及び前記第1のプロセッサに接続される第1のI/Oインタフェースを有し、
     前記管理計算機は、第2のプロセッサ、前記第2のプロセッサに接続される第2のメモリ、及び前記第2のプロセッサに接続される第2のネットワークインタフェースを有し、
     前記クラスタを構成する前記複数の計算機は、前記記憶デバイスを用いて業務を実行する複数の第1の計算機と、障害が発生した第1の計算機が実行する業務を引き継ぐ複数の第2の計算機とを含み、
     前記管理計算機は、
     前記複数の第1の計算機の各々のバックアップイメージを取得するバックアップ取得部と、
     一つ以上の第1の計算機と、一つ以上の第2の計算機とから構成される複数のリストアペアを生成し、前記複数のリストアペア毎に、一つのリストアペアに含まれる前記一つ以上の第2の計算機にリストアする共通イメージを選択するリストアペア管理部と、を有し、
     前記クラスタを構成する複数の計算機の各々のハードウェア構成の情報及びソフトウェア構成の情報を管理するサーバ管理情報を保持し、
     前記リストアペア管理部は、
     前記クラスタの構成が変更されたことを検出した場合に、前記サーバ管理情報を参照して、前記複数の第1の計算機の各々のソフトウェア構成の情報を取得し、
     前記取得された複数の第1の計算機の各々のソフトウェア構成の情報に基づいて、前記複数の第1の計算機を、前記業務を提供するためのソフトウェア構成が共通する複数のグループに分類し、
     前記サーバ管理情報を参照して、前記複数の第1の計算機の各々のハードウェア構成の情報及び前記複数の第2の計算機の各々のハードウェア構成の情報を取得し、
     前記取得された複数の第1の計算機の各々のハードウェア構成の情報及び前記取得された複数の第2の計算機の各々のハードウェア構成の情報に基づいて、前記複数のグループの各々に、少なくとも一つ以上の第2の計算機を割り当て、
     前記複数のグループ毎に、一つのグループに含まれる一つ以上の第1の計算機と、前記一つのグループに割り当てられた少なくとも一つ以上の第2の計算機とを対応づけることによって、一つ以上のリストアペアを生成し、
     前記複数のリストアペア毎に、前記一つのリストアペアに含まれる前記一つ以上の第1の計算機の前記バックアップイメージの中から、前記共通イメージを決定し、
     前記リストアペアの識別情報、前記リストアペアに含まれる前記一つ以上の第1の計算機の識別情報、前記リストアペアに含まれる前記一つ以上の第2の計算機の識別情報、及び前記リストアペアの前記共通イメージの識別情報を対応づけたリストアペア管理情報を生成することを特徴とする管理計算機。
  14.  請求項13に記載の管理計算機であって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記リストアペア管理部は、
     前記共通イメージを選択する場合に、前記複数のリストアペアの中から処理対象のリストアペアを選択し、
     前記選択されたリストアペアに含まれる前記複数の第1の計算機の各々の前記バックアップイメージを比較して、共通部分を算出し、
     前記算出の結果に基づいて、前記共通部分が最も多い第1の計算機の前記バックアップイメージを、前記共通イメージとして選択し、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアすることを特徴とする管理計算機。
  15.  請求項13に記載の管理計算機であって、
     前記複数のリストアペアの各々には、前記複数の第1の計算機が含まれ、
     前記サーバ管理情報は、前記複数の第1の計算機の稼働状態を示す稼働履歴情報を含み、
     前記リストアペア管理部は、
     前記共通イメージを選択する場合に、前記複数のリストアペアの中から処理対象のリストアペアを選択し、
     前記サーバ管理情報を参照して、前記選択されたリストアペアに含まれる前記複数の第1の計算機の前記稼働履歴情報を取得し、
     前記取得された稼働履歴情報に基づいて、障害が発生する可能性の高い第1の計算機を特定し、
     前記特定された第1の計算機の前記バックアップイメージを前記共通イメージとして選択し、
     前記選択されたリストアペアに含まれる前記一つ以上の第2の計算機に、前記選択された共通イメージをリストアすることを特徴とする管理計算機。
PCT/JP2012/080326 2012-11-22 2012-11-22 計算機システム、クラスタ管理方法、及び管理計算機 WO2014080492A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/824,575 US9201740B2 (en) 2012-11-22 2012-11-22 Computer system, cluster management method, and management computer
PCT/JP2012/080326 WO2014080492A1 (ja) 2012-11-22 2012-11-22 計算機システム、クラスタ管理方法、及び管理計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/080326 WO2014080492A1 (ja) 2012-11-22 2012-11-22 計算機システム、クラスタ管理方法、及び管理計算機

Publications (1)

Publication Number Publication Date
WO2014080492A1 true WO2014080492A1 (ja) 2014-05-30

Family

ID=50775697

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/080326 WO2014080492A1 (ja) 2012-11-22 2012-11-22 計算機システム、クラスタ管理方法、及び管理計算機

Country Status (2)

Country Link
US (1) US9201740B2 (ja)
WO (1) WO2014080492A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016031035A1 (ja) * 2014-08-29 2016-03-03 株式会社日立製作所 計算機システムの系切り替え方式
JP2018084914A (ja) * 2016-11-22 2018-05-31 Necプラットフォームズ株式会社 動作環境同期装置、動作環境同期システム、動作環境同期方法、及び、動作環境同期プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619340B1 (en) * 2014-12-24 2017-04-11 Western Digital Technologies, Inc. Disaster recovery on dissimilar hardware
JP6281511B2 (ja) * 2015-03-24 2018-02-21 日本電気株式会社 バックアップ制御装置、バックアップ制御方法、及び、プログラム
JP2018195265A (ja) * 2017-05-22 2018-12-06 富士通株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
US10567999B2 (en) * 2017-09-13 2020-02-18 Mitel Networks, Inc. Clustering in unified communication and collaboration services
US11323507B2 (en) * 2020-04-07 2022-05-03 Supercell Oy Server system and method of managing server system
JP2023104302A (ja) * 2022-01-17 2023-07-28 株式会社日立製作所 クラスタシステム、復旧方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11238044A (ja) * 1998-02-23 1999-08-31 Toshiba Corp 計算機
JP2000112906A (ja) * 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
JP2009129148A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd サーバ切り替え方法、およびサーバシステム
JP2011060306A (ja) * 2010-10-18 2011-03-24 Hitachi Ltd ブート構成変更方法
JP2012043445A (ja) * 2011-09-16 2012-03-01 Hitachi Ltd 業務引き継ぎ方法、計算機システム、及び管理サーバ

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844577B2 (en) * 2002-07-15 2010-11-30 Symantec Corporation System and method for maintaining a backup storage system for a computer system
JP4650203B2 (ja) * 2005-10-20 2011-03-16 株式会社日立製作所 情報システム及び管理計算機
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
JP4842210B2 (ja) * 2007-05-24 2011-12-21 株式会社日立製作所 フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
JP5188538B2 (ja) * 2010-05-27 2013-04-24 株式会社日立製作所 計算機システム及びリストア方法
US8468383B2 (en) * 2010-12-08 2013-06-18 International Business Machines Corporation Reduced power failover system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11238044A (ja) * 1998-02-23 1999-08-31 Toshiba Corp 計算機
JP2000112906A (ja) * 1998-10-01 2000-04-21 Mitsubishi Electric Corp クラスタシステム
JP2009129148A (ja) * 2007-11-22 2009-06-11 Hitachi Ltd サーバ切り替え方法、およびサーバシステム
JP2011060306A (ja) * 2010-10-18 2011-03-24 Hitachi Ltd ブート構成変更方法
JP2012043445A (ja) * 2011-09-16 2012-03-01 Hitachi Ltd 業務引き継ぎ方法、計算機システム、及び管理サーバ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016031035A1 (ja) * 2014-08-29 2016-03-03 株式会社日立製作所 計算機システムの系切り替え方式
JP2018084914A (ja) * 2016-11-22 2018-05-31 Necプラットフォームズ株式会社 動作環境同期装置、動作環境同期システム、動作環境同期方法、及び、動作環境同期プログラム

Also Published As

Publication number Publication date
US9201740B2 (en) 2015-12-01
US20150254143A1 (en) 2015-09-10

Similar Documents

Publication Publication Date Title
US10712975B2 (en) Cluster configuration information replication
US11669409B2 (en) Application migration between environments
US11016864B2 (en) Cluster-wide service agents
WO2014080492A1 (ja) 計算機システム、クラスタ管理方法、及び管理計算機
US11663085B2 (en) Application backup and management
US7831682B2 (en) Providing a reliable backing store for block data storage
US8725967B2 (en) Providing executing programs with access to stored block data of others
US8015343B2 (en) Providing executing programs with reliable access to non-local block data storage
US8019732B2 (en) Managing access of multiple executing programs to non-local block data storage
EP2426605B1 (en) Providing executing programs with reliable access to non-local block data storage
US20160085606A1 (en) Cluster-wide outage detection
JP6434131B2 (ja) 分散処理システム、タスク処理方法、記憶媒体
US9152491B2 (en) Job continuation management apparatus, job continuation management method and job continuation management program
CN102652423A (zh) 用于集群选择和协作复制的集群族
WO2014060884A1 (en) Global data establishment for storage arrays controlled by plurality of nodes
US10169157B2 (en) Efficient state tracking for clusters
JP5731665B2 (ja) 計算機システム及び複製制御方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 13824575

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12888628

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12888628

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP