WO2013035243A1 - クラウドサービス復旧時間予測システム、方法およびプログラム - Google Patents

クラウドサービス復旧時間予測システム、方法およびプログラム Download PDF

Info

Publication number
WO2013035243A1
WO2013035243A1 PCT/JP2012/004906 JP2012004906W WO2013035243A1 WO 2013035243 A1 WO2013035243 A1 WO 2013035243A1 JP 2012004906 W JP2012004906 W JP 2012004906W WO 2013035243 A1 WO2013035243 A1 WO 2013035243A1
Authority
WO
WIPO (PCT)
Prior art keywords
recovery
resource
schedule
service
user
Prior art date
Application number
PCT/JP2012/004906
Other languages
English (en)
French (fr)
Inventor
文雄 町田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2013529882A priority Critical patent/JP5370624B2/ja
Priority to US13/981,249 priority patent/US8904242B2/en
Publication of WO2013035243A1 publication Critical patent/WO2013035243A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Definitions

  • the present invention relates to a cloud service recovery time prediction system, a cloud service recovery time prediction method, and a cloud service recovery time prediction program for predicting a service recovery time for each service user when a system failure involving a plurality of computer resources fails.
  • Patent Document 1 describes an example of an embodiment of such a cloud service.
  • Patent Document 2 describes a method of generating and publishing a Web page for publishing failure information based on failure information received from a user. By quickly disclosing information on the Web when a failure occurs, the stress of users affected by the failure can be reduced.
  • Patent Document 3 describes a failure notification method for notifying a user of network failure information.
  • the failure notification method described in Patent Literature 3 notifies failure information using mail or the like for each user based on a user application reservation status when a failure occurs in a system involving communication such as a video conference application.
  • the influence on the user is determined and the failure information is notified based on the time overlap between the application reservation period of the user and the period from the occurrence of the failure to the recovery.
  • Patent Document 4 describes a method for notifying a user of necessary information when a network service cannot be used.
  • the server machine has identification information of the client machine that uses the resource provided by the network service, and the type of program that is running on the client machine that uses the corresponding resource. And the type of user of the program of the corresponding client machine is managed.
  • the network service cannot be provided because a predetermined problem has occurred in the resource of the server machine, the network service information based on the resource provided by the network service is notified to the client machine.
  • Non-Patent Document 1 discloses the current state of the cloud service provided by Google (registered trademark) AppEngine.
  • Non-Patent Document 2 discloses the current state of the cloud service provided by Amazon (registered trademark) EC2.
  • Patent Document 5 describes a method for monitoring a data recovery possible time in a storage system that performs asynchronous remote copy between a plurality of storage apparatuses.
  • the latest or similar data staying in the buffer of the first storage device is stored together with time information at predetermined time intervals. Then, based on the accumulated information, the oldest or equivalent data at a predetermined time, and at least one information among the number of remaining data, the data is stored in the second storage device based on the predetermined time.
  • the recovery time is calculated using the collected data.
  • information disclosed in Non-Patent Document 1 and Non-Patent Document 2 is information related to the recovery time of the entire service. In this case, even if a part of the service is restored and a situation where some service users can use the service, each service user cannot grasp the situation. That is, the service user must wait until the restoration of all services in accordance with the estimated recovery time information disclosed by the service provider when the cloud service fails.
  • the service provided by the cloud service is not necessarily a service that requires a reservation in advance. Therefore, when a failure occurs in a service that a user uses without making a reservation, the method described in Patent Literature 3 cannot cope with the failure.
  • Patent Document 4 does not describe how to calculate the expected time until the service is restored, and the specific prediction method is unknown.
  • the present invention provides a cloud that can predict the time for a cloud service to be restored for each user when the service requested by the user becomes unavailable due to a failure of the cloud service provided using a plurality of types of computer resources.
  • An object is to provide a service recovery time prediction system, a cloud service recovery time prediction method, and a cloud service recovery time prediction program.
  • the cloud service recovery time prediction system includes a plurality of types of computer resources provided by a cloud service or a computer resource when the failure occurs in a provided service that is a service provided by the cloud service or the provided service.
  • a recovery schedule storage means that stores the recovery schedule that defines the schedule to be restored for each type of computer resource or service provided, and a resource usage profile that defines the computer resources used when each user uses the cloud service.
  • the resource usage profile storage means to store for each user and the computer resource or service to be used when the user uses the cloud service are identified from the resource usage profile, and all the identified resources are determined based on the recovery schedule.
  • Computer resources Provides a recovery time prediction means for predicting a recovery time of a cloud service used by the user by predicting a recovery time of the provided service, and a recovery time presentation means for presenting the predicted service recovery time to the user. It is provided with.
  • the cloud service recovery time prediction method predicts a recovery time when a failure occurs in a plurality of types of computer resources provided by a cloud service or a provided service that is a service provided by the cloud service.
  • a time prediction method which refers to resource use profile storage means for storing for each user a resource use profile that defines computer resources to be used when each user uses a cloud service, and stores the resource use profile.
  • the computer resource or the service to be used when the user uses the cloud service is identified from the resource usage profile stored in the means, and the computer resource or the service to be provided when a failure occurs in the computer resource or the service to be provided Establish a schedule for restoring services
  • the recovery schedule is extracted from the recovery schedule storage means for storing each type of computer resource or each provided service, and based on the extracted recovery schedule, the time for recovering all the specified computer resources or provided services is predicted.
  • the recovery time of the cloud service used by the user is predicted, and the predicted service recovery time is presented to the user.
  • the program for predicting the recovery time of a cloud service is a computer that predicts a recovery time when a failure occurs in a plurality of types of computer resources provided by a cloud service or a provided service that is a service provided by the cloud service.
  • a cloud service recovery time prediction program to be applied in which a resource usage profile storage that stores, for each user, a resource usage profile that defines computer resources used when each user uses the cloud service.
  • the computer resource or the service to be used when the user uses the cloud service is identified from the resource usage profile stored in the resource usage profile storage unit.
  • a recovery schedule that defines a schedule for restoring a resource or its service is extracted from a recovery schedule storage means for storing each type of computer resource or each provided service, and all the computers specified based on the extracted recovery schedule are extracted.
  • Recovery time prediction process that predicts the recovery time of the cloud service used by the user by predicting the recovery time of the resource or provided service, and the recovery time presentation that presents the predicted service recovery time to the user Processing is executed.
  • the present invention when a service requested by a user cannot be used due to a failure of a cloud service provided using a plurality of types of computer resources, it is possible to predict the time for the cloud service to recover for each user.
  • FIG. FIG. 1 is an explanatory diagram illustrating an example of the entire configuration of a cloud service including the cloud service recovery time prediction system according to the first embodiment of this invention.
  • the cloud service illustrated in FIG. 1 includes a cloud service providing unit 1, a recovery time prediction system 2, and a cloud service client 3.
  • a recovery time prediction system 2 illustrated in FIG. 1 corresponds to the cloud service recovery time prediction system according to the first embodiment of this invention.
  • the cloud service providing unit 1, the recovery time prediction system 2, and the cloud service client 3 are connected to each other via a communication network (not shown).
  • the cloud service providing unit 1 includes a virtual machine 101, a storage 102, and a service providing unit 103. Various services are provided to the user using the virtual machine 101, the storage 102, and the service providing unit 103.
  • the virtual machine 101 and the storage 102 included in the cloud service providing unit 1 may be referred to as computer resources.
  • the cloud service providing unit 1 includes six virtual machines 101, storages 102, and service providing units 103, respectively.
  • the number of virtual machines 101, storages 102, and service providing units 103 is not limited to six.
  • the number of virtual machines 101, storages 102, and service providing units 103 may be one each, two or more, five or less, or seven or more. Further, the numbers of the virtual machine 101, the storage 102, and the service providing unit 103 may not be the same.
  • the cloud service providing unit 1 may include other similar computer resources in order to provide various services to the user.
  • the cloud service providing unit 1 includes a dedicated interface (not shown) for providing computer resources such as the virtual machine 101 and the storage 102 to the user.
  • Examples of the dedicated interface include an interface for creating and deleting the virtual machine 101 and an interface for adding storage.
  • the user of the cloud service uses the function of the cloud service client 3 to access the dedicated interface and uses the virtual machine 101 and the storage 102 in the cloud service.
  • the service providing unit 103 provides services that can be used by users in addition to computer resources.
  • Examples of services provided by the service providing unit 103 include, for example, a VPN (Virtual Private Network) service that provides private network access, a load balancing service that distributes traffic load, and the state and performance of a specific virtual machine in a cloud service.
  • Examples include a monitoring service to be monitored, a scale-up service for increasing / decreasing the number of virtual machine instances in accordance with an increase / decrease in traffic, and an authentication / authorization service for restricting access to resources.
  • the user of the cloud service uses the service provided by the service providing unit 103 using the function of the cloud service client 3 to construct an application system (not shown) in the cloud service providing unit 1.
  • a user of a cloud service registers the type and amount of computer resources to be used and the service to be used in the cloud service, and pays a service fee to the service provider according to the usage status.
  • the cloud service provider stores the computer resource used by each user and information on the service used in the resource use profile storage unit 206 described later.
  • the recovery time prediction system 2 includes a failure status investigation unit 201, a failure status storage unit 202, a recovery schedule generation unit 203, a resource recovery schedule storage unit 204, a recovery time prediction unit 205, and a resource usage profile storage unit 206.
  • Recovery time presentation means 207 is provided.
  • the failure status investigation means 201 investigates the computer resources in the cloud service providing unit 1 and the failure status of the service providing unit 103. Specifically, the failure status investigation means 201 investigates the failure status of each computer resource or service when a cloud service failure involving a plurality of types of computer resource loss occurs. Then, the failure state investigation unit 201 stores the investigation result in the failure state storage unit 202.
  • the failure status storage unit 202 stores the failure status in the cloud service providing unit 1.
  • the failure status is stored in the failure status storage unit 202 by the failure status investigation unit 201 as needed.
  • the recovery schedule generation unit 203 generates a recovery schedule for each computer resource and provided service according to the failure status stored in the failure status storage unit 202. Then, the recovery schedule generation unit 203 stores the generated recovery schedule in the resource recovery schedule storage unit 204.
  • the recovery schedule means that when a failure occurs in a plurality of types of computer resources provided by the cloud service providing unit 1 or a service provided by the service providing unit 3 (hereinafter also referred to as provided service), This is a schedule for restoring computer resources or provided services.
  • the recovery schedule is created using a generally known method. For example, the time required for recovery for each failure of the computer resources and the recovery order for each combination of failures may be set in advance.
  • the recovery schedule generation unit 203 identifies a failure of the computer resource from the failure state at the timing when the failure state is registered in the failure state storage unit 202, and sets in advance based on the identified computer resource.
  • the recovery schedule may be generated from the time taken for recovery and the recovery order. Further, for example, when creating a storage recovery schedule, the recovery schedule generation unit 203 may generate a recovery schedule using the method described in Patent Document 5.
  • the method by which the recovery schedule generating unit 203 generates the recovery schedule is not limited to the above method.
  • the recovery schedule generation unit 203 receives the input recovery procedure. May be used as a recovery schedule.
  • the resource recovery schedule storage unit 204 stores a recovery schedule for each type of computer resource and provided service.
  • the resource usage profile storage unit 206 stores a resource usage profile that defines computer resources (specifically, the type and amount of computer resources) used when each user uses the cloud service.
  • the resource usage profile is stored in advance in the resource usage profile storage unit 206 by an administrator or the like.
  • the amount of computer resources includes the number of virtual machines 101 and the capacity allocated in the storage 102.
  • the recovery time predicting means 205 predicts the service recovery time for each user based on the recovery schedule for each computer resource or provided service and the resource usage profile stored in the resource usage profile storage unit 206. Specifically, the recovery time predicting means 205 specifies a computer resource or a service to be used when the user uses the cloud service from the resource use profile. Then, the recovery time predicting unit 205 predicts the recovery time of all the specified computer resources or provided services based on the recovery schedule.
  • the recovery time predicting unit 205 may predict the latest time among the predicted computer resources and the time when each provided service is recovered as the recovery time of the cloud service used by the user.
  • the restoration time presenting means 207 presents the predicted service restoration time to the user. Examples of the presentation method include announcements using the Web and notifications to users using e-mails, instant messages, and the like. Note that the presentation of the recovery time includes indirectly transmitting the recovery time to another device.
  • the failure status investigation unit 201, the recovery schedule generation unit 203, the recovery time prediction unit 205, and the recovery time presentation unit 207 are realized by a CPU of a computer that operates according to a program (cloud service recovery time prediction program).
  • a program cloud service recovery time prediction program
  • the program is stored in a storage unit (not shown) in the recovery time prediction system, and the CPU reads the program, and according to the program, the failure status investigation unit 201, the recovery schedule generation unit 203, and the recovery time prediction unit 205.
  • the recovery time presenting means 207 may be operated.
  • the failure status investigation unit 201, the recovery schedule generation unit 203, the recovery time prediction unit 205, and the recovery time presentation unit 207 may each be realized by dedicated hardware.
  • failure status storage unit 202 the resource recovery schedule storage unit 204, and the resource use profile storage unit 206 are realized by, for example, a magnetic disk.
  • the recovery time prediction system 2 of this embodiment When a disaster or power outage occurs in a data center operating a cloud service, a failure occurs in a plurality of computer resources and provided services depending on the extent of the disaster. For example, when power is lost in one section of the data center, the server operating in the section and the virtual machine operating in the server are stopped. Further, in this case, the storage device in the partition and various provided services are also stopped. Due to this failure, a user who has used a virtual machine, a storage device, or a provided service cannot use the cloud service. When the cloud service provider detects the occurrence of a failure, the cloud service provider starts the recovery process of the cloud service. The recovery time prediction system 2 predicts recovery time for each user who is affected by a failure in the course of the cloud service recovery process.
  • FIG. 2 is a flowchart showing an example of processing for investigating the failure status of each computer resource and provided service and generating a recovery schedule.
  • the failure status investigation unit 201 identifies a physical server, a virtual server, a storage device, and various services that have stopped due to a failure in the cloud service providing unit 1 and investigates the damage status (step S 1000). ).
  • Examples of the damage status of each computer resource include a state that requires replacement due to physical damage, a state in which there is no physical damage but a logical inconsistency may have occurred, and some data has been lost. A state where there is a possibility that some functions are not provided as a service.
  • the failure status investigation unit 201 stores the investigation result in the failure status storage unit 202 (step S1001).
  • the failure status investigation unit 201 may, for example, aggregate alert messages generated due to failures and automatically collect the investigation results.
  • the administrator of the cloud service may investigate the failure status by confirming the on-site damage status or log data. Further, the failure status investigation unit 201 may periodically monitor the status of computer resources and provided services and determine that a failure has occurred when an abnormality is detected. It is assumed that the failure status storage unit 202 repeatedly performs reference processing and update processing continuously during the recovery processing, and stores the latest failure status at each time point.
  • the recovery schedule generating unit 203 refers to the failure status and generates a recovery schedule for each computer resource and provided service (step S1002). Then, the recovery schedule generation unit 203 updates the recovery schedule in the resource recovery schedule storage unit 204 (step S1003).
  • the recovery procedure (recovery schedule) varies depending on the type of resource, the state of damage, the number of personnel required for recovery, and the stockpiling of resources.
  • the recovery time and procedure for these assumed failure contents may be set in advance, and the recovery schedule generation unit 203 may create a recovery schedule based on these pieces of information.
  • the recovery schedule generation unit 203 stores the input recovery schedule in the resource recovery schedule storage unit 204. May be.
  • the recovery schedule for virtual machine resources is created by a specialized administrator group that manages a server cluster that provides virtual machines.
  • the storage recovery schedule is generated by an administrator group specialized in storage management. The recovery schedule generation unit 203 may replace the generated recovery schedule with a recovery schedule created by these administrators.
  • FIG. 3 is a flowchart showing an example of a procedure for predicting and presenting service restoration time for each user based on a restoration schedule and a resource usage profile.
  • the recovery time prediction unit 205 first acquires a list of all users of the cloud service from the resource usage profile storage unit 206 (step S2000). Note that the recovery time prediction unit 205 may acquire a list of users only for users affected by the failure.
  • the recovery time prediction means 205 selects one user at a time from the acquired user list (step S2001), and checks the predicted recovery time. Specifically, the recovery time predicting unit 205 refers to the resource usage profile storage unit 206 and acquires the resource usage profile of the selected user Ui (step S2002).
  • This resource usage profile includes a list of computer resources requested by the user, and the type of resource (hereinafter referred to as resource type Rj) is specified from this resource list. Therefore, the recovery time prediction unit 205 selects the resource type Rj from the resource usage profile (step S2003).
  • the resource type Rj indicates, for example, a virtual machine, storage, and various provided services.
  • the resource type Rj may indicate information indicating whether a certain computer resource is a shared resource in addition to the above contents.
  • the recovery time predicting unit 205 refers to the resource recovery schedule storage unit 204 and refers to the resource recovery schedule of the selected resource type Rj (step S2004).
  • this resource recovery schedule resources to be recovered at each time point, the amount of resources, information indicating a portion in the resources, and the like are described. Therefore, the recovery time predicting unit 205 predicts a scheduled recovery time Tj at which the resource requested by the user described in the resource usage profile is recovered and usable (step S2005).
  • the recovery time prediction unit 205 may record the prediction result in a memory (not shown) or the like.
  • the recovery time predicting means 205 determines whether or not the expected recovery time Tj has been predicted for all resource types Rj described in the resource usage profile (step S2006). When the recovery scheduled time Tj of all resource types Rj is not predicted (NO in step S2006), the recovery time prediction unit 205 repeats the processing from step S2003 to step S2006.
  • the recovery time predicting means 205 obtains the maximum value of the expected recovery time Tj.
  • the recovery time predicting unit 205 sets the maximum value of the scheduled recovery time Tj as the scheduled recovery time of the user Ui (step S2007). Note that the recovery time prediction unit 205 may record the scheduled recovery time in a memory (not shown) or the like.
  • the recovery time predicting means 205 determines whether or not the expected recovery time has been predicted for all users included in the user list (step S2008). When the scheduled recovery time is not predicted for all users (NO in step S2008), the recovery time prediction unit 205 repeats the processing from step S2001 to step S2008. On the other hand, when the expected recovery time is predicted for all users (YES in step S2008), the recovery time presentation unit 207 presents the predicted recovery time to the user (step S2009).
  • the recovery time predicting unit 205 specifies the computer resource or the service to be used when the user uses the cloud service from the resource use profile. Further, the recovery time predicting means 205 predicts the recovery time of all the specified computer resources or provided services based on the recovery schedule. Thereby, the recovery time predicting means 205 predicts the recovery time of the cloud service used by the user. Then, the recovery time presentation means 207 presents the predicted service recovery time to the user. Therefore, when a service requested by a user cannot be used due to a failure in a cloud service provided using a plurality of types of computer resources, the time for the cloud service to recover can be predicted for each user.
  • the recovery time predicting means 205 predicts the service recovery time for each user by referring to the resource usage profile of the user and the recovery schedule of each computer resource or provided service. Therefore, it is possible to present a different service recovery time for each user when a failure occurs in the cloud service.
  • the failure status investigation means 201 may investigate the failure status of each computer resource or provided service and store it in the failure status storage unit 202. Then, the recovery schedule generation unit 203 may generate a recovery schedule based on the failure status stored in the failure status storage unit 202 and store the recovery schedule in the resource recovery schedule storage unit 204. Thus, by automatically creating a recovery schedule at the timing when a failure occurs, it becomes possible to deal with the failure more quickly.
  • FIG. 4 is an explanatory diagram illustrating an example of a cloud service recovery time prediction system according to the second embodiment of this invention.
  • symbol same as FIG. 1 is attached
  • subjected and description is abbreviate
  • the recovery time prediction system 2 in this embodiment includes a resource reservation information storage unit 208 in addition to the configuration of the recovery time prediction system 2 of the first embodiment.
  • the computer resources of the cloud service providing unit 1 are shared by a plurality of users, but there are types of resources that are exclusively used among users.
  • An example of such a type of resource is a shared virtual machine that can be used by any user.
  • Computer resources that are shared exclusively cannot be used simultaneously by all users. Therefore, a reservation function for permitting use only to a specific user is necessary.
  • the recovery time prediction system 2 of the present embodiment predicts recovery time with reference to reservation information used to realize this reservation function.
  • the resource reservation information storage unit 208 stores reservation information related to the use of each computer resource.
  • the reservation information is information in which the reservation start time of a computer resource that is shared by a plurality of users and used exclusively among users is associated with the user of the computer resource.
  • the resource reservation information storage unit 208 is realized by, for example, a magnetic disk. That is, the reservation information includes information indicating the time when the user starts to reserve a computer resource (reservation start time).
  • the recovery time predicting means 205 identifies the computer resource or service provided by the user from the resource usage profile of the user. Based on the reservation information, the recovery time predicting means 205 determines whether or not a computer resource that is exclusively used by a plurality of users can be reserved. The recovery time prediction unit 205 stores, in the resource reservation information storage unit 208, reservation information whose reservation start time is the recovery time of a computer resource that can be reserved based on the recovery schedule. Then, the recovery time predicting means 205 specifies the time when the user can reserve the computer resource from the recovery schedule and the reservation information.
  • the recovery time predicting means 205 identifies a computer resource or provided service used by the user that is expected to be recovered earliest and its recovery time from the recovery schedule. Further, the recovery time predicting unit 205 refers to the reservation information of the computer resource or provided service corresponding to the specified time. When the computer resource or the provided service can be reserved, the recovery time prediction unit 205 registers reservation information with the recovery time as a reservation start time in the resource reservation information storage unit 208. On the other hand, if the computer resource or provided service to be recovered cannot be reserved, the recovery time predicting means 205 repeats the above processing for the computer resource or provided service whose recovery time is the next earliest. The recovery time prediction unit 205 may determine whether or not the computer resource or the provided service can be reserved based on whether or not the reservation information for the target computer resource is registered.
  • the recovery time predicting means 205 predicts the recovery time of the cloud service used by the user based on the recovery schedule and reservation information. Specifically, the recovery time predicting means 205 determines the latest time among the predicted recovery time of each computer resource and each provided service and each computer resource used by the user and the reserved time of each provided service. May be predicted as the recovery time of the cloud service used by. In other words, the recovery time predicting unit 205 determines that the computer resource or provided service in which the reservation information is registered is recovered at the reservation start time included in the reservation information, and predicts the service recovery time.
  • FIG. 5 is a flowchart showing another example of a procedure for predicting and presenting a service recovery time for each user.
  • the recovery time predicting means 205 first acquires a list of all users of the cloud service from the resource usage profile storage unit 206 (step S3000).
  • the recovery time predicting unit 205 sorts the user list based on the priorities in order to reserve resources and predict the recovery time in order from the user with the highest priority (step S3001).
  • the priority of the user is determined according to the service contract form, usage frequency, period, etc. of the user.
  • the recovery time predicting means 205 selects the user Ui with the highest priority from the sorted user list (step S3002), and acquires the resource usage profile of the user (step S3003).
  • the recovery time prediction unit 205 selects the resource type Rj from the resource usage profile (step S3004). Then, the recovery time predicting unit 205 refers to the resource recovery schedule storage unit 204 and refers to the resource recovery schedule of the selected resource type Rj (step S3005). Then, the recovery time prediction unit 205 determines whether or not the resource type Rj is a shared resource (step S3006).
  • the recovery time prediction unit 205 refers to the resource recovery schedule corresponding to the resource type Rj, and the resource requested by the user can be recovered and used.
  • the estimated recovery time Tj is predicted.
  • the recovery time predicting unit 205 may record the prediction result in a memory (not shown) or the like (step S3007).
  • the case where the resource type Rj does not indicate a shared resource is, for example, a case where the resource type Rj indicates a resource dedicated to the user Ui or a case where the resource type Rj indicates a shared resource that does not require exclusive control.
  • a storage volume in which user data is recorded corresponds to this resource type Rj.
  • a monitoring function shared by a plurality of users, a service such as a load distribution function, and the like also correspond to this resource type Rj.
  • the recovery time prediction unit 205 first refers to the resource reservation information storage unit 208 and acquires reservation information of the resource type Rj (step S3008).
  • the case where the resource type Rj indicates a shared resource is a case where the resource type Rj indicates a resource of a type shared by a plurality of users and used exclusively.
  • the recovery time predicting unit 205 refers to the resource recovery schedule of the resource type Rj, and predicts, as the recovery scheduled time Tj, the shortest time when the resource requested by the user can be reserved after the resource recovery. This is because it is predicted that the recovered resource can be used when the resource requested by the user can be reserved. At this time, the recovery time prediction unit 205 determines that a resource reserved for use by another user cannot be reserved.
  • the recovery time prediction unit 205 may record the prediction result in a memory (not shown) or the like (step S3009).
  • the recovery time predicting unit 205 creates reservation information according to the type and amount of the resource requested by the user Ui, and stores the reservation information in the resource reservation information storage unit 208 (step S3010).
  • the recovery time predicting unit 205 may reserve the computer resource corresponding to the user Ui by storing the user Ui in association with the requested computer resource, for example.
  • the recovery time predicting means 205 determines whether or not the expected recovery time Tj has been predicted for all resource types Rj described in the resource usage profile (step S3011). When the recovery scheduled time Tj of all resource types Rj is not predicted (NO in step S3011), the recovery time predicting unit 205 repeats the processing from step S3004 to step S3011.
  • the recovery time predicting means 205 obtains the maximum value of the expected recovery time Tj.
  • the recovery time predicting unit 205 sets the maximum value of the scheduled recovery time Tj as the scheduled recovery time of the user Ui (step S3012). Note that the recovery time prediction unit 205 may record the scheduled recovery time in a memory (not shown) or the like.
  • the restoration time prediction means 205 determines whether or not the restoration scheduled time has been predicted for all the users included in the user list (step S3013). When the scheduled recovery time is not predicted for all users (NO in step S3013), the recovery time predicting means 205 repeats the processing from step S3002 to step S3013.
  • the recovery time presenting means 207 presents the predicted recovery time to the user (step S2009). That is, the recovery time prediction unit 205 predicts the recovery time of the computer resources used by the users in order based on the sorted user list, and when the recovery time prediction is completed for all users, the recovery time presentation unit 207. Presents the prediction results for each user.
  • the recovery time prediction unit 205 stores the reservation information in the resource reservation information storage unit 208. Specifically, the recovery time predicting unit 205 determines whether or not a computer resource used by each user can be reserved based on reservation information stored in the resource reservation information storage unit 208. In addition, the recovery time prediction unit 205 stores reservation information in the resource reservation information storage unit 208 with the recovery time of the reservable computer resource as the reservation start time based on the recovery schedule. Then, the recovery time prediction unit 205 predicts the recovery time of the cloud service used by the user based on the recovery schedule and reservation information.
  • the recovery time predicting unit 205 records the resource reservation information to be recovered in the resource reservation information storage unit 208 for computer resources that are shared and used exclusively by a plurality of users. Therefore, the time when the type and amount of the resource requested by each user can be reliably used is predicted as the service restoration time, and the prediction result can be presented to the user.
  • the recovery time predicting unit 205 predicts the scheduled recovery time in consideration that the computer resource reserved by another user cannot be used even if it is recovered. Therefore, it is possible to avoid the problem that the user cannot resume the use of the service because the other user has used it first after the scheduled recovery time.
  • FIG. 6 is an explanatory diagram illustrating an example of a cloud service recovery time prediction system according to the third embodiment of this invention.
  • the recovery time prediction system 2 in the present embodiment includes a recovery schedule optimization unit 209 and a recovery schedule constraint information storage unit 210 in addition to the configuration of the recovery time prediction system 2 of the first embodiment.
  • the recovery schedule constraint information storage unit 210 stores requests for resource recovery schedules and constraint information. Specifically, the recovery schedule constraint information storage unit 210 stores recovery schedule constraint information that defines a constraint condition of a resource recovery schedule based on a dependency relationship between computer resources or a resource recovery request by a user. Examples of the recovery schedule constraint information include the deadline and priority of the recovery time of each user. The recovery schedule constraint information is stored in advance in the recovery schedule constraint information storage unit 210 by an administrator or the like.
  • the recovery schedule optimization unit 209 generates a recovery schedule that optimizes the recovery schedule of each computer resource or service based on the recovery schedule constraint information.
  • the recovery schedule optimization unit 209 refers to the information stored in the resource use profile storage unit 206 and the resource recovery schedule storage unit 204 together with the recovery schedule constraint information when generating the resource recovery schedule.
  • the recovery schedule optimizing unit 209 maximizes or minimizes a target index (hereinafter also referred to as a target index) under the constraints indicated by the recovery schedule constraint information. Search for candidates (combinations).
  • ⁇ Whether to maximize or minimize the target index depends on the nature of the target index. For example, if the objective index is “the number of service restoration users within a predetermined period”, it can be said that the optimization is to maximize the value. Further, for example, if the objective index is “recovery time”, it can be said that the optimization is to minimize the value.
  • the recovery schedule optimization unit 209 updates the corresponding recovery schedule stored in the resource recovery schedule storage unit 204 with the searched recovery schedule. Then, the recovery time predicting unit 205 predicts the recovery time of the service used by the user based on the updated recovery schedule.
  • Examples of the target index include the average recovery time for all users, the worst value of the recovery time for a specific user group, and the cost of the service provider for recovery. This index is determined in advance by an administrator or the like based on input from the service provider or information set in advance.
  • the recovery schedule optimizing means 209 identifies the computer resource used by the user based on the resource usage profile. Then, the recovery schedule optimization unit 209 specifies a schedule (recovery order) for recovering the specified computer resources based on the recovery schedule. For example, the recovery schedule optimizing unit 209 uses a combination in which the order of recovering the computer resources in the recovery schedule is changed as a candidate for the recovery schedule. The recovery schedule optimization unit 209 determines whether the recovery schedule candidate satisfies the constraint indicated by the recovery schedule constraint information. When there are a plurality of recovery schedule candidates, the recovery schedule optimization unit 209 selects an optimal candidate from the candidates, and updates the recovery schedule with the selected candidate.
  • the recovery schedule optimizing means 209 optimizes the recovery schedule according to the needs of the service provider after the failure status is investigated, each resource recovery schedule is generated, or during the failure recovery process. Execute the process.
  • the failure status investigation unit 201, the recovery schedule generation unit 203, the recovery time prediction unit 205, the recovery time presentation unit 207, and the recovery schedule optimization unit 209 operate according to a program (cloud service recovery time prediction program). This is realized by a CPU of a computer. Further, the failure status investigation unit 201, the recovery schedule generation unit 203, the recovery time prediction unit 205, the recovery time presentation unit 207, and the recovery schedule optimization unit 209 are each realized by dedicated hardware. Also good.
  • FIG. 7 is a flowchart illustrating an example of processing for creating a recovery schedule.
  • the recovery schedule optimizing means 209 determines an objective index for optimization based on input from the service provider or information set in advance (step S4000).
  • the average recovery time of all service users is used as an objective index.
  • a method for determining a recovery schedule that minimizes the average recovery time will be described as an example.
  • the recovery schedule generation unit 203 refers to the failure status and generates a recovery schedule for each computer resource and provided service (step S4001).
  • the recovery schedule may be created by an administrator or the like. Thereafter, the recovery schedule generating unit 203 stores the generated recovery schedule in the resource recovery schedule storage unit 204.
  • the recovery schedule optimization unit 209 acquires information necessary for generating a recovery schedule from the resource usage profile storage unit 206 and the recovery schedule constraint information storage unit 210. Specifically, the recovery schedule optimization unit 209 acquires the resource usage profile from the resource usage profile storage unit 206 (step S4002), and acquires the recovery schedule constraint information from the recovery schedule constraint information storage unit 210 (step S4003). .
  • the recovery schedule optimizing means 209 searches for a recovery schedule that can be realized within the range of the given recovery schedule constraint information, and searches for a combination of recovery schedules that optimize the objective index (step S4004).
  • the recovery schedule optimization means 209 searches for a combination of recovery schedules using a method generally used as a solution to the optimization problem.
  • a case where sequential search is used will be described as an example of the simplest search method.
  • FIG. 8 is a flowchart showing an example of the sequential search process.
  • the computer resource recovery schedule is not limited to one.
  • Various recovery schedules are conceivable, such as combinations in which the order of recovering computer resources is changed. Therefore, the recovery schedule optimization means 209 first lists the recovery schedule combination candidates that can be realized based on the failure status (step S5000 in FIG. 8).
  • the recovery schedule combination candidates listed here become a search range (search space) when performing optimization.
  • the recovery schedule optimization means 209 selects a recovery schedule candidate Sj (step S5001). Then, the recovery time predicting means 205 predicts the service recovery time for all users (step S5002). Note that the method for predicting the service recovery time is the same as the method described in the first embodiment.
  • the restoration schedule optimization means 209 calculates the value Vi of the objective index based on the prediction result (step S5003).
  • the average recovery time is used as an objective index. Therefore, the recovery schedule optimizing means 209 calculates the average value of the recovery time predicted for each user and calculates the value Vi of the objective index.
  • the recovery schedule optimization unit 209 determines whether the candidate Sj satisfies all the recovery schedule constraint information stored in the recovery schedule constraint information storage unit 210 (step S5004).
  • the recovery schedule optimization unit 209 determines whether the predicted recovery time satisfies this constraint. to decide.
  • the recovery schedule optimization unit 209 When the candidate Sj satisfies all the recovery schedule constraint information stored in the recovery schedule constraint information storage unit 210, the recovery schedule optimization unit 209 describes the candidate Sj as a recovery schedule candidate (hereinafter referred to as an optimal recovery schedule candidate). There is also.) Note that the recovery schedule optimization unit 209 may record the optimal recovery schedule candidate in a memory (not shown) or the like (step S5005).
  • the recovery schedule optimizing unit 209 determines whether or not to search for a recovery schedule candidate (step S5006). For example, the recovery schedule optimization unit 209 may determine whether or not to end the search for recovery schedule candidates by determining whether or not a search end condition is satisfied. If it is determined not to end the search for the recovery schedule candidate (NO in step S5006), the processing from step S5001 to step S5006 is repeated. On the other hand, when it is determined that the search for the recovery schedule candidate is to be ended (YES in step S5006), the optimization process is ended.
  • step S5001 to step S5005 is repeatedly performed for different Sj.
  • search end condition is reached, the search for the recovery schedule candidate is completed.
  • the search termination condition includes, for example, a case where all candidates are searched or a case where the search is terminated when a certain number of searches are completed.
  • the recovery schedule optimization means 209 determines the best recovery schedule from the recovery schedule candidates obtained as a result of the search, and updates the recovery schedule stored in the resource recovery schedule storage unit 204 (step in FIG. 7). S4005).
  • the average recovery time is used as an optimization objective index. Therefore, the recovery schedule optimizing unit 209 determines, as a best recovery schedule, a recovery schedule that minimizes the average recovery time from among the recovery schedules listed as candidates as a result of the search.
  • the recovery schedule optimization unit 209 searches for a recovery schedule candidate that maximizes or minimizes the target index under the constraints indicated by the recovery schedule constraint information. Further, the recovery schedule optimization unit 209 updates the corresponding recovery schedule stored in the resource recovery schedule storage unit 204 with the recovery schedule. Then, the recovery time prediction unit 205 predicts the recovery time of the cloud service used by the user based on the updated recovery schedule.
  • the recovery schedule optimization unit 209 updates the best resource recovery schedule as necessary. Therefore, it is possible to predict a recovery time that satisfies the user's requirements and restrictions for service recovery.
  • FIG. 9 is an explanatory diagram illustrating an example of computer resources and services provided by the cloud service providing unit 1 according to the present embodiment.
  • the cloud service providing unit 1 of this embodiment includes n virtual machines (virtual machine 1 to virtual machine n), 2 * m storage volumes (volume 11 to volume 2m), a monitoring service, a VPN service, and load balancing.
  • the service is provided to users.
  • n and m are positive numbers.
  • a service provided by the cloud service providing unit 1 may be referred to as an additional service.
  • FIG. 10 is an explanatory diagram showing a part of a resource profile of a cloud service user. It is assumed that the resource profile of the cloud service user illustrated in FIG. 10 is stored in the resource use profile storage unit 206 when the failure occurs.
  • the resource profile includes the type and number of virtual machines required by each user, storage space, and additional services.
  • the user A uses one standard type virtual machine and the volume 11 of the storage volume, and further uses the monitoring service.
  • virtual machines with different specifications and functions may be prepared. Therefore, the required virtual machine type may be included in the resource usage profile.
  • all virtual machines are standard type virtual machines. It is also assumed that the virtual machines used by user A to user F are affected by the failure.
  • the failure state investigation means 201 investigates the damage state of the computer resource due to the failure, and records the investigated failure state in the failure state storage unit 202.
  • FIG. 11 is an explanatory diagram showing an example of failure status data.
  • the failure status data includes information indicating the failure location of the computer resource used in the cloud service providing unit 1. Further, the failure status data includes information on the cause of the failure and the recovery procedure as necessary. These failure status data are used to create a resource recovery schedule.
  • FIG. 12 is an explanatory diagram showing an example of a resource recovery schedule.
  • the resource recovery schedule is designed by a person in charge of the recovery operation in consideration of the damage status of the computer resources and the man-hours required for the recovery operation.
  • the recovery schedule generation unit 203 stores the created resource recovery schedule in the resource recovery schedule storage unit 204.
  • the time at which each computer resource and additional service is scheduled to be restored is stored in the resource restoration schedule storage unit 204.
  • the recovery work is started at 12:00, four standard type virtual machines are available at 12:30, and further added at 13:00 Shows that four virtual machines will be available.
  • the recovery time predicting means 205 predicts the service recovery time for each user with reference to the recovery schedule and resource usage profile.
  • the service recovery time is predicted according to the procedure of the flowchart illustrated in FIG.
  • the recovery time predicting means 205 selects the user A and refers to the resource usage profile of the user A. From the resource usage profile illustrated in FIG. 10, it can be determined that the user A is using the virtual machine, the storage, and the monitoring service.
  • the recovery time predicting means 205 first refers to the recovery schedule of the virtual machine.
  • the recovery schedule illustrated in FIG. 12 indicates that four standard-type virtual machines can be used at 12:30. Therefore, the recovery time predicting unit 205 predicts the scheduled recovery time of the virtual machine used by the user A as 12:30.
  • the recovery time predicting means 205 refers to the storage recovery schedule. From the recovery schedule illustrated in FIG. 12, it can be seen that the volume 21 used by the user A is scheduled to be recovered at 12:20. Therefore, the recovery time predicting unit 205 predicts the scheduled recovery time of the storage used by the user A as 12:20.
  • the recovery time predicting means 205 refers to the recovery schedule of the monitoring service. From the recovery schedule illustrated in FIG. 12, it can be seen that the monitoring service is scheduled to be recovered at 12:30. Therefore, the recovery time predicting unit 205 predicts the scheduled recovery time of the monitoring service used by the user A as 12:30.
  • the recovery time prediction unit 205 obtains the maximum value from the recovery time of each computer resource or service from the above result.
  • the recovery time predicting means 205 can determine that the service recovery scheduled time for the user A is 12:30.
  • the recovery time predicting means 205 similarly obtains the scheduled recovery time of the service for other users based on the resource usage profile of each user.
  • FIG. 13 is an explanatory diagram illustrating an example of a result of obtaining a scheduled service recovery time for each user.
  • the recovery time presenting means 207 presents the predicted service recovery time to the user. By performing such processing, the object of the present invention can be achieved.
  • the first embodiment it is assumed that users A to F use standard type virtual machines.
  • this standard type virtual machine is a resource of a type that is shared and used exclusively by a plurality of users. That is, in the second embodiment, in order to predict the recovery time more accurately, the recovery time is predicted in consideration of the reservation of the virtual machine. Considering reservations for virtual machines makes it possible to predict recovery times more accurately.
  • the second example corresponds to the second embodiment.
  • FIG. 14 is an explanatory diagram showing an example of virtual machine reservation information.
  • the service recovery time is predicted according to the procedure of the flowchart illustrated in FIG.
  • reservations for using computer resources are made in the order from user A to user F.
  • FIG. 15 is an explanatory diagram showing another example of the result of obtaining the service recovery scheduled time for each user.
  • FIG. 16 is a block diagram showing an example of the minimum configuration of the cloud service recovery time prediction system according to the present invention.
  • the cloud service recovery time prediction system according to the present invention includes a plurality of types of computer resources (for example, virtual machine 101, storage 102) provided by a cloud service (for example, cloud service providing unit 1) or a service provided by the cloud service.
  • a recovery schedule that defines a schedule for restoring the computer resource or the provided service when a failure occurs in the provided service (for example, the service providing unit 103), for each type of the computer resource or the provided service
  • a storage unit 81 for example, a resource recovery schedule storage unit 204
  • a resource use profile storage unit 82 that stores, for each user, a resource use profile that defines computer resources to be used when each user uses the cloud service.
  • a resource use profile storage unit 206 (For example, A resource use profile storage unit 206), and a computer resource or a service to be used when the user uses the cloud service is specified from the resource use profile, and all the specified computer resources or services to be provided based on the recovery schedule
  • the recovery time predicting means 83 (for example, the recovery time predicting means 205) for predicting the recovery time of the cloud service used by the user by predicting the recovery time, and the predicted service recovery time to the user
  • the recovery time presenting means 84 to present (for example, the recovery time presenting means 207) is provided.
  • a recovery schedule storage means for storing a schedule for each type of computer resource or provided service, and a resource usage profile that defines a computer resource used when each user uses the cloud service is stored for each user.
  • Resource usage profile storage means, and a computer resource or a service to be used when a user uses the cloud service is specified from the resource usage profile, and all the specified computer resources or When the provided service is restored
  • a recovery time prediction means for predicting the recovery time of the cloud service used by the user, and a recovery time presentation means for presenting the predicted service recovery time to the user.
  • (Supplementary Note 2) Fault status storage means for storing fault status of each computer resource or provided service, fault status investigation means for investigating the fault status and storing it in the fault status storage means, and storing in the fault status storage means
  • the cloud service recovery time prediction system according to appendix 1, further comprising: a recovery schedule generating unit that generates a recovery schedule based on the failure status that has been made and stores the recovery schedule in the recovery schedule storage unit.
  • Resource reservation information is stored as reservation information, which is information that associates the reservation start time of a computer resource shared by a plurality of users and used exclusively among the users with the user of the computer resources.
  • Resource reservation information registration means stored in the means, wherein the resource reservation information registration means can reserve the computer resource used by each user based on the reservation information stored in the resource reservation information storage means And determining, based on the recovery schedule, storing the reservation information having a recovery start time of the reservable computer resource as a reservation start time in a resource reservation information storage unit, and a recovery time prediction unit includes a recovery schedule and the recovery schedule
  • the cloud service recovery time prediction system according to appendix 1 or appendix 2, which predicts the recovery time of a cloud service used by a user based on reservation information.
  • Recovery schedule constraint information storage means for storing recovery schedule constraint information that defines a constraint condition of a recovery schedule based on a dependency relationship between computer resources or a resource recovery request by a user, and a constraint indicated by the recovery schedule constraint information
  • a recovery schedule optimization unit that searches for a recovery schedule candidate that maximizes or minimizes the target index and updates the corresponding recovery schedule stored in the resource recovery schedule storage unit with the recovery schedule.
  • the recovery time prediction means includes the cloud service recovery time prediction according to any one of appendix 1 to appendix 3 for predicting the recovery time of the cloud service used by the user based on the updated recovery schedule. system.
  • a cloud service recovery time prediction method for predicting recovery time when a failure occurs in a plurality of types of computer resources provided by a cloud service or a service provided by the cloud service Reference is made to resource usage profile storage means for storing, for each user, a resource usage profile that defines computer resources to be used when each user uses the cloud service, and the information stored in the resource usage profile storage means.
  • a computer resource or a service to be used when a user uses the cloud service is specified, and the computer resource or the service to be provided when a failure occurs in the computer resource or the service provided
  • a recovery schedule that defines the schedule By extracting from the recovery schedule storage means for storing for each type of the computer resource or each provided service, and by predicting the recovery time of all the specified computer resources or provided services based on the extracted recovery schedule, A cloud service recovery time prediction method characterized by predicting a recovery time of a cloud service used by a user and presenting the predicted service recovery time to the user.
  • Resource reservation information is stored as reservation information, which is information that associates a reservation start time of a computer resource shared by a plurality of users and exclusively used among the users, with the user of the computer resource.
  • reservation information is information that associates a reservation start time of a computer resource shared by a plurality of users and exclusively used among the users, with the user of the computer resource.
  • Cloud service recovery time prediction applied to a computer for predicting recovery time when a failure occurs in a plurality of types of computer resources provided by a cloud service or a service provided by the cloud service A resource use profile storage unit that stores, for each user, a resource use profile that defines a computer resource to be used when each user uses the cloud service.
  • a computer resource or a service to be used when a user uses the cloud service is specified from the resource usage profile stored in the resource usage profile storage means, and a failure occurs in the computer resource or the service provided
  • the computer resources or services provided A recovery schedule that defines a schedule to be recovered is extracted from a recovery schedule storage unit that stores each type of computer resource or each provided service.
  • the recovery time prediction process for predicting the recovery time of the cloud service used by the user and the recovery time presentation process for presenting the predicted service recovery time to the user are executed. For cloud service recovery time prediction.
  • the failure status investigation process which makes the computer investigate the failure status of each computer resource or provided service and stores it in the failure status storage means, and the recovery schedule based on the failure status stored in the failure status storage means
  • the cloud service recovery time prediction program according to appendix 10 which executes a recovery schedule generation process for generating a recovery schedule and storing the recovery schedule in a recovery schedule storage unit.
  • Reservation information which is information that associates the reservation start time of a computer resource shared by a plurality of users and used exclusively among the users, with the user of the computer resource
  • the resource reservation information registration process for storing the reservation information whose reservation start time is the recovery time of the computer resource that can be reserved in the resource reservation information storage means is executed, and the recovery schedule and the resource reservation information are determined by the recovery time prediction process.
  • the cloud service according to supplementary note 9 or supplementary note 10 which predicts the recovery time of the cloud service used by the user based on the reservation information stored in the storage means Scan recovery time prediction for the program.
  • the present invention is suitably applied to a cloud service recovery time prediction system that predicts a service recovery time for each service user in the event of a system failure involving a plurality of computer resource failures.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 クラウドサービスの障害に対する復旧スケジュールを計算機資源の種類や提供サービスごとに記憶する復旧スケジュール記憶手段81と、各利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを定めた資源利用プロフィールを記憶する資源利用プロフィール記憶手段82とを備え、復旧時間予測手段83により資源利用プロフィールと復旧スケジュールに基づいて各利用者に対してサービスが復旧する時間を予測し、復旧時間提示手段84により予測されたサービス復旧時間を利用者に提示する。

Description

クラウドサービス復旧時間予測システム、方法およびプログラム
 本発明は、複数の計算機資源の故障を伴うシステム障害時に、サービス利用者ごとにサービス復旧時間を予測するクラウドサービス復旧時間予測システム、クラウドサービス復旧時間予測方法およびクラウドサービス復旧時間予測用プログラムに関する。
 仮想マシンやストレージなどの計算機資源をネットワークを介して利用者に提供するクラウドサービスが近年広く利用されている。クラウドサービスの利用者は、計算機資源をサービス提供者から借りることにより、計算機資源の所有や管理のコストを抑えることができる。特許文献1には、このようなクラウドサービスの実施形態の一例が記載されている。
 クラウドサービスの利用者増加に伴い、サービス障害により影響を受ける利用者の数も大きくなっている。大規模なクラウドサービスでは、一部のシステム障害によって数十万人の利用者に影響を与えることもある。しかし、利用者は、クラウドサービスの構成や管理方式、発生した障害の詳細は把握できないため、障害復旧の処理を直接制御することはできない。利用者は、クラウドサービスの提供者によって障害が取り除かれ、サービスが再び利用可能になるまで待機しなければならない。
 障害復旧に関する詳細な状況を把握できないことは、利用者の不安を助長する要因となる。このため、利用者からの問い合わせや利用者による再試行などのアクセスが殺到する可能性がある。利用者からの急激なアクセス増加は、システムの性能低下や機能喪失など、新たなトラブルを招く。このようなサービス障害に伴う利用者のストレスを緩和するため、一部のクラウドサービスでは、ダッシュボードと呼ばれるWebサイトが設けられている。このWebサイトを介して、サービス復旧に向けた取り組みが利用者に公開される。
 特許文献2には、利用者から受け付けた障害情報に基づいて、障害情報を公開するためのWebページを生成して公開する方法が記載されている。障害発生時にWebで素早く情報を公開することにより、障害によって影響を受ける利用者のストレスを軽減できる。
 また、特許文献3には、ネットワークの障害情報をユーザへ通知する障害通知方法が記載されている。特許文献3に記載された障害通知方法は、テレビ会議アプリケーションなどの通信を伴うシステムの障害発生時に、ユーザのアプリケーション予約状況に基づいて利用者毎にメールなどを用いて障害情報を通知する。この方法では、利用者のアプリケーション予約期間と、障害発生から復旧までの期間の時間的な重なりに基づいて、利用者への影響を判断して障害情報を通知する。
 また、特許文献4には、ネットワークサービスを利用できなくなった場合に必要な情報を利用者に通知する方法が記載されている。特許文献4に記載された方法では、サーバ機が、ネットワークサービスで提供される資源を利用しているクライアント機の識別情報、該当する資源を利用しているクライアント機で動作しているプログラムの種類、および、該当するクライアント機のプログラムの利用者の種類を管理している。そして、サーバ機の資源に所定の問題が発生したことによりネットワークサービスを提供できなくなった場合、ネットワークサービスで提供される資源に基づくネットワークサービスの情報をクライアント機に対して通知する。
 なお、非特許文献1では、Google(登録商標)AppEngineで提供されるクラウドサービスの現在の状態が公開されている。また、非特許文献2では、Amazon(登録商標)EC2で提供されるクラウドサービスの現在の状態が公開されている。クラウドサービスに障害発生した時には、このWebサイトで障害発生箇所やサービス復旧予定時刻などが公開される。サービス復旧状況に合わせてこれらの情報が更新されるため、利用者は、このサイトを参照してサービス再開時にむけて備えることができる。
 また、特許文献5には、複数のストレージ装置間で非同期リモートコピーを行うストレージシステムにおいて、データ復旧可能時刻を監視する方法が記載されている。特許文献5に記載された方法では、第1のストレージ装置のバッファに滞留している最新またはそれに準ずるデータを所定の時間間隔で時刻情報とともに蓄積しておく。そして、蓄積した情報と、所定時刻における、最古またはそれに準ずるデータと、滞留しているデータ数のうち少なくとも1つの情報とに基づき、所定時刻を基準にして、第2のストレージ装置に記憶されたデータを用いて復旧できる時刻を算出する。
特開2010-146198号公報 特開2002-108728号公報 特開2004-364154号公報 特開2007-41646号公報 特開2010-146198号公報
Google、"Google AppEngine"、[online]、[平成23年8月19日検索]、インターネット〈URL:http://code.google.com/status/appengine〉 Amazon、"amazon web service SERVICE HEALTH DASHBOARD"、[online]、[平成23年8月19日検索]、インターネット〈URL:http://status.aws.amazon.com/〉
 一般に、利用者が必要とする計算機資源の種類や量は、利用者ごとに異なる。そのため、特許文献2に記載された方法を用いて公開される障害情報や、非特許文献1および非特許文献2で公開される情報は、必ずしも各利用者にとって適切な情報ではない。
 例えば、非特許文献1および非特許文献2で公開される情報は、サービス全体の復旧時間に関する情報である。この場合、仮にサービスの一部が復旧し、一部のサービス利用者がサービスを利用可能な状況になったとしても、各サービス利用者は、その状況を把握できない。すなわち、サービス利用者は、クラウドサービスの障害時にサービス提供者から公開される復旧予測時間情報にしたがい、全てのサービスの復旧時まで待機しなければならない。
 一方、一部の資源の復旧時間予測に基づいてサービス復旧時間が公開される場合、全ての利用者がその時点でサービスの利用を再開できるとは限らない。一般に各利用者が必要とする計算機資源の種類や量は異なるため、一部の資源が利用可能となっただけでは、利用を再開できない場合がある。すなわち、一部の資源の復旧時間予測が公開されても、各利用者は必要とする全ての資源が復旧するまでサービスの利用を再開できない。
 このように、複数種類の計算機資源に障害が発生するクラウドサービスの障害に対し、特許文献2に記載された方法では、利用者ごとに異なる復旧時間(具体的には、サービスを利用再開できる時刻)を提示できない問題がある。
 また、クラウドサービスで提供されるサービスが、必ずしも事前に予約を必要とするサービスとは限らない。そのため、利用者が予約をせずに利用するサービスで障害が発生した場合、特許文献3に記載された方法では対応できない。
 また、特許文献4に記載された方法では、障害が発生した資源を利用しているクライアントに、ネットワークサービスが利用できないことを通知する。しかし、特許文献4には、サービスが復旧するまでの予想時間をどのように算出するか記載されておらず、その具体的な予測方法は不明である。
 そこで、本発明は、複数種類の計算機資源を用いて提供されるクラウドサービスの障害によって利用者の要求するサービスが利用できなくなった場合に、クラウドサービスが復旧する時間を利用者ごとに予測できるクラウドサービス復旧時間予測システム、クラウドサービス復旧時間予測方法およびクラウドサービス復旧時間予測用プログラムを提供することを目的とする。
 本発明によるクラウドサービス復旧時間予測システムは、クラウドサービスで提供される複数種類の計算機資源またはそのクラウドサービスで提供されるサービスである提供サービスで障害が発生した場合のその計算機資源またはその提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、その計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段と、各利用者がクラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールをその利用者ごとに記憶する資源利用プロフィール記憶手段と、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを資源利用プロフィールから特定し、復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、その利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測手段と、予測されたサービス復旧時間を利用者に提示する復旧時間提示手段とを備えたことを特徴とする。
 本発明によるクラウドサービス復旧時間予測方法は、クラウドサービスで提供される複数種類の計算機資源またはそのクラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するクラウドサービス復旧時間予測方法であって、各利用者がクラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールをその利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、その資源利用プロフィール記憶手段に記憶されたその資源利用プロフィールから、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、計算機資源または提供サービスで障害が発生した場合のその計算機資源またはその提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、その計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、抽出した復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、その利用者が利用するクラウドサービスの復旧時間を予測し、予測されたサービス復旧時間を利用者に提示することを特徴とする。
 本発明によるクラウドサービス復旧時間予測用プログラムは、クラウドサービスで提供される複数種類の計算機資源またはそのクラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するコンピュータに適用されるクラウドサービス復旧時間予測用プログラムであって、コンピュータに、各利用者がクラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールをその利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、その資源利用プロフィール記憶手段に記憶されたその資源利用プロフィールから、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、計算機資源または提供サービスで障害が発生した場合のその計算機資源またはその提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、その計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、抽出した復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、その利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測処理、および、予測されたサービス復旧時間を利用者に提示する復旧時間提示処理を実行させることを特徴とする。
 本発明によれば、複数種類の計算機資源を用いて提供されるクラウドサービスの障害によって利用者の要求するサービスが利用できなくなった場合に、クラウドサービスが復旧する時間を利用者ごとに予測できる。
クラウドサービスの構成全体の例を示す説明図である。 復旧スケジュールを生成する処理の例を示すフローチャートである。 利用者ごとにサービス復旧時間を予測して提示する手順の例を示すフローチャートである。 本発明の第2の実施形態のクラウドサービス復旧時間予測システムの例を示す説明図である。 利用者ごとにサービス復旧時間を予測して提示する手順の他の例を示すフローチャートである。 本発明の第3の実施形態のクラウドサービス復旧時間予測システムの例を示す説明図である。 復旧スケジュールを生成する処理の例を示すフローチャートである。 逐次探索処理の例を示すフローチャートである。 第1の実施例のクラウドサービスが提供する計算機資源およびサービスの一例を示す説明図である。 クラウドサービス利用者の資源プロフィールの一部を示す説明図である。 障害状況データの一例を示す説明図である。 資源復旧スケジュールの例を示す説明図である。 利用者ごとにサービスの復旧予定時刻を求めた結果の例を示す説明図である。 仮想マシンの予約情報の一例を示す説明図である。 利用者ごとにサービスの復旧予定時刻を求めた結果の他の例を示す説明図である。 本発明によるクラウドサービス復旧時間予測システムの最小構成の例を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態のクラウドサービス復旧時間予測システムを含むクラウドサービスの構成全体の例を示す説明図である。図1に例示するクラウドサービスでは、クラウドサービス提供部1と、復旧時刻予測システム2と、クラウドサービスクライアント3とを備えている。図1に例示する復旧時刻予測システム2が、本発明の第1の実施形態のクラウドサービス復旧時間予測システムに対応する。クラウドサービス提供部1と、復旧時刻予測システム2と、クラウドサービスクライアント3とは、通信ネットワーク網(図示せず)を介して相互に接続される。
 クラウドサービス提供部1は、仮想マシン101と、ストレージ102と、サービス提供部103とを備える。仮想マシン101、ストレージ102およびサービス提供部103を用いて利用者に各種サービスが提供される。以下の説明では、クラウドサービス提供部1が備える仮想マシン101およびストレージ102のことを、計算機資源と記すこともある。
 なお、図1に示す例では、クラウドサービス提供部1が、仮想マシン101、ストレージ102およびサービス提供部103をそれぞれ6つ備えている場合を示す。ただし、仮想マシン101、ストレージ102およびサービス提供部103の個数は、6つに限定されない。仮想マシン101、ストレージ102およびサービス提供部103の個数は、それぞれ、1つずつであってもよく、2つ以上5つ以下であってもよく、7つ以上であってもよい。また、仮想マシン101、ストレージ102およびサービス提供部103の個数は、それぞれ同一でなくてもよい。また、クラウドサービス提供部1は、利用者に各種サービスを提供するために、その他同様の計算機資源を備えていてもよい。
 また、クラウドサービス提供部1は、仮想マシン101、ストレージ102などの計算機資源を利用者に対して提供するための専用のインタフェース(図示せず)を備える。専用のインタフェースとして、例えば、仮想マシン101の生成や削除を行うためのインタフェースや、ストレージを追加するためのインタフェースなどが挙げられる。
 クラウドサービスの利用者は、クラウドサービスクライアント3の機能を利用して専用インタフェースにアクセスし、クラウドサービス内の仮想マシン101やストレージ102を利用する。
 サービス提供部103は、計算機資源の他に利用者が利用可能なサービスを提供する。サービス提供部103が提供するサービスとして、例えば、プライベートなネットワークアクセスを提供するVPN(Virtual Private Network )サービス、トラフィックの負荷分散を行う負荷分散サービス、クラウドサービス内の特定の仮想マシンの状態や性能を監視する監視サービス、トラフィックの増減に合わせて仮想マシンのインスタンス数を増減させるスケールアップサービス、資源へのアクセスを制限するための認証認可サービスなどが挙げられる。
 クラウドサービスの利用者は、クラウドサービスクライアント3の機能を利用して、サービス提供部103が提供するサービスを利用し、クラウドサービス提供部1内にアプリケーションシステム(図示せず)を構築する。クラウドサービスの利用者は、利用する計算機資源の種類および量、利用するサービスをクラウドサービスに登録し、利用状況に応じて利用料をサービス提供者に支払う。クラウドサービス提供者は、各利用者が利用する計算機資源や利用するサービスの情報を、後述する資源利用プロフィール記憶部206に記憶する。
 復旧時間予測システム2は、障害状況調査手段201と、障害状況記憶部202と、復旧スケジュール生成手段203と、資源復旧スケジュール記憶部204と、復旧時間予測手段205と、資源利用プロフィール記憶部206と、復旧時間提示手段207とを含む。
 障害状況調査手段201は、クラウドサービス提供部1内の計算機資源やサービス提供部103の障害状況を調査する。具体的には、障害状況調査手段201は、複数種類の計算機資源損失を伴うクラウドサービスの障害時に、各計算機資源またはサービスの障害状況を調査する。そして、障害状況調査手段201は、調査結果を障害状況記憶部202に記憶する。
 障害状況記憶部202は、クラウドサービス提供部1内の障害状況を記憶する。障害状況は、障害状況調査手段201により、障害状況記憶部202に随時記憶される。
 復旧スケジュール生成手段203は、障害状況記憶部202に記憶された障害状況に応じて、各計算機資源および提供サービスに対する復旧スケジュールを生成する。そして、復旧スケジュール生成手段203は、生成した復旧スケジュールを資源復旧スケジュール記憶部204に記憶する。
 ここで復旧スケジュールとは、クラウドサービス提供部1が提供する複数種類の計算機資源またはサービス提供部3が提供するサービス(以下、提供サービスと記すこともある。)で障害が発生した場合に、その計算機資源または提供サービスを復旧させるためのスケジュールである。
 復旧スケジュールは、一般的に知られた方法を用いて作成される。例えば、計算機資源の障害ごとに復旧にかかる時間や、障害の組合せごとの復旧順序を予め設定しておいてもよい。この場合、復旧スケジュール生成手段203は、障害状況記憶部202に障害状況が登録されたタイミングで、その障害状況から計算機資源の障害を特定し、特定した計算機資源に基づいて、予め設定しておいた復旧にかかる時間および復旧順序から復旧スケジュールを生成してもよい。また、例えば、ストレージの復旧スケジュールを作成する場合、復旧スケジュール生成手段203は、特許文献5に記載された方法を用いて復旧スケジュールを生成してもよい。
 ただし、復旧スケジュール生成手段203が復旧スケジュールを生成する方法は、上記方法に限定されない。例えば、入力手段(図示せず)を介して管理者等が障害状況に応じて作成した各計算機資源および提供サービスの復旧手順が入力された場合、復旧スケジュール生成手段203は、入力された復旧手順を、復旧スケジュールとして利用してもよい。
 資源復旧スケジュール記憶部204は、計算機資源の種類および提供サービスごとに復旧スケジュールを記憶する。
 資源利用プロフィール記憶部206は、各利用者がクラウドサービスを利用する際に使用する計算機資源(具体的には、計算機資源の種類および量)を定めた資源利用プロフィールを記憶する。資源利用プロフィールは、管理者等により、予め資源利用プロフィール記憶部206に記憶される。ここで、計算機資源の量には、仮想マシン101の数や、ストレージ102で割り当てられる容量などが含まれる。
 復旧時間予測手段205は、計算機資源または提供サービスごとの復旧スケジュール、および、資源利用プロフィール記憶部206に格納された資源利用プロフィールに基づき、利用者ごとのサービス復旧時間を予測する。具体的には、復旧時間予測手段205は、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを、資源利用プロフィールから特定する。そして、復旧時間予測手段205は、復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測する。
 復旧時間予測手段205は、予測した各計算機資源および各提供サービスが復旧する時間のうち、最も遅い時間を利用者が利用するクラウドサービスの復旧時間と予測してもよい。
 復旧時間提示手段207は、予測されたサービス復旧時間を利用者に提示する。提示する方法として、例えば、Webを使ったアナウンスや、メールやインスタントメッセージ等を使ったユーザへの通知などが挙げられる。なお、復旧時間の提示には、間接的に他の装置に復旧時間を送信することも含まれる。
 障害状況調査手段201と、復旧スケジュール生成手段203と、復旧時間予測手段205と、復旧時間提示手段207とは、プログラム(クラウドサービス復旧時間予測用プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、復旧時間予測システム内の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、障害状況調査手段201、復旧スケジュール生成手段203、復旧時間予測手段205および復旧時間提示手段207として動作してもよい。また、障害状況調査手段201と、復旧スケジュール生成手段203と、復旧時間予測手段205と、復旧時間提示手段207とは、それぞれが専用のハードウェアで実現されていてもよい。
 また、障害状況記憶部202と、資源復旧スケジュール記憶部204と、資源利用プロフィール記憶部206とは、例えば、磁気ディスク等により実現される。
 次に、本実施形態の復旧時間予測システム2の動作を説明する。クラウドサービスを稼働させているデータセンタに災害や停電等が発生すると、災害の程度に応じて複数の計算機資源および提供サービスに障害が発生する。例えば、データセンタの一区画で電源が失われた場合、その区画内で稼働しているサーバ、およびサーバ内で稼働していた仮想マシンが停止する。さらに、この場合、区画内にあるストレージ装置、および各種提供サービスも停止する。この障害により、仮想マシンやストレージ装置、提供サービスを利用していた利用者は、クラウドサービスを利用できない状態になる。クラウドサービス提供者は、障害の発生を検知すると、クラウドサービスの復旧処理を開始する。復旧時間予測システム2は、クラウドサービス復旧処理の過程で、障害の影響を受けた利用者ごとに復旧時間の予測を行う。
 図2は、各計算機資源および提供サービスの障害状況を調査して復旧スケジュールを生成する処理の例を示すフローチャートである。復旧時間予測システム2では、はじめに、障害状況調査手段201が、クラウドサービス提供部1内で障害によって停止した物理サーバや仮想サーバ、ストレージ装置、各種サービスを特定し、被害状況を調査する(ステップS1000)。各計算機資源の被害状況の例として、物理的な損傷により交換が必要な状態、物理的な損傷はないが論理的な不整合を生じている可能性がある状態、一部のデータを損失している可能性がある状態、サービスとして一部の機能を提供できない状態、などが挙げられる。
 障害状況調査手段201は、調査結果を障害状況記憶部202に記憶する(ステップS1001)。障害状況調査手段201は、例えば、障害によって発生するアラートメッセージを集約して自動的に調査結果をまとめても良い。また、クラウドサービスの管理者が、現場の被害状況やログデータなどを確認することによって障害状況の調査を行ってもよい。また、障害状況調査手段201は、定期的に計算機資源や提供サービスの状況を監視し、異常を検知した時点で障害が発生したと判断してもよい。障害状況記憶部202には、復旧処理中、継続的に参照処理や更新処理が繰り返し行われ、各時点での最新の障害状況が格納されるものとする。
 次に、復旧スケジュール生成手段203は、障害状況を参照して、各計算機資源および提供サービスの復旧スケジュールを生成する(ステップS1002)。そして、復旧スケジュール生成手段203は、資源復旧スケジュール記憶部204の復旧スケジュールを更新する(ステップS1003)。
 復旧手順(復旧スケジュール)は、資源の種類や被害の状況、および復旧に必要な人員や資源の備蓄状況などによって異なる。想定されるこれらの障害内容に対する復旧時間や手順を予め設定しておき、復旧スケジュール生成手段203が、これらの情報に基づいて復旧スケジュールを作成してもよい。
 また、計算機資源を管理する管理者によって作成された資源の種類や提供サービスごとの復旧スケジュールが入力される場合、復旧スケジュール生成手段203は、入力された復旧スケジュールを資源復旧スケジュール記憶部204に記憶してもよい。例えば、仮想マシン資源の復旧スケジュールは、仮想マシンを提供するサーバクラスタを管理する専門の管理者グループによって作成される。同様に、ストレージの復旧スケジュールは、ストレージ管理専門の管理者グループによって生成される。復旧スケジュール生成手段203は、生成した復旧スケジュールを、これらの管理者によって作成された復旧スケジュールに置き換えてもよい。
 図3は、復旧スケジュールおよび資源利用プロフィールに基づいて、利用者ごとにサービス復旧時間を予測して提示する手順の例を示すフローチャートである。復旧時間予測手段205は、まずクラウドサービスの全利用者のリストを資源利用プロフィール記憶部206から取得する(ステップS2000)。なお、復旧時間予測手段205は、障害によって影響を受けたユーザに限定して利用者のリストを取得してもよい。復旧時間予測手段205は、取得した利用者のリストから利用者を一人ずつ選択し(ステップS2001)、復旧予測時刻を調べる。具体的には、復旧時間予測手段205は、資源利用プロフィール記憶部206を参照して、選択した利用者Uiの資源利用プロフィールを取得する(ステップS2002)。
 この資源利用プロフィールには、利用者が要求する計算機資源のリストが含まれており、この資源のリストから、資源の種類(以下、資源タイプRjと記す。)が特定される。そこで、復旧時間予測手段205は、資源利用プロフィールから資源タイプRjを選択する(ステップS2003)。資源タイプRjは、例えば、仮想マシンやストレージ、各種提供サービスを示す。また、資源タイプRjは、上記内容に加え、ある計算機資源が共有資源か否かを示す情報を示していてもよい。
 次に、復旧時間予測手段205は、資源復旧スケジュール記憶部204を参照し、選択した資源タイプRjの資源復旧スケジュールを参照する(ステップS2004)。この資源復旧スケジュールには、各時点で復旧する資源や、資源の量、資源内の部分を示す情報などが記載される。そこで、復旧時間予測手段205は、資源利用プロフィールに記載された利用者の要求する資源が復旧して利用可能になる復旧予定時刻Tjを予測する(ステップS2005)。なお、復旧時間予測手段205は、予測結果をメモリ(図示せず)等に記録してもよい。
 復旧時間予測手段205は、資源利用プロフィールに記載された全ての資源タイプRjに対して復旧予定時刻Tjを予測したか否かを判断する(ステップS2006)。全ての資源タイプRjの復旧予定時刻Tjを予測していない場合(ステップS2006におけるNO)、復旧時間予測手段205は、ステップS2003からステップS2006の処理を繰り返す。
 一方、全ての資源タイプRjの復旧予定時刻Tjを予測した場合(ステップS2006におけるYES)、復旧時間予測手段205は、復旧予定時刻Tjの最大値を求める。復旧時間予測手段205は、この復旧予定時刻Tjの最大値を利用者Uiの復旧予定時刻とする(ステップS2007)。なお、復旧時間予測手段205は、復旧予定時刻をメモリ(図示せず)等に記録してもよい。
 復旧時間予測手段205は、利用者リストに含まれる全ての利用者について復旧予定時刻を予測したか否か判断する(ステップS2008)。全ての利用者について復旧予定時刻を予測していない場合(ステップS2008におけるNO)、復旧時間予測手段205は、ステップS2001からステップS2008までの処理を繰り返す。一方、全ての利用者について復旧予定時刻を予測した場合(ステップS2008におけるYES)、復旧時間提示手段207は、予測した復旧予定時刻を利用者に提示する(ステップS2009)。
 以上のように、本実施形態によれば、復旧時間予測手段205が、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを資源利用プロフィールから特定する。さらに、復旧時間予測手段205は、復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測する。これにより、復旧時間予測手段205は、その利用者が利用するクラウドサービスの復旧時間を予測する。そして、復旧時間提示手段207が、予測されたサービス復旧時間を利用者に提示する。そのため、複数種類の計算機資源を用いて提供されるクラウドサービスの障害によって利用者の要求するサービスが利用できなくなった場合に、クラウドサービスが復旧する時間を利用者ごとに予測できる。
 すなわち、本実施形態では、復旧時間予測手段205が、利用者の資源利用プロフィールと各計算機資源または提供サービスの復旧スケジュールを参照して、利用者ごとにサービス復旧時間を予測する。よって、クラウドサービスの障害時に、利用者ごとに異なるサービス復旧時間を提示することができる。
 また、障害状況調査手段201が、各計算機資源または提供サービスの障害状況を調査して、障害状況記憶部202に記憶させてもよい。そして、復旧スケジュール生成手段203が、障害状況記憶部202に記憶された障害状況に基づいて復旧スケジュールを生成し、その復旧スケジュールを資源復旧スケジュール記憶部204に記憶させてもよい。このように、障害が発生したタイミングで自動的に復旧スケジュールを作成することで、より迅速に障害対応することが可能になる。
実施形態2.
 次に、本発明の第2の実施形態のクラウドサービス復旧時間予測システムを説明する。なお、本実施形態におけるクラウドサービス復旧時間予測システムも、図1に例示するクラウドサービスと同様の構成に含まれるものとする。図4は、本発明の第2の実施形態のクラウドサービス復旧時間予測システムの例を示す説明図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における復旧時間予測システム2は、第1の実施形態の復旧時間予測システム2の構成に加え、資源予約情報記憶部208を含む。
 クラウドサービス提供部1の計算機資源の中には、複数の利用者で共有されているが、利用者間で排他的に利用される種類の資源もある。このような種類の資源として、例えば、どの利用者も使うことのできる共有された仮想マシンなどが挙げられる。排他的に共有される計算機資源は、全ての利用者が同時に利用できるわけではない。そのため、特定の利用者のみに利用を許可する予約機能が必要になる。本実施形態の復旧時間予測システム2は、この予約機能を実現するために用いられる予約情報を参照して復旧時間の予測を行う。
 資源予約情報記憶部208は、各計算機資源の利用に関する予約情報を記憶する。予約情報は、複数の利用者で共有され、利用者間で排他的に利用される計算機資源の予約開始時間を、その計算機資源の利用者と対応づけた情報である。資源予約情報記憶部208は、例えば、磁気ディスク等により実現される。すなわち、予約情報には、利用者が計算機資源の予約を開始する時刻(予約開始時刻)を示す情報が含まれる。
 復旧時間予測手段205は、利用者の資源利用プロフィールから、その利用者が利用する計算機資源または提供サービスを特定する。復旧時間予測手段205は、予約情報に基づいて、複数の利用者で排他的に利用される計算機資源が予約可能か否か判断する。復旧時間予測手段205は、復旧スケジュールに基づいて、予約可能な計算機資源の復旧時刻を予約開始時刻とする予約情報を資源予約情報記憶部208に記憶する。そして、復旧時間予測手段205は、復旧スケジュールおよび予約情報から、利用者が計算機資源を予約可能な時間を特定する。
 具体的には、復旧時間予測手段205は、利用者が利用する計算機資源または提供サービスのうち、最も早く復旧すると想定されるものおよびその復旧時刻を復旧スケジュールから特定する。さらに、復旧時間予測手段205は、特定した時刻に対応する計算機資源または提供サービスの予約情報を参照する。その計算機資源または提供サービスが予約可能な場合、復旧時間予測手段205は、復旧時刻を予約開始時間とする予約情報を資源予約情報記憶部208に登録する。一方、復旧する計算機資源または提供サービスが予約できない場合、復旧時間予測手段205は、復旧する時刻が次に早い計算機資源または提供サービスに対して、上記処理を繰り返す。復旧時間予測手段205は、計算機資源または提供サービスが予約可能か否かを、対象とする計算機資源に対する予約情報が登録されているか否かに基づいて判断してもよい。
 復旧時間予測手段205は、復旧スケジュールおよび予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する。具体的には、復旧時間予測手段205は、予測した各計算機資源および各提供サービスの復旧時間と、利用者が利用する各計算機資源および各提供サービスの予約時間のうち、最も遅い時間を利用者が利用するクラウドサービスの復旧時間と予測してもよい。言い換えると、復旧時間予測手段205は、予約情報が登録された計算機資源または提供サービスについては、その予約情報に含まれる予約開始時刻に復旧するものと判断して、サービス復旧時間を予測する。
 次に、本実施形態の復旧時間予測システム2の動作を説明する。図5は、利用者ごとにサービス復旧時間を予測して提示する手順の他の例を示すフローチャートである。
 復旧時間予測手段205は、まず、クラウドサービスの全利用者のリストを資源利用プロフィール記憶部206から取得する(ステップS3000)。そして、復旧時間予測手段205は、優先度の高い利用者から順番に資源の予約と復旧時間の予測を行うため、利用者のリストを優先度に基づいてソートする(ステップS3001)。利用者の優先度は、利用者のサービス契約形態や利用頻度、期間などに応じて決定されるものとする。復旧時間予測手段205は、ソートした利用者のリストから最も優先度の高い利用者Uiを選び(ステップS3002)、その利用者の資源利用プロフィールを取得する(ステップS3003)。
 次に、復旧時間予測手段205は、資源利用プロフィールから資源タイプRjを選択する(ステップS3004)。そして、復旧時間予測手段205は、資源復旧スケジュール記憶部204を参照し、選択した資源タイプRjの資源復旧スケジュールを参照する(ステップS3005)。そして、復旧時間予測手段205は、資源タイプRjが共有資源か否かを判断する(ステップS3006)。
 資源タイプRjが共有資源を示さない場合(ステップS3006におけるNO)、復旧時間予測手段205は、資源タイプRjに対応する資源復旧スケジュールを参照し、利用者の要求する資源が復旧して利用可能になる復旧予定時刻Tjを予測する。なお、復旧時間予測手段205は、予測結果をメモリ(図示せず)等に記録してもよい(ステップS3007)。
 資源タイプRjが共有資源を示さない場合とは、例えば、資源タイプRjが利用者Ui専用の資源を示す場合や、排他制御の必要がない共有資源を示す場合などである。具体的には、利用者のデータを記録したストレージボリュームがこの資源タイプRjに該当する。また、複数の利用者で共有して利用される監視機能や、負荷分散機能などのサービスなども、この資源タイプRjに該当する。
 一方、資源タイプRjが共有資源を示す場合(ステップS3006におけるYES)、復旧時間予測手段205は、まず、資源予約情報記憶部208を参照し、その資源タイプRjの予約情報を取得する(ステップS3008)。資源タイプRjが共有資源を示す場合とは、複数の利用者で共有され、排他的に利用されるタイプの資源を示す場合などである。
 次に、復旧時間予測手段205は、資源タイプRjの資源復旧スケジュールを参照し、資源の復旧後、利用者が要求する資源の予約ができる最短の時刻を復旧予定時刻Tjと予測する。これは、利用者が要求する資源の予約ができる時点で、復旧した資源を利用できるようになることが予測されるためである。このとき、復旧時間予測手段205は、別の利用者によって利用することが予約されている資源は予約できないと判断する。なお、復旧時間予測手段205は、予測結果をメモリ(図示せず)等に記録してもよい(ステップS3009)。
 復旧時間予測手段205は、利用者Uiが要求する資源のタイプと量に応じて予約情報を作成し、資源予約情報記憶部208に予約情報を記憶する(ステップS3010)。復旧時間予測手段205は、例えば、要求する計算機資源に利用者Uiを対応づけて記憶することで、その利用者Uiが対応する計算機資源を予約したものとしてもよい。
 復旧時間予測手段205は、資源利用プロフィールに記載された全ての資源タイプRjに対して復旧予定時刻Tjを予測したか否かを判断する(ステップS3011)。全ての資源タイプRjの復旧予定時刻Tjを予測していない場合(ステップS3011におけるNO)、復旧時間予測手段205は、ステップS3004からステップS3011の処理を繰り返す。
 一方、全ての資源タイプRjの復旧予定時刻Tjを予測した場合(ステップS3011におけるYES)、復旧時間予測手段205は、復旧予定時刻Tjの最大値を求める。復旧時間予測手段205は、この復旧予定時刻Tjの最大値を利用者Uiの復旧予定時刻とする(ステップS3012)。なお、復旧時間予測手段205は、復旧予定時刻をメモリ(図示せず)等に記録してもよい。
 復旧時間予測手段205は、利用者リストに含まれる全ての利用者について復旧予定時刻を予測したか否か判断する(ステップS3013)。全ての利用者について復旧予定時刻を予測していない場合(ステップS3013におけるNO)、復旧時間予測手段205は、ステップS3002からステップS3013までの処理を繰り返す。
 一方、全ての利用者について復旧予定時刻を予測した場合(ステップS3013におけるYES)、復旧時間提示手段207は、予測した復旧予定時刻を利用者に提示する(ステップS2009)。すなわち、復旧時間予測手段205がソートした利用者リストに基づいて順番に利用者の利用する計算機資源の復旧時間を予測し、全ての利用者について復旧時間の予測を終えたら、復旧時間提示手段207が予測結果を利用者ごとに提示する。
 以上のように、本実施形態によれば、復旧時間予測手段205が、資源予約情報記憶部208に予約情報を記憶する。具体的には、復旧時間予測手段205は、資源予約情報記憶部208に記憶されている予約情報に基づいて、各利用者が利用する計算機資源が予約可能か否か判断する。また、復旧時間予測手段205は、復旧スケジュールに基づいて、予約可能な計算機資源の復旧時刻を予約開始時刻とする予約情報を資源予約情報記憶部208に記憶する。そして、復旧時間予測手段205は、復旧スケジュールおよび予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する。
 すなわち、本実施形態では、復旧時間予測手段205が、複数の利用者で共有され、排他的に利用される計算機資源について、資源予約情報記憶部208に復旧する資源の予約情報を記録する。そのため、各利用者の要求する資源の種類と量が確実に利用可能となる時刻をサービス復旧時刻として予測し、その予測結果を利用者に提示できる。
 具体的には、本実施形態では、復旧時間予測手段205が、別の利用者によって予約された計算機資源は復旧していても利用できないことを考慮して復旧予定時刻の予測を行う。そのため、復旧予定時刻後に他の利用者が先に利用してしまったために、利用者がサービスの利用を再開できなくなるという問題を回避できる。
実施形態3.
 次に、本発明の第3の実施形態のクラウドサービス復旧時間予測システムを説明する。なお、本実施形態におけるクラウドサービス復旧時間予測システムも、図1に例示するクラウドサービスと同様の構成に含まれるものとする。図6は、本発明の第3の実施形態のクラウドサービス復旧時間予測システムの例を示す説明図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における復旧時間予測システム2は、第1の実施形態の復旧時間予測システム2の構成に加え、復旧スケジュール最適化手段209と、復旧スケジュール制約情報記憶部210とを含む。
 復旧スケジュール制約情報記憶部210は、資源復旧スケジュールに対する要求や制約情報を記憶する。具体的には、復旧スケジュール制約情報記憶部210は、計算機資源間の依存関係または利用者による資源復旧要求に基づく資源復旧スケジュールの制約条件を規定した復旧スケジュール制約情報を記憶する。復旧スケジュール制約情報の例として、各利用者の復旧時間のデッドラインや優先度などが挙げられる。復旧スケジュール制約情報は、管理者等により、予め復旧スケジュール制約情報記憶部210に記憶される。
 復旧スケジュール最適化手段209は、復旧スケジュール制約情報に基づいて、各計算機資源またはサービスの復旧スケジュールを最適化する復旧スケジュールを生成する。復旧スケジュール最適化手段209は、資源復旧スケジュールの生成に際し、復旧スケジュール制約情報と共に、資源利用プロフィール記憶部206および資源復旧スケジュール記憶部204に記憶された情報を参照する。
 具体的には、復旧スケジュール最適化手段209は、復旧スケジュール制約情報が示す制約のもとで、目的とする指標(以下、目的指標と記すこともある。)を最大化または最小化する復旧スケジュールの候補(組み合わせ)を探索する。
 目的指標を最大化するか最小化するかは、目的指標の性質によって異なる。例えば、目的指標が「所定の期間内におけるサービス復旧利用者数」であれば、その値を最大化させることが最適化することであるといえる。また、例えば、目的指標が「復旧時間」であれば、その値を最小化させることが最適化することであるといえる。
 そして、復旧スケジュール最適化手段209は、探索した復旧スケジュールで資源復旧スケジュール記憶部204に記憶された対応する復旧スケジュールを更新する。すると、復旧時間予測手段205は、更新された復旧スケジュールに基づいて、利用者が利用するサービスの復旧時間を予測する。
 目的とする指標の例として、全利用者の平均復旧時間、特定の利用者グループの復旧時間の最悪値、復旧にかかるサービス提供者のコストなどが挙げられる。この指標は、サービス提供者からの入力や、事前に設定された情報に基づいて、管理者等により予め決定される。
 復旧スケジュール最適化手段209が復旧スケジュールを最適化する処理の一例を示す。まず、復旧スケジュール最適化手段209は、資源利用プロフィールをもとに、利用者が利用する計算機資源を特定する。そして、復旧スケジュール最適化手段209は、復旧スケジュールをもとに、特定した計算機資源を復旧させるスケジュール(復旧させる順序)を特定する。復旧スケジュール最適化手段209は、例えば、復旧スケジュール内で計算機資源を復旧させる順序を入れ替えた組み合わせを、復旧スケジュールの候補とする。復旧スケジュール最適化手段209は、復旧スケジュールの候補が復旧スケジュール制約情報の示す制約を満たしているか否か判断する。復旧スケジュールの候補が複数存在する場合、復旧スケジュール最適化手段209は、その候補の中から最適な候補を選択し、選択した候補で復旧スケジュールを更新する。
 復旧スケジュール最適化手段209は、障害状況が調査された後や、各資源復旧スケジュールが生成された後、または、障害復旧処理の途中で、サービス提供者の必要に応じて、復旧スケジュールの最適化処理を実行する。
 障害状況調査手段201と、復旧スケジュール生成手段203と、復旧時間予測手段205と、復旧時間提示手段207と、復旧スケジュール最適化手段209とは、プログラム(クラウドサービス復旧時間予測用プログラム)に従って動作するコンピュータのCPUによって実現される。また、障害状況調査手段201と、復旧スケジュール生成手段203と、復旧時間予測手段205と、復旧時間提示手段207と、復旧スケジュール最適化手段209とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施形態における復旧スケジュール最適化手段209が復旧スケジュールを生成する動作を説明する。図7は、復旧スケジュールを作成する処理の例を示すフローチャートである。
 復旧スケジュール最適化手段209は、サービス提供者からの入力、または、事前に設定された情報に基づいて最適化の目的指標を決定する(ステップS4000)。ここでは、全サービス利用者の平均復旧時間を目的指標とする。そして、最適化の方法として、この平均復旧時間を最小化する復旧スケジュールを決定する方法を例に説明する。
 復旧スケジュール生成手段203は、障害状況を参照して、各計算機資源および提供サービスの復旧スケジュールを生成する(ステップS4001)。なお、この復旧スケジュールは、管理者等によって作成されたものであってもよい。その後、復旧スケジュール生成手段203は、生成した復旧スケジュールを資源復旧スケジュール記憶部204に記憶する。
 次に、復旧スケジュール最適化手段209は、資源利用プロフィール記憶部206および復旧スケジュール制約情報記憶部210から復旧スケジュールの生成に必要な情報を取得する。具体的には、復旧スケジュール最適化手段209は、資源利用プロフィール記憶部206から資源利用プロフィールを取得し(ステップS4002)、復旧スケジュール制約情報記憶部210から復旧スケジュール制約情報を取得する(ステップS4003)。
 復旧スケジュール最適化手段209は、与えられた復旧スケジュール制約情報の範囲で実現可能な復旧スケジュールを探索し、目的指標を最適化する復旧スケジュールの組み合わせを探索する(ステップS4004)。復旧スケジュール最適化手段209は、最適化問題の解法として一般的に利用される方法を用いて復旧スケジュールの組み合わせを探索する。ここでは、最も単純な探索方法の例として、逐次探索を用いる場合を例に説明する。
 図8は、逐次探索処理の例を示すフローチャートである。計算機資源の復旧スケジュールは一通りとは限られない。計算機資源を復旧する順番を入れ替えた組み合わせなど、様々な復旧スケジュールが考えられる。そこで、復旧スケジュール最適化手段209は、初めに、障害状況に基づいて実現可能な復旧スケジュールの組み合わせ候補を列挙する(図8におけるステップS5000)。ここで列挙した復旧スケジュールの組み合わせ候補が、最適化を行う際の探索の範囲(探索空間)になる。
 復旧スケジュール最適化手段209は、復旧スケジュールの候補Sjを選択する(ステップS5001)。そして、復旧時間予測手段205が全利用者のサービス復旧時間を予測する(ステップS5002)。なお、サービス復旧時間を予測する方法は、第1の実施形態で説明した方法と同様である。
 復旧スケジュール最適化手段209は、予測結果に基づいて、目的指標の値Viを計算する(ステップS5003)。ここでは、平均復旧時間を目的指標としている。そこで、復旧スケジュール最適化手段209は、利用者ごとに予測された復旧時間の平均値を算出して、目的指標の値Viを計算する。
 次に、復旧スケジュール最適化手段209は、候補Sjが復旧スケジュール制約情報記憶部210に記憶された全ての復旧スケジュール制約情報を満たすか否かを判断する(ステップS5004)。
 例えば、「優先度の高いユーザ集団の復旧時間がT以内(例えば、Vi≦T)」という制約の場合、復旧スケジュール最適化手段209は、予測された復旧時間がこの制約を満たすか否かを判断する。
 候補Sjが復旧スケジュール制約情報記憶部210に記憶された全ての復旧スケジュール制約情報を満たす場合、復旧スケジュール最適化手段209は、候補Sjを復旧スケジュールの候補(以下、最適復旧スケジュール候補と記載することもある。)とする。なお、復旧スケジュール最適化手段209は、最適復旧スケジュール候補をメモリ(図示せず)等に記録してもよい(ステップS5005)。
 復旧スケジュール最適化手段209は、復旧スケジュールの候補の探索を終了するか否かを判断する(ステップS5006)。復旧スケジュール最適化手段209は、例えば、探索終了条件を満たしているか否かを判断して、復旧スケジュールの候補の探索を終了するか否かを判断してもよい。復旧スケジュールの候補の探索を終了しないと判断した場合(ステップS5006におけるNO)、ステップS5001からステップS5006までの処理が繰り返される。一方、復旧スケジュールの候補の探索を終了すると判断した場合(ステップS5006におけるYES)、最適化処理が終了する。
 すなわち、ステップS5001からステップS5005までの処理が、異なるSjに対して繰り返し行われる。そして、探索終了条件に達した時点で、復旧スケジュールの候補の探索が終了する。探索終了の条件として、例えば、全ての候補を探索する場合や、一定数の探索を終了した段階で打ち切りとする場合などが挙げられる。
 復旧スケジュール最適化手段209は、探索の結果得られた復旧スケジュールの候補の中から、最良の復旧スケジュールを決定し、資源復旧スケジュール記憶部204に記憶された復旧スケジュールを更新する(図7におけるステップS4005)。ここでは、平均復旧時間を最適化の目的指標としている。そこで、復旧スケジュール最適化手段209は、探索の結果、候補として挙げられた復旧スケジュールの中から、平均復旧時間が最小になる復旧スケジュールを最良の復旧スケジュールとして決定する。
 以上のように、本実施形態では、復旧スケジュール最適化手段209が、復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索する。また、復旧スケジュール最適化手段209は、その復旧スケジュールで資源復旧スケジュール記憶部204に記憶された対応する復旧スケジュールを更新する。そして、復旧時間予測手段205は、更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測する。
 すなわち、本実施形態では、復旧スケジュール制約情報記憶部210に記憶された復旧スケジュール制約情報に基づき、復旧スケジュール最適化手段209が、必要に応じて最良の資源復旧スケジュールを更新する。そのため、サービス復旧に対する利用者の要求や制約を満たす復旧時間を予測できる。
 以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。
 図9は、本実施例のクラウドサービス提供部1が提供する計算機資源およびサービスの一例を示す説明図である。本実施例のクラウドサービス提供部1は、n台の仮想マシン(仮想マシン1~仮想マシンn)、2*m個のストレージボリューム(ボリューム11~ボリューム2m)、および監視サービス、VPNサービス、負荷分散サービスを利用者に提供している。ただしnとmは、正数とする。また、クラウドサービス提供部1が提供するサービスのことを付加サービスと記すこともある。
 このクラウドサービス提供部1でサイト規模の障害が発生し、複数の計算機資源で障害が発生した状況を考える。サイト障害により、k台の仮想マシン(仮想マシン1~仮想マシンk)、m個のストレージボリューム(ボリューム21~ボリューム2m)、および、全ての付加サービスが停止したと仮定する。
 図10は、クラウドサービス利用者の資源プロフィールの一部を示す説明図である。障害発生時点で、図10に例示するクラウドサービス利用者の資源プロフィールが資源利用プロフィール記憶部206に記憶されているものとする。資源プロフィールには、各利用者が必要とする仮想マシンのタイプと数、ストレージ領域、および付加サービスが含まれている。図10に示す例では、利用者Aは、標準タイプの仮想マシン1台と、ストレージボリュームのボリューム11を利用し、さらに、監視サービスを利用している。
 クラウドサービスによってはスペックや機能が異なる仮想マシンを用意していることもある。そのため、必要とする仮想マシンのタイプが資源利用プロフィールに含まれていてもよい。ただし、第1の実施例では、説明を単純にするため、全ての仮想マシンが標準タイプの仮想マシンであることを前提とする。また、障害によって利用者A~利用者Fの利用していた仮想マシンが影響を受けたことを前提とする。
 はじめに、障害状況調査手段201が、障害による計算機資源の損害状況を調査し、調査した障害状況を、障害状況記憶部202に記録する。図11は、障害状況データの一例を示す説明図である。障害状況データには、クラウドサービス提供部1で利用される計算機資源の故障個所を示す情報が含まれる。また、障害状況データは、必要に応じて、故障原因や復旧手順に関する情報を含む。これらの障害状況データは、資源復旧スケジュールの作成に利用される。
 図12は、資源復旧スケジュールの例を示す説明図である。ここで、資源復旧スケジュールは、復旧作業を計画する担当者によって、計算機資源の損害状況や復旧作業にかかる工数等を考慮して設計されたものとする。復旧スケジュール生成手段203は、作成された資源復旧スケジュールを資源復旧スケジュール記憶部204に記憶する。ここでは、個々の計算機資源および付加サービスが復旧する予定の時刻が資源復旧スケジュール記憶部204に記憶される。
 例えば、図12に例示する仮想マシンの復旧スケジュールには、12:00に復旧作業が開始され、12:30には標準タイプの仮想マシンが4台利用可能になり、13:00にはさらに追加で4台の仮想マシンが利用可能になる予定が示されている。
 全ての計算機資源および付加サービスの資源復旧スケジュールが決定されると、復旧時間予測手段205は、復旧スケジュールおよび資源利用プロフィールを参照して、利用者ごとにサービス復旧時間を予測する。ここでは、図3に例示するフローチャートの手順に従って、サービス復旧時間が予測されるとする。
 はじめに、復旧時間予測手段205は、利用者Aを選択し、利用者Aの資源利用プロフィールを参照する。図10に例示する資源利用プロフィールから、利用者Aが仮想マシン、ストレージおよび監視サービスを利用していることが判別できる。
 復旧時間予測手段205は、まず、仮想マシンの復旧スケジュールを参照する。図12に例示する復旧スケジュールでは、標準タイプの仮想マシンは、12:30の時点で4台利用可能になることが示されている。そのため、復旧時間予測手段205は、利用者Aの利用する仮想マシンの復旧予定時刻を12:30と予測する。
 復旧時間予測手段205は、次に、ストレージの復旧スケジュールを参照する。図12に例示する復旧スケジュールから、利用者Aの利用するボリューム21は、12:20に復旧予定であることがわかる。そのため、復旧時間予測手段205は、利用者Aの利用するストレージの復旧予定時刻を12:20と予測する。
 同様に、復旧時間予測手段205は、監視サービスの復旧スケジュールを参照する。図12に例示する復旧スケジュールから、監視サービスは、12:30に復旧予定であることがわかる。そのため、復旧時間予測手段205は、利用者Aの利用する監視サービスの復旧予定時刻を12:30と予測する。
 復旧時間予測手段205は、以上の結果から、各計算機資源またはサービスの復旧時間の中から最大値を求める。ここでは、復旧時間予測手段205は、利用者Aについて、サービス復旧予定時刻が12:30であると判定できる。
 復旧時間予測手段205は、他の利用者についても同様に、各利用者の資源利用プロフィールに基づいて、サービスの復旧予定時刻を求める。図13は、利用者ごとにサービスの復旧予定時刻を求めた結果の例を示す説明図である。
 最後に、復旧時間提示手段207は、予測されたサービス復旧時間を利用者に提示する。このような処理を行うことで、本発明の目的を達成できる。
 第1の実施例では、利用者A~Fが標準タイプの仮想マシンを利用することを前提としていた。第2の実施例では、この標準タイプの仮想マシンが複数の利用者で共有され、排他的に利用されるタイプの資源であるものとする。すなわち、第2の実施例では、より正確な復旧時間の予測を行うため、仮想マシンの予約を考慮した復旧時間の予測を行う。仮想マシンの予約を考慮することで、より正確な復旧時間の予測が可能になる。なお、第2の実施例は、第2の実施形態に対応する。
 図14は、仮想マシンの予約情報の一例を示す説明図である。ここでは、図5に例示するフローチャートの手順に従い、サービス復旧時間が予測されるとする。また、本実施例では、利用者Aから利用者Fへの順番で計算機資源を利用する予約が行われるとする。
 図12に例示する復旧スケジュールによれば、12:30の時点で4台の仮想マシンが復旧する。この仮想マシンは、利用者A、利用者Bおよび利用者Cのみ利用可能である。また、図12に例示する復旧スケジュールによれば、13:00の時点でさらに4台の仮想マシンが復旧する。この仮想マシンは、利用者C、利用者Dおよび利用者Eによって予約される。
 予約情報に基づいて復旧時間を予測すると、仮想マシンの復旧予測時間が変化する。そのため、本実施例における方法で予測したサービス復旧時間と、第1の実施例における方法で予測したサービス復旧時間とは異なる。図15は、利用者ごとにサービスの復旧予定時刻を求めた結果の他の例を示す説明図である。
 図15に例示するサービス復旧予定時刻と図13に例示するサービス復旧予定時刻とを比較すると、利用者Eと利用者Fのサービス復旧予定時刻が変化していることが分かる。このように、予約情報も参照して復旧時間の予測を行うことにより、より詳細で確実な復旧時間を各利用者に提示できる。
 次に、本発明の最小構成例を説明する。図16は、本発明によるクラウドサービス復旧時間予測システムの最小構成の例を示すブロック図である。本発明によるクラウドサービス復旧時間予測システムは、クラウドサービス(例えば、クラウドサービス提供部1)で提供される複数種類の計算機資源(例えば、仮想マシン101、ストレージ102)またはそのクラウドサービスで提供されるサービスである提供サービス(例えば、サービス提供部103)で障害が発生した場合のその計算機資源または提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、その計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段81(例えば、資源復旧スケジュール記憶部204)と、各利用者がクラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールをその利用者ごとに記憶する資源利用プロフィール記憶手段82(例えば、資源利用プロフィール記憶部206)と、利用者がクラウドサービスを利用する際に使用する計算機資源または提供サービスを資源利用プロフィールから特定し、復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、その利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測手段83(例えば、復旧時間予測手段205)と、予測されたサービス復旧時間を利用者に提示する復旧時間提示手段84(例えば、復旧時間提示手段207)とを備えている。
 そのような構成により、複数種類の計算機資源を用いて提供されるクラウドサービスの障害によって利用者の要求するサービスが利用できなくなった場合に、クラウドサービスが復旧する時間を利用者ごとに予測できる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段と、各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段と、利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを前記資源利用プロフィールから特定し、前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測手段と、予測されたサービス復旧時間を前記利用者に提示する復旧時間提示手段とを備えたことを特徴とするクラウドサービス復旧時間予測システム。
(付記2)各計算機資源または提供サービスの障害状況を記憶する障害状況記憶手段と、前記障害状況を調査して前記障害状況記憶手段に記憶させる障害状況調査手段と、前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、当該復旧スケジュールを復旧スケジュール記憶手段に記憶させる復旧スケジュール生成手段とを備えた付記1記載のクラウドサービス復旧時間予測システム。
(付記3)複数の利用者で共有され当該利用者間で排他的に利用される計算機資源の予約開始時間を、当該計算機資源の利用者と対応づけた情報である予約情報を資源予約情報記憶手段に記憶する資源予約情報登録手段を備え、前記資源予約情報登録手段は、前記資源予約情報記憶手段に記憶されている予約情報に基づいて、各利用者が利用する前記計算機資源が予約可能か否か判断し、前記復旧スケジュールに基づいて、予約可能な前記計算機資源の復旧時刻を予約開始時刻とする前記予約情報を資源予約情報記憶手段に記憶し、復旧時間予測手段は、復旧スケジュールおよび前記予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する付記1または付記2記載のクラウドサービス復旧時間予測システム。
(付記4)計算機資源間の依存関係または利用者による資源復旧要求に基づく復旧スケジュールの制約条件を規定した復旧スケジュール制約情報を記憶する復旧スケジュール制約情報記憶手段と、前記復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索し、当該復旧スケジュールで資源復旧スケジュール記憶手段に記憶された対応する復旧スケジュールを更新する復旧スケジュール最適化手段を備え、復旧時間予測手段は、更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測する付記1から付記3のうちのいずれか1つに記載のクラウドサービス復旧時間予測システム。
(付記5)クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するクラウドサービス復旧時間予測方法であって、各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、当該資源利用プロフィール記憶手段に記憶された当該資源利用プロフィールから、利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、前記計算機資源または前記提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、抽出した前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測し、予測されたサービス復旧時間を前記利用者に提示することを特徴とするクラウドサービス復旧時間予測方法。
(付記6)各計算機資源または提供サービスの障害状況を調査して障害状況記憶手段に記憶させ、前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、前記復旧スケジュールを復旧スケジュール記憶手段に記憶させる付記5記載のクラウドサービス復旧時間予測方法。
(付記7)複数の利用者で共有され当該利用者間で排他的に利用される計算機資源の予約開始時間を、当該計算機資源の利用者と対応づけた情報である予約情報を資源予約情報記憶手段に記憶する際、当該資源予約情報記憶手段に記憶されている前記予約情報に基づいて、各利用者が利用する前記計算機資源が予約可能か否か判断し、復旧スケジュールに基づいて、予約可能な前記計算機資源の復旧時刻を予約開始時刻とする予約情報を前記資源予約情報記憶手段に記憶し、復旧スケジュールおよび前記資源予約情報記憶手段に記憶された予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する付記5または付記6記載のクラウドサービス復旧時間予測方法。
(付記8)計算機資源間の依存関係または利用者による資源復旧要求に基づく復旧スケジュールの制約条件を規定した復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索し、前記復旧スケジュールで資源復旧スケジュール記憶手段に記憶された対応する復旧スケジュールを更新し、更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測する付記5から付記7のうちのいずれか1つに記載のクラウドサービス復旧時間予測方法。
(付記9)クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するコンピュータに適用されるクラウドサービス復旧時間予測用プログラムであって、前記コンピュータに、各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、当該資源利用プロフィール記憶手段に記憶された当該資源利用プロフィールから、利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、前記計算機資源または前記提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、抽出した前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測処理、および、予測されたサービス復旧時間を前記利用者に提示する復旧時間提示処理を実行させるためのクラウドサービス復旧時間予測用プログラム。
(付記10)コンピュータに、各計算機資源または提供サービスの障害状況を調査して障害状況記憶手段に記憶させる障害状況調査処理、および、前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、当該復旧スケジュールを復旧スケジュール記憶手段に記憶させる復旧スケジュール生成処理を実行させる付記10記載のクラウドサービス復旧時間予測用プログラム。
(付記11)コンピュータに、複数の利用者で共有され当該利用者間で排他的に利用される計算機資源の予約開始時間を、当該計算機資源の利用者と対応づけた情報である予約情報を資源予約情報記憶手段に記憶する際、当該資源予約情報記憶手段に記憶されている前記予約情報に基づいて、各利用者が利用する前記計算機資源が予約可能か否か判断し、復旧スケジュールに基づいて、予約可能な前記計算機資源の復旧時刻を予約開始時刻とする予約情報を前記資源予約情報記憶手段に記憶する資源予約情報登録処理を実行させ、復旧時間予測処理で、復旧スケジュールおよび前記資源予約情報記憶手段に記憶された予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測させる付記9または付記10記載のクラウドサービス復旧時間予測用プログラム。
(付記12)コンピュータに、計算機資源間の依存関係または利用者による資源復旧要求に基づく復旧スケジュールの制約条件を規定した復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索し、当該復旧スケジュールで資源復旧スケジュール記憶手段に記憶された対応する復旧スケジュールを更新する復旧スケジュール最適化処理を実行させ、復旧時間予測処理で、更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測させる付記9から付記11のうちのいずれか1つに記載のクラウドサービス復旧時間予測用プログラム。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年9月8日に出願された日本特許出願2011-196064を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、複数の計算機資源の故障を伴うシステム障害時に、サービス利用者ごとにサービス復旧時間を予測するクラウドサービス復旧時間予測システムに好適に適用される。
 1 クラウドサービス提供部
 101 仮想マシン
 102 ストレージ
 103 サービス提供部
 2 復旧時間予測システム
 201 障害状況調査手段
 202 障害状況記憶部
 203 復旧スケジュール生成手段
 204 資源復旧スケジュール記憶部
 205 復旧時間予測手段
 206 資源利用プロフィール記憶部
 207 復旧時間提示手段
 208 資源予約情報記憶部
 209 復旧スケジュール最適化手段
 210 復旧スケジュール制約情報記憶部
 3 クラウドサービスクライアント

Claims (10)

  1.  クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段と、
     各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段と、
     利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを前記資源利用プロフィールから特定し、前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測手段と、
     予測されたサービス復旧時間を前記利用者に提示する復旧時間提示手段とを備えた
     ことを特徴とするクラウドサービス復旧時間予測システム。
  2.  各計算機資源または提供サービスの障害状況を記憶する障害状況記憶手段と、
     前記障害状況を調査して前記障害状況記憶手段に記憶させる障害状況調査手段と、
     前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、当該復旧スケジュールを復旧スケジュール記憶手段に記憶させる復旧スケジュール生成手段とを備えた
     請求項1記載のクラウドサービス復旧時間予測システム。
  3.  複数の利用者で共有され当該利用者間で排他的に利用される計算機資源の予約開始時間を、当該計算機資源の利用者と対応づけた情報である予約情報を資源予約情報記憶手段に記憶する資源予約情報登録手段を備え、
     前記資源予約情報登録手段は、前記資源予約情報記憶手段に記憶されている予約情報に基づいて、各利用者が利用する前記計算機資源が予約可能か否か判断し、前記復旧スケジュールに基づいて、予約可能な前記計算機資源の復旧時刻を予約開始時刻とする前記予約情報を資源予約情報記憶手段に記憶し、
     復旧時間予測手段は、復旧スケジュールおよび前記予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する
     請求項1または請求項2記載のクラウドサービス復旧時間予測システム。
  4.  計算機資源間の依存関係または利用者による資源復旧要求に基づく復旧スケジュールの制約条件を規定した復旧スケジュール制約情報を記憶する復旧スケジュール制約情報記憶手段と、
     前記復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索し、当該復旧スケジュールで資源復旧スケジュール記憶手段に記憶された対応する復旧スケジュールを更新する復旧スケジュール最適化手段を備え、
     復旧時間予測手段は、更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測する
     請求項1から請求項3のうちのいずれか1項に記載のクラウドサービス復旧時間予測システム。
  5.  クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するクラウドサービス復旧時間予測方法であって、
     各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、当該資源利用プロフィール記憶手段に記憶された当該資源利用プロフィールから、利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、
     前記計算機資源または前記提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、
     抽出した前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測し、
     予測されたサービス復旧時間を前記利用者に提示する
     ことを特徴とするクラウドサービス復旧時間予測方法。
  6.  各計算機資源または提供サービスの障害状況を調査して障害状況記憶手段に記憶させ、
     前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、
     前記復旧スケジュールを復旧スケジュール記憶手段に記憶させる
     請求項5記載のクラウドサービス復旧時間予測方法。
  7.  複数の利用者で共有され当該利用者間で排他的に利用される計算機資源の予約開始時間を、当該計算機資源の利用者と対応づけた情報である予約情報を資源予約情報記憶手段に記憶する際、当該資源予約情報記憶手段に記憶されている前記予約情報に基づいて、各利用者が利用する前記計算機資源が予約可能か否か判断し、復旧スケジュールに基づいて、予約可能な前記計算機資源の復旧時刻を予約開始時刻とする予約情報を前記資源予約情報記憶手段に記憶し、
     復旧スケジュールおよび前記資源予約情報記憶手段に記憶された予約情報に基づいて、利用者が利用するクラウドサービスの復旧時間を予測する
     請求項5または請求項6記載のクラウドサービス復旧時間予測方法。
  8.  計算機資源間の依存関係または利用者による資源復旧要求に基づく復旧スケジュールの制約条件を規定した復旧スケジュール制約情報が示す制約のもとで、目的とする指標を最大化または最小化する復旧スケジュールの候補を探索し、
     前記復旧スケジュールで資源復旧スケジュール記憶手段に記憶された対応する復旧スケジュールを更新し、
     更新された復旧スケジュールに基づいて、利用者が利用するクラウドサービスの復旧時間を予測する
     請求項5から請求項7のうちのいずれか1項に記載のクラウドサービス復旧時間予測方法。
  9.  クラウドサービスで提供される複数種類の計算機資源または当該クラウドサービスで提供されるサービスである提供サービスで障害が発生した場合の復旧時間を予測するコンピュータに適用されるクラウドサービス復旧時間予測用プログラムであって、
     前記コンピュータに、
     各利用者が前記クラウドサービスを利用する際に使用する計算機資源を定めた資源利用プロフィールを当該利用者ごとに記憶する資源利用プロフィール記憶手段を参照し、当該資源利用プロフィール記憶手段に記憶された当該資源利用プロフィールから、利用者が前記クラウドサービスを利用する際に使用する計算機資源または提供サービスを特定し、前記計算機資源または前記提供サービスで障害が発生した場合の当該計算機資源または当該提供サービスを復旧させるスケジュールを規定した復旧スケジュールを、当該計算機資源の種類または提供サービスごとに記憶する復旧スケジュール記憶手段から抽出し、抽出した前記復旧スケジュールに基づいて、特定された全ての計算機資源または提供サービスが復旧する時間を予測することにより、当該利用者が利用するクラウドサービスの復旧時間を予測する復旧時間予測処理、および、
     予測されたサービス復旧時間を前記利用者に提示する復旧時間提示処理
     を実行させるためのクラウドサービス復旧時間予測用プログラム。
  10.  コンピュータに、
     各計算機資源または提供サービスの障害状況を調査して障害状況記憶手段に記憶させる障害状況調査処理、および、
     前記障害状況記憶手段に記憶された障害状況に基づいて復旧スケジュールを生成し、当該復旧スケジュールを復旧スケジュール記憶手段に記憶させる復旧スケジュール生成処理を実行させる
     請求項9記載のクラウドサービス復旧時間予測用プログラム。
PCT/JP2012/004906 2011-09-08 2012-08-02 クラウドサービス復旧時間予測システム、方法およびプログラム WO2013035243A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013529882A JP5370624B2 (ja) 2011-09-08 2012-08-02 クラウドサービス復旧時間予測システム、方法およびプログラム
US13/981,249 US8904242B2 (en) 2011-09-08 2012-08-02 Cloud service recovery time prediction system, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-196064 2011-09-08
JP2011196064 2011-09-08

Publications (1)

Publication Number Publication Date
WO2013035243A1 true WO2013035243A1 (ja) 2013-03-14

Family

ID=47831721

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004906 WO2013035243A1 (ja) 2011-09-08 2012-08-02 クラウドサービス復旧時間予測システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US8904242B2 (ja)
JP (1) JP5370624B2 (ja)
WO (1) WO2013035243A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015230522A (ja) * 2014-06-03 2015-12-21 Pfuテクニカルコミュニケーションズ株式会社 情報処理装置、診断順序決定方法及び制御プログラム
JP2017045079A (ja) * 2015-08-24 2017-03-02 株式会社日立製作所 クラウド管理方法及びクラウド管理システム
CN107003926A (zh) * 2014-12-25 2017-08-01 歌乐株式会社 故障信息提供服务器、故障信息提供方法
JP2021086604A (ja) * 2019-11-29 2021-06-03 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 異常サーバのサービス処理方法および装置

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8028090B2 (en) 2008-11-17 2011-09-27 Amazon Technologies, Inc. Request routing utilizing client location information
US7991910B2 (en) 2008-11-17 2011-08-02 Amazon Technologies, Inc. Updating routing information based on client location
US8606996B2 (en) 2008-03-31 2013-12-10 Amazon Technologies, Inc. Cache optimization
US7962597B2 (en) 2008-03-31 2011-06-14 Amazon Technologies, Inc. Request routing based on class
US7970820B1 (en) 2008-03-31 2011-06-28 Amazon Technologies, Inc. Locality based content distribution
US8321568B2 (en) 2008-03-31 2012-11-27 Amazon Technologies, Inc. Content management
US8447831B1 (en) 2008-03-31 2013-05-21 Amazon Technologies, Inc. Incentive driven content delivery
US9407681B1 (en) 2010-09-28 2016-08-02 Amazon Technologies, Inc. Latency measurement in resource requests
US8782236B1 (en) 2009-06-16 2014-07-15 Amazon Technologies, Inc. Managing resources using resource expiration data
US8397073B1 (en) 2009-09-04 2013-03-12 Amazon Technologies, Inc. Managing secure content in a content delivery network
US9495338B1 (en) 2010-01-28 2016-11-15 Amazon Technologies, Inc. Content distribution network
US8468247B1 (en) 2010-09-28 2013-06-18 Amazon Technologies, Inc. Point of presence management in request routing
US9003035B1 (en) 2010-09-28 2015-04-07 Amazon Technologies, Inc. Point of presence management in request routing
US9712484B1 (en) 2010-09-28 2017-07-18 Amazon Technologies, Inc. Managing request routing information utilizing client identifiers
US10958501B1 (en) 2010-09-28 2021-03-23 Amazon Technologies, Inc. Request routing information based on client IP groupings
US8452874B2 (en) 2010-11-22 2013-05-28 Amazon Technologies, Inc. Request routing processing
US10467042B1 (en) 2011-04-27 2019-11-05 Amazon Technologies, Inc. Optimized deployment based upon customer locality
US10623408B1 (en) 2012-04-02 2020-04-14 Amazon Technologies, Inc. Context sensitive object management
US9154551B1 (en) 2012-06-11 2015-10-06 Amazon Technologies, Inc. Processing DNS queries to identify pre-processing information
US9323577B2 (en) * 2012-09-20 2016-04-26 Amazon Technologies, Inc. Automated profiling of resource usage
US10205698B1 (en) 2012-12-19 2019-02-12 Amazon Technologies, Inc. Source-dependent address resolution
US9251115B2 (en) * 2013-03-07 2016-02-02 Citrix Systems, Inc. Dynamic configuration in cloud computing environments
US9183034B2 (en) * 2013-05-16 2015-11-10 Vmware, Inc. Managing availability of virtual machines in cloud computing services
US9223672B1 (en) * 2013-09-24 2015-12-29 Intuit Inc. Method and system for providing error repair status data to an application user
WO2015181937A1 (ja) * 2014-05-30 2015-12-03 株式会社日立製作所 仮想サーバのバックアップスケジュール作成方法
JP6369235B2 (ja) * 2014-09-02 2018-08-08 富士通株式会社 ストレージ制御装置およびストレージ制御プログラム
JP2016057795A (ja) * 2014-09-09 2016-04-21 富士通株式会社 ストレージ制御装置,ストレージシステム及びストレージ制御プログラム
US10009248B2 (en) * 2014-12-12 2018-06-26 International Business Machines Corporation System with on-demand state for applications
US10097448B1 (en) 2014-12-18 2018-10-09 Amazon Technologies, Inc. Routing mode and point-of-presence selection service
US10225326B1 (en) 2015-03-23 2019-03-05 Amazon Technologies, Inc. Point of presence based data uploading
US9832141B1 (en) 2015-05-13 2017-11-28 Amazon Technologies, Inc. Routing based request correlation
US10270878B1 (en) 2015-11-10 2019-04-23 Amazon Technologies, Inc. Routing for origin-facing points of presence
US10075551B1 (en) 2016-06-06 2018-09-11 Amazon Technologies, Inc. Request management for hierarchical cache
US10110694B1 (en) 2016-06-29 2018-10-23 Amazon Technologies, Inc. Adaptive transfer rate for retrieving content from a server
US10061652B2 (en) * 2016-07-26 2018-08-28 Microsoft Technology Licensing, Llc Fault recovery management in a cloud computing environment
US10616250B2 (en) 2016-10-05 2020-04-07 Amazon Technologies, Inc. Network addresses with encoded DNS-level information
US10831549B1 (en) 2016-12-27 2020-11-10 Amazon Technologies, Inc. Multi-region request-driven code execution system
US10938884B1 (en) 2017-01-30 2021-03-02 Amazon Technologies, Inc. Origin server cloaking using virtual private cloud network environments
US10379898B2 (en) 2017-03-24 2019-08-13 International Business Machines Corporation Virtual machine consolidation
US11075987B1 (en) 2017-06-12 2021-07-27 Amazon Technologies, Inc. Load estimating content delivery network
US10447648B2 (en) 2017-06-19 2019-10-15 Amazon Technologies, Inc. Assignment of a POP to a DNS resolver based on volume of communications over a link between client devices and the POP
US10409664B2 (en) 2017-07-27 2019-09-10 International Business Machines Corporation Optimized incident management using hierarchical clusters of metrics
US10742593B1 (en) 2017-09-25 2020-08-11 Amazon Technologies, Inc. Hybrid content request routing system
US10558533B2 (en) * 2017-12-07 2020-02-11 Red Hat, Inc. Reducing service disruptions in a micro-service environment
US10592578B1 (en) 2018-03-07 2020-03-17 Amazon Technologies, Inc. Predictive content push-enabled content delivery network
US10931674B2 (en) * 2018-04-30 2021-02-23 Paypal, Inc. Detecting whether to implement one or more security measures on a shared resource
US10909003B2 (en) * 2018-08-30 2021-02-02 Sap Se Decommissioning disaster recovery for a cloud based application
US20200151010A1 (en) * 2018-11-10 2020-05-14 Nutanix, Inc. Scheduling of fixed number of non-sharable resources
US10862852B1 (en) 2018-11-16 2020-12-08 Amazon Technologies, Inc. Resolution of domain name requests in heterogeneous network environments
US11025747B1 (en) 2018-12-12 2021-06-01 Amazon Technologies, Inc. Content request pattern-based routing system
US11500733B2 (en) 2021-03-19 2022-11-15 International Business Machines Corporation Volatile database caching in a database accelerator
US11797570B2 (en) * 2021-03-19 2023-10-24 International Business Machines Corporation Asynchronous persistency of replicated data changes in a database accelerator
WO2023198276A1 (en) * 2022-04-12 2023-10-19 Telefonaktiebolaget Lm Ericsson (Publ) Handling failure of an application instance
US20230325280A1 (en) * 2022-04-12 2023-10-12 Citrix Systems, Inc. System and method to predict session failure in virtual applications and desktops deployment
US11977459B2 (en) * 2022-06-02 2024-05-07 Rubrik, Inc. Techniques for accelerated data recovery

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108728A (ja) * 2000-10-02 2002-04-12 Ntt Docomo Inc 障害情報の掲載方法およびプロバイダ設備
JP2003179614A (ja) * 2002-07-29 2003-06-27 Matsushita Electric Ind Co Ltd 通信制御装置及び通信制御方法
JP2006313399A (ja) * 2005-05-06 2006-11-16 Fujitsu Ltd 保守業務支援プログラム
JP2007041646A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd クライアント−サーバ型システム、並びに、その管理方法および管理プログラム
JP2009211618A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害自動復旧装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3958710B2 (ja) 2003-06-06 2007-08-15 日本電信電話株式会社 障害通知方式及び障害通知方法
GB2409297A (en) * 2003-12-16 2005-06-22 Ibm Method of assessing the impact of the failure of a component on the temporal activity of the services supported by the component
JP4717923B2 (ja) 2008-12-17 2011-07-06 株式会社日立製作所 ストレージシステム、データ復旧可能時刻の推定値の算出方法、および、管理計算機
US7962797B2 (en) * 2009-03-20 2011-06-14 Microsoft Corporation Automated health model generation and refinement
US8887006B2 (en) * 2011-04-04 2014-11-11 Microsoft Corporation Proactive failure handling in database services
US9152487B2 (en) * 2011-09-30 2015-10-06 Microsoft Technology Licensing, Llc Service outage details in an error message

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108728A (ja) * 2000-10-02 2002-04-12 Ntt Docomo Inc 障害情報の掲載方法およびプロバイダ設備
JP2003179614A (ja) * 2002-07-29 2003-06-27 Matsushita Electric Ind Co Ltd 通信制御装置及び通信制御方法
JP2006313399A (ja) * 2005-05-06 2006-11-16 Fujitsu Ltd 保守業務支援プログラム
JP2007041646A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd クライアント−サーバ型システム、並びに、その管理方法および管理プログラム
JP2009211618A (ja) * 2008-03-06 2009-09-17 Nec Corp 障害自動復旧装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Fujitsu ga Un'yo Kanri Soft no Shin Seihin de 'Saidai 70 % Un'yo Fuka o Keigen suru'", 4 November 2004 (2004-11-04) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015230522A (ja) * 2014-06-03 2015-12-21 Pfuテクニカルコミュニケーションズ株式会社 情報処理装置、診断順序決定方法及び制御プログラム
CN107003926A (zh) * 2014-12-25 2017-08-01 歌乐株式会社 故障信息提供服务器、故障信息提供方法
JP2017045079A (ja) * 2015-08-24 2017-03-02 株式会社日立製作所 クラウド管理方法及びクラウド管理システム
JP2021086604A (ja) * 2019-11-29 2021-06-03 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 異常サーバのサービス処理方法および装置
JP7039652B2 (ja) 2019-11-29 2022-03-22 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 異常サーバのサービス処理方法および装置
US11734057B2 (en) 2019-11-29 2023-08-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing a service of an abnormal server

Also Published As

Publication number Publication date
US8904242B2 (en) 2014-12-02
JP5370624B2 (ja) 2013-12-18
US20130305083A1 (en) 2013-11-14
JPWO2013035243A1 (ja) 2015-03-23

Similar Documents

Publication Publication Date Title
JP5370624B2 (ja) クラウドサービス復旧時間予測システム、方法およびプログラム
JP5948257B2 (ja) 情報処理システム監視装置、監視方法、及び監視プログラム
US9329909B1 (en) Dynamically modifying a cluster of computing nodes used for distributed execution of a program
US9135076B2 (en) Automated capacity aware provisioning
EP2561444B1 (en) Automated recovery and escalation in complex distributed applications
US9965262B2 (en) Application bundle pulling
US10389850B2 (en) Managing redundancy among application bundles
US10523518B2 (en) Application bundle preloading
US10152516B2 (en) Managing staleness latency among application bundles
CN102799485B (zh) 历史数据的迁移方法及装置
US9692654B2 (en) Systems and methods for correlating derived metrics for system activity
US10389794B2 (en) Managing redundancy among application bundles
JPWO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
CN104216763A (zh) 用于解决在受管基础架构中发生的事件的方法和系统
JP3693184B2 (ja) コンピュータネットワーク管理システム
CN115812298A (zh) 供应故障的区块链管理
KR102373144B1 (ko) 디바이스 관리 서버 및 방법
JP2015103149A (ja) 管理システムおよび管理システムの制御方法
Xia et al. A Markov decision process approach for optimal data backup scheduling
Abderrahim et al. The three-dimensional model for dependability integration in cloud computing
Birje et al. Cloud monitoring system: a review
Bratosin et al. A reference model for grid architectures and its analysis
JP6502783B2 (ja) 一括管理システム、一括管理方法およびプログラム
Leong et al. A case study-cost of preemption for urgent computing on supermuc
JP2012124829A (ja) 情報処理プログラム、中継装置及び中継管理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12830558

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013529882

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13981249

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12830558

Country of ref document: EP

Kind code of ref document: A1