WO2014103071A1 - 対処方法作成プログラム、対処方法作成方法、及び情報処理装置 - Google Patents

対処方法作成プログラム、対処方法作成方法、及び情報処理装置 Download PDF

Info

Publication number
WO2014103071A1
WO2014103071A1 PCT/JP2012/084222 JP2012084222W WO2014103071A1 WO 2014103071 A1 WO2014103071 A1 WO 2014103071A1 JP 2012084222 W JP2012084222 W JP 2012084222W WO 2014103071 A1 WO2014103071 A1 WO 2014103071A1
Authority
WO
WIPO (PCT)
Prior art keywords
coping method
coping
usefulness
new
tenant
Prior art date
Application number
PCT/JP2012/084222
Other languages
English (en)
French (fr)
Inventor
裕司 溝渕
松本 安英
小高 敏裕
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to EP12890969.4A priority Critical patent/EP2940585A4/en
Priority to PCT/JP2012/084222 priority patent/WO2014103071A1/ja
Priority to JP2014554046A priority patent/JP6119767B2/ja
Publication of WO2014103071A1 publication Critical patent/WO2014103071A1/ja
Priority to US14/741,912 priority patent/US9866440B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0859Retrieval of network configuration; Tracking network configuration history by keeping history of different configuration generations or by rolling back to previous configuration versions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events

Definitions

  • the present application relates to a handling method creation program, a handling method creation method, and an information processing apparatus for creating a handling method for system operation and the like.
  • cloud computing is known in which machine resources can be procured as needed when needed. Since cloud computing can realize cost reduction by sharing resources among a plurality of people, it is expected that use by various users will be promoted.
  • the form of individual operation for each tenant for example, a system provided for each cloud user
  • various countermeasures are created in advance, and automatic operation is performed using the prepared countermeasures.
  • the coping method is, for example, various rules for automatic operation, and describes what kind of failure, problem matter, etc. (event) to deal with, etc. .
  • a method of preparing a coping method in which a set of operation methods necessary for operation are prepared in advance, and an operation method using a coping graph.
  • the operation method using the countermeasure graph is a method of visualizing the causal relationship of events occurring in the system as a countermeasure graph, and using the graph to cope with the event observed in the actual system.
  • the preparation of the coping graph is, for example, linking the causal relationship between the past coping history and the event by a predetermined method. To do. Also, in recent years, for the tenant who performs configuration changes or new deployments that affect the system operation method, the countermeasure graph causal relationship pair is divided and managed in order to create a countermeasure immediately and perform automatic operation. Techniques are known. As a specific coping method, for example, a coping element diagram is created, or a coping graph for a new application (hereinafter, “application” is abbreviated as “application”) is created.
  • the coping element diagram divides the coping plan graph of all apps on the cloud for each set of causal relationships, and manages a set for each application characteristic having each causal relationship as an element (coping graph element).
  • the countermeasure graph for a new application acquires a set of countermeasure graph elements corresponding to the characteristics of the new application and connects the causal relationship.
  • the present invention has been made in view of the above problems, and aims to create an appropriate coping method for system operation and the like.
  • the coping method creation program in one aspect has a predetermined similarity with the new system based on the similarity between the system configuration of one or a plurality of existing systems and the system configuration of a new system that has been newly created or changed in configuration.
  • Extract one or more existing systems A computer is caused to execute a process of creating a candidate event handling method for the new system using a handling method for a predetermined event corresponding to the extracted existing system.
  • FIG. 1 is a diagram illustrating an example of an operation coping method creation system according to the present embodiment.
  • An operation coping method creation system 10 shown in FIG. 1 includes an information processing apparatus 11, a coping history database (hereinafter, “database” is referred to as “DB”) 12, an administrator terminal 13, and a cloud system 14.
  • the information processing apparatus 11, the handling history DB 12, the administrator terminal 13, and the cloud system 14 are connected in a state where data can be transmitted and received by a communication network 15 represented by the Internet, for example.
  • the information processing apparatus 11 creates a quick and appropriate handling method for a new tenant (new system) that performs, for example, new creation or configuration change that affects the system operation method, and the tenant is created using the created handling method. Let it operate automatically.
  • the tenant is, for example, an operation mode for each user who uses the cloud system 14 (for example, store information (type and number of servers, arrangement information of each device, access pattern, application to be used, etc.). Including))).
  • the information processing apparatus 11 is one or more having a predetermined similarity with the new system based on the similarity between the system configuration of one or more existing systems and the system configuration of a new system that is newly created or changed in configuration. Extract existing systems.
  • the information processing apparatus 11 creates a candidate event handling method for the new system using a handling method for a predetermined event corresponding to the extracted existing system.
  • the existing system may be a system realized by cloud computing included in the cloud system 14 or may be another system connected by the communication network 15.
  • the information processing apparatus 11 obtains the usefulness of each coping method based on history information such as coping methods (coping results) implemented in the past with one or a plurality of existing systems.
  • the usefulness is, for example, an index indicating whether or not a coping method used in the existing system can be used in the new system.
  • the information processing apparatus 11 adopts a countermeasure method with a high usefulness (for example, a predetermined threshold value or more) used in the existing system as a countermeasure method of the new system, and copes with the new system (for example, countermeasures). Graph).
  • the information processing apparatus 11 evaluates the coping method using the usefulness, so that effective coping can be included in the coping method immediately after the release of the new system, and efficient and appropriate operation is possible. become.
  • the information processing apparatus 11 can use, for example, a general-purpose personal computer (PC), a server, or the like, but is not limited thereto, and may be an information communication terminal such as a tablet terminal or a smartphone.
  • PC personal computer
  • server or the like, but is not limited thereto, and may be an information communication terminal such as a tablet terminal or a smartphone.
  • the handling history DB 12 stores handling history information for past operations.
  • the handling history DB 12 is a collection of various types of information, and is systematically configured so that various types of stored information can be searched and extracted using, for example, keywords. Further, when a coping method for the new system is determined, the coping history DB 12 is updated with the information.
  • the handling history DB 12 may be provided in a state where it can be connected via the communication network 15 as shown in FIG. 1, or may be provided inside the information processing apparatus 11.
  • the administrator terminal 13 is a terminal used by an administrator who manages the entire operation coping method creation system 10 or each tenant.
  • the administrator terminal 13 transmits the configuration information of the new system to the information processing apparatus 11 or the cloud system 14 using, for example, a browser function or a command line, and creates an operation handling method for the new system.
  • Examples of the administrator terminal 13 include, but are not limited to, an information communication terminal such as a PC, a server, a tablet terminal, and a smartphone.
  • the cloud system 14 is a use form of a computer based on, for example, the Internet included in the communication network 15, and is a cloud environment for realizing cloud computing and the like.
  • the cloud system 14 includes, for example, a function as a data center that manages an existing system operated by one or a plurality of users.
  • the cloud system 14 can also manage tenant information for each user to be used. The user can use the intended operational computer processing as a service via the communication network 15 by the cloud system 14.
  • the cloud system 14 illustrated in FIG. 1 includes the tenant operation management server 21, the application server 22, the DB server 23, and the like as an example, but the number, type, and the like are not limited thereto. .
  • the tenant operation management server 21 manages, for example, the operation mode (tenant information), operation status, operation history, and the like of an existing system for each user who uses the cloud system 14.
  • the tenant operation management server 21 can determine the configuration of the new system and the like upon receiving a request for deployment of the new system from the administrator terminal 13 or the like.
  • the application server 22 executes a corresponding process using a predetermined application (for example, a web application) according to a service or system requested from the information processing apparatus 11 or the administrator terminal 13 or the like.
  • the DB server 23 stores various data such as execution history, input data, and process execution results executed on the cloud system 14.
  • the cloud system 14 can receive a service request from the information processing apparatus 11, the administrator terminal 13, etc., and perform a predetermined process (business, operation) corresponding to the received request content.
  • a tenant administrator who wants to deploy a new system in the cloud system 14 makes a deployment request for the configuration of the new system from the administrator terminal 13.
  • This request content is received by the tenant operation management server 21, and a request for creating a handling method for the new system is transmitted from the tenant operation management server 21 to the information processing apparatus 11.
  • the deployment request from the administrator terminal 13 may be transmitted directly to the information processing apparatus 11.
  • the information processing apparatus 11 extracts a tenant as a sample from existing tenants deployed in the cloud system 14, collects them for each identical handling method from the handling history aggregated from the extracted tenants, and determines the usefulness of each handling type Is calculated. Further, the information processing apparatus 11 creates a coping method to be adopted in the new system based on the calculated usefulness. As a result, the created countermeasure is used for subsequent operations of the new system.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the information processing apparatus.
  • the information processing apparatus 11 shown in FIG. 2 includes an input unit 31, an output unit 32, a storage unit 33, a sample extraction unit (extraction unit) 34, a usefulness calculation unit 35, a coping method creation unit 36, a screen A generation unit 37, a transmission / reception unit 38, and a control unit 39 are included.
  • the input means 31 accepts inputs such as the start and end of various instructions related to operation handling method creation processing from the user or the like who uses the information processing apparatus 11, input of setting information, and the like.
  • the input means 31 is, for example, a keyboard or a mouse.
  • the input means 31 may be input by voice or the like. In that case, the input means 31 has voice input means such as a microphone.
  • the output unit 32 outputs the content input by the input unit 31 and the content executed based on the input content.
  • the output unit 32 includes a display unit such as a display if output is performed by screen display, and an audio output unit such as a speaker if output is performed using audio.
  • the storage unit 33 stores various information necessary for the present embodiment.
  • the storage unit 33 can store various setting information for executing this embodiment, for example.
  • the storage unit 33 can read out various stored information at a predetermined timing as necessary, and can write an execution result related to the operation coping method creation process.
  • the storage means 33 also has a database function that is systematically configured so that information corresponding to the keyword can be extracted from the stored information by searching using, for example, a keyword. It may be. In that case, the storage unit 33 may store the above-described handling history DB 12 or the like.
  • the sample extraction means 34 extracts system configuration information regarding all tenants or a predetermined number of tenants selected according to a predetermined condition among existing tenants (existing systems) managed on the cloud system 14.
  • the system configuration of all tenants managed by the cloud system 14 and the system configuration of the new system may be one or more tenants having a predetermined similarity. In this case, for example, one or more tenants having high similarity with the new system are selected.
  • a predetermined condition it is good also as the predetermined number of tenants extracted at random among all the tenants managed by the cloud system 14, for example.
  • the predetermined condition may be a tenant that is newly added within a predetermined period or whose configuration is changed.
  • the system configuration information includes, for example, at least one of the type and number of servers for tenants (stores), device arrangement information, access patterns, and applications to be used, but is not limited thereto.
  • the sample extraction means 34 creates a list of countermeasures implemented in the past for each extracted tenant, or extracts a countermeasure history stored in the countermeasure history DB 12.
  • the usefulness calculating means 35 calculates the usefulness of each coping method from the system configuration information extracted by the sample extracting means 34 and the coping history. In addition, the usefulness calculating means 35 evaluates each coping method based on the calculated usefulness, and determines the coping method to be adopted in the new system.
  • the usefulness can be calculated using, for example, a predetermined evaluation function, but is not limited to this.
  • the coping method creation means 36 creates a coping method for the new system based on the coping method determined to be adopted by the usefulness calculation means 35 for the new system. For example, the coping method creation unit 36 connects a pair of event causal relationships based on a predetermined condition from the coping method information obtained by the usefulness calculation unit 35. In addition, the coping method creation means 36 creates a coping graph candidate for each event such as a failure that occurs in the operation of the target system by linking the causal relationship with the coping. Note that the content created by the handling method creation unit 36 is not limited to the handling graph.
  • the screen generation unit 37 generates a development environment (editor) screen for creating an operation coping method in this embodiment, an input screen for various setting information, and a screen for displaying contents after the operation coping method is created. .
  • the screen generated by the screen generation unit 37 is output to the display of the output unit 32 or the like.
  • the transmission / reception means 38 can transmit / receive information necessary for each process executed in the present embodiment, an execution program (for example, a countermeasure method creation program) for realizing an appropriate countermeasure method creation process for operation and the like. It is a possible communication interface.
  • the transmission / reception means 38 can make a service request to the cloud system 14 via the communication network 15 and obtain various information from the cloud system 14.
  • the transmission / reception means 38 can transmit / receive various information to / from the handling history DB 12, the administrator terminal 13, other external devices, and the like via the communication network 15.
  • the control unit 39 controls the entire configuration of the information processing apparatus 11.
  • the control unit 39 controls at least one of processing such as sampling, determination of usefulness of handling, creation of handling method, screen generation, transmission / reception, and the like.
  • the information processing apparatus 11 may be divided into a plurality of apparatuses having at least one of the functions described above, for example. In that case, for example, it can be configured as a separate device having the functions of the sample extraction means 34, the usefulness calculation means 35, or the coping method creation means 36 described above, but is not limited thereto.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of the information processing apparatus.
  • 3 includes an input device 41, an output device 42, a drive device 43, an auxiliary storage device 44, a main storage device 45, a central processing unit (CPU) 46 that performs various controls,
  • CPU central processing unit
  • a network connection device 47 is connected to each other via a system bus B.
  • the input device 41 has a pointing device such as a keyboard or a mouse operated by a user of the information processing device 11, for example, and inputs various instruction signals such as execution of a program from the user.
  • a pointing device such as a keyboard or a mouse operated by a user of the information processing device 11, for example, and inputs various instruction signals such as execution of a program from the user.
  • the output device 42 has a display that displays various windows, data, and the like necessary for operating the computer main body that performs the processing in the present embodiment, and displays the execution progress and results of the control program executed by the CPU 46.
  • the execution program (coping method creation program) installed in the computer main body of the information processing apparatus 11 is provided by the recording medium 48 or the like, for example.
  • the drive device 43 reads various data such as an execution program recorded on the recording medium 48. That is, the recording medium 48 can be set in the drive device 43, and the execution program included in the recording medium 48 is installed in the auxiliary storage device 44 from the recording medium 48 via the drive device 43.
  • the drive device 43 can also write data such as an execution result obtained by executing a program, for example.
  • the auxiliary storage device 44 is a storage means such as a hard disk drive or Solid State Drive (SSD), stores an execution program, a control program, and the like in the present embodiment, and performs input / output as necessary.
  • SSD Solid State Drive
  • the main storage device 45 stores an execution program read from the auxiliary storage device 44 by the CPU 46.
  • the main storage device 45 is, for example, a Read Only Memory (ROM) or a Random Access Memory (RAM), but is not limited thereto.
  • the CPU 46 processes the entire computer, such as various operations and data input / output with each hardware component, based on a control program such as an operating system (OS) and an execution program stored in the main storage device 45. To control. Thereby, in this embodiment, each process in preparation of a countermeasure method is implement
  • Various information necessary during the program execution is acquired from the auxiliary storage device 44 by the CPU 46.
  • the execution result and the like are stored in the auxiliary storage device 44 and the like by the CPU 46.
  • the network connection device 47 is a communication interface that enables transmission and reception of data with the handling history DB 12, the administrator terminal 13, the cloud system 14, and other external devices via the communication network 15.
  • the network connection device 47 can acquire an execution program and various data, or provide an execution result obtained by executing the program or the execution program itself corresponding to the present embodiment to an external device or the like.
  • the recording medium 48 is a computer-readable recording medium that stores an execution program and the like as described above.
  • the recording medium 48 may be a portable recording medium such as a Universal Serial Bus (USB) memory, a CD-ROM, or a DVD disk, or may be a semiconductor memory such as a flash memory.
  • USB Universal Serial Bus
  • FIG. 3 can also be applied as a hardware configuration in the administrator terminal 13.
  • FIG. 4 is a flowchart illustrating an example of an operation handling method creation process in the present embodiment.
  • the operation coping method creation processing is, for example, configuration information of a new system that creates an operation coping method according to an execution instruction from a user (for example, an administrator) of the information processing apparatus 11 or the administrator terminal 13 Is accepted (S01).
  • the operation coping method creation process extracts a tenant as a sample (S02).
  • the tenants to be extracted may be all tenants among existing tenants (existing systems) managed by the cloud system 14, for example, or tenants that satisfy a predetermined condition.
  • the predetermined condition may be, for example, a tenant having a system configuration similar to that of the new system (new tenant) among all tenants managed by the cloud system 14, or may be a predetermined number of tenants extracted at random. Good.
  • the predetermined condition may be a tenant that is newly added within a predetermined period or whose configuration is changed.
  • system configuration information of the tenant selected as a sample is extracted.
  • the operation coping method creation process extracts a coping history (coping result) carried out in the past by each extracted tenant (S03), and extracts the coping history extracted and the system configuration information obtained by the processing of S02. Using, the process which calculates the usefulness of each coping method is performed (S04).
  • the operation coping method creation process evaluates each coping method using the usefulness obtained in the process of S04, performs a process of determining a coping method to be adopted in the new system (S05), and based on the determined result. Then, a method for dealing with each event such as a failure occurring in the operation of the new system is created (S06).
  • FIG. 5 is a flowchart illustrating an example of a usefulness calculation process for each coping method.
  • the usefulness calculation process calculates the similarity between the tenant for which the coping method has been implemented and the new system (S11). Also, the usefulness calculation process evaluates the timing at which the coping method is implemented (S12), and calculates whether the coping method has an effect (S13).
  • the usefulness calculation process adds to the usefulness of the coping method calculated by multiplying the results of the above-described processes (S14).
  • the usefulness calculation process it is determined whether or not an uncalculated countermeasure history exists (S15), and when an uncalculated countermeasure history exists (YES in S15), the process returns to the process of S21. The same processing is performed for the handling history. Also, the usefulness calculation process ends when there is no uncalculated countermeasure process (NO in S15).
  • FIG. 6 is a flowchart illustrating an example of coping method determination processing.
  • the coping method determination process sets a threshold value for determining whether or not the new system can be adopted (S21).
  • the threshold value may be a value set in advance by an administrator or the like, for example, or may be an average value of all usefulness values calculated by the usefulness value calculating process, but is not limited thereto.
  • the threshold value may be a value obtained by adding dispersion by an arbitrary multiple to the above average value.
  • the threshold value used last time may be used as it is as the threshold value, and can be arbitrarily changed according to, for example, the type, field, operation mode, and the like of the target new system.
  • the usefulness obtained by the above-described usefulness calculation process is compared with the threshold set by the process of S21 to determine whether or not each coping method can be adopted (S22).
  • S22 for example, one or a plurality of handling method candidates are created.
  • the countermeasure that has been performed most recently is more appropriate, and the degree of usefulness is set higher.
  • the most recently implemented handling method is, for example, when the handling history DB 12 is referred to based on the time when the handling method creation instruction is given, and the actual handling time is closest to the handling method creation instruction time. A predetermined number of countermeasures from the closest one are shown.
  • the degree of usefulness is set to be higher as the countermeasure is implemented in the tenant released most recently.
  • the conventional method does not take into account the similarity of the operation mode (for example, the type and number of servers, device arrangement information, access patterns, etc.) between the target system and other systems. I have put in a candidate even a coping method that can not be diverted.
  • the degree of usefulness is set to be higher as a countermeasure is implemented in an existing system similar to a newly created or reconfigured new system. That is, in the present embodiment, from the viewpoints described above, for example, a usefulness level of countermeasures required in the new system or the like is obtained using a predetermined evaluation function, and a countermeasure method for the new system is determined based on the evaluation result. Add to candidates.
  • an example of the usefulness (Usefulness) including the above-described contents can be expressed by, for example, an evaluation function expression (Expression (1)) shown below.
  • the tenant similarity (Similarity (S 0 , S n )) where N is the number of tenants to be sampled as abstract samples
  • the timing evaluation formula ( The usefulness can be calculated by multiplying the timing (t)) by the countermeasure result (Result).
  • the tenant similarity indicates, for example, the similarity between a new tenant (new system) and a sample tenant.
  • the evaluation formula of the timing at which the countermeasure is performed is an expression for evaluating the usefulness of the countermeasure from the timing at which the countermeasure is performed, for example, and the evaluation target O i is implemented by the tenant C n and dealt with This means that the time is t.
  • the result of countermeasure for example, “1” is evaluated when the result of the countermeasure is effective, and “0” is evaluated when the result is not effective. Whether or not there is an effect may be set by the user, and the result before and after execution of the coping method is compared, and if the intended effect is obtained, it can be determined that the effect has been obtained. Good.
  • the countermeasure result is not limited to “1” and “0”. For example, “1”, “0.5”, “0.2”, “0”, etc. are weighted according to the level of the effect. It may be.
  • factors that determine the system configuration include, for example, the system configuration of the system, the software stack (middleware, application) of each machine, and the usage status of the system (average access amount, maximum access value, (Minimum access value, access distribution), system configuration change history, periodic access pattern, service level agreement (SLA), and the like, but are not limited thereto.
  • Similarity for example, a cosine function base (Cosine-based similarity), a correlation base (Correlation-based similarity), an adjusted cosine base (Adjusted cosine-based similarity) or the like may be used. Yes, but not limited to this.
  • Timing (t) can be expressed as, for example, the following formula (2).
  • t indicates the time when the countermeasure is taken
  • t 0 indicates the elapsed time from the release of the evaluation target system (specifically, the existing system that is the evaluation target).
  • the scale of t can be arbitrarily set, for example, one month or one day, but is not limited thereto.
  • t the value is larger, it means a greater maturity of the system Action is performed.
  • the greater the maturity level the more important the measures immediately after the release and the most recent countermeasure are markedly important.
  • an immature system has no difference in weight as a mature system.
  • the degree of usefulness is increased as the system at the time when the countermeasure is implemented resembles a system that newly creates an operation method.
  • the usefulness may be increased as the timing at which the countermeasure is implemented is the latest or immediately after the release. In the evaluation method described above, the latest and immediately after the release are more strongly evaluated, for example, according to the operation period of the implemented system.
  • the coping method may be actually implemented, and the usefulness may be increased as the number of effective effects increases.
  • FIG. 7 is a diagram for explaining a specific example of creating an operation coping method.
  • the operation handling method creation system 50 for example, when the information processing apparatus 11 deploys the new tenant 51 in the cloud system according to an instruction from the administrator terminal 13 or the like, the operation handling method for the new tenant 51 is created. An example is shown.
  • the new tenant 51 as shown in FIG. 7 includes a load balance server (hereinafter referred to as “LB”), two application servers connected in parallel (hereinafter referred to as “AP”), and a DB server (hereinafter referred to as “AP”).
  • LB load balance server
  • AP application servers connected in parallel
  • DB DB server
  • a countermeasure method corresponding to the system of the new tenant 51 is created by referring to the cloud system 14 described above and using a plurality of tenants included in the cloud system 14.
  • the device configurations of tenants 1 to 3 are shown, but the number of tenants, the device configuration, and the like are not limited to this.
  • Information about each tenant is stored, for example, in the DB server 23 or the like and managed by the tenant operation management server 21 or the like.
  • FIG. 8 is a diagram illustrating an example of system configuration information.
  • 8A shows an example of each tenant included in the cloud system 14 shown in FIG. 7 described above
  • FIG. 8B shows an example of system configuration information for each tenant included in the cloud system 14. Yes.
  • FIG. 8A shows the system configuration of existing tenants 1 to 3 as an example.
  • LB, AP, and DB are connected in series.
  • a configuration similar to that of the new tenant 51 is connected to the tenant 2.
  • a cache server (hereinafter referred to as “Cache”) is connected to the tenant 3 in addition to the configuration of the tenant 2. That is, the system configuration of the tenant 3 is a web three-tier application system with cache.
  • the items of the system configuration information shown in FIG. 8B are, for example, “tenant ID”, “system creation date / time”, “system configuration”, “access pattern (average request count)”, “access pattern (distribution of request count). However, it is not limited to this.
  • data for tenants 1 to 6 and the new tenant are stored, but the number of tenants and the like are not limited to this.
  • “Tenant ID” indicates identification information for identifying a tenant to be managed in the cloud system 14.
  • the tenant ID corresponding to the new tenant 51 described above is shown as “new tenant”.
  • “Date and time of system creation” stores the date and time when the tenant was newly created.
  • the “system creation date / time” also stores the update date / time when the existing system configuration is changed and updated. In the example of FIG. 8B, only the date is shown, but time information can also be stored.
  • System configuration stores the type and number of devices actually used by the tenant. It is assumed that “0” is set as the initial value.
  • “1” is set in the items “LB”, “AP1”, and “DB” corresponding to the system configuration shown in FIG. .
  • “1” is set in “LB”, “AP1”, “AP2”, and “DB” in correspondence with the system configuration shown in FIG.
  • “1” is set in “LB”, “AP1”, “AP2”, “DB”, and “Cache” in association with the system configuration shown in FIG.
  • individual items such as “AP1”, “AP2”, and “AP3” are provided for the AP.
  • the present invention is not limited to this.
  • One item “AP” may be provided, and “2” or the like may be set in the item.
  • Access pattern (average number of requests)” is calculated by calculating the average number of requests from the number of access requests to the tenant at a predetermined time interval, and “1” is applied to the corresponding classification among preset categories based on the calculation result. Set. In the example of FIG. 8B, “small 0 to 149”, “medium 150 to 300”, and “large 301 to” are shown, but the classification and numerical values are not limited to this.
  • Access pattern (variation of the number of requests)” is based on the distribution value of the number of access requests from the user to the tenant for a predetermined period, among the preset classifications “small”, “medium”, “large” Set “1" to the applicable item.
  • the classification is not limited to this.
  • the access pattern in the new system may be set based on, for example, an SLA designated by an administrator or the like, or may be set based on a predetermined policy (for example, a minimum configuration).
  • system configuration features are vectorized using the system configuration, the average number of requests, and the distribution of the number of requests described above, and the usefulness is calculated using the vectorized values.
  • the similarity is The target existing system is extracted as a high one (extraction method 2). Note that the extraction method is not limited to this.
  • the system configuration information of each tenant that is a sample extracted by the sample extraction unit 34 using the extraction method described above, a list of coping methods implemented in the past, and the like are created.
  • FIG. 9 is a diagram for explaining how the list of countermeasures is created.
  • FIG. 9A shows an example of a countermeasure graph
  • FIG. 9B shows a list of countermeasure methods corresponding to FIG. 9A.
  • 9B includes, for example, “handling ID”, “handling content”, one or a plurality of “monitoring items”, but is not limited thereto.
  • “Handling ID” is information for identifying a plurality of different handling methods. As shown in FIG. 9A, when a plurality of coping methods are included in one coping graph, they are managed by a plurality of coping IDs.
  • “Handling content” is, for example, specific handling content for each “handling ID”.
  • the “monitoring item” is a stepwise monitoring item such as an event that occurs during operation until the countermeasure stored in the “handling content” is performed.
  • the creation of the list of countermeasures as shown in FIG. 9B is created by, for example, the sample extraction means 34.
  • the list of countermeasures can be stored in the storage means 33 and read out as necessary.
  • FIG. 10 is a diagram illustrating a specific example of the handling history DB.
  • the handling history DB 12 illustrated in FIG. 10 indicates a handling history implemented in the past for each tenant.
  • the items in the handling history DB 12 include, for example, “tenant ID”, “handling record”, “handling”, “handling date”, “handling result”, etc., but are not limited thereto.
  • “Tenant ID” is information for identifying each tenant existing in the cloud system 14.
  • “Countermeasure record” is record information generated in response to the occurrence of an event such as a failure that has occurred for each tenant, for example.
  • “Action taken” stores the action taken in response to the action record. For example, when a plurality of countermeasures are performed on one countermeasure result, the plurality of countermeasures are stored.
  • ⁇ “ Handling date ” stores the date when the action was taken.
  • the “handling date” may include time information, for example.
  • the “handling result” stores information for distinguishing between the case where there is an effect and the case where there is no effect as a result of the handling. In the example of FIG. 10, “ ⁇ ” is set when the “response result” is effective, and “X” is set when there is no effect.
  • the information to be set is limited to this. Is not to be done.
  • the “handling result” may be stored using distinction information such as “1” and “0”, “present” and “none”, “OK” and “NG”, and the like.
  • “Tenatn1_Record2” indicates that “OP2” is dealt with “2011/11/11”, and as a result, an effect has been obtained (“handling result” is “ ⁇ ”).
  • “OP3” is dealt with “2011/12/01”, and as a result, an effect was obtained (“handling result” is “ ⁇ ”).
  • the usefulness for each coping method is calculated using each piece of information described above.
  • the usefulness in the coping method “OP1” is calculated.
  • the handling history DB 12 shown in FIG. 10 the history of dealing with the handling method “OP1” (the handling result) is “Tenant1_Record1”, “Tenant2_Record1”, “Tenant3_Record1”, “Tenant4_Record1”, “Tenant5_Record1”. Therefore, in the present embodiment, the usefulness is obtained using the handling history information described above and the above-described equation (1). In the following example, the case of “Tenant2_Record1” will be described.
  • the similarity between an existing tenant (here, “tenant 2”) and a new tenant is obtained.
  • the tenant 2 information included in the system configuration information shown in FIG. 8B is substituted into the following expression (3) to calculate the similarity between the tenant 2 and the new tenant.
  • the similarity can be calculated by, for example, a cosine-based function, but is not limited to this.
  • the similarity can be calculated on a correlation basis.
  • the similarity between A and B can be calculated using the following definition formula (formula (4)).
  • variable i in the above-described equation (4) corresponds to, for example, a predetermined number of items shown in FIG.
  • Similarity_Corr Tenant 2, new tenant
  • Similarity calculation based on adjusted cosine it can be obtained on an adjustment cosine basis, for example.
  • the similarity between A and B can be calculated using the following definition formula (formula (6)).
  • variable i in the above-described equation (6) corresponds to, for example, a predetermined number of items shown in FIG. 8B
  • variable c corresponds to an evaluation average for each item.
  • the evaluation average vector value of A AP3 and B AP3 is 5/7 . In this way, an evaluation average vector can be calculated for a predetermined item.
  • AVG_Small (Middle, Large) in the above equation (7) corresponds to the small (medium, large) access pattern (average number of requests) in FIG.
  • PATTERN_Small (Middle, Large) in the above equation (7) corresponds to the small (medium, large) of the access pattern (dispersion of the number of requests) in FIG.
  • Timing (t) the timing (Timing (t)) at which “Tenant2_Record1” is executed is evaluated.
  • FIG. 11 is a diagram for explaining how the timing is evaluated.
  • FIG. 11 shows the handling history DB 12 shown in FIG. 10 and the system configuration information shown in FIG.
  • the timing is evaluated using a predetermined scale.
  • the predetermined scale for example, one month can be calculated as 1.
  • the predetermined scale is not limited to this.
  • a countermeasure result of “Tenant2_Record1” is obtained. If the countermeasure result is effective, the value is “1”. If the effect is not effective, the value is “0”. According to the countermeasure history DB 12 of FIG. 10, “Tenant2_Record1” is effective. "Become.
  • the same processing as the above-described evaluation calculation example for “Tenant2_Record1” is performed for each countermeasure result (Record). Further, in the present embodiment, the usefulness is calculated (evaluated) for each countermeasure result by multiplying the values of the similarity, timing evaluation, and countermeasure result obtained for each countermeasure result. Furthermore, in this embodiment, the evaluation result of each countermeasure result is added for each countermeasure method (OP1, OP2, OP3), and the usefulness of each countermeasure method is obtained. As a result, the usefulness (Usefulness) of OP1, OP2, and OP3 is expressed by the following equations (8) to (10).
  • a coping method to be adopted in the new system is determined based on the usefulness for each coping described above.
  • an average value of usefulness for all coping methods is set as a threshold, and if the coping degree of each coping method is equal to or greater than the threshold, the coping method adopted in the new system is adopted.
  • the average value is calculated as shown in the following equation (11), and the result is 0.048.
  • the usefulness (Usefulness) of OP1 to OP3 is 0.034, 0.056, 0.053.
  • OP2 and OP3 are adopted as a countermeasure for the new system, and a countermeasure for the new system is created based on OP2 and OP3.
  • an evaluation value obtained from a past implementation history and a statistical value of the number of effective countermeasures used are obtained, and an evaluation value that covers a certain coping area is obtained.
  • a threshold value may be used, and a countermeasure to be adopted may be determined using the threshold value.
  • an existing system with high similarity is extracted, and a method for dealing with the extracted existing system is used.
  • An appropriate coping method for system operation or the like can be created by creating a coping method candidate for the new system.
  • the usefulness for each operation (operation) can be calculated from an existing countermeasure graph, and the countermeasure graph to be adopted can be determined according to the calculated usefulness. Therefore, in the present embodiment, a countermeasure graph can be created even if there is no past record as in the new system, and a prompt countermeasure according to an event such as a failure can be made.
  • this embodiment is not limited to the above-described cloud system, and can be widely applied to, for example, the operation of a distributed processing system including one or more computers and one or more relay devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 対処方法作成プログラムにおいて、1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、前記新システムと所定の類似度を持つ1以上の既存システムを抽出し、抽出した前記既存システムに対応する所定のイベントに対する対処方法を用いて前記新システムについてのイベント対処方法の候補を作成する、処理をコンピュータに実行させる。

Description

対処方法作成プログラム、対処方法作成方法、及び情報処理装置
 本願は、システム運用等に対する対処方法を作成する対処方法作成プログラム、対処方法作成方法、及び情報処理装置に関する。
 従来では、マシンリソースを必要な時に必要なだけ調達することができるクラウドコンピューティングが知られている。クラウドコンピューティングは、リソースを複数人で共有することによる低コスト化を実現できるため、多様なユーザによる利用が促進されることが予想される。
 また、クラウドコンピューティングが主流となれば、クラウドの自動運用により、テナント(例えば、クラウドユーザ毎等に設けられるシステム)毎に個別に運用を行う形態が広まることが予想される。クラウドの自動運用化については、予め各種の対処方法を作成し、作成した対処方法を用いて自動運用化が行われる。ここで、対処方法とは、例えば自動運用するための各種のルール等であり、どのような障害や問題事項等(イベント)に対して、どのように対処を行うか等を記述したものである。
 対処方法を用いた自動運用の例としては、予め運用に必要となる運用方法の一式を纏めた対処方法を用意する方法や、対処グラフを用いた運用方法が存在する。対処グラフを用いた運用方式とは、システムで起きるイベントの因果関係を対処グラフとして可視化し、そのグラフを利用して実際のシステムで観測されたイベントに応じて対処を行う方式である。
 対処グラフの作成は、例えば過去の対処履歴と、イベントとの因果関係を所定の手法で紐づけるものであり、例えば人が因果関係を判定する方法や統計的に因果関係を推定する方法が存在する。また、近年では、システム運用方式に影響する構成変更や新規配備を行うテナントに対し、即座に対処方法を作成して自動運用を行うために、対処グラフの因果関係のペアを分割して管理する手法が知られている。具体的な対処方法としては、例えば対処要素図を作成したり、新規アプリケーション(以下、「アプリケーション」を「アプリ」を略称する)用の対処グラフを作成している。対処要素図は、クラウド上の全てのアプリの対処案グラフを一組の因果関係毎に分割し、各因果関係を要素(対処グラフ要素)とするアプリ特性毎の集合を管理するものである。また、新規アプリ用の対処グラフは、新規アプリの特性に対応する対処グラフ要素の集合を取得し、因果関係を接続するものである。
 なお、情報システムにおいて、過去に発生した障害の対処事例を知識化し、知識化によって得られた障害対処知識を用いて、障害発生時に、その障害の症状に基づいて対処方法を推薦する手法が知られている。また、過去の業務遂行事例を業務手順に沿ってノウハウとして分類蓄積し、新たな業務を効率的に遂行するために、障害が発生した場合の障害対策を蓄積した過去の業務遂行事例を用いて支援する手法が知られている(例えば、特許文献1及び2参照)。
特開2010-72834号公報 特開平8-314751号公報
 しかしながら、従来手法では、過去に起きた障害や問題事項等(イベント)に対する対処の全てを対処方法に含めるため、不必要な対処方法まで含まれてしまい、適切な対処方法を選択するのに時間がかかっていた。
 そこで、1つの側面では、上記の問題点に鑑みてなされたものであり、システム運用等に対する適切な対処方法を作成することを目的とする。
 一態様における対処方法作成プログラムは、1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、前記新システムと所定の類似度を持つ1以上の既存システムを抽出し、
 抽出した前記既存システムに対応する所定のイベントに対する対処方法を用いて前記新システムについてのイベント対処方法の候補を作成する、処理をコンピュータに実行させる。
 運用等に対する適切な対処方法を作成することができる。
本実施形態における運用対処方法作成システムの一例を示す図である。 情報処理装置の機能構成の一例を示す図である。 情報処理装置のハードウェア構成の一例を示す図である。 本実施形態における運用対処方法作成処理の一例を示すフローチャートである。 各対処方法の有用度算出処理の一例を示すフローチャートである。 対処方法決定処理の一例を示すフローチャートである。 運用対処方法作成の具体例を説明するための図である。 システム構成情報の一例を示す図である。 対処方法一覧の作成の様子を説明するための図である。 対処履歴DBの具体例を示す図である。 タイミングを評価する様子を説明するための図である。
 以下、図面に基づいて実施形態を説明する。なお、以下の説明では、一例として、新規に作成したり、構成変更した新システムに対して、運用上で生じる障害や問題事項(イベント)等に対する対処方法を作成する例について説明する。
 <運用対処方法作成システム例>
 図1は、本実施形態における運用対処方法作成システムの一例を示す図である。図1に示す運用対処方法作成システム10は、情報処理装置11と、対処履歴データベース(以下、「データベース」を「DB」という)12と、管理者端末13と、クラウドシステム14とを有する。なお、情報処理装置11と、対処履歴DB12と、管理者端末13と、クラウドシステム14とは、例えばインターネット等に代表される通信ネットワーク15によりデータの送受信が可能な状態で接続されている。
 情報処理装置11は、例えば新規作成やシステム運用方式に影響する構成変更等を行う新テナント(新システム)に対して、迅速かつ適切な対処方法を作成し、作成した対処方法を用いてテナントを自動運用させる。なお、テナントとは、例えばクラウドシステム14を利用するユーザ毎の運用形態(例えば、店情報(サーバの種類や数、各機器の配列情報、アクセスパターン、使用するアプリケーション等のうち、少なくとも1つを含む))等である。
 例えば、情報処理装置11は、1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、新システムと所定の類似度を持つ1以上の既存システムを抽出する。また、情報処理装置11は、抽出した既存システムに対応する所定のイベントに対する対処方法を用いて新システムについてのイベント対処方法の候補を作成する。既存システムとは、例えばクラウドシステム14に含まれるクラウドコンピューティングにより実現されたシステムであってもよく、通信ネットワーク15により接続されるその他のシステムであってもよい。
 情報処理装置11は、1又は複数の既存システムで過去に実施された対処方法(対処実績)等の履歴情報に基づいて、各対処方法の有用度を求める。有用度とは、例えば既存システムで利用している対処方法が新システムで利用できるか否かを示す指標となるものである。
 また、情報処理装置11は、既存システムで利用している有用度が高い(例えば、所定の閾値以上)対処方法を新システムの対処方法に採用し、新システムに対応する対処方法(例えば、対処グラフ等)を作成する。情報処理装置11は、有用度を用いて対処方法の評価を行うことで、新システムのリリース直後から効果的な対処を過不足なく対処方法に盛り込むことができ、効率の良い適切な運用が可能になる。
 情報処理装置11は、例えば汎用のPersonal Computer(PC)やサーバ等を用いることができるが、これに限定されるものではなく、例えばタブレット端末やスマートフォン等の情報通信端末であってもよい。
 対処履歴DB12は、過去の運用における対処履歴情報が記憶されている。なお、対処履歴DB12は、多種の情報の集合物であり、記憶された各種情報を、例えばキーワード等を用いて検索し、抽出することができるように体系的に構成されている。また、新システムに対する対処方法が決定された場合には、その情報によって対処履歴DB12が更新される。
 対処履歴DB12は、図1に示すように通信ネットワーク15を介して接続可能な状態で設けられていてもよく、情報処理装置11の内部に設けられていてもよい。
 管理者端末13は、運用対処方法作成システム10全体又は各テナント等を管理する管理者等が使用する端末である。管理者端末13は、例えばブラウザ機能やコマンドライン等を用いて、情報処理装置11やクラウドシステム14等に新システムの構成情報等を送信し、新システム等に対する運用対処方法の作成等を行わせる。管理者端末13としては、例えばPCやサーバ、タブレット端末、スマートフォン等の情報通信端末等があるが、これに限定されるものではない。
 クラウドシステム14は、例えば通信ネットワーク15に含まれるインターネット等をベースとしたコンピュータの利用形態であり、クラウドコンピューティング等を実現するためのクラウド環境である。クラウドシステム14は、例えば1又は複数のユーザが運用する既存システムを管理するデータセンタとしての機能等を含む。クラウドシステム14は、利用するユーザ毎のテナント情報等も管理することができる。ユーザは、クラウドシステム14によって、目的とする運用上のコンピュータ処理を、通信ネットワーク15を介してサービスとして利用することができる。
 ここで、図1に示すクラウドシステム14では、一例としてテナント用運用管理サーバ21やアプリサーバ22、DBサーバ23等を有しているが、数や種類等についてはこれに限定されるものではない。
 テナント用運用管理サーバ21は、例えばクラウドシステム14を利用するユーザ毎の既存システムの運用形態(テナント情報)、運用状況、運用履歴等を管理する。テナント用運用管理サーバ21は、管理者端末13等から新システムの配備依頼を受け取ると新システムの構成等を決定することもできる。
 アプリサーバ22は、例えば情報処理装置11や管理者端末13等から要求のあったサービスやシステム等に応じて所定のアプリ(例えば、ウェブアプリ等)を用いて対応する処理を実行する。DBサーバ23は、クラウドシステム14上で実行された実行履歴や入力データ、処理実行結果等の各種データを記憶する。
 クラウドシステム14は、情報処理装置11や管理者端末13等からのサービス要求を受け、受け付けた要求内容に対応する所定の処理(業務、運用)等を行うことができる。
 例えば、本実施形態では、クラウドシステム14内に新システムを配備したいテナント管理者が、管理者端末13から新システムの構成の配備依頼を行う。この依頼内容は、テナント用運用管理サーバ21で受け付けられ、テナント用運用管理サーバ21から新システム用の対処方法の作成依頼が情報処理装置11に送信される。なお、管理者端末13からの配備依頼が、直接情報処理装置11に送信されてもよい。
 情報処理装置11は、クラウドシステム14に配備された既存のテナントから標本とするテナントを抽出し、抽出されたテナントから集約された対処履歴から同一の対処方法毎に纏め、各対処種別の有用度を算出する。また、情報処理装置11は、算出された有用度に基づいて、新システムに採用する対処方法を作成する。これにより、作成した対処方法が、新システムの以後の運用に用いられる。
 <情報処理装置11の機能構成例>
 次に、情報処理装置11の機能構成例について図を用いて説明する。図2は、情報処理装置の機能構成の一例を示す図である。図2に示す情報処理装置11は、入力手段31と、出力手段32と、記憶手段33と、標本抽出手段(抽出手段)34と、有用度算出手段35と、対処方法作成手段36と、画面生成手段37と、送受信手段38と、制御手段39とを有する。
 入力手段31は、情報処理装置11を使用するユーザ等からの運用対処方法作成処理に関する各種指示の開始や終了等の入力や、設定情報等の入力等を受け付ける。入力手段31は、例えばキーボードやマウス等である。また、入力手段31は、音声等による入力であってもよく、その場合には、マイク等の音声入力手段等を有する。
 出力手段32は、入力手段31により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。出力手段32は、例えば画面表示により出力するのであればディスプレイ等の表示手段を有し、音声により出力するのであれば、スピーカ等の音声出力手段を有する。
 記憶手段33は、本実施形態において必要となる各種情報を記憶する。記憶手段33は、例えば本実施形態を実行するための各種設定情報等を記憶することができる。記憶手段33は、記憶された各種情報を必要に応じて所定のタイミングで読み出したり、運用対処方法作成処理に関する実行結果等を書き込んだりすることができる。
 記憶手段33は、例えばキーワード等を用いて検索することで、記憶された情報の中からキーワードに対応する情報を抽出することができるように体系的に構成されているデータベースとしての機能も有していてもよい。その場合、記憶手段33は、上述した対処履歴DB12等を記憶してもよい。
 標本抽出手段34は、クラウドシステム14上で管理されている既存のテナント(既存システム)のうち、全テナント又は所定の条件により選択された所定数のテナントに関するシステム構成情報を抽出する。
 所定の条件としては、例えばクラウドシステム14に管理されている全テナントのシステム構成と、新システム(新テナント)のシステム構成とが、所定の類似度を持つ1以上のテナントとしてもよい。この場合、例えば新システムとの類似度が高い1以上のテナントが選択される。また、所定の条件としては、例えばクラウドシステム14に管理されている全テナントのうち、ランダムに抽出された所定数のテナントとしてもよい。また、所定の条件としては、所定期間内に新規に追加されたり、構成が変更されたテナントとしてもよい。
 システム構成情報とは、例えばテナント(店)に対するサーバの種類や数、機器の配列情報、アクセスパターン、使用するアプリケーション等のうち、少なくとも1つを含むが、これに限定されるものではない。標本抽出手段34は、抽出したテナント毎に、過去に実施した対処方法の一覧を作成したり、対処履歴DB12に記憶された対処履歴等を抽出する。
 有用度算出手段35は、標本抽出手段34で抽出されたシステム構成情報や対処履歴から各対処方法の有用度を算出する。また、有用度算出手段35は、算出された有用度により各対処方法を評価し、新システムに採用する対処方法を決定する。有用度は、例えば所定の評価関数を用いて算出することができるが、これに限定されるものではない。
 対処方法作成手段36は、有用度算出手段35により新システムに採用すると決定された対処方法に基づいて、新システム用の対処方法を作成する。例えば、対処方法作成手段36は、有用度算出手段35により得られる対処方法の情報から、所定条件に基づくイベントの因果関係のペアを繋げる。また、対処方法作成手段36は、因果関係と対処とを繋げて、対象システムの運用等で生じる障害等の各イベントに対する対処グラフの候補を作成する。なお、対処方法作成手段36により作成される内容は、対処グラフに限定されるものではない。
 画面生成手段37は、本実施形態における運用対処方法を作成するための開発環境(エディタ)画面や各種設定情報等の入力画面、運用対処方法作成後の内容等を表示するための画面を生成する。画面生成手段37で生成された画面は、出力手段32のディスプレイ等に出力される。
 送受信手段38は、本実施形態で実行される各処理に必要な情報や、運用等に対する適切な対処方法作成処理を実現するための実行プログラム(例えば、対処方法作成プログラム)等を送受信することが可能な通信インターフェースである。送受信手段38は、通信ネットワーク15を介して、クラウドシステム14にサービス要求を行ったり、クラウドシステム14から各種情報を取得することができる。また、送受信手段38は、通信ネットワーク15を介して、対処履歴DB12や管理者端末13、その他の外部装置等に対して各種情報を送受信することができる。
 制御手段39は、情報処理装置11の各構成全体の制御を行う。例えば、制御手段39は、標本抽出や対処有用度決定、対処方法作成、画面生成、送受信等における処理等のうち、少なくとも1つを制御する。
 なお、情報処理装置11は、例えば上述した各機能のうち、少なくとも1つを有する複数の装置に分かれて構成されていてもよい。その場合には、例えば上述した標本抽出手段34、有用度算出手段35、又は対処方法作成手段36における機能を有する別装置として構成することができるが、これに限定されるものではない。
 <情報処理装置11:ハードウェア構成例>
 次に、情報処理装置11のハードウェア構成例について図を用いて説明する。図3は、情報処理装置のハードウェア構成の一例を示す図である。図3に示すハードウェア構成例は、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、主記憶装置45と、各種制御を行うCentral Processing Unit(CPU)46と、ネットワーク接続装置47とを有し、これらはシステムバスBで相互に接続されている。
 入力装置41は、例えば情報処理装置11のユーザ等が操作するキーボードやマウス等のポインティングデバイス等を有しており、例えばユーザ等からのプログラムの実行等、各種指示信号等を入力する。
 出力装置42は、本実施形態における処理を行うコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU46が実行する制御プログラムの実行経過や結果等を表示する。
 ここで、情報処理装置11のコンピュータ本体にインストールされる実行プログラム(対処方法作成プログラム)は、例えば記録媒体48等により提供される。ドライブ装置43は、記録媒体48に記録された実行プログラム等の各種データを読み込む。つまり、記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。ドライブ装置43は、セットされた記録媒体48が書き込み可能である場合に、例えばプログラムを実行することで得られた実行結果等のデータを書き込むこともできる。
 補助記憶装置44は、ハードディスクドライブやSolid State Drive(SSD)等のストレージ手段であり、本実施形態における実行プログラムや制御プログラム等を記憶し、必要に応じて入出力を行う。
 主記憶装置45は、CPU46により補助記憶装置44から読み出された実行プログラム等を格納する。主記憶装置45は、例えばRead Only Memory(ROM)やRandom Access Memory(RAM)等であるが、これに限定されるものではない。
 CPU46は、Operating System(OS)等の制御プログラム、及び主記憶装置45に格納されている実行プログラム等に基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御する。これにより、本実施形態では、対処方法作成における各処理を実現する。なお、プログラム実行中に必要な各種情報等は、CPU46により補助記憶装置44等から取得される。また、実行結果等は、CPU46により補助記憶装置44等に格納される。
 ネットワーク接続装置47は、通信ネットワーク15を介して、対処履歴DB12、管理者端末13、クラウドシステム14、その他の外部装置等とデータの送受信を可能とする通信インターフェースである。ネットワーク接続装置47は、実行プログラムや各種データを取得したり、プログラムを実行することで得られた実行結果又は本実施形態に対応する実行プログラム自体を外部装置等に提供することができる。
 記録媒体48は、上述したように実行プログラム等を格納するコンピュータで読み取り可能な記録媒体である。記録媒体48は、例えばUniversal Serial Bus(USB)メモリやCD-ROM、DVDディスク等の可搬型記録媒体であってもよく、フラッシュメモリ等の半導体メモリであってもよい。なお、図3に示すハードウェア構成は、管理者端末13におけるハードウェア構成として適用することもできる。
 <運用対処方法作成処理例>
 ここで、本実施形態における運用対処方法作成処理例について、フローチャートを用いて説明する。図4は、本実施形態における運用対処方法作成処理の一例を示すフローチャートである。
 図4の例において、運用対処方法作成処理は、例えば情報処理装置11や管理者端末13のユーザ(例えば、管理者)等からの実行指示により、運用対処方法を作成する新システムの構成情報等を受け付ける(S01)。
 次に、運用対処方法作成処理は、標本とするテナントを抽出する(S02)。抽出されるテナントは、例えばクラウドシステム14で管理されている既存テナント(既存システム)のうち、全てのテナントでもよく、所定の条件に当てはまるテナントでもよい。なお、所定の条件としては、例えばクラウドシステム14に管理されている全テナントのうち、新システム(新テナント)とシステム構成の類似するテナントとしてもよく、ランダムに抽出された所定数のテナントとしてもよい。また、所定の条件としては、所定期間内に新規に追加されたり、構成が変更されたテナントとしてもよい。S02の処理では、標本として選択されたテナントのシステム構成情報等を抽出する。
 運用対処方法作成処理は、抽出した各テナントで、過去に実施した対処履歴(対処実績)等を抽出し(S03)、抽出された対処履歴と、S02の処理で得られたシステム構成情報等を用いて、各対処方法の有用度を算出する処理を行う(S04)。
 また、運用対処方法作成処理は、S04の処理で得られる有用度を用いて各対処方法を評価し、新システムに採用する対処方法を決定する処理を行い(S05)、決定された結果に基づいて、新システムの運用上で生じる障害等の各イベントに対する対処方法を作成する(S06)。
 <S04:各対処方法の有用度算出処理>
 ここで、上述したS04の処理における各対処方法の有用度算出処理の一例について、フローチャートを用いて説明する。図5は、各対処方法の有用度算出処理の一例を示すフローチャートである。
 図5の例において、有用度算出処理は、対処方法が実施されたテナントと新システムとの類似度を算出する(S11)。また、有用度算出処理は、対処方法が実施されたタイミングを評価し(S12)、対処方法による効果の有無を算出する(S13)。
 また、有用度算出処理は、上述した各処理の結果を掛け合わせて算出している対処方法の有用度へ加算する(S14)。ここで、有用度算出処理は、未算出の対処履歴が存在するか否かを判断し(S15)、未算出の対処履歴が存在する場合(S15において、YES)、S21の処理に戻り、他の対処履歴について同様の処理を行う。また、有用度算出処理は、未算出の対処処理が存在しない場合(S15において、NO)、処理を終了する。
 <S05:対処方法決定処理>
 次に、上述したS05の処理における対処方法決定処理の一例について、フローチャートを用いて説明する。図6は、対処方法決定処理の一例を示すフローチャートである。図6の例において、対処方法決定処理は、新システムへの採用の可否を決めるための閾値を設定する(S21)。
 なお、閾値は、例えば管理者等により予め設定された値でもよく、例えば有用度算出処理で算出された全有用度の平均値でもよいが、これに限定されるものではない。例えば、閾値は、上述した平均値に対して任意倍数による分散を加えて得られた値としてもよい。また、閾値は、前回使用した閾値をそのまま用いてもよく、例えば対象の新システムの種類や分野、運用形態等に応じて任意に変更することができる。
 また、対処方法決定処理は、上述した有用度算出処理により得られる有用度と、S21の処理により設定された閾値とを比較して各対処方法の採用の可否を決定する(S22)。S22の処理により、例えば1又は複数の対処方法の候補が作成される。
 <有用度について>
 次に、上述した有用度算出手段35における有用度について具体的に説明する。
 まず従来手法において、対処方法を作成する場合には、例えば過去に起きた問題に対する対処方法を全て含める。そのため、従来手法では、不必要な対処方法まで含めてしまい、適切な対処を選択するのに時間がかかってしまう。例えば、従来手法では、より効果の高い新しい対処方法が存在するにも関わらず過去に多く利用していた対処方法が含まれてしまう可能性があった。
 そこで、本実施形態では、例えば直近に実施された対処方法ほど適切な対処であると判断し、有用度が高くなるように設定する。なお、直近に実施された対処方法とは、例えば対処方法作成指示があった時間を基準にして対処履歴DB12を参照した場合に、実際に対処した時間が、対処方法作成指示時間に最も近い又は最も近いものから所定数の対処方法を示す。
 これにより、以後同様の問題が発生した場合には、直近に実施された対処方法が利用されるようになる。例えば、レスポンス悪化という障害(イベント)の発生に対して直近の対処方法でスケールアウト等が実施された場合には、その対処方法の有用度が高くなるように設定する。したがって、本実施形態では、より効果の高い新しい対処方法を新システムの対処方法に採用することができる。
 また、本実施形態では、システムリリース直後に起きた問題は無視できない。これは、システムリリース直後の一定期間は、故障率が高いためである。したがって、本実施形態では、直近にリリースされたテナントで実施された対処ほど有用度が高くなるように設定する。
 また、従来手法では、対象システムと、その他のシステムとの運用形態(例えば、サーバの種類や数、機器の配列情報、アクセスパターン等)の類似性が加味されていないため、構成の差異が起因する流用不可能な対処方法まで候補に入れてしまっていた。
 そこで、本実施形態では、例えば新規作成又は構成変更された新システムに類似する既存システムで実施された対処ほど有用度が高くなるように設定する。つまり、本実施形態では、上述した観点等から、例えば新システム等で必要となる対処の有用度を所定の評価関数を用いて求め、その評価結果から有用度が高いものを新システムに対する対処方法の候補に加える。ここで、上述した内容等を含めた有用度(Usefulness)の一例は、例えば以下に示す評価関数式((1)式)で表すことができる。
Figure JPOXMLDOC01-appb-M000001
 上述した(1)式の例では、抽象した標本対象となるテナント数をNとした場合のテナントの類似度(Similarity(S,S))と、対処が行われたタイミングの評価式(Timing(t))と、対処の結果(Result)とを掛け合わせることによって有用度を算出することができる。
 テナントの類似度とは、例えば新テナント(新システム)と、標本となるテナントとの類似度を示す。また、対処が行われたタイミングの評価式とは、例えば対処が行われたタイミングから、その対処の有用度を評価する式を示し、評価対象OがテナントCで実施され、対処された時間をtとしたものを意味する。
 また、対処の結果とは、例えば対処の結果として効果があったものは"1"、効果がなかったものは"0"として評価する。なお、効果の有無は、ユーザにより設定されてもよく、対処方法の実行前と実行後との結果を比較し、目的とした効果が得られていた場合に、効果があったと判断してもよい。対処の結果については、"1"、"0"だけに限定されず、例えば効果のレベルに応じて"1"、"0.5"、"0.2"、"0"等の重み付けがされていてもよい。
 ここで、本実施形態において、システム構成を決定する因子例としては、例えばシステムのマシン構成、各マシンのソフトウェアスタック(ミドルウェア、アプリ)、システムの使用状況(平均的なアクセス量、最大アクセス値、最小アクセス値、アクセス分布)、システム構成の変更履歴や周期的なアクセスパターン、Service Level Agreement(SLA)等があるが、これに限定されるものではない。
 また、上述した類似度(Similarity)の算出には、例えばコサイン関数ベース(Cosine-based similarity)、相関関係ベース(Correlation-based similarity)、調整コサインベース(Adjusted cosine-based similarity)等を用いることができるが、これに限定されるものではない。
 タイミングの評価式(Timing(t))は、例えば以下に示す(2)式のように表すことができる。
Figure JPOXMLDOC01-appb-M000002
 上述した(2)式において、tは対処したときの時間を示し、tは評価対象システム(具体的には、評価対象となっている既存システム)のリリースからの経過時間を示している。
 つまり、(2)式では、直近の対処と、システムのリリース直後の対処ほど、重要であると評価されることになる。上述した(2)式において、tのスケールは、例えば1か月や1日等、任意に設定することができるが、これに限定されるものではない。
 なお、tは、値が大きくなるほど、対処方法が実施されたシステムの成熟度が大きいことを意味する。本実施形態では、成熟度が大きいほど、リリース直後と直近の対処が際立って重要と評価される。
 一方、未熟なシステムでは、成熟なシステムほど重みづけに差がない。本実施形態では、未熟なシステムでの対処ほど、全体を通じて評価が高くなるようになっている。これは、直近にリリースされた未成熟なシステムは、それが最近であればあるほど、そこで起きた対処を無視できないことを意味する。
 また、本実施形態では、上述した(1)式に示すように、例えばあるシステムの運用方式を新規に作成する場合に、別のシステムにおいて実施実績のある対処の有用度を所定の評価方式の積に基づいて評価する。
 つまり、本実施形態における評価の一例としては、例えば対処が実施されたその当時のシステムが新規に運用方式を作成するシステムに類似するほど有用度を高くする。また、評価の一例としては、例えば対処が実施されたタイミングが直近又はリリース直後ほど有用度を高くしてもよい。上述した評価方式は、例えば実施されたシステムの稼働期間に応じて、直近とリリース直後がより強く評価される。更に、評価の一例としては、例えば実際にその対処方法を実施して、その効果があった数が多いほど有用度を高くしてもよい。
 このように、本実施形態では、有用度を用いた評価を行うことで、リリース直後から効果的な対処が過不足なく対処方法に盛り込むことができ、適切な対処方法を作成することができる。また、本実施形態では、作成した対処方法を用いて効率の良い運用が可能になる。
 <運用対処方法作成の具体例>
 次に、上述した本実施形態を適用した運用対処方法作成の具体例について説明する。図7は、運用対処方法作成の具体例を説明するための図である。図7の例では、運用対処方法作成システム50において、例えば情報処理装置11が管理者端末13等からの指示により新テナント51をクラウドシステムに配備する場合に、新テナント51の運用対処方法を作成する例を示している。
 図7に示すような新テナント51は、ロードバランスサーバ(以下、「LB」という)と、並列に接続された2台のアプリサーバ(以下、「AP」という)と、DBサーバ(以下、「DB」という)を有する。また、新テナント51は、LBと、APと、DBとがそれぞれ階層を構成している。つまり、新テナント51は、キャッシュなしウェブ3階層アプリシステムの例を示している。
 ここで、図7に示すような新テナント51を作成する場合には、対応する新しい運用等の対処方法が必要になる。そのため、本実施形態では、上述したクラウドシステム14を参照し、クラウドシステム14に含まれる複数のテナントを利用して、新テナント51のシステムに対応する対処方法を作成する。図7の例では、テナント1~3の各機器構成が示されているが、テナント数や機器構成等については、これに限定されるものではない。また、各テナントに関する情報は、例えばDBサーバ23等に記憶され、テナント用運用管理サーバ21等により管理される。
 <各テナントのシステム構成情報>
 ここで、クラウドシステム14が管理するシステム構成情報の一例について、図を用いて説明する。図8は、システム構成情報の一例を示す図である。図8(A)は、上述した図7に示すクラウドシステム14に含まれる各テナントの一例を示し、図8(B)は、クラウドシステム14に含まれる各テナントに対するシステム構成情報の一例を示している。
 図8(A)には、一例として、既存のテナント1~3のシステム構成が示されている。テナント1には、LBと、APと、DBとが直列で接続されている。テナント2には、新テナント51と同様の構成が接続されている。テナント3には、テナント2の構成に、更にキャッシュサーバ(以下、「Cache」という)が接続されている。つまり、テナント3のシステム構成は、キャッシュありウェブ3階層アプリシステムである。
 図8(B)に示すシステム構成情報の項目は、例えば「テナントID」、「システム作成日時」、「システム構成」、「アクセスパターン(平均リクエスト数)」、「アクセスパターン(リクエスト数の分散)」等であるが、これに限定されるものではない。また、図8(B)の例では、テナント1~6と新テナントに対するデータが格納されているが、テナント数等についてはこれに限定されるものではない。
 「テナントID」は、クラウドシステム14における管理対象のテナントを識別するための識別情報を示している。図8(B)の例では、説明の便宜上、上述した新テナント51に対応するテナントIDを"新テナント"として示している。
 「システム作成日時」は、テナントを新しく作成した日時が格納される。また、「システム作成日時」は、既存のシステム構成を変更して更新した場合にも、その更新日時が格納される。なお、図8(B)の例では、日にちのみを示しているが、時間情報も含めて格納することができる。
 「システム構成」は、実際にテナントで使用している機器の種類と数とを格納する。なお、初期値には、"0"がセットされているものとする。
 例えば、図8(B)の例において、テナント1では、図8(A)に示すシステム構成に対応させて「LB」、「AP1」、及び「DB」の項目に"1"がセットされる。また、テナント2では、図8(A)に示すシステム構成に対応させて「LB」、「AP1」、「AP2」、及び「DB」に"1"がセットされる。また、テナント3では、図8(A)に示すシステム構成に対応させて「LB」、「AP1」、「AP2」、「DB」、及び「Cache」に"1"がセットされる。
 なお、図8(B)の例では、APについて「AP1」、「AP2」、「AP3」と個別の項目を設けたが、これに限定されるものではなく、例えばテナント2の場合には、「AP」の項目を1つ設けて、その項目に"2"等をセットしてもよい。
 「アクセスパターン(平均リクエスト数)」は、そのテナントへの所定時間間隔におけるアクセスリクエスト数から平均リクエスト数を算出し、算出結果に基づいて予め設定された分類のうち、該当するものに"1"をセットする。図8(B)の例では、「小 0~149」、「中 150~300」、「大 301~」が示されているが、分類や数値等についてはこれに限定されるものではない。
 「アクセスパターン(リクエスト数の分散)」は、そのテナントへの所定期間におけるユーザからのアクセスリクエスト数の分散値に基づいて、予め設定された分類「小」、「中」、「大」のうち、該当するものに"1"をセットする。分類については、これに限定されるものではない。
 なお、新テナントについては、実際に運用される前であればアクセスパターンは算出できないため、推定される1又は複数のアクセスパターンに"1"をセットする。また、新システムにおけるアクセスパターンは、例えば管理者等が指定したSLAを基に設定されてもよく、所定のポリシー(例えば、最小構成)等に基づいて設定されてもよい。
 本実施形態では、上述したシステム構成、平均リクエスト数、リクエスト数の分散を用いて、システム構成の特徴をベクトル化し、ベクトル化した値を用いて有用度を算出する。
 <標本抽出手法>
 次に、上述した標本抽出手段34による標本抽出手法について説明する。本実施形態における標本抽出手法としては、例えばシステム構成情報等を用いて各既存システムと新システムとの類似度(Similarity)が所定の閾値を超えている場合に、その既存システムの情報を抽出する(抽出手法1)。
 また、標本の抽出方式としては、例えば上述した抽出手法1に加えて、構成変更の変遷(例えば、システム構成が時系列にどのような変更がされたか)が似ている場合に、類似度が高いものとして、対象の既存システムを抽出する(抽出手法2)。なお、抽出手法については、これに限定されるものではない。
 本実施形態では、上述した抽出手法等を用いて標本抽出手段34により抽出された標本となる各テナントのシステム構成情報や、過去に実施した対処方法の一覧等を作成する。
 図9は、対処方法一覧の作成の様子を説明するための図である。図9(A)は、対処グラフの一例を示し、図9(B)は、図9(A)に対応する対処方法一覧を示している。
 図9(B)に示す対処方法一覧の項目としては、例えば「対処ID」、「対処内容」、1又は複数の「監視項目」等を含むが、これに限定されるものではない。
 「対処ID」は、異なる複数の対処方法を識別するための情報である。図9(A)に示すように、1つの対処グラフに対して複数の対処方法が含まれている場合には、複数の対処IDにより管理される。
 「対処内容」は、例えば「対処ID」毎の具体的な対処内容である。「監視項目」は、「対処内容」に格納された対処を行う迄の運用時に生じたイベント等の段階的な監視項目である。
 例えば、図9(B)の例において、「対処ID」が"OP1"では、「監視項目」が段階的に"レスポンス悪化"→"クエリの実行に時間がかかる"→"DBへのリクエスト数が膨大"→"他のテナントからのDB問い合わせが増大"となった場合には、「対処内容」として"管理者への問い合わせ"が行われる。また、図9(B)の例において、「対処ID」が"OP2"では、「監視項目」が段階的に"レスポンス悪化"→"クエリの実行に時間がかかる"→"DBへのリクエスト数が膨大"→"参照リクエストが増加"となった場合には、「対処内容」として"Cache化"が行われる。
 上述した図9(B)に示すような対処方法一覧の作成は、例えば標本抽出手段34等により作成される。対処方法一覧は、記憶手段33に記憶させておき、必要に応じて読み出すことができる。
 <対処履歴DB12の具体例>
 次に、上述した対処履歴DB12の具体例について、図を用いて説明する。図10は、対処履歴DBの具体例を示す図である。図10に示す対処履歴DB12は、テナント毎に過去に実施された対処履歴を示している。対処履歴DB12の項目としては、例えば「テナントID」、「対処実績」、「行った対処」、「対処日」、「対処結果」等を含むが、これに限定されるものではない。
 「テナントID」は、クラウドシステム14に存在する各テナントを識別するための情報である。「対処実績」は、例えばテナント毎に生じた障害等のイベントの発生に対応して生成されるレコード情報である。
 「行った対処」は、対処実績に対応して実施された対処内容を格納する。例えば、1つの対処実績に対して複数の対処を行った場合には、その複数の対処を格納する。
 「対処日」は、対処を行った日を格納する。「対処日」には、例えば時間情報等を含めてもよい。「対処結果」は、対処の結果として効果があった場合と、効果がなかった場合とを区別するための情報を格納する。図10の例では、「対処結果」として効果があった場合に"○"をセットし、効果がなかった場合に"×"をセットしているが、セットされる情報については、これに限定されるものではない。例えば、「対処結果」には、"1"と"0"、"有"と"無"、"OK"と"NG"等のような区別情報を用いて格納してもよい。
 図10の示す対処履歴DB12には、「テナントID」が"テナント1"の場合に、Tenatn1_Record1~3の3つの対処実績が格納されている。"Tenatn1_Record1"では、"OP1"の対処を、"2011/10/01"に行い、その結果として効果が得られなかったことを示している(「対処結果」が"×")。
 また、"Tenatn1_Record2"では、"OP2"の対処を"2011/11/01"に行い、その結果として効果が得られたことを示している(「対処結果」が"○")。また、"Tenatn1_Record3"では、"OP3"の対処を"2011/12/01"に行い、その結果として効果が得られたことを示している(「対処結果」が"○")。
 <各対処方法について有用度の算出例>
 本実施形態では、上述した各情報を用いて各対処方法に対する有用度を算出する。以下の例では、対処方法"OP1"における有用度を算出する。
 図10に示す対処履歴DB12において、対処方法"OP1"が実施された履歴(対処実績)は、"Tenant1_Record1","Tenant2_Record1","Tenant3_Record1","Tenant4_Record1","Tenant5_Record1"になる。したがって、本実施形態では、上述した対処履歴情報と、上述した(1)式とを用いて有用度を求める。以下の例では、"Tenant2_Record1"の場合について説明する。
 <類似度算出の具体例>
 まず、本実施形態では、既存のテナント(ここでは、"テナント2")と新テナントとの類似度を求める。具体的には、例えば図8(B)に示すシステム構成情報に含まれるテナント2の情報を以下に示す(3)式に代入して、テナント2と新テナントとの類似度を算出する。類似度の算出は、例えばコサインベースの関数で求めることができるが、これに限定されるものではない。
Figure JPOXMLDOC01-appb-M000003
なお、上述した(3)式の算出結果により、テナント2と新テナントとの類似度Similarity(テナント2,新テナント)=3/4であることが分かる。
 <相関関係ベースでの類似度算出>
 また、類似度算出の他の例として、例えば相関関係ベースで類似度を算出することができる。この場合には、例えば以下に示す定義式((4)式)を用いてAとBとの類似度を算出することができる。
Figure JPOXMLDOC01-appb-M000004
なお、上述した(4)式の変数iは、例えば図8(B)に示す所定の項目数に対応する。
 したがって、上述した(4)式の相関関係ベースの類似度算出式を用いて、テナント2と新テナントとの類似度を算出した結果、以下に示す(5)式のようになる。
Figure JPOXMLDOC01-appb-M000005
 例えば、上述した(5)式では、テナント2及び新テナントは、共に図8(B)に示すシステム構成、アクセスパターン(平均リクエスト数)、アクセスパターン(リクエスト数の分散)の全項目12個のうち、8個に"1"がセットされている。したがって、それぞれのベクトル値は、8/12=2/3となる。
 また同様に、図8(B)に示すシステム構成情報等を用いて、テナント2と新テナントとの相関関係ベースの類似度(Similarity_Corr(テナント2,新テナント))を求めることができる。
 <調整コサインベースでの類似度算出>
 また、類似度算出の他の例としては、例えば調整コサインベースで求めることができる。この場合には、例えば以下に示す定義式((6)式)を用いてAとBとの類似度を算出することができる。
Figure JPOXMLDOC01-appb-M000006
なお、上述した(6)式の変数iは、例えば図8(B)に示す所定の項目数に対応し、変数cは、各項目に対する評価平均に対応する。
 したがって、上述した(6)式の調整コサインベースの類似度算出式を用いて、テナント2と新テナントとの類似度を算出した結果、以下に示す(7)式のようになる。
Figure JPOXMLDOC01-appb-M000007
 例えば、上述した(7)式では、図8(B)に示すシステム構成の項目「LB」について、テナント1~6と新テナントの7個のテナントの全てに"1"がセットされているため、ALB,BLBの評価平均のベクトル値は、7/7=1となる。また、システム構成の項目「AP2」については、テナント1及びテナント4以外の5つのテナントに"1"がセットされている。そのため、AAP3,BAP3の評価平均のベクトル値は、5/7となる。そのようにして、所定の項目に対して評価平均ベクトルを算出することができる。
 上述した(7)式におけるAVG_Small(Middle,Large)は、図8(B)におけるアクセスパターン(平均リクエスト数)の小(中,大)に対応している。また、上述した(7)式におけるPATTERN_Small(Middle,Large)は、図8(B)におけるアクセスパターン(リクエスト数の分散)の小(中,大)に相当する。
 これにより、テナント2と新テナントとの調整コサインベースの(類似度Similarity_Adjusted_Cos(テナント2,新テナント))を求めることができる。
 <タイミング評価の具体例>
 次に、本実施形態では、"Tenant2_Record1"が実施されたタイミング(Timing(t))を評価する。
 図11は、タイミングを評価する様子を説明するための図である。図11には、上述した図10に示す対処履歴DB12と、図8(B)に示すシステム構成情報とが示されている。上述した情報に対して、所定の尺度を用いてタイミングを評価する。所定の尺度としては、例えば1か月を1として計算することができるが、これに限定されるものではない。
 図10の対処履歴DB12及び図8(B)に示すシステム構成情報のデータによれば、"Tenant2_Record1"の場合、テナント2の開始日(システム作成日時"2010/12/01")から対処を実施した日"2011/10/01"まで10か月である(t=10)。
 そこで、t(評価対象システムのリリース(システム作成日時"2010/12/01")から新テナントのシステム作成日時"2012/02/01"の経過時間)=14と、t(対処した時点)=10として、タイミングの評価値を図11に示す式により求めると、Timing(t)=(3/14)となる。
 <対処結果の具体例>
 次に、本実施形態では、"Tenant2_Record1"の対処結果を求める。対処結果として効果があった場合は、"1"とし、効果がなかった場合は"0"とすると、図10の対処履歴DB12によれば、"Tenant2_Record1"の場合に効果があったので"1"となる。
 本実施形態では、上述した"Tenant2_Record1"に対する評価の算出例と同様の処理を、対処実績(Record)毎に行う。また、本実施形態では、対処実績毎に得られる類似度、タイミング評価、及び対処結果の値を乗算して、対処実績毎に有用度の算出(評価)を行う。更に、本実施形態では、各対処実績の評価結果を対処方法(OP1、OP2、OP3)毎に加算して、各対処方法の有用度を求める。その結果、OP1、OP2、OP3のそれぞれの有用度(Usefulness)は、以下に示す(8)~(10)式のようになる。
Figure JPOXMLDOC01-appb-M000008
 次に、本実施形態では、上述した各対処に対する有用度に基づいて新システムに採用する対処方法を決定する。本実施形態では、例えば全対処方法に対する有用度の平均値を閾値とし、各対処方法の有用度が閾値以上であれば、新システムに採用する対処方法とする。平均値は、以下に示す(11)式のように算出され、その結果は、0.048となる。
Figure JPOXMLDOC01-appb-M000009
 また、上述した(8)~(10)式に示すようにOP1~OP3のそれぞれの有用度(Usefulness)は、0.034、0.056,0.053である。
 したがって、OP2,OP3は、新システムの対処方法に採用し、OP2,OP3に基づいて新システムの対処方法が作成されることになる。
 なお、その他の採用判定方式としては、例えば過去の実施履歴から得られる評価値と、有効に使われた対処方法の件数の統計値とを求め、ある一定以上の対処領域をカバーする評価値を閾値とし、その閾値を用いて採用する対処方法を決定してもよい。
 上述したように、本実施形態によれば、1又は複数の既存システムと、新システムとの類似度に基づいて、類似性の高い既存システムを抽出し、抽出した既存システムに対する対処方法を用いて、新システムに対する対処方法の候補を作成することでシステム運用等に対する適切な対処方法を作成することができる。
 また、本実施形態によれば、有用度を用いて既存システムにおける過去の対処方法の評価を行うことで、新システムのリリース直後から効果的な対処が過不足なく対処方法に盛り込むことができ、適切な対処方法を作成することができる。また、本実施形態により作成された対処方法を用いることで、効率の良い運用が可能になる。
 また、本実施形態によれば、例えば既存の対処グラフから各オペレーション(操作)に対する有用度を算出し、算出された有用度に応じて採用する対処グラフを決定することができる。したがって、本実施形態では、新システム等のように過去の実績がなくても対処グラフを作成でき、障害等のイベントに応じた迅速な対処が可能となる。なお、本実施形態は、上述したクラウドシステムに限定されず、例えば1又は複数のコンピュータ及び1又は複数の中継装置等を備える分散処理システムの運用等にも広く適用することができる。
 以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、上述した実施例の構成要素を全部又は複数を組み合わせることも可能である。
 10 運用対処方法作成システム
 11 情報処理装置
 12 対処履歴データベース
 13 管理者端末
 14 クラウドシステム
 15 通信ネットワーク
 21 テナント用運用管理サーバ
 22 アプリケーションサーバ
 23 DBサーバ
 31 入力手段
 32 出力手段
 33 記憶手段
 34 標本抽出手段(抽出手段)
 35 有用度算出手段
 36 対処方法作成手段
 37 画面生成手段
 38 送受信手段
 39 制御手段
 41 入力装置
 42 出力装置
 43 ドライブ装置
 44 補助記憶装置
 45 主記憶装置
 46 CPU
 47 ネットワーク接続装置
 48 記録媒体

Claims (8)

  1.  1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、前記新システムと所定の類似度を持つ1以上の既存システムを抽出し、
     抽出した前記既存システムに対応する所定のイベントに対する対処方法を用いて前記新システムについてのイベント対処方法の候補を作成する、処理をコンピュータに実行させる対処方法作成プログラム。
  2.  抽出した前記既存システムに対応する前記対処方法について、前記新システムに採用する指標を表す有用度を算出し、
     算出した前記有用度に基づいて、新規作成又は構成変更された新システムに採用する対処方法を決定し、
     決定した対処方法を用いて前記新システムに対応する対処方法を作成することを特徴とする請求項1に記載の対処方法作成プログラム。
  3.  前記既存システムと前記新システムとのシステム構成情報の類似性、前記既存システムで過去に実施された対処方法を対応したタイミング、及び、前記対処方法における効果の有無のうち、少なくとも1つに基づいて前記有用度を算出することを特徴とする請求項2に記載の対処方法作成プログラム。
  4.  前記有用度は、
     所定の評価関数を用いて算出することを特徴とする請求項2又は3の何れか1項に記載の対処方法作成プログラム。
  5.  各対処方法に対して算出された有用度が予め設定された閾値以上である場合に、前記新システムに採用する対処方法として決定し、
     前記閾値は、算出された全対処方法に対する有用度の平均値であることを特徴とする請求項2乃至4の何れか1項に記載の対処方法作成プログラム。
  6.  前記1又は複数の既存システムは、クラウドコンピューティングにより実現されたシステムを含むことを特徴とする請求項1乃至5の何れか1項に記載の対処方法作成プログラム。
  7.  1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、前記新システムと所定の類似度を持つ1以上の既存システムを抽出する抽出ステップと、
     前記抽出ステップにより抽出した前記既存システムに対応する所定のイベントに対する対処方法を用いて前記新システムについてのイベント対処方法の候補を作成する対処方法作成ステップと、を有することを特徴とする対処方法作成方法。
  8.  1又は複数の既存システムのシステム構成と、新規作成又は構成変更された新システムのシステム構成との類似度に基づいて、前記新システムと所定の類似度を持つ1以上の既存システムを抽出する抽出手段と、
     前記抽出手段により抽出した前記既存システムに対応する所定のイベントに対する対処方法を用いて前記新システムについてのイベント対処方法の候補を作成する対処方法作成手段と、を有することを特徴とする情報処理装置。
PCT/JP2012/084222 2012-12-28 2012-12-28 対処方法作成プログラム、対処方法作成方法、及び情報処理装置 WO2014103071A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP12890969.4A EP2940585A4 (en) 2012-12-28 2012-12-28 PROGRAM FOR CREATING A RESPONSE PROCESS, METHOD FOR CREATING A RESPONSE PROCESS AND INFORMATION PROCESSING DEVICE
PCT/JP2012/084222 WO2014103071A1 (ja) 2012-12-28 2012-12-28 対処方法作成プログラム、対処方法作成方法、及び情報処理装置
JP2014554046A JP6119767B2 (ja) 2012-12-28 2012-12-28 対処方法作成プログラム、対処方法作成方法、及び情報処理装置
US14/741,912 US9866440B2 (en) 2012-12-28 2015-06-17 Recording medium, handling method generation method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/084222 WO2014103071A1 (ja) 2012-12-28 2012-12-28 対処方法作成プログラム、対処方法作成方法、及び情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/741,912 Continuation US9866440B2 (en) 2012-12-28 2015-06-17 Recording medium, handling method generation method, and information processing apparatus

Publications (1)

Publication Number Publication Date
WO2014103071A1 true WO2014103071A1 (ja) 2014-07-03

Family

ID=51020216

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/084222 WO2014103071A1 (ja) 2012-12-28 2012-12-28 対処方法作成プログラム、対処方法作成方法、及び情報処理装置

Country Status (4)

Country Link
US (1) US9866440B2 (ja)
EP (1) EP2940585A4 (ja)
JP (1) JP6119767B2 (ja)
WO (1) WO2014103071A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740550B2 (en) 2014-06-13 2017-08-22 Fujitsu Limited Evaluation method and evaluation apparatus
JP7165840B1 (ja) * 2021-08-31 2022-11-04 楽天グループ株式会社 不正検知システム、不正検知方法、及びプログラム
JP2022181740A (ja) * 2021-05-27 2022-12-08 株式会社日立製作所 情報処理システム及び方法並びに装置
JP7457743B2 (ja) 2022-03-22 2024-03-28 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、プログラム及び記録媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9900211B1 (en) * 2014-10-01 2018-02-20 Crimson Corporation Systems and methods for network management
JP6579995B2 (ja) * 2016-04-26 2019-09-25 三菱電機株式会社 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314751A (ja) 1995-05-18 1996-11-29 Hitachi Ltd 障害対策支援方法
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
WO2009122525A1 (ja) * 2008-03-31 2009-10-08 富士通株式会社 トラブル対処システム、方法およびそのためのプログラム
JP2010072834A (ja) 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680635B2 (en) * 2003-09-19 2010-03-16 Hewlett-Packard Development Company, L.P. Configuration system and method
JP2005301859A (ja) * 2004-04-15 2005-10-27 Fujitsu Ltd コード検索プログラム及びコード検索装置
JP4944391B2 (ja) * 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
WO2007087136A2 (en) * 2006-01-13 2007-08-02 Velocity11 System and method for error recovery
US20080059120A1 (en) * 2006-08-30 2008-03-06 Fei Xiao Using fault history to predict replacement parts
JP5428934B2 (ja) * 2010-02-22 2014-02-26 富士通株式会社 障害パターン生成プログラムおよび障害パターン生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314751A (ja) 1995-05-18 1996-11-29 Hitachi Ltd 障害対策支援方法
JP2006053728A (ja) * 2004-08-11 2006-02-23 Nec Corp 障害対処ルール伝播方法、障害復旧装置およびプログラム
WO2009122525A1 (ja) * 2008-03-31 2009-10-08 富士通株式会社 トラブル対処システム、方法およびそのためのプログラム
JP2010072834A (ja) 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MITSUHIRO OONO: "Service-oriented policy refinement method on autonomous system management", IEICE TECHNICAL REPORT 0913-5685, vol. 105, no. 227, 29 July 2005 (2005-07-29), pages 13 - 18, XP008177182 *
See also references of EP2940585A4

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740550B2 (en) 2014-06-13 2017-08-22 Fujitsu Limited Evaluation method and evaluation apparatus
JP2022181740A (ja) * 2021-05-27 2022-12-08 株式会社日立製作所 情報処理システム及び方法並びに装置
JP7339298B2 (ja) 2021-05-27 2023-09-05 株式会社日立製作所 情報処理システム及び方法並びに装置
JP7165840B1 (ja) * 2021-08-31 2022-11-04 楽天グループ株式会社 不正検知システム、不正検知方法、及びプログラム
WO2023032044A1 (ja) * 2021-08-31 2023-03-09 楽天グループ株式会社 不正検知システム、不正検知方法、及びプログラム
JP7457743B2 (ja) 2022-03-22 2024-03-28 Necパーソナルコンピュータ株式会社 情報処理方法、情報処理装置、プログラム及び記録媒体

Also Published As

Publication number Publication date
EP2940585A1 (en) 2015-11-04
US20150288568A1 (en) 2015-10-08
US9866440B2 (en) 2018-01-09
JPWO2014103071A1 (ja) 2017-01-12
EP2940585A4 (en) 2016-01-06
JP6119767B2 (ja) 2017-04-26

Similar Documents

Publication Publication Date Title
JP6119767B2 (ja) 対処方法作成プログラム、対処方法作成方法、及び情報処理装置
EP3874372B1 (en) Automatically performing and evaluating pilot testing of software
JP5984149B2 (ja) ソフトウェアを更新する装置及び方法
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US20190286509A1 (en) Hierarchical fault determination in an application performance management system
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
JP2016212547A (ja) 情報提供プログラム、情報提供装置、及び情報提供方法
US10942801B2 (en) Application performance management system with collective learning
US11138060B2 (en) Application performance management system with dynamic discovery and extension
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
US20190215227A1 (en) Modifying computer configuration to improve performance
JP2016192185A (ja) なりすまし検出システムおよびなりすまし検出方法
JP2015109074A (ja) ルールの自動化された生成および動的な更新
US11153183B2 (en) Compacted messaging for application performance management system
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
US9286036B2 (en) Computer-readable recording medium storing program for managing scripts, script management device, and script management method
US10848371B2 (en) User interface for an application performance management system
WO2014188638A1 (ja) 共有リスクグループ管理システム、共有リスクグループ管理方法および共有リスクグループ管理プログラム
US20170109670A1 (en) Crowd-Based Patterns for Identifying Executions of Business Processes
US10817396B2 (en) Recognition of operational elements by fingerprint in an application performance management system
JP2018063518A (ja) 管理サーバ、管理方法及びそのプログラム
CN113778973A (zh) 数据存储方法和装置
WO2020005620A1 (en) Insight ranking based on detected time-series changes
CN118092988A (zh) 一种服务器固件的升级方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12890969

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014554046

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2012890969

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE