WO2015159549A1 - 可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体 - Google Patents

可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体 Download PDF

Info

Publication number
WO2015159549A1
WO2015159549A1 PCT/JP2015/002092 JP2015002092W WO2015159549A1 WO 2015159549 A1 WO2015159549 A1 WO 2015159549A1 JP 2015002092 W JP2015002092 W JP 2015002092W WO 2015159549 A1 WO2015159549 A1 WO 2015159549A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
failure
availability
states
transition
Prior art date
Application number
PCT/JP2015/002092
Other languages
English (en)
French (fr)
Inventor
文雄 町田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2016513646A priority Critical patent/JPWO2015159549A1/ja
Priority to US15/129,919 priority patent/US20170147459A1/en
Publication of WO2015159549A1 publication Critical patent/WO2015159549A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Definitions

  • the present invention relates to an availability analyzer that can analyze availability related to an information processing system and the like.
  • Availability is one of the indexes for quantitatively evaluating the reliability (availability) of an IT (Information_Technology) system (hereinafter referred to as “target system”).
  • the availability represents the probability that the target system is in a usable state when the state of the target system changes (changes) over time.
  • the business operator operating the target system calculates the availability based on the configuration of the target system or information representing the state of the target system.
  • the business operator quantitatively evaluates the reliability of the target system based on the calculated availability.
  • the business operator searches for defects related to the target system based on the calculated availability.
  • the business operator creates an improvement plan based on the calculated availability.
  • the availability is calculated based on a state transition (State_Transition) model.
  • a procedure for calculating availability based on a stochastic process such as a continuous-time Markov chain includes a procedure 1 and a procedure 2. That is, (Procedure 1) Expressing the state transition related to the target system as a model, (Procedure 2) The probability that the target system is in an available state is calculated by analyzing the stochastic process based on the model.
  • Patent Document 1 discloses an apparatus that uses a Markov chain model as a technique for evaluating the availability of a complex target system. That is, the apparatus creates a Markov chain model for the target system using the failure rate and recovery rate for the components of the target system. Next, the apparatus evaluates the availability regarding the target system by analyzing the state transition represented by the created Markov chain model.
  • Patent Document 2 discloses a method of expressing a target system as a model by combining a state transition model and a fault tree (Fault_Tree), and analyzing availability regarding the target system based on the model.
  • Fault_Tree fault tree
  • a model for analyzing availability results in a model related to a continuous-time Markov chain. That is, availability is calculated using a means for analyzing continuous time Markov chains.
  • the number of states of the target system increases, the number of transitions between the states increases rapidly according to the combination of those states. For example, when the number of states of the target system is N (where N is a natural number), the matrix Q representing the transition between the states has N square elements. Therefore, a large amount of memory (storage device) is consumed by storing the matrix Q in the storage device.
  • the availability evaluation method based on the state transition analysis has a problem that the analysis becomes difficult rapidly as the number of states of the target system increases.
  • a main object of the present invention is to provide an availability analysis device and the like that can perform availability analysis even for a large scale target system.
  • an availability analysis device includes: (I) component information indicating a transition rate between states of components included in the target system, and (II) a failure state indicating a state in which the target system cannot be operated among a plurality of states that the target system can take.
  • Failure information including a condition indicating a state of the component in (III), and (III) recovery information including a transition rate when the target system transitions from the failure state to an operating state indicating the state in which the target system is operating And calculating a value between two states included in the plurality of states, calculating a probability that the target system is in a certain state based on the calculated value between the two states, and calculating the target Analysis for calculating availability related to the target system based on the probability when the system is in the operating state Equipped with a stage.
  • the availability analysis method includes: (I) component information indicating a transition rate between states of components included in the target system, and (II) a failure state indicating a state in which the target system cannot be operated among a plurality of states that the target system can take.
  • Failure information including a condition indicating a state of the component in (III), and (III) recovery information including a transition rate when the target system transitions from the failure state to an operating state indicating the state in which the target system is operating And calculating a value between two states included in the plurality of states, calculating a probability that the target system is in a certain state based on the calculated value between the two states, and calculating the target Based on the probability when the system is in the operating state, the availability regarding the target system is calculated.
  • this object is also realized by such an availability analysis program and a computer-readable recording medium on which the program is recorded.
  • availability can be analyzed even for a large target system.
  • FIG. 2 is a block diagram illustrating an example of a configuration of a storage system that employs RAID.
  • FIG. It is a figure which represents notionally an example of the continuous time Markov chain regarding a memory
  • the state in which the target system is operating and the state indicating the failure of the target system transitions.
  • an infinitesimal generator matrix (hereinafter referred to as “matrix”) Q.
  • the continuous time Markov chain is Continuous_Time_Markov_Chain.
  • the infinitesimal generator matrix is Infinitesimal_generator_matrix.
  • Each row in matrix Q is associated with one state for the target system in a continuous time Markov chain.
  • each column in matrix Q is associated with one state for the target system in a continuous time Markov chain.
  • the transition rate (rate) of transition between two different states is expressed as a component related to the matrix Q. When the average transition time is T (where T> 0), the transition rate can be expressed as, for example, “1 ⁇ T”.
  • the target system is represented using a first state to an Nth state (where N is a natural number).
  • N is a natural number
  • the I th row of the matrix Q and the I th column of the matrix Q represent the I th state
  • the J th row of the matrix Q and the J th column of the matrix Q represent the J th state.
  • the matrix Q is a square matrix, and I is 1 ⁇ I ⁇ N.
  • J is 1 ⁇ J ⁇ N.
  • the element in the I-th row and the J-th column of the matrix Q represents the transition rate for transition from the I-state to the J-th state.
  • the elements in the I-th row and the I-th column of the matrix Q are values calculated according to the definition of the continuous-time Markov chain.
  • the state of the target system is associated with a state identifier that can uniquely identify the state. Further, when the target system has a plurality of components, it is assumed that the state of the target system is associated with a combination of states related to the component.
  • the target system is composed of a plurality of components (elements).
  • the component is an element (component) included in the target system.
  • the target system is an information processing apparatus, the component represents, for example, a memory, a hard disk, or the like.
  • the target system is a factory, the component represents, for example, a machine, a communication device, or the like in the factory.
  • the state in which the component is operating may be referred to as “component operating state”, and the state in which the component has a failure may be referred to as “component failure state”.
  • a state related to a component may be expressed as a “component state”.
  • a state in which the target system is operating may be referred to as a “system operating state”
  • a state in which the target system has a failure and cannot be operated may be referred to as a “system fault state”.
  • the state related to the target system may be expressed as “system state”.
  • an element in the I-th row and the J-th column of the matrix Q is represented as an (I, J) element.
  • the (I, J) element of the matrix Q is represented as Q (I, J).
  • Q (I, I) ⁇ ( ⁇ (J ⁇ I) Q (I, J)) (Formula 1).
  • a continuous time Markov chain can be analyzed.
  • a probability vector ⁇ (numerical string ⁇ ) representing a steady state after a sufficiently long time can be obtained as a solution to the equation shown in Equation 2.
  • the availability in the steady state related to the target system is ⁇ 1 .
  • FIG. 1 is a block diagram showing the configuration of the availability analysis apparatus 101 according to the first embodiment of the present invention.
  • the availability analysis apparatus 101 includes a calculation unit 102 and an analysis unit 103.
  • the availability analysis apparatus 101 may further include an input unit 104.
  • FIG. 4 is a flowchart showing the flow of processing in the input unit 104.
  • the input unit 104 receives component information related to a plurality of components included in the target system that is the target for evaluating the availability 503 (step S201).
  • the component represents a component included in the target system.
  • the component represents a storage device included in the storage system, a control device that controls the storage device, and the like.
  • the target system is software
  • the component represents a function, a module, or the like included in the software.
  • the component information includes information related to state transitions defined in advance according to the type of the component.
  • FIG. 5 is a diagram conceptually illustrating an example of component information.
  • the component information may include information regarding a plurality of components.
  • ⁇ c represents a transition rate at which the component transitions from the component operating state to the component failure state. That is, ⁇ c represents a transition rate (failure rate) at which the component transitions from the component operating state to the component failure state. Further, mu c represents a transition rate component transitions the component operating state from component failure state (recovery rate).
  • the component information includes information such that the first component state relating to the component represents the component operating state and the second component state relating to the component represents the component failure state.
  • the component information includes a transition rate of transition from the first component state to the second component state with respect to the component.
  • the component information includes, for example, information regarding a transition rate at which the second component state transitions to the first component state.
  • the input unit 104 may generate a state transition model related to the target system based on the received component information, and store the state transition model in a storage unit (not shown) (step S202).
  • a state related to the target system is represented using nodes, and a transition from the first state to the second state connects the node representing the first state and the node representing the second state. It is expressed using Moreover, the transition rate showing the ease of the transition between a 1st state and a 2nd state may be attached
  • the state transition model is conceptually expressed using a graph.
  • the input unit 104 receives operation information including one or more operation conditions representing a condition in which the target system is in the system operation state, and stores the operation information in a storage unit (not shown) (step S203).
  • the operating condition is expressed using a component state related to a component included in the target system.
  • the operating condition is represented by, for example, combining state identifiers representing component states.
  • the operation information includes one or more operation conditions.
  • the component operating state is represented as 0, and the component failure state is represented as 1.
  • the operating condition is expressed as a logical sum of component states related to one or more components. This indicates that the target system is in the system operating state when all the components included in the target system are in the component operating state. In addition, when any one of the components is in a component failure state, the value of the operating condition is 1. In this case, the target system represents a system failure state.
  • the operating condition may be whether or not the number of components in a specific component state is less than a predetermined value K.
  • the operation condition represents a condition “the target system is in the system operation state when (M ⁇ K) or more components are in the component operation state”.
  • M is an integer of 1 or more that represents the number of components that the target system has. Further, 0 ⁇ K ⁇ M.
  • the input unit 104 receives failure information including one or more failure conditions indicating a condition in which the target system is in a system failure state, and stores the failure information in a storage unit (not shown) (step S204).
  • the failure condition is expressed using a component state relating to a component included in the target system.
  • the failure condition is represented by combining state identifiers representing component failure states (hereinafter also referred to as “third state identifiers” for convenience of explanation).
  • the failure information includes one or more failure conditions.
  • a failure condition is represented as a logical product of component states for one or more components. This indicates that the target system is in a system fault state when all components included in the target system are in a component fault state.
  • the failure condition may be whether or not the number of components in a specific component state is a predetermined value K or more.
  • the failure condition represents a condition “when the target system is in a system failure state when K or more components are in a component failure state”.
  • system state after recovery is the system operating state.
  • system state after recovery does not necessarily need to be the system operating state or the system operating state before the transition to the system failure state. The same applies to the following embodiments.
  • the input unit 104 receives the recovery information related to the target system, and stores the received recovery information in a storage unit (not shown) (step S205).
  • the recovery information the failure condition, the system operating state related to the target system after recovery from the system failure state when the failure condition is satisfied, and the ease of transition when transitioning from the system failure state to the system operating state Is associated with a transition rate representing the length.
  • the failure condition included in the recovery information may be a state identifier associated with the failure condition.
  • the recovery rate represents a transition rate at which a transition from the system failure state to the system operating state is made.
  • the failure condition is represented using a state identifier representing the system failure state.
  • the state identifier (that is, the third state identifier) represented by the failure condition, the system operating state, and the transition rate may be associated with each other.
  • the third state identifier, the state identifier associated with the system operating state (hereinafter also referred to as “fourth state identifier” for convenience of description), and the transition rate may be associated. Good.
  • a state (0, 0) indicating a system operation state recovered from a system failure state when the failure condition A is satisfied, and a transition rate when transitioning from the system failure state to the system operation state are associated with each other.
  • the failure condition A is a condition that indicates whether both the component 1 and the component 2 are in the component failure state.
  • the failure condition A is whether or not the system state is the state (1, 1).
  • the system state satisfies the failure condition A.
  • the target system is in a system failure state.
  • the system state (1, 0) indicates that the component 1 is in a component failure state and the component 2 is in a component operating state. Therefore, the system state (1, 0) does not satisfy the condition A. For this reason, the target system is not in a system failure state.
  • FIG. 2 is a flowchart showing the flow of processing in the availability analysis apparatus 101 according to the first embodiment. This example is an example of a continuous time Markov chain.
  • a numerical sequence to be updated is represented as a numerical sequence (vector) ⁇ (k) .
  • the calculation unit 102 determines the transition rate (ie, Q (I, J)) when the system state transitions from the I-th system state to the J-th (where 1 ⁇ J ⁇ N) system state, and Q (I Assume that I, I) is calculated.
  • the calculation unit 102 does not necessarily need to calculate the transition rate itself, and may be a value calculated based on the transition rate.
  • the analysis unit 103 calculates a numerical sequence ⁇ (1) in the first process.
  • the numerical sequence ⁇ (1) may be a numerical sequence in which only one element is 1 and the other elements are 0. Further, the numerical sequence ⁇ (1) may be a numerical sequence calculated according to a specific procedure.
  • the analysis unit 103 in the processing of the k-th calculates, for calculating the numerical sequence [pi a (k + 1).
  • the analysis unit 103 does not update ⁇ i (k) when q ii is 0.
  • the analysis unit 103 refers to q ij and q ii in Equation 3. For example, when referring to q ij , the analysis unit 103 calculates i (state identifier, expressed as “first state identifier”) and j (state identifier, expressed as “second state identifier”). 102.
  • the calculation unit 102 receives the first state identifier and the second state identifier. Next, the calculation unit 102 determines a value in the case of transition from the I system state represented by the received first state identifier to the J system state represented by the second state identifier, or Q (I, I) according to Equation 1. Is calculated (step S101). The calculation unit 102 transmits the calculated value to the analysis unit 103.
  • the analysis unit 103 receives the value calculated by the calculation unit 102, updates the numerical sequence ⁇ (k) according to Equation 3 with the received value as q ij or q ii (step S102).
  • the analysis unit 103 transmits i (ie, the first state identifier) and i (ie, the second state identifier) to the calculation unit 102. Similar to the above-described processing, the analysis unit 103 receives the value calculated by the calculation unit 102 according to Equation 1, sets the received value as q ii , and converts the numerical sequence ⁇ (k) into the numerical sequence ⁇ (k + 1 ) according to Equation 3. ) .
  • the analysis unit 103 determines that the numerical sequence ⁇ (k) when the difference between the numerical sequence ⁇ (k) and the numerical sequence ⁇ (k + 1) is smaller than the predetermined value ⁇ (that is, the inequality shown in Expression 4 ). The process of updating is terminated.
  • the analysis unit 103 calculates a numerical sequence ⁇ (k + 1) .
  • the analysis unit 103 calculates availability based on the calculated numerical sequence ⁇ (k + 1) .
  • the analysis unit 103 calculates the availability of the target system by calculating the sum of ⁇ I (k + 1) with respect to the I system state representing the system operating state regarding the target system.
  • FIG. 3 is a flowchart illustrating a processing flow in the calculation unit 102 according to the first embodiment.
  • the calculation unit 102 receives the first state identifier and the second state identifier. Next, the calculation unit 102 determines whether or not the I system state represented by the first state identifier is a system failure state (step S103). For example, the calculation unit 102 executes the determination process shown in step S103 based on whether or not the failure information 501 includes the first state identifier. That is, as described above, since the failure condition is expressed using the state identifier associated with the system failure state, the calculation unit 102 calculates the state identifier associated with the failure state and the first state identifier. Compare.
  • calculation unit 102 represents the system operating state associated with the first state identifier from recovery information 502. Read the state identifier and transition rate.
  • the system operating state may be a state identifier associated with the operating state.
  • the calculation unit 102 determines whether or not the read state identifier indicating the system operating state matches the second state identifier (step S104).
  • the calculation unit 102 executes the process shown in step S104 for each system operating state.
  • calculation unit 102 transmits a value calculated based on the read transition rate to analysis unit 103. (Step S105).
  • calculation unit 102 determines whether or not the first state identifier and the second state identifier match. Determination is made (step S109). When the first state identifier and the second state identifier do not match, the calculation unit 102 calculates 0 as a value, and transmits the calculated 0 to the analysis unit 103 (step S106). When the first state identifier and the second state identifier match, the calculation unit 102 calculates a recovery rate ⁇ ( ⁇ 1) (that is, a value obtained by adding a minus to the recovery rate) as a value, and the calculated value Is transmitted to the analysis unit 103 (step S108). In this case, the recovery rate represents a transition rate at which the system failure state represented by the first state identifier transitions to a state recovered with respect to the system failure state.
  • the calculation unit 102 reads a state identifier adjacent to the first state identifier in the state transition model. Being adjacent to a certain state identifier represents a system state that can be shifted directly from the first system state represented by the certain state identifier without passing through a different system state in the state transition model. In this case, the calculation unit 102 performs transition from the I system state represented by the first state identifier to the J system state represented by the second state identifier according to a predetermined calculation procedure (method) based on the component information. A transition rate is calculated (step S107).
  • the predetermined calculation procedure is a procedure for calculating the Kronecker sum regarding the state transition model representing the component.
  • the predetermined calculation procedure is based on the fact that the generator matrix that represents the transition relating to the system state of the target system including components that are processed independently of each other is the Kronecker sum relating to the generator matrix Q k that represents the transition relating to the component state relating to each component .
  • the procedure for calculating the Kronecker sum will be described later.
  • calculation unit 102 calculates the value based on the first state identifier and the second state identifier
  • calculation unit 102 calculates a value for each second state identifier based on the first state identifier and the plurality of second state identifiers. May be.
  • availability can be analyzed even for a large target system. This is because it is not necessary to store a matrix representing a transition from the first system state to the second system state.
  • the analysis unit 103 when calculating the availability, the analysis unit 103 requests a value necessary for calculation from the calculation unit 102 and refers to the value calculated by the calculation unit 102. As a result, the availability analyzer 101 does not need to store the value. This is because the calculation unit 102 can calculate the value based on the component information, the failure information, and the recovery information.
  • the availability analysis apparatus 101 does not store the matrix in the storage unit. Therefore, the availability analysis apparatus 101 can calculate the availability related to the target system even when the target system includes N or more system states.
  • the number of system states of the target system is determined according to the number of components that the target system has and the number of component states of the components. Therefore, according to the availability analysis apparatus 101, even when the number of components increases, it is not necessary to store all the elements of the matrix, so that the availability can be analyzed.
  • FIG. 6 is a block diagram showing the configuration of the availability analyzer 111 according to the second embodiment of the present invention.
  • FIG. 7 is a flowchart showing the flow of processing in the availability analyzer 111 according to the second embodiment.
  • the availability analyzer 111 includes a calculation unit 113 and an analysis unit 103.
  • the availability analyzer 111 may further include an input unit 112 and a creation unit 114.
  • the calculation unit 113 determines whether or not the non-reachable information includes any of the received state identifiers (step S111).
  • Non-reachable information is a state where one or more components have failed from the system failure state (because it is not necessary to consider the reachability for the purpose of availability analysis, it will be referred to as “non-reachable state” hereinafter. ) Is associated with the status identifier.
  • the calculation unit 113 may determine whether or not the reachable information includes any of the received state identifiers.
  • the reachable information includes a state identifier associated with a system state that is not in a non-reachable state (hereinafter, referred to as “reachable state”).
  • the non-reachable state is a failure state in which it is impossible to make a transition from the system operating state to the next.
  • the reachable state represents a system state that is not a non-reachable state.
  • FIG. 8 is a flowchart illustrating an example of a flow of processing for creating reachable information and the like.
  • the availability analyzer 111 receives reachable information or non-reachable information.
  • the availability analysis device 111 may include a creation unit 114 that creates reachable information or non-reachable information according to the processing illustrated in FIG.
  • the creation unit 114 creates a system state set ⁇ of the target system based on the component state regarding each component of the target system (step S211).
  • the creation unit 114 creates the system state of the target system by combining the component states for each component.
  • the target system has a component A and a component B.
  • the states regarding the component A are assumed to be a component state U a and a component state F a .
  • the states regarding the component B are assumed to be a component state U b and a component state F b .
  • component state F a will represent the component fault condition component A.
  • the component state F b represents a component fault state related to the component B.
  • the component state U a is assumed to represent a component operating state related to the component A.
  • the component state U b represents a component operating state related to the component B.
  • the creation unit 114 creates a set ⁇ of system states related to the target system as shown in Expression 5 by combining the component states related to each component (step S211).
  • (U a , U b ), (U a , F b ), (F a , U b ), or (F a , F b ) is an example of a system state.
  • the target system is assumed to be in a system fault state.
  • the system failure states related to the target system are the system failure state (U a , F b ), the system failure state (F a , U b ), and the system failure state (F a , F b). ).
  • the target system when the component B is in a component failure state, the target system is in a system failure state (U a , F b ).
  • the target system loses its inherent function in response to a system failure state (falls).
  • the target system is subjected to recovery processing according to the recovery procedure.
  • the state of the target system does not transit from the system state (U a , U b ) to the system state (F a , F b ) without going through one or more system fault states.
  • the non-reachable information is configured using a state identifier representing a system state (F a , F b ).
  • the non-reachable information includes a state identifier representing a system failure state that can be transited through one or more system failure states.
  • the reachable information is configured using a system identifier (U a , U b ), a system state (U a , F b ), and a state identifier representing the system state (F a , U b ).
  • the system fault state related to the target system is a case where three or more types of components are component fault states.
  • the non-reachable state regarding the system state is a case where four or more types of components are in a component failure state.
  • the creation unit 114 determines whether each element satisfies the failure condition related to the target system by applying the failure condition included in the failure information 501 to the element included in the set ⁇ (step S212).
  • the creation unit 114 collects elements (represented as “second elements”) having different component states (represented as “second elements”) constituting the system failure state by a set ⁇ with respect to the elements that are in a system failure state (denoted as “first elements”) Extract from
  • the creation unit 114 checks whether the second element satisfies the failure condition.
  • the creation unit 114 adds the first element to the non-reachable information when all the extracted second elements satisfy the failure condition (step S213). If there is an element that does not satisfy the failure condition among the extracted second elements, the creation unit 114 adds the first element to the reachable information.
  • the creation unit 114 adds the state identifier included in the operation information to the reachable information.
  • the input unit 112 receives reachability information about the target system from the outside or the creation unit 114, and stores the reachability information in a storage unit (not shown).
  • step S111 The processing after step S111 will be described with reference to FIG.
  • calculation unit 113 sets the value to 0 (step S113). Further, when non-reachable information does not include the received state identifier (YES in step S111), calculation unit 113 calculates a value according to the processing shown in steps S103 to S107 shown in FIG. S112).
  • the calculation time can be further shortened.
  • the reason is Reason 1 and Reason 2. That is, (Reason 1)
  • the configuration of the availability analyzer 111 according to the second embodiment includes the configuration of the availability analyzer 101 according to the first embodiment. (Reason 2) This is because processing related to the non-reachable state is reduced.
  • the calculation unit 113 first determines whether or not the system state represented by the first state identifier or the second state identifier represents a non-reachable state. The value is 0.
  • the calculation unit 113 executes processing related to step S112. Therefore, compared with the availability analysis apparatus 101 according to the first embodiment, processing related to step S112 is reduced. As a result, according to the availability analyzer 111 according to the present embodiment, the calculation time can be further shortened.
  • FIG. 9 is a block diagram showing the configuration of the availability analyzer 123 according to the third embodiment of the present invention.
  • FIG. 10 is a flowchart showing the flow of processing in the availability analyzer 123 according to the third embodiment.
  • the availability analysis device 123 includes a calculation unit 113, an analysis unit 124, a determination unit 121, and a transition information creation unit 122.
  • the determination unit 121 determines whether or not the number of state identifiers representing the reachable state included in the reachable information (hereinafter referred to as “reachable state number”) is less than a predetermined number (step S121). .
  • transition information creating unit 122 determines the reachable value based on the value calculated by calculating unit 113. Transition information representing a transition state between states is created (step S122). For example, the transition information creation unit 122 transmits a state identifier representing a reachable state to the calculation unit 113. The calculation unit 113 receives the state identifier, calculates a value related to the received state identifier, and transmits the calculated value to the transition information creation unit 122. The transition information creation unit 122 receives the value and stores the received value in the transition information. Transition information can be expressed using the infinitesimal generator matrix described above.
  • the analysis unit 124 calculates availability based on the transition information (step S123).
  • the transition information created by the transition information creation unit 122 is equivalent to an infinitesimal generator matrix related to the reachable state in the target system.
  • analysis unit 124 follows the processing shown in steps S101 and S102 in FIG. Is calculated (step S124).
  • the availability analysis device 123 in addition to the effects of the availability analysis device 111 according to the second embodiment, the availability can be calculated at a higher speed.
  • the reason is Reason 1 and Reason 2. That is, (Reason 1)
  • the configuration of the availability analyzer 123 according to the third embodiment includes the configuration of the availability analyzer 111 according to the second embodiment. (Reason 2) By creating transition information, it is not necessary to repeatedly calculate a transition rate or the like when transitioning from the I system state to the J system state.
  • the availability analyzer 123 creates transition information when the number of reachable states is less than a predetermined number. With this process, the availability analyzer 123 creates a situation in which the storage area for storing the transition information is limited and a situation in which the process for repeatedly calculating the transition rate and the like is avoided.
  • FIG. 11 is a block diagram showing a configuration of the availability analysis apparatus 133 according to the fourth embodiment of the present invention.
  • the availability analysis device 133 includes a calculation unit 113, an analysis unit 124, a determination unit 131, and a transition information creation unit 132.
  • the determination unit 131 determines whether the reachable state number included in the reachable information is less than a predetermined number.
  • the transition information creation unit 132 creates transition information that represents the state of transitions between reachable states. However, the transition information creation unit 132 processes the system failure state related to the target system as one system failure state. For example, as illustrated in the above-described example, when the target system includes the component A and the component B, the transition information creation unit 132 sets the system state (U a , F b ) and the system state (F a , U b ) are treated as one system failure state.
  • the system state (U a , F b ) and the system state (F a , U b ) represent a system failure state related to the target system.
  • the transition information creation unit 132 assigns one system state called F s to two system states called (U a , F b ) and (F a , U b ), for example.
  • the transition information creation unit 132 further assigns a system state U s to the system operating state (U a , U b ) related to the target system.
  • the transition information creation unit 132 since the system state (F a , F b ) is a non-reachable state, the transition information creation unit 132 does not assign a system state to (F a , F b ). That is, the transition information creation unit 132 processes two system states, U s and F s , as the system state of the target system.
  • the transition information creation unit 132 is, for example, a value calculated by the calculation unit 113 regarding a transition from the system state (U a , F b ) to a certain state and a calculation unit 113 regarding a transition regarding the system state (F a , U b ) With respect to the values calculated by, an operation described later is applied to the two values.
  • the transition information creation unit 132 executes processing with the two system states (U a , F b ) and (F a , U b ) as one system state F s .
  • the transition information creation unit 132 creates the matrix Q based on the calculated result, similarly to the transition information creation unit 122 according to the third embodiment.
  • FIG. 12 is a block diagram illustrating an example of a configuration of an information system including a storage system 522 that employs RAID.
  • the availability analyzer 133 calculates the availability related to the storage system 522 having a plurality of storage devices.
  • the storage device is a magnetic disk, a nonvolatile semiconductor memory, or the like.
  • the mode of the storage device is not limited to the above example.
  • RAID technology is one technology that improves the reliability and performance of storage systems.
  • Availability related to a storage system that employs RAID technology includes reliability related to storage devices possessed by RAID, efficiency related to data recovery processing when the storage device is in a failure state, and efficiency related to recovery processing when data is lost. Depends on etc.
  • the availability related to the storage system further depends on the RAID level that defines the mode of storing data.
  • the storage system calculates a parity regarding the data when storing the data in the storage device.
  • the storage system stores the data and the calculated parity in the storage device.
  • the storage device in the component failure state is replaced with a new storage device.
  • the storage system recovers data stored in the storage device in which the failure has occurred based on the calculated parity and data stored in another storage device, and stores the recovered data in a new storage device.
  • a storage system that employs RAID level 5 cannot recover data stored in a storage device having a failure based on parity when two storage devices of the storage device have a failure. In this case, the storage system is reconstructed based on the backup data or the like. The user cannot use the storage system during the period of rebuilding the storage system.
  • the storage system 522 includes a RAID (RAID level 5) controller 524, a storage device 525, a storage device 526, and a storage device 527.
  • the backup system 523 includes a storage device 528.
  • the host computer 521 can communicate with the storage system 522 and the backup system 523.
  • the backup system 523 stores the data stored in the RAID-configured storage apparatus configured by the RAID controller 524 in the storage apparatus 528.
  • a user who uses the storage system 522 reads and writes data stored in the storage device via the host computer 521. Further, the host computer 521 periodically backs up the data to the backup system 523 in preparation for the loss of data in the storage system 522, for example.
  • the host computer 521 analyzes the probability (availability) that the data stored in the storage system 522 can be accessed. That is, it is assumed that the availability analysis device 133 is included in the host computer 521.
  • the user inputs operation information regarding the storage system 522, information regarding each component, and the like to the input unit 104 (FIG. 1).
  • the input unit 104 generates a state transition model based on components (for example, the storage device 525 to the storage device 527) included in the storage system 522.
  • the RAID controller 524 is represented using a continuous-time Markov chain including two states of a component operating state and a component failure state, as illustrated in FIG.
  • the failure rate related to the RAID controller 524 is ⁇ c
  • the recovery rate related to the RAID controller 524 is ⁇ c
  • each of the storage device 525, the storage device 526, and the storage device 527 is represented using a continuous-time Markov chain including two states of a component operating state and a component failure state, as illustrated in FIG.
  • FIG. 13 is a diagram conceptually illustrating an example of a continuous time Markov chain related to a storage device.
  • the failure rate related to the storage device is ⁇ d
  • the recovery rate related to the storage device is ⁇ d .
  • component states related to the RAID controller 524, the storage device 525, the storage device 526, and the storage device 527 are represented as x 1 , x 2 , x 3 , and x 4 , respectively.
  • the set ⁇ representing the system state relating to the storage system 522 can be represented using a system state (x 1 , x 2 , x 3 , x 4 ) that is a combination of component states relating to each component.
  • the input unit 104 receives, for example, the operating condition A shown in Equation 6 as the operating information related to the storage system 522.
  • the operation information is not necessarily the logical expression shown in Expression 6.
  • the operating condition A represents an operating condition related to the storage system 522, and is 0 when the storage system 522 is in an operating state.
  • the system failure state related to the storage system 522 is when the RAID controller 524 is in a component failure state (Equation 7) or when two of the three storage devices are in a component failure state (Equation 8). ).
  • the input unit 104 receives Expression 7 and Expression 8 as the failure information 501 regarding the storage system 522.
  • Failure condition FC x 1 (Expression 7)
  • Failure condition FS x 2 ⁇ x 3 ⁇ x 2 ⁇ x 4 ⁇ x 3 ⁇ x 4 (Expression 8).
  • the value of either the failure condition FC or the failure condition FS is 1.
  • a recovery rate when recovering from a component fault condition RAID controller 524 to the components operating state and a C representing a recovery rate when recovering from a component fault condition RAID controller 524 to the components operating state and a C.
  • a recovery rate when the storage system 522 is reconstructed by restoring data from the backup system 523 when two of the three storage devices are in a failure state is denoted as a S.
  • the input unit 104 receives Expressions 9 and 10 as the recovery information 502 related to the storage system 522.
  • the input unit 104 may create the recovery information 502.
  • the analysis unit 124 generates a numerical sequence ⁇ (1) .
  • the numerical sequence ⁇ (1) includes 16 numerical values.
  • the numerical analysis method in the analysis unit 124 is, for example, the Jacobian method shown in the first embodiment.
  • numeric column [pi (k) is updated to the numerical sequence ⁇ (k + 1), when the difference between the numerical sequence [pi (k) a numeric string ⁇ (k + 1) is sufficiently small, numerical sequence [pi The process of updating (k) is terminated.
  • the analysis unit 124 calculates a part of q ij (for example, the matrix Q illustrated in FIG. 14A and FIG. 14B according to the process illustrated in each embodiment of the present invention. Reference only the value of q ij ) for the reachable state.
  • 14A and 14B are diagrams illustrating an example of a general matrix Q, which are divided into two drawings due to the illustrated constraints.
  • the i-th and j-th column component q ij included in the matrix Q represents a transition rate at which the i-th system state transitions to the j-th system state.
  • q ii represents a value obtained by multiplying the sum of transition rates from the i-th system state to a different system state by “ ⁇ 1”.
  • q ij is calculated by a calculation unit (for example, the calculation unit 102 and the calculation unit 113) according to a series of processes shown in the flowchart of FIG.
  • step S107 in FIG. 3 represents the process which the calculation part 113 calculates based on the Kronecker sum shown to Formula 13 mentioned later.
  • q ij and q ii are 0.
  • the analysis unit 124 may transmit the values of i and j to the calculation unit 113.
  • the calculation unit 113 calculates the value of q ij, and transmits the calculated q ij to the analysis unit 124.
  • Analysis unit 124 receives the q ij, based on the received q ij, updates numerical sequence ⁇ a (k).
  • the index I of the matrix Q can be obtained, for example, by applying the function illustrated in Expression 11 to the system state (x 1 , x 2 , x 3 , x 4 ) regarding the storage system 522.
  • the function may be a function that associates the system state related to the storage system 522 and the value of the index I of the matrix Q so as to correspond one-to-one.
  • the value “5” is calculated by applying Expression 11 to the system state (0, 1, 0, 0).
  • the system state (0, 1, 0, 0) is associated with the fifth system state, namely the fifth row in the matrix Q and the fifth column in the matrix Q.
  • q 5j (where j is an integer) represents a transition rate when transitioning from the fifth system state to the j-th system state.
  • q i5 (where i is an integer) represents a transition rate when transitioning from the i-th system state to the fifth system state.
  • 14A and 14B include a row whose values are all 0 or a column whose values are all 0. This row and column indicate that the system state corresponding to the index is a non-reachable state.
  • the determination unit 131 may calculate the number of reachable states by calculating the non-reachable state according to the failure condition FS, the component states x 1 , x 2 , x 3 , x 4 and Equation 12.
  • Expression 12 is 1 when the system state (x 1 , x 2 , x 3 , x 4 ) regarding the storage system 522 is in a non-reachable state.
  • two or more storage devices are in a component failure state.
  • the system state (1, 1, 1, 0) represents a state in which the RAID controller 524, the storage device 525, and the storage device 526 are in a component failure state.
  • the storage system 522 is in a system failure state when the RAID controller 524 is in a component failure state or when two of the three storage devices are in a component failure state. So stop functioning. Therefore, the storage system 522 does not enter the system state (1, 1, 1, 0). In this case, the system state (1, 1, 1, 0) is a non-reachable state.
  • the calculation unit 113 calculates 0 as a value when the system state represented by the first state identifier or the system state represented by the second state identifier is a non-reachable state. This corresponds to a row in which all the values are 0 or a column in which all the values are 0 in FIGS. 14A and 14B.
  • the transition information creation unit 132 generates the matrix Q by not storing the rows whose values are all 0 and the columns whose values are all 0 as the matrix Q.
  • the calculation unit 113 indicates that the system state represented by the first state identifier is a system failure state. It is determined whether or not. For example, in this example, the calculation unit 113 determines whether the storage system 522 is in a system failure state according to Equation 7 and Equation 8.
  • the calculation unit 113 calculates a value based on the recovery information 502 when the state represented by the first state identifier is a system failure state. For example, when the system state represented by the first state identifier is a system failure state according to Equation 7 (that is, the failure condition FC), the calculation unit 113 transitions from the recovery information 502 to the transition rate a C associated with the failure condition FC. Read. The calculation unit 113 calculates “ ⁇ a C ” when the first state identifier and the second state identifier match, and calculates the value a C when the first state identifier and the second state identifier do not match. And This process is based on the definition for the matrix Q.
  • the calculation unit 113 calculates element values in the matrix Q, for example, according to a procedure for calculating a Kronecker sum disclosed in Non-Patent Document 1 and the like.
  • the procedure for calculating the Kronecker sum disclosed in Non-Patent Document 1 and the like is as follows. For a target system including components that operate independently from each other, a generator matrix that represents a state transition represents a Kronecker related to a generator matrix that represents a state transition for each component. Based on being expressed by sum.
  • the calculation unit 113 calculates the value of q ij based on the definition related to the Kronecker sum shown in Expression 13 and the matrix elements related to components.
  • the calculation unit 113 can calculate a value related to the matrix Q in accordance with the processing described above.
  • the analysis unit 124 calculates the availability related to the storage system 522 by calculating the sum related to the system operating state based on the calculated numerical sequence ⁇ (k + 1) (that is, the probability related to the steady state).
  • transition information creation unit 132 Next, processing in the transition information creation unit 132 will be described using the above-described example.
  • the reachable state is 11 system states among the 16 system states corresponding to 16 rows representing the matrix Q.
  • the transition information creating unit 132 creates a matrix R related to reachable states as shown in FIG.
  • FIG. 15 is a diagram conceptually illustrating an example of a matrix related to the reachable state. Note that the matrix R illustrated in FIG. 15 represents a matrix including rows corresponding to the reachable state and columns corresponding to the reachable state among the elements of the matrix Q illustrated in FIGS. 14A and 14B.
  • the size of the matrix Q is (number of reachable states ⁇ number of reachable states), and is (predetermined number ⁇ predetermined number) at most. If (predetermined number ⁇ predetermined number) is smaller than the capacity of the storage device, the storage device can store the matrix Q.
  • the transition information creation unit 132 creates the matrix Q when the storage device can store the matrix Q, and stores the created matrix Q in the storage device.
  • the analysis unit 124 may update the numerical sequence ⁇ (k) with reference to the matrix Q in the storage device, for example. Therefore, in the process in which the analysis unit 124 updates the numerical sequence ⁇ (k) , the calculation unit 113 does not need to repeatedly calculate the elements included in the matrix Q.
  • the transition information creation unit 132 processes a plurality of system failure states as one system failure state, for example. Even if the system failure states are different from each other in the recovery information 502, when the system failure states are associated with the common system operation state and the common transition rate, the transition information creation unit 132 , The system failure states are collectively processed. This process is performed on the row representing the system fault condition and the column representing the system fault condition in the matrix R.
  • a process related to a row representing a system failure state will be described.
  • a procedure for calculating the transition rate will be described with reference to the information shown in Expression 10 in the recovery information 502 as an example.
  • a system failure state that transitions to a system state (0, 0, 0, 0) representing a state recovered from the system failure state at the transition rate a S is a failure condition FS included in Equation 10 (specifically, Equation 8 ) Is calculated as a system failure state. That is, the system fault state is a system fault state (0, 1, 1, 0), a system fault state (0, 0, 1, 1), and a system fault state (0, 1, 0, 1). .
  • the transition information creation unit 132 processes the three system failure states together.
  • the transition information creation unit 132 can create the matrix Q illustrated in FIG. 16 by processing the three system failure states together. That is, when creating the matrix Q, the transition information creation unit 132 calculates the sum of the values of the elements constituting the system failure states (in this case, the above three types of system failure states) that are collectively processed. .
  • FIG. 16 is a diagram conceptually illustrating an example of a matrix generated when a system failure state to be processed is processed as one system failure state.
  • the matrix before change illustrated in FIG. 15 is represented as “matrix R”
  • the matrix after change illustrated in FIG. 16 is represented as “matrix Q”.
  • the transition information creation unit 132 performs a matrix corresponding to the system failure state from the three types of system failure states according to the procedure for creating the matrix R from the system state described above with reference to Equation 11. Assume that an R index is calculated. For example, in the case of the matrix R illustrated in FIG. 15, the transition information creation unit 132 calculates a value “4” representing an index according to Equation 11 for the system failure state (0, 0, 1, 1). For example, in the case of the matrix R illustrated in FIG. 15, the transition information creation unit 132 calculates a value “6” representing an index according to Equation 11 for the system failure state (0, 1, 0, 1). For example, in the case of the matrix R illustrated in FIG.
  • the transition information creation unit 132 calculates a value “7” representing an index according to Equation 11 for the system failure state (0, 1, 1, 0). That is, in the case of the matrix R illustrated in FIG. 15, the system failure state (0, 0, 1, 1) represents the system failure state shown in the fourth row. In the case of the matrix R illustrated in FIG. 15, the system fault state (0, 1, 0, 1) represents the system fault state shown in the sixth row. In the case of the matrix R illustrated in FIG. 15, the system failure state (0, 1, 1, 0) represents the system failure state shown in the seventh row. That is, the index represents the number of rows or columns of the matrix R. Further, in the case of the matrix Q illustrated in FIG. 16, the system failure state processed together in the one represents the system failure state shown in the fourth row.
  • the system operating state shown in the first row of the matrix Q illustrated in FIG. 16 represents the system operating state shown in the first row of the matrix R illustrated in FIG.
  • the system operating state shown in the second row of the matrix Q illustrated in FIG. 16 represents the system operating state shown in the second row of the matrix R illustrated in FIG.
  • the system operating state shown in the third row of the matrix Q illustrated in FIG. 16 represents the system operating state shown in the third row of the matrix R illustrated in FIG.
  • the system operating state illustrated in the fifth row of the matrix Q illustrated in FIG. 16 represents the system operating state illustrated in the fifth row of the matrix R illustrated in FIG.
  • the elements of the matrix Q illustrated in FIG. 16 are related to one or more types of system failure states that are processed together as one of the elements of the matrix R illustrated in FIG. Can be calculated as a sum of values representing elements calculated for each system failure state. More specifically, the transition information creation unit 132 performs the following processing.
  • the transition information creation unit 132 sets a failure condition FS (specifically, Expression 8) that is a specific transition rate a S and transitions to a specific system state in the recovery information 502 as a processing target. The process shown in is executed.
  • the transition information creation unit 132 calculates at least one or more system failure states that satisfy the failure condition FS to be processed, and a matrix R corresponding to the calculated system failure state according to the calculation formula illustrated in Equation 11. Are calculated for each individual system failure state.
  • the transition information creation unit 132 represents the specific transition rate a S as the value of the column associated with the system state recovered from the system failure state with respect to the row indicated by the calculated index indicating the system failure state. Calculate the value.
  • the transition information creation unit 132 transitions from the system failure state to be processed together to the specific system state.
  • the transition rate to be calculated is a S, and the transition rate to transition from the system failure state to a state different from the specific system state is calculated as 0.
  • the transition information creation unit 132 calculates a value according to the above-described equation 1.
  • a row and a column in which a plurality of rows and a plurality of columns indicating the system fault states to be processed together in the matrix R are associated with one row and column of the matrix Q.
  • the number of rows and columns of the matrix Q is smaller than the number of rows and columns of the matrix R.
  • the decrease number of rows forming the matrix Q and the decrease number of columns forming the matrix Q are: This is the number indicated by the number A. That is, Number A: “(number of system fault states constituting system fault states to be processed together) ⁇ 1” ⁇ 1.
  • the number of reductions regarding all “system failure states to be processed together” is the “system failure state to be processed into one” for each row and column. Is the sum of the above-mentioned number A.
  • the transition information creation unit 132 adds the transition rates in each column indicated by the index indicating the system failure state to one for the row indicated by the index indicating the system operating state among the indexes calculated according to the above-described processing. To calculate a transition rate representing the sum.
  • a set of indexes of the matrix R corresponding to the index J of the matrix Q (that is, the J-th state) is represented as G (J).
  • the matrix index set G (4) shown in FIG. 15 is the system failure state included in the system failure state to be combined into one. Is constituted by three elements ⁇ 4, 6, 7 ⁇ representing The three elements are values “4”, “6”, and “7” that represent the indexes obtained previously according to Equation 11.
  • indexes calculated according to the equation 11 regarding the system operating state are the same in the matrix R illustrated in FIG. 15 and the matrix Q illustrated in FIG. That is, for index J representing the system operating state, G (J) is assumed to be composed of one element ⁇ J ⁇ .
  • an index is not limited to the example mentioned above.
  • the transition information creation unit 132 causes the system failure related to the Jth column to be processed together into one system failure.
  • the transition rate is calculated according to Equation 14.
  • the transition information creation unit 132 calculates a value according to the above-described equation 1.
  • the number of columns of the matrix Q is calculated by executing the above-described processing. It becomes smaller than the number of columns of R.
  • the number of indexes representing the system operating state in the matrix Q is the same as the number of indexes representing the system operating state in the matrix R
  • the number of rows of the matrix Q with respect to the system operating state is Same as the number of lines.
  • the number of reductions in the number of columns forming the matrix Q is the sum of the above-mentioned number A relating to each “system failure state to be processed together”.
  • the number of rows of the matrix Q is the same as the number of rows of the matrix R.
  • the transition information creation unit 132 performs the failure condition illustrated in Expression 7 with respect to the information shown in Expression 9 (the recovery information 502 including the failure condition FC). Based on the FC, a system failure state that satisfies the failure condition FC is calculated. Next, the transition information creation unit 132 obtains an index according to the equation 11 with respect to the calculated system failure state, and the system failure state indicated in the eighth, ninth, tenth, and eleventh rows of the matrix R represented by the obtained index is Treat as one system failure condition. A detailed description of the processing related to the failure condition FC is omitted.
  • One index J representing the system operating state in the matrix Q is associated with one index representing the system operating state of the matrix R by the above-described index set G (J).
  • one index J representing the system fault state in the matrix Q is associated with a plurality of indexes representing the system fault states to be combined into one by the above-described index set G (J).
  • the matrix Q is a square matrix as described at the beginning of the “Description of Embodiments”.
  • the relationship that the number of reductions in the number of columns in the matrix Q resulting from the processing relating to the system failure state is equal to the number of decreases in the number of rows in the matrix Q is maintained. That is, when comparing the matrix R and the matrix Q that is the result of the above-described processing, the number of reductions in the number of columns forming the matrix Q is equal to the number of reductions in the number of rows forming the matrix Q.
  • the method for determining the number of columns is not limited to the method using the characteristics of the square matrix in the present embodiment.
  • the transition information creation unit 132 converts the system failure states shown in the fourth, sixth, and seventh lines in FIG. 15 to one system failure state with respect to the information represented by Expression 10 (recovery information 502 including the failure condition FS). Process as.
  • the matrix R illustrated in FIG. 15, in the second row, fourth column and the sixth column of values is lambda d.
  • the element in the I-th row and the J-th column of the matrix R represents the transition rate from the I-state to the J-th state.
  • the transition rate when transitioning from the system operating state shown to the system failure state shown in the fourth column is ⁇ d .
  • the system operating state shown in the second row of the matrix R the transition rate when a transition to a system fault condition shown in the sixth row is a lambda d.
  • the calculation unit 113 calculates ⁇ d as a value when the system operating state shown in the second row of the matrix R transitions to the system failure state shown in the fourth column. Further, the transition rate when the system operating state shown in the second row of the matrix R transitions to the system fault state shown in the seventh column is 0.
  • the transition information creation unit 132 sets the system failure state shown in the fourth row of the matrix R, the system failure state shown in the sixth row of the matrix R, and the matrix R
  • the system failure state shown in the seventh line is processed as a system failure state that is processed together.
  • the transition information creation unit 132 determines the transition rate when transitioning from the system operating state shown in the second row of the matrix R to the system fault state that is processed together as one of the above three transition rates. Calculate as the sum.
  • the transition information creation unit 132 receives values (in this case, 0 and two ⁇ d ) from the calculation unit 113 for the three transition rates corresponding to the three rows of interest described in the previous paragraph, The sum of the three values (in this case, ⁇ d + ⁇ d +0) is calculated. That is, in FIG. ⁇ Transition rate ⁇ d when transitioning from the system operating state shown in the second row to the system fault state shown in the fourth column, ⁇ Transition rate ⁇ d when transitioning from the system operating state shown in the second row to the system fault state shown in the sixth column, ⁇ Transition rate 0 when the system operating state shown in the second row transitions to the system failure state shown in the seventh column.
  • the calculated value (2 ⁇ ⁇ d ) is represented by one value representing the system failure state of the target three rows, and is set in the fourth column of the second row of the matrix Q. This is because the second row of the matrix Q represents the system operating state indicated by the index set G (2), and the fourth row of the matrix Q represents the system failure state indicated by the index set G (4). is there.
  • the transition information creation unit 132 relates to the system operating state shown in the third row of the matrix R illustrated in FIG. 15, the system failure state shown in the fourth row, the system failure state shown in the sixth row, and The system fault state shown in the seventh line is processed as a system fault state that is processed together. For this reason, the transition information creation unit 132 sets the transition rate in the case of transitioning from the system operating state shown in the third row of the matrix R illustrated in FIG. Is calculated as the sum of the three transition rates shown in FIG. That is, in FIG.
  • the transition information creation unit 132 calculates the transition rate for transitioning from the system operating state shown in the third row in FIG. 15 to the system fault state to be processed as a unit as the sum of the three transition rates described above.
  • the transition rate described above is a value calculated by the calculation unit 113.
  • the calculated value (2 ⁇ ⁇ d ) is represented by one value representing the system failure state for the three rows of interest, and is set in the fourth column of the third row of the matrix Q. This is because the third row of the matrix Q represents the system operating state indicated by the index set G (3), and the fourth row of the matrix Q represents the system failure state indicated by the index set G (4). is there.
  • the transition information creation unit 132 relates to the system operating state shown in the first row of the matrix R illustrated in FIG. 15, the system failure state shown in the fourth row, the system failure state shown in the sixth row, In addition, the system failure state shown in the seventh line is processed as a system failure state that is collectively processed. For this reason, the transition information creation unit 132 sets the transition rate when transitioning from the system operating state shown in the first row of the matrix R illustrated in FIG. Is calculated as the sum of the three transition rates shown in FIG. That is, in FIG.
  • the transition information creation unit 132 determines the transition rate from the system operating state shown in the first row of the matrix Q illustrated in FIG. Calculated as the sum of rates.
  • the transition rate described above is a value calculated by the calculation unit 113.
  • the calculated value (0) is represented by one value indicating the system failure state of the target three rows, and is set in the fourth column of the first row of the matrix Q. This is because the first row of the matrix Q represents the system operating state indicated by the index set G (1), and the fourth row of the matrix Q represents the system failure state indicated by the index set G (4). is there.
  • the system failure state related to the transition rate a c shown in the eighth to eleventh rows of the matrix R and the system operating state shown in the fifth row of the matrix R The process is also executed for. However, detailed description is omitted of the processing procedure performed the line as a target with respect to the transition rate a c.
  • the transition information creating unit 132 described above changes the matrix R illustrated in FIG. 15 to the matrix Q illustrated in FIG.
  • the analysis unit 124 updates the numerical sequence ⁇ (k) while referring to the matrix Q in the storage device. Therefore, in the process in which the analysis unit 124 updates the numerical sequence ⁇ (k) , the calculation unit 113 does not need to repeatedly calculate the elements included in the matrix Q.
  • the availability analysis device 133 in addition to the effects of the availability analysis device 123 according to the third embodiment, the availability can be calculated for a large-scale target system.
  • the reason is Reason 1 and Reason 2. That is, (Reason 1)
  • the configuration of the availability analysis apparatus 133 according to the fourth embodiment includes the configuration of the availability analysis apparatus 123 according to the third embodiment. (Reason 2)
  • the size of the matrix Q is further smaller than that of the availability analyzer 123 according to the third embodiment.
  • FIG. 17 is a block diagram showing a configuration of the availability analysis apparatus 151 according to the fifth embodiment of the present invention.
  • the availability analysis apparatus 151 includes an analysis unit 152.
  • the analysis unit 152 calculates a value between two system states among a plurality of system states that can be taken by the target system. That is, (1) Component information representing a transition rate between component states of components included in the target system, (2) Fault information including a condition indicating a component status of a component in a system fault status indicating a system status in which the target system cannot operate among a plurality of system statuses that the target system can take; (3) Recovery information including a transition rate when the target system transitions from a system failure state to a system operating state representing a state in which the target system is operating.
  • processing for calculating the value between the two states is the same as the processing in the calculation unit 102 shown in the first embodiment, the calculation unit 113 shown in the second, third, and fourth embodiments. It is.
  • the analysis unit 152 calculates the probability that the target system is in a certain system state based on the calculated value between the two states.
  • the analysis unit 152 calculates the availability related to the target system based on the probability when the target system is in the system operating state among the calculated transition rates. For example, the analysis unit 152 calculates availability by adding the probabilities when the target system is in the system operating state.
  • the process for calculating the transition rate and the process for calculating the availability are shown in the analysis unit 103, the third embodiment, and the fourth embodiment shown in the first and second embodiments. This is the same processing as the processing in the analysis unit 124 or the like.
  • availability can be analyzed even for a large target system. This is because it is not necessary to store all the elements of the matrix representing the transition from the first system state to the second system state.
  • the availability analysis apparatus may be realized using at least two calculation processing apparatuses physically or functionally. Further, the availability analysis apparatus may be realized as a dedicated apparatus.
  • FIG. 18 is a diagram schematically illustrating a hardware configuration of a calculation processing apparatus capable of realizing the availability analysis apparatus according to the first to fifth embodiments.
  • the calculation processing device 20 includes a central processing unit (Central_Processing_Unit, hereinafter referred to as “CPU”) 21, a memory 22, a disk 23, a nonvolatile recording medium 24, an input device 25, an output device 26, and a communication interface (hereinafter referred to as “CPU”). Communication IF ”27).
  • the calculation processing device 20 can transmit / receive information to / from other calculation processing devices and communication devices via the communication IF 27.
  • the non-volatile recording medium 24 is, for example, a compact disk (Compact_Disc), a digital versatile disk (Digital_Versatile_Disc), a universal serial bus memory (USB memory), a solid state drive (Solid_State_Drive), or the like that can be read by a computer.
  • the non-volatile recording medium 24 retains such a program without being supplied with power, and can be carried.
  • the nonvolatile recording medium 24 is not limited to the above-described medium. Further, the program may be carried via the communication network via the communication IF 27 instead of the nonvolatile recording medium 24.
  • the CPU 21 copies a software program (computer program: hereinafter simply referred to as “program”) stored in the disk 23 to the memory 22 and executes arithmetic processing.
  • the CPU 21 reads data necessary for program execution from the memory 22. When the display is necessary, the CPU 21 displays the output result on the output device 26. When inputting a program from the outside, the CPU 21 reads the program from the input device 25.
  • the CPU 21 executes the availability analysis program (FIGS. 2, 3, and FIG. 2) in the memory 22 corresponding to the function (process) represented by each unit shown in FIG. 1, FIG. 6, FIG. 9, FIG. 4, FIG. 7, FIG. 8, or FIG. 10) is interpreted and executed.
  • the CPU 21 sequentially performs the processes described in the above-described embodiments of the present invention.
  • the present invention can also be achieved by such an availability analysis program. Furthermore, it can be understood that the present invention can also be realized by a computer-readable non-volatile recording medium in which the availability analysis program is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 規模が大きな対象システムであっても可用性を分析することが可能な可用性分析装置等が提供される。可用性分析装置151は、(I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)対象システムがとり得る複数の状態のうち、対象システムが稼動できない状態を表す障害状態である場合におけるコンポーネントの状態を表す条件を含む障害情報と、(III)対象システムが稼動している状態を表す稼動状態に、対象システムが障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、複数の状態に含まれる2つの状態間に関する値を算出し、算出した2つの状態間に関する値に基づいて、対象システムが、ある状態にある確率を算出し、対象システムが稼動状態になっている場合の確率に基づいて、対象システムに関する可用性を算出する解析部152を有する。

Description

可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体
 本発明は、情報処理システム等に関する可用性を分析可能な可用性分析装置等に関する。
 可用性(Availability)は、IT(Information_Technology)システム(以降、「対象システム」と表す)に関する信頼性(利用可能性)を定量的に評価する指標の1つである。可用性は、時間の経過とともに対象システムの状態が遷移(変化)する場合に、該対象システムが利用可能な状態である確率を表す。
 対象システムを運用する事業者は、該対象システムが有する構成、または、該対象システムの状態を表す情報に基づき、可用性を算出する。事業者は、算出した可用性に基づき、対象システムに関する信頼性を定量的に評価する。あるいは、事業者は、算出した可用性に基づき、該対象システムに関する欠陥を探索する。あるいは、事業者は、算出した可用性に基づき、改善策を作成する。
 一般に、可用性は、状態遷移(State_Transition)モデルに基づき算出される。たとえば、連続時間マルコフ連鎖等の確率過程(stochastic_process)に基づき、可用性を算出する手順は、手順1及び手順2を含む。すなわち、
   (手順1)対象システムに関する状態遷移をモデルとして表現する、
   (手順2)該モデルに基づき確率過程を分析することにより、対象システムが利用可能な状態にある確率を算出する。
 たとえば、特許文献1は、複雑な対象システムに関する利用可能性を評価する手法として、マルコフ連鎖モデルを用いている装置を開示する。すなわち、該装置は、対象システムが有するコンポーネントに関する障害率及び回復率を用いて、該対象システムに関するマルコフ連鎖モデルを作成する。次に、該装置は、作成したマルコフ連鎖モデルが表す状態遷移を解析することにより、該対象システムに関する利用可能性を評価する。
 また、特許文献2は、状態遷移モデルと、故障木(Fault_Tree)とを組み合わせることにより、対象システムをモデルとして表し、該モデルに基づき、該対象システムに関する可用性を解析する手法を開示する。
 たとえば、特許文献1及び特許文献2等に開示されているように、多くの場合、可用性を解析するモデルは、連続時間マルコフ連鎖に関するモデルに帰着する。すなわち、可用性は、連続時間マルコフ連鎖を解析する手段を用いて算出される。
特開2003-337918号公報 国際公開第2013/168495号
P. Buchholz and P. Kemper, "Kronecker_Based_Matrix_Representations_for_Large_Markov_Models", Validation_of_Stochastic_Systems, LNCS2925, pp.263, Section 2.4, 2004.
 対象システムの状態数が増大するにつれ、状態間を遷移する遷移数は、それら状態の組み合わせに応じて急激に増大する。たとえば、対象システムの状態数がN(ただし、Nは自然数)である場合に、該状態間に関する遷移を表す行列Qは、Nの二乗個の要素を有する。したがって、記憶装置に行列Qを格納することにより、大量のメモリ(記憶装置)が消費される。
 さらに、行列Qに基づき可用性を算出する場合に、N個の要素を有するベクトルと、(N×N)個(ただし、×は掛け算を表す)の要素を有する行列との掛け算が必要である。この結果、可用性を算出するのに要する時間は、Nの二乗に比例して大きくなる。
 したがって、状態遷移解析に基づく可用性評価手法は、対象システムの状態数が増えるにつれて、急激に解析が困難になるという課題を有する。
 そこで、本発明の主たる目的は、規模が大きな対象システムであっても、可用性分析が可能な可用性分析装置等を提供することである。
 前述の目的を達成するために、本発明の一態様において、可用性分析装置は、
(I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)前記対象システムがとり得る複数の状態のうち、前記対象システムが稼動できない状態を表す障害状態である場合における前記コンポーネントの状態を表す条件を含む障害情報と、(III)前記対象システムが稼動している状態を表す稼動状態に、前記対象システムが前記障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、前記複数の状態に含まれる2つの状態間に関する値を算出し、算出した前記2つの状態間に関する値に基づいて、前記対象システムが、ある状態にある確率を算出し、前記対象システムが前記稼動状態になっている場合の前記確率に基づいて、前記対象システムに関する可用性を算出する解析手段
 を備える。
 また、本発明の他の見地として、可用性分析方法は、
 (I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)前記対象システムがとり得る複数の状態のうち、前記対象システムが稼動できない状態を表す障害状態である場合における前記コンポーネントの状態を表す条件を含む障害情報と、(III)前記対象システムが稼動している状態を表す稼動状態に、前記対象システムが前記障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、前記複数の状態に含まれる2つの状態間に関する値を算出し、算出した前記2つの状態間に関する値に基づいて、前記対象システムが、ある状態にある確率を算出し、前記対象システムが前記稼動状態になっている場合の前記確率に基づいて、前記対象システムに関する可用性を算出する。
 さらに、同目的は、係る可用性分析プログラム、および、そのプログラムが記録されたコンピュータ読み取り可能な記録媒体によっても実現される。
 本発明に係る可用性分析装置等によれば、規模が大きな対象システムであっても可用性を分析することができる。
本発明の第1の実施形態に係る可用性分析装置が有する構成を示すブロック図である。 第1の実施形態に係る可用性分析装置における処理の流れを示すフローチャートである。 第1の実施形態に係る計算部における処理の流れを示すフローチャートである。 入力部における処理の流れを示すフローチャートである。 コンポーネント情報の一例を概念的に表す図である。 本発明の第2の実施形態に係る可用性分析装置が有する構成を示すブロック図である。 第2の実施形態に係る可用性分析装置における処理の流れを示すフローチャートである。 可達情報等を作成する処理の流れの一例を示すフローチャートである。 本発明の第3の実施形態に係る可用性分析装置が有する構成を示すブロック図である。 第3の実施形態に係る可用性分析装置における処理の流れを示すフローチャートである。 本発明の第4の実施形態に係る可用性分析装置が有する構成を示すブロック図である。 RAIDを採用するストレージシステムが有する構成の一例を表すブロック図である。 記憶装置に関する連続時間マルコフ連鎖の一例を概念的に表す図である。 行列Qの一例を表す図である。 行列Qの一例を表す図である。 可達状態に関する行列の一例を概念的に表す図である。 システム障害状態を1つにまとめて処理する場合に生成される行列の一例を概念的に表す図である。 本発明の第5の実施形態に係る可用性分析装置が有する構成を示すブロック図である。 本発明の各実施形態に係る可用性分析装置を実現可能な計算処理装置のハードウェア構成を、概略的に示すブロック図である。
 まず、発明の理解を容易にするため、連続時間マルコフ連鎖等の技術的な用語について説明する。
 連続時間マルコフ連鎖によれば、対象システムが稼動している状況、及び、対象システムが障害を有している状況等を表す状態(以降、「対象システムの状態」と表す)が遷移する関係を、無限小生成行列(以降、「行列」と表す)Qを用いて表す。連続時間マルコフ連鎖は、Continuous_Time_Markov_Chainである。無限小生成行列は、Infinitesimal_generator_matrixである。行列Qにおける各行は、連続時間マルコフ連鎖において、対象システムに関する1つの状態に関連付けされている。同様に、行列Qにおける各列は、連続時間マルコフ連鎖において、対象システムに関する1つの状態に関連付けされている。また、異なる2つの状態間において遷移する遷移率(rate)は、行列Qに関する成分として表現される。平均遷移時間がT(ただし、T>0)である場合に、遷移率は、たとえば、「1÷T」と表すことができる。
 説明の便宜上、連続時間マルコフ連鎖において、たとえば、対象システムは、第1状態乃至第N(ただし、Nは自然数)状態を用いて表わされる。たとえば、行列Qの第I行及び行列Qの第I列は、第I状態を表し、行列Qの第J行及び行列Qの第J列は、第J状態を表す。ただし、行列Qは、正方行列であり、Iは、1≦I≦Nである。Jは、1≦J≦Nである。
 この場合に、行列Qの第I行第J列における要素は、第I状態から第J状態に遷移する遷移率を表す。行列Qの第I行第I列における要素は、連続時間マルコフ連鎖の定義に従い算出される値である。
 また、以降に示す各実施形態において、対象システムの状態は、該状態を一意に識別可能な状態識別子に関連付けされているとする。また、対象システムが、複数のコンポーネントを有する場合に、該対象システムの状態は、該コンポーネントに関する状態の組み合わせに関連付けされているとする。対象システムは、複数のコンポーネント(要素)から構成される。コンポーネントは、対象システムが備えている要素(構成要素)である。たとえば、対象システムが情報処理装置である場合に、コンポーネントは、たとえば、メモリ、ハードディスク等を表す。また、対象システムが、工場である場合に、コンポーネントは、たとえば、工場における機械、通信装置等を表す。以降、説明の便宜上、コンポーネントが稼動している状態を「コンポーネント稼動状態」と表し、コンポーネントが障害を有している状態を「コンポーネント障害状態」と表すこともある。コンポーネントに関する状態を「コンポーネント状態」と表すこともある。また、対象システムが稼動している状態を「システム稼動状態」と表し、対象システムが障害を有していて稼動できない状態を「システム障害状態」と表すこともある。対象システムに関する状態を「システム状態」と表すこともある。
 以降、説明の便宜上、行列Qの第I行第J列における要素を、(I、J)要素と表す。また、行列Qの(I、J)要素を、Q(I、J)と表す。
 さらに、Q(I、I)の値を、式1に従い定義する。すなわち、
   Q(I、I)=-(Σ(J≠I)Q(I,J))・・・(式1)。
   (ただし、Σ(J≠I)は、J≠IなるJについて和を算出することを表す。)
 この行列Qを用いることにより、連続時間マルコフ連鎖を分析することができる。たとえば、特定の種類の連続時間マルコフ連鎖において、十分長い時間経過した後における定常状態を表す確率ベクトルπ(数値列π)は、式2に示す方程式の解として求めることができる。
   π#Q=0、π=(π、π、・・・、π)、
   Σπ=1・・・(式2)、
   (ただし、πは、対象システムが、定常状態において、第Iシステム状態である確率を表す。また、Σは、1乃至Nにて、総和を算出することを表す。#は、行列ベクトル積を表す)。
 たとえば、対象システムに関する稼動状態が第1システム状態のみである場合に、該対象システムに関する定常状態における可用性は、πである。
 次に、本発明を実施する実施形態について図面を参照しながら詳細に説明する。
 <第1の実施形態>
 本実施形態においては、以下の順序にて、可用性分析装置について説明する。尚、カッコ内には、参照する図面が記載されている。
  (1)可用性分析装置が有する構成について(図1)、
  (2)可用性分析装置が有する入力部における処理について(図4)、
  (3)対象システムに含まれるコンポーネントのコンポーネント状態について(図5)、
  (4)可用性分析装置における処理の流れについて(図2)、
  (5)可用性分析装置が有する計算部における処理の流れについて(図3)。
 まず、図1を参照しながら、本発明の第1の実施形態に係る可用性分析装置101が有する構成について詳細に説明する。図1は、本発明の第1の実施形態に係る可用性分析装置101が有する構成を示すブロック図である。
 第1の実施形態に係る可用性分析装置101は、計算部102と、解析部103とを有する。可用性分析装置101は、さらに、入力部104を有してもよい。
 次に、図4を参照しながら、入力部104に関する処理について説明する。図4は、入力部104における処理の流れを示すフローチャートである。
 入力部104は、可用性503を評価する対象である対象システムが有する複数のコンポーネントに関するコンポーネント情報を受信する(ステップS201)。ここで、コンポーネントは、該対象システムに含まれる構成要素等を表す。たとえば、対象システムがストレージシステムである場合に、コンポーネントは、該ストレージシステムに含まれる記憶装置、及び、該記憶装置を制御する制御装置等を表す。また、対象システムが、ソフトウェアである場合に、コンポーネントは、該ソフトウェアに含まれる機能、モジュール等を表す。
 以下の各実施形態においても、同様である。コンポーネント情報は、図5に示すように、該コンポーネントの種類に応じて、あらかじめ定義される状態遷移に関する情報を含む。図5は、コンポーネント情報の一例を概念的に表す図である。コンポーネント情報は、複数のコンポーネントに関する情報を含んでいてもよい。
 図5に示す例においては、コンポーネントに関して、該コンポーネントが稼動している状態を表すコンポーネント稼動状態と、該コンポーネントが障害を有する状態を表すコンポーネント障害状態とからなる2つのコンポーネント状態がある。図5に示す例において、λは、該コンポーネントがコンポーネント稼動状態からコンポーネント障害状態に遷移する遷移率を表す。すなわち、λは、該コンポーネントがコンポーネント稼動状態からコンポーネント障害状態に遷移する遷移率(障害率)を表す。また、μは、コンポーネントがコンポーネント障害状態からコンポーネント稼動状態に遷移する遷移率(復旧率)を表す。
 たとえば、コンポーネント情報は、コンポーネントに関する第1コンポーネント状態がコンポーネント稼動状態を表し、コンポーネントに関する第2コンポーネント状態がコンポーネント障害状態を表すような情報を含む。また、たとえば、コンポーネント情報は、該コンポーネントに関して、第1コンポーネント状態から第2コンポーネント状態に遷移する遷移率を含む。また、コンポーネント情報は、たとえば、第2コンポーネント状態から第1コンポーネント状態に遷移する遷移率に関する情報を含む。
 入力部104は、受信したコンポーネント情報に基づき、対象システムに関する状態遷移モデルを生成し、該状態遷移モデルを記憶部(不図示)に格納してもよい(ステップS202)。状態遷移モデルにおいては、たとえば、対象システムに関する状態が節点を用いて表され、第1状態から第2状態への遷移が、第1状態を表す節点、及び、第2状態を表す節点を結ぶ枝を用いて表される。また、枝には、第1状態及び第2状態の間の遷移のしやすさを表す遷移率が付されてもよい。この場合に、状態遷移モデルは、概念的に、グラフを用いて表される。
 次に、入力部104は、対象システムがシステム稼動状態である条件を表す稼動条件を、1つ以上含む稼動情報を受信し、該稼動情報を記憶部(不図示)に格納する(ステップS203)。稼動条件は、対象システムが含むコンポーネントに関するコンポーネント状態を用いて表される。稼動条件は、たとえば、コンポーネント状態を表す状態識別子が組み合わされることによって表される。また、稼動情報は、1つ以上の稼動条件を含む。
 ここで、説明の便宜上、コンポーネント稼動状態を0と表し、コンポーネント障害状態を1と表す。
 たとえば、稼動条件は、1つ以上のコンポーネントに関するコンポーネント状態の論理和として表される。これは、該対象システムに含まれる全コンポーネントがコンポーネント稼動状態である場合に、該対象システムがシステム稼動状態であることを表す。また、コンポーネントのうち、いずれか1つのコンポーネントがコンポーネント障害状態である場合に、該稼動条件の値は1となる。この場合に、該対象システムは、システム障害状態であることを表す。
 たとえば、稼動条件は、特定のコンポーネント状態にあるコンポーネントの個数が所定の値K未満であるか否かであってもよい。この場合に、該稼動条件は、「(M-K)個以上のコンポーネントがコンポーネント稼動状態である場合に、該対象システムがシステム稼動状態である」条件を表す。ただし、Mは、対象システムが有するコンポーネントの個数を表す1以上の整数である。また、0≦K≦Mである。
 次に、入力部104は、対象システムがシステム障害状態である条件を表す障害条件を、1つ以上含む障害情報を受信し、該障害情報を記憶部(不図示)に格納する(ステップS204)。障害条件は、対象システムが含むコンポーネントに関するコンポーネント状態を用いて表される。たとえば、障害条件は、コンポーネント障害状態を表す状態識別子(以降、説明の便宜上、「第3状態識別子」とも表す)を組み合わせることによって表される。また、障害情報は、1つ以上の障害条件を含む。
 たとえば、障害条件は、1つ以上のコンポーネントに関するコンポーネント状態の論理積として表される。これは、該対象システムに含まれる全コンポーネントがコンポーネント障害状態である場合に、該対象システムがシステム障害状態であることを表す。
 また、障害条件は、特定のコンポーネント状態にあるコンポーネントの個数が所定の値K以上であるか否かであってもよい。この場合に、該障害条件は、「K個以上のコンポーネントがコンポーネント障害状態である場合に、該対象システムがシステム障害状態である」条件を表す。
 以降、説明の便宜上、復旧した後のシステム状態がシステム稼働状態であるとして説明を行う。しかし、復旧後のシステム状態は、必ずしも、システム稼働状態、または、システム障害状態に遷移する前のシステム稼働状態である必要はない。以降の各実施形態においても同様である。
 次に、入力部104は、対象システムに関する復旧情報を受信し、受信した復旧情報を記憶部(不図示)に格納する(ステップS205)。復旧情報においては、障害条件と、該障害条件を満たす場合のシステム障害状態から復旧した後の対象システムに関するシステム稼動状態と、該システム障害状態から該システム稼動状態に遷移する場合の遷移のしやすさを表す遷移率とが関連付けされている。尚、復旧情報に含まれる障害条件は、該障害条件に関連付けされた状態識別子であってもよい。ここで、復旧率は、システム障害状態からシステム稼動状態に遷移する遷移率を表す。上述したように、障害条件は、該システム障害状態を表す状態識別子を用いて表される。このため、復旧情報においては、該障害条件が表す状態識別子(すなわち、第3状態識別子)と、システム稼動状態と、遷移率とが関連付けされていてもよい。また、復旧情報においては、第3状態識別子と、該システム稼動状態に関連付けされた状態識別子(以降、説明の便宜上、「第4状態識別子」とも表す)と、遷移率とが関連付けされていてもよい。
 たとえば、復旧情報502においては、障害条件Aを満たす場合のシステム障害状態から復旧したシステム稼動状態を表す状態(0、0)と、該システム障害状態から該システム稼動状態に遷移する場合の遷移率とが関連付けされている。たとえば、対象システムがコンポーネント1と、コンポーネント2とを有する場合に、障害条件Aは、コンポーネント1、及び、コンポーネント2が、ともにコンポーネント障害状態であるか否かを表す条件である。この場合に、障害条件Aは、システム状態が、状態(1、1)であるか否かである。たとえば、対象システムにおいて、コンポーネント1がコンポーネント障害状態であり、さらに、コンポーネント2がコンポーネント障害状態であることを表すシステム状態(1、1)である場合に、システム状態が障害条件Aを満たす。このため、対象システムは、システム障害状態にある。たとえば、システム状態(1、0)は、コンポーネント1がコンポーネント障害状態であり、コンポーネント2がコンポーネント稼動状態であることを表す。したがって、システム状態(1、0)は、条件Aを満たさない。このため、対象システムは、システム障害状態にはない。
 可用性を解析する一例として、定常状態における可用性(steady-state_availability)を、数値解析を用いて求める例を用いながら、本実施形態に係る可用性分析装置101における処理(図2)について説明する。図2は、第1の実施形態に係る可用性分析装置101における処理の流れを示すフローチャートである。尚、この例は、連続時間マルコフ連鎖に関する一例である。
 解析部103は、1回以上、後述の処理を実行することにより、対象システムが、定常状態において、第I(ただし、1≦I≦N)システム状態であることを表す指標πを算出する。すなわち、解析部103は、数値列π=(π、π、・・・、π)を算出する。
 以降、説明の便宜上、解析部103がk(ただし、kは自然数)回目の処理を行う場合に、更新する対象となる数値列を、数値列(ベクトル)π(k)と表すとする。また、計算部102は、第Iシステム状態から第J(ただし、1≦J≦N)システム状態に遷移する場合の遷移率(すなわち、Q(I,J))、及び、式1に従いQ(I,I)を算出するとする。しかし、計算部102は、必ずしも、遷移率そのものを算出する必要はなく、該遷移率に基づき算出される値であってもよい。
 まず、解析部103は、1回目の処理において、数値列π(1)を算出する。数値列π(1)は、1つの要素のみが1であり、他の要素が0である数字列であってもよい。また、数値列π(1)は、特定の手順に従い算出される数値列であってもよい。
 次に、解析部103は、k回目の処理において、数値列π(k)と、計算部102が算出する値とに基づき、数値列π(k+1)を算出する。
 たとえば、解析部103は、式3に示すようなヤコビ(Jacobi)法に従い、数値列π(k)を数値列π(k+1)に更新する。すなわち、
   π (k+1)=-1÷qii×Σ(i≠j)(qij×π (k))・・・(式3)、
   (ただし、π (k)は、数値列π(k)におけるi番目の数値(すなわち、対象システムが第iシステム状態である確率)を表す。qijは、第iシステム状態から第jシステム状態に遷移する遷移率を表す。Σ(i≠j)は、iとjとが異なる値の場合における和を算出することを表す)。
 ただし、解析部103は、qiiが0である場合に、π (k)を更新しない。解析部103は、式3において、qij、及び、qiiを参照する。解析部103は、たとえば、qijを参照する場合に、i(状態識別子、「第1状態識別子」と表す)と、j(状態識別子、「第2状態識別子」と表す)とを、計算部102に送信する。
 次に、計算部102は、第1状態識別子と第2状態識別子とを受信する。次に、計算部102は、受信した第1状態識別子が表す第Iシステム状態から、第2状態識別子が表す第Jシステム状態へ遷移する場合の値、あるいは、式1に従いQ(I,I)を算出する(ステップS101)。計算部102は、算出した値を解析部103に送信する。
 計算部102に関する処理の詳細については、後述する。
 解析部103は、計算部102が算出した値を受信し、受信した値をqij、または、qiiとして、式3に従い、数値列π(k)を更新する(ステップS102)。
 解析部103は、qiiを参照する場合にi(すなわち、第1状態識別子)と、i(すなわち、第2状態識別子)とを、計算部102に送信する。上述した処理と同様に、解析部103は、計算部102が式1に従い算出する値を受信し、受信した値をqiiとして、式3に従い、数値列π(k)を数値列π(k+1)に更新する。
 尚、解析部103は、数値列π(k)と数値列π(k+1)との差分が、所定の値εよりも小さい(すなわち、式4に示す不等式)場合に、数値列π(k)を更新する処理を終了する。
   |π(k+1)-π(k)|<ε・・・(式4)、
   (ただし、||は絶対値を算出することを表す)。
 説明の便宜上、k回目の反復において、数値列π(k+1)は、式4を満たすとする。この場合に、解析部103は、数値列π(k+1)を算出する。
 次に、解析部103は、算出した数値列π(k+1)に基づき、可用性を算出する。解析部103は、たとえば、対象システムに関するシステム稼動状態を表す第Iシステム状態に関して、π (k+1)の総和を算出することにより、該対象システムに関する可用性を算出する。
 次に、図3を参照しながら、計算部102における処理について説明する。図3は、第1の実施形態に係る計算部102における処理の流れを示すフローチャートである。
 計算部102は、第1状態識別子と、第2状態識別子とを受信する。次に、計算部102は、該第1状態識別子が表す第Iシステム状態がシステム障害状態であるか否かを判定する(ステップS103)。たとえば、計算部102は、障害情報501において、第1状態識別子を含むか否かに基づいて、ステップS103に示す判定処理を実行する。すなわち、上述したように、障害条件が、該システム障害状態に関連付けされた状態識別子を用いて表されるので、計算部102は、障害状態に関連付けされた状態識別子と、第1状態識別子とを比較する。
 計算部102は、第1状態識別子が表す第Iシステム状態がシステム障害状態である場合に(ステップS103にてYES)、復旧情報502から、第1状態識別子に関連付けされた、システム稼動状態を表す状態識別子と遷移率とを読み取る。この場合に、システム稼動状態は、該稼動状態に関連付けされた状態識別子であってもよい。
 次に、計算部102は、読み取ったシステム稼動状態を表す状態識別子が、第2状態識別子に一致するか否かを判定する(ステップS104)。計算部102は、複数のシステム稼動状態を表す状態識別子を読み取る場合に、各システム稼動状態に関して、ステップS104に示す処理を実行する。
 計算部102は、システム稼動状態に関連付けされた状態識別子が該第2状態識別子に一致する場合に(ステップS104にてYES)、読み取った遷移率に基づき算出した値を、解析部103に送信する(ステップS105)。
 計算部102は、システム稼動状態に関連付けされた状態識別子が該第2状態識別子に一致しない場合に(ステップS104にてNO)、第1状態識別子と第2状態識別子とが一致するか否かを判定する(ステップS109)。計算部102は、第1状態識別子と第2状態識別子とが一致しない場合に、値として0を算出し、算出した0を解析部103に送信する(ステップS106)。計算部102は、第1状態識別子と第2状態識別子とが一致する場合に、値として、復旧率×(-1)(すなわち、復旧率にマイナスを付した値)を算出し、算出した値を解析部103に送信する(ステップS108)。この場合に、復旧率は、第1状態識別子が表すシステム障害状態から、該システム障害状態に関して復旧した状態に遷移する遷移率を表す。
 さらに、計算部102は、障害情報501が受信した第1状態識別子を含まない場合に(ステップS103にてNO)、状態遷移モデルにおいて、該第1状態識別子に隣接している状態識別子を読み取る。ある状態識別子に隣接しているとは、状態遷移モデルにおいて、ある状態識別子が表す第Iシステム状態から、異なるシステム状態を経由することなく、直接、遷移可能であるシステム状態を表す。この場合に、計算部102は、コンポーネント情報に基づき、所定の算出手順(方法)に従い、第1状態識別子が表す第Iシステム状態から、第2状態識別子が表す第Jシステム状態に遷移する場合の遷移率を算出する(ステップS107)。
 たとえば、所定の算出手順は、コンポーネントを表す状態遷移モデルに関して、クロネッカー和を算出する手順である。該所定の算出手順は、相互に独立に処理するコンポーネントを含む対象システムのシステム状態に関する遷移を表す生成行列が、各コンポーネントに関するコンポーネント状態に関する遷移を表す生成行列Qに関するクロネッカー和であることに基づく。クロネッカー和を算出する手順については、後述する。
 尚、計算部102は、第1状態識別子及び第2状態識別子に基づき、値を算出するとしたが、第1状態識別子及び複数の第2状態識別子に基づき、各第2状態識別子に関して値を算出してもよい。
 次に、第1の実施形態に係る可用性分析装置101に関する効果について説明する。
 第1の実施形態に係る可用性分析装置101によれば、規模が大きな対象システムであっても、可用性を分析することができる。この理由は、第1システム状態から第2システム状態に遷移することを表す行列を記憶する必要がないからである。
 より具体的には、本実施形態において、解析部103は、可用性を算出する場合に、計算部102に算出に必要な値を要求し、計算部102が算出した値を参照する。この結果、可用性分析装置101は、該値を記憶する必要がない。この理由は、計算部102が、コンポーネント情報、障害情報、及び、復旧情報に基づき、該値を算出可能であるからである。
 一方、特許文献1及び特許文献2に開示される装置は、可用性を算出する場合に、第Iシステム状態から第Jシステム状態に遷移する場合の遷移率を、行列として記憶部(不図示)に格納する。該装置は、記憶部が記憶する行列に基づき、可用性を算出する。したがって、該装置は、記憶部が該行列を格納することができない場合に、可用性を算出することができない。
 このことを換言すると、上述したように、対象システムのシステム状態の個数(状態数、Nと表す)が増大するにつれ、該遷移率を格納する行列は、(N×N)に比例して増大する。したがって、記憶部が(N×N)個分の要素しか記憶できない場合に、特許文献1及び特許文献2に開示される装置は、N個以下のシステム状態数を有する対象システムに関してのみ、可用性を算出することができる。
 これに対して、本実施形態に係る可用性分析装置101は、上述したように、行列を記憶部に格納しない。したがって、可用性分析装置101は、対象システムが、N個以上のシステム状態数を含む場合であっても、対象システムに関する可用性を算出することができる。また、対象システムのシステム状態数は、該対象システムが有するコンポーネント数、及び、該コンポーネントのコンポーネント状態数に応じて決められる。したがって、可用性分析装置101によれば、コンポーネントが増える場合であっても、行列の要素全てを記憶する必要がないので、可用性を分析することができる。
 <第2の実施形態>
 次に、上述した第1の実施形態を基本とする本発明の第2の実施形態について説明する。
 以降の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第1の実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明を省略する。
 図6と図7とを参照しながら、第2の実施形態に係る可用性分析装置111が有する構成と、可用性分析装置111が行う処理とについて説明する。図6は、本発明の第2の実施形態に係る可用性分析装置111が有する構成を示すブロック図である。図7は、第2の実施形態に係る可用性分析装置111における処理の流れを示すフローチャートである。
 第2の実施形態に係る可用性分析装置111は、計算部113と、解析部103とを有する。可用性分析装置111は、さらに、入力部112と、作成部114とを有してもよい。
 計算部113は、受信した状態識別子のいずれかを、非可達情報が含むか否かを判定する(ステップS111)。非可達情報は、システム障害状態から、さらに一つ以上のコンポーネントが障害となった状態(可用性解析の目的においてその到達性を考慮する必要がないため、以降、「非可達状態」と表す)に関連付けされた状態識別子から構成される。あるいは、計算部113は、受信した状態識別子のいずれかを、可達(reachable)情報が含むか否かを判定してもよい。可達情報は、非可達状態でないシステム状態(以降、「可達状態」と表す)に関連付けされた状態識別子から構成される。
 上述したように、非可達状態は、システム稼働状態から、次に遷移することが不可能な障害状態である。可達状態は、非可達状態でないシステム状態を表す。
 まず、図8を参照しながら、可達情報、または、非可達情報を作成する処理の流れ等について説明する。図8は、可達情報等を作成する処理の流れの一例を示すフローチャートである。
 本実施形態に係る可用性分析装置111においては、可達情報、または、非可達情報を受信するとする。しかし、後述のように、可用性分析装置111は、図8に示す処理に従い可達情報、または、非可達情報を作成する作成部114を有してもよい。
 作成部114は、対象システムが有する各コンポーネントに関するコンポーネント状態に基づき、対象システムのシステム状態の集合Ωを作成する(ステップS211)。作成部114は、各コンポーネントに関する各コンポーネント状態を組み合わせることにより、対象システムのシステム状態を作成する。
 たとえば、該対象システムが、コンポーネントAとコンポーネントBとを有するとする。コンポーネントAに関する状態は、コンポーネント状態U、及び、コンポーネント状態Fであるとする。コンポーネントBに関する状態は、コンポーネント状態U、及び、コンポーネント状態Fであるとする。また、コンポーネント状態Fは、コンポーネントAに関するコンポーネント障害状態を表すとする。コンポーネント状態Fは、コンポーネントBに関するコンポーネント障害状態を表すとする。コンポーネント状態Uは、コンポーネントAに関するコンポーネント稼動状態を表すとする。コンポーネント状態Uは、コンポーネントBに関するコンポーネント稼動状態を表すとする。
 この場合に、作成部114は、各コンポーネントに関するコンポーネント状態を組み合わせることにより、対象システムに関するシステム状態の集合Ωを、式5に示すように作成する(ステップS211)。
   Ω={(U、U)、(U、F)、(F、U)、(F、F)}・・・(式5)。
 尚、(U、U)、(U、F)、(F、U)、または、(F、F)は、システム状態の一例である。
 たとえば、コンポーネントA、または、コンポーネントBに関して、いずれか一方がコンポーネント障害状態である場合に、対象システムは、システム障害状態であるとする。この場合に、集合Ωのうち、対象システムに関するシステム障害状態は、システム障害状態(U、F)、システム障害状態(F、U)、及び、システム障害状態(F、F)である。
 たとえば、コンポーネントBがコンポーネント障害状態である場合に、対象システムは、システム障害状態(U、F)である。対象システムは、システム障害状態になる(陥る)のに応じて、本来、有している機能を失う。これに応じて、該対象システムは、復旧手順に応じて復旧処理が行われる。この結果、さらに、対象システムにおいて、コンポーネントAがコンポーネント障害状態になる状況は生じない。したがって、対象システムの状態は、システム状態(U、U)から、1つ以上のシステム障害状態を経由することなく、システム状態(F、F)に遷移することはない。
 上述した例の場合に、非可達情報は、システム状態(F、F)を表す状態識別子を用いて構成される。すなわち、この場合に、非可達情報は、1つ以上のシステム障害状態を経由することにより遷移することが可能なシステム障害状態を表す状態識別子を含む。また、可達情報は、システム状態(U、U)、システム状態(U、F)、及び、システム状態(F、U)を表す状態識別子を用いて構成される。
 たとえば、対象システムが5種類のコンポーネントを有する場合に、該対象システムに関するシステム障害状態は、3種類以上のコンポーネントがコンポーネント障害状態である場合とする。この場合に、システム状態に関する非可達状態は、4種類以上のコンポーネントがコンポーネント障害状態である場合である。
 図8を参照しながら、ステップS212以降の処理について説明する。たとえば、作成部114は、集合Ωに含まれる要素に、障害情報501に含まれる障害条件を適用することにより、各要素が対象システムに関する障害条件を満たすか否かを判定する(ステップS212)。次に、作成部114は、システム障害状態である要素(「第1要素」と表す)に関して、システム障害状態を構成するコンポーネント状態が1つ異なる要素(「第2要素」と表す)を集合Ωから抽出する。
 次に、作成部114は、第2要素が障害条件を満たすか否かを調べる。作成部114は、抽出した第2要素が全て障害条件を満たす場合に、第1要素を、非可達情報に加える(ステップS213)。作成部114は、抽出した第2要素のうち、障害条件を満たさない要素があれば、第1要素を、可達情報に加える。
 さらに、作成部114は、稼動情報に含まれる状態識別子を、可達情報に加える。
 入力部112は、対象システムに関する可達情報を、外部または作成部114から受信し、該可達情報を記憶部(不図示)に格納する。
 図7を参照しながら、ステップS111以降の処理について説明する。計算部113は、受信したいずれかの状態識別子が表すシステム状態が、非可達情報に含まれる場合に(ステップS111にてNO)、値を0とする(ステップS113)。また、計算部113は、非可達情報が、受信した状態識別子を含まない場合に(ステップS111にてYES)、図3に示すステップS103乃至ステップS107に示す処理に従い、値を算出する(ステップS112)。
 次に、第2の実施形態に係る可用性分析装置111に関する効果について説明する。
 本実施形態に係る可用性分析装置111によれば、第1の実施形態に係る可用性分析装置101が有する効果に加え、さらに、計算時間を短縮することができる。
 この理由は、理由1及び理由2である。すなわち、
 (理由1)第2の実施形態に係る可用性分析装置111が有する構成は、第1の実施形態に係る可用性分析装置101が有する構成を含むからである、
 (理由2)非可達状態に関する処理が減るからである。
 上述したように、計算部113は、まず、第1状態識別子、または、第2状態識別子が、表すシステム状態が非可達状態を表すか否かを判定し、非可達状態である場合に、値を0とする。計算部113は、第1状態識別子及び第2状態識別子が表すシステム状態が非可達状態でない場合に、ステップS112に関する処理を実行する。したがって、第1の実施形態に係る可用性分析装置101に比べ、ステップS112に関する処理は減少する。この結果、本実施形態に係る可用性分析装置111によれば、さらに、計算時間を短縮することができる。
 <第3の実施形態>
 次に、上述した第2の実施形態を基本とする本発明の第3の実施形態について説明する。
 以降の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第2の実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明を省略する。
 図9と図10とを参照しながら、第3の実施形態に係る可用性分析装置123が有する構成と、可用性分析装置123が行う処理とについて説明する。図9は、本発明の第3の実施形態に係る可用性分析装置123が有する構成を示すブロック図である。図10は、第3の実施形態に係る可用性分析装置123における処理の流れを示すフローチャートである。
 第3の実施形態に係る可用性分析装置123は、計算部113と、解析部124と、判定部121と、遷移情報作成部122とを有する。
 判定部121は、可達情報に含まれる可達状態を表す状態識別子の個数(以降、「可達状態数」と表す)が、所定の数未満であるか否かを判定する(ステップS121)。
 算出した可達状態数が所定の数未満であると判定部121が判定する場合に(ステップS121にてYES)、遷移情報作成部122は、計算部113が算出する値に基づき、該可達状態間に関する遷移の状態を表す遷移情報を作成する(ステップS122)。たとえば、遷移情報作成部122は、可達状態を表す状態識別子を計算部113に送信する。計算部113は、該状態識別子を受信し、受信した状態識別子に関する値を算出し、算出した値を遷移情報作成部122に送信する。遷移情報作成部122は、該値を受信し、受信した値を遷移情報に格納する。遷移情報は、上述した無限小生成行列を用いて表すことができる。また、遷移情報は、たとえば、第Iシステム状態(可達状態)から第Jシステム状態(可達状態)に遷移する場合において、計算部113が算出した値を行列Q(I,J)に格納することにより作成される。次に、解析部124は、該遷移情報に基づき、可用性を算出する(ステップS123)。
 遷移情報作成部122が作成する遷移情報は、対象システムにおける可達状態に関する無限小生成行列と等価である。
 一方、算出した可達状態数が所定の数以上であると判定部121が判定する場合に(ステップS121にてNO)、解析部124は、図2におけるステップS101及びステップS102に示す処理に従い可用性を算出する(ステップS124)。
 次に、第3の実施形態に係る可用性分析装置123に関する効果について説明する。
 本実施形態に係る可用性分析装置123によれば、第2の実施形態に係る可用性分析装置111が有する効果に加え、さらに、高速に可用性を算出することができる。
 この理由は、理由1及び理由2である。すなわち、
 (理由1)第3の実施形態に係る可用性分析装置123が有する構成は、第2の実施形態に係る可用性分析装置111が有する構成を含むからである、
 (理由2)遷移情報を作成することにより、第Iシステム状態から第Jシステム状態に遷移する場合の遷移率等を繰り返し算出する必要がないからである。
 可用性分析装置123は、可達状態の数が所定の数より少ない場合に、遷移情報を作成する。この処理により、可用性分析装置123は、遷移情報を格納する記憶領域を制限する状況と、遷移率等を繰り返し算出する処理を回避する状況とを作成する。
 <第4の実施形態>
 次に、上述した第3の実施形態を基本とする本発明の第4の実施形態について説明する。
 以降の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第3の実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明を省略する。
 図11を参照しながら、第4の実施形態に係る可用性分析装置133が有する構成と、可用性分析装置133が行う処理とについて説明する。図11は、本発明の第4の実施形態に係る可用性分析装置133が有する構成を示すブロック図である。
 第4の実施形態に係る可用性分析装置133は、計算部113と、解析部124と、判定部131と、遷移情報作成部132とを有する。
 判定部131は、可達情報に含まれる可達状態数が、所定の数未満であるか否かを判定する。
 可達状態数が所定の数未満である場合に、遷移情報作成部132は、可達状態間に関する遷移の状態を表す遷移情報を作成する。ただし、遷移情報作成部132は、対象システムに関するシステム障害状態を、一つのシステム障害状態として処理する。たとえば、上述した例に示すように、対象システムが、コンポーネントAと、コンポーネントBとを含む場合に、遷移情報作成部132は、システム状態(U,F)とシステム状態(F,U)とを1つのシステム障害状態として処理する。ここで、システム状態(U,F)及びシステム状態(F,U)は、対象システムに関するシステム障害状態を表す。
 この例の場合に、遷移情報作成部132は、たとえば、(U,F)と(F,U)という2つのシステム状態に対して、Fという1つのシステム状態を割り当てる。遷移情報作成部132は、さらに、対象システムに関するシステム稼動状態(U,U)にUというシステム状態を割り当てる。この場合に、システム状態(F,F)は、非可達状態であるので、遷移情報作成部132は、(F,F)にシステム状態を割り当てない。すなわち、遷移情報作成部132は、対象システムのシステム状態として、U及びFという2つのシステム状態を処理する。
 遷移情報作成部132は、たとえば、システム状態(U,F)からある状態への遷移に関して計算部113が算出する値、及び、システム状態(F,U)に関する遷移に関して計算部113が算出する値に関して、該2つの値に後述するような演算を適用する。この演算によって、遷移情報作成部132は、(U,F)と(F,U)という2つのシステム状態を、Fという1つのシステム状態として処理を実行する。遷移情報作成部132は、第3の実施形態に係る遷移情報作成部122と同様に、演算した結果に基づき行列Qを作成する。
 次に、ストレージシステムに関する具体的な例を用いながら、本実施形態に係る可用性分析装置133における処理について説明する。この例において、可用性分析装置133は、連続時間マルコフ連鎖に基づき、図12に示すようなRAID(Redundant_Array_of_Independent_Disks)レベル5を採用するストレージシステム522に関する可用性を算出する。図12は、RAIDを採用するストレージシステム522を含む情報システムが有する構成の一例を表すブロック図である。
 この例において、可用性分析装置133は、複数の記憶装置を有するストレージシステム522に関する可用性を算出する。尚、記憶装置は、磁気ディスク、不揮発性の半導体メモリ等である。記憶装置が有する態様は、上記の例に限定されない。
 RAID技術は、ストレージシステムに関する信頼性や、性能等を向上する1つの技術である。RAID技術を採用するストレージシステムに関する可用性は、RAIDが有する記憶装置に関する信頼性、記憶装置が障害状態である場合におけるデータを復旧する処理に関する効率、及び、データが失われた場合における復旧処理に関する効率等に依存する。
 また、ストレージシステムに関する可用性は、さらに、データを格納する態様を規定するRAIDレベルに依存する。
 たとえば、RAIDレベルが5である場合に、ストレージシステムは、記憶装置にデータを格納する際に、該データに関するパリティを算出する。ストレージシステムは、該データと、算出したパリティとを記憶装置に格納する。該ストレージシステムにおいては、記憶装置のうち一台の記憶装置がコンポーネント障害状態になる場合に、該コンポーネント障害状態になった記憶装置が、新しい記憶装置に交換される。該ストレージシステムは、算出したパリティと、他の記憶装置が記憶するデータとに基づき、該障害を発生した記憶装置が記憶するデータを復旧し、復旧したデータを、新しい記憶装置に格納する。
 しかし、RAIDレベル5を採用するストレージシステムは、記憶装置のうち、2台の記憶装置が障害を有する場合に、パリティに基づいて、障害を有する記憶装置が記憶するデータを復旧できない。この場合には、バックアップデータ等に基づき、ストレージシステムを再構築する。ユーザは、ストレージシステムを再構築する期間に、該ストレージシステムを利用することはできない。
 図12を参照すると、ストレージシステム522は、RAID(RAIDレベル5であるとする)コントローラ524と、記憶装置525と、記憶装置526と、記憶装置527とを有する。バックアップシステム523は、記憶装置528を有する。ホストコンピュータ521は、ストレージシステム522、及び、バックアップシステム523と通信可能である。
 バックアップシステム523は、RAIDコントローラ524によって構成されるRAID構成のストレージ装置に格納されているデータを記憶装置528に格納する。ストレージシステム522を利用するユーザは、記憶装置に格納されたデータの読み書きを、ホストコンピュータ521を介して行う。さらに、ホストコンピュータ521は、たとえば、ストレージシステム522におけるデータが消失するのに備え、データをバックアップシステム523に定期的にバックアップする。ホストコンピュータ521は、ストレージシステム522が記憶するデータにアクセスできる確率(可用性)を分析する。すなわち、ホストコンピュータ521には、可用性分析装置133が含まれているとする。
 ユーザは、入力部104(図1)に、ストレージシステム522に関する稼動情報、及び、各コンポーネントに関する情報等を入力する。
 入力部104は、ストレージシステム522が有するコンポーネント(たとえば、記憶装置525乃至記憶装置527)に基づき、状態遷移モデルを生成する。
 説明の便宜上、RAIDコントローラ524は、図5に例示するように、コンポーネント稼動状態とコンポーネント障害状態との2つの状態を含む連続時間マルコフ連鎖を用いて表されるとする。図5において、RAIDコントローラ524に関する障害率は、λであり、RAIDコントローラ524に関する復旧率は、μである。同様に、記憶装置525、記憶装置526、及び、記憶装置527は、それぞれ、図13に例示するように、コンポーネント稼動状態とコンポーネント障害状態との2つの状態を含む連続時間マルコフ連鎖を用いて表されるとする。図13は、記憶装置に関する連続時間マルコフ連鎖の一例を概念的に表す図である。図13において、記憶装置に関する障害率は、λであり、記憶装置に関する復旧率は、μである。
 説明の便宜上、RAIDコントローラ524、記憶装置525、記憶装置526、及び、記憶装置527に関するコンポーネント状態を、それぞれ、x、x、x、xと表す。ただし、x(i=1,2,3、4)={0、1}(ただし、0は、コンポーネント稼動状態を表す。1は、コンポーネント障害状態を表す)である。この場合に、ストレージシステム522に関するシステム状態を表す集合Ωは、各コンポーネントに関するコンポーネント状態を組み合わせたシステム状態(x,x,x、x)を用いて表すことができる。
 記憶装置525、記憶装置526、または、記憶装置527のうち、2台以上の記憶装置と、RAIDコントローラ524とが稼動している場合に、ストレージシステム522は、システム稼動状態である。したがって、入力部104は、ストレージシステム522に関する稼動情報として、たとえば、式6に示す稼動条件Aを受信する。
   稼動条件A:x∨(x∧x∨x∧x∨x∧x)・・・(式6)、
   (ただし、∧は、論理積を表す。∨は、論理和を表す)。
 ただし、稼動情報は、必ずしも、式6に示す論理式でなくともよい。
 ここで、稼動条件Aは、ストレージシステム522に関する稼動条件を表し、ストレージシステム522が稼動状態にある場合に0である。
 一方、ストレージシステム522に関するシステム障害状態は、RAIDコントローラ524がコンポーネント障害状態である場合(式7)、または、3台の記憶装置のうち2台の記憶装置がコンポーネント障害状態である場合(式8)である。この場合に、入力部104は、ストレージシステム522に関する障害情報501として、式7、及び、式8を受信する。
   障害条件FC:x・・・(式7)、
   障害条件FS:x∧x∨x∧x∨x∧x・・・(式8)。
 ストレージシステム522がシステム障害状態である場合に、障害条件FCまたは障害条件FSのいずれかの値は、1である。
 以降、説明の便宜上、RAIDコントローラ524に関するコンポーネント障害状態からコンポーネント稼動状態に復旧する際の復旧率をaと表す。また、3台の記憶装置のうち2台が障害状態になる場合に、バックアップシステム523からデータを復旧することにより、ストレージシステム522を再構築する場合の復旧率をaと表す。また、復旧後のストレージシステム522のシステム状態を、(x,x,x、x)=(0、0、0、0)と表す。
 入力部104は、ストレージシステム522に関する復旧情報502として、式9、及び、式10を受信する。尚、入力部104は、復旧情報502を作成してもよい。
   (障害条件FC、(0、0、0、0)、a)・・・(式9)、
   (障害条件FS、(0、0、0、0)、a)・・・(式10)。
 次に、解析部124は、数値列π(1)を生成する。ストレージシステム522に関するシステム状態は、16(=2)通りである。このため、数値列π(1)は、16個の数値を含む。解析部124における数値解析手法は、たとえば、第1の実施形態に示すヤコビ法等である。解析部124は、数値列π(k)を数値列π(k+1)に更新し、数値列π(k)と数値列π(k+1)との差が十分に小さくなった場合に、数値列π(k)を更新する処理を終了する。
 解析部124は、数値列π(k)を更新する処理において、図14A及び図14Bに例示する行列Qのうち、本発明の各実施形態に示す処理に従い算出された一部のqij(たとえば可達状態に関するqij)の値のみを参照する。図14A及び図14Bは、一般的な行列Qの一例を表す図であり、図示の制約により2つの図面に分けて表すこととする。行列Qに含まれる第i行第j列成分qijは、第iシステム状態から第jシステム状態に遷移する遷移率を表す。qiiは、係る第iシステム状態から異なるシステム状態に遷移する遷移率の総和に「-1」をかけた値を表す。係る第iシステム状態が可達状態である場合に、qijは、図3のフローチャートに示すような一連の処理に従い、計算部(たとえば、計算部102、計算部113)によって算出される。尚、図3におけるステップS107は、後述する式13に示すクロネッカー和に基づき計算部113が算出する処理を表す。一方、係る第iシステム状態が非可達状態である場合に、qij、及び、qiiは、0である。
 解析部124は、たとえば、i及びjの値を、計算部113に送信してもよい。この場合に、計算部113は、qijの値を算出し、算出したqijを解析部124に送信する。解析部124は、該qijを受信し、受信したqijに基づき、数値列π(k)を更新する。
 行列QのインデックスIは、たとえば、ストレージシステム522に関するシステム状態(x、x、x、x)に、式11に例示する関数を適用することにより、求めることができる。尚、関数は、ストレージシステム522に関するシステム状態と、行列QのインデックスIの値とを一対一に対応するよう関連付けする関数であればよい。
   I=8×x+4×x+2×x+x+1・・・(式11)、
   (ただし、+は、足し算を表す)。
 たとえば、システム状態(0、1、0、0)に、式11を適用することにより、値「5」が算出される。この場合に、システム状態(0、1、0、0)は、第5システム状態、すなわち、行列Qにおける第5行と、当該行列Qにおける第5列とに関連する。たとえば、q5j(ただし、jは、整数である)は、第5システム状態から第jシステム状態に遷移する場合の遷移率を表す。また、たとえば、qi5(ただし、iは、整数である)は、第iシステム状態から第5システム状態に遷移する場合の遷移率を表す。
 尚、図14A及び図14Bは、値がすべて0である行、または、値がすべて0である列を含む。この行、及び、列は、該インデックスに対応するシステム状態が、非可達状態であることを表す。
 判定部131は、障害条件FS、コンポーネント状態x、x、x、x4、及び、式12に従い、非可達状態を算出することにより、可達状態数を算出してもよい。
   U=x∧x∧x∨x∧FS・・・(式12)。
 式12は、ストレージシステム522に関するシステム状態(x、x、x、x)が非可達状態である場合に1となる。この場合に、非可達状態は、3台の記憶装置が全てコンポーネント障害状態(すなわち、x=x=x=1)であるか、または、RAIDコントローラ524がコンポーネント障害状態である場合に、2台以上の記憶装置がコンポーネント障害状態となる状態である。
 たとえば、システム状態(1、1、1、0)は、RAIDコントローラ524と、記憶装置525と、記憶装置526とがコンポーネント障害状態である状態を表す。ストレージシステム522は、RAIDコントローラ524がコンポーネント障害状態になる場合、あるいは、3台の記憶装置のうち、2台の記憶装置がコンポーネント障害状態になる場合に、ストレージシステム522は、システム障害状態であるので機能を停止する。したがって、ストレージシステム522は、システム状態(1、1、1、0)にならない。この場合に、システム状態(1、1、1、0)は、非可達状態である。
 計算部113は、第1状態識別子が表すシステム状態、または、第2状態識別子が表すシステム状態が非可達状態である場合に、値として0を算出する。これは、図14A及び図14Bにおいて、値がすべて0である行、または、値がすべて0である列に対応する。遷移情報作成部132は、値がすべて0である行、及び、値がすべて0である列を行列Qとして格納しないことにより、行列Qを生成する。
 また、計算部113は、第1状態識別子が表すシステム状態、及び、第2状態識別子が表すシステム状態が非可達状態である場合に、第1状態識別子が表すシステム状態がシステム障害状態であるか否かを判定する。たとえば、この例において、計算部113は、式7及び式8に従い、ストレージシステム522がシステム障害状態であるか否かを判定する。
 また、計算部113は、第1状態識別子が表す状態がシステム障害状態である場合に、復旧情報502に基づき値を算出する。たとえば、計算部113は、第1状態識別子が表すシステム状態が、式7(すなわち、障害条件FC)に従いシステム障害状態である場合に、復旧情報502から障害条件FCに関連付けされた遷移率aを読み取る。計算部113は、第1状態識別子と第2状態識別子とが一致する場合に、「-a」を算出し、第1状態識別子と第2状態識別子とが一致しない場合に、値をaとする。この処理は、行列Qに関する定義に基づく。
 計算部113は、第1状態識別子が表すシステム状態がシステム障害状態でない場合に、たとえば、非特許文献1等に開示されるクロネッカー和を算出する手順に従い、行列Qにおける要素の値を算出する。非特許文献1等に開示されるクロネッカー和を算出する手順は、相互に独立して動作するコンポーネントを含む対象システムに関して、状態遷移を表す生成行列が、各コンポーネントに関する状態遷移を表す生成行列に関してクロネッカー和により表現されることに基づく。
 たとえば、計算部113は、式13に示すクロネッカー和に関する定義、及び、コンポーネントに関する行列要素に基づき、qijの値を算出する。
Figure JPOXMLDOC01-appb-I000001
   (ただし、*は、クロネッカー和を表す)。
 計算部113は、上述した処理に従い、行列Qに関する値を算出することができる。
 解析部124は、算出された数値列π(k+1)(すなわち、定常状態に関する確率)に基づき、システム稼動状態に関する和を算出することにより、ストレージシステム522に関する可用性を算出する。
 対象システムにおけるコンポーネント数が増える場合に、システム状態数は、コンポーネント数に対して指数関数的に増加する。また、各コンポーネントに関する、より詳細なコンポーネント状態に基づいて可用性を算出する場合にも、同様である。このため、特許文献1または特許文献2に開示された装置は、対象システムにおけるコンポーネント数が増える場合に、対象システムに関する可用性を解析することが難しい。
 次に、上述した例を用いながら、遷移情報作成部132における処理について説明する。
 図14A及び図14Bに例示する行列Qを参照すると、可達状態は、行列Qを表す16行に対応する16種のシステム状態のうち、11種のシステム状態である。遷移情報作成部132は、可達状態数が所定の数未満である場合に、図15に示すような可達状態に関する行列Rを作成する。図15は、可達状態に関する行列の一例を概念的に表す図である。尚、図15に例示する行列Rは、図14A及び図14Bに例示する行列Qの要素のうち、可達状態に対応する行、及び、可達状態に対応する列から成る行列を表す。
 この場合に、行列Qの大きさは、(可達状態数×可達状態数)であり、高々、(所定の数×所定の数)である。(所定の数×所定の数)が、記憶装置が有する容量よりも小さければ、記憶装置は、行列Qを格納することができる。遷移情報作成部132は、記憶装置が行列Qを格納することが可能な場合に、行列Qを作成し、作成した行列Qを記憶装置に格納する。
 この場合に、解析部124は、たとえば、記憶装置における行列Qを参照しながら、数値列π(k)を更新してもよい。したがって、解析部124が数値列π(k)を更新する処理において、計算部113は、行列Qに含まれる要素を繰り返し算出する必要がなくなる。
 次に、上述した例を参照しながら、本実施形態に係る可用性分析装置133が行う処理、及び、複数の状態に関して計算部113が算出する各値に基づき、行列Rから行列Qを作成する演算処理について説明する。
 遷移情報作成部132は、たとえば、複数のシステム障害状態を1つのシステム障害状態として処理する。復旧情報502において相互に異なるシステム障害状態であるとしても、該システム障害状態が相互に共通するシステム稼動状態、及び、相互に共通する遷移率に関連付けされている場合に、遷移情報作成部132は、該システム障害状態を1つにまとめて処理する。この処理は、行列Rにおいてシステム障害状態を表す行、及び、該システム障害状態を表す列に関して実行される。
 まず、行列Rから行列Qを算出する処理のうち、システム障害状態を表す行に関する処理について説明する。復旧情報502のうち式10に示される情報を例として参照しながら、遷移率を算出する手順について説明する。遷移率aにてシステム障害状態から復旧した状態を表すシステム状態(0、0、0、0)に遷移するシステム障害状態は、式10に含まれる障害条件FS(具体的には、式8)を満たすシステム障害状態として算出される。すなわち、該システム障害状態は、システム障害状態(0、1、1、0)、システム障害状態(0、0、1、1)、及び、システム障害状態(0、1、0、1)である。遷移情報作成部132は、該3つのシステム障害状態を、1つにまとめて処理する。
 即ち、遷移情報作成部132は、係る3つのシステム障害状態を1つにまとめて処理することにより、図16に例示する行列Qを作成することができる。即ち、遷移情報作成部132は、係る行列Qを作成するに際して、1つにまとめて処理するシステム障害状態(この場合、上記3種類のシステム障害状態)を構成する要素の値の和を算出する。
 より具体的に、図15と図16とを参照しながら、遷移情報作成部132が実行する上記の処理について以下に説明する。図16は、処理対象であるシステム障害状態を、1つのシステム障害状態として処理する場合に生成された行列の一例を概念的に表す図である。尚、説明の便宜上、図15に例示する変化前の行列を「行列R」と表し、図16に例示する変化後の行列を「行列Q」と表すとする。
 この例において、遷移情報作成部132は、説明の便宜上、式11を参照して前述したシステム状態から行列Rを作成する手順に従って、当該3種類のシステム障害状態から、システム障害状態に対応する行列Rのインデックスを算出するとする。たとえば、遷移情報作成部132は、図15に例示する行列Rの場合に、システム障害状態(0、0、1、1)に関して、式11に従い、インデックスを表す値「4」を算出する。たとえば、遷移情報作成部132は、図15に例示する行列Rの場合に、システム障害状態(0、1、0、1)に関して、式11に従い、インデックスを表す値「6」を算出する。たとえば、遷移情報作成部132は、図15に例示する行列Rの場合に、システム障害状態(0、1、1、0)に関して、式11に従い、インデックスを表す値「7」を算出する。すなわち、図15に例示する行列Rの場合に、システム障害状態(0、0、1、1)は、第4行に示されたシステム障害状態を表す。図15に例示する行列Rの場合に、システム障害状態(0、1、0、1)は、第6行に示されたシステム障害状態を表す。図15に例示する行列Rの場合に、システム障害状態(0、1、1、0)は、第7行に示されたシステム障害状態を表す。即ち、係るインデックスは、行列Rの行数、または、列数を表す。また、図16に例示する行列Qの場合に、当該1つにまとめて処理するシステム障害状態は、第4行に示されたシステム障害状態を表す。
 説明の便宜上、図16に例示する行列Qの第1行に示されたシステム稼動状態は、図15に例示する行列Rの第1行に示されたシステム稼動状態を表すとする。図16に例示する行列Qの第2行に示されたシステム稼動状態は、図15に例示する行列Rの第2行に示されたシステム稼動状態を表すとする。図16に例示する行列Qの第3行に示されたシステム稼動状態は、図15に例示する行列Rの第3行に示されたシステム稼動状態を表すとする。図16に例示する行列Qの第5行に示されたシステム稼動状態は、図15に例示する行列Rの第5行に示されたシステム稼動状態を表すとする。
 上記の場合において、図16に例示する行列Qの要素は、図15に例示する行列Rの要素のうち、1つにまとめて処理する1種類以上のシステム障害状態に関して、該1つのシステム障害状態に含まれるシステム障害状態が複数種類存在する場合に、各システム障害状態に関して算出される要素を表す値の和として算出することができる。より具体的に、遷移情報作成部132は、以下のような処理を行う。
 遷移情報作成部132は、まず、復旧情報502において、特定の遷移率aであって、かつ、特定のシステム状態に遷移する障害条件FS(具体的には、式8)を処理対象として以降に示す処理を実行する。次に、遷移情報作成部132は、処理対象とした障害条件FSが満たすシステム障害状態を、少なくとも1つ以上算出し、式11に例示する算出式に従い、算出したシステム障害状態に対応する行列Rのインデックスを、当該個々のシステム障害状態に関してそれぞれ算出する。遷移情報作成部132は、算出したシステム障害状態を表すインデックスが指し示す行に関して、当該システム障害状態から復旧したシステム状態に対応するよう関連付けされた列の値として、当該特定の遷移率aを表す値を算出する。図16に例示する行列Qの(I、J)要素に関して、IとJとが異なる場合に、遷移情報作成部132は、1つにまとめて処理するシステム障害状態から当該特定のシステム状態に遷移する遷移率をaS、システム障害状態から特定のシステム状態と異なる状態に遷移する遷移率を0と算出する。IとJとが一致する場合に、遷移情報作成部132は、上述した式1に従い値を算出する。
 したがって、システム障害状態に関して、行列Rのうち該1つにまとめて処理するシステム障害状態を指し示す複数の行及び複数の列をまとめた行及び列が、行列Qの1つの行及び列に対応する。この結果、行列Qの行数及び列数は、行列Rの行数及び列数に比べて小さい。システム障害状態に関して1つにまとめる処理では、1つの「1つにまとめて処理するシステム障害状態」に着目すると、行列Qをなす行数の減少数及び行列Qをなす列数の減少数は、個数Aに示す個数である。すなわち、
   個数A:「(1つにまとめて処理するシステム障害状態を構成するシステム障害状態の状態数)-1」。
 また、システム障害状態に関して1つにまとめる処理において、全「1つにまとめて処理するシステム障害状態」に関しての減少数は、行及び列共に、各「1つにまとめて処理するシステム障害状態」に関する上述した個数Aの総和になる。たとえば、式8に従い算出されるシステム障害状態数は、後述する3つ(すなわち、行列Rの第4、6、及び、7行)であり、式7に従い算出されるシステム障害状態数は、4つ(すなわち、行列Rの第8乃至11行)である。したがって、図16に例示する行列Qと、図15に例示する行列Rとを比較すると、行数及び列数は、それぞれ、5(=「3-1」+「4-1」)つ減少する。
 遷移情報作成部132は、上述した処理に従い算出したインデックスのうち、当該システム稼働状態を表すインデックスが指し示す行に関して、当該システム障害状態を表すインデックスが指し示す各列における遷移率を1つに足し合わせることにより、上記和を表す遷移率を算出する。
 次に、行列Rから行列Qを算出する処理のうち、システム稼動状態を表す行に関する処理について説明する。ここで、説明の便宜上、行列QのインデックスJ(すなわち、第J状態)に対応する行列Rのインデックスの集合をG(J)と表すとする。たとえば、図16において、当該1つにまとめるシステム障害状態を表す第4状態に関して、図15に示す行列のインデックスの集合G(4)は、当該1つにまとめるシステム障害状態に含まれるシステム障害状態を表す{4、6、7}なる3つの要素によって構成される。係る3つの要素は、式11に従って先に求めたインデックスを表す値「4」、「6」、「7」である。
 また、説明の便宜上、システム稼動状態に関して、式11に従い算出されるインデックスは、図15に例示する行列Rと、図16に例示する行列Qとで同じであるとする。すなわち、システム稼動状態を表すインデックスJに関して、G(J)は、{J}なる1つの要素によって構成されるとする。尚、行列Rの各インデックスと、行列Qの各インデックスが関連付けされていればよいので、インデックスは、上述した例に限定されない。
 図16に例示する行列Qの(I,J)要素に関して、IとJとが異なる場合に、遷移情報作成部132は、第J列に関するシステム状態が、当該1つにまとめて処理するシステム障害状態である場合に、式14に従い遷移率を算出する。
 Q(I,J)=Σ(G(J)∋K)R(I,K)・・・(式14)、
   (ただし、Σ(G(J)∋K)は、インデックスの集合G(J)に含まれる要素Kに関して総和を算出することを表す)。
 また、当該システム稼働状態を表すインデックスが指し示す行に関して、IとJとが一致する場合に、遷移情報作成部132は、上述した式1に従い値を算出する。
 したがって、システム稼動状態に関しては、インデックスの集合G(J)が行列Rに関する複数のインデックスに対応するよう関連付けされているので、上述した処理が実行されることにより、行列Qの列数は、行列Rの列数に比べて小さくなる。これに対して、行列Qにおいてシステム稼動状態を表すインデックスの個数は、行列Rにおいてシステム稼動状態を表すインデックスの個数と同じであるので、システム稼動状態に関して、行列Qの行数は、行列Rの行数に同じである。すなわち、システム稼動状態に関する処理において、行列Qをなす列数の減少数は、各「1つにまとめて処理するシステム障害状態」に関する上述した個数Aの総和になる。一方、システム稼動状態に着目すると、行列Qの行数は、行列Rの行数と同じである。たとえば、式8に従い算出されるシステム障害状態数は、後述する3つ(すなわち、行列Rの第4、6、及び、7行)であり、式7に従い算出されるシステム障害状態数は、4つ(すなわち、行列Rの第8乃至11行)である。したがって、図16に例示する行列Qと、図15に例示する行列Rとを比較すると、列数は、5(=「3-1」+「4-1」)つ減少する。
 障害条件FSを含む復旧情報502に関する上述した一連の処理と同様に、遷移情報作成部132は、式9に示される情報(障害条件FCを含む復旧情報502)に関して、式7に例示する障害条件FCに基づき、該障害条件FCを満たすシステム障害状態を算出する。次に、遷移情報作成部132は、算出したシステム障害状態に関して式11に従いインデックスを求め、求めたインデックスが表す行列Rの第8、9、10、及び、11行目に示すシステム障害状態を、1つのシステム障害状態として処理する。尚、障害条件FCに関する処理については、詳細な説明を省略する。
 行列Qにおいてシステム稼動状態を表す1つのインデックスJは、上述したインデックスの集合G(J)によって、行列Rのシステム稼動状態を表す1つのインデックスに関連付けされている。一方、行列Qにおいてシステム障害状態を表す1つのインデックスJは、上述したインデックスの集合G(J)によって、当該1つにまとめるシステム障害状態を表す複数のインデックスに関連付けされている。
 すなわち、システム障害状態に関して、上述した処理の結果である行列Q(図16)の行数及び列数は、行列R(図15)の行数及び列数よりも小さい。また、システム稼動状態に関して、上述した処理の結果である行列Qの列数は、行列Rの列数よりも小さい。したがって、行列Qのサイズは、行列Rのサイズよりも小さい。各実施形態の説明に先立って「発明を実施するための形態」の文頭において説明したように、行列Qは、正方行列である。このため、システム障害状態に関する当該処理による、当該行列Qにおける列数の減少数は、当該行列Qにおける行数の減少数と等しいという関係を維持する。すなわち、行列Rと上述した処理の結果である行列Qとを比較すると、行列Qをなす列数の減少数は、当該行列Qをなす行数の減少数に等しい。但し、本発明において、列数を決定する方法は、本実施形態における正方行列の特性を利用する方法には限定されない。
 以下の説明では、上述した処理手順を、図15及び図16に示す場合を例として、より具体的に説明する。遷移情報作成部132は、式10に示される情報(障害条件FSを含む復旧情報502)に関して、図15における第4、6、及び、7行目に示すシステム障害状態を、1つのシステム障害状態として処理する。
 たとえば、図15に例示する行列Rにおいて、第2行目における、第4列目及び第6列目の値は、λである。本実施形態の文頭において、連続時間マルコフ連鎖に関して前述したとおり、行列Rの第I行第J列における要素は、第I状態から第J状態に遷移する遷移率を表すので、第2行目に示すシステム稼動状態から、第4列目に示すシステム障害状態に遷移する場合の遷移率は、λである。同様に、行列Rの第2行目に示すシステム稼動状態から、第6列目に示すシステム障害状態に遷移する場合の遷移率は、λである。すなわち、計算部113は、行列Rの第2行目に示すシステム稼動状態から、第4列目に示すシステム障害状態に遷移する場合に、値としてλを算出する。また、行列Rの第2行目に示すシステム稼動状態から、第7列目に示すシステム障害状態に遷移する場合の遷移率は、0である。
 前述した遷移率aに関する例の場合に、遷移情報作成部132は、行列Rの第4行目に示すシステム障害状態、行列Rの第6行目に示すシステム障害状態、及び、行列Rの第7行目に示すシステム障害状態を、1つにまとめて処理するシステム障害状態として処理する。すなわち、遷移情報作成部132は、行列Rの第2行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する場合の遷移率を、上述した3つの遷移率の和として算出する。たとえば、遷移情報作成部132は、前の段落で述べた注目する3行に対応する3つの遷移率に関して、それぞれ、計算部113から値(この場合、0及び2つのλ)を受信し、該3つの値の和(この場合、λ+λ+0)を算出する。すなわち、図15において、
   ○第2行目に示すシステム稼動状態から、第4列目に示すシステム障害状態に遷移する場合の遷移率λ
   ○第2行目に示すシステム稼動状態から、第6列目に示すシステム障害状態に遷移する場合の遷移率λ
   ○第2行目に示すシステム稼動状態から、第7列目に示すシステム障害状態に遷移する場合の遷移率0。
 以降、行列Rの各行に関する処理について具体的に説明する。遷移情報作成部132は、図15に例示する行列Rの第2行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する場合の遷移率を、2×λ(=λ+λ+0)として算出する。算出された値(2×λ)は、当該着目する3行分のシステム障害状態を表す1つの値で表されており、行列Qの第2行の第4列に設定される。これは、行列Qの2行目がインデックスの集合G(2)によって示されるシステム稼動状態を表し、行列Qの4行目がインデックスの集合G(4)によって示されるシステム障害状態を表すからである。
 同様に、遷移情報作成部132は、図15に例示する行列Rの第3行目に示すシステム稼動状態に関して、第4行目に示すシステム障害状態、第6行目に示すシステム障害状態、及び、第7行目に示すシステム障害状態を、1つにまとめて処理するシステム障害状態として処理する。このため、遷移情報作成部132は、図15に例示する行列Rの第3行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する場合の遷移率を、以下に示す3つの遷移率の和として算出する。すなわち、図15において、
   ○第3行目に示すシステム稼動状態から、第4列目に示すシステム障害状態に遷移する場合の遷移率λ
   ○第3行目に示すシステム稼動状態から、第6列目に示すシステム障害状態に遷移する場合の遷移率0、
   ○第3行目に示すシステム稼動状態から、第7列目に示すシステム障害状態に遷移する場合の遷移率λ
 遷移情報作成部132は、図15における第3行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する遷移率を上述した3つの遷移率の和として算出する。
 すなわち、遷移情報作成部132は、図16に例示する行列Qの第3行目に示すシステム稼動状態から、該1つにまとめてシステム障害状態に遷移する場合の遷移率を、2×λ(=λ+0+λ)として算出する。尚、上述した遷移率は、計算部113によって算出される値である。算出された値(2×λ)は、当該着目する3行分のシステム障害状態を表す1つの値で表されており、行列Qの第3行の第4列に設定される。これは、行列Qの3行目がインデックスの集合G(3)によって示されるシステム稼動状態を表し、行列Qの4行目がインデックスの集合G(4)によって示されるシステム障害状態を表すからである。
 さらに同様に、遷移情報作成部132は、図15に例示する行列Rの第1行目に示すシステム稼動状態に関して、第4行目に示すシステム障害状態、第6行目に示すシステム障害状態、及び、第7行目に示すシステム障害状態を、1つにまとめて処理するシステム障害状態として処理する。このため、遷移情報作成部132は、図15に例示する行列Rの第1行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する場合の遷移率を、以下に示す3つの遷移率の和として算出する。すなわち、図15において、
   ○第1行目に示すシステム稼動状態から、第4列目に示すシステム障害状態に遷移する場合の遷移率0、
   ○第1行目に示すシステム稼動状態から、第6列目に示すシステム障害状態に遷移する場合の遷移率0、
   ○第1行目に示すシステム稼動状態から、第7列目に示すシステム障害状態に遷移する場合の遷移率0。
 すなわち、遷移情報作成部132は、図16に例示する行列Qの第1行目に示すシステム稼動状態から、該1つにまとめて処理するシステム障害状態に遷移する遷移率を上述した3つの遷移率の和として算出する。遷移情報作成部132は、図16に例示する行列Qの第1行目に示すシステム稼動状態から、該1つのシステム障害状態に遷移する場合の遷移率を、0(=0+0+0)として算出する。尚、上述した遷移率は、計算部113によって算出される値である。算出された値(0)は、当該着目する3行分のシステム障害状態を表す1つの値で表されており、行列Qの第1行の第4列に設定される。これは、行列Qの1行目がインデックスの集合G(1)によって示されるシステム稼動状態を表し、行列Qの4行目がインデックスの集合G(4)によって示されるシステム障害状態を表すからである。
 尚、上述した遷移率aに関する一連の処理と同様に、行列Rの第8乃至11行目に示す遷移率aに関するシステム障害状態、及び、行列Rの第5行目に示すシステム稼動状態に関しても処理が実行される。但し、遷移率aに関して当該行を対象として実行される処理手順についての詳細な説明は省略する。
 以上説明した遷移情報作成部132によって、図15に例示する行列Rは、図16に例示する行列Qに変化する。この場合に、解析部124は、記憶装置における行列Qを参照しながら、数値列π(k)を更新する。したがって、解析部124が数値列π(k)を更新する処理において、計算部113は、行列Qに含まれる要素を繰り返し算出する必要がなくなる。
 次に、第4の実施形態に係る可用性分析装置133に関する効果について説明する。
 本実施形態に係る可用性分析装置133によれば、第3の実施形態に係る可用性分析装置123が有する効果に加え、さらに、大規模な対象システムに関して、可用性を算出することができる。
 この理由は、理由1及び理由2である。すなわち、
 (理由1)第4の実施形態に係る可用性分析装置133が有する構成は、第3の実施形態に係る可用性分析装置123が有する構成を含むからである、
 (理由2)複数のシステム障害状態を1つのシステム障害状態として処理する結果、行列Qの大きさが、第3の実施形態に係る可用性分析装置123に比べ、さらに小さくなるからである。
 <第5の実施形態>
 次に、上述した本発明の各実施形態の基本となる本発明の第5の実施形態について説明する。
 図17を参照しながら、本発明の第1の実施形態に係る可用性分析装置101が有する構成について詳細に説明する。図17は、本発明の第5の実施形態に係る可用性分析装置151が有する構成を示すブロック図である。
 第5の実施形態に係る可用性分析装置151は、解析部152を有する。
 解析部152は、以下に示す3つの情報に基づき、対象システムがとり得る複数のシステム状態のうち、2つのシステム状態間に関する値を算出する。すなわち、
  (1)対象システムに含まれるコンポーネントのコンポーネント状態間における遷移率を表すコンポーネント情報、
  (2)対象システムがとり得る複数のシステム状態のうち、対象システムが稼動できないシステム状態を表すシステム障害状態である場合における、コンポーネントのコンポーネント状態を表す条件を含む障害情報、
  (3)対象システムが稼動している状態を表すシステム稼動状態に、対象システムがシステム障害状態から遷移する場合の遷移率を含む復旧情報。
 尚、2つの状態間に関する値を算出する処理は、第1の実施形態に示した計算部102、第2、3、及び、4の実施形態に示した計算部113等における処理と同様の処理である。
 次に、解析部152は、算出した2つの状態間に関する値に基づき、対象システムがあるシステム状態である確率を算出する。
 解析部152は、算出した遷移率のうち、対象システムがシステム稼動状態である場合における確率に基づいて対象システムに関する可用性を算出する。たとえば、解析部152は、対象システムがシステム稼動状態である場合における確率を足し合わせることにより可用性を算出する。
 尚、遷移率を算出する処理、及び、可用性を算出する処理は、第1の実施形態及び第2の実施形態に示した解析部103、第3の実施形態及び第4の実施形態に示した解析部124等における処理と同様の処理である。
 次に、第5の実施形態に係る可用性分析装置151に関する効果について説明する。
 第5の実施形態に係る可用性分析装置151によれば、規模が大きな対象システムであっても、可用性を分析することができる。この理由は、第1システム状態から第2システム状態に遷移することを表す行列の全要素を記憶する必要がないからである。
 (ハードウェア構成例)
 上述した本発明の各実施形態における可用性分析装置を、1つの計算処理装置(情報処理装置、コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。
但し、係る可用性分析装置は、物理的または機能的に少なくとも2つの計算処理装置を用いて実現してもよい。また、係る可用性分析装置は、専用の装置として実現してもよい。
 図18は、第1の実施形態乃至第5の実施形態に係る可用性分析装置を実現可能な計算処理装置のハードウェア構成を概略的に示す図である。計算処理装置20は、中央処理演算装置(Central_Processing_Unit、以降「CPU」と表す)21、メモリ22、ディスク23、不揮発性記録媒体24、入力装置25、出力装置26、および、通信インターフェース(以降、「通信IF」と表す)27を有する。計算処理装置20は、通信IF27を介して、他の計算処理装置、及び、通信装置と情報を送受信することができる。
 不揮発性記録媒体24は、コンピュータが読み取り可能な、たとえば、コンパクトディスク(Compact_Disc)、デジタルバーサタイルディスク(Digital_Versatile_Disc)、ユニバーサルシリアルバスメモリ(USBメモリ)、ソリッドステートドライブ(Solid_State_Drive)等である。不揮発性記録媒体24は、電源を供給しなくても係るプログラムを保持し、持ち運びを可能にする。不揮発性記録媒体24は、上述した媒体に限定されない。また、不揮発性記録媒体24の代わりに、通信IF27を介して、通信ネットワークを介して係るプログラムを持ち運びしてもよい。
 すなわち、CPU21は、ディスク23が記憶するソフトウェア・プログラム(コンピュータ・プログラム:以下、単に「プログラム」と称する)を、実行する際にメモリ22にコピーし、演算処理を実行する。CPU21は、プログラム実行に必要なデータをメモリ22から読み取る。表示が必要な場合には、CPU21は、出力装置26に出力結果を表示する。外部からプログラムを入力する場合、CPU21は、入力装置25からプログラムを読み取る。CPU21は、上述した図1、図6、図9、図11、または、図17に示す各部が表す機能(処理)に対応するところのメモリ22にある可用性分析プログラム(図2、図3、図4、図7、図8、または、図10)を解釈し実行する。CPU21は、上述した本発明の各実施形態において説明した処理を順次行う。
 すなわち、このような場合、本発明は、係る可用性分析プログラムによっても成し得ると捉えることができる。さらに、係る可用性分析プログラムが記録されたコンピュータ読み取り可能な不揮発性の記録媒体によっても、本発明は成し得ると捉えることができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかし、本発明は、上述した実施形態には限定されない。すなわち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2014年4月16日に出願された日本出願特願2014-084087を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 101  可用性分析装置
 102  計算部
 103  解析部
 104  入力部
 501  障害情報
 502  復旧情報
 503  可用性
 111  可用性分析装置
 112  入力部
 113  計算部
 114  作成部
 121  判定部
 122  遷移情報作成部
 123  可用性分析装置
 124  解析部
 131  判定部
 132  遷移情報作成部
 133  可用性分析装置
 151  可用性分析装置
 152  解析部
 521  ホストコンピュータ
 522  ストレージシステム
 523  バックアップシステム
 524  RAIDコントローラ
 525  記憶装置
 526  記憶装置
 527  記憶装置
 528  記憶装置
 20  計算処理装置
 21  CPU
 22  メモリ
 23  ディスク
 24  不揮発性記録媒体
 25  入力装置
 26  出力装置
 27  通信IF

Claims (10)

  1.  (I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)前記対象システムがとり得る複数の状態のうち、前記対象システムが稼動できない状態を表す障害状態である場合における前記コンポーネントの状態を表す条件を含む障害情報と、(III)前記対象システムが稼動している状態を表す稼動状態に、前記対象システムが前記障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、前記複数の状態に含まれる2つの状態間に関する値を算出し、算出した前記2つの状態間に関する値に基づいて、前記対象システムが、ある状態にある確率を算出し、前記対象システムが前記稼動状態になっている場合の前記確率に基づいて、前記対象システムに関する可用性を算出する解析手段
     を備える可用性分析装置。
  2.  前記2つの状態に関する値は、第1状態識別子が表す状態から第2状態識別子が表す状態への遷移に関する値であり、
     前記解析手段は、前記障害状態を表す第3状態識別子と、前記条件とが関連付けされている前記障害情報に前記第1状態識別子が含まれない場合に、前記コンポーネント情報に基づき前記値を算出する
     請求項1に記載の可用性分析装置。
  3.  前記解析手段は、
       (a)前記第3状態識別子と、前記第3状態識別子が表す前記障害状態から遷移する前記稼動状態を表す第4状態識別子と、前記遷移率とが関連付けされている前記復旧情報において、前記第1状態識別子と、前記第2状態識別子とが関連付けされている場合に、前記第1状態識別子及び前記第2状態識別子に関連付けされた前記遷移率を前記値として算出し、
       (b)前記第1状態識別子が前記障害状態に含まれ、前記第1状態識別子及び前記第2状態識別子が一致する場合に、前記復旧情報において、前記第1状態識別子に関連付けされた「前記遷移率×(-1)」を前記値として算出し、
       (c)前記第1状態識別子が前記障害状態に含まれ、前記(a)及び前記(b)でない場合に、0を前記値として算出する
     請求項2に記載の可用性分析装置。
  4.  前記解析手段は、前記対象システムにおいて達成され得ない状態を表す状態識別子が含まれる非可達情報に、前記第1状態識別子または前記第2状態識別子が含まれる場合に0を前記値として算出し、前記非可達情報が受信した前記状態識別子のいずれも含まない場合に、前記(I)、前記(II)、及び、前記(III)に基づき、前記値を算出する
     請求項1乃至請求項3のいずれか一項に記載の可用性分析装置。
  5.  前記対象システムにおいて達成され得る状態を表す可達状態を識別可能な状態識別子が含まれる可達情報に含まれる状態識別子の個数が、所定の個数以下であるか否かを判定する判定手段と、
     前記可達情報に含まれる状態識別子の個数が所定の個数以下である場合に、前記可達状態に関して、前記解析手段が算出する前記値を格納する遷移情報を作成する作成手段と
     を備え、
     前記解析手段は、前記遷移情報に基づき、前記可用性を算出する
     請求項1乃至請求項4のいずれか一項に記載の可用性分析装置。
  6.  前記判定手段は、前記可達情報に含まれる状態識別子のうち、前記障害状態を1つの状態として設定することにより前記状態識別子の個数を算出し、前記算出した状態識別子の個数が前記所定の個数以下であるか否かを判定し、
     前記作成手段は、前記障害状態を1つの状態として、前記遷移情報を作成する
     請求項5に記載の可用性分析装置。
  7.  (I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)前記対象システムがとり得る複数の状態のうち、前記対象システムが稼動できない状態を表す障害状態である場合における前記コンポーネントの状態を表す条件を含む障害情報と、(III)前記対象システムが稼動している状態を表す稼動状態に、前記対象システムが前記障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、前記複数の状態に含まれる2つの状態間に関する値を算出し、算出した前記2つの状態間に関する値に基づいて、前記対象システムが、ある状態にある確率を算出し、前記対象システムが前記稼動状態になっている場合の前記確率に基づいて、前記対象システムに関する可用性を算出する可用性分析方法。
  8.  (I)対象システムに含まれるコンポーネントの状態間における遷移率を表すコンポーネント情報と、(II)前記対象システムがとり得る複数の状態のうち、前記対象システムが稼動できない状態を表す障害状態である場合における前記コンポーネントの状態を表す条件を含む障害情報と、(III)前記対象システムが稼動している状態を表す稼動状態に、前記対象システムが前記障害状態から遷移する場合の遷移率を含む復旧情報とに基づき、前記複数の状態に含まれる2つの状態間に関する値を算出し、算出した前記2つの状態間に関する値に基づいて、前記対象システムが、ある状態にある確率を算出し、前記対象システムが前記稼動状態になっている場合の前記確率に基づいて、前記対象システムに関する可用性を算出する解析機能
     をコンピュータに実現させる可用性分析プログラムを格納する記録媒体。
  9.  前記2つの状態に関する値は、第1状態識別子が表す状態から第2状態識別子が表す状態への遷移に関する値であり、
     前記解析機能において、前記障害状態を表す第3状態識別子と、前記条件とが関連付けされている前記障害情報に前記第1状態識別子が含まれない場合に、前記コンポーネント情報に基づき前記値を算出する
     請求項8に記載の可用性分析プログラムを格納する記録媒体。
  10.  前記解析機能において、
       (a)前記第3状態識別子と、前記第3状態識別子が表す前記障害状態から遷移する前記稼動状態を表す第4状態識別子と、前記遷移率とが関連付けされている前記復旧情報において、前記第1状態識別子と、前記第2状態識別子とが関連付けされている場合に、前記第1状態識別子及び前記第2状態識別子に関連付けされた前記遷移率を前記値として算出し、
       (b)前記第1状態識別子が前記障害状態に含まれ、前記第1状態識別子及び前記第2状態識別子が一致する場合に、前記復旧情報において、前記第1状態識別子に関連付けされた「前記遷移率×(-1)」を前記値として算出し、
       (c)前記第1状態識別子が前記障害状態に含まれ、前記(a)及び前記(b)でない場合に、0を前記値として算出する
     請求項9に記載の可用性分析プログラムを格納する記録媒体。
PCT/JP2015/002092 2014-04-16 2015-04-16 可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体 WO2015159549A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016513646A JPWO2015159549A1 (ja) 2014-04-16 2015-04-16 可用性分析装置、可用性分析方法、及び、可用性分析プログラム
US15/129,919 US20170147459A1 (en) 2014-04-16 2015-04-16 Availability analysis device, availability analysis method, and recording medium having availability analysis program recorded therein

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-084087 2014-04-16
JP2014084087 2014-04-16

Publications (1)

Publication Number Publication Date
WO2015159549A1 true WO2015159549A1 (ja) 2015-10-22

Family

ID=54323770

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/002092 WO2015159549A1 (ja) 2014-04-16 2015-04-16 可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体

Country Status (3)

Country Link
US (1) US20170147459A1 (ja)
JP (1) JPWO2015159549A1 (ja)
WO (1) WO2015159549A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6864992B2 (ja) * 2016-04-28 2021-04-28 日立Astemo株式会社 車両制御システム検証装置及び車両制御システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUMIO MACHIDA ET AL.: "Candy: Component-based Availability Modeling Framework for Cloud Service Management Using SysML", PROCEEDINGS OF THE 30TH IEEE SYMPOSIUM ON RELIABLE DISTRIBUTED SYSTEMS, pages 209 - 218, XP032021998 *

Also Published As

Publication number Publication date
US20170147459A1 (en) 2017-05-25
JPWO2015159549A1 (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
US9280416B1 (en) Selection of erasure code parameters for no data repair
US10157105B2 (en) Method for data protection for cloud-based service system
US7925927B2 (en) Simulator for determining data loss in a fault tolerant system
US11048839B2 (en) Adaptive error correction in quantum computing
US20090327195A1 (en) Root cause analysis optimization
CN103544202A (zh) 用于安排数据处理的方法和系统
KR102109015B1 (ko) 부분 접속 복구가 가능하고 중복 인코딩이 용이한 데이터 저장 방법 및 시스템
JP2021521504A (ja) 階層型ストレージを使用したコンピュータ上の量子回路のシミュレーション
US10592344B1 (en) Generation and verification of erasure encoded fragments
CN106575244A (zh) 确保云应用的高可用性的修补过程
Mohror et al. Detailed modeling and evaluation of a scalable multilevel checkpointing system
CN115185736B (zh) 基于图卷积神经网络的微服务调用链异常检测方法及装置
JP7059214B2 (ja) 演算装置
US9489254B1 (en) Verification of erasure encoded fragments
Barenco et al. Effects of noise on quantum error correction algorithms
JP2019053474A (ja) クラウドベースサービスのデータ保護方法
WO2015159549A1 (ja) 可用性分析装置、可用性分析方法、及び、可用性分析プログラムが記録された記録媒体
US9552254B1 (en) Verification of erasure encoded fragments
CN103812719B (zh) 集群系统的失效预测方法及装置
US9489252B1 (en) File recovery using diverse erasure encoded fragments
Zwingmann et al. Optimal disassembly sequencing strategy using constraint programming approach
CN113297338B (zh) 产品推荐路径生成方法、装置、设备及存储介质
US20210279575A1 (en) Information processing apparatus, information processing method, and storage medium
Levitin et al. Performance distribution of a fault-tolerant system in the presence of failure correlation
Galinanes et al. Ensuring data durability with increasingly interdependent content

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15779400

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016513646

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15129919

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15779400

Country of ref document: EP

Kind code of ref document: A1