WO2024013897A1 - パターン抽出及びルール生成装置、方法及びコンピュータプログラム - Google Patents

パターン抽出及びルール生成装置、方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2024013897A1
WO2024013897A1 PCT/JP2022/027598 JP2022027598W WO2024013897A1 WO 2024013897 A1 WO2024013897 A1 WO 2024013897A1 JP 2022027598 W JP2022027598 W JP 2022027598W WO 2024013897 A1 WO2024013897 A1 WO 2024013897A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
rule
event
information
fault
Prior art date
Application number
PCT/JP2022/027598
Other languages
English (en)
French (fr)
Inventor
憲男 山本
晴久 野末
テキ リ
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/027598 priority Critical patent/WO2024013897A1/ja
Publication of WO2024013897A1 publication Critical patent/WO2024013897A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance

Definitions

  • the present invention relates to a pattern extraction and rule generation device, method, and computer program.
  • a technique for creating an IF-THEN rule that determines the cause of a failure based on an event (hereinafter referred to as a failure event) that occurs due to a certain failure in a monitored device there is a technique for creating an IF-THEN rule that determines the cause of a failure based on an event (hereinafter referred to as a failure event) that occurs due to a certain failure in a monitored device.
  • Patent Document 1 specifies the time period in which a failure occurred (for example, from the occurrence of the failure until recovery), and characterizes failure event information (alarms, logs, etc.) and other failures occurring during that time period.
  • a learning technique has been disclosed that compares unique patterns of event information with unique patterns of event information, extracts unique patterns of failure event information that characterizes the failure, and also corrects unique patterns of other failures.
  • the extent to which failure event information that has occurred matches a unique pattern (confidence level) is calculated, and the higher the matching rate, the higher the possibility that it is similar to failures that have occurred in the past. The location of the failure is estimated.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a pattern extraction and rule generation device, method, and computer program that realize early failure recovery in network service maintenance work.
  • the pattern extraction and rule generation device includes, for each failure, failure cause information including a failure cause location and failure cause, failure event group information that occurred from the occurrence of the failure to recovery, and a condition section. and a rule ID associated with a rule including a conclusion part; All of the above combinations are generated, and a unique combination is determined to be the least occurring combination from the combination of failure events of the new failure and the combination of failure events of each of one or more past failures. and a rule learning control unit that extracts a pattern for each new failure and generates the rule that includes the unique pattern in the condition part.
  • FIG. 1 is a diagram schematically showing a configuration example of a monitoring system including a pattern extraction and rule generation device according to an embodiment.
  • FIG. 2 is a diagram schematically showing an example of the configuration of the server shown in FIG. 1.
  • FIG. 3 is a flowchart for explaining a first example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • FIG. 4 is a flowchart for explaining a second example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • FIG. 5 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • FIG. 1 is a diagram schematically showing a configuration example of a monitoring system including a pattern extraction and rule generation device according to an embodiment.
  • FIG. 2 is a diagram schematically showing an example of the configuration of the server shown in FIG. 1.
  • FIG. 3 is a flowchart for explaining a first example of rule generation and modification operations in the
  • FIG. 6 is a flowchart for explaining a third example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • FIG. 7 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • FIG. 8 is a flowchart for explaining a fourth example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • FIG. 9 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • FIG. 10 is a flowchart for explaining a fifth example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • FIG. 11 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • FIG. 1 is a diagram schematically showing a configuration example of a monitoring system including a pattern extraction and rule generation device according to an embodiment.
  • the monitoring target of the monitoring system shown in FIG. 1 is a monitoring target network including a plurality of monitoring target devices.
  • the monitoring system is communicably connected to the network to be monitored via the HUB 10.
  • the monitoring system includes a monitoring device 20 and a rule learning type fault location estimation system 60.
  • the rule learning type fault location estimation system 60 includes a server 30 and a display terminal 40.
  • the monitoring device 20, the server 30, and the display terminal 40 each include at least one processor and a memory storing a program executed by the processor, and are implemented by software or by a combination of software and hardware. By combining these, various functions described below are realized.
  • the monitoring device 20, the server 30, and the display terminal 40 are connected to each other via a network so that they can communicate with each other.
  • the monitoring device 20 receives failure event information from the network to be monitored, and periodically transmits the received failure event information to the server 30 of the rule learning type failure location estimation system 60.
  • the server 30 executes rule generation and fault location estimation based on the fault event information received from the monitoring device 20 .
  • the server 30 extracts a unique pattern from failure event information characterizing the failure and creates a rule.
  • the server 30 executes a fault location estimation process when a fault occurs for the second time or later, based on the fault occurrence time period input by the maintenance person, for example.
  • the server 30 outputs, for example, the estimated failure location (monitored device) that even partially matches the rule and the confidence level (matching ratio of events) to the display terminal 40 as the estimation result.
  • the display terminal 40 is a terminal that includes, for example, a display section and an operation section.
  • the operation unit is, for example, a keyboard, a mouse, a touch panel, etc., and is a means for inputting information by operation by an operator (maintenance person).
  • the display unit includes a display means such as a liquid crystal display panel or an organic EL display panel, and can display the result of fault location estimation by the server 30, countermeasures, and the like.
  • the maintenance person can input, for example, information on the true cause of the failure and the location of the failure.
  • the maintenance person can cause the display unit to present the location where the fault is estimated to have occurred and a countermeasure plan.
  • FIG. 2 is a diagram schematically showing an example of the configuration of the server shown in FIG. 1.
  • the server 30 includes a data import section 31, a rule learning control section 32, a fault location estimation function section 33, a countermeasure management function section 34, a GUI (Graphical User Interface) section 35, and an API (Application Programming Interface). 36, a failure history/handling history database D1, a rule database D2, an alarm information database D3, and a network (NW) configuration information database D4.
  • the rule learning control unit 32, failure history/handling history database D1, rule database D2, and alarm information database D3 constitute a pattern extraction and rule generation device 50.
  • failure history information and handling history information are recorded in association with failure IDs.
  • the failure history information includes, for example, failure event log information (monitored device ID, event ID, event type, event occurrence date and time, etc.) for each failure (failure ID), failure factor information, and the like.
  • a failure event is associated with a failure ID and indicates an event that occurs due to a failure corresponding to the failure ID.
  • the failure factor information includes, for example, information on the location of the failure cause and information on the failure factor.
  • the failure factor information indicates the cause of the failure (failure factor type), and is information on the true cause of the failure identified by the maintenance person.
  • the information on the failure cause location indicates the location where the failure has occurred as specified by the maintenance person (for example, monitored target device ID, IP address, etc.), and the failure cause location is a certain monitored target device.
  • the handling history information includes the handling method actually performed by the maintenance person, the date and time of the handling, and the like.
  • rules generated for each failure are recorded in association with a rule ID.
  • a rule ID is assigned to each rule.
  • the rules recorded in the rule database D2 are IF-THEN rules that associate failure event group information with failure cause information.
  • An IF-THEN rule is composed of an if part (condition part) that represents a premise or condition, and a then part (conclusion part) that represents a conclusion or action when the if part is true.
  • a plurality of rules may be referred to as a rule set.
  • the condition part of the rule is a combination of failure events (for example, alarms), and is represented by, for example, a combination of a monitored device ID and an event type (alarm type, level, etc.).
  • the conclusion part of the rule is failure factor information, and is represented by, for example, the ID of the monitored device and the type of failure factor.
  • the alarm information database D3 includes combinations of alarm information issued by monitored devices (monitored device ID, event ID, event type (alarm type), event occurrence date and time, etc.) and alarms (alarm type) for each failure. is recorded in association with the failure ID.
  • the combination of alarms is a combination of some or all of a plurality of failure events associated with each failure ID.
  • Network configuration information is recorded in the network configuration information database D4.
  • Network configuration information is information that indicates how devices that make up a network are connected to each other, and includes, for example, monitored device information (IP address, device type, monitored device ID, etc.) and connection information between the monitored devices.
  • the data acquisition unit 31 acquires data supplied from outside the server 30.
  • the data acquisition unit 31 can acquire failure event group information from the monitoring device 20.
  • the failure event group information includes information about one failure event or a plurality of failure event groups.
  • the failure event group information includes, for example, failure history information and failure factor information.
  • the data import unit 31 associates the acquired failure history information and failure cause information with the failure ID, records them in the failure history/handling history database D1, and updates the information.
  • the data acquisition unit 31 acquires network configuration information from the monitoring device 20.
  • the data acquisition unit 31 can acquire network configuration information at least when the configuration of the network to be monitored is changed.
  • the data import unit 31 records the acquired network configuration information in the network configuration information database D4 and updates the information.
  • the rule learning control unit 32 records alarm information included in the failure event group information for a newly occurring failure (new failure) in the alarm information database D3 in association with the failure ID. Furthermore, the rule learning control unit 32 uses part or all of the failure event group information for a newly occurring failure (new failure) to extract a unique pattern of failure events that characterize the failure. In this embodiment, the rule learning control unit 32 generates a combination of alarms that are candidates for a unique pattern characterizing the new failure from part or all of the failure event group information of the new failure, and combines all the generated alarms.
  • the combinations are registered in the alarm information database D3 for each failure ID, and the combinations of alarms in all past failures (past failures) registered in the alarm information database D3 are referred to, and from all these combinations, each A combination of alarms characterizing a failure is extracted as a unique pattern for each failure (that is, failure ID).
  • the rule learning control unit 32 employs the unique pattern extracted for the new failure as the condition part of the rule, and employs the failure factor information registered by the maintainer that specifies the true cause and its location as the conclusion part of the rule. generate a new rule.
  • the rule learning control unit 32 associates the newly generated unique pattern for the new failure with the new rule ID, revise the rule set, and records the new rule ID and the failure ID in association with each other in the rule database D2. Note that a rule ID is assigned to each rule.
  • the combination of alarms is a combination of some or all alarms associated with each fault ID.
  • a unique pattern is calculated from a combination of alarms for each failure ID using a predetermined method, and one unique pattern is calculated for each failure ID.
  • the unique pattern has a one-to-one correspondence with the rule ID.
  • a fault event is registered when the determination result is correct, and one rule ID may be registered as multiple fault IDs. Furthermore, since one rule ID corresponds to one or more failure events (alarms), it may correspond to a large number of failure events. An example of a unique pattern calculation method will be described in detail later.
  • the rule learning control unit 32 also reviews the unique patterns of other obstacles as necessary.
  • the rule learning control unit 32 generates failure factor information, which is a rejudgment result by the rule learning control unit 32, for each failure based on information on one or more failure events recorded in the failure history/handling history database D1 for each failure. If the failure cause information included in the failure history/handling history database D1 does not match, a unique pattern different from the unique pattern extracted by the rule learning control unit 32 is extracted again, and the extracted unique pattern is This is the condition part of the rule for the disorder.
  • the failure location estimation function unit 33 determines how well the combination of failure events included in the failure event group information matches the unique pattern (condition part) of the rule recorded in the rule database D2 when a failure occurs (second time or later). Calculate whether it is true (confidence).
  • the fault location estimation function unit 33 can select a rule to be applied based on the calculated certainty factor, and obtain information about the fault factor location estimated to be the fault factor from the conclusion part of the selected rule.
  • the GUI section 35 visually guides the maintenance person to input on the display section of the display terminal 40.
  • the GUI unit 35 can display visual information on the display unit of the display terminal 40 to guide a maintenance person to input the time period and location of the failure.
  • the GUI section 35 presents the maintenance engineer with information on the cause of the failure and the countermeasure (countermeasure plan) on the display section of the display terminal 40, and then the maintenance person estimates the failure point estimation function section 33.
  • visual information that guides the maintenance person's input can be displayed on the display section of the display terminal 40.
  • the GUI section 35 can acquire information input by a maintenance person by operating the display terminal 40.
  • the handling method management function unit 34 presents the estimated location where the failure has occurred to the maintenance personnel based on the confidence calculated by the failure location estimation function unit 33, and also displays the handling history of failures to which the used rule has been applied. Provide maintenance personnel with countermeasures based on the following.
  • the countermeasure management function unit 34 can, for example, present at least one conclusion part of a rule including a unique pattern with a high degree of certainty to the maintenance person via the display terminal 40. Further, the countermeasure management function unit 34 presents the maintenance personnel with a countermeasure history of at least one past failure to which a rule including a unique pattern with a high degree of certainty has been applied, as a countermeasure.
  • the countermeasure management function unit 34 also obtains the registration result (correct/incorrect) registered by the maintenance person on the display unit of the display terminal 40. If the registration result is incorrect, the countermeasure management function unit 34 transmits an instruction to the rule learning control unit 32 to review the rule whose conclusion part is incorrect.
  • the API unit 36 is an interface that acts as a medium for transmitting and receiving data between multiple applications.
  • the API unit 36 can, for example, link various functions of the server 30 with other devices and terminals such as the monitoring device 20 and the display terminal 40.
  • the pattern extraction and rule generation device 50 of this embodiment can perform rule generation and modification using at least one of a plurality of operation examples (first to fifth examples) described below.
  • FIG. 3 is a flowchart for explaining a first example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • the pattern extraction and rule generation device 50 when generating a unique pattern from among all combinations of alarms in the failure time period, failure location, and peripheral devices input by a maintenance person. do.
  • the data import unit 31 imports failure event group information from the monitoring device 20 (step SA1).
  • the data import unit 31 records the failure history information included in the failure event group information in the failure history/handling history database D1 in association with a new failure ID.
  • the server 30 uses the GUI unit 35 to acquire the information input by the maintenance person on the display terminal 40. .
  • the GUI unit 35 supplies the failure occurrence time period and failure occurrence location to the rule learning control unit 32.
  • the rule learning control unit 32 accesses the failure history/handling history database D1, reads out the input failure event time period, failure location, and failure event information (alarm information) on the peripheral devices, and all the read out failure event information (alarm information) Generate combinations of alarms.
  • the rule learning control unit 32 records the generated alarm combination in the alarm information database D3 in association with the fault ID.
  • the rule learning control unit 32 reads the unique pattern (condition part) included in the existing rule from the rule database D2, and compares the newly generated alarm combination with the unique pattern of the existing rule (step SA3). Among the newly generated combinations of alarms, the rule learning control unit 32 sets the combination that occurs least among the unique patterns of existing rules as the unique pattern of the new failure (step SA4).
  • the unique pattern extracted by the rule learning control unit 32 that corresponds to one past failure registered in the rule database D2 is defined in the condition part of the rule registered corresponding to this failure ID. If the combination of failure events is different from the combination of failure events that have been set, the rule learning control unit 32 determines that it is necessary to modify the rules. The unique pattern extracted by the rule learning control unit 32 is adopted as a condition part, the existing rule is overwritten and corrected, and the result is registered in the rule database D2 (step SA5).
  • the rule learning control unit 32 performs re-judgment for each failure ID based on the failure event group information registered in the failure history/handling history database D1, and uses the failure cause information and the failure history as the determination result. ⁇ Compare with the failure cause information registered in the handling history database D1 (this information was registered by the maintenance personnel in the past), and if there is a match (if the comparison is OK), a new It is assumed that the rule addition was successful, and if the existing rule is overwritten and corrected, the rule correction is also assumed to be successful, and the process ends. On the other hand, if there is no match after matching (in the case of matching NG), the rule learning control unit 32 accesses the alarm information database D3 and extracts another unique pattern from the combination of multiple alarms again.
  • the above operation by the rule learning control unit 32 is a re-verification, and the verification is OK in almost all cases, but it can also handle the rare case where the data has been altered and the verification is not successful.
  • FIG. 4 is a flowchart for explaining a second example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • the pattern extraction and rule generation device 50 when generating a unique pattern from a combination of alarms in the learning time period that is part of the failure time period, the failure location, and its peripheral devices. explain.
  • the data import unit 31 imports failure event group information regarding a new failure (step SB1).
  • the data import unit 31 records the failure history information included in the failure event group information in the failure history/handling history database D1 in association with a new failure ID.
  • the maintenance person operates the display terminal 40 to input the time period and location of the failure.
  • the maintenance person can further input the learning time period by operating the display terminal 40 (step SA2).
  • the server 30 uses the GUI unit 35 to obtain information input by the maintenance person on the display terminal 40.
  • the GUI section 35 supplies the failure occurrence time period, the failure occurrence location, and the learning time period to the rule learning control section 32. If the maintenance person does not input the learning time period (step SB3 "No"), the GUI section 35 supplies the failure occurrence time period and the failure occurrence location to the rule learning control section 32.
  • the rule learning control unit 32 When the failure occurrence time period and the failure occurrence location are input (when the learning time period is not input), the rule learning control unit 32 extracts failure event information for the learning time period of the system specified value set in advance. . That is, the rule learning control unit 32 accesses the failure history/handling history database D1, and obtains failure event information (alarm information) at the learning time period during the failure occurrence time period (system specified value) and at the failure occurrence location and its peripheral devices. and generate a combination of all read alarms. The rule learning control unit 32 records the generated alarm combination in the alarm information database D3 in association with the fault ID (step SB4).
  • the rule learning control unit 32 accesses the failure history/handling history database D1 and determines the input learning time period and failure occurrence time period during the failure occurrence time period.
  • the failure event information (alarm information) at the occurrence location and its peripheral devices is read out, and a combination of all the read alarms is generated.
  • the rule learning control unit 32 records the generated alarm combination in the alarm information database D3 in association with the fault ID (step SB5).
  • the rule learning control unit 32 reads the unique pattern (condition part) included in the existing rule from the rule database D2, and compares the newly generated alarm combination with the unique pattern of the existing rule (step SB6). Among the newly generated combinations of alarms, the rule learning control unit 32 sets the combination that occurs least among the unique patterns of existing rules as the unique pattern of the new failure (step SB7).
  • the unique pattern extracted by the rule learning control unit 32 that corresponds to one past failure registered in the rule database D2 is defined in the condition part of the rule registered corresponding to this failure ID. If the combination of failure events is different from the combination of failure events that have been set, the rule learning control unit 32 determines that it is necessary to modify the rules. The unique pattern extracted by the rule learning control unit 32 is adopted as a condition part, the existing rule is overwritten and corrected, and it is registered in the rule database D2 (step SB8).
  • the rule learning control unit 32 performs re-judgment for each failure ID based on the failure event group information registered in the failure history/handling history database D1, and uses the failure cause information and the failure history as the determination result. ⁇ Compare with the failure cause information registered in the handling history database D1 (this information was registered by the maintenance personnel in the past), and if there is a match (if the comparison is OK), a new It is assumed that the rule addition was successful, and if the existing rule is overwritten and corrected, the rule correction is also assumed to be successful, and the process ends. On the other hand, if there is no match after matching (in the case of matching NG), the rule learning control unit 32 accesses the alarm information database D3 and extracts another unique pattern from the combination of multiple alarms again.
  • FIG. 5 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • the horizontal axis shows time and the vertical axis shows the location of failure (monitored device), and shows the locations of alarms A to J that occurred during the time period from when failure X occurred until recovery. The time is displayed.
  • failure X an example of the confidence of the estimation result based on the rule generated in the first example and the confidence of the estimation result based on the rule generated in the second example will be described below.
  • the rule learning control unit 32 extracts a unique pattern from among the combinations of all alarms AJ in the time period in which the failure occurs.
  • the unique pattern of failure X extracted by the operation of the first example is a combination of alarm B, alarm E, alarm F, and alarm I (IF B, E, F, I).
  • the unique pattern of failure X extracted by the operation of the second example is a combination of alarm A, alarm B, alarm C, and alarm D (IF A, B, C, D).
  • Time (1) is the timing before alarm F, which is the main cause event of failure X, occurs
  • time (2) is the timing after the failure be.
  • the unique pattern of fault X generated in the first example is compared with the alarm occurring at time (1) to determine whether the fault that occurred is fault B, E, F, I), only alarm B has occurred, and the certainty that it is fault X is 1/4 (25%).
  • the unique pattern of fault X generated in the second example is compared with the alarm occurring at time (2) to determine whether the fault that occurred is fault All alarms (A, B, C, D) have occurred, and the certainty that fault X is occurring is 4/4 (100%).
  • the confidence that failure is obtained.
  • the learning period during the fault occurrence time period to the initial stage of the fault occurrence, it is possible to determine where the fault occurred based on the unique pattern of the alarm at the early stage of the fault occurrence. This means that it is possible to accurately determine the location) and the cause of the failure (failure factor).
  • the learning time period at the initial stage of the failure during the failure occurrence time period during learning, failure events that occur after a period of time have passed after the failure occurrence are extracted as unique patterns. Therefore, the fault location can be estimated (estimated with high confidence) at the initial stage of the fault. As a result, it is possible to take early failure recovery measures.
  • main cause event (alert F in the example in Figure 5) occurs, it is easier to identify the failure location, so by setting the learning time period to the time period until the main cause event occurs, the main cause event can be detected. It is possible to know in advance the location of a fault with a high degree of certainty before it occurs, and it is possible to recover from the fault at an early stage.
  • FIG. 6 is a flowchart for explaining a third example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • the pattern extraction and rule generation device 50 when generating a unique pattern from a combination of alarms other than some or all recovery events in the failure time period, failure location, and its peripheral devices. An example will be explained.
  • the data import unit 31 imports failure event group information regarding a new failure (step SC1).
  • the data import unit 31 records the failure history information included in the failure event group information in the failure history/handling history database D1 in association with a new failure ID.
  • the maintenance person operates the display terminal 40 to input the time period in which the failure occurred and the location where the failure occurred.
  • the maintenance person can operate the display terminal 40 to further input a user specification of recovery event information (whether or not to extract a unique pattern excluding recovery events) (step SC2).
  • the server 30 uses the GUI unit 35 to obtain information input by the maintenance person on the display terminal 40.
  • the GUI unit 35 inputs the failure time period, failure location, and recovery event information specified by the maintenance person to be excluded to the rule learning control unit. 32.
  • the GUI unit 35 supplies the failure occurrence time period and failure occurrence location to the rule learning control unit 32.
  • the rule learning control unit 32 detects failure events other than recovery event information of preset system default values. Extract information. That is, the rule learning control unit 32 accesses the failure history/handling history database D1, and detects events other than recovery events specified in the failure event information (alarm information) during the failure time period and at the failure location and its peripheral devices. reads the alarms and generates a combination of all read alarms. The rule learning control unit 32 records the generated combination of alarms in association with the fault ID in the alarm information database D3 (step SC4).
  • the rule learning control unit 32 accesses the failure history/handling history database D1 and records the time period of failure occurrence, the location of failure occurrence, and its surroundings.
  • failure event information alarm information
  • alarms other than the recovery event specified by the maintenance person are read out, and a combination of all the read alarms is generated.
  • the rule learning control unit 32 records the generated combination of alarms in association with the fault ID in the alarm information database D3 (step SC5).
  • the rule learning control unit 32 reads the unique pattern (condition part) included in the existing rule from the rule database D2, and compares the newly generated alarm combination with the unique pattern of the existing rule (step SC6).
  • the rule learning control unit 32 sets the combination that occurs least among the unique patterns of existing rules as the unique pattern of the new failure (step SC7).
  • the unique pattern extracted by the rule learning control unit 32 that corresponds to one past failure registered in the rule database D2 is defined in the condition part of the rule registered corresponding to this failure ID. If the combination of failure events is different from the combination of failure events that have been set, the rule learning control unit 32 determines that it is necessary to modify the rules. The unique pattern extracted by the rule learning control unit 32 is adopted as a condition part, the existing rule is overwritten and corrected, and it is registered in the rule database D2 (step SC8).
  • the rule learning control unit 32 performs re-judgment for each failure ID based on the failure event group information registered in the failure history/handling history database D1, and uses the failure cause information and the failure history as the determination result. ⁇ Compare with the failure cause information registered in the handling history database D1 (this information was registered by the maintenance personnel in the past), and if there is a match (if the comparison is OK), a new It is assumed that the rule addition was successful, and if the existing rule is overwritten and corrected, the rule correction is also assumed to be successful, and the process ends. On the other hand, if there is no match after matching (in the case of matching NG), the rule learning control unit 32 accesses the alarm information database D3 and extracts another unique pattern from the combination of multiple alarms again.
  • FIG. 7 is a diagram illustrating an example of the certainty factor of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • the rule (unique pattern) for failure X generated by the operation of the first example is a combination of alarm B, alarm E, alarm F, and alarm I (IF B, E, F, I).
  • the rule (unique pattern) for failure Extract unique patterns from.
  • this example shows an example in which a unique pattern is extracted from a combination of alarms A to F excluding all of alarms G to J, which are recovery events. If specified, a unique pattern is extracted from the combination of alarms excluding only the commanded recovery event.
  • the unique pattern of failure X extracted by the operation of the third example is a combination of alarm A, alarm B, alarm E, and alarm F (IF A, B, E, F).
  • Time (3) is the timing after alarm F of the main cause event of failure X occurs and before alarm GJ of the recovery event occurs
  • time (4) is the timing after the failure X is dealt with and the recovery event occurs. This is the timing after a certain alarm GJ occurs.
  • the unique pattern of fault X generated in the first example is compared with the alarm occurring at time (3) to determine whether the fault that occurred is fault B, E, F, I), alarms B, E, and F have occurred, and the certainty that it is fault X is 3/4 (75%).
  • the confidence that failure X occurs earlier in the failure time period is higher than when the rule generated in the first example is used. is obtained.
  • recovery events that occur after a period of time has elapsed from the occurrence of a failure are excluded from the unique pattern; This combination makes it possible to accurately determine where the failure occurred (failure location) and what caused the failure (failure factor) based on the unique pattern at an early stage after the failure occurs. .
  • FIG. 8 is a flowchart for explaining a fourth example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • the pattern extraction and rule generation device 50 operates when generating a unique pattern from a combination of alarms in the time period before the main event during the fault occurrence time period, the fault occurrence location, and its peripheral devices. An example of the operation will be explained.
  • the data import unit 31 imports failure event group information regarding a new failure (step SD1).
  • the data import unit 31 records the failure history information included in the failure event group information in the failure history/handling history database D1 in association with a new failure ID.
  • the maintenance person operates the display terminal 40 to input the time period in which the failure occurred and the location where the failure occurred.
  • the maintenance person can operate the display terminal 40 to further input user designation of main cause event information (step SD2).
  • the server 30 uses the GUI unit 35 to obtain information input by the maintenance person on the display terminal 40.
  • the GUI section 35 inputs the time period of failure occurrence, the place of failure occurrence, and the main cause event information specified by the maintenance person to the rule learning control section. 32.
  • the GUI unit 35 supplies the failure occurrence time period and failure occurrence location to the rule learning control unit 32.
  • the rule learning control unit 32 determines whether the failure history/handling history database D1 matches the main cause event information.
  • the failure event information in the time period before the occurrence time of the event is extracted. That is, the rule learning control unit 32 accesses the failure history/handling history database D1, and determines which match the main cause event among the failure event information (alarm information) during the failure time period, at the failure location, and its peripheral devices.
  • An alarm is identified, alarms in a time period before the occurrence time of the alarm are read out, and a combination of all the read alarms is generated.
  • the rule learning control unit 32 records the generated alarm combination in the alarm information database D3 in association with the fault ID (step SD4).
  • the rule learning control unit 32 accesses the fault history/handling history database D1, and stores the fault occurrence time period, fault occurrence location, and its associated information.
  • failure event information alarm information
  • the rule learning control unit 32 records the generated alarm combination in the alarm information database D3 in association with the fault ID (step SD5).
  • the rule learning control unit 32 reads the unique pattern (condition part) included in the existing rule from the rule database D2, and compares the newly generated alarm combination with the unique pattern of the existing rule (step SD6).
  • the rule learning control unit 32 sets the combination that occurs least among the unique patterns of existing rules as the unique pattern of the new failure (step SD7).
  • the unique pattern extracted by the rule learning control unit 32 that corresponds to one past failure registered in the rule database D2 is defined in the condition part of the rule registered corresponding to this failure ID. If the combination of failure events is different from the combination of failure events that have been set, the rule learning control unit 32 determines that it is necessary to modify the rules. The unique pattern extracted by the rule learning control unit 32 is adopted as a condition part, the existing rule is overwritten and corrected, and it is registered in the rule database D2 (step SD8).
  • the rule learning control unit 32 performs re-judgment for each failure ID based on the failure event group information registered in the failure history/handling history database D1, and uses the failure cause information and the failure history as the determination result. ⁇ Compare with the failure cause information registered in the handling history database D1 (this information was registered by the maintenance personnel in the past), and if there is a match (if the comparison is OK), a new It is assumed that the rule addition was successful, and if the existing rule is overwritten and corrected, the rule correction is also assumed to be successful, and the process ends. On the other hand, if there is no match after matching (in the case of matching NG), the rule learning control unit 32 accesses the alarm information database D3 and again extracts another unique pattern from the combination of multiple alarms.
  • FIG. 9 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • the rule (unique pattern) for failure X generated by the operation of the first example is a combination of alarm B, alarm E, alarm F, and alarm I (IF B, E, F, I).
  • the rule learning control unit 32 When the rule (unique pattern) for failure X is generated by the operation in the fourth example, the rule learning control unit 32 generates A unique pattern is extracted from the combinations of alarms A to E in the previous time period.
  • the alarm F which is the main cause event, may be based on the top cause event information specified by the maintenance person, and may be set by the rule learning control unit 32 based on the preset conditions of the main cause event. It may be something.
  • the unique pattern of failure X extracted by the operation of the fourth example is a combination of alarm A, alarm B, alarm D, and alarm E (IF A, B, D, E).
  • the certainty factor of the fault X is calculated at time (5) and time (6).
  • Time (5) is the timing before alarm F, which is the main cause event of failure X, occurs
  • time (6) is the timing after the failure be.
  • the unique pattern of fault X generated in the first example is compared with the alarm occurring at time (5) to determine whether the fault that occurred is fault B, E, F, I), alarms B and E have occurred, and the certainty that it is fault X is 2/4 (50%).
  • the unique pattern of fault X generated in the fourth example is compared with the alarm occurring at time (6) to determine whether the fault that occurred is fault All alarms (A, B, D, E) have occurred, and the certainty that fault X is occurring is 4/4 (100%).
  • the confidence that failure X occurs earlier in the failure time period is higher than when the rule generated in the first example is used. is obtained.
  • the unique pattern is extracted from the combination of alarms in the time period from the failure occurrence to the occurrence of the main cause event. This is a combination of alarms that occur at different times, and it is possible to accurately determine where the failure occurred (fault location) and what caused the failure (failure cause) based on the unique pattern at an early stage after the failure occurs.
  • main cause event (alert F in the example in Figure 9) occurs, it is easier to identify the failure location, so by setting the learning time period to the time period until the main cause event occurs, the main cause event can be detected. It is possible to know in advance the location of a fault with a high degree of certainty before it occurs, and it is possible to recover from the fault at an early stage.
  • FIG. 10 is a flowchart for explaining a fifth example of rule generation and modification operations in the pattern extraction and rule generation device of one embodiment.
  • the pattern extraction and rule generation device 50 is used to generate a unique pattern from a combination of alarms excluding the fault event from the fault generating device from the alarms at the fault occurrence time period, fault occurrence location, and its peripheral devices. An example of the operation will be explained.
  • the data import unit 31 imports failure event group information regarding a new failure (step SE1).
  • the data import unit 31 records the failure history information included in the failure event group information in the failure history/handling history database D1 in association with a new failure ID.
  • Step SE2 the maintenance person operates the display terminal 40 to input the time period in which the failure occurred and the location where the failure occurred.
  • the server 30 uses the GUI unit 35 to obtain information input by the maintenance person on the display terminal 40 .
  • the GUI unit 35 supplies the acquired failure occurrence time period and failure occurrence location to the rule learning control unit 32.
  • the rule learning control unit 32 When the failure occurrence time period and failure occurrence location are input, the rule learning control unit 32 extracts failure event information excluding the failure event from the failure occurrence device from the failure history/handling history database D1. That is, the rule learning control unit 32 accesses the failure history/handling history database D1, and detects the alarm from the failure device in the failure event information (alarm information) during the time of failure occurrence, at the failure location, and its peripheral devices. Read the alarms other than the above and generate a combination of all read alarms. The rule learning control unit 32 records the generated combination of alarms in association with the fault ID in the alarm information database D3 (step SE3).
  • the rule learning control unit 32 reads the unique pattern (condition part) included in the existing rule from the rule database D2, and compares the newly generated alarm combination with the unique pattern of the existing rule (step SE4).
  • the rule learning control unit 32 sets the combination that occurs least among the unique patterns of existing rules as the unique pattern of the new failure (step SE5).
  • the unique pattern extracted by the rule learning control unit 32 that corresponds to one past failure registered in the rule database D2 is defined in the condition part of the rule registered corresponding to this failure ID. If the combination of failure events is different from the combination of failure events that have been set, the rule learning control unit 32 determines that it is necessary to modify the rules. The unique pattern extracted by the rule learning control unit 32 is adopted as a condition part, the existing rule is overwritten and corrected, and the pattern is registered in the rule database D2 (step SE6).
  • the rule learning control unit 32 performs re-judgment for each failure ID based on the failure event group information registered in the failure history/handling history database D1, and uses the failure cause information and the failure history as the determination result. ⁇ Compare with the failure cause information registered in the handling history database D1 (this information was registered by the maintenance personnel in the past), and if there is a match (if the comparison is OK), a new It is assumed that the rule addition was successful, and if the existing rule is overwritten and corrected, the rule correction is also assumed to be successful, and the process ends. On the other hand, if there is no match after matching (in the case of matching NG), the rule learning control unit 32 accesses the alarm information database D3 and extracts another unique pattern from the combination of multiple alarms again.
  • FIG. 11 is a diagram illustrating an example of the reliability of estimation results based on a plurality of rules generated by the pattern extraction and rule generation device of one embodiment.
  • Fault An example of the confidence level of the estimation result based on the generated rule and the confidence level of the estimation result based on the rule generated according to the fifth example will be described below.
  • the rule (unique pattern) for failure X generated by the operation of the first example is a combination of alarm B, alarm E, alarm F, and alarm I (IF B, E, F, I).
  • the rule learning control unit 32 When the rule (unique pattern) for failure X is generated by the operation of the fifth example, the rule learning control unit 32 generates an alarm that is obtained by removing alarms A, F, and G in the failure device from alarms AJ during the time period in which the failure occurred.
  • a unique pattern is extracted from the combinations of BE and HJ.
  • the unique pattern of failure X extracted by the operation of the fifth example is a combination of alarm B, alarm D, alarm E, and alarm H (IF B, D, E, H).
  • the certainty factor of the fault X is calculated at time (7) and time (8).
  • Time (7) is the timing after alarm F, which is the main cause event of failure X, occurs and before recovery event G-J occurs
  • time (8) is the timing when the failure This is the timing after GJ occurs.
  • the confidence that failure X occurs earlier in the failure time period is higher than when the rule generated by the first example is used. is obtained.
  • the location of the fault can be estimated using a unique pattern that is a combination of alarms from peripheral devices other than the fault generating device This is because if event information is not generated from the failure device due to some reason (for example, in the case of a silent failure), the location of the failure can be estimated with a higher degree of certainty. As a result, it is possible to take early failure recovery measures.
  • the pattern extraction and rule generation device 50 of this embodiment can estimate a failure location using the rule generated by at least one of the operations in the first to fifth examples. Therefore, according to the pattern extraction and rule generation device 50 of the present embodiment, it is possible to estimate the failure location with a higher degree of certainty in various situations, and to support early failure recovery measures by maintenance personnel.
  • the present invention is not limited to the above-described embodiments, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be implemented in combination as appropriate, and in that case, the combined effect can be obtained.
  • the embodiments described above include various inventions, and various inventions can be extracted by combinations selected from the plurality of constituent features disclosed. For example, if a problem can be solved and an effect can be obtained even if some constituent features are deleted from all the constituent features shown in the embodiment, the configuration from which these constituent features are deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

実施形態によるパターン抽出及びルール生成装置は、障害ごとに、障害要因箇所及び障害要因を含む障害要因情報と、障害の発生から回復までに生じた障害イベント群情報と、条件部と結論部とを含むルールに対応付けられたルールIDと、を関連付けて登録しているデータベースと、新規の障害である新規障害に関連付けられた障害イベント群情報の一部の取り得る一以上の組合せを全通り生成し、新規障害の障害イベントの組合せと過去の障害である一以上の過去障害それぞれの前記障害イベントの組合せとから、最も発生していない組合せと判定されるユニークパターンを障害ごとに抽出し、新規障害が発生するごとに対応するユニークパターンに応じて、ルールを生成するルール学習制御部と、を備える。

Description

パターン抽出及びルール生成装置、方法及びコンピュータプログラム
 本発明は、パターン抽出及びルール生成装置、方法及びコンピュータプログラムに関する。
 ネットワークサービスの保守業務に関して、監視対象装置においてある障害により発生するイベント(以下、障害イベントと称する)を基にその障害要因を判定するIF-THENルールの作成に関する技術がある。
 例えば特許文献1には、障害の発生した時間帯(例えば、障害発生から回復まで)を指定し、その時間帯に発生している障害イベント情報(アラーム、ログなど)と他の障害を特徴づけるイベント情報のユニークパターンとを比較し、当該障害を特徴づける障害イベント情報のユニークパターンを抽出し、他の障害のユニークパターンも修正する学習技術が開示されている。また、特許文献1では、発生した障害イベント情報がユニークパターンにどれだけ合致するか(確信度)を算出し、合致する割合が高いほど、過去に発生した障害と類似する可能性が高いと判断して、障害箇所を推定している。
日本国特許第6637854号
 学習において、回復イベント等の障害が発生してから時間が経過してから発生する障害イベントをユニークパターンとして抽出した場合、回復イベント等が発生するまで障害箇所を推定(確信度を高く推定)しにくく、早期に障害回復措置が行えないという課題があった。
 また、主要因イベントが発生すると障害箇所を特定しやすいことから、主要因イベントが発生するまでに障害箇所を推定したり、複数の要因で障害発生装置からイベント情報が発生しない場合に周辺装置のイベント情報のみで障害箇所を推定したりするような、早期に障害回復させるための課題があった。
 本発明は上記事情を鑑みて成されたものであって、ネットワークサービスの保守業務において早期の障害回復を実現するパターン抽出及びルール生成装置、方法及びコンピュータプログラムを提供することを目的とする。
 本発明の第1態様によるパターン抽出及びルール生成装置は、障害ごとに、障害要因箇所及び障害要因を含む障害要因情報と、前記障害の発生から回復までに生じた障害イベント群情報と、条件部と結論部とを含むルールに対応付けられたルールIDと、を関連付けて登録しているデータベースと、新規の前記障害である新規障害に関連付けられた前記障害イベント群情報の一部の取り得る一以上の組合せを全通り生成し、前記新規障害の障害イベントの組合せと過去の前記障害である一以上の過去障害それぞれの前記障害イベントの組合せとから、最も発生していない組合せと判定されるユニークパターンを前記新規障害ごとに抽出し、前記ユニークパターンを前記条件部に含む前記ルールを生成するルール学習制御部と、を備える。
 本発明によれば、ネットワークサービスの保守業務において早期の障害回復を実現するパターン抽出及びルール生成装置、方法及びコンピュータプログラムを提供することを目的とする。
図1は、一実施形態のパターン抽出及びルール生成装置を含む監視システムの一構成例を概略的に示す図である。 図2は、図1に示すサーバの一構成例を概略的に示す図である。 図3は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第1例について説明するためのフローチャートである。 図4は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第2例について説明するためのフローチャートである。 図5は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。 図6は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第3例について説明するためのフローチャートである。 図7は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。 図8は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第4例について説明するためのフローチャートである。 図9は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。 図10は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第5例について説明するためのフローチャートである。 図11は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。
 以下、図面を参照してこの発明に係わる実施形態のパターン抽出及びルール生成装置、方法及びコンピュータプログラムについて説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。 
 図1は、一実施形態のパターン抽出及びルール生成装置を含む監視システムの一構成例を概略的に示す図である。
 図1に示す監視システムの監視対象は、複数の監視対象装置を含む監視対象ネットワークである。監視システムは、HUB10を介して監視対象ネットワークと通信可能に接続されている。
 監視システムは、監視装置20と、ルール学習型障害箇所推定システム60と、を含む。ルール学習型障害箇所推定システム60は、サーバ30と、表示端末40と、を含む。監視装置20と、サーバ30と、表示端末40とは、夫々、少なくとも1つのプロセッサと、プロセッサにより実行されるプログラムを記録したメモリと、を含み、ソフトウエアにより、又は、ソフトウエアとハードウエアとの組み合わせにより、以下に説明する種々の機能を実現している。監視装置20と、サーバ30と、表示端末40とは、ネットワークを介して互いに通信可能に接続されている。
 監視装置20にて監視対象ネットワークから障害イベント情報を受信し、受信した障害イベント情報をルール学習型障害箇所推定システム60のサーバ30に定期的に送信する。
 サーバ30は、監視装置20から受信した障害イベント情報に基づいて、ルール生成及び障害箇所推定を実行する。サーバ30は、初回の障害発生時に、当該障害を特徴づける障害イベント情報からユニークパターンを抽出し、ルールを作成する。サーバ30は、例えば保守者により入力された障害発生時間帯に基づいて、2回目以降の障害発生時に障害箇所の推定処理を実行する。サーバ30は、例えば、ルールに一部でも合致する障害推定箇所(監視対象装置)と、確信度(イベントの合致割合)とを、推定結果として表示端末40に出力する。
 表示端末40は、例えば表示部と、操作部と、を備えた端末である。操作部は、例えばキーボード、マウス、タッチパネル等であって、オペレータ(保守者)が操作することにより情報を入力する手段である。表示部は、液晶表示パネルや有機EL表示パネルなどの表示手段を含み、サーバ30による障害箇所推定結果やその対処案などを表示することができる。保守者は、表示端末40を操作することにより、例えば、障害の真の原因とその障害箇所の情報を入力することができる。また、保守者は、表示端末40を操作して、発生した障害の障害発生時間帯を入力することにより、障害が発生したと推定される箇所および対処案を表示部に提示させることができる。
 図2は、図1に示すサーバの一構成例を概略的に示す図である。
 サーバ30は、データ取込部31と、ルール学習制御部32と、障害箇所推定機能部33と、対処方法管理機能部34と、GUI(Graphical User Interface)部35と、API(Application Programming Interface)部36と、障害履歴・対処履歴データベースD1と、ルールデータベースD2と、アラーム情報データベースD3と、ネットワーク(NW)構成情報データベースD4と、を備えている。
 ルール学習制御部32、障害履歴・対処履歴データベースD1、ルールデータベースD2およびアラーム情報データベースD3は、パターン抽出及びルール生成装置50を構成する。
 障害履歴・対処履歴データベースD1には、障害履歴情報と対処履歴情報とが障害IDと関連付けられて記録されている。障害履歴情報は、例えば、障害(障害ID)ごとの障害イベントログ情報(監視対象装置ID、イベントID、イベント種別、イベント発生日時等)、障害要因情報などを含む。障害イベントは、障害IDに対応付けられ、障害IDに対応する障害により発生するイベントを示す。障害要因情報は、例えば、障害要因箇所の情報と、障害要因の情報とを含む。障害要因の情報は障害が発生した原因(障害要因種別)を示し、保守者により特定された障害の真の原因の情報である。障害要因箇所の情報は、保守者により特定された障害が起きた位置(例えば監視対象装置ID、IPアドレスなど)を示し、障害要因箇所はある監視対象装置である。対処履歴情報は、実際に保守者が行った対処方法、対処日時等を含む。
 ルールデータベースD2には、障害ごとに生成されたルールがルールIDと関連付けられて記録されている。なお、ルールIDはルールごとに付される。ルールデータベースD2に記録されるルールは、障害イベント群情報と障害要因情報とを関連づけるIF-THENルールである。IF-THENルールは、前提又は条件を表すif部(条件部)とif部が真である場合の結論又は動作を表すthen部(結論部)とから構成される。なお、以下の説明において、複数のルールをルールセットと称することがある。実施形態では、ルールの条件部は障害イベント(例えばアラーム)の組み合わせであり、例えば監視対象装置IDとイベント種別(アラーム種別、レベル等)との対の組み合わせにより表される。ルールの結論部は障害要因情報であり、例えば監視対象装置IDと障害要因種別とにより表される。
 アラーム情報データベースD3には、監視対象装置で発せられたアラーム情報(監視対象装置ID、イベントID、イベント種別(アラーム種別)、イベント発生日時等)と、障害ごとのアラーム(アラーム種別)の組み合わせとが、障害IDと関連付けられて記録されている。アラームの組合せは、障害IDごとにその障害IDに対応付けられた複数の障害イベントの一部又は全ての組合せである。
 ネットワーク構成情報データベースD4には、ネットワーク構成情報が記録されている。ネットワーク構成情報は、ネットワーク構成情報は、ネットワークを構成する機器同士がどのように接続されているかを示す情報であって、例えば、監視対象装置情報(IPアドレス、装置種別、監視対象装置ID等)と、監視対象装置間の接続情報を含んでいる。
 データ取込部31は、サーバ30の外部から供給されるデータを取得する。例えば、データ取込部31は、監視装置20から障害イベント群情報を取得することができる。障害イベント群情報は、一つの障害イベント又は複数の障害イベント群の情報を含む。障害イベント群情報は、例えば、障害履歴情報と、障害要因情報と、を含む。データ取込部31は、取得した障害履歴情報と障害要因情報とを障害IDと関連付けて、障害履歴・対処履歴データベースD1に記録して情報を更新する。
 また、データ取込部31は、監視装置20からネットワーク構成情報を取得する。データ取込部31は、少なくとも監視対象ネットワークの構成が変更されたとき、ネットワーク構成情報を取得することができる。データ取込部31は、取得したネットワーク構成情報をネットワーク構成情報データベースD4に記録して情報を更新する。
 ルール学習制御部32は、新たに発生した障害(新規障害)に対する障害イベント群情報に含まれるアラーム情報を、障害IDと関連付けてアラーム情報データベースD3に記録する。また、ルール学習制御部32は、新たに発生した障害(新規障害)に対する障害イベント群情報の一部若しくは全部を用いて、障害を特徴づける障害イベントのユニークパターンを抽出する。本実施形態において、ルール学習制御部32は、新規障害の障害イベント群情報の一部若しくは全部から、新規障害を特徴付けるユニークパターンの候補となるアラームの組合せを生成し、生成した全通りのアラームの組合せを、障害IDごとにアラーム情報データベースD3に登録するとともに、アラーム情報データベースD3に登録されている過去の全ての障害(過去障害)におけるアラームの組合せを参照し、これら全ての組合せから、それぞれの障害を特徴付けるアラームの組合せをユニークパターンとして障害(すなわち、障害ID)ごとに抽出する。
 ルール学習制御部32は、新規障害について抽出されたユニークパターンをルールの条件部として採用し、保守者により登録された真の原因とその位置を特定した障害要因情報をルールの結論部として採用して新しいルールを生成する。ルール学習制御部32は、新規障害について新しく生成したユニークパターンを新たなルールIDと関連付けて、ルールセットを改訂し、当該新たなルールIDと障害IDとを関連付けてルールデータベースD2に記録する。なお、ルールIDはルールごとに付される。
 アラームの組合せは、障害IDごとにその障害IDに対応付けられた一部又は全てのアラームの組合せである。ユニークパターンは、障害IDごとにアラームの組合せから所定の手法で算出され、障害IDごとに1つ算出される。そして、ユニークパターンはルールIDと一対一に対応している。
 また、保守者による障害対応において判定結果が正解の場合の障害イベント登録が成され、1つのルールIDは複数の障害IDに登録される場合がある。さらに、1つのルールIDは、1以上の障害イベント(アラーム)に対応するので、多数の障害イベントと対応する場合もある。ユニークパターンの算出手法の一例は後に詳細に説明する。
 また、ルール学習制御部32は、他の障害のユニークパターンも必要に応じて見直す。ルール学習制御部32は、障害ごとに障害履歴・対処履歴データベースD1に記録されている一以上の障害イベントの情報を基に、障害ごとにルール学習制御部32による再判定結果である障害要因情報と障害履歴・対処履歴データベースD1に含まれる障害要因情報とが合致していない場合は、ルール学習制御部32で抽出されたユニークパターンとは異なるユニークパターンを再度抽出し、抽出されたユニークパターンを当該障害のルールにおける条件部とする。
 障害箇所推定機能部33は、障害発生時(2回目以降)に、障害イベント群情報に含まれる障害イベントの組み合わせが、ルールデータベースD2に記録されたルールのユニークパターン(条件部)にどれだけ合致するか(確信度)を算出する。障害箇所推定機能部33は、算出された確信度に基づいて適用されるルールを選択し、選択したルールの結論部から障害要因と推定される障害要因箇所の情報を取得することができる。
 GUI部35は、表示端末40の表示部上で、視覚的に、保守者による入力を誘導する。GUI部35は、例えば、障害発生時に、保守者による障害発生時間帯および障害発生箇所の入力を誘導する視覚情報を表示端末40の表示部に表示させることができる。またGUI部35は、例えば、表示端末40の表示部上で、保守者に対して障害要因箇所および対処方法(対処案)の情報を提示した後、保守者が障害箇所推定機能部33の推定結果に対して正解/不正解を登録する際に、表示端末40の表示部に保守者の入力を誘導する視覚情報を表示させることができる。また、GUI部35は、保守者が表示端末40を操作して入力した情報を取得することができる。
 対処方法管理機能部34は、障害箇所推定機能部33により算出された確信度に基づいて、障害が発生した推定箇所を保守者に提示するするとともに、使用したルールが適用された障害の対処履歴に基づく対処方法を保守者に提示する。対処方法管理機能部34は、例えば、確信度が高いユニークパターンを含むルールの少なくとも一つの結論部を、表示端末40により保守者に提示することができる。また、対処方法管理機能部34は、確信度が高いユニークパターンを含むルールが適用された少なくとも一つの過去の障害の対処履歴を対処方法として、表示端末40により保守者に提示する。
 また、対処方法管理機能部34は、保守者が表示端末40の表示部上で登録した登録結果(正解/不正解)を取得する。対処方法管理機能部34は、登録結果が不正解である場合、ルール学習制御部32に対し、結論部が不正解であるルールについて見直すよう指示を送信する。
 API部36は、複数のアプリケーションの間でデータを送受信する際の媒介となるインタフェースである。API部36は、例えば、サーバ30の種々の機能について、監視装置20および表示端末40など他の装置や端末と連携させることができる。
 次に、実施形態のパターン抽出及びルール生成装置50において、ルールを生成および修正する動作についての複数の例を説明する。本実施形態のパターン抽出及びルール生成装置50は、以下に説明する複数の動作例(第1例乃至第5例)の少なくとも1つにより、ルール生成および修正を行うことができる。
 図3は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第1例について説明するためのフローチャートである。
 ここでは、保守者が入力した障害発生時間帯および障害発生箇所とその周辺装置における全てのアラームの組み合わせの中からユニークパターンを生成するときの、パターン抽出及びルール生成装置50の動作の一例について説明する。
 最初に、データ取込部31は、監視装置20から障害イベント群情報を取り込む(ステップSA1)。データ取込部31は、障害イベント群情報に含まれる障害履歴情報を、新たな障害IDと関連付けて障害履歴・対処履歴データベースD1に記録する。
 続いて、保守者が表示端末40を操作して障害発生時間帯、障害発生箇所を入力すると(ステップSA2)、サーバ30は、GUI部35により表示端末40において保守者が入力した情報を取得する。GUI部35は、障害発生時間帯および障害発生箇所をルール学習制御部32に供給する。
 ルール学習制御部32は、障害履歴・対処履歴データベースD1にアクセスし、入力された障害発生時間帯および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)を読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する。
 ルール学習制御部32は、ルールデータベースD2から既存のルールに含まれるユニークパターン(条件部)を読み出し、新たに生成したアラームの組み合わせと、既存のルールのユニークパターンとを比較する(ステップSA3)。
 ルール学習制御部32は、新たに生成したアラームの組み合わせの中で、既存のルールのユニークパターンにおいて最も発生していない組み合わせを、新規障害のユニークパターンとする(ステップSA4)。
 一方、ルールデータベースD2に登録されている過去のある一つの障害に対応する、ルール学習制御部32で抽出されたユニークパターンが、この障害IDに対応して登録されているルールの条件部に定義されている障害イベントの組合せと異なっている場合は、ルール学習制御部32はルールを修正する必要があると判断する。ルール学習制御部32が抽出したユニークパターンを条件部として採用し既存ルールを上書き修正し、ルールデータベースD2に登録する(ステップSA5)。
 ルール学習制御部32は、障害IDごとに、障害履歴・対処履歴データベースD1に登録されている障害イベント群情報の情報を基に再判定を行い、その判定結果である障害要因情報と、障害履歴・対処履歴データベースD1に登録されている障害要因情報(この情報は過去に保守者によって登録されたものである)とを照合し、照合して合致する場合(照合OKの場合)は、新たなルール追加が成功したとし、さらに既存ルールを上書き修正した場合にはルール修正も成功したとして、処理を終了する。一方、ルール学習制御部32は、照合して合致しない場合(照合NGの場合)は、アラーム情報データベースD3にアクセスして、複数のアラームの組み合わせから他のユニークパターンを再び抽出する。ルール学習制御部32による上記動作は再検証であり、殆ど全ての場合で照合OKとなるが、希にデータが改変等されていて照合NGとなった場合にも対応することができる。
 図4は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第2例について説明するためのフローチャートである。
 ここでは、障害発生時間帯の一部である学習時間帯および障害発生箇所とその周辺装置におけるアラームの組み合わせの中からユニークパターンを生成するときの、パターン抽出及びルール生成装置50の動作の一例について説明する。
 最初に、データ取込部31は、新規障害についての障害イベント群情報を取り込む(ステップSB1)。データ取込部31は、障害イベント群情報に含まれる障害履歴情報を、新たな障害IDと関連付けて障害履歴・対処履歴データベースD1に記録する。
 続いて、保守者が表示端末40を操作して障害発生時間帯、障害発生箇所を入力する。第2例では、保守者は表示端末40を操作して学習時間帯を更に入力することができる(ステップSA2)。
 サーバ30は、GUI部35により表示端末40において保守者が入力した情報を取得する。保守者が学習時間帯を入力したときには(ステップSB3「有」)、GUI部35は、障害発生時間帯、障害発生箇所および学習時間帯をルール学習制御部32に供給する。保守者が学習時間帯を入力しなかったときには(ステップSB3「無」)、GUI部35は、障害発生時間帯および障害発生箇所をルール学習制御部32に供給する。
 ルール学習制御部32は、障害発生時間帯および障害発生箇所が入力されたとき(学習時間帯が入力されなかったとき)、予め設定されたシステム規定値の学習時間帯の障害イベント情報を抽出する。すなわち、ルール学習制御部32は、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯中の学習時間帯(システム規定値)および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)を読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSB4)。
 ルール学習制御部32は、障害発生時間帯、障害発生箇所および学習時間帯が入力されたとき、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯中の入力された学習時間帯および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)を読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSB5)。
 ルール学習制御部32は、ルールデータベースD2から既存のルールに含まれるユニークパターン(条件部)を読み出し、新たに生成したアラームの組み合わせと、既存のルールのユニークパターンとを比較する(ステップSB6)。
 ルール学習制御部32は、新たに生成したアラームの組み合わせの中で、既存のルールのユニークパターンにおいて最も発生していない組み合わせを、新規障害のユニークパターンとする(ステップSB7)。
 一方、ルールデータベースD2に登録されている過去のある一つの障害に対応する、ルール学習制御部32で抽出されたユニークパターンが、この障害IDに対応して登録されているルールの条件部に定義されている障害イベントの組合せと異なっている場合は、ルール学習制御部32はルールを修正する必要があると判断する。ルール学習制御部32が抽出したユニークパターンを条件部として採用し既存ルールを上書き修正し、ルールデータベースD2に登録する(ステップSB8)。
 ルール学習制御部32は、障害IDごとに、障害履歴・対処履歴データベースD1に登録されている障害イベント群情報の情報を基に再判定を行い、その判定結果である障害要因情報と、障害履歴・対処履歴データベースD1に登録されている障害要因情報(この情報は過去に保守者によって登録されたものである)とを照合し、照合して合致する場合(照合OKの場合)は、新たなルール追加が成功したとし、さらに既存ルールを上書き修正した場合にはルール修正も成功したとして、処理を終了する。一方、ルール学習制御部32は、照合して合致しない場合(照合NGの場合)は、アラーム情報データベースD3にアクセスして、複数のアラームの組み合わせから他のユニークパターンを再び抽出する。
 図5は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。
 ここでは、横軸に時間、縦軸に障害発生箇所(監視対象装置)を示して、障害Xが発生してから回復するまでの障害発生時間帯において、発生したアラームA-Jの発生箇所と時間とを表示している。この障害Xのケースを例として、上述の第1例により生成されたルールによる推定結果の確信度と、第2例により生成されたルールによる推定結果の確信度との一例について以下に説明する。
 例えば上記第1例の動作により障害Xのルール(ユニークパターン)を生成すると、ルール学習制御部32は、障害発生時間帯における全てのアラームA-Jによる組み合わせの中からユニークパターンを抽出する。ここでは、第1例の動作により抽出された障害XのユニークパターンはアラームB、アラームE、アラームF、アラームIの組み合わせ(IF B,E,F,I)である。
 また、例えば上記第2例の動作により障害Xのルール(ユニークパターン)を生成すると、ルール学習制御部32は、障害発生時間帯中の学習時間帯におけるアラームA-Dによる組み合わせの中からユニークパターンを抽出する。ここでは、第2例の動作により抽出された障害XのユニークパターンはアラームA、アラームB、アラームC、アラームDの組み合わせ(IF A,B,C,D)である。
 上記第1例および第2例の動作により生成された障害Xのユニークパターンを用いて、時間(1)と時間(2)とにおける障害Xの確信度を算出する。時間(1)は障害Xの主要因イベントのアラームFが発生する前のタイミングであり、時間(2)は障害Xに対する対処が行われ回復イベントであるアラームG-Jが発生した後のタイミングである。
 第1例で生成された障害Xのユニークパターンと、時間(1)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(1)ではユニークパターン(IF B,E,F,I)の中でアラームBのみが発生していることとなり、障害Xである確信度は1/4(25%)となる。
 一方で、第1例で生成された障害Xのユニークパターンと、時間(2)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(2)ではユニークパターン(IF B,E,F,I)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 また、第2例で生成された障害Xのユニークパターンと、時間(1)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(1)ではユニークパターン(IF A,B,C,D)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 第2例で生成された障害Xのユニークパターンと、時間(2)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(2)ではユニークパターン(IF A,B,C,D)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 上記より、第2例により生成されたルールを用いた場合、第1例により生成されたルールを用いた場合に比べて、障害発生時間帯のより早い段階で障害Xである確信度が高い結果が得られている。すなわち、第2例では、障害発生時間帯中の学習時間帯を障害発生の初期に設定していることにより、障害発生初期の段階でアラームのユニークパターンに基づいてどこで障害が発生したか(障害箇所)及びどんな原因で障害が発生したか(障害要因)を正確に判定することが出来ていることとなる。第2例のように、障害発生時間帯中において障害初期の段階に学習時間帯を設定することにより、学習において、障害が発生してから時間が経過して発生する障害イベントをユニークパターンとして抽出することがなくなり、障害初期の段階で、障害箇所を推定(確信度を高く推定)することができる。その結果、早期に障害回復措置をとることが可能である。
 なお、主要因イベント(図5の例ではアラートF)が発生すると障害箇所を特定しやすいことから、主要因イベントが発生するまでの時間帯に学習時間帯を設定することにより、主要因イベントが発生する前に予め確信度の高い障害箇所を知ることができ、早期に障害回復させることが可能となる。
 図6は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第3例について説明するためのフローチャートである。
 ここでは、障害発生時間帯および障害発生箇所とその周辺装置における、一部又は全ての回復イベント以外のアラームの組み合わせの中からユニークパターンを生成するときの、パターン抽出及びルール生成装置50の動作の一例について説明する。
 最初に、データ取込部31は、新規障害についての障害イベント群情報を取り込む(ステップSC1)。データ取込部31は、障害イベント群情報に含まれる障害履歴情報を、新たな障害IDと関連付けて障害履歴・対処履歴データベースD1に記録する。
 続いて、保守者が表示端末40を操作して障害発生時間帯、障害発生箇所を入力する。第3例では、保守者は表示端末40を操作して、回復イベント情報のユーザ指定(回復イベントを除くユニークパターンを抽出するか否か)を更に入力することができる(ステップSC2)。
 サーバ30は、GUI部35により表示端末40において保守者が入力した情報を取得する。保守者が回復イベント情報のユーザ指定を入力したときには(ステップSC3「有」)、GUI部35は、障害発生時間帯、障害発生箇所および保守者が除くと指定した回復イベント情報をルール学習制御部32に供給する。保守者が回復イベント情報のユーザ指定を入力しなかったときには(ステップSC3「無」)、GUI部35は、障害発生時間帯および障害発生箇所をルール学習制御部32に供給する。
 ルール学習制御部32は、障害発生時間帯および障害発生箇所が入力されたとき(回復イベント情報のユーザ指定が入力されなかったとき)、予め設定されたシステム規定値の回復イベント情報を除く障害イベント情報を抽出する。すなわち、ルール学習制御部32は、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯中および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)の中で規定された回復イベント以外のアラームを読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSC4)。
 ルール学習制御部32は、障害発生時間帯、障害発生箇所および回復イベント情報のユーザ指定が入力されたとき、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)の中で保守者に指定された回復イベント以外のアラームを読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSC5)。
 ルール学習制御部32は、ルールデータベースD2から既存のルールに含まれるユニークパターン(条件部)を読み出し、新たに生成したアラームの組み合わせと、既存のルールのユニークパターンとを比較する(ステップSC6)。
 ルール学習制御部32は、新たに生成したアラームの組み合わせの中で、既存のルールのユニークパターンにおいて最も発生していない組み合わせを、新規障害のユニークパターンとする(ステップSC7)。
 一方、ルールデータベースD2に登録されている過去のある一つの障害に対応する、ルール学習制御部32で抽出されたユニークパターンが、この障害IDに対応して登録されているルールの条件部に定義されている障害イベントの組合せと異なっている場合は、ルール学習制御部32はルールを修正する必要があると判断する。ルール学習制御部32が抽出したユニークパターンを条件部として採用し既存ルールを上書き修正し、ルールデータベースD2に登録する(ステップSC8)。
 ルール学習制御部32は、障害IDごとに、障害履歴・対処履歴データベースD1に登録されている障害イベント群情報の情報を基に再判定を行い、その判定結果である障害要因情報と、障害履歴・対処履歴データベースD1に登録されている障害要因情報(この情報は過去に保守者によって登録されたものである)とを照合し、照合して合致する場合(照合OKの場合)は、新たなルール追加が成功したとし、さらに既存ルールを上書き修正した場合にはルール修正も成功したとして、処理を終了する。一方、ルール学習制御部32は、照合して合致しない場合(照合NGの場合)は、アラーム情報データベースD3にアクセスして、複数のアラームの組み合わせから他のユニークパターンを再び抽出する。
 図7は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。
 ここでは図5に示す例と同様に障害Xのケースを例として、上述の第1例により生成されたルールによる推定結果の確信度と、第3例により生成されたルールによる推定結果の確信度との一例について以下に説明する。
 第1例の動作により生成される障害Xのルール(ユニークパターン)は、アラームB、アラームE、アラームF、アラームIの組み合わせ(IF B,E,F,I)である。
 第3例の動作により障害Xのルール(ユニークパターン)を生成すると、ルール学習制御部32は、障害発生時間帯中のアラームA-Jの中で回復イベント以外のアラームA-Fによる組み合わせの中から、ユニークパターンを抽出する。なお、この例では、回復イベントであるアラームG-Jの全てを除くアラームA-Fの組み合わせの中からユニークパターンを抽出する例を示しているが、保守者が複数の回復イベントの一部を指定した場合には、指令された回復イベントのみを除いたアラームの組み合わせからユニークパターンが抽出される。ここでは、第3例の動作により抽出された障害XのユニークパターンはアラームA、アラームB、アラームE、アラームFの組み合わせ(IF A,B,E,F)である。
 上記第1例および第3例の動作により生成された障害Xのユニークパターンを用いて、時間(3)と時間(4)とにおける障害Xの確信度を算出する。時間(3)は障害Xの主要因イベントのアラームFが発生した後、回復イベントのアラームG-Jが発生する前のタイミングであり、時間(4)は障害Xに対する対処が行われ回復イベントであるアラームG-Jが発生した後のタイミングである。
 第1例で生成された障害Xのユニークパターンと、時間(3)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(3)ではユニークパターン(IF B,E,F,I)の中でアラームB、E、Fが発生していることとなり、障害Xである確信度は3/4(75%)となる。
 一方で、第1例で生成された障害Xのユニークパターンと、時間(4)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(4)ではユニークパターン(IF B,E,F,I)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 また、第3例で生成された障害Xのユニークパターンと、時間(3)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(3)ではユニークパターン(IF A,B,E,F)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 第3例で生成された障害Xのユニークパターンと、時間(4)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(4)ではユニークパターン(IF A,B,E,F)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 上記より、第3例により生成されたルールを用いた場合、第1例により生成されたルールを用いた場合に比べて、障害発生時間帯のより早い段階で障害Xである確信度が高い結果が得られている。すなわち、第3例では、障害発生時間帯において障害発生から時間が経過してから発生する回復イベントをユニークパターンから除いているため、ユニークパターンが障害発生から時間が経過する前に発生するアラームの組み合わせとなり、障害発生から早い段階でユニークパターンに基づいてどこで障害が発生したか(障害箇所)及びどんな原因で障害が発生したか(障害要因)を正確に判定することが出来ていることとなる。第3例のように、回復イベントを除くアラームによりユニークパターンを生成することにより、学習において、障害が発生してから時間が経過して発生する障害イベントをユニークパターンとして抽出することがなくなり、障害初期の段階で、障害箇所を推定(確信度を高く推定)することができる。その結果、早期に障害回復措置をとることが可能である。
 図8は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第4例について説明するためのフローチャートである。
 ここでは、障害発生時間帯中の主要因イベントが発生する前の時間帯および障害発生箇所とその周辺装置におけるアラームの組み合わせの中からユニークパターンを生成するときの、パターン抽出及びルール生成装置50の動作の一例について説明する。
 最初に、データ取込部31は、新規障害についての障害イベント群情報を取り込む(ステップSD1)。データ取込部31は、障害イベント群情報に含まれる障害履歴情報を、新たな障害IDと関連付けて障害履歴・対処履歴データベースD1に記録する。
 続いて、保守者が表示端末40を操作して障害発生時間帯、障害発生箇所を入力する。第4例では、保守者は表示端末40を操作して、主要因イベント情報のユーザ指定を更に入力することができる(ステップSD2)。
 サーバ30は、GUI部35により表示端末40において保守者が入力した情報を取得する。保守者が主要因イベント情報のユーザ指定を入力したときには(ステップSD3「有」)、GUI部35は、障害発生時間帯、障害発生箇所および保守者が指定した主要因イベント情報をルール学習制御部32に供給する。保守者が主要因イベント情報のユーザ指定を入力しなかったときには(ステップSD3「無」)、GUI部35は、障害発生時間帯および障害発生箇所をルール学習制御部32に供給する。
 ルール学習制御部32は、障害発生時間帯および障害発生箇所が入力されたとき(主要因イベント情報のユーザ指定が入力されなかったとき)、障害履歴・対処履歴データベースD1から主要因イベント情報に合致するイベントの発生時刻より前の時間帯における障害イベント情報を抽出する。すなわち、ルール学習制御部32は、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯中および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)の中で主要因イベントに合致するアラームを特定し、当該アラームの発生時刻より前の時間帯におけるアラームを読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSD4)。
 ルール学習制御部32は、障害発生時間帯、障害発生箇所および主要因イベント情報のユーザ指定が入力されたとき、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)の中で、保守者に指定された主要因イベントの発生時刻より前の時間帯におけるアラームを読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSD5)。
 ルール学習制御部32は、ルールデータベースD2から既存のルールに含まれるユニークパターン(条件部)を読み出し、新たに生成したアラームの組み合わせと、既存のルールのユニークパターンとを比較する(ステップSD6)。
 ルール学習制御部32は、新たに生成したアラームの組み合わせの中で、既存のルールのユニークパターンにおいて最も発生していない組み合わせを、新規障害のユニークパターンとする(ステップSD7)。
 一方、ルールデータベースD2に登録されている過去のある一つの障害に対応する、ルール学習制御部32で抽出されたユニークパターンが、この障害IDに対応して登録されているルールの条件部に定義されている障害イベントの組合せと異なっている場合は、ルール学習制御部32はルールを修正する必要があると判断する。ルール学習制御部32が抽出したユニークパターンを条件部として採用し既存ルールを上書き修正し、ルールデータベースD2に登録する(ステップSD8)。
 ルール学習制御部32は、障害IDごとに、障害履歴・対処履歴データベースD1に登録されている障害イベント群情報の情報を基に再判定を行い、その判定結果である障害要因情報と、障害履歴・対処履歴データベースD1に登録されている障害要因情報(この情報は過去に保守者によって登録されたものである)とを照合し、照合して合致する場合(照合OKの場合)は、新たなルール追加が成功したとし、さらに既存ルールを上書き修正した場合にはルール修正も成功したとして、処理を終了する。一方、ルール学習制御部32は、照合して合致しない場合(照合NGの場合)は、アラーム情報データベースD3にアクセスして、複数のアラームの組み合わせから他のユニークパターンを再び抽出する。
 図9は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。
 ここでは図5に示す例と同様に障害Xのケースを例として、上述の第1例により生成されたルールによる推定結果の確信度と、第4例により生成されたルールによる推定結果の確信度との一例について以下に説明する。
 第1例の動作により生成される障害Xのルール(ユニークパターン)は、アラームB、アラームE、アラームF、アラームIの組み合わせ(IF B,E,F,I)である。
 第4例の動作により障害Xのルール(ユニークパターン)を生成すると、ルール学習制御部32は、障害発生時間帯中のアラームA-Jの中で主要因イベント(アラームF)の発生時刻よりも前の時間帯におけるアラームA-Eによる組み合わせの中から、ユニークパターンを抽出する。なお、主要因イベントであるアラームFは、保守者により指定された首位要因イベント情報に基づくものであってもよく、ルール学習制御部32が予め設定された主要因イベントの条件に基づいて設定したものであってもよい。ここでは、第4例の動作により抽出された障害XのユニークパターンはアラームA、アラームB、アラームD、アラームEの組み合わせ(IF A,B,D,E)である。
 上記第1例および第4例の動作により生成された障害Xのユニークパターンを用いて、時間(5)と時間(6)とに障害Xの確信度を算出する。時間(5)は障害Xの主要因イベントのアラームFが発生する前のタイミングであり、時間(6)は障害Xに対する対処が行われ回復イベントであるアラームG-Jが発生した後のタイミングである。
 第1例で生成された障害Xのユニークパターンと、時間(5)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(5)ではユニークパターン(IF B,E,F,I)の中でアラームB、Eが発生していることとなり、障害Xである確信度は2/4(50%)となる。
 一方で、第1例で生成された障害Xのユニークパターンと、時間(6)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(6)ではユニークパターン(IF B,E,F,I)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 また、第4例で生成された障害Xのユニークパターンと、時間(5)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(5)ではユニークパターン(IF A,B,D,E)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 第4例で生成された障害Xのユニークパターンと、時間(6)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(6)ではユニークパターン(IF A,B,D,E)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 上記より、第4例により生成されたルールを用いた場合、第1例により生成されたルールを用いた場合に比べて、障害発生時間帯のより早い段階で障害Xである確信度が高い結果が得られている。すなわち、第4例では、障害発生時間帯において障害発生から主要因イベントが発生するまでの時間帯におけるアラームの組み合わせからユニークパターンを抽出しているため、ユニークパターンが障害発生から時間が経過する前に発生するアラームの組み合わせとなり、障害発生から早い段階でユニークパターンに基づいてどこで障害が発生したか(障害箇所)及びどんな原因で障害が発生したか(障害要因)を正確に判定することが出来ていることとなる。第4例のように、主要因イベントの発生時刻よりも前の時間帯におけるアラームによりユニークパターンを生成することにより、学習において、障害が発生してから時間が経過して発生する障害イベントをユニークパターンとして抽出することがなくなり、障害初期の段階で、障害箇所を推定(確信度を高く推定)することができる。その結果、早期に障害回復措置をとることが可能である。
 なお、主要因イベント(図9の例ではアラートF)が発生すると障害箇所を特定しやすいことから、主要因イベントが発生するまでの時間帯に学習時間帯を設定することにより、主要因イベントが発生する前に予め確信度の高い障害箇所を知ることができ、早期に障害回復させることが可能となる。
 図10は、一実施形態のパターン抽出及びルール生成装置におけるルール生成および修正動作の第5例について説明するためのフローチャートである。
 ここでは、障害発生時間帯および障害発生箇所とその周辺装置におけるアラームから、障害発生装置からの障害イベントを除いたアラームの組み合わせの中からユニークパターンを生成するときの、パターン抽出及びルール生成装置50の動作の一例について説明する。
 最初に、データ取込部31は、新規障害についての障害イベント群情報を取り込む(ステップSE1)。データ取込部31は、障害イベント群情報に含まれる障害履歴情報を、新たな障害IDと関連付けて障害履歴・対処履歴データベースD1に記録する。
 続いて、保守者が表示端末40を操作して障害発生時間帯、障害発生箇所を入力する。(ステップSE2)。
 サーバ30は、GUI部35により表示端末40において保守者が入力した情報を取得する。GUI部35は、取得した障害発生時間帯および障害発生箇所をルール学習制御部32に供給する。
 ルール学習制御部32は、障害発生時間帯および障害発生箇所が入力されたとき、障害履歴・対処履歴データベースD1から、障害発生装置からの障害イベントを除く障害イベント情報を抽出する。すなわち、ルール学習制御部32は、障害履歴・対処履歴データベースD1にアクセスし、障害発生時間帯中および障害発生箇所とその周辺装置における障害イベント情報(アラーム情報)の中で障害発生装置からのアラーム以外のアラームを読み出し、読み出された全てのアラームの組み合わせを生成する。ルール学習制御部32は、生成したアラームの組み合わせを障害IDと関連付けてアラーム情報データベースD3に記録する(ステップSE3)。
 ルール学習制御部32は、ルールデータベースD2から既存のルールに含まれるユニークパターン(条件部)を読み出し、新たに生成したアラームの組み合わせと、既存のルールのユニークパターンとを比較する(ステップSE4)。
 ルール学習制御部32は、新たに生成したアラームの組み合わせの中で、既存のルールのユニークパターンにおいて最も発生していない組み合わせを、新規障害のユニークパターンとする(ステップSE5)。
 一方、ルールデータベースD2に登録されている過去のある一つの障害に対応する、ルール学習制御部32で抽出されたユニークパターンが、この障害IDに対応して登録されているルールの条件部に定義されている障害イベントの組合せと異なっている場合は、ルール学習制御部32はルールを修正する必要があると判断する。ルール学習制御部32が抽出したユニークパターンを条件部として採用し既存ルールを上書き修正し、ルールデータベースD2に登録する(ステップSE6)。
 ルール学習制御部32は、障害IDごとに、障害履歴・対処履歴データベースD1に登録されている障害イベント群情報の情報を基に再判定を行い、その判定結果である障害要因情報と、障害履歴・対処履歴データベースD1に登録されている障害要因情報(この情報は過去に保守者によって登録されたものである)とを照合し、照合して合致する場合(照合OKの場合)は、新たなルール追加が成功したとし、さらに既存ルールを上書き修正した場合にはルール修正も成功したとして、処理を終了する。一方、ルール学習制御部32は、照合して合致しない場合(照合NGの場合)は、アラーム情報データベースD3にアクセスして、複数のアラームの組み合わせから他のユニークパターンを再び抽出する。
 図11は、一実施形態のパターン抽出およびルール生成装置において生成された複数のルールによる推定結果の確信度の一例について説明する図である。
 ここでは上記障害Xのケースにおいて、障害推定時に何らかの要因(未発生/喪失)により障害発生装置からの障害イベント(アラームA、F)が発生しないサイレント故障である例について、上述の第1例により生成されたルールによる推定結果の確信度と、第5例により生成されたルールによる推定結果の確信度との一例について以下に説明する。
 第1例の動作により生成される障害Xのルール(ユニークパターン)は、アラームB、アラームE、アラームF、アラームIの組み合わせ(IF B,E,F,I)である。
 第5例の動作により障害Xのルール(ユニークパターン)を生成すると、ルール学習制御部32は、障害発生時間帯中のアラームA-Jから障害発生装置におけるアラームA、F、Gを除いたアラームB-E、H-Jによる組み合わせの中から、ユニークパターンを抽出する。ここでは、第5例の動作により抽出された障害Xのユニークパターンは、アラームB、アラームD、アラームE、アラームHの組み合わせ(IF B,D,E,H)である。
 上記第1例および第5例の動作により生成された障害Xのユニークパターンを用いて、時間(7)と時間(8)とに障害Xの確信度を算出する。時間(7)は障害Xの主要因イベントのアラームFが発生した後、回復イベントG-Jが発生する前のタイミングであり、時間(8)は障害Xに対する対処が行われ回復イベントであるアラームG-Jが発生した後のタイミングである。
 第1例で生成された障害Xのユニークパターンと、時間(7)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(7)ではユニークパターン(IF B,E,F,I)の中でアラームB、Eが発生していることとなり、障害Xである確信度は2/4(50%)となる。
 一方で、第1例で生成された障害Xのユニークパターンと、時間(8)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(8)ではユニークパターン(IF B,E,F,I)の中でアラームB、E、Iが発生していることとなり、障害Xである確信度は3/4(75%)となる。
 また、第5例で生成された障害Xのユニークパターンと、時間(7)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(7)ではユニークパターン(IF B,E,F,I)の中でアラームB、D、Eが発生していることとなり、障害Xである確信度は3/4(75%)となる。
 第5例で生成された障害Xのユニークパターンと、時間(8)において発生しているアラームとを比較し、発生した障害が障害Xであるか判定すると、時間(8)ではユニークパターン(IF B,E,F,I)の全てのアラームが発生していることとなり、障害Xである確信度は4/4(100%)となる。
 上記より、第5例により生成されたルールを用いた場合、第1例により生成されたルールを用いた場合に比べて、障害発生時間帯のより早い段階で障害Xである確信度が高い結果が得られている。これは、第5例により生成されたルールを用いると、発生した障害が障害Xであるか判定する際に、障害発生装置以外の周辺装置からのアラームの組み合わせであるユニークパターンにより障害箇所の推定を行うこととなり、何らかの要因により障害発生装置からイベント情報が発生しない場合(例えばサイレント故障である場合)に、より確信度を高く障害発生箇所を推定することが出来るためのである。その結果、早期に障害回復措置をとることが可能である。
 本実施形態のパターン抽出及びルール生成装置50は、上記第1例乃至第5例の少なくとも一つの動作により生成されたルールを用いて障害箇所の推定を行うことができる。したがって、本実施形態のパターン抽出及びルール生成装置50によれば、様々な状況において障害箇所をより確信度を高く推定し、保守者による早期の障害回復措置を支援することができる。
 上記のように、本実施形態によれば、ネットワークサービスの保守業務において早期の障害回復を実現するパターン抽出及びルール生成装置、方法及びコンピュータプログラムを提供することができる。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 20…監視装置
 30…サーバ
 31…データ取込部
 32…ルール学習制御部
 33…障害箇所推定機能部
 34…対処方法管理機能部
 35…GUI部
 36…API部
 40…表示端末
 50…ルール生成装置
 D1…障害履歴・対処履歴データベース
 D2…ルールデータベース
 D3…アラーム情報データベース
 D4…ネットワーク構成情報データベース
 A-J…アラーム

Claims (8)

  1.  障害ごとに、障害要因箇所及び障害要因を含む障害要因情報と、前記障害の発生から回復までに生じた障害イベント群情報と、条件部と結論部とを含むルールに対応付けられたルールIDと、を関連付けて登録しているデータベースと、
     新規の前記障害である新規障害に関連付けられた前記障害イベント群情報の一部の取り得る一以上の組合せを全通り生成し、前記新規障害の前記障害イベントの組合せと過去の前記障害である一以上の過去障害それぞれの前記障害イベントの組合せとから、最も発生していない組合せと判定されるユニークパターンを前記新規障害ごとに抽出し、前記ユニークパターンに応じて前記ルールを生成するルール学習制御部と、を備えるパターン抽出及びルール生成装置。
  2.  前記ルール学習制御部は、前記新規障害の抽出された前記ユニークパターンを前記ルールの条件部として採用し、真の原因とその位置を特定した障害要因情報を前記ルールの結論部として採用して新しいルールを生成する、請求項1に記載のパターン抽出及びルール生成装置。
  3.  前記障害イベント群情報の一部は、前記新規障害の発生から回復までの発生時間帯の一部の時間帯における少なくとも一つの前記障害イベントである、請求項1記載のパターン抽出及びルール生成装置。
  4.  前記障害イベント群情報は回復イベントを含み、
     前記障害イベント群情報の一部は、前記回復イベントを除く全ての前記障害イベントである、請求項1記載のパターン抽出及びルール生成装置。
  5.  前記障害イベント群情報は、前記障害要因箇所における主要因イベントを含み、
     前記一部の障害イベントは、前記主要因イベントよりも前に発生している前記障害イベントである、請求項1記載のパターン抽出及びルール生成装置。
  6.  前記一部の障害イベントは、前記新規障害の発生から回復までの障害発生時間帯において、前記障害要因箇所以外から発生した前記障害イベントである、請求項1記載のパターン抽出及びルール生成装置。
  7.  障害ごとに、障害要因箇所及び障害要因を含む障害要因情報と、前記障害の発生から回復までに生じた障害イベント群情報と、条件部と結論部とを含むルールに対応付けられたルールIDと、を関連付けて登録し、
     新規の前記障害である新規障害に関連付けられた前記障害イベント群情報の一部の取り得る一以上の組合せを全通り生成し、前記新規障害の前記障害イベントの組合せと過去の前記障害である一以上の過去障害それぞれの前記障害イベントの組合せとから、最も発生していない組合せと判定されるユニークパターンを前記新規障害ごとに抽出し、
     前記ユニークパターンに応じて前記ルールを生成する、パターン抽出及びルール生成方法。
  8.  コンピュータに請求項7記載の方法を実行させるコンピュータプログラム。
PCT/JP2022/027598 2022-07-13 2022-07-13 パターン抽出及びルール生成装置、方法及びコンピュータプログラム WO2024013897A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027598 WO2024013897A1 (ja) 2022-07-13 2022-07-13 パターン抽出及びルール生成装置、方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027598 WO2024013897A1 (ja) 2022-07-13 2022-07-13 パターン抽出及びルール生成装置、方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2024013897A1 true WO2024013897A1 (ja) 2024-01-18

Family

ID=89536187

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/027598 WO2024013897A1 (ja) 2022-07-13 2022-07-13 パターン抽出及びルール生成装置、方法及びコンピュータプログラム

Country Status (1)

Country Link
WO (1) WO2024013897A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028778A (ja) * 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法
WO2021250873A1 (ja) * 2020-06-12 2021-12-16 日本電信電話株式会社 ルール生成装置、ルール生成方法およびプログラム
WO2022044159A1 (ja) * 2020-08-26 2022-03-03 日本電信電話株式会社 ルール学習装置、ルールエンジン、ルール学習方法、及びルール学習プログラム
WO2022054269A1 (ja) * 2020-09-14 2022-03-17 日本電信電話株式会社 組合せルール作成装置、方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028778A (ja) * 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法
WO2021250873A1 (ja) * 2020-06-12 2021-12-16 日本電信電話株式会社 ルール生成装置、ルール生成方法およびプログラム
WO2022044159A1 (ja) * 2020-08-26 2022-03-03 日本電信電話株式会社 ルール学習装置、ルールエンジン、ルール学習方法、及びルール学習プログラム
WO2022054269A1 (ja) * 2020-09-14 2022-03-17 日本電信電話株式会社 組合せルール作成装置、方法およびプログラム

Similar Documents

Publication Publication Date Title
JP6637854B2 (ja) パターン抽出及びルール生成装置、及びその方法
US20190361759A1 (en) System and method to identify failed points of network impacts in real time
JP5061374B2 (ja) 機器保守システムおよび機器保守方法、障害推定装置
JP2005346331A (ja) 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
WO2011155023A1 (ja) 保守作業事例収集装置、保守作業事例収集方法及び保守作業事例収集プログラム
KR102036218B1 (ko) 엘리베이터 원격 보수 지원 시스템, 및 엘리베이터 원격 보수 지원 방법
JP2010049551A (ja) 障害監視装置および障害監視方法
WO2024013897A1 (ja) パターン抽出及びルール生成装置、方法及びコンピュータプログラム
JP6837017B2 (ja) 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法
JP2006085538A (ja) 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP2019114172A (ja) インシデント対応支援装置
JP2007257581A (ja) 故障解析装置
WO2024013989A1 (ja) 障害箇所推定装置、方法及びコンピュータプログラム
JP7322958B2 (ja) 異常箇所推定装置、方法およびプログラム
JP7026012B2 (ja) 機器状態監視システム及び機器状態監視方法
JP2017173882A (ja) プラント運転監視制御システムおよびプラント運転監視制御方法
JPH11345003A (ja) プラント制御システム
JP5964777B2 (ja) 優先復旧設備決定装置、優先復旧設備決定方法、プログラムおよび優先復旧設備決定システム
JP2016200942A (ja) インストール装置およびインストール方法
JP2009059204A (ja) コンピュータリモート制御システム
US12001271B2 (en) Network monitoring apparatus, method, and program
JP7446142B2 (ja) サイバーセキュリティ監査システム
TW201945291A (zh) 水處理設備的維護支援裝置以及維護支援系統
JP2020135345A (ja) アラーム制御装置及びアラーム制御方法
JPWO2020136842A1 (ja) データ収集装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951111

Country of ref document: EP

Kind code of ref document: A1