WO2001008016A1 - Network managing system - Google Patents

Network managing system Download PDF

Info

Publication number
WO2001008016A1
WO2001008016A1 PCT/JP1999/004041 JP9904041W WO0108016A1 WO 2001008016 A1 WO2001008016 A1 WO 2001008016A1 JP 9904041 W JP9904041 W JP 9904041W WO 0108016 A1 WO0108016 A1 WO 0108016A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
fault
cause
value
event
Prior art date
Application number
PCT/JP1999/004041
Other languages
French (fr)
Japanese (ja)
Inventor
Noriaki Kuwahara
Original Assignee
Sumitomo Electric Industries, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries, Ltd. filed Critical Sumitomo Electric Industries, Ltd.
Priority to AU49287/99A priority Critical patent/AU4928799A/en
Priority to PCT/JP1999/004041 priority patent/WO2001008016A1/en
Priority to GB0114407A priority patent/GB2363286B/en
Priority to CA002348294A priority patent/CA2348294A1/en
Publication of WO2001008016A1 publication Critical patent/WO2001008016A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
    • H04L41/0856Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information by backing up or archiving configuration information

Definitions

  • the present invention generally relates to a network management system for managing faults on a network, and more particularly, to a function of identifying a root cause of a fault from various types of fault symptoms observed on the network.
  • the present invention relates to a network management system having: Background art
  • An “event” is an exceptional condition that occurs in a network. Includes hardware and software failures, outages, performance bottlenecks, inconsistent network configurations, unintended consequences due to poor design, and malicious damage such as computer viruses.
  • Symptoms refer to observable events. “Symptom” is the same as “symptom event”. For example, “it always takes a long time to communicate with a certain destination A and retransmission is required”, “characters are always garbled for a certain destination B”, “reception confirmation is always returned for a certain destination C” “Do not come”. In the same sense, we use the word y Symptom J.
  • “Problem” refers to the root cause of a failure.
  • the problem is not always observable. For example, damage to the transmitter of a communication device, disconnection of a communication cable, lack of communication line capacity, etc. are examples of “problems”. In the same sense, “problem” and “disability” The word “cause” is also used.
  • An “object” is something that has a clear boundary and meaning for a concept, abstraction, or problem of interest.
  • An "object class” is a group of objects that have similar properties (attributes), common behavior (operations), common relationships with other objects, and common meanings.
  • Class has the same meaning as object class.
  • An “object instance” is a specific object belonging to a certain object class.
  • An “object instance” is simply called an “instance”.
  • One problem event on one resource in the network can cause many symptom events on multiple resources involved. Some problems are observable, but generally not always observable. Therefore, it is necessary to identify the problem that is the root cause of the failure from multiple symptoms. Network administrators must be able to correlate the various observed symptom events with the problem in order to identify the root cause problem.
  • the static aspects of the modeling of managed objects and the modeling of event propagation are abstracted, and an object-oriented concept is introduced to perform the modeling efficiently.
  • various managed objects are first modeled as classes. Then define the relationships between the classes.
  • certain events are modeled as propagating along the relationships between classes.
  • the network to be managed is modeled based on the class system defined in this way. In other words, the managed object in the network is abstracted as one instance of a certain class. Next, the network is modeled as an event that propagates these instances (managed objects) according to the relationship established between the class to which the instance belongs and the class to which other instances belong. . Based on the network modeled in this way, the correlation between the problem and the symptoms is specified in advance.
  • a symptom event propagation rule is prepared in advance.
  • This propagation rule rules out the relationship that the problem event of the root cause of the failure propagates to the symptom event of the failure, and the symptom event propagates to another symptom event.
  • This set of propagation rules is called a propagation model.
  • event propagation is modeled such that each event propagates between instances according to the relationship defined between the classes of managed objects.
  • U.S. Pat. No. 5,528,516 particularly relates to a fault management function, which is used to input the symptoms of a large number of faults that occur when a network fault occurs and to quickly identify the root cause. On the event correlation table approach.
  • U.S. Pat. No. 5,661,668 relates to a technique for generating an event correlation table used in the above-mentioned U.S. Pat. No. 5,528,516. That is, the method disclosed in US Patent No. 5,661,668 includes the following steps.
  • the problem of the root cause of the failure can be identified by a relatively simple task of comparing the symptom pattern of the actual failure with the symptom pattern of the event correlation table. can do. Therefore, it is likely that this conventional technique will greatly facilitate the identification of the root cause of the problem.
  • this conventional technique still has the following problems to be solved.
  • the event correlation table used by the above-mentioned conventional technology requires a memory capacity proportional to the number of problems X the number of symptoms. Therefore, this method is disadvantageous because a large network requires an enormous amount of storage capacity, and there is a limit to applying this method to a large-scale network.
  • an object of the present invention is to provide a network management system capable of effectively specifying a problem with a small amount of memory usage.
  • Still another object of the present invention is to provide a network management system that can specify a problem with a small amount of memory and a small amount of calculation, and that does not cause any omission in specifying a root problem.
  • the present invention relates to a network management system and a machine-readable recording medium storing a program for causing a computer to operate as such a network management system.
  • This network management system includes a configuration management information schema definition storage device for holding a configuration management information schema definition that describes classes representing devices on the network and failure events observed in those classes;
  • a propagation model storage device for storing a propagation model between clients, a configuration information storage device for storing actual configuration information of devices on a network, a configuration management information schema definition, a propagation model, and a configuration Inference including a counter provided for each failure event occurring in each device based on the information and a comparison device for inferring the cause of the failure event by a predetermined method based on the contents of the counter.
  • the counter has a storage device including a plurality of storage areas for holding each count value, a device for setting an upper limit value for each storage area based on a propagation model, and an input fault.
  • a storage device including a plurality of storage areas for holding each count value, a device for setting an upper limit value for each storage area based on a propagation model, and an input fault.
  • a value for updating a storage area value corresponding to an input failure event Logic circuit.
  • the inference apparatus By updating the contents of the storage area corresponding to each cause of failure by the counter, the inference apparatus infers the cause of failure based on the contents of the storage area.
  • the storage space required for this is proportional to the number of instances included in the configuration information, so it is clearly compared to those that require a storage capacity proportional to the square of the number of instances, such as an event correlation table. It is advantageous.
  • the counter further includes a device for holding configuration information for counting, which is composed only of a connection relation between devices, and the logic circuit includes a predetermined rule and a count in response to the input of the failure event.
  • a counter that should operate in response to the input of the failure event is determined and operated.
  • the logic circuit in the operation of the counter, if there is device connection information, the propagation of events can be traced, and the processing can be sped up.
  • the counter generates a plurality of storage areas when the network management system is started, and sets an upper limit value for each of the storage areas. If a storage area is created at the time of startup, the subsequent counting process for a failure event by the counter can be executed quickly.
  • the counter reserves a necessary storage area and sets a corresponding upper limit value in response to the input of the failure event. Secure the required storage space when needed.
  • the storage device can be used efficiently without using a storage area that is rarely used.
  • the inference device infers the true cause of the failure in response to the input of each failure event. Even if the network administrator does not request inference, inference is performed when a failure event occurs. Inference can be performed at an appropriate time without being influenced by the requirements of the network administrator. In addition, the time lag from failure occurrence to inference is reduced compared to the case where inference is performed at regular intervals. Preferably, the inference device infers the true cause of the failure every predetermined time. Since inferences are made at regular intervals, inferences can be made reliably at appropriate times without the need of a network administrator.
  • the inference apparatus calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and determines a predetermined number of faults starting from the one having the smallest distance. Present as a cause candidate. Since a predetermined number is presented as candidates starting from the one with the shortest distance, the possibility that the true cause of failure is leaked from the candidates for the cause of failure is small.
  • the inference device calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and the distance is smaller than a predetermined threshold value. Is presented as a candidate for the cause of the failure. Since only the distances that are smaller than the threshold value are presented, the possibility of a failure is high, and the failure can be presented to the network administrator.
  • the inference circuit presents the candidates for the cause of the failure in the sorted order according to the respective distances.
  • candidates can be presented to the network administrator according to the order of possible failures. The network administrator can reliably remove the fault by checking for possible faults in this order.
  • the inference apparatus calculates, gives and presents a certainty factor calculated according to the count value of each power counter to each of the presented fault cause candidates. With confidence, you can intuitively grasp the potential cause of a failure.
  • the counter includes a counted area storage device for storing information specifying the storage area updated by the logic circuit, and the inference apparatus stores only the storage area stored in the counted storage apparatus in the inference. To be calculated.
  • the storage area that has not been updated is not included in the calculation for inference by the inference device. Since only the storage areas that need to be calculated are to be calculated, the calculation can be sped up.
  • the storage device includes an area for storing a flag indicating whether or not each storage area has been updated in response to a predetermined failure event, and the logic circuit maintains the flag and stores each flag according to the content of the flag. Determine whether to update the value in. Ah
  • the same fault event may occur through more than one causal path.
  • the storage area corresponding to the above-mentioned cause may be updated more than once.
  • the calculation result is not correct.
  • a flag is set, and the storage area updated for a certain failure event is not updated any more. By taking such measures, the storage area can be updated without error even under the above causal relationship.
  • the update by the logic circuit is a process of incrementing a value in each storage area of the input fault event transmission range by a predetermined value, and the predetermined value is a value greater than 0 and equal to or less than 1.
  • the counter further includes a cache device for holding information specifying a storage area updated in response to the input of a certain failure event in the logic circuit, and the logic circuit is provided when a certain failure event is input again. The storage area specified based on the information stored in the cache device is updated.
  • the target storage area By retaining the information that identifies the storage area updated in response to a failure event input, when the same failure event is input again, the target storage area can be accessed directly without following the propagation path. And can be updated. Therefore, the processing can be sped up.
  • the cache device holds information indicating the time when the information specifying the storage area was last referenced
  • the counter further includes a device for deleting, from the cache device, information that has not been referenced for a certain period of time. Including.
  • the storage area can be used effectively by erasing from the cache device information that is not referenced for a certain period of time.
  • the counter is a propagation rule for accumulating the input fault events, detecting a cross-correlation between the fault events, and feeding back a new fault propagation model not described in the propagation model to the logic circuit.
  • the logic circuit further includes a detection device, and receives the feedback from the propagation rule detection device, and reconstructs a predetermined rule. Since the rules for inference can be changed dynamically based on the history of actual failure events, inference of the cause of the failure becomes more reliable.
  • FIG. 1 is a block diagram of a network management system according to one embodiment of the present invention.
  • FIG. 2 is a block diagram of the fault management unit 34 shown in FIG.
  • FIG. 3 is a block diagram of the fault counter 54 shown in FIG.
  • FIG. 4 is a diagram schematically showing a configuration of the counter value storage area 70 shown in FIG.
  • FIG. 5 is a diagram for explaining the concept of a causal loop between a cause and a symptom.
  • FIG. 6 is an external view of a computer for realizing the network management system according to the present invention.
  • FIG. 7 is a block diagram of a computer for realizing the network management system according to the present invention.
  • FIG. 8 is a flowchart showing a failure event increment process in one embodiment of the present invention.
  • FIG. 9 is a flowchart of a process for identifying a cause of a failure started by a timer in one embodiment of the present invention.
  • FIG. 10 is a flowchart of the cache clearing process started by the timer in one embodiment of the present invention.
  • FIG. 11 is a flowchart showing the processing contents of the failure counter generation unit 56.
  • FIG. 12 is a flowchart of the failure cause identification processing.
  • FIG. 13 is a flowchart illustrating another example of the failure cause identification processing.
  • FIG. 14 is a flowchart illustrating still another example of the failure cause identification processing.
  • FIG. 15 is a flowchart of the process of incrementing the fault counter and specifying the cause of the fault in another embodiment of the present invention.
  • the present invention provides a configuration of a propagation model, a managed object model, and an actual network each time a symptom event occurs without preparing an event correlation table in advance. Based on the information, the counter provided for the fault associated with the symptom event (referred to as “fault counter”) is incremented. Since the number of propagation models is finite and the types of symptom events are finite, each fault counter should count up to a certain number when all symptom events are considered to have occurred.
  • the number is obtained in advance as the upper limit of the count number of each fault counter, and the obtained number is compared with the actual number of occurrences of symptom events and the count number of each fault counter to correspond to the occurrence pattern of the symptom event. Identify the cause of the failure.
  • a network management system 20 is described using a configuration management information schema definition 40 that holds a database schema for defining network configuration information, and this schema.
  • a configuration management unit 30 for managing network configuration information, an event database 44 for storing configuration information data and failure information data as events, and network failure events are collected, and then the cause of the failure is collected.
  • the fault management unit 34 for estimating the fault and information indicating the inference result of the root cause problem of the fault is received from the fault management unit 34.
  • a user interface unit 36 for presenting to a network administrator.
  • the configuration management information schema definition 40, the configuration information section 38, and the propagation model 42 are stored in a storage device such as a memory. The storage device in which these are stored may be the same or separate.
  • the fault management section 34 manages an event database section 62 for storing fault events from the network in the event database 44 and rules for fault propagation (propagation model 4 2).
  • the fault counter generator 56 generates a fault counter to be described later, and the fault counter generator 56 generates the fault model from the propagation model unit 58 for reference, configuration information, its schema definition information, and the propagation model 42. Done, A counter corresponding to each fault cause is provided.
  • a fault counter 54 for incrementing the counter corresponding to the fault cause, and a counter value of the fault counter 54 are provided.
  • the fault counter 54 includes counter configuration information 78, which consists only of information required to identify the device type and device from the configuration information, and connection information between devices.
  • the counter value storage area 70 composed of an array of counters corresponding to the failures of each device generated from the propagation model 42 and the configuration information section 38, and the counters corresponding to each failure in the counter value storage area 70
  • Counter type increment logic 74 for incrementing, and reference to the counter increment logic 74, generated from the propagation model 42, for the equipment type and connection relationship, and for the fault event input to the force counter.
  • the counter increment rule 80 which describes which device class causes the fault counter to be incremented, and the incremented fault
  • An incremented counter index storage area 76 which is the area where the harm counter index is recorded, and a record of which fault counter has been incremented as a result of applying the rule for the fault event of a specific device For cache information 72.
  • the counter value storage area 70 includes an index 90 (serial number in this embodiment) and an index 90 for each failure cause (problem P0, P1, P2,).
  • the upper limit value 9 2 is set in advance to the number of fault events that are considered to cause the fault cause corresponding to the counter on the propagation model, and the count value is an area that holds the count value.
  • Update flags 9 6 and used including. All of these areas are maintained by the counter value increment logic 74.
  • Fig. 5 shows Causality Mapping when the same symptom occurs in two causal paths from a certain cause of failure. Now, it is assumed that the following causal relationships exist for the obstacles.
  • the network management system shown in FIG. 1 is actually realized by software running on a computer such as a personal computer or a workstation.
  • Figure 6 shows the appearance of the computer that implements the network management system. Referring to FIG. 6, this computer has a computer 100 equipped with a CD-ROM (Compact Disc Read-Only Memory) drive 110 and a FD (Flexible Disk) drive 112, a display 102, and a printer 1 04, a keyboard 106, and a mouse 108.
  • Figure 7 shows the configuration of this computer in block diagram form. As shown in FIG. 7, the computer main unit 100 constituting the network management system 20 includes a CD-ROM drive 110 and an FD drive 112, and a CPU (CPU) connected to a bus 126, respectively.
  • CD-ROM Compact Disc Read-Only Memory
  • FD Flexible Disk
  • This network management system is realized by a computer hard disk and software executed by the CPU 116.
  • such software is stored in a storage medium such as CD_R ⁇ M122 or FD124 and distributed, and is read from the storage medium by a CD-ROM drive 110 or FD drive 112 and read from a hard disk 114. Is stored once. Further, the data is read from the hard disk 114 to the RAMI 20 and executed by the CPU 116.
  • the computer hardware itself shown in FIGS. 6 and 7 is general. Therefore, the most essential part of the present invention is the software stored in the storage medium such as the CD-ROM 122, the FD 124 and the hard disk 114.
  • the operation of the computer itself shown in FIGS. 6 and 7 is well known and will be apparent to those skilled in the art.
  • the software is configured to receive a fault event after the device is started and increment the fault counter (FIG. 8), and to be started periodically by the timer 50 to identify the cause of the fault. (FIG. 9), and a part that is activated by the timer to clear the cache information 72 (FIG. 10).
  • the software structure of the part that increments the failure counter will be described.
  • this device When this device is started, it first secures a counter value storage area 70, sets its upper limit, and generates a counter value increment logic 74 (140). Then, the system waits for a failure event to be input (142), and when a failure event is input, increments the failure counter (144). Is executed, and after execution, the system waits for the input of a failure event again (1 4 2). Details of these processes will be described later.
  • failure cause identification processing 150 is started periodically by timer 50.
  • the user interface unit 36 presents the problem corresponding to the failure counter having the minimum value to the network administrator as the root cause of the failure.
  • This processing corresponds to the processing performed by the count comparator 52 in FIG.
  • timer 50 clears cache information 72 periodically.
  • the cache information 72 holds the date when the cache was last referenced as an attribute, and the timer 50 periodically checks this date and discards cache information that has not been referenced for a long time. I do.
  • the storage capacity of the cache information 72 can be saved, and it is possible to cope with changes in the network configuration.
  • the process for specifying the cause of the failure and the process for clearing the cache information 72 are started by the timer independently of the process for incrementing the failure counter.
  • the present invention is not limited to this.
  • these processes are executed in response to a request from a network administrator, or these processes are executed in response to satisfaction of a condition in the process of incrementing the failure counter. May be started.
  • Their implementation depends on the design, but will depend on the requirements and will be apparent to those skilled in the art.
  • the process 140 for generating a fault counter will be described with reference to FIG. This processing corresponds to the processing of the failure counter generation unit 56 in FIG.
  • an index unique to each class is assigned to the cause of failure in each class (180). For example, ApplicationDown, TcpDisconnect, RoutingError, etc. described in the examples below correspond to this.
  • a counter value storage area is generated by pairing the index of each managed object with the index of the cause of the failure (184).
  • a failure counter in the counter value storage area 70 shown in FIG. 4 stores the managed index and the failure cause. It is specified and accessed by the index.
  • the fault counters corresponding to the problems P 0, P 1, etc., which are the causes of the faults shown in Fig. 4, are actually managed for each managed object. Counters are assigned.
  • the range of the failure is predicted, and the upper limit is set (186).
  • the counter value increment logic 74 shown in FIG. 3 is generated.
  • the generation of the counter value increment logic 74 is also performed by software. Prior to this processing, it is assumed that the following logic template is prepared in advance.
  • appendCache (mo, symptom, mol, symptoml); return;
  • mo 2 search (mol, Relation, rClassName); if (mo2 NOT—FOUND) return;
  • the counter value increment opening logic 74 is generated as follows.
  • the first class is selected for processing (188).
  • it is determined whether or not all classes have been processed (190). If all classes are finished, this routine is finished. If any classes have not been completed, control proceeds to step 200.
  • step 200 (b) is expanded to the position indicated as “addition position of case clause macro for C 1 ass” in the counter logic template of (a).
  • “ClassName” in (b) is replaced with the class name to be processed (for example, "Application”). Subsequent positions in this processing move after the expanded part.
  • (c) was defined for the class at the position indicated as “Addition of case clause macro for Symptom name” in (b) expanded in step 200. Expand all failure events in order (202). However, at this time, “ClassName” in the macro of (c) is the name of the class to be processed, rSymptomNameJ is the name of each fault event defined in the class, and “RelationJ is the definition of the class in the propagation model. Replace "rClassNameJ” with the name of the class associated with this class in "Relation”, and replace "ProblemName” with the cause of failure given in step 180 for that class. Thus, in step 202, the macro of (c) is expanded for all the fault events defined in the class.
  • step 190 If it is determined in step 190 that the processing for all classes has been completed, the counter values obtained by expanding (b) and (c) for all classes defined in the class definition Increment logic 74 is obtained. An example is shown below.
  • appendCache (mo, symptom, mol, symptoml) return
  • An instance of the class Application has an Underly relationship with an instance of the class TcpNode.
  • An instance of class TcpNode has a ConnectedTo relationship to an instance of class Router.
  • TcpDisconnect Failure of class Router RoutingError propagates to failure of TcpNode connected to it, TcpDisconnect.
  • executeCache A function that increments the failure counter according to the cache data related to the failure event specified by the specified management target
  • the increment of the specified failure counter specified by the specified management target is recorded as cache data appendCache ();
  • the present invention does not store and hold the Causality Mapping, but the logic of the counter value increment, the rule, and the relationship between the devices.
  • the counter configuration information 78 consisting of only the counter is stored.
  • failure counter increment processing shown in step 144 of FIG. 8 will be described.
  • Failure events are input to the counter in time series.
  • a device identifier and device type information for specifying the device in the actual configuration information are added as attributes.
  • the counter value increment logic 74 queries the configuration information for the counter 78 to find a fault counter for the problem corresponding to the fault in the management object corresponding to the device. Increment the value.
  • the counter logic will execute the management object of “Tcp J” corresponding to the device.
  • the counter logic stores the incremented index of the failure counter in the incremented counter index storage area 76.
  • the counter logic takes it as an input again and searches the counter configuration information 78 for a router connected thereto. Then, the RoutingError count of the router is incremented. In this way, the counter logic continually increments each fault counter The process for this fault event is terminated when there are no more items to be propagated. At this time, when the counter logic increments a certain fault counter for a certain fault event, a flag corresponding to the fault event of the fault counter is set, and if the flag is not set, Only increment.
  • the templates shown in “(b) Case clause macro for Class” and “(c) Case clause macro for Symptom name” perform such processing by replacing words in the template with specific class names and expanding them. It is for realizing.
  • the network management system notifies the network administrator of the cause of the failure corresponding to the value having the smallest distance among the values calculated in this way as a candidate of the true cause of the failure.
  • the failure identification process for that will be described. Referring to FIG. 12, when the process of identifying the cause of the failure is started, first, all the inputted events are acquired (300). Further, as an initial setting, a predetermined large constant (for example, the maximum number that the work area can hold) is substituted into the work area for obtaining the minimum value (302). This is a preparation to keep the value as the minimum value of the previous calculation each time the minimum value is obtained in the middle of the calculation, as described below.
  • a predetermined large constant for example, the maximum number that the work area can hold
  • one index number is extracted from the indexes stored in the incremented counter index storage area 76 (304). Then, it is determined whether or not the processing has been completed for all the index numbers stored in the incremented counter index storage area 76 (306). If the processing has been completed for all index numbers, control proceeds to step 308, the details of which will be described later. In this case, the calculation described below is performed not on all the indexes, but only on the indexes stored in the incremented counter index storage area 76. Other indexes have not been incremented, so omitting the calculation has no effect. The calculation amount is reduced, and the processing speed can be increased.
  • the upper limit value of the counter indicated by the index number extracted in step 304 and the counter value are read (320). Then, the total number of input failure events and read The difference from the calculated counter value is calculated (322). Further, the difference between the upper limit value of the counter and the counter value is calculated (324). The two differences thus obtained are summed and retained (32). In the network management system 20 of this embodiment, the sum calculated in this manner is used as a value (distance) indicating the possibility of a failure cause. Of course, various other calculation methods can be assumed, but the method of this example is the simplest.
  • step 304 it is determined whether or not the sum thus calculated is smaller than the previously held minimum value (328). If it is not less than the minimum value, the processing is advanced to the next index number (332), and control returns to step 304. If the sum is smaller than the minimum value, the index number corresponding to the sum is stored, and the sum is stored as a new minimum value (330). Then, the processing target is advanced to the next index number (332), and control returns to step 304.
  • step 308 it is determined whether or not the minimum value obtained as a result of the above series of processing is smaller than a predetermined threshold value. If the minimum value is smaller than the threshold value, the failure cause indicated by the index number corresponding to this minimum value is estimated as the root cause of the failure and presented to the network administrator via the user interface unit 36.
  • the process waits for the input of the next failure event (3 1 2), or terminates the process after displaying that identification was not possible.
  • the cache information 72 when a certain failure event is input, information indicating which management target object has finally reached and which failure counter has been incremented is stored in the cache information 72. I do. For example, when a failure event S4 is input under the causal relationship as shown in FIG. 5, the failure counters of P0, P1, and P2 are finally incremented. If this information is stored in the cache information 72, the next time the failure event S4 is input, the corresponding failure power counter can be immediately incremented without following the causal relationship from the configuration information. The processing speed can be increased.
  • the network management system 20 of the above-described embodiment has a propagation rule detection unit 60, detects a cross-correlation between failure events stored in the event database 44, and describes the cross-correlation in the propagation model 42. If a new fault propagation that is not detected is detected, it is fed back (added) to the propagation model 42. By reconstructing the counter value increment logic 74 of the fault counter and the rule 80 of the counter increment based on the new propagation model 42 updated in this way, a more accurate fault cause can be estimated. Becomes possible.
  • This value C (S 1, S 2) is calculated between all fault events that occurred within the time window. Then, when this value exceeds a certain threshold value, it is estimated that there is a propagation relationship between these events.
  • rules not yet described in the propagation model 42 may be given to the propagation model unit 58 and fed back to the fault counter generation unit 56.
  • the fault counter generation unit 56 reconstructs the rules for the fault counter and the increment based on the rules updated in this manner, so that more accurate inference can be performed.
  • the equation for calculating the degree of cross-correlation is not limited to the above equation, and various equations can be used.
  • the “confidence” that the certain cause of the failure is the true cause of the failure is as follows. z can be calculated.
  • n indicates the number of fault events assumed for the fault cause that matches the actually input fault event.
  • m indicates the larger of the total number of input failure events and the maximum value of the upper limit of the counter.
  • the upper limit value set for each individual counter may be used.
  • Z in the above equation takes a value of 0 to 100% (0 to 1). This confidence z is added to the candidate for the cause of the failure and notified.
  • the event correlation table approach required a relatively large amount of storage for the event correlation table. According to the present embodiment, it is possible to realize a compact logic obtained from the description about the class and the propagation model, and a method for estimating the cause of the fault composed of the configuration information. Proportional. Therefore, this system is advantageous compared to the event correlation table approach, which requires a memory capacity that is proportional to the square of the number of instances.
  • the logic of the counter value is incremented at the timing when the failure event is notified. No calculations occur when no fault has occurred. Also, since only the fault counter related to the fault event that has occurred is incremented, the calculation load at the time of increment can be reduced.
  • the distance calculated based on the counter value of the failure counter is the smallest, and only one failure cause corresponding to the index number is presented to the network administrator.
  • the present invention is not limited to this. For example, for all index numbers, calculate the distance (the sum of the difference between the total number of failure events and the counter value, and the difference between the upper limit value of the counter and the counter value) and find the top N (smaller distance)
  • the failure cause corresponding to the index number (where N is an arbitrary natural number) may be presented to the network administrator in ascending order of distance.
  • FIG. 13 shows a flowchart in this case.
  • the same processes as those in FIG. 12 are denoted by the same reference numerals, and the detailed description thereof will not be repeated.
  • the processing of steps 302, 308, 328, and 330 of FIG. 12 is omitted.
  • the count values are sorted in ascending order and the top N
  • a step 340 of presenting only the individual as a candidate for the cause of the failure is provided.
  • the network administrator can check the candidates for the cause of the failure in order from the most suspicious.
  • Network managers can efficiently identify and eliminate the cause of the failure.
  • the possibility that the true cause of failure is omitted from the candidates is reduced.
  • step 340 the count values are sorted in ascending order, and the cause of failure corresponding to everything below a predetermined threshold is presented to the network administrator as a candidate together with the above-mentioned certainty factor.
  • the processing configuration may be such that the failure cause is estimated each time a failure event is input.
  • Figure 15 shows a flowchart of the entire process in that case.
  • steps for performing the same processing as the processing steps shown in FIG. 8 or FIG. 9 are denoted by the same reference numerals. A detailed description of them will not be repeated here.
  • the failure cause identification processing (150) is performed immediately. I do. Then, when it is determined that the minimum value of the obtained distance is smaller than a predetermined threshold, the cause of the failure corresponding to the counter is estimated as the root cause.
  • the failure event is input to the network administrator as soon as the information necessary for estimating the failure is available.
  • the effect is obtained.
  • the effect of reducing the time lag from the occurrence of a failure to the estimation of the cause is obtained, as compared to the case where the processing for identifying the cause of the failure is started by the timer.
  • the value to be incremented has been described as 1.0.
  • the present invention is not limited to this, and the number may be incremented by an arbitrary number in a range from more than 0 to 1.0 or less. By doing so, the occurrence of a stochastic failure can be expressed by the same logic as in the above-described embodiment.
  • the probability of propagation from fault event S3 to fault event S4 is
  • the network management system can handle stochastic failure propagation.
  • the network management system of the present invention it is possible to specify the cause of a failure with a small amount of memory used and a small amount of calculation. Therefore, it is suitable for effectively identifying the cause of a failure in a large or complex network and resolving it.

Abstract

A network managing system comprising a configuration management information schema definition storage unit for storing therein a configuration management information schema definition describing classes representing apparatuses in a network and failure events observed in the classes, a propagation model storage unit for storing therein propagation models between failure events, a configuration information storage unit for storing therein configuration information about the apparatuses actually installed in the network, and an inferring device for making inference based on the configuration management information schema definition, the propagation models, and the configuration information, including a counter for dealing with the failure events occurring in the apparatuses and a comparator for inferring the causes of the failure events based on the contents of the counter according to a predetermined method.

Description

明 細 書 ネッ トワーク管理システム 技術分野  Description Network management system Technical field
本発明は、 一般的にはネットワーク上の障害を管理するネットワーク管理シス テムに関し、 より特定的には、 ネットワーク上で観測されるさまざまな複数の障 害の症状から障害の根本原因を特定する機能を有するネットワーク管理システム に関する。 背景技術  The present invention generally relates to a network management system for managing faults on a network, and more particularly, to a function of identifying a root cause of a fault from various types of fault symptoms observed on the network. The present invention relates to a network management system having: Background art
コンピュータによる通信ネットワークの大規模化が進んでいる。 通信ネットヮ ークが大規模化するに従って、 ネットワーク上に発生する障害の及ぼす影響も大 規模かつ深刻なものとなりつつある。 そのためネットワーク管理をいかに効率よ く行なう力、 が非常に重要である。 以下、 本明細書上で使用されるネットワーク 管理に関する用語について定義をする。  Communication networks using computers have been increasing in scale. As the communication network becomes larger, the effects of failures occurring on the network are becoming larger and more serious. Therefore, the ability to manage the network efficiently is very important. Hereinafter, terms related to network management used in this specification are defined.
「イベント」 とは、 ネットワークにおいて発生する例外的な状態のことをいう。 ハードウェアやソフトウェアの故障、 停止、 性能のボトルネック、 ネットワーク の構成の不整合、 設計不十分による意図せざる結果、 コンピュータウィルス等の 悪意による被害などを含む。  An “event” is an exceptional condition that occurs in a network. Includes hardware and software failures, outages, performance bottlenecks, inconsistent network configurations, unintended consequences due to poor design, and malicious damage such as computer viruses.
「不具合」 は、 本明細書では 「イベント」 と同じ意味である。  “Defect” has the same meaning as “event” in this specification.
「症状」 とは、 観測可能なイベントのことをいう。 . 「症状」 は 「症状ィベン ト」 と同じである。 たとえば 「ある宛先 Aに対して常に通信に時間がかかり再送 信が必要となる」 、 「ある宛先 Bに対していつも文字化けが生ずる」 、 「ある宛 先 Cに対していつも受信確認が返ってこない」 などの事象をいう。 同じ意味で Γ Symptom J という語も使用する。  “Symptoms” refer to observable events. "Symptom" is the same as "symptom event". For example, "it always takes a long time to communicate with a certain destination A and retransmission is required", "characters are always garbled for a certain destination B", "reception confirmation is always returned for a certain destination C" "Do not come". In the same sense, we use the word y Symptom J.
「問題」 とは、 障害の根本原因のことをいう。 問題は必ずしも観測可能ではな レ、。 たとえば通信装置の送信機破損、 通信ケーブルの断線、 通信回線の容量不足 などが 「問題」 の例である。 同じ意味で 「プロブレム」 (Problem) および 「障害 原因」 という語も使用する。 “Problem” refers to the root cause of a failure. The problem is not always observable. For example, damage to the transmitter of a communication device, disconnection of a communication cable, lack of communication line capacity, etc. are examples of “problems”. In the same sense, "problem" and "disability" The word "cause" is also used.
「問題イベント」 は 「問題」 と同じ意味である。  “Problem event” has the same meaning as “problem”.
「オブジェクト」 とは、 概念や抽象または対象となる問題に対して明確な境界 と意味とを持つ何ものか、 のことをいう。  An “object” is something that has a clear boundary and meaning for a concept, abstraction, or problem of interest.
「オブジェクトクラス」 とは、 同様の性質 (属性) 、 共通の振る舞い (操作) 、 他のオブジェクトとの共通の関係、 および共通の意味を持つオブジェクトのダル ープをいう。  An "object class" is a group of objects that have similar properties (attributes), common behavior (operations), common relationships with other objects, and common meanings.
「クラス」 はオブジェクトクラスと同じ意味である。  "Class" has the same meaning as object class.
「オブジェクトインスタンス」 とは、 あるオブジェクトクラスに属するある特 定の 1つのオブジェクトのことをいう。 「オブジェクトインスタンス」 のことを 単に 「インスタンス」 ともいう。  An “object instance” is a specific object belonging to a certain object class. An “object instance” is simply called an “instance”.
ネットワークのあるリソースにおける 1つの問題イベントは、 関係する複数の リソースの多くの症状イベントを引き起こし得る。 問題の中には、 観測可能なィ ベントであるものもあるが、 一般には必ずしも観測可能ではない。 そのため複数 の症状から障害の根本原因である問題を特定する必要がある。 ネットワーク管理 者は、 根本原因の問題を特定するために、 観測される種々の症状イベントを問題 と相関させることができなければならなレ、。  One problem event on one resource in the network can cause many symptom events on multiple resources involved. Some problems are observable, but generally not always observable. Therefore, it is necessary to identify the problem that is the root cause of the failure from multiple symptoms. Network administrators must be able to correlate the various observed symptom events with the problem in order to identify the root cause problem.
し力 し、 ネッ トワークが大規模になると、 観測される症状イベントの数も膨大 になる。 どの問題がどの症状を引き起こすかという 「因果関係」 とでも言うべき ものも複雑になってくる。 そのために、 ネットワーク管理者が手作業で障害の根 本原因の問題を特定することはほとんど不可能である。  However, as the network grows, so does the number of symptom events observed. What becomes a “causation” of which problems cause which symptoms also becomes more complex. This makes it almost impossible for network administrators to manually identify the root cause of the problem.
このようなネットワーク上で観測される膨大な障害の症状ィベントから根本原 因の問題を正確にかつ高速に特定するための従来技術手法が、 1 9 9 6年 6月 1 8日発行の米国特許第 5 , 5 2 8, 5 1 6号 ( 「Apparatus and Method for Event Correlation and Problem Reporting (イベント相関おょぴ問題報告装置 および方法) 」 ) および 1 9 9 7年 8月 2 6日発行の米国特許第 5, 6 6 1 , 6 6 8号 ( 「Apparataus and Method for Analyzing and Correlating tvents in a System Using a Causality Matrix (システム内のィベン卜を、 C a u s a 1 i t y (因果関係) マッピングを用いて分析し相関付けるための装置および方 法) 」 ) で提案されている。 A prior art method for accurately and quickly identifying the root cause problem from the vast number of failure symptom events observed on such a network is disclosed in a US patent issued June 18, 1996. Nos. 5, 528, 516 ("Apparatus and Method for Event Correlation and Problem Reporting") and the United States published August 26, 1997 Patent No. 5, 661, 668 (“Apparataus and Method for Analyzing and Correlating tvents in a System Using a Causality Matrix” Devices and methods for correlation )))).
上述の従来技術では、 管理対象オブジェク トのモデル化およびイベント伝播の モデル化の静的な側面を抽象化し、 モデル化を効率的に行なうためにォブジェク ト指向の概念を導入している。 これら手法ではまず、 種々の管理対象オブジェク トをクラスとしてモデル化する。 そしてクラス間の関係を定義する。 さらに、 あ るイベントが、 クラス間の関係に沿って伝播するものとしてモデル化される。 ォ ブジェクト指向技術については種々の教科書があるのでそれらを参照されたい。 こうして定められたクラスシステムにもとづいて、 管理対象のネットワークを モデル化する。 すなわち、 ネットワーク内の管理対象オブジェク トをあるクラス の一つのインスタンスとして抽象化する。 次に、 そのインスタンスが属するクラ スと、 他のィンスタンスが属するクラスとの間に設定された関係にしたがってィ ベントがこれらインスタンス (管理対象オブジェクト) を伝播していくものとし てネットワークをモデル化する。 こうしてモデル化されたネットワークに基づき、 問題と、 症状との間の相関を予め特定する。  In the above-described prior art, the static aspects of the modeling of managed objects and the modeling of event propagation are abstracted, and an object-oriented concept is introduced to perform the modeling efficiently. In these methods, various managed objects are first modeled as classes. Then define the relationships between the classes. In addition, certain events are modeled as propagating along the relationships between classes. There are various textbooks on object-oriented technology, so please refer to them. The network to be managed is modeled based on the class system defined in this way. In other words, the managed object in the network is abstracted as one instance of a certain class. Next, the network is modeled as an event that propagates these instances (managed objects) according to the relationship established between the class to which the instance belongs and the class to which other instances belong. . Based on the network modeled in this way, the correlation between the problem and the symptoms is specified in advance.
このために、 症状イベントの伝播ルールが予め準備される。 この伝播ルールは、 障害の根本原因の問題ィベン卜が障害の症状イベントに伝播し、 その症状ィベン トが別の症状ィベントに伝播するという関係をルール化したものである。 この伝 播ルールの集合を伝播モデルと呼ぶ。  For this purpose, a symptom event propagation rule is prepared in advance. This propagation rule rules out the relationship that the problem event of the root cause of the failure propagates to the symptom event of the failure, and the symptom event propagates to another symptom event. This set of propagation rules is called a propagation model.
イベントの中には問題ィベントでかつ症状イベントであるものもあるし、 どち らでもないものもある。 このような伝播モデル (ルール) においては、 各ィベン トが、 管理対象オブジェク トのクラス間に定義されている関係に沿ってインスタ ンス間を伝播するという、 ィベント伝播のモデル化がなされている。  Some events are both problem and symptom events, and some are neither. In such a propagation model (rule), event propagation is modeled such that each event propagates between instances according to the relationship defined between the classes of managed objects.
上述の米国特許第 5, 5 2 8, 5 1 6号は特に、 障害管理機能に関するもので あり、 ネッ トワークの障害時に多数発生する障害の症状を入力とし、 高速にその 根本原因を特定するためのィベント相関表アプローチに関する。  The above-mentioned U.S. Pat. No. 5,528,516 particularly relates to a fault management function, which is used to input the symptoms of a large number of faults that occur when a network fault occurs and to quickly identify the root cause. On the event correlation table approach.
米国特許第 5, 6 6 1 , 6 6 8号は、 上記した米国特許第 5, 5 2 8 , 5 1 6 号において使用されるィベント相関表を生成するための技術に関する。 すなわち、 米国特許第 5, 6 6 1 , 6 6 8号が開示している方法は以下のステップを含む。  U.S. Pat. No. 5,661,668 relates to a technique for generating an event correlation table used in the above-mentioned U.S. Pat. No. 5,528,516. That is, the method disclosed in US Patent No. 5,661,668 includes the following steps.
( 1 ) ネッ トワーク機器を表現するクラスと、 それらクラスで観測される障 害イベントとを記述する。 (1) Classes representing network devices and the faults observed in those classes Describe harm events.
( 2 ) それら障害イベント間の伝播モデルを記述する。  (2) Describe the propagation model between these fault events.
( 3 ) 実際のネットワークの構成情報を記述する。  (3) Describe the actual network configuration information.
( 4 ) 上記の ( 1 ) 〜 (3 ) の情報をもとに、 Causality (因果関係) Mapping と呼ばれる、 障害イベントとその原因と考えられるものとの対応を示す マトリクスを生成する。  (4) Based on the information in (1) to (3) above, a matrix called Causality (causality) Mapping is generated that indicates the correspondence between the failure event and the probable cause.
( 5 ) 上記 Causality Mappingをコンピュータの記録媒体に保存して、 米国 特許第 5, 5 2 8 , 5 1 6号で使用するイベント相関表を生成する。  (5) The above Causality Mapping is stored in a computer recording medium, and an event correlation table used in US Pat. No. 5,528,518 is generated.
このように予めィベント相関表を生成しておけば、 実際に障害が生じたときの 症状パターンとィベント相関表の症状パターンとを比較するという比較的単純な 作業により障害の根本原因の問題を特定することができる。 したがって、 この従 来の技術により障害の根本原因の問題の特定が非常に容易になるかと思われる。 しかしこの従来の技術には以前として次のような解決すべき問題点がある。 上記した従来技術により利用されるイベント相関表は、 Problem数 X Symptom 数に比例するメモリ容量を必要とする。 このため、 この手法ではネットワークが 大きくなると膨大な記憶容量を必要とするため不利となり、 この手法を大規模ネ ットワークに適用するには限界がある。  If the event correlation table is generated in advance in this way, the problem of the root cause of the failure can be identified by a relatively simple task of comparing the symptom pattern of the actual failure with the symptom pattern of the event correlation table. can do. Therefore, it is likely that this conventional technique will greatly facilitate the identification of the root cause of the problem. However, this conventional technique still has the following problems to be solved. The event correlation table used by the above-mentioned conventional technology requires a memory capacity proportional to the number of problems X the number of symptoms. Therefore, this method is disadvantageous because a large network requires an enormous amount of storage capacity, and there is a limit to applying this method to a large-scale network.
この問題に対応するため上記した米国特許は、 得られたィベント相関表を圧縮 することによりリアルタイムで根本原因のための計算が行なえると述べている。 しかしこの手法でも、 イベント相関表をどの程度圧縮できるのか不明である。 実 際のネットワークの構成によっては効果的な圧縮ができない場合があることも予 想される。 圧縮によって、 取得したい情報がイベント相関表から欠落する可能性 もあり、 その場合には当然に推論の精度が低下する。 推論の精度を落とさないよ うにするためには、 圧縮率は一定としておく必要がある。 結局推論に要する時間 はイベント相関表のサイズに比例する。  To address this problem, the above-mentioned US patent states that by compressing the obtained event correlation table, calculations for the root cause can be performed in real time. However, it is unclear how much the event correlation table can be compressed with this method. It is also expected that effective compression may not be possible depending on the actual network configuration. Due to the compression, the information to be obtained may be missing from the event correlation table, in which case the inference accuracy will naturally decrease. To keep the accuracy of the inference, the compression ratio must be kept constant. Eventually, the time required for inference is proportional to the size of the event correlation table.
イベント相関表を用いると、 問題の特定にあたって、 常に Problem 数 X Symptom数に比例する量の計算が行われる。 そのため一定時間内に生じた症状ィ ベントの数がどんなに多くとも、 一定時間で計算を終了することができるという 特徴がある。 しかしこれは裏返すと、 一定時間内に生じた症状イベントの数が少 なくとも、 推論にはある一定の時間を使用しなければならないということをも意 味している。 症状イベントの数が少ないときには、 推論がより速く行えることが 望ましい。 When an event correlation table is used, a quantity that is always proportional to the number of problems x the number of symptoms is calculated when identifying a problem. Therefore, no matter how many symptom events occur within a certain time, the calculation can be completed in a certain time. However, if this is reversed, the number of symptom events that occurred within a certain period of time will be small. At least, it also means that a certain amount of time must be used for inference. When the number of symptom events is small, it is desirable that inferences can be made faster.
また、 こうした問題の特定にあたっては、 障害原因の推論に誤りが生じないよ うにするのはもちろん、 真の障害原因が推論結果から漏れないようにすることが 望ましい。 さらに、 そのために複数個の障害原因の候補をあげたときに、 ネット ワーク管理者が適切にそれら障害原因の重要度を判定できればなお好ましい。 ま た、 ネットワーク管理者が望むときに随時障害原因の推定ができるようにすれば 好ましいが、 ネットワーク管理者が要求しなくとも障害が発生し障害原因が特定 できるのであればその時点で障害原因を提示できるようにすることも好ましい。 それゆえに本願発明の目的は、 少ないメモリの使用量で効果的に問題の特定を 行うことができるネットワーク管理システムを提供することである。  In identifying such a problem, it is desirable not only to make no mistake in the inference of the cause of the failure, but also to prevent the true cause of the failure from leaking from the inference result. Furthermore, it is more preferable that when a plurality of candidates for the cause of the failure are listed, it is preferable that the network administrator can appropriately determine the importance of the cause of the failure. It is also desirable that the network administrator be able to estimate the cause of the failure at any time when desired, but if a failure occurs and the cause of the failure can be identified without requesting it, the cause of the failure can be identified at that time. It is also preferable to be able to present. Therefore, an object of the present invention is to provide a network management system capable of effectively specifying a problem with a small amount of memory usage.
本願発明の他の目的は、 少ないメモリの使用量で、 かつ少ない計算量で問題の 特定を行うことができるネットワーク管理システムを提供することである。  It is another object of the present invention to provide a network management system capable of specifying a problem with a small amount of memory and a small amount of calculation.
本願発明のさらに他の目的は、 少ないメモリの使用量で、 かつ少ない計算量で 問題の特定を行うことができ、 かつ根本問題の特定に洩れが生じないネットヮー ク管理システムを提供することである。 発明の開示  Still another object of the present invention is to provide a network management system that can specify a problem with a small amount of memory and a small amount of calculation, and that does not cause any omission in specifying a root problem. . Disclosure of the invention
この発明は、 ネットワーク管理システムと、 コンピュータをそうしたネットヮ ーク管理システムとして動作させるためのプログラムを記録した機械可読な記録 媒体とに関する。 このネットワーク管理システムは、 ネットワーク上機器を表現 するクラスとそれらクラスで観測される障害ィベントとを記述した構成管理情報 スキ一マ定義を保持するための構成管理情報スキーマ定義記憶装置と、 障害ィベ ント間の伝播モデルを保持するための伝播モデル記憶装置と、 ネットワーク上の 実際の機器の構成情報を保持するための構成情報記憶装置と、 構成管理情報スキ 一マ定義と、 伝播モデルと、 構成情報とに基づいて、 各機器において生ずる各障 害イベントに対応して設けられたカウンタと、 カウンタの内容に基づき所定の方 法によって障害イベントの障害原因を推論するための比較装置とを含む推論装置 とを含む。 カウンタは、 各カウント値を保持するための複数の記憶領域を含む記 憶装置と、 各記憶領域に対して、 伝播モデルに基づいてその上限値を設定するた めの装置と、 入力される障害イベントに応答して、 構成管理情報スキーマ定義と、 伝播モデルと、 構成情報と、 更新のための所定のルールとに基づいて、 入力され る障害イベントに対応した記憶領域の値を更新するための論理回路とを含む。 カウンタによる、 各障害原因に対応する記憶領域の内容の更新をすることで、 推論装置がこの記憶領域の内容に基づいて障害原因の推論を行う。 そのために必 要な記憶領域は、 構成情報に含まれるインスタンスの数に比例するので、 ィベン ト相関表のようにインスタンスの数の二乗に比例する記憶容量を必要とするもの と比較して明らかに有利である。 The present invention relates to a network management system and a machine-readable recording medium storing a program for causing a computer to operate as such a network management system. This network management system includes a configuration management information schema definition storage device for holding a configuration management information schema definition that describes classes representing devices on the network and failure events observed in those classes; A propagation model storage device for storing a propagation model between clients, a configuration information storage device for storing actual configuration information of devices on a network, a configuration management information schema definition, a propagation model, and a configuration Inference including a counter provided for each failure event occurring in each device based on the information and a comparison device for inferring the cause of the failure event by a predetermined method based on the contents of the counter. apparatus And The counter has a storage device including a plurality of storage areas for holding each count value, a device for setting an upper limit value for each storage area based on a propagation model, and an input fault. In response to an event, based on a configuration management information schema definition, a propagation model, configuration information, and a predetermined rule for updating, a value for updating a storage area value corresponding to an input failure event. Logic circuit. By updating the contents of the storage area corresponding to each cause of failure by the counter, the inference apparatus infers the cause of failure based on the contents of the storage area. The storage space required for this is proportional to the number of instances included in the configuration information, so it is clearly compared to those that require a storage capacity proportional to the square of the number of instances, such as an event correlation table. It is advantageous.
好ましくはカウンタは、 機器の接続関係のみからなる、 カウント用の構成情報 を保持するための装置をさらに含み、 論理回路は、 障害イベントが入力されたこ とに応答して、 所定のルールと、 カウント用の構成情報とに参照して、 障害ィべ ントの入力に応答して動作するべきカウンタを判定し動作させる。 論理回路によ り、 カウンタの動作において、 機器の接続情報があればイベントの伝播をたどる ことができ、 処理を高速化できる。  Preferably, the counter further includes a device for holding configuration information for counting, which is composed only of a connection relation between devices, and the logic circuit includes a predetermined rule and a count in response to the input of the failure event. With reference to the configuration information for use, a counter that should operate in response to the input of the failure event is determined and operated. With the logic circuit, in the operation of the counter, if there is device connection information, the propagation of events can be traced, and the processing can be sped up.
好ましくはカウンタは、 ネットワーク管理システムの起動時に複数の記憶領域 を生成し、 それぞれの上限値を設定する。 起動時に記憶領域を生成すれば、 それ 以後のカウンタによる障害イベントに対するカウント処理を速やかに実行するこ とができる。  Preferably, the counter generates a plurality of storage areas when the network management system is started, and sets an upper limit value for each of the storage areas. If a storage area is created at the time of startup, the subsequent counting process for a failure event by the counter can be executed quickly.
好ましくはカウンタは、 障害イベントが入力されたことに応答して、 必要な記 憶領域を確保し、 対応する上限値を設定する。 必要な記憶領域を必要なときに確 保する。 あまり利用されない記憶領域を使用することがなく、 記憶装置を効率良 く利用できる。  Preferably, the counter reserves a necessary storage area and sets a corresponding upper limit value in response to the input of the failure event. Secure the required storage space when needed. The storage device can be used efficiently without using a storage area that is rarely used.
好ましくは推論装置は、 各障害イベントが入力されたことに応答して真の障害 原因の推論を行う。 ネットワーク管理者が推論を要求しなくとも、 障害イベント が発生すれば推論を行う。 ネットワーク管理者の要求に左右されず適切なときに 推論を行うことができる。 また一定の時間ごとに推論を行う場合と比較して障害 の発生から推論までのタイムラグが少なくなる。 好ましくは推論装置は、 所定時間の経過ごとに真の障害原因の推論を行う。 一 定時間ごとに推論を行うので、 ネットワーク管理者の要求がなくとも適切な時期 に確実に推論を行うことができる。 Preferably, the inference device infers the true cause of the failure in response to the input of each failure event. Even if the network administrator does not request inference, inference is performed when a failure event occurs. Inference can be performed at an appropriate time without being influenced by the requirements of the network administrator. In addition, the time lag from failure occurrence to inference is reduced compared to the case where inference is performed at regular intervals. Preferably, the inference device infers the true cause of the failure every predetermined time. Since inferences are made at regular intervals, inferences can be made reliably at appropriate times without the need of a network administrator.
好ましくは推論装置は、 各障害原因に対して、 それぞれに对応するカウント値 に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離の小さい ものから所定個数を障害原因の候補として提示する。 距離の小さいものから所定 個数を候補として提示するので、 障害原因の候補から真の障害原因が漏れるおそ れは小さい。  Preferably, the inference apparatus calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and determines a predetermined number of faults starting from the one having the smallest distance. Present as a cause candidate. Since a predetermined number is presented as candidates starting from the one with the shortest distance, the possibility that the true cause of failure is leaked from the candidates for the cause of failure is small.
好ましくは推論装置は、 各障害原因に対して、 それぞれに対応するカウント値 に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離が所定の しきい値より小さなもののみを障害原因の候補として提示する。 距離があるしき い値より小さなもののみが提示されるので、 障害原因の可能性が高レ、ものをネッ トワーク管理者に提示できる。  Preferably, the inference device calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and the distance is smaller than a predetermined threshold value. Is presented as a candidate for the cause of the failure. Since only the distances that are smaller than the threshold value are presented, the possibility of a failure is high, and the failure can be presented to the network administrator.
好ましくは推論回路は、 障害原因の候補を、 それぞれの距離にしたがってソー トした順番で提示する。 距離にしたがってソートすることで、 障害原因である可 能性の順番にしたがってネットワーク管理者に候補を提示できる。 ネットワーク 管理者はこの順番にしたがって障害原因と思われる箇所を検査することにより、 確実に障害を除去できる。  Preferably, the inference circuit presents the candidates for the cause of the failure in the sorted order according to the respective distances. By sorting according to the distance, candidates can be presented to the network administrator according to the order of possible failures. The network administrator can reliably remove the fault by checking for possible faults in this order.
好ましくは推論装置は、 提示される各障害原因の候補に対して、 それぞれの力 ゥンタのカウント値に応じて計算される確信度を計算し付与して提示する。 確信 度により、 直感的に障害原因の可能性を把握できる。  Preferably, the inference apparatus calculates, gives and presents a certainty factor calculated according to the count value of each power counter to each of the presented fault cause candidates. With confidence, you can intuitively grasp the potential cause of a failure.
好ましくはカウンタは、 論理回路により更新された記憶領域を特定する情報を 記憶するためのカウント済領域記憶装置を含み、 推論装置は、 カウント済記憶装 置に記憶された記憶領域のみを、 推論における計算の対象とする。 更新されなか つた記憶領域については、 推論装置の推論のための計算では計算の対象としない。 計算の必要な記憶領域のみが計算の対象となるので、 計算を高速化できる。  Preferably, the counter includes a counted area storage device for storing information specifying the storage area updated by the logic circuit, and the inference apparatus stores only the storage area stored in the counted storage apparatus in the inference. To be calculated. The storage area that has not been updated is not included in the calculation for inference by the inference device. Since only the storage areas that need to be calculated are to be calculated, the calculation can be sped up.
好ましくは記憶装置は、 各記憶領域が所定の障害イベントに応答して更新され たか否かを示すフラグを格納する領域を含み、 論理回路は、 フラグを維持すると ともに、 フラグの内容により各記憶領域内の値を更新するか否かを決定する。 あ る原因から、 2つ以上の因果関係の経路を経て同一の障害イベントが発生するこ とがある。 その障害ィベントの入力に対して上記した 2つ以上の経路を逆にたど ることにより、 上記したある原因について、 対応する記憶領域の更新が 2回以上 されるおそれがある。 計算結果は正しくならない。 フラグを設けて、 ある障害ィ ベントに対して更新された記憶領域は、 それ以上は更新しないこととする。 こう した対処により上のような因果関係の下でも誤りなく記憶領域の更新を行うこと ができる。 Preferably, the storage device includes an area for storing a flag indicating whether or not each storage area has been updated in response to a predetermined failure event, and the logic circuit maintains the flag and stores each flag according to the content of the flag. Determine whether to update the value in. Ah For some reasons, the same fault event may occur through more than one causal path. By reversing the above two or more paths in response to the input of the failure event, the storage area corresponding to the above-mentioned cause may be updated more than once. The calculation result is not correct. A flag is set, and the storage area updated for a certain failure event is not updated any more. By taking such measures, the storage area can be updated without error even under the above causal relationship.
好ましくは論理回路による更新は、 入力された障害イベントの波及範囲の各記 憶領域内の値を所定の値でィンクリメントする処理であり、 所定の値は 0より大 きく 1以下の値である。 インクリメントの値をこのような値とすることで、 ある 確率をもってイベントが伝播するような確率的な障害伝播モデルにも対処できる。 好ましくはカウンタは、 論理回路がある障害ィベントの入力に応答して更新し た記憶領域を特定する情報を保持するためのキャッシュ装置をさらに含み、 論理 回路は、 ある障害イベントが再度入力されたときには、 キャッシュ装置に記憶さ れた情報に基づいて特定される記憶領域を更新する。  Preferably, the update by the logic circuit is a process of incrementing a value in each storage area of the input fault event transmission range by a predetermined value, and the predetermined value is a value greater than 0 and equal to or less than 1. By setting the increment value to such a value, it is possible to cope with a stochastic fault propagation model in which an event is propagated with a certain probability. Preferably, the counter further includes a cache device for holding information specifying a storage area updated in response to the input of a certain failure event in the logic circuit, and the logic circuit is provided when a certain failure event is input again. The storage area specified based on the information stored in the cache device is updated.
ある障害イベントの入力に応答して更新された記憶領域を特定する情報を保持 しておけば、 再度同じ障害イベントが入力されたときに、 伝播経路をたどること なく直接に目的の記憶領域にアクセスして更新することができる。 そのため処理 を高速化できる。  By retaining the information that identifies the storage area updated in response to a failure event input, when the same failure event is input again, the target storage area can be accessed directly without following the propagation path. And can be updated. Therefore, the processing can be sped up.
好ましくはキヤッシュ装置は、 記憶領域を特定する情報が最後に参照された時 刻を示す情報を保持し、 カウンタは、 ある一定時間以上参照されていない情報を キャッシュ装置から削除するための装置をさらに含む。 一定時間以上参照されな い情報をキャッシュ装置から消去することにより記憶領域を有効に利用できる。 好ましくはカウンタは、 入力される障害イベントを蓄積し、 障害イベント間の 相互相関を検出して、 伝播モデルに記述されていない新たな障害伝播の伝播モデ ルを論理回路にフィードバックするための伝播ルール検出装置をさらに含み、 論 理回路は、 伝播ルール検出装置からのフィードバックを受けて、 所定のルールを 再構築する。 推論のためのルールを実際の障害イベントの発生の履歴によって動 的に変更できるので、 障害原因の推論がより確実になる。 図面の簡単な説明 Preferably, the cache device holds information indicating the time when the information specifying the storage area was last referenced, and the counter further includes a device for deleting, from the cache device, information that has not been referenced for a certain period of time. Including. The storage area can be used effectively by erasing from the cache device information that is not referenced for a certain period of time. Preferably, the counter is a propagation rule for accumulating the input fault events, detecting a cross-correlation between the fault events, and feeding back a new fault propagation model not described in the propagation model to the logic circuit. The logic circuit further includes a detection device, and receives the feedback from the propagation rule detection device, and reconstructs a predetermined rule. Since the rules for inference can be changed dynamically based on the history of actual failure events, inference of the cause of the failure becomes more reliable. BRIEF DESCRIPTION OF THE FIGURES
図 1は、 本願発明の一実施例に係るネットワーク管理システムのブロック図で ある。  FIG. 1 is a block diagram of a network management system according to one embodiment of the present invention.
図 2は、 図 1に示す障害管理部 3 4のブロック図である。  FIG. 2 is a block diagram of the fault management unit 34 shown in FIG.
図 3は、 図 2に示される障害カウンタ 5 4のブロック図である。  FIG. 3 is a block diagram of the fault counter 54 shown in FIG.
図 4は、 図 3に示されるカウンタ値格納領域 7 0の構成を模式的に示す図であ る。  FIG. 4 is a diagram schematically showing a configuration of the counter value storage area 70 shown in FIG.
図 5は、 原因と症状との因果関係のループという概念を説明するための図であ る。  FIG. 5 is a diagram for explaining the concept of a causal loop between a cause and a symptom.
図 6は、 本願発明に係るネットワーク管理システムを実現するためのコンビュ ータの外観図である。  FIG. 6 is an external view of a computer for realizing the network management system according to the present invention.
図 7は、 本願発明に係るネットワーク管理システムを実現するためのコンビュ 一タのブ口ック図である。  FIG. 7 is a block diagram of a computer for realizing the network management system according to the present invention.
図 8は、 本願発明の一実施例における障害イベントのインクリメント処理を示 すフローチャートである。  FIG. 8 is a flowchart showing a failure event increment process in one embodiment of the present invention.
図 9は、 本願発明の一実施例においてタイマにより起動される障害原因特定の ための処理のフローチヤ一トである。  FIG. 9 is a flowchart of a process for identifying a cause of a failure started by a timer in one embodiment of the present invention.
図 1 0は、 本願発明の一実施例においてタイマにより起動されるキャッシュの クリア処理のフローチャートである。  FIG. 10 is a flowchart of the cache clearing process started by the timer in one embodiment of the present invention.
図 1 1は、 障害カウンタ生成部 5 6の処理内容を示すフローチャートである。 図 1 2は、 障害原因特定処理のフローチャートである。  FIG. 11 is a flowchart showing the processing contents of the failure counter generation unit 56. FIG. 12 is a flowchart of the failure cause identification processing.
図 1 3は、 障害原因特定処理の他の例を示すフローチャートである。  FIG. 13 is a flowchart illustrating another example of the failure cause identification processing.
図 1 4は、 障害原因特定処理のさらに他の例を示すフローチャートである。 図 1 5は、 本願発明の他の実施例における障害カウンタのインクリメントおよ び障害原因特定処理のフローチヤ一トである。 発明を実施するための最良の形態  FIG. 14 is a flowchart illustrating still another example of the failure cause identification processing. FIG. 15 is a flowchart of the process of incrementing the fault counter and specifying the cause of the fault in another embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
従来技術の問題点が生ずるのは、 すべての Problemと Symptomとの間の関連を 表すイベント相関表を利用する点にある。 本願発明は、 この従来技術の問題点を 解決するために、 予めイベント相関表を準備することなく、 症状イベントが発生 するたびに、 伝播モデルと、 管理対象オブジェクトモデルと、 実際のネットヮー クの構成情報とに基づいて、 その症状イベントと関連ある障害に対して設けられ たカウンタ ( 「障害カウンタ」 とよぶ) をインクリメントする。 伝播モデルの数 は有限であり、 症状イベントの種類も有限であるから、 すべての症状イベントが 発生したと考えたときに、 各障害カウンタではある決まった数までカウントアツ プされるはずである。 本発明ではその数を各障害カウンタのカウント数の上限と して予め求め、 それと実際の症状ィベントの発生数および各障害カウンタのカウ ント数とを比較して、 症状イベントの発生パターンに対応する障害原因を特定す る。 The problem with the prior art arises because the association between all problems and Symptoms The point is to use the event correlation table. In order to solve the problems of the conventional technology, the present invention provides a configuration of a propagation model, a managed object model, and an actual network each time a symptom event occurs without preparing an event correlation table in advance. Based on the information, the counter provided for the fault associated with the symptom event (referred to as “fault counter”) is incremented. Since the number of propagation models is finite and the types of symptom events are finite, each fault counter should count up to a certain number when all symptom events are considered to have occurred. In the present invention, the number is obtained in advance as the upper limit of the count number of each fault counter, and the obtained number is compared with the actual number of occurrences of symptom events and the count number of each fault counter to correspond to the occurrence pattern of the symptom event. Identify the cause of the failure.
図 1を参照して、 本願発明に係るネットワーク管理システム 2 0は、 ネットヮ 一クの構成情報を定義するためのデータベーススキーマを保持する構成管理情報 スキーマ定義 4 0と、 このスキーマを用いて記述されたネットワークの構成情報 を保持する構成情報部 3 8と、 伝播モデル 4 2と、 構成管理情報スキーマ定義 4 0および構成情報部 3 8からの情報を受け、 これらモデルとネットワークの構成 情報とに基づきネットワークの構成情報を管理するための構成管理部 3 0と、 構 成情報データおよび障害情報データをィベントとして保持するためのィベントデ —タベース 4 4と、 ネッ トワークの障害イベントを収集し、 それから障害原因を 推定するための障害管理部 3 4と、 障害管理部 3 4から障害の根本原因の問題の 推論結果を示す情報を受け、 ネットワーク管理者に提示するためのユーザインタ フェース部 3 6とを含む。 構成管理情報スキーマ定義 4 0、 構成情報部 3 8、 伝 播モデル 4 2はメモリなどの記憶装置に格納される。 これらが記憶される記憶装 置は、 同一のものでもよいし、 別個のものでもよい。  Referring to FIG. 1, a network management system 20 according to the present invention is described using a configuration management information schema definition 40 that holds a database schema for defining network configuration information, and this schema. Information received from the configuration information section 38 that holds the configuration information of the network, the propagation model 42, the configuration management information schema definition 40, and the configuration information section 38, and based on these models and the network configuration information. A configuration management unit 30 for managing network configuration information, an event database 44 for storing configuration information data and failure information data as events, and network failure events are collected, and then the cause of the failure is collected. The fault management unit 34 for estimating the fault and information indicating the inference result of the root cause problem of the fault is received from the fault management unit 34. And a user interface unit 36 for presenting to a network administrator. The configuration management information schema definition 40, the configuration information section 38, and the propagation model 42 are stored in a storage device such as a memory. The storage device in which these are stored may be the same or separate.
図 2を参照して障害管理部 3 4は、 ネットワークからの障害イベントをィベン トデータベース 4 4に蓄積するためのィベントデータベース部 6 2と、 障害の伝 播の規則 (伝播モデル 4 2 ) を管理、 参照するための伝播モデル部 5 8と、 構成 情報、 そのスキーマ定義情報、 伝播モデル 4 2から、 後述する障害カウンタを生 成する障害カウンタ生成部 5 6と、 障害カウンタ生成部 5 6により生成された、 各障害原因に対応したカウンタを備え、 ィベントデータベース部 6 2から障害ィ ベントが入力されるたびに障害原因に対応するカウンタをィンクリメントするた めの障害カウンタ 5 4と、 障害カウンタ 5 4のカウンタ値に対して所定の比較処 理をすることにより障害原因を特定してユーザィンタフユース部 3 6に与えるた めのカウント比較器 5 2と、 カウント比較器 5 2を定期的に起動するためのタイ マ 5 0と、 入力された障害イベントの履歴から障害イベント間の相互相関を計算 し、 たとえば記述漏れのあった障害伝播のルールを検出し伝播モデル部 5 8を介 して障害カウンタ生成部 5 6にフィードバックするための伝播ルール検出部 6 0 とを含む。 Referring to FIG. 2, the fault management section 34 manages an event database section 62 for storing fault events from the network in the event database 44 and rules for fault propagation (propagation model 4 2). The fault counter generator 56 generates a fault counter to be described later, and the fault counter generator 56 generates the fault model from the propagation model unit 58 for reference, configuration information, its schema definition information, and the propagation model 42. Done, A counter corresponding to each fault cause is provided. Each time a fault event is input from the event database section 62, a fault counter 54 for incrementing the counter corresponding to the fault cause, and a counter value of the fault counter 54 are provided. In order to periodically activate the count comparator 52 and the count comparator 52 for identifying the cause of the failure by performing a predetermined comparison process on the Calculates the cross-correlation between the fault event and the fault event from the input fault event history, and detects fault propagation rules with missing descriptions, and generates fault counters via the propagation model unit 58 And a propagation rule detection unit 60 for feeding back to the unit 56.
図 3を参照して、 障害カウンタ 5 4は、 構成情報から機器のタイプ、 機器を識 別するために必要な情報、 および機器間の接続情報のみからなる、 カウンタ用構 成情報 7 8と、 伝播モデル 4 2および構成情報部 3 8から生成した各機器の障害 に対応するカウンタのアレイからなるカウンタ値格納領域 7 0と、 カウンタ値格 納領域 7 0内の、 各障害に対応するカウンタをインクリメントするためのカウン タ値インクリメントロジック 7 4と、 カウンタ値インクリメントロジック 7 4が 参照する、 伝播モデル 4 2から生成された、 機器のタイプと接続関係、 および力 ゥンタに入力される障害イベントに対してどの機器クラスの障害原因のカウンタ をインクリメントするかを記述した、 カウンタインクリメントのルール 8 0と、 インクリメントした障害カウンタのインデックスを記録する領域であるインクリ メント済カウンタインデックス格納領域 7 6と、 特定の機器の障害イベントにあ るルールを適用したとき、 結果としてどの障害カウンタをインクリメントしたか の記録を保持するためのキャッシュ情報 7 2とを含む。  Referring to FIG. 3, the fault counter 54 includes counter configuration information 78, which consists only of information required to identify the device type and device from the configuration information, and connection information between devices. The counter value storage area 70 composed of an array of counters corresponding to the failures of each device generated from the propagation model 42 and the configuration information section 38, and the counters corresponding to each failure in the counter value storage area 70 Counter type increment logic 74 for incrementing, and reference to the counter increment logic 74, generated from the propagation model 42, for the equipment type and connection relationship, and for the fault event input to the force counter. The counter increment rule 80, which describes which device class causes the fault counter to be incremented, and the incremented fault An incremented counter index storage area 76, which is the area where the harm counter index is recorded, and a record of which fault counter has been incremented as a result of applying the rule for the fault event of a specific device For cache information 72.
図 4を参照して、 カウンタ値格納領域 7 0は、 各障害原因 (問題 P 0、 P l、 P 2、 · · ·) ごとに、 インデックス 9 0 (この実施例では連番) と、 当該カウンタに ついて、 そのカウンタに対応する障害原因が伝播モデル上でひき起こすと考えら れる障害ィベン卜の個数が予め設定された上限値 9 2と、 カウントの値を保持す る領域であるカウント値 9 4と、 ある障害原因から二つ以上の因果関係の経路を とって同一の症状が発生するときに、 この症状 (障害イベント) の入力に対して 重複してインクリメントすることを防止するために使用される更新フラグ 9 6と を含む。 これら領域はいずれもカウンタ値インクリメントロジック 74により維 持される。 Referring to FIG. 4, the counter value storage area 70 includes an index 90 (serial number in this embodiment) and an index 90 for each failure cause (problem P0, P1, P2,...). For the counter, the upper limit value 9 2 is set in advance to the number of fault events that are considered to cause the fault cause corresponding to the counter on the propagation model, and the count value is an area that holds the count value. In order to prevent the same symptom (failure event) from being incremented repeatedly when the same symptom occurs by taking two or more causal paths from a certain cause of failure. Update flags 9 6 and used including. All of these areas are maintained by the counter value increment logic 74.
ある障害原因から二つの因果関係の経路をとつて同一の症状が発生する場合の Causality Mapping について図 5に示す。 今、 以下のような障害の因果関係が存 在するものとする。  Fig. 5 shows Causality Mapping when the same symptom occurs in two causal paths from a certain cause of failure. Now, it is assumed that the following causal relationships exist for the obstacles.
(1) 問題 P0力 症状 S0〜S4を図 5に示すような障害の因果関係の下で引 起こす。  (1) Problem P0 strength Symptoms S0 to S4 are caused under the causal relationship of the disorder as shown in FIG.
(2) 問題 P1力 症状 S1〜S 4を図 5に示すような障害の因果関係の下で引 起こす。  (2) Problem P1 strength Symptoms S1 to S4 are caused under the causal relationship of the disorder as shown in FIG.
(3) 問題 P2力 症状 S4を引起こす。  (3) Problem P2 force Symptom Causes S4.
この場合、 症状 SOから症状 S5に伝播する障害が症状 S4を引起こすため、 問題 P2により引起こされる症状 S4と合わせて上記した Causality Mappingに おいてループが形成されている。 すなわち、 症状 S4が入力されると、 構成情報 を参照することによりまず直ちに問題 P2のカウンタがインクリメントされる。 さらに、 症状 S4、 S3、 S2、 SIという経路を経て問題 PIのカウンタがインク リメントされる。 問題 P0については、 症状 S4、 S3、 S2、 Sl、 SOとレヽぅ経 路を経てインクリメントされる力、 症状 S4、 S5、 SOという経路を経てインク リメントされるかは不定である。 しかし、 入力される症状 S4に対して問題 P0 のカウンタが二重にインクリメントされてはならない。 そのため、 本実施例では、 問題 P0に、 症状 S4の入力に対してインクリメント済かどうかを示すフラグを 設け、 それがセットされている場合にはカウンタをインクリメントしないように する。  In this case, since the disorder transmitted from the symptom SO to the symptom S5 causes the symptom S4, a loop is formed in the above Causality Mapping together with the symptom S4 caused by the problem P2. That is, when the symptom S4 is input, the counter of the problem P2 is first incremented immediately by referring to the configuration information. In addition, the counter of the problem PI is incremented via the path of the symptoms S4, S3, S2, SI. For problem P0, it is uncertain whether the force is incremented via the symptom S4, S3, S2, Sl, SO and the relay path, and whether it is incremented via the symptom S4, S5, SO. However, for the input symptom S4, the counter of problem P0 must not be incremented twice. Therefore, in the present embodiment, a flag indicating whether or not the input of the symptom S4 has been incremented is provided for the problem P0, and if it is set, the counter is not incremented.
図 1に示されるネットワーク管理システムは、 実際にはパーソナルコンビユー タまたはワークステーションなど、 コンピュータ上で実行されるソフトウエアに より実現される。 図 6に、 ネットワーク管理システムを実現するコンピュータの 外観を示す。 図 6を参照してこのコンピュータは、 CD— ROM (Compact Disc Read-Only Memory ) ドライブ 1 1 0および FD (Flexible Disk ) ドライブ 1 1 2を備えたコンピュータ本体 100と、 ディスプレイ 1 02と、 プリンタ 1 0 4と、 キーボード 1 06と、 マウス 108とを含む。 図 7に、 このコンピュータの構成をブロック図形式で示す。 図 7に示されるよ うにこのネットワーク管理システム 20を構成するコンピュータ本体 1 00は、 CD— ROMドライブ 1 1 0および FDドライブ 1 1 2に加えて、 それぞれバス 1 2 6に接続された C PU (Central Processing Unit ) 1 1 6 と、 ROM (Read Only Memory) 1 1 8と、 RAM (Random Access Memory) 1 20と、 ハ ードディスク 1 14とを含んでいる。 CD— ROMドライブ 1 10には CD— R OM1 22が装着される。 FDドライブ 1 1 2には FD 1 24が装着される。 既に述べたようにこのネットワーク管理システムは、 コンピュータハードゥエ ァと、 CPU 1 1 6により実行されるソフトウエアとにより実現される。 一般的 にこうしたソフトウェアは、 CD_R〇M1 22、 F D 1 24などの記憶媒体に 格納されて流通し、 CD— ROMドライブ 1 1 0または FDドライブ 1 1 2など により記憶媒体から読取られてハードディスク 1 14に一旦格納される。 さらに ハードディスク 1 14から RAMI 20に読出されて CPU 1 1 6により実行さ れる。 The network management system shown in FIG. 1 is actually realized by software running on a computer such as a personal computer or a workstation. Figure 6 shows the appearance of the computer that implements the network management system. Referring to FIG. 6, this computer has a computer 100 equipped with a CD-ROM (Compact Disc Read-Only Memory) drive 110 and a FD (Flexible Disk) drive 112, a display 102, and a printer 1 04, a keyboard 106, and a mouse 108. Figure 7 shows the configuration of this computer in block diagram form. As shown in FIG. 7, the computer main unit 100 constituting the network management system 20 includes a CD-ROM drive 110 and an FD drive 112, and a CPU (CPU) connected to a bus 126, respectively. Central Processing Unit) 116, ROM (Read Only Memory) 118, RAM (Random Access Memory) 120, and hard disk 114. The CD-ROM drive 22 is attached to the CD-ROM drive 110. FD 1 24 is attached to FD drive 1 1 2. As described above, this network management system is realized by a computer hard disk and software executed by the CPU 116. Generally, such software is stored in a storage medium such as CD_R〇M122 or FD124 and distributed, and is read from the storage medium by a CD-ROM drive 110 or FD drive 112 and read from a hard disk 114. Is stored once. Further, the data is read from the hard disk 114 to the RAMI 20 and executed by the CPU 116.
図 6および図 7に示したコンピュータのハードウエア自体は一般的なものであ る。 したがって、 本発明の最も本質的な部分は CD— ROM1 22、 FD 1 24、 ハードディスク 1 14などの記憶媒体に記憶されたソフトウェアである。 なお図 6および図 7に示したコンピュータ自体の動作は周知であ当業者には明らかであ ろう。  The computer hardware itself shown in FIGS. 6 and 7 is general. Therefore, the most essential part of the present invention is the software stored in the storage medium such as the CD-ROM 122, the FD 124 and the hard disk 114. The operation of the computer itself shown in FIGS. 6 and 7 is well known and will be apparent to those skilled in the art.
このネットワーク管理システム 20を構成するソフトウエアについて以下にそ の構造を説明する。 ソフトウエアは、 本実施例では、 装置の起動時以後障害ィべ ントを受けて障害カウンタのインクリメントを行う部分 (図 8) と、 タイマ 50 により定期的に起動されて、 障害原因を特定する処理を行う部分 (図 9) と、 タ イマにより起動されてキャッシュ情報 72をクリアする部分 (図 1 0) とを含む。 図 8を参照して、 障害カウンタのインクリメントを行う部分のソフトウェアの 構造について説明する。 この装置は、 起動されるとまず、 カウンタ値格納領域 7 0を確保してその上限値を設定するとともに、 カウンタ値インクリメントロジッ ク 74を生成する (140) 。 そして障害イベントの入力待ちとなり (142) 、 障害イベントが入力されると障害カウンタをインクリメントする処理 (144) を実行し、 実行後再度障害イベントの入力待ち (1 4 2 ) となる。 これら処理の 詳細については後述する。 The structure of the software constituting the network management system 20 will be described below. In this embodiment, the software is configured to receive a fault event after the device is started and increment the fault counter (FIG. 8), and to be started periodically by the timer 50 to identify the cause of the fault. (FIG. 9), and a part that is activated by the timer to clear the cache information 72 (FIG. 10). With reference to FIG. 8, the software structure of the part that increments the failure counter will be described. When this device is started, it first secures a counter value storage area 70, sets its upper limit, and generates a counter value increment logic 74 (140). Then, the system waits for a failure event to be input (142), and when a failure event is input, increments the failure counter (144). Is executed, and after execution, the system waits for the input of a failure event again (1 4 2). Details of these processes will be described later.
図 9を参照して、 障害原因特定処理 1 5 0はタイマ 5 0により定期的に起動さ れる。 この処理の結果最小値を持つ障害カウンタに対応する問題を障害の根本原 因としてユーザインタフェース部 3 6がネットワーク管理者に提示する。 この処 理は、 図 2のカウント比較器 5 2が行う処理に対応する。  Referring to FIG. 9, failure cause identification processing 150 is started periodically by timer 50. As a result of this processing, the user interface unit 36 presents the problem corresponding to the failure counter having the minimum value to the network administrator as the root cause of the failure. This processing corresponds to the processing performed by the count comparator 52 in FIG.
図 1 0を参照して、 タイマ 5 0により定期的にキャッシュ情報 7 2がクリアさ れる。 キャッシュ情報 7 2には、 最後にそのキャッシュを参照した日付が属性と して保持されており、 タイマ 5 0が定期的にこの日付をチェックして、 長時間参 照されていないキャッシュ情報は破棄する。 これにより、 キャッシュ情報 7 2の 記憶容量が節約でき、 またネットワークの構成の変化に対しても対応できる。 図 8〜図 1 0に示す例では、 障害原因を特定する処理およびキャッシュ情報 7 2をクリアする処理が障害カウンタをインクリメントする処理とは独立にタイマ により起動されるようになっている。 しかし本発明はこれには限定されず、 たと えばネットワーク管理者による要求に応じてこれら処理を実行したり、 障害カウ ンタをインクリメントする処理内である条件が満足されたことに応答してこれら 処理を起動したりするようにしてもよい。 それらの実現方法は設計により異なる ものであるが、 必要条件にしたがつておのずと定まり、 当業者には明らかであろ う。  Referring to FIG. 10, timer 50 clears cache information 72 periodically. The cache information 72 holds the date when the cache was last referenced as an attribute, and the timer 50 periodically checks this date and discards cache information that has not been referenced for a long time. I do. As a result, the storage capacity of the cache information 72 can be saved, and it is possible to cope with changes in the network configuration. In the examples shown in FIGS. 8 to 10, the process for specifying the cause of the failure and the process for clearing the cache information 72 are started by the timer independently of the process for incrementing the failure counter. However, the present invention is not limited to this. For example, these processes are executed in response to a request from a network administrator, or these processes are executed in response to satisfaction of a condition in the process of incrementing the failure counter. May be started. Their implementation depends on the design, but will depend on the requirements and will be apparent to those skilled in the art.
図 1 1を参照して、 障害カウンタを生成する処理 1 4 0について説明する。 こ の処理は図 2の障害カウンタ生成部 5 6の処理に相当する。 まず、 各クラス中の 障害原因に、 各クラス中で一意なインデックスを与える (1 8 0 ) 。 たとえば後 述の例に述べる ApplicationDown, TcpDisconnect, RoutingError など力、これに 対応する。  The process 140 for generating a fault counter will be described with reference to FIG. This processing corresponds to the processing of the failure counter generation unit 56 in FIG. First, an index unique to each class is assigned to the cause of failure in each class (180). For example, ApplicationDown, TcpDisconnect, RoutingError, etc. described in the examples below correspond to this.
次に、 全構成管理情報を検索して、 各管理対象にインデックスを与える (1 8 2 ) 。 後述する例では管理対象 m o, m o 2が対応する。  Next, all configuration management information is searched, and an index is given to each management target (18 2). In the example described later, the management targets m o and m o 2 correspond.
さらに、 各管理対象のインデックスと、 障害原因のインデックスとをペアとし てカウンタ値の格納領域を生成する (1 8 4 ) 。 つまり、 図 4に示すカウンタ値 格納領域 7 0内のある障害カウンタは、 管理対象のインデックスと、 障害原因の インデックスとにより特定されアクセスされる。 図 4に示す障害原因である問題 P 0 , P 1などに対応する障害カウンタは、 実際には管理対象別に管理されてお り、 同じ障害であっても管理対象が異なっていれば別々の障害カウンタが割り当 てられる。 Further, a counter value storage area is generated by pairing the index of each managed object with the index of the cause of the failure (184). In other words, a failure counter in the counter value storage area 70 shown in FIG. 4 stores the managed index and the failure cause. It is specified and accessed by the index. The fault counters corresponding to the problems P 0, P 1, etc., which are the causes of the faults shown in Fig. 4, are actually managed for each managed object. Counters are assigned.
各障害原因の力ゥンタ値の格納領域の各々について、 障害の波及範囲を予測し て、 その上限値を設定する (1 8 6 ) 。  For each storage area of the counter value of the cause of the failure, the range of the failure is predicted, and the upper limit is set (186).
以下、 図 3に示すカウンタ値インクリメントロジック 7 4の生成を行う。 カウ ンタ値インクリメントロジック 7 4の生成もソフトウエアにより行われる。 この 処理に先立ち、 次に示すようなロジックのテンプレートが予め準備されているも のとする。  Hereinafter, the counter value increment logic 74 shown in FIG. 3 is generated. The generation of the counter value increment logic 74 is also performed by software. Prior to this processing, it is assumed that the following logic template is prepared in advance.
(a) カウンタロジックメイン (a) Counter logic main
必要な変数定義など. . .  Required variable definitions ...
while ( true ) {  while (true) {
switch ( classOf (mol) ) {  switch (classOf (mol)) {
//Classに関する case節マクロの追加位置  // Addition of case clause macro for Class
(b) Classに関する case節マクロ (b) Case clause macro related to Class
Classに関する case節マクロ(ClassName) = {  Case clause macro for Class (ClassName) = {
case ClassName :  case ClassName:
switch (syraptoral) {  switch (syraptoral) {
II Symptom名に関する case節マクロの追加位置  II Addition of case clause macro for Symptom name
break;  break;
(c) Symptom名に関する case節マクロ (c) Case clause macro for Symptom name
Symptom名に する case ¾ロマク口 ( ClassName, SymptomName,  Symptom name case ¾romak mouth (ClassName, SymptomName,
Relation, rClassName, ProblemName ) = { Relation, rClassName, ProblemName) = {
case SymtpmName:  case SymtpmName:
if ( existCacheCmol, symptoml) ) {  if (existCacheCmol, symptoml)) {
executeCache(mol, symptoml);  executeCache (mol, symptoml);
if( mo != mol ) {  if (mo! = mol) {
appendCache (mo, symptom, mol, symptoml); return;  appendCache (mo, symptom, mol, symptoml); return;
}  }
mo 2 = search (mol, Relation, rClassName); if ( mo2 NOT—FOUND ) return;  mo 2 = search (mol, Relation, rClassName); if (mo2 NOT—FOUND) return;
if ( existCounter (mo2, ProblemName) ) {  if (existCounter (mo2, ProblemName)) {
counter [mo2] [ProblemName]. val ++;  counter [mo2] [ProblemName]. val ++;
incrementDone (mo2, ProblemName);  incrementDone (mo2, ProblemName);
addCache (mo, symptom, o2, ProblemName); symptom = TcpDisconnect; mo = mo2;  addCache (mo, symptom, o2, ProblemName); symptom = TcpDisconnect; mo = mo2;
break; これらマクロのテンプレートと、 伝播モデル 42と、 構成管理情報スキーマ定 義 40と、 構成情報部 38とから、 次のようにしてカウンタ値インクリメント口 ジック 74を生成する。  break; From the macro template, the propagation model 42, the configuration management information schema definition 40, and the configuration information section 38, the counter value increment opening logic 74 is generated as follows.
まず処理対象として最初のクラスを選ぶ (1 88) 。 次に、 すべてのクラスを 処理したか否かを判定する (1 90) 。 すべてのクラスが終了していたらこのル —チンは終了である。 終了していないクラスがあれば制御はステップ 200に進 む。  First, the first class is selected for processing (188). Next, it is determined whether or not all classes have been processed (190). If all classes are finished, this routine is finished. If any classes have not been completed, control proceeds to step 200.
ステップ 200では、 (a) のカウンタロジックのテンプレート中の 「C 1 a s sに関する c a s e節マクロの追加位置」 として示された位置に (b) を展開 する。 このとき、 (b) 中の 「ClassName」 を、 処理対象のクラス名 (たとえば 「Application」 ) に置換する。 以後のこの処理での追加位置は、 展開された部 分の後に移動する。 In step 200, (b) is expanded to the position indicated as “addition position of case clause macro for C 1 ass” in the counter logic template of (a). At this time, “ClassName” in (b) is replaced with the class name to be processed (for example, "Application"). Subsequent positions in this processing move after the expanded part.
さらに、 ステップ 2 0 0で展開された (b ) 中の、 「S y m p t o m名に関す る c a s e節マクロの追加位置」 として示された位置に、 (c ) を、 当該クラス に対して定義された障害イベントのすべてについて順に展開する (2 0 2 ) 。 た だしこのとき、 (c ) のマクロ中の 「ClassName」 は処理対象のクラス名に、 rSymptomNameJ はそのクラスで定義された各障害イベント名に、 「RelationJ はそのクラスについて伝播モデル中で定義された関係名に、 「rClassNameJ は、 「Relation」 でこのクラスと関係付けられたクラス名に、 「ProblemName」 はそ のクラスに対してステップ 1 8 0で与えられた障害原因に、 それぞれ置換する。 こうして、 ステップ 2 0 2において、 当該クラスで定義された障害イベントのす ベてについて (c ) のマクロを展開する。  Furthermore, (c) was defined for the class at the position indicated as “Addition of case clause macro for Symptom name” in (b) expanded in step 200. Expand all failure events in order (202). However, at this time, “ClassName” in the macro of (c) is the name of the class to be processed, rSymptomNameJ is the name of each fault event defined in the class, and “RelationJ is the definition of the class in the propagation model. Replace "rClassNameJ" with the name of the class associated with this class in "Relation", and replace "ProblemName" with the cause of failure given in step 180 for that class. Thus, in step 202, the macro of (c) is expanded for all the fault events defined in the class.
次に、 次のクラスに進む (2 0 4 ) 。 ステップ 1 9 0ですベてのクラスに対す る処理が終了したと判定されたときには、 クラス定義で定義されたすベてのクラ スについて、 (b ) と (c ) とが展開されたカウンタ値インクリメントロジック 7 4が得られている。 その例を以下に示す。  Next, proceed to the next class (204). If it is determined in step 190 that the processing for all classes has been completed, the counter values obtained by expanding (b) and (c) for all classes defined in the class definition Increment logic 74 is obtained. An example is shown below.
(d) カウンタ値ロジックの例:  (d) Example of counter value logic:
mol = mo ;  mol = mo;
symptoml = symptom;  symptoml = symptom;
while ( true ) {  while (true) {
switch (classOf (mol) ) {  switch (classOf (mol)) {
case Application :  case Application:
switch (symptoml) {  switch (symptoml) {
case Appl i cat i onDown:  case Appl i cat i onDown:
if ( ExistCache (mol symptoml) ) {  if (ExistCache (mol symptoml)) {
executeCache (mol, symptoml) ; if ( mo ! = mol ) {  executeCache (mol, symptoml); if (mo! = mol) {
appendCache (mo, symptom, mol, symptoml); return; mo2 = search (mol, Underly, TcpNode); appendCache (mo, symptom, mol, symptoml); return; mo2 = search (mol, Underly, TcpNode);
if ( mo2 == NOT— FOUND ) return;  if (mo2 == NOT— FOUND) return;
if ( existCounter (mo2, TcpDisconnect) ) {  if (existCounter (mo2, TcpDisconnect)) {
counter [mo2] [TcpDisconnect]. val ++; incrementDone ( o2, TcpDisconnect); addCache (mo, symptom, mo2,  counter [mo2] [TcpDisconnect]. val ++; incrementDone (o2, TcpDisconnect); addCache (mo, symptom, mo2,
TcpDisconnect) symptoml = TcpDisconnect; mol = mo2;  TcpDisconnect) symptoml = TcpDisconnect; mol = mo2;
break; break;  break; break;
case TcpNode:  case TcpNode:
switch (symptoml) {  switch (symptoml) {
case TcpDisconnect:  case TcpDisconnect:
if ( existCache (mol, symptoml) ) {  if (existCache (mol, symptoml)) {
executeCache (mol, symptoml);  executeCache (mol, symptoml);
if( mo != mol ) {  if (mo! = mol) {
appendCache (mo, symptom, mol, symptoml) return;  appendCache (mo, symptom, mol, symptoml) return;
}  }
mo2 search (mol, ConnectedTo, Router)  mo2 search (mol, ConnectedTo, Router)
if ( mo2 == NOT— FOUND ) return;  if (mo2 == NOT— FOUND) return;
if ( existCounter (mo2, RoutingError) ) counter [mo2] [RoutingError} - val ++; if (existCounter (mo2, RoutingError)) counter [mo2] [RoutingError}-val ++;
incrementDone (mo2, RoutingError); addCache (mo, symptom, mo2, routingError) symptoml = TcpDisconnect; mol = mo2 ;  incrementDone (mo2, RoutingError); addCache (mo, symptom, mo2, routingError) symptoml = TcpDisconnect; mol = mo2;
break ;  break;
ここで、 各関数と変数とは次のような機能および意味を持つ。 Here, each function and variable have the following functions and meanings.
(e) 関数と変数との機能および意味  (e) Functions and meanings of functions and variables
(クラス定義)  (Class definition)
クラス Application のインスタンスは、 クラス TcpNode のインスタンスに Under lyの関係を有する。  An instance of the class Application has an Underly relationship with an instance of the class TcpNode.
クラス TcpNode のインスタンスは、 クラス Router のインスタンスに ConnectedToの関係を有する。  An instance of class TcpNode has a ConnectedTo relationship to an instance of class Router.
(伝播モデル)  (Propagation model)
クラス Routerの障害 RoutingErrorは、 それに ConnectedTo している TcpNode の障害 TcpDisconnectに波及する。  Failure of class Router RoutingError propagates to failure of TcpNode connected to it, TcpDisconnect.
クラス TcpNode の障害 TcpDisconnect は、 それに linderly しているクラス Applicationの障害 Application Downに波及する。  Failure of class TcpNode TcpDisconnect propagates to Application Down, a failure of class Application linderly to it.
(関数)  (Function)
search ();  search ();
指定する管理対象と指定する関係を有する、 指定するクラスの管理対象を検索 する関数  A function that searches for the managed object of the specified class that has the specified relationship with the specified managed object
existCache ();  existCache ();
指定する管理対象の指定する障害イベントに関するキャッシュが存在するか否 かをチヱックする関数  Function to check whether the cache for the specified failure event of the specified management target exists
executeCache (); 指定する管理対象の指定する障害ィベントに関するキヤッシュデータにしたが レ、、 障害カウンタをインクリメントする関数 executeCache (); A function that increments the failure counter according to the cache data related to the failure event specified by the specified management target
addCache ();  addCache ();
指定する管理対象の指定する障害イベントに対して、 指定する管理対象の指定 する障害カウンタをインクリメントしたことをキヤッシュデータとして記録する appendCache ();  For the specified failure event specified by the management target, the increment of the specified failure counter specified by the specified management target is recorded as cache data appendCache ();
指定する管理対象の指定する障害原因のキャッシュデータを、 別のキャッシュ データにァペンドする関数  Function to append cache data of the specified cause of failure specified by the management target to another cache data
existCounter ();  existCounter ();
指定する管理対象の指定する障害原因のカウンタが存在するかをチェックする ための関数  Function to check whether the specified failure cause counter of the specified management target exists
incrementDone ();  incrementDone ();
指定する管理対象の指定する障害原因のカウンタがィンクリメントされたこと を記録するための関数  Function to record that the counter of the specified failure cause of the specified managed object has been incremented
classOf ();  classOf ();
管理対象のクラスを求める関数  Function to find the managed class
mol, mo2 ;  mol, mo2;
管理対象のィンデックスのワーク領域  Work area of managed index
symptoml;  symptoml;
障害イベント名のワーク領域  Work area for the fault event name
mo ;  mo;
入力された障害ィベン卜が発生した管理対象名  The name of the managed object where the entered failure event occurred
symptom;  symptom;
入力された障害イベントの障害名  Failure name of the entered failure event
counter ;  counter;
各障害原因に対応する障害カウンタ なお、 上記した 「(a) カウンタロジックメイン」 〜 「(e) 関数と変数との機 能および意味」 に記載した内容はあくまでこの一実施例での実現例である。 使用 する機器、 オペレーティングシステム、 プログラミング言語等によりその表現は 異なってくる。 また、 オペレーティングシステムによっては、 システムが提供す るルーチンをプログラム中でコールする場合がある。 この場合、 処理をする実体 はそのルーチンであるが、 ネットワーク管理システムのためのソフトウェアとし て流通するものにはそれらルーチンが含まれない可能性がある。 しかしこの場合 でも、 そうしたルーチンをどのように配列する力 について定義しており、 それ によってクレームした機能を実現する限り、 そうしたルーチンを含まないソフト ウェアであっても本願発明の権利範囲に含まれる。 Failure counter corresponding to each failure cause Note that the functions described in “(a) Counter logic main” to “(e) The contents described in “Functions and meanings” are only examples realized in this embodiment. The expression varies depending on the device, operating system, programming language, etc. used. Also, some operating systems call routines provided by the system in the program. In this case, the processing entity is the routine, but those distributed as software for the network management system may not include the routine. However, even in this case, the power of arranging such routines is defined, and software that does not include such routines is also included in the scope of the invention of the present application, as long as the claimed function is realized.
米国特許第 5, 6 6 1 , 6 6 8号に開示された従来技術と異なり、 本願発明で は Causality Mappingを記憶保持するのではなく、 カウンタ値インクリメントの ロジックと、 ルールと、 機器間の関係のみからなるカウンタ用構成情報 7 8とを 記憶保持する。  Unlike the prior art disclosed in US Pat. No. 5,661,668, the present invention does not store and hold the Causality Mapping, but the logic of the counter value increment, the rule, and the relationship between the devices. The counter configuration information 78 consisting of only the counter is stored.
次に、 図 8のステップ 1 4 4に示した障害カウンタインクリメント処理につい て説明する。 カウンタには障害イベントが時系列的に入力される。 障害イベント には、 実際の構成情報において機器を特定するための、 機器の識別子および機器 のタイプ情報が属性として付加されている。 障害イベントが入力されると、 カウ ンタ値インクリメントロジック 7 4はカウンタ用構成情報 7 8を問い合わせて、 その機器に対応する管理オブジェク 卜の、 その障害に対応する問題の障害カウン タを求め、 その値をインクリメントする。 「(d) カウンタ値ロジックの例:」 に 示す例では、 障害イベントとして 「ApplicationDown」 が入力されているとき、 カウンタロジックはその機器の 「Tcp J に対応する管理オブジェク トの Next, the failure counter increment processing shown in step 144 of FIG. 8 will be described. Failure events are input to the counter in time series. To the failure event, a device identifier and device type information for specifying the device in the actual configuration information are added as attributes. When a fault event is input, the counter value increment logic 74 queries the configuration information for the counter 78 to find a fault counter for the problem corresponding to the fault in the management object corresponding to the device. Increment the value. In the example shown in “(d) Example of counter value logic:”, when “ApplicationDown” is input as a failure event, the counter logic will execute the management object of “Tcp J” corresponding to the device.
「TcpDisconnect」 のカウンタを求め、 その値をインクリメントする。 そして、 カウンタロジックはインクリメントした障害カウンタのインデックスをインクリ メント済カウンタインデックス格納領域 7 6に記憶する。 Obtain the “TcpDisconnect” counter and increment its value. Then, the counter logic stores the incremented index of the failure counter in the incremented counter index storage area 76.
さらに TcpDisconnectは他の伝播ノレールの入力となるので、 カウンタロジック は、 それを再度入力とし、 それに接続されているルータをカウンタ用構成情報 7 8から検索する。 そしてそのルータの RoutingError のカウントをインクリメン トする。 こうしてカウンタロジックは連鎖的に各障害カウンタをインクリメント することを繰返し、 さらに伝播するものがなくなったときにこの障害イベントに 対する処理を終了する。 なおこのとき、 カウンタロジックは、 ある障害イベント に対してある障害カウンタをインクリメントしたときは、 その障害カウンタのそ の障害イベントに対応するフラグをセットしておき、 また、 フラグがセットされ ていない場合のみインクリメントするようにする。 Further, since TcpDisconnect becomes an input of another propagation node, the counter logic takes it as an input again and searches the counter configuration information 78 for a router connected thereto. Then, the RoutingError count of the router is incremented. In this way, the counter logic continually increments each fault counter The process for this fault event is terminated when there are no more items to be propagated. At this time, when the counter logic increments a certain fault counter for a certain fault event, a flag corresponding to the fault event of the fault counter is set, and if the flag is not set, Only increment.
「(b) Classに関する case節マクロ」 および 「(c) Symptom名に関する case 節マクロ」 に示すテンプレートは、 テンプレート中の単語を具体的なクラス名な どに置換して展開することによりこうした処理を実現するためのものである。 ネットワーク管理システムは、 こうして計算された値のうち最も距離が小さい 値に対応する障害原因を真の障害原因の候補としてネットワーク管理者に通知す る。 そのための障害特定処理について説明する。 図 1 2を参照して、 障害原因の 特定処理が開始されると、 まず入力された全イベントが取得される (3 0 0 ) 。 さらに、 初期設定として、 最小値を求めるための作業領域に、 所定の大きな定数 (たとえば当該作業領域が保持できる最大の数) が代入される (3 0 2 ) 。 これ は、 以下に述べるように、 計算の途中で順次最小の値が求められるたびにその値 をそれまでの計算の最小値として保持するための準備である。  The templates shown in “(b) Case clause macro for Class” and “(c) Case clause macro for Symptom name” perform such processing by replacing words in the template with specific class names and expanding them. It is for realizing. The network management system notifies the network administrator of the cause of the failure corresponding to the value having the smallest distance among the values calculated in this way as a candidate of the true cause of the failure. The failure identification process for that will be described. Referring to FIG. 12, when the process of identifying the cause of the failure is started, first, all the inputted events are acquired (300). Further, as an initial setting, a predetermined large constant (for example, the maximum number that the work area can hold) is substituted into the work area for obtaining the minimum value (302). This is a preparation to keep the value as the minimum value of the previous calculation each time the minimum value is obtained in the middle of the calculation, as described below.
続いて、 インクリメント済カウンタインデックス格納領域 7 6に格納されてい るインデックスの中からインデックス番号が一つ取り出される (3 0 4 ) 。 そし てインクリメント済カウンタインデックス格納領域 7 6に格納されているすべて のインデックス番号に対して処理が終了したか否かが判定される (3 0 6 ) 。 す ベてのインデックス番号に対して処理を終了している場合には制御はステップ 3 0 8に進むが、 その詳細については後述する。 この場合、 以下に述べる計算がす ベてのインデックスに対してではなく、 インクリメント済カウンタインデックス 格納領域 7 6に記憶されているインデックスに対してのみ行われる。 他のインデ ックスについてはインクリメントされていないので、 計算を省略しても影響はな レ、。 計算量が減少し処理の高速化を図ることができる。  Subsequently, one index number is extracted from the indexes stored in the incremented counter index storage area 76 (304). Then, it is determined whether or not the processing has been completed for all the index numbers stored in the incremented counter index storage area 76 (306). If the processing has been completed for all index numbers, control proceeds to step 308, the details of which will be described later. In this case, the calculation described below is performed not on all the indexes, but only on the indexes stored in the incremented counter index storage area 76. Other indexes have not been incremented, so omitting the calculation has no effect. The calculation amount is reduced, and the processing speed can be increased.
すべてのインデックス番号に対して処理を終了していない場合、 ステップ 3 0 4で取り出されたィンデックス番号で示されるカウンタの上限値と、 カウンタ値 とが読み出される (3 2 0 ) 。 そして、 入力された全障害イベント数と、 読み出 されたカウンタ値との差分が計算される (3 2 2 ) 。 さらに、 そのカウンタの上 限値とカウンタ値との差分が計算される (3 2 4 ) 。 こうして得られた二つの差 分の和がとられ、 保持される (3 2 6 ) 。 この実施例のネットワーク管理システ ム 2 0では、 こうして計算された和をもって、 障害原因の可能性を示す値 (距 離) とする。 もちろん、 この他にも種々の計算方法が想定できるが、 この例の方 法が最も簡便である。 If the processing has not been completed for all index numbers, the upper limit value of the counter indicated by the index number extracted in step 304 and the counter value are read (320). Then, the total number of input failure events and read The difference from the calculated counter value is calculated (322). Further, the difference between the upper limit value of the counter and the counter value is calculated (324). The two differences thus obtained are summed and retained (32). In the network management system 20 of this embodiment, the sum calculated in this manner is used as a value (distance) indicating the possibility of a failure cause. Of course, various other calculation methods can be assumed, but the method of this example is the simplest.
続いて、 こうして計算された和がこれまで保持されていた最小値より小さいか 否かを判定する (3 2 8 ) 。 最小値以上であれば次のインデックス番号に処理対 象を進めて (3 3 2 ) 制御はステップ 3 0 4に戻る。 和が最小値より小さければ その和に対応するインデックス番号を保存し、 その和を新たな最小値として保持 する (3 3 0 ) 。 そして次のインデックス番号に処理対象を進めて (3 3 2 ) 制 御はステップ 3 0 4に戻る。  Subsequently, it is determined whether or not the sum thus calculated is smaller than the previously held minimum value (328). If it is not less than the minimum value, the processing is advanced to the next index number (332), and control returns to step 304. If the sum is smaller than the minimum value, the index number corresponding to the sum is stored, and the sum is stored as a new minimum value (330). Then, the processing target is advanced to the next index number (332), and control returns to step 304.
このようにしてすべてのィンデッタス番号について処理すると、 ステップ 3 0 6における判定の結果、 制御はステップ 3 0 8に進む。 ステップ 3 0 8では、 上 記した一連の処理の結果得られた最小値が、 予め定められたしきい値より小さい か否かを判定する。 最小値がしきい値よりも小さければ、 この最小値に対応する インデックス番号で示される障害原因を障害の根本原因として推定しユーザイン タフエース部 3 6を介してネットワーク管理者に提示する。  When processing is performed for all the index numbers in this way, the control proceeds to step 308 as a result of the determination in step 306. In step 308, it is determined whether or not the minimum value obtained as a result of the above series of processing is smaller than a predetermined threshold value. If the minimum value is smaller than the threshold value, the failure cause indicated by the index number corresponding to this minimum value is estimated as the root cause of the failure and presented to the network administrator via the user interface unit 36.
最小値がしきい値よりも大きければ、 十分な根拠をもって根本原因の推定がで きなかったということである。 したがって次の障害イベントの入力を待つ (3 1 2 ) か、 または特定ができなかった旨の表示をして処理を終了する。  If the minimum value is greater than the threshold, it means that the root cause could not be estimated on sufficient grounds. Therefore, the process waits for the input of the next failure event (3 1 2), or terminates the process after displaying that identification was not possible.
なお、 本実施例のネットワーク管理システム 2 0では、 ある障害イベントが入 力されたとき、 最終的にどの管理対象ォブジェクトに到達しどの障害カウンタを インクリメントしたのかを示す情報をキヤッシュ情報 7 2に保持する。 たとえば 図 5に示すような因果関係の下で障害イベント S 4が入力された場合、 最終的に P 0 , P 1 , P 2の障害カウンタがインクリメントされる。 この情報をキヤッシ ュ情報 7 2に保持しておけば、 次に障害イベント S 4が入力されたときに構成情 報から因果関係をたどることなく直ちに対応の障害力ゥンタをインクリメントす ることができ、 処理を高速化することができる。 また、 上記した実施例のネットワーク管理システム 2 0は、 伝播ルール検出部 6 0を有し、 ィベントデータベース 4 4に蓄積された障害イベント間の相互相関 を検出して、 伝播モデル 4 2に記述されていない新たな障害伝播が検出された場 合にはそれを伝播モデル 4 2にフィードバック (追加) する。 こう して更新され た新たな伝播モデル 4 2に基づいて障害カウンタのカウンタ値インクリメントロ ジック 7 4とカウンタインクリメントのルール 8 0とを再構築することで、 より 正確な障害原因の推定を行うことが可能になる。 In the network management system 20 of the present embodiment, when a certain failure event is input, information indicating which management target object has finally reached and which failure counter has been incremented is stored in the cache information 72. I do. For example, when a failure event S4 is input under the causal relationship as shown in FIG. 5, the failure counters of P0, P1, and P2 are finally incremented. If this information is stored in the cache information 72, the next time the failure event S4 is input, the corresponding failure power counter can be immediately incremented without following the causal relationship from the configuration information. The processing speed can be increased. Further, the network management system 20 of the above-described embodiment has a propagation rule detection unit 60, detects a cross-correlation between failure events stored in the event database 44, and describes the cross-correlation in the propagation model 42. If a new fault propagation that is not detected is detected, it is fed back (added) to the propagation model 42. By reconstructing the counter value increment logic 74 of the fault counter and the rule 80 of the counter increment based on the new propagation model 42 updated in this way, a more accurate fault cause can be estimated. Becomes possible.
なお、 障害イベント間の相互相関を検出する方法として以下のものがある。 たとえば任意の二つのイベント S 1, S 2について、 あるタイムウィンドウ内 においてィベント S 1が発生していた時間 t 1と、 ィベント S 2が発生していた 時間 t 2と、 これら二つのイベントが同時に発生していた時間 t 1 2との間から、 たとえば以下の式によりこれらイベント間の相関の度合い C ( S 1 , S 2 ) が計 算される。 y ti2  There are the following methods for detecting the cross-correlation between failure events. For example, for any two events S 1 and S 2, the time t 1 at which event S 1 occurred and the time t 2 at which event S 2 occurred within a certain time window, The degree of correlation C (S 1, S 2) between these events is calculated from the time of occurrence t 12 by, for example, the following equation. y ti2
C(Sl,S2) =  C (Sl, S2) =
この値 C ( S 1 , S 2 ) を、 タイムウィンドウ内で発生したすべての障害ィべ ントの間で計算する。 そして、 この値があるしきい値をこえたときにこれらィべ ント間に伝播関係があると推定する。 こう して検出された伝播関係のうち、 伝播 モデル 4 2に未だ記述されていないルールを伝播モデル部 5 8に与えて障害カウ ンタ生成部 5 6にフィードバックすればよい。 障害カウンタ生成部 5 6がこのよ うに更新されたルールに基づき障害カウンタおよびインクリメントのためのルー ルを再構築することで、 より正確な推論を行うことが可能になる。 もちろん、 相 互相関の度合いを計算する式は上記した式には限定されず、 種々の式を用いるこ とができる。 This value C (S 1, S 2) is calculated between all fault events that occurred within the time window. Then, when this value exceeds a certain threshold value, it is estimated that there is a propagation relationship between these events. Of the propagation relations thus detected, rules not yet described in the propagation model 42 may be given to the propagation model unit 58 and fed back to the fault counter generation unit 56. The fault counter generation unit 56 reconstructs the rules for the fault counter and the increment based on the rules updated in this manner, so that more accurate inference can be performed. Of course, the equation for calculating the degree of cross-correlation is not limited to the above equation, and various equations can be used.
なお、 ユーザインタフェース部 3 6を用いて障害の原因の推定結果をネットヮ ーク管理者に提示するとき、 たとえば次のようにしてある障害原因が真の障害原 因であることの 「確信度」 zを計算できる。
Figure imgf000027_0001
When the result of estimating the cause of the failure is presented to the network administrator using the user interface unit 36, for example, the “confidence” that the certain cause of the failure is the true cause of the failure is as follows. z can be calculated.
Figure imgf000027_0001
m ただし、 nはその障害原因について想定される障害イベントのうち、 実際に入 力された障害イベントと一致した数を示す。 mは、 入力された障害イベントの総 数と、 カウンタの上限値の最大値とのうちの大きい方の値を示す。 カウンタの上 限値の最大値に代えて、 個別のカウンタに設定されている上限値を用いてもよい。 上式の zは 0〜1 0 0 % ( 0〜1 ) の値をとる。 この確信度 zを障害原因の候 補に付加して通知する。 そうした確信度を付して利用者に提示することにより、 利用者は、 相違度という尺度でなく、 より直感的に、 容易に障害原因が正解であ る確率を認識できる。  m Here, n indicates the number of fault events assumed for the fault cause that matches the actually input fault event. m indicates the larger of the total number of input failure events and the maximum value of the upper limit of the counter. Instead of the maximum value of the upper limit value of the counter, the upper limit value set for each individual counter may be used. Z in the above equation takes a value of 0 to 100% (0 to 1). This confidence z is added to the candidate for the cause of the failure and notified. By presenting to the user with such a certainty factor, the user can more easily and intuitively recognize the probability that the cause of the fault is correct, rather than a measure of the degree of difference.
以上のようにこの発明によれば、 比較的少ない労力で記述できる、 特定のネッ トワークの構成情報に依存しない情報 (クラス定義、 伝播モデル) を定義してお けば、 特定のネットワークの構成情報を例えば自動的に発見する手法などにより 機械的に求めることができる。 そのため障害管理に必要な情報 (障害カウンタ 5 4 ) を生成するための労力が比較的少なくて済む。 また、 構成情報の動的な変化 (機器の追加、 削除) に柔軟に対応することができる。  As described above, according to the present invention, if information (class definition, propagation model) that can be described with relatively little effort and does not depend on specific network configuration information is defined, specific network configuration information can be obtained. Can be obtained mechanically by, for example, a method of automatically finding the information. Therefore, the labor required to generate information (fault counter 54) necessary for fault management is relatively small. It can also flexibly respond to dynamic changes in configuration information (addition and deletion of devices).
ィベント相関表アプローチでは、 ィベント相関表のために比較的大きな記憶容 量を必要とした。 本実施例によれば、 クラスに関する記述と伝播モデルとから得 られるコンパクトなロジックと、 構成情報からなる障害原因推定の方法を実現で き、 消費するメモリ容量は構成情報に含まれるインスタンスの数に比例する。 し たがってこのシステムは、 ィベント相関表アプローチのようにインスタンスの個 数の二乗に比例するサイズのメモリ容量を必要とするものと比較して有利である。 また本実施例では、 障害ィベントが通知されるタイミングでカウンタ値のロジ ックがインクリメントされる。 障害の発生していないときは計算は発生しない。 また、 発生した障害イベントに関する障害カウンタのみがインクリメントされる ため、 インクリメント時の計算負荷も少なくて済む。  The event correlation table approach required a relatively large amount of storage for the event correlation table. According to the present embodiment, it is possible to realize a compact logic obtained from the description about the class and the propagation model, and a method for estimating the cause of the fault composed of the configuration information. Proportional. Therefore, this system is advantageous compared to the event correlation table approach, which requires a memory capacity that is proportional to the square of the number of instances. In the present embodiment, the logic of the counter value is incremented at the timing when the failure event is notified. No calculations occur when no fault has occurred. Also, since only the fault counter related to the fault event that has occurred is incremented, the calculation load at the time of increment can be reduced.
また、 障害原因を特定する処理では、 所定の期間 (タイムウィンドウ) 内に発 生した障害イベントによりインクリメントされた障害カウンタのみについて距離 計算がされる。 そのため、 発生した障害イベント数が少ないときには原因特定の ための計算量が非常に少なくてすむという効果がある。 In the process of identifying the cause of a fault, only the fault counter incremented by a fault event that occurred within a predetermined time period (time window) is used. Calculation is done. Therefore, when the number of generated failure events is small, the amount of calculation for identifying the cause is very small.
上述した実施例のネットワーク管理システム 2 0は、 障害カウンタのカウンタ 値に基づレ、て計算された距離が最も小さレ、ィンデックス番号に対応する障害原因 がーつだけネットワーク管理者に提示される。 しかし本発明はこれには限定され ない。 たとえば、 すべてのインデックス番号について距離 (全障害イベント数と カウンタ値との差分、 およびカウンタの上限値とカウンタ値との差分、 の和) を 計算し、 そのうち上位 (距離の小さなもの) の N個 (Nは任意の自然数) のイン デックス番号に対応する障害原因を、 距離の小さいものから順にネットワーク管 理者に提示してもよレ、。  In the network management system 20 of the above-described embodiment, the distance calculated based on the counter value of the failure counter is the smallest, and only one failure cause corresponding to the index number is presented to the network administrator. . However, the present invention is not limited to this. For example, for all index numbers, calculate the distance (the sum of the difference between the total number of failure events and the counter value, and the difference between the upper limit value of the counter and the counter value) and find the top N (smaller distance) The failure cause corresponding to the index number (where N is an arbitrary natural number) may be presented to the network administrator in ascending order of distance.
この場合のフローチャートを図 1 3に示す。 図 1 3において、 図 1 2と同じ処 理には同じ参照符号を付して、 その詳細についての説明は繰返さない。 図 1 3に おいては、 距離の最小値を求める必要がないので、 図 1 2のステップ 3 0 2、 3 0 8、 3 2 8、 3 3 0の処理が省略されている。 また、 図 1 2のステップ 3 1 0 の処理に代えて、 すべてのインデックス番号について距離を求めた後 (ステップ 3 0 6の判定の結果が Y E S ) 、 カウント値を昇順にソートしてその上位 N個の みを障害原因の候補として提示するステップ 3 4 0が設けられる。  FIG. 13 shows a flowchart in this case. In FIG. 13, the same processes as those in FIG. 12 are denoted by the same reference numerals, and the detailed description thereof will not be repeated. In FIG. 13, since it is not necessary to obtain the minimum value of the distance, the processing of steps 302, 308, 328, and 330 of FIG. 12 is omitted. In addition, instead of the processing of step 310 of FIG. 12, after obtaining distances for all index numbers (the result of the determination of step 310 is YES), the count values are sorted in ascending order and the top N A step 340 of presenting only the individual as a candidate for the cause of the failure is provided.
このように複数個の候補を距離の小さいものから順にソ一トして出力すること により、 ネットワーク管理者は最も疑わしいものから順に障害原因の候補の確認 を行うことができる。 ネットワーク管理者は障害原因を効率良く特定し除去する ことができる。 また真の障害原因が候補から漏れる可能性が低くなる。  By sorting and outputting a plurality of candidates in ascending order of distance as described above, the network administrator can check the candidates for the cause of the failure in order from the most suspicious. Network managers can efficiently identify and eliminate the cause of the failure. In addition, the possibility that the true cause of failure is omitted from the candidates is reduced.
また、 この場合、 距離が特定のしきい値を下回る障害原因候補のみを表示する ようにしてもよい。 その場合のフローチャートを図 1 4に示す。 図 1 4において、 図 1 3と同一の処理ステップには同一の参照符号を付し、 その詳細な説明は繰返 さなレ、。 図 1 4に示す例では、 図 1 3に示すステップ 3 4 0に代えて、 ステップ 3 5 0を含んでいる。 ステップ 3 4 0では、 カウント値を昇順にソートした後、 所定のしきい値を下回るものすベてに対応する障害原因を候補として前述の確信 度とともにネットワーク管理者に提示する。 このようにあるしきい値を下回るも のすベてを提示することで、 たとえば複数の障害原因に対してその障害原因が実 際の障害原因である確率が高いものについてすべて提示でき、 推論結果からの漏 れをなくすことができる。 また確信度を付与することにより、 候補としてあげら れたものの中で重要であるものとそうでないものとの区別が容易にできるという 効果がある。 In this case, only the failure cause candidates whose distance is less than a specific threshold value may be displayed. A flowchart in that case is shown in FIG. In FIG. 14, the same processing steps as those in FIG. 13 are denoted by the same reference numerals, and detailed description thereof will not be repeated. The example shown in FIG. 14 includes step 350 instead of step 340 shown in FIG. In step 340, the count values are sorted in ascending order, and the cause of failure corresponding to everything below a predetermined threshold is presented to the network administrator as a candidate together with the above-mentioned certainty factor. By presenting everything below a certain threshold in this way, for example, for multiple It can present everything that has a high probability of causing a failure, and can eliminate leakage from inference results. Also, by assigning certainty, there is an effect that it is possible to easily distinguish between important ones and those that are not among candidate candidates.
また、 上述の実施例とは異なり、 障害イベントが入力される都度、 障害原因の 推定を行うような処理構成としてもよい。 その場合の全体処理のフローチヤ一ト を図 1 5に示す。 図 1 5において、 図 8または図 9に示される各処理ステップと 同一の処理を行うステップには同一の参照符号を付してある。 それらについての 詳細な説明はここでは繰返さない。  Further, unlike the above-described embodiment, the processing configuration may be such that the failure cause is estimated each time a failure event is input. Figure 15 shows a flowchart of the entire process in that case. In FIG. 15, steps for performing the same processing as the processing steps shown in FIG. 8 or FIG. 9 are denoted by the same reference numerals. A detailed description of them will not be repeated here.
図 1 5においては、 図 8において、 入力された障害イベントに対する障害カウ ンタのインクリメント処理が終了した後、 次の障害イベントの入力を待つのでは なく、 すぐに障害原因特定処理 (1 5 0 ) を行う。 そしてその結果得られた距離 の最小値が所定のしきい値よりも小さいと判定されたときにはそのカウンタに対 応する障害原因を根本原因として推定することとしている。  In FIG. 15, in FIG. 8, after the failure counter increment processing for the input failure event is completed, instead of waiting for the input of the next failure event, the failure cause identification processing (150) is performed immediately. I do. Then, when it is determined that the minimum value of the obtained distance is smaller than a predetermined threshold, the cause of the failure corresponding to the counter is estimated as the root cause.
このように障害ィベントの入力があるたびに障害原因の特定処理を行うことに より、 障害イベントの入力により、 障害の推定に必要な情報がそろったらすぐに 障害の原因がネットワーク管理者に示されるという効果が得られる。 タイマによ り障害原因を特定する処理を起動する場合と比較して、 障害の発生からその原因 の推定までのタイムラグが小さくなるという効果が得られる。  By performing the process of identifying the cause of a failure every time a failure event is input, the failure event is input to the network administrator as soon as the information necessary for estimating the failure is available. The effect is obtained. The effect of reducing the time lag from the occurrence of a failure to the estimation of the cause is obtained, as compared to the case where the processing for identifying the cause of the failure is started by the timer.
図 8に示した例では、 装置の起動時にすべての障害カウンタ領域の確保し、 波 及範囲予測を実行して各カウンタの上限値を求めている。 これにより、 障害ィべ ントの発生があったときにはすみやかに対応の障害力ゥンタのインクリメントが 行なえる。 しかし、 こうした方式は一方で、 起動時の装置の負荷を高め、 また起 動時間も長くする。 そこで、 起動時にこうした処理を行わず、 必要が生じたとき に随時必要なカウンタ値の格納領域の生成とその上限値の設定とを行うようにす ることも考えられる。 その場合、 障害イベントが入力され対応のカウンタのイン クリメントを行おうとする前に、 そのカウンタが存在するか否かを調べ、 存在し ていない場合にはその領域を確保し、 上限値の設定を行う処理を実行するように すればよレ、。 このようにすることで、 ほとんど発生することがない障害イベントに対しては カウンタ値の格納領域が生成されないので、 メモリの使用効率が向上する。 また 前述のとおり、 装置の起動時の負荷が軽減され早く稼動を開始できるという効果 もある。 In the example shown in Fig. 8, all the fault counter areas are secured when the device is started, and the range of the failure is predicted to determine the upper limit of each counter. As a result, when a failure event occurs, the corresponding failure power center can be immediately incremented. However, these methods, on the other hand, increase the load on the equipment at startup and increase the startup time. Therefore, it is conceivable that such a process is not performed at the time of startup, and the necessary counter value storage area is generated and the upper limit value is set as needed when necessary. In this case, before a fault event is input and the counter is incremented, it is checked whether the counter exists or not.If it does not exist, the area is secured and the upper limit is set. You just have to do what you want to do. In this way, a memory area for storing the counter value is not generated for a failure event that rarely occurs, thereby improving the memory use efficiency. In addition, as described above, there is also an effect that the load at the time of starting the device is reduced and the operation can be started quickly.
なおまた、 上記した実施例ではいずれも、 インクリメントする値を 1 . 0とし て説明して来た。 しかし本発明はこれには限定されず、 0を超えて 1 . 0以下の 範囲の任意の数を単位としてインクリメントさせるようにしてもよい。 こうする ことで、 上記した実施例と全く同じロジックで確率的な障害の発生も表現するこ とができる。  Further, in each of the above-described embodiments, the value to be incremented has been described as 1.0. However, the present invention is not limited to this, and the number may be incremented by an arbitrary number in a range from more than 0 to 1.0 or less. By doing so, the occurrence of a stochastic failure can be expressed by the same logic as in the above-described embodiment.
例えば伝播モデルで障害ィベント S 3から障害ィベント S 4への伝播の確率が For example, in the propagation model, the probability of propagation from fault event S3 to fault event S4 is
0 . 5であると記述しておけば、 その時点で対応する障害カウンタは 0 . 5だけ インクリメントされる。 またさらに障害イベント S 2から障害イベント S 3への 伝播の確率が 0 . 3であると記述されている場合には、 インクリメントされる値 はこれらの確率の積、 すなわち 0 . 5 X 0 . 3 = 0 . 1 5とされる。 このように して、 本願発明によるネットワーク管理システムによれば確率的な障害伝播も扱 うことができる。 If it is described as 0.5, the corresponding fault counter is incremented by 0.5 at that time. Further, when the probability of propagation from the fault event S2 to the fault event S3 is described as 0.3, the value to be incremented is the product of these probabilities, that is, 0.5 X 0.3. = 0.15. Thus, the network management system according to the present invention can handle stochastic failure propagation.
以上、 本願発明にかかるネットワーク管理システムを実施例に基づいて説明し てきたが、 本願発明はこれら実施例のシステムに限定されるわけではない。 本願 発明の権利範囲は、 特許請求の範囲の各請求項の記载によって定められるべきで ある。 本願明細書に開示された実施例の各構成要素と均等の構成要素を用いたも のも本願発明の権利範囲に含まれる。 産業上の利用可能性  Although the network management system according to the present invention has been described based on the embodiments, the present invention is not limited to the systems according to the embodiments. The scope of the present invention should be determined by the description of each claim in the claims. Those using components equivalent to the components of the embodiments disclosed in the specification of the present application are also included in the scope of the right of the present invention. Industrial applicability
以上のように、 この発明のネットワーク管理システムによれば、 少ないメモリ の使用量で、 かつ少ない計算量で障害原因の特定を行うことができる。 したがつ て、 大規模または複雑なネットワークでの障害発生時の障害原因の特定およびそ の解決を効果的に行うのに適している。  As described above, according to the network management system of the present invention, it is possible to specify the cause of a failure with a small amount of memory used and a small amount of calculation. Therefore, it is suitable for effectively identifying the cause of a failure in a large or complex network and resolving it.

Claims

請求の範囲 The scope of the claims
1. ネットワーク上機器を表現するクラスとそれらクラスで観測される障害ィ ベントとを記述した構成管理情報スキーマ定義を保持するための構成管理情報ス キーマ定義保持手段 (40) と、  1. Configuration management information schema definition holding means (40) for holding a configuration management information schema definition that describes classes representing devices on the network and fault events observed in those classes;
障害イベント間の伝播モデルを保持するための伝播モデル保持手段 (42) と、 ネットワーク上の実際の機器の構成情報を保持するための構成情報保持手段 (38) と、  A propagation model holding unit (42) for holding a propagation model between failure events, a configuration information holding unit (38) for holding configuration information of actual devices on the network,
前記構成管理情報スキーマ定義と、 前記伝播モデルと、 前記構成情報とに基づ いて、 各機器において生ずる各障害イベントに対応して設けられたカウント手段 (54) と、 前記カウント手段 (54) の内容に基づき所定の方法によって障害 イベントの障害原因を推論するための比較手段 (52) とを含む推論手段 (3 4) とを含み、  A counting unit (54) provided corresponding to each failure event occurring in each device based on the configuration management information schema definition, the propagation model, and the configuration information; Comparing means (52) for inferring the fault cause of the fault event by a predetermined method based on the content, and inference means (34) including
前記カウント手段 (54) は、  The counting means (54)
各カウント値を保持するための複数の記憶領域を含む記憶手段 (70) と、 各前記記憶領域に対して、 前記構成管理情報スキーマ定義と、 前記伝播モデル と、 前記構成情報とに基づいて、 その上限値を設定するための手段 (140) と、 入力される障害イベントに応答して、 前記構成管理情報スキーマ定義と、 前記 伝播モデルと、 前記構成情報と、 更新のための所定のルール (80) とに基づい て、 前記入力される障害イベントに対応した前記記憶領域の値を更新するための 論理手段 (74) とを含む、 ネッ トワーク管理システム (20) 。  A storage unit (70) including a plurality of storage areas for holding each count value; and for each of the storage areas, the configuration management information schema definition, the propagation model, and the configuration information, Means for setting the upper limit value (140), and in response to an input failure event, the configuration management information schema definition, the propagation model, the configuration information, and a predetermined rule for updating ( (80) based on the above (80), logic means (74) for updating the value of the storage area corresponding to the input failure event.
2. 前記カウント手段 (54) は、 機器の接続関係のみからなる、 カウント用 の構成情報を保持するための手段 (78) をさらに含み、  2. The counting means (54) further includes means (78) for holding configuration information for counting, consisting only of the connection relation of devices,
前記論理手段 (74) は、 障害イベントが入力されたことに応答して、 前記所 定のルール (80) と、 前記カウント用の構成情報 (78) とを参照して、 障害 イベントの入力に応答して動作するべきカウント手段を判定し動作させるための 手段を含む、 請求項 1に記載のネットワーク管理システム (20) 。  The logic means (74) responds to the input of the fault event by referring to the predetermined rule (80) and the configuration information for counting (78) in response to the input of the fault event. The network management system according to claim 1, further comprising: means for determining and operating counting means to be operated in response.
3. 前記カウント手段 (54) f 前記ネットワーク管理システムの起動時に 前記複数の記憶領域を生成し、 それぞれの上限値を設定するための手段 (14 0) を含む、 請求項 1に記載のネットワーク管理システム (20) 。 3. The network management according to claim 1, further comprising: a means for generating the plurality of storage areas and setting respective upper limits when the network management system is started. Systems (20).
4. 前記カウント手段 (54) 力 S、 障害イベントが入力されたことに応答して、 必要な前記記憶領域を確保し、 対応する上限値を設定するための手段 (140) を含む、 請求項 1に記載のネットワーク管理システム (20) 。 4. The counting means (54) includes means (140) for securing the necessary storage area and setting a corresponding upper limit value in response to the input of a force S and a failure event. The network management system according to item 1 (20).
5. 前記推論手段 (34) は、 各障害イベントが入力されたことに応答して真 の障害原因の推論を行うための手段 (図 1 5 ; 1 50、 1 52) を含む、 請求項 5. The inference means (34) includes means (FIG. 15; 150, 152) for inferring the true cause of the failure in response to the input of each failure event.
1に記載のネッ トワーク管理システム (20) 。 The network management system described in 1 (20).
6. 前記推論手段 (34) は、 所定時間の経過ごとに真の障害原因の推論を行 うための手段 (図 9 ; 150、 152) を含む、 請求項 1に記載のネットワーク 管理システム (20) 。  6. The network management system (20) according to claim 1, wherein said inference means (34) includes means (FIG. 9; 150, 152) for inferring the true cause of the failure every predetermined time. ).
7. 前記推論手段 (34) は、 各障害原因に対して、 それぞれに対応するカウ ント値に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離の 小さいものから所定個数を障害原因の候補として提示するための手段 (340) を含む、 請求項 1に記載のネットワーク管理システム (20) 。  7. The inference means (34) calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and The network management system (20) according to claim 1, further comprising means (340) for presenting a predetermined number as a candidate for the cause of the failure.
8. 前記推論手段 (34) は、 各障害原因に対して、 それぞれに対応するカウ ント値に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離が 所定のしきい値より小さなもののみを障害原因の候補として提示するための手段 (308、 310) を含む、 請求項 1に記載のネットワーク管理システム (2 0) 。  8. The inference means (34) calculates, for each fault cause, a distance between the true fault cause defined based on the corresponding count value, and sets the distance to a predetermined value. 2. The network management system (20) according to claim 1, further comprising means (308, 310) for presenting only those smaller than the threshold as possible fault causes.
9. 前記推論手段 (34) は、 前記障害原因の候補を、 それぞれの距離にした がってソートした順番で提示するための手段 (340、 350) を含む、 請求項 9. The inference means (34) includes means (340, 350) for presenting the fault cause candidates in the sorted order according to the respective distances.
8に記載のネッ トワーク管理システム (20) 。 The network management system described in 8 (20).
10. 前記推論手段 (34) は、 提示される各障害原因の候補に対して、 それ ぞれのカウント手段 (54) のカウント値に応じて計算される確信度を計算し付 与して提示するための手段 (350) を含む、 請求項 1に記載のネットワーク管 理システム (20) 。  10. The inference means (34) calculates and gives a certainty factor calculated in accordance with the count value of each counting means (54) to each of the presented fault cause candidates and presents it. The network management system (20) according to claim 1, including means for performing (350).
1 1. 前記カウント手段 (54) は、 前記論理手段 (74) により更新された 記憶領域を特定する情報を記憶するためのカウント済領域記憶手段 (76) を含 み、  1 1. The counting means (54) includes counted area storage means (76) for storing information specifying the storage area updated by the logic means (74),
前記推論手段 (34) は、 前記カウント済領域記憶手段 (76) に記憶された 記憶領域のみを、 推論における計算の対象とする、 請求項 1に記載のネットヮー ク管理システム (20) 。 The inference means (34) is stored in the counted area storage means (76). The network management system according to claim 1, wherein only the storage area is a target of calculation in the inference.
12. 前記記憶手段 (70) は、 各前記記憶領域が所定の障害イベントに応答 して更新されたか否かを示すフラグを格納する領域を含み、  12. The storage means (70) includes an area for storing a flag indicating whether each of the storage areas has been updated in response to a predetermined failure event,
前記論理手段 (74) は、 前記フラグを維持するとともに、 前記フラグの内容 により各前記記憶領域内の値を更新するか否かを決定する手段を含む、 請求項 1 に記載のネットワーク管理システム (20) 。  The network management system according to claim 1, wherein the logic means (74) includes means for maintaining the flag and determining whether to update a value in each of the storage areas based on the content of the flag. 20).
13. 前記論理手段 (74) による更新は、 入力された障害イベントの波及範 囲の各前記記憶領域内の値を所定の値でィンクリメントする処理を含み、 前記所定の値は 0より大きく 1以下の値である、 請求項 1に記載のネットヮー ク管理システム (20) 。  13. The updating by the logic means (74) includes a process of incrementing a value in each of the storage areas in the range of the input failure event by a predetermined value, wherein the predetermined value is greater than 0 and equal to or less than 1 The network management system (20) according to claim 1, wherein the value is:
14. 前記カウント手段 (54) は、 前記論理手段 (74) がある障害ィベン トの入力に応答して更新した前記記憶領域を特定する情報を保持するためのキヤ ッシュ手段 (72) をさらに含み、  14. The counting means (54) further includes a cache means (72) for holding information identifying the storage area updated in response to the input of the failure event by the logic means (74). ,
前記論理手段 (74) は、 前記ある障害イベントが再度入力されたときに、 前 記キャッシュ手段 (72) に記憶された情報に基づいて特定される前記記憶領域 を更新する手段を含む、 請求項 1に記載のネットワーク管理システム (20) 。  The logic means (74) includes means for updating the storage area specified based on the information stored in the cache means (72) when the certain failure event is input again. The network management system according to item 1 (20).
15. 前記キャッシュ手段 (72) は、 前記記憶領域を特定する前記情報が最 後に参照された時刻を示す情報を保持し、  15. The cache means (72) holds information indicating a time when the information specifying the storage area was last referred to,
前記カウント手段 (54) は、 ある一定時間以上参照されていない情報を前記 キャッシュ手段 (72) から削除するための手段をさらに含む、 請求項 14に記 載のネッ トワーク管理システム (20) 。  The network management system (20) according to claim 14, wherein said counting means (54) further includes means for deleting information that has not been referred to for a certain period of time or more from said cache means (72).
16. 前記カウント手段 (54) は、 入力される障害イベントを蓄積し、 障害 ィベント間の相互相関を検出して、 前記伝播モデルに記述されていない新たな障 害伝播の伝播モデルを前記論理手段 (74) にフィードバックするための伝播ル ール検出手段 (60) をさらに含み、  16. The counting means (54) accumulates the input fault events, detects a cross-correlation between the fault events, and outputs a new fault propagation model not described in the propagation model to the logic means. Propagation rule detection means (60) for feeding back to (74) is further included,
前記論理手段 (74) は、 前記伝播ルール検出手段 (60) からのフィードバ ックを受けて、 前記所定のルールを再構築する手段を含む、 請求項 1に記載のネ ッ トワーク管理システム (20) 。 The network management system (20) according to claim 1, wherein the logic means (74) includes means for receiving feedback from the propagation rule detection means (60) and reconstructing the predetermined rule. ).
17. コンピュータを、 ネットワーク管理システム (20) として動作させる ためのプログラムを記録した、 機械可読な記録媒体であって、 17. A machine-readable recording medium storing a program for causing a computer to operate as a network management system (20),
前記ネッ トワーク管理システム (20) は、  The network management system (20)
ネットワーク上機器を表現するクラスとそれらクラスで観測される障害ィベン トとを記述した構成管理情報スキーマ定義を保持するための構成管理情報スキー マ定義保持手段 (40) と、  Configuration management information schema definition holding means (40) for holding a configuration management information schema definition that describes classes representing devices on the network and fault events observed in those classes;
障害イベント間の伝播モデルを保持するための伝播モデル保持手段 (42) と、 ネットワーク上の実際の機器の構成情報を保持するための構成情報保持手段 (38) と、  A propagation model holding unit (42) for holding a propagation model between failure events, a configuration information holding unit (38) for holding configuration information of actual devices on the network,
前記構成管理情報スキーマ定義と、 前記伝播モデルと、 前記構成情報とに基づ いて、 各機器において生ずる各障害イベントに対応して設けられたカウント手段 (54) と、 前記カウント手段 (54) の内容に基づき所定の方法によって障害 イベントの障害原因を推論するための比較手段 (52) とを含む推論手段 (3 4) とを含み、  A counting unit (54) provided corresponding to each failure event occurring in each device based on the configuration management information schema definition, the propagation model, and the configuration information; Comparing means (52) for inferring the fault cause of the fault event by a predetermined method based on the content, and inference means (34) including
前記カウント手段 (54) は、  The counting means (54)
各カウント値を保持するための複数の記憶領域を含む記憶手段 (70) と、 各前記記憶領域に対して、 前記構成管理情報スキーマ定義と、 前記伝播モデル と、 前記構成情報とに基づいて、 その上限値を設定するための手段 (140) と、 入力される障害イベントに応答して、 前記構成管理情報スキーマ定義と、 前記 伝播モデルと、 前記構成情報と、 更新のための所定のルール (80) とに基づい て、 前記入力される障害イベントに対応した前記記憶領域の値を更新するための 論理手段 (74) とを含む、 機械可読な記録媒体。  A storage unit (70) including a plurality of storage areas for holding each count value; and for each of the storage areas, the configuration management information schema definition, the propagation model, and the configuration information, Means for setting the upper limit value (140), and in response to an input failure event, the configuration management information schema definition, the propagation model, the configuration information, and a predetermined rule for updating ( 80) based on the above, logic means (74) for updating the value of the storage area corresponding to the input failure event.
18. 前記カウント手段 (54) は、 機器の接続関係のみからなる、 カウント 用の構成情報を保持するための手段 (78) をさらに含み、  18. The counting means (54) further includes means (78) for holding configuration information for counting, consisting only of the connection relation of the devices,
前記論理手段 (74) は、 障害イベントが入力されたことに応答して、 前記所 定のルールと、 前記カウント用の構成情報とに参照して、 障害イベントの入力に 応答して動作するべきカウント手段 (54) を判定し動作させるための手段 (図 15 ; 142、 144) を含む、 請求項 17に記載の機械可読な記録媒体。  The logic means (74) should operate in response to the input of the failure event, referring to the predetermined rule and the configuration information for counting in response to the input of the failure event. 18. The machine-readable recording medium according to claim 17, comprising means for determining and operating the counting means (54) (Fig. 15; 142, 144).
19. 前記カウント手段 (54) 1 前記ネットワーク管理システムの起動時 に前記複数の記憶領域を生成し、 それぞれの上限値を設定するための手段 (14 0) を含む、 請求項 1 7に記載の機械可読な記録媒体。 19. The counting means (54) 1 When the network management system is started 18. The machine-readable recording medium according to claim 17, further comprising: means (140) for generating the plurality of storage areas and setting respective upper limits.
20. 前記カウント手段 (54) 力 S、 障害イベントが入力されたことに応答し て、 必要な前記記憶領域を確保し、 対応する上限値を設定するための手段を含む、 請求項 17に記載の機械可読な記録媒体。  20. The counting means (54), comprising means for reserving the required storage area and setting a corresponding upper limit in response to the input of a force S and a failure event. Machine-readable recording medium.
21. 前記推論手段 (34) は、 各障害イベントが入力されたことに応答して 真の障害原因の推論を行うための手段を含む、 請求項 1 7に記載の機械可読な記 録媒体。  21. The machine-readable recording medium according to claim 17, wherein said inference means (34) includes means for inferring a true cause of failure in response to input of each failure event.
22. 前記推論手段 (34) は、 所定時間の経過ごとに真の障害原因の推論を 行うための手段 (図 9) を含む、 請求項 17に記載の機械可読な記録媒体。  22. The machine-readable recording medium according to claim 17, wherein the inference means (34) includes means (FIG. 9) for inferring the true cause of the failure every predetermined time.
23. 前記推論手段 (34) は、 各障害原因に対して、 それぞれに対応する力 ゥント値に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離 の小さいものから所定個数を障害原因の候補として提示するための手段 (34 0) を含む、 請求項 1 7に記載の機械可読な記録媒体。  23. The inference means (34) calculates, for each cause of failure, a distance between the true cause of failure, which is defined based on the corresponding force point value, and The machine-readable recording medium according to claim 17, further comprising: means (340) for presenting a predetermined number as a candidate for a cause of a failure.
24. 前記推論手段 (34) は、 各障害原因に対して、 それぞれに対応する力 ゥント値に基づいて定義される、 真の障害原因との間の距離を計算し、 当該距離 が所定のしきい値より小さなもののみを障害原因の候補として提示するための手 段 (308、 350) を含む、 請求項 1 7に記載の機械可読な記録媒体。  24. The inference means (34) calculates a distance between each fault cause and a true fault cause, which is defined based on the corresponding force value, and determines that the distance is a predetermined distance. 18. The machine-readable recording medium according to claim 17, comprising means for presenting only a value smaller than the threshold value as a candidate for a cause of failure.
25. 前記推論手段 (34) は、 前記障害原因の候補を、 それぞれの距離にし たがってソートした順番で提示するための手段 (340、 350) を含む、 請求 項 24に記載の機械可読な記録媒体。  25. The machine-readable record of claim 24, wherein the inference means (34) includes means (340, 350) for presenting the fault cause candidates in a sorted order according to their respective distances. Medium.
26. 前記推論手段 (34) は、 提示される各障害原因の候補に対して、 それ ぞれのカウント手段 (54) のカウント値に応じて計算される確信度を計算し付 与して提示するための手段 (350) を含む、 請求項 1 7に記載の機械可読な記 録媒体。  26. The inference means (34) calculates and gives a certainty factor calculated in accordance with the count value of each counting means (54) to each of the presented fault cause candidates. 18. The machine-readable recording medium of claim 17, comprising means for performing (350).
27. 前記カウント手段 (54) は、 前記論理手段 (74) により更新された 記憶領域を特定する情報を記憶するためのカウント済領域記憶手段 (76) を含 み、  27. The counting means (54) includes counted area storage means (76) for storing information specifying the storage area updated by the logic means (74),
前記推論手段 (34) は、 前記カウント済領域記憶手段 (76) に記憶された 記憶領域のみを、 推論における計算の対象とする、 請求項 17に記載の機械可読 な記録媒体。 The inference means (34) is stored in the counted area storage means (76). 18. The machine-readable recording medium according to claim 17, wherein only the storage area is a target of calculation in the inference.
28. 前記記憶手段 (70) は、 各前記記憶領域が所定の障害イベントに応答 して更新されたか否かを示すフラグを格納する領域を含み、  28. The storage means (70) includes an area for storing a flag indicating whether each of the storage areas has been updated in response to a predetermined failure event,
'己論理手段 (74) は、 前記フラグを維持するとともに、 前記フラグの内容 により各前記記憶領域内の値を更新するか否かを決定する手段を含む、 請求項 1 7に記載の機械可読な記録媒体。  The machine-readable device according to claim 17, wherein the self-logic means (74) includes means for maintaining the flag and determining whether to update a value in each of the storage areas according to the content of the flag. Recording medium.
29. 前記論理手段 (74) による更新は、 入力された障害イベントの波及範 囲の各前記記憶領域内の値を所定の値でィンクリメントする処理を含み、 前記所定の値は 0より大きく 1以下の値である、 請求項 17に記載の機械可読 な記録媒体。  29. The update by the logic means (74) includes a process of incrementing a value in each of the storage areas in the range of the input failure event by a predetermined value, wherein the predetermined value is greater than 0 and less than or equal to 1 18. The machine-readable recording medium according to claim 17, which has a value of:
30. 前記カウント手段 (54) は、 前記論理手段 (74) がある障害ィベン トの入力に応答して更新した前記記憶領域を特定する情報を保持するためのキヤ ッシュ手段 (72) をさらに含み、  30. The counting means (54) further includes a cache means (72) for holding information specifying the storage area updated in response to an input of a failure event by the logic means (74). ,
前記論理手段 (74) は、 前記ある障害イベントが再度入力されたときに、 前 記キャッシュ手段 (72) に記憶された情報に基づいて特定される前記記憶領域 を更新する手段を含む、 請求項 1 7に記載の機械可読な記録媒体。  The logic means (74) includes means for updating the storage area specified based on the information stored in the cache means (72) when the certain failure event is input again. 17. The machine-readable recording medium according to item 7.
31. 前記キャッシュ手段 (72) は、 前記記憶領域を特定する前記情報が最 後に参照された時刻を示す情報を保持し、  31. The cache means (72) holds information indicating a time when the information specifying the storage area was last referenced,
前記カウント手段 (54) は、 ある一定時間以上参照されていない情報を前記 キャッシュ手段 (72) から削除するための手段をさらに含む、 請求項 30に記 載の機械可読な記録媒体。  31. The machine-readable recording medium according to claim 30, wherein said counting means (54) further includes means for deleting from said cache means (72) information that has not been referenced for a certain period of time or more.
32. 前記カウント手段 (54) は、 入力される障害イベントを蓄積し、 障害 イベント間の相互相関を検出して、 前記伝播モデルに記述されていない新たな障 害伝播の伝播モデルを前記論理手段 (74) にフィードバックするための伝播ル 32. The counting means (54) accumulates input fault events, detects a cross-correlation between the fault events, and outputs a new fault propagation model not described in the propagation model to the logic means. Propagation rules for feedback to (74)
—ル検出手段 (60) をさらに含み、 — Further comprising means (60) for detecting
前記論理手段 (74) は、 前記伝播ルール検出手段 (60) からのフィードバ ックを受けて、 前記所定のルールを再構築する手段を含む、 請求項 17に記載の 機械可読な記録媒体。  The machine-readable recording medium according to claim 17, wherein the logic means (74) includes means for receiving the feedback from the propagation rule detection means (60) and reconstructing the predetermined rule.
PCT/JP1999/004041 1999-07-28 1999-07-28 Network managing system WO2001008016A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
AU49287/99A AU4928799A (en) 1999-07-28 1999-07-28 Network managing system
PCT/JP1999/004041 WO2001008016A1 (en) 1999-07-28 1999-07-28 Network managing system
GB0114407A GB2363286B (en) 1999-07-28 1999-07-28 Network managing system
CA002348294A CA2348294A1 (en) 1999-07-28 1999-07-28 Network management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/004041 WO2001008016A1 (en) 1999-07-28 1999-07-28 Network managing system

Publications (1)

Publication Number Publication Date
WO2001008016A1 true WO2001008016A1 (en) 2001-02-01

Family

ID=14236326

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/004041 WO2001008016A1 (en) 1999-07-28 1999-07-28 Network managing system

Country Status (4)

Country Link
AU (1) AU4928799A (en)
CA (1) CA2348294A1 (en)
GB (1) GB2363286B (en)
WO (1) WO2001008016A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122106B2 (en) 2003-03-06 2012-02-21 Microsoft Corporation Integrating design, deployment, and management phases for systems
US8489728B2 (en) 2005-04-15 2013-07-16 Microsoft Corporation Model-based system monitoring
CN109669844B (en) * 2018-11-27 2022-08-23 平安科技(深圳)有限公司 Equipment fault processing method, device, equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0730540A (en) * 1993-07-08 1995-01-31 Hitachi Ltd Network fault monitor equipment
JPH0818593A (en) * 1994-06-27 1996-01-19 Internatl Business Mach Corp <Ibm> Limited plurality of fault management method and diagnostic system
JPH09247145A (en) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> Network management system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0730540A (en) * 1993-07-08 1995-01-31 Hitachi Ltd Network fault monitor equipment
JPH0818593A (en) * 1994-06-27 1996-01-19 Internatl Business Mach Corp <Ibm> Limited plurality of fault management method and diagnostic system
JPH09247145A (en) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> Network management system

Also Published As

Publication number Publication date
GB2363286B (en) 2003-08-27
GB2363286A (en) 2001-12-12
GB0114407D0 (en) 2001-08-08
AU4928799A (en) 2001-02-13
CA2348294A1 (en) 2001-02-01

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
EP2341434B1 (en) Method and apparatus for performing root cause analysis
US10303539B2 (en) Automatic troubleshooting from computer system monitoring data based on analyzing sequences of changes
US9378112B2 (en) Predictive alert threshold determination tool
JP4997856B2 (en) Database analysis program, database analysis apparatus, and database analysis method
US10592327B2 (en) Apparatus, system, and method for analyzing logs
CN104903866A (en) Management system and method for assisting event root cause analysis
US20210406288A1 (en) Novelty detection system
US10585932B1 (en) Methods and apparatus for generating causality matrix and impacts using graph processing
AU2021309929B2 (en) Anomaly detection in network topology
JP6280862B2 (en) Event analysis system and method
JPWO2011055436A1 (en) Operation management apparatus and operation management method
US8909768B1 (en) Monitoring of metrics to identify abnormalities in a large scale distributed computing environment
CN111240876A (en) Fault positioning method and device for microservice, storage medium and terminal
CN112559538A (en) Incidence relation generation method and device, computer equipment and storage medium
Peng et al. Mining logs files for data-driven system management
CN116418653A (en) Fault positioning method and device based on multi-index root cause positioning algorithm
WO2001008016A1 (en) Network managing system
JPH11308222A (en) Network management system
CN114881521A (en) Service evaluation method, device, electronic equipment and storage medium
CN111338609B (en) Information acquisition method, device, storage medium and terminal
Karami et al. Maintaining accurate web usage models using updates from activity diagrams
JPH11308221A (en) Network management system
EP3671467A1 (en) Gui application testing using bots
CN117389908B (en) Dependency analysis method, system and medium for interface automation test case

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AU CA CN GB IN KR US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 09830172

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2348294

Country of ref document: CA

Ref country code: CA

Ref document number: 2348294

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 49287/99

Country of ref document: AU

ENP Entry into the national phase

Ref country code: GB

Ref document number: 200114407

Kind code of ref document: A

Format of ref document f/p: F