WO2009110329A1 - 障害分析装置、障害分析方法および記録媒体 - Google Patents

障害分析装置、障害分析方法および記録媒体 Download PDF

Info

Publication number
WO2009110329A1
WO2009110329A1 PCT/JP2009/053017 JP2009053017W WO2009110329A1 WO 2009110329 A1 WO2009110329 A1 WO 2009110329A1 JP 2009053017 W JP2009053017 W JP 2009053017W WO 2009110329 A1 WO2009110329 A1 WO 2009110329A1
Authority
WO
WIPO (PCT)
Prior art keywords
system information
information
monitoring target
target device
failure
Prior art date
Application number
PCT/JP2009/053017
Other languages
English (en)
French (fr)
Inventor
慎二 中台
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US12/735,863 priority Critical patent/US8448025B2/en
Publication of WO2009110329A1 publication Critical patent/WO2009110329A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Definitions

  • the present invention relates to a failure analysis device, a failure analysis method and a recording medium, and more particularly to a failure analysis device, a failure analysis method and a recording medium capable of detecting and classifying a system failure without setting a rule or a threshold.
  • FIG. 1 is a view showing an example of a fault analysis apparatus, which is disclosed in Japanese Patent No. 3581934.
  • the fault analysis apparatus 100 is configured of an abnormal call amount monitoring unit 101 such as an operation measurement record (OM) transfer unit or a fault record transfer unit, a threshold determination unit 115, and a determination result display unit 116. It is done.
  • an abnormal call amount monitoring unit 101 such as an operation measurement record (OM) transfer unit or a fault record transfer unit
  • OM operation measurement record
  • a threshold determination unit 115 threshold determination unit
  • a determination result display unit 116 a determination result display unit 116. It is done.
  • the fault analysis apparatus 100 configured as described above operates as follows.
  • the abnormal call amount monitoring unit 101 monitors the existence of logs indicating occurrence of abnormality from the monitoring target devices 131 and 132, and if there is a log, the call amount which is the traffic amount per hour according to the type of abnormality Count.
  • the threshold determination unit 115 notifies the maintenance operator of the abnormality as a failure through the determination result display unit 116 when the call volume in a fixed time becomes equal to or more than a predetermined threshold.
  • the fault analysis apparatus 100 shown in FIG. 1 can automatically detect a fault.
  • FIG. 2 is a diagram showing another example of the failure analyzer, and the documents “JING WU, JIAN-GUO ZHOU, PU-LIUYAN, MING WU,“ A STUDY ON NET WORK FAULT KNOWLEDGE ACQUISITION BASED ON SUPPORT VECTOR MACHINE ”, Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, Guangzhou, 18-21 August 2005.
  • the fault analysis apparatus 200 monitors an abnormality degree monitoring unit 201, an abnormality degree storage unit 210, and a failure case registration unit. 211, a case storage unit 212, a pattern learning unit 213, a knowledge storage unit 214, a pattern determination unit 215, a determination result display unit 216, and a determination correction input unit 217.
  • the fault analysis apparatus 200 configured as described above collects, from the monitoring results of the monitoring target devices 231 to 234, an abnormality degree which is an index indicating the possibility of a failure in the device or line unit.
  • FIG. 3 is a diagram showing values of the degree of abnormality used in the failure analysis apparatus 200 shown in FIG.
  • the degree of abnormality used in the failure analysis apparatus 200 shown in FIG. 2 includes values such as whether the link is down, an error rate, a congestion rate, a rejection rate, and a utilization rate.
  • the pattern determination unit 215 determines, using the knowledge information stored in the knowledge storage unit 214, whether the failure has occurred in the monitoring target system 230 or not, and the determination result display unit 216 determines the combination of the obtained degree of abnormality. Present the results of the judgment to the maintenance operator.
  • the knowledge information stored in the knowledge storage unit 214 is generated in the following procedure.
  • the maintenance operator uses the failure case registration unit 211 to register past failure cases in the case storage unit 212.
  • the pattern learning unit 213 generates knowledge information from the combination of the failure case stored in the case storage unit 212 and the abnormality degree stored in the abnormality degree storage unit 210, and stores the knowledge information in the knowledge storage unit 214.
  • the failure case is information indicating when and what kind of failure occurred.
  • the pattern learning unit 213 generates knowledge information by pattern learning performed using a pattern identifier called Support Vector Machine (SVM).
  • SVM Support Vector Machine
  • a one-dimensional class (pattern) is estimated from multi-dimensional variables, variables used as multi-dimensional variables are called features, and a d-dimensional space with d features is called feature space Rd. If the input variable is a feature variable x ( ⁇ Rd) in this feature space and the output variable is a class y ( ⁇ ⁇ 1, -1 ⁇ ), y changes when x exceeds a certain region in the feature space The boundary of the area that produces such changes is called the hyperplane.
  • the knowledge information obtained by the pattern learning means 213 is a threshold value for detecting and classifying this disorder, and in a feature space consisting of a combination of abnormal degrees, it becomes a hyperplane for classifying a plurality of classes.
  • failure determination result indicated by the determination result display unit 216 to the maintenance operator is not actually a failure, it is input to the case storage unit 212 using the determination correction input unit 217.
  • a fault in the fault analysis device 200 shown in FIG. 2, unlike the fault analysis device 100 shown in FIG. 1, a fault can be detected without setting a threshold for fault detection and classification. it can.
  • the influence of the failure does not appear in the variable that indicates the degree of abnormality, but appears in a variable that is not a variable that indicates the degree of abnormality, such as the number of times of data transmission in a predetermined period in inter-device communication.
  • a maintenance operator registers a failure case, the failure can not be detected or classified, or the accuracy of the detection is poor.
  • the present invention has been made in view of the above-mentioned problems, and it is possible to detect a fault in which the effect of a fault does not appear in a variable indicating an abnormality degree and appears in a variable other than a variable indicating an abnormality degree It is an object of the present invention to provide a capable failure analysis device, a failure analysis method and a recording medium.
  • the present invention is System information receiving means for sequentially receiving the system information and the identification information of the system information from the monitoring target device which sequentially outputs system information including a plurality of index values indicating the abnormality degree of the monitoring target device together with the identification information of the system information
  • Type determination means for comparing each of the system information received by the system information receiving means with a predetermined determination standard, and classifying each of the system information according to types based on the comparison result;
  • a determination result output unit that associates and outputs identification information of each of the system information and information indicating the classification into which each of the system information is classified;
  • Failure case registration means for receiving information indicating the true type of identification information of each of the system information;
  • a case storage unit that stores identification information of each of the system information in association with the true type;
  • Pattern learning means for updating the determination criteria based on each system information received by the system information receiving means and information indicating the true type stored in association with the identification information of each system information;
  • Have The type determination unit classifies each of the system information by type by including the
  • the system information and identification information of the system information are sequentially output from a monitoring target device in which the information processing apparatus sequentially outputs system information including a plurality of index values indicating the degree of abnormality of the monitoring target device together with the identification information of the system information.
  • the information processing apparatus compares each of the received system information with a predetermined determination standard, and classifies the system information for each type based on the comparison result;
  • the information processing apparatus outputs identification information of each of the system information and information indicating the classification into which each of the system information is classified, in association with each other;
  • the information processing apparatus receives input of information indicating a true type of identification information of each of the system information;
  • the information processing apparatus storing identification information of each of the system information in association with the true type; Updating the determination criterion based on each received system information and information indicating a true type stored in association with the identification information of each of the system information; Classifying the system information for each type by comparing the information processing apparatus with the determination criteria including an index value unrelated to the abnormality degree of the monitoring target apparatus in each of the system information Have.
  • the present invention can also detect and classify a disorder in which the effect of the disorder does not appear in a variable indicating the degree of abnormality but appears in a variable other than the variable indicating the degree of abnormality.
  • FIG. 1 It is a figure showing an example of a fault analysis device. It is a figure which shows the other example of a failure analysis apparatus. It is a figure which shows the value of the abnormality degree used by the failure analysis apparatus shown in FIG. It is a block diagram showing one embodiment of a fault analysis device of the present invention. It is a figure which shows the table in the case storage part shown in FIG. It is a figure which shows the table stored in the condition storage part shown in FIG. It is a figure which shows the data structure stored in the pattern learning part shown in FIG. It is a flowchart for demonstrating the operation
  • FIG. It is a flowchart for demonstrating the operation
  • FIG. 4 is a block diagram showing an embodiment of the fault analysis apparatus of the present invention.
  • a computer central processing unit, processor, and data processing unit which is an information processing unit connected communicably to a system 430 including monitored devices 431 to 434 and operating under program control At least 400).
  • the computer 400 includes a failure case registration unit 411, a case storage unit 412, a system status acquisition unit 401 which is a system information reception unit, a situation storage unit 410, a pattern learning unit 413, a knowledge storage unit 414, and type determination. It includes a pattern determination unit 415 that is a means, a determination result display unit 416 that is a determination result output unit, and a determination correction input unit 417.
  • the failure case registration unit 411 is connected to the case storage unit 412
  • the case storage unit 412 is connected to the failure case registration unit 411 and the pattern learning unit 413, respectively
  • the pattern learning unit 413 is a situation storage unit 410 and a knowledge storage unit.
  • the situation storage unit 410 is connected to the pattern learning unit 413 and the system condition acquisition unit 401
  • the knowledge storage unit 414 is connected to the pattern learning unit 413 and the pattern determination unit 415, respectively.
  • Unit 401 is connected to status storage unit 410 and pattern determination unit 414
  • pattern determination unit 415 is connected to knowledge storage unit 414, system status acquisition unit 401 and determination result display unit 416, respectively, and determination result display unit 416. Are connected to the pattern determination unit 415.
  • the knowledge information, the threshold value, the boundary surface, and the hyperplane refer to the same thing, which corresponds to the determination criteria of the present invention. Also.
  • the features in the present embodiment correspond to the index values in the present invention.
  • the failure case registration unit 411 receives an input of failure occurrence time and place from a terminal (not shown) used by a maintenance operator who is an operator in the present invention.
  • This set of failure occurrence time and place is called a case.
  • the case is information in which the failure occurrence time and the place described above or the time and the place where the failure was normal are associated with each other.
  • time and place stored as an example may have a spread like a period or a range.
  • cases include a failure case showing a case of an actual failure and a normal case showing a case of a normal case.
  • the failure cases include the time and place of failure occurrence, and the normal cases include the time and place that were normal.
  • the case may include the type of case (corresponding to class, pattern, or true type in the present invention).
  • the type of case is information indicating that the case is normal or information including the type of failure.
  • the failure case includes the failure occurrence time, the location, and the type of the failure
  • the normal case includes the time and the location that was normal and the information indicating that the case is normal.
  • the type of case may be configured as information independent of the case. In this embodiment, it is considered that the case does not include the type of the case.
  • the case may include the type of case.
  • the failure case registration unit 411 may receive an input of the type of the case as well as the case.
  • the location may be an identifier for identifying each of the monitoring target devices 431 to 434, or may be a device such as a line name or an address that can identify the location of failure occurrence.
  • the failure occurrence time and place are included in the identification information of the system information (status information) of the present invention. Further, in the present embodiment, identification information of system information corresponds to a case.
  • the identification information of the system information may include information that can identify the system information, and may include an identifier uniquely assigned.
  • the case storage unit 412 receives a case from the failure case registration unit 411 or a determination correction input unit 417 described later, and stores the received case.
  • FIG. 5 is a diagram showing a table in the case storage unit 412 shown in FIG.
  • the case storage unit 412 stores the case number, the time, the place, and the pattern in association with each other.
  • the case number, time and location are identification information of system information, and the pattern is the type of case.
  • the case number, the time, and the place are not essential, and at least one piece of information that can identify the system information is required.
  • the system status acquisition unit 401 acquires system information (status information) in the monitoring target device from the monitoring target devices 431 to 434 in the monitoring target system 430.
  • the system information includes not only the degree of abnormality but also status information of the monitoring target device.
  • the system status acquisition unit 401 stores the acquired system information in the status storage unit 410.
  • the situation information is a value different from the degree of abnormality, and the magnitude of the value does not represent the possibility of failure. For example, the number of times a device transmits data with another device in a predetermined period does not indicate the possibility of failure even if its value is large.
  • the degree of abnormality corresponds to a plurality of index values indicating the degree of abnormality of the monitoring target device in the present invention.
  • the status information corresponds to an index value that is not related to the degree of abnormality of the monitoring target device.
  • information (called system information) including abnormality and status information corresponds to the system information of the present invention.
  • the system status acquisition unit 401 stores the acquired system information in the status storage unit 410.
  • Features that are the basis of the feature space used when the pattern learning unit 413 performs pattern learning are included in these system information.
  • the system status acquisition unit 401 includes the number of trials acquisition unit 402, the number of events acquisition unit 403, the time acquisition unit 404, the day of the week acquisition unit 405, the temporal situation estimated value acquisition unit 406, and the configuration situation estimated value. And an acquisition unit 407.
  • the system status acquisition unit 401 includes the number of trials acquisition unit 402, the number of events acquisition unit 403, the time acquisition unit 404, the day of the week acquisition unit 405, the temporal situation estimated value acquisition unit 406, and the configuration state estimated value acquisition unit 407. And pass the received system information.
  • the number of trials acquisition unit 402, the number of events acquisition unit 403, the time acquisition unit 404, the day of the week acquisition unit 405, the temporal situation estimated value acquisition unit 406, and the configuration situation estimated value acquisition unit 407 perform each process based on the received system information. Then, the output result is passed to the pattern determination unit 415.
  • the trial number acquisition unit 402 acquires transmission number information indicating the number of times the monitoring target devices 431 to 434 have transmitted data to other devices connected to the monitoring target device in a predetermined period.
  • the acquisition method may be performed, for example, by extracting transmission number information included in system information. Then, the trial number acquisition unit 402 passes the acquired transmission number information to the pattern determination unit 415.
  • the event number acquisition unit 403 acquires the number of events in a predetermined period that has occurred in the monitoring target devices 431 to 434. For example, it is the number of activations of a predetermined period in the monitoring target device.
  • the acquisition method may be performed, for example, by extracting information indicating the above-described number of activations and the like included in the system information. Then, the number-of-trials acquisition unit 402 passes information indicating the acquired number of events to the pattern determination unit 415.
  • the time acquisition unit 404 acquires time information indicating the time when the case occurred or the time when the monitoring was performed.
  • the acquisition method may be performed, for example, by extracting time information included in the system information, or the current time measured by the time acquisition unit 404 may be acquired as time information. Then, the time acquisition unit 404 passes the acquired time information to the pattern determination unit 415.
  • the day-of-the-week acquisition unit 405 acquires day-of-week information indicating the day on which the case has occurred or the day on which the monitoring was performed.
  • the acquisition method may be performed, for example, by extracting day information included in the system information, or the current day measured by the day acquisition unit 405 may be acquired as day information. Then, the day-of-the-week acquisition unit 405 passes the acquired day-of-week information to the pattern determination unit 415.
  • the temporal situation estimated value acquisition unit 406 includes a temporal situation estimated value calculation unit.
  • the temporal condition estimated value calculation means calculates the predicted value of the system information of the current monitoring target device based on the system information that each monitoring target device has transmitted in the past and is stored in the status storage unit 410 described later. Then, the temporal situation estimated value acquisition unit 406 passes the calculated predicted value of the system information to the pattern determination unit 415.
  • the configuration status estimated value acquisition unit 407 includes configuration status estimated value calculation means.
  • the configuration status estimated value acquisition unit 407 passes the calculated predicted value of the system information to the pattern determination unit 415.
  • a mathematical expression model for example, an ARX model (autoregressive model with exogenous input)
  • the status storage unit 410 stores system information and the like received by the system status acquisition unit 491 in the past.
  • FIG. 6 is a diagram showing a table stored in the situation storage unit 410 shown in FIG.
  • the situation storage unit 401 associates the feature indicating the degree of abnormality or the situation information included in the system information received by the system situation acquisition unit 401 in the past, the time, the location, and the value. I remember. Also, for example, system information that can be identified by time and place may be stored so as to be returned.
  • the pattern learning unit 413 is associated with each case stored in the case storage unit 412 at the timing when the maintenance operator inputs to the failure case registration unit 411 or the determination correction input unit 417, or periodically.
  • System information is read from the status storage unit 410.
  • a feature space used by the pattern learning unit 413 is configured by each feature included in each read system information.
  • the degree of abnormality or the status information included in the system information read based on the case represents a feature vector in this feature space.
  • FIG. 7 is a diagram showing a data structure stored in the pattern learning unit 413 shown in FIG.
  • data 1901 and 1902 related to the degree of abnormality and data 1903 to 1909 related to system information are stored.
  • the pattern learning unit 413 generates a threshold (hyperplane) for detecting and classifying faults based on the read system information, and stores the threshold in the knowledge storage unit 414.
  • the knowledge storage unit 414 stores the threshold value generated by the pattern learning unit 413.
  • the pattern determination unit 415 receives system information from the system status acquisition unit 401. Then, the pattern determination unit 415 reads the threshold stored in the knowledge storage unit 414, and determines whether the received system information indicates failure or normal. Furthermore, if it is determined that the failure is a failure, it is determined what kind of failure it is, and the identification information of the system information and the determination result are passed to the determination result display unit 416.
  • the determination result display unit 416 displays, to the maintenance operator, the determination result (corresponding to the pattern, the type of the case, and the type of the present invention) received from the pattern determination unit 415 and the identification information (case) of the system information. .
  • the determination operator does not enter the determination correction input unit 417.
  • the type of case considered to be correct (corresponding to the true type of the present invention) and the case are registered in the case storage unit 412. For example, in addition to the time and place (case), the case type (true type) etc. is added to the case storage unit 412 or the maintenance operator considers the case stored in the case storage unit 412 correct. It may be corrected to
  • FIGS. 8 to 10 are flowcharts for explaining the operation of the fault analysis device 400 shown in FIG.
  • the system status acquisition unit 401 acquires system information (information including abnormality and status information) from the monitoring target system 430, and passes the acquired system information to the pattern determination unit 415 (step 501).
  • the pattern determination unit 415 determines the type of case in the monitoring target system 430 from the system information received from the system status acquisition unit 401 using the threshold (hyperplane) included in the knowledge storage unit 414, and determines the determination result (example The type, the type) and the identification information (case) of the system information are passed to the determination result display unit 416 (step 502).
  • the determination result display means 416 identifies the determined pattern (type) and the system information identification information received from the pattern determination unit 415 (example And to the maintenance operator. (Step 503).
  • the failure case registration unit 411 or the determination and correction unit 417 stores the input case in the case storage unit 412 (step 601).
  • the pattern learning unit 413 generates a threshold value for making a fault determination by pattern learning (step 602). This step may be separately executed by an instruction from the maintenance operator.
  • the pattern learning unit 413 associates all cases included in the case storage unit 412 with the time or place included in the case from the situation storage unit 410.
  • System information is acquired (steps 701 and 702).
  • the pattern learning unit 413 uses the feature vector including the degree of abnormality and the status information included in each system information associated with each case obtained from the case storage unit 412 to execute each system information.
  • the hyperplane to be classified into the pattern of the type of information case is learned (step 703), and the hyperplane is generated.
  • the pattern learning unit 413 stores the hyperplane learned and generated in the knowledge storage unit 414.
  • the pattern determination unit 415 receives each hyperplane received from the system status acquisition unit 401 using the hyperplane stored in the knowledge storage unit 414.
  • the patterns are classified for system information (step 704).
  • system information including status information on the monitored devices 431 to 434 is acquired and included in the feature space in the pattern learning unit 413. If you register, you can automatically perform more accurate fault detection and classification. The reason is that by including in the feature space a variable that is not a variable that indicates the degree of abnormality, a hyperplane can be generated or generated in the feature space, which can not be classified conventionally, to classify failure cases and normal cases This is because the margin of the hyperplane is large.
  • the maintenance operator can register failure cases and detect as different failures. .
  • the reason is that by including variables such as the number of trials in the feature space, hyperplanes for classifying different obstacles can be generated in the feature space, or the hyperplane margin that can be generated is increased.
  • a failure of the system where the number of times the user uses the system changes is analyzed, and in the feature space, a variable indicating the degree of abnormality of the system includes a call loss rate and a failure rate.
  • the accuracy of failure detection can be increased even in a time zone where the number of times of system use is low. The reason is that by including the number of trials in the feature space, it is possible to create a hyperplane that separates a space with a small number of trials and a high failure rate and a space with a large number of trials and a low failure rate. It is on the point.
  • a fundamental failure can not be found only by the abnormality degree of a single monitoring target device, and a maintenance operator registers a failure case even in a system in which a plurality of monitoring target devices interact with each other.
  • the accuracy of failure detection can be increased.
  • the reason is that by including a value estimated from the configuration status of the monitoring target device in the feature space, the relationship that was regularly established among the monitoring target devices collapses, and only the monitoring target device has an abnormality degree. Can create a hyperplane in the feature space that classifies a space that indicates that it is rising and a space that indicates that the degree of abnormality is rising with other monitored devices while maintaining that relationship. This is because the margin of hyperplanes that can be generated is increased.
  • FIG. 11 is a configuration diagram of a monitoring target for describing an embodiment of the operation of the failure analysis apparatus 400 shown in FIG.
  • FIG. 12 is a diagram showing a feature space for describing an embodiment of the operation of the fault analysis device 400 shown in FIG.
  • the monitoring target device 1001 exists in the monitoring target system 430, and in connection with another monitoring target device 1002, the unit time per unit time of the connection request from the monitoring target device 1001. It is assumed that the number of trials of has a change as shown in time change 1011 and the call loss rate of the trial has a change as shown in time change 1012.
  • This time-series data assumes that a failure has occurred at a certain time, but as shown by the time change 1012, it does not appear in the call loss rate. Although the number of trials has been reduced, the number of trials per se is not an obstacle.
  • both normal cases 1101 and fault cases 1102 are also distributed in the neighboring region in the feature space. The generation of hyperplanes that separates is difficult or can only generate interfaces with low accuracy.
  • the number of trials 1113 is low even in the normal time zone such as the late-night time zone, it may be mixed in with the failure case such as the normal case 1116. This corresponds to detection as a failure in the late-night time zone.
  • a time zone 1118 may be included in the feature space in addition to the number of trials 1117. By doing this, it is possible to generate a hyperplane that accurately separates a case in which the number of trials decreases in the late-night time zone and a case in which the number of trials decreases in the daytime.
  • the temporal situation estimated value 1013 (1120) of the number of trials may be used.
  • FIG. 13 is a configuration diagram of a monitoring target for explaining another example of the operation of the failure analysis apparatus 400 shown in FIG.
  • FIG. 14 is a diagram showing a feature space for describing another example of the operation of the fault analysis device 400 shown in FIG.
  • a monitoring target device 1201 exists in the monitoring target system 430, and in connection with another monitoring target device 1202, if a connection request fails, it is resent. It is assumed that there is a failure in a state and a failure in a state not to be retransmitted.
  • the system status acquisition unit 401 In the case where the number-of-trials acquisition unit 402 does not exist and the number of trials is not included in the feature space, as shown in FIG. 14, the case 1311 of the failure pattern 1 and the case 1312 of the failure pattern 2 are also close regions in the feature space. Distribution of hyperplanes, which makes it difficult to generate hyperplanes separating them, or can generate only low-precision hyperplanes.
  • the hyperplane 1323 can be generated to separate the case 1311 of the failure pattern 1 and the case 1312 of the failure pattern 2.
  • FIG. 15 is a configuration diagram of a monitoring target for describing another example of the operation of the fault analysis device 400 shown in FIG.
  • FIG. 16 is a diagram showing a feature space for describing another example of the operation of the fault analysis device 400 shown in FIG.
  • the monitoring target device 1401 is present in the monitoring target system 430, and the time change 1403 of the number of trials per unit time in connection with other monitoring target devices 1402 It is assumed that there is a call loss rate 1404 per unit time.
  • a hyperplane is also generated that determines normal cases 1504 as failure as well, but if the number of trials is also included in the feature space, the number of trials is It is possible to create hyperplanes that are easy to separate between the case 1514 in which the number of calls is dropped when the number is low and the call loss rate is high, and the case where it is an actual failure.
  • FIG. 17 is a configuration diagram of a monitoring target for explaining another example of the operation of the fault analysis device 400 shown in FIG.
  • FIG. 18 is a diagram showing a feature space for describing another example of the operation of the fault analysis device 400 shown in FIG.
  • an application server 1601 exists as a monitored device in the monitored system 430, and the CPU utilization is acquired by monitoring as its abnormality degree, and as another monitored device It is assumed that the Web server 1604 exists, the CPU utilization is acquired by monitoring as the abnormality degree, and time series data 1605 is obtained.
  • time series data 1606 of App server values estimated from the values obtained from the Web server 1604 can be obtained.
  • a hyperplane that separates the failure case 1704 and the normal case 1703 of the device is as shown in FIG.
  • a hyperplane that separates the failure case 1704 and the normal case 1703 of the device is as shown in FIG.
  • Only hyperplanes that can not be generated or have low classification accuracy can be generated, when configuration situation inferred values are also included in the feature space, only the anomaly of only the relevant device is high despite the fact that the associated device is normal. It is possible to create a hyperplane that is easy to separate the space representing the space and the space representing that both the device and other related devices have a high degree of abnormality.
  • the present invention can be applied to applications such as operation management of computer systems and network systems.
  • the processing in the failure analysis device is recorded on a recording medium readable by the failure analysis device, in addition to the one realized by the dedicated hardware described above.
  • the program recorded on the recording medium may be read by the fault analysis device and executed.
  • Recording media that can be read by the fault analysis device include IC cards, memory cards, floppy disks (registered trademark), magneto-optical disks, DVDs, CDs, and other removable storage media, as well as built-in fault analysis devices. Refers to the HDD etc.
  • the program recorded on the recording medium is read by, for example, a control block, and the same processing as described above is performed by the control of the control block.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信し、前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類し、前記識別情報と対応付けて出力し、真の種別を示す情報の入力を受け付け、前記識別情報と対応付けて記憶し、前記各システム情報と、前記真の種別を示す情報とに基づいて、前記判定基準を更新し、前記種別判定手順は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。

Description

障害分析装置、障害分析方法および記録媒体
 本発明は、障害分析装置、障害分析方法および記録媒体に関し、特に、ルールや閾値を設定することなく、システム障害を検出して分類できる障害分析装置、障害分析方法および記録媒体に関する。
 図1は、障害分析装置の一例を示す図であり、特許第3581934号公報に開示されたものを示す。
 図1に示すように、この障害分析装置100は、動作測定記録(OM)転送ユニットや障害記録転送ユニットといった異常呼量監視部101と、閾値判定部115と、判定結果表示部116とから構成されている。
 上記のように構成された障害分析装置100は、次のように動作する。
 異常呼量監視部101が、監視対象装置131,132から異常の発生を示すログの有無を監視し、ログが存在する場合は、異常の種別に応じて、時間当たりのトラフィック量である呼量をカウントする。閾値判定部115は、一定時間内の呼量が所定の閾値以上になると、判定結果表示部116を通じて、保守運用者にその異常を障害として通知する。
 このような動作により、図1に示した障害分析装置100では、自動で障害を検出することができる。
 図2は、障害分析装置の他の例を示す図であり、文献“JING WU, JIAN-GUO ZHOU, PU-LIUYAN, MING WU、「A STUDY ON NET WORK FAULT KNOWLEDGE ACQUISITION BASED ON SUPPORTVECTOR MACHINE」、Proceedings of the Fourth International Conference on MachineLearning and Cybernetics, Guangzhou, 18-21 August 2005”に開示されたものを示す。
 図2に示すように、この障害分析装置200は、監視対象装置231~234からなる監視対象システム230を管理するために、異常度監視部201と、異常度格納部210と、障害事例登録部211と、事例格納部212と、パターン学習部213と、知識格納部214と、パターン判定部215と、判定結果表示部216と、判定修正入力部217とから構成されている。
 上記のように構成された障害分析装置200は、監視対象装置231~234に対する監視結果から、装置や回線単位の故障の可能性を表す指標である異常度を収集する。
 図3は、図2に示した障害分析装置200で用いられる異常度の値を示す図である。
 図2に示した障害分析装置200で用いられる異常度は、図3に示すように、リンクが落ちているか否か、エラー率、輻輳率、棄却率、利用率といった値が挙げられる。
 得られた異常度の組み合わせを、パターン判定部215は、知識格納部214に格納された知識情報を用いて、監視対象システム230において障害が発生したか否かを判定し、判定結果表示部216を通して、判定結果を保守運用者に提示する。
 知識格納部214に格納される知識情報は、以下の手順で生成される。
 まず、保守運用者が障害事例登録部211を用いて、過去の障害事例を事例格納部212に登録する。
 パターン学習部213は、事例格納部212に格納されている障害事例と、異常度格納部210に格納された異常度の組み合わせとから知識情報を生成し、知識格納部214に格納する。ここで、障害事例とは、いつどこでどのような障害が発生したかを表す情報である。なお、パターン学習手段213は、Support Vector Machine(SVM)というパターン識別器を用いて行われるパターン学習によって知識情報を生成する。
 このSVMは、“麻生英樹, 津田宏治, 村田昇,「パターン認識と学習の統計学」、岩波書店,pp.107-123, 2005”に詳細に記載されている。一般に、パターン学習においては、まず、多次元の変数から一次元のクラス(パターン)を推定する。この多次元の変数として用いる変数を特徴と呼ぶ。またd個からなる特徴が張るd次元空間を特徴空間Rdと呼ぶ。また、入力変数を、この特徴空間における特徴変数x(∈Rd)とし、出力変数をクラスy(∈{1,-1})とすると、特徴空間内でxがある領域を超えるとyが変化する。このような変化を生む領域の境界を超平面と呼ぶ。
 この超平面は、n個の入力値xi(i=1,2,...,n)に対する出力値yiが与えられると、パターン学習により生成することができる。パターン学習の際、出力値yの異なる入力値間の距離をマージンと呼ぶ。
 パターン学習手段213にて得られる知識情報とは、この障害を検出し分類するための閾値であり、異常度の組み合わせからなる特徴空間においては、複数のクラスを分類する超平面となる。
 判定結果表示部216が保守運用者に対して示した障害判定結果が、実際には障害ではなかった場合には、判定修正入力部217を用いて、事例格納部212に入力される。
 このような動作により、図2に示した障害分析装置200では、図1に示した障害分析装置100とは異なり、障害検出および分類のための閾値を設定することなく、障害を検出することができる。
 しかしながら、上述した障害分析装置では、障害の影響が異常度を示す変数には表れず、例えば装置間通信における所定の期間にデータを送信した回数といった異常度を示す変数ではない変数に表れるような障害は、保守運用者が障害事例を登録しても、障害の検出やその障害の分類ができない、あるいは検出の精度が悪いという問題点がある。
 本発明は、上述した問題点に鑑みてなされたものであって、障害による影響が異常度を示す変数に表れず、異常度を示す変数ではない変数に表れるような障害も検出でき、または分類できる障害分析装置、障害分析方法および記録媒体を提供することを目的とする。
 上記目的を達成するために本発明は、
 監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、
 前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、
 前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する判定結果出力部と、
 前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
 前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
 前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するパターン学習手段とを有し、
 前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する。
 また、情報処理装置を用いた障害分析方法であって、
 前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信ステップと、
 前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類ステップと、
 前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力するステップと、
 前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付けるステップと、
 前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶するステップと、
 前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するステップと、
 前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類するステップとを有する。
 また、コンピュータを動作させるためのプログラムが書き込まれた記録媒体であって、
 前記コンピュータに、
 監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する手順と、
 受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する手順と、
 前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する手順と、
 前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付ける手順と、
 前記各システム情報の識別情報を前記真の種別と対応付けて記憶する手順と、
 受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新する手順と、
 前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する手順とを実行させるためのプログラムが書き込まれている。
 本発明は、障害の影響が異常度を示す変数には表れず、異常度を示す変数ではない変数に表れるような障害も検出しその障害を分類できる。
障害分析装置の一例を示す図である。 障害分析装置の他の例を示す図である。 図2に示した障害分析装置で用いられる異常度の値を示す図である。 本発明の障害分析装置の実施の一形態を示すブロック図である。 図4に示した事例格納部内のテーブルを示す図である。 図4に示した状況格納部に格納されたテーブルを示す図である。 図4に示したパターン学習部内にて格納するデータ構造を示す図である。 図4に示した障害分析装置の動作を説明するためのフローチャートである。 図4に示した障害分析装置の動作を説明するためのフローチャートである。 図4に示した障害分析装置の動作を説明するためのフローチャートである。 図4に示した障害分析装置の動作の一実施例を説明するための監視対象の構成図である。 図4に示した障害分析装置の動作の一実施例を説明するための特徴空間を示す図である。 図4に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。 図4に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。 図4に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。 図4に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。 図4に示した障害分析装置の動作の他の実施例を説明するための監視対象の構成図である。 図4に示した障害分析装置の動作の他の実施例を説明するための特徴空間を示す図である。
 以下に、本発明の実施の形態について図面を参照して説明する。
 図4は、本発明の障害分析装置の実施の一形態を示すブロック図である。
 本形態は図4に示すように、監視対象装置431~434を備えるシステム430と通信可能に接続され、プログラム制御により動作する情報処理装置であるコンピュータ(中央処理装置とプロセッサとデータ処理装置とを少なくとも備える)400である。
 コンピュータ400は、障害事例登録部411と、事例格納部412と、システム情報受信手段であるシステム状況取得部401と、状況格納部410と、パターン学習部413と、知識格納部414と、種別判定手段であるパターン判定部415と、判定結果出力手段である判定結果表示部416と、判定修正入力部417とを含む。
 障害事例登録部411は、事例格納部412と接続され、事例格納部412は、障害事例登録部411とパターン学習部413とそれぞれ接続され、パターン学習部413は、状況格納部410と知識格納部414とそれぞれ接続され、状況格納部410は、パターン学習部413とシステム状況取得部401とそれぞれ接続され、知識格納部414は、パターン学習部413とパターン判定部415とそれぞれ接続され、システム状況取得部401は、状況格納部410とパターン判定部414とそれぞれ接続され、パターン判定部415は、知識格納部414とシステム状況取得部401と判定結果表示部416とそれぞれ接続され、判定結果表示部416は、パターン判定部415と接続されている。
 なお、本形態において、知識情報、閾値、境界面および超平面は同一のものを指し、本発明の判定基準に相当する。また。本形態における特徴は、本発明における指標値に相当する。
 上述した構成要素は、それぞれ概略次のように動作する。
 障害事例登録部411は、本発明におけるオペレータとなる保守運用者が使用する図示しない端末から、障害発生時間と場所との入力を受け付ける。この障害発生時間と場所との組を事例と呼ぶ。事例とは、上述した障害発生時間と場所とが、あるいは正常であった時間と場所とが、対応付けられている情報である。ここで、事例として記憶されている時間と場所とはともに、期間や範囲のように広がりを持っていても良い。また、事例には、実際に障害であった場合の事例を示す障害事例と、実際には正常であった場合の事例を示す正常事例とがある。障害事例には障害発生時間と場所とが、正常事例には正常であった時間と場所とがそれぞれ含まれている。また、事例には事例の種類(クラス、パターンに相当する。また、本発明における真の種別に相当する)が含まれていてもよい。事例の種類とは、当該事例が正常であることを示す情報または障害の種類を含む情報である。この場合、障害事例には障害発生時間と場所と障害の種類とが、正常事例には正常であった時間と場所と当該事例が正常であることを示す情報とがそれぞれ含まれている。あるいは、事例の種類は、事例とは独立した情報として構成されていてもよい。本形態においては、事例に、事例の種類を含まないものとして考える。もちろん、事例に事例の種類を含んでいてもよい。
 障害事例登録部411は、事例とともに、当該事例の種類の入力を受け付けてもよい。場所とは、各監視対象装置431~434を識別する識別子であってもよいし、回線名や住所などのように障害発生の箇所を特定できるものであればよい。障害発生時間と場所とは、本発明のシステム情報(状況情報)の識別情報に含まれるものである。また、本形態では、システム情報の識別情報は事例に相当する。なお、システム情報の識別情報は、システム情報が識別できる情報を含んでいればよく、一意に付される識別子などを含んでいればよい。
 事例格納部412は、障害事例登録部411または後述する判定修正入力部417から事例を受け取り、受け取った事例を格納する。
 図5は、図4に示した事例格納部412内のテーブルを示す図である。
 図5に示すように、事例格納部412は、事例番号と時刻と場所とパターンとを対応付けて記憶している。事例番号、時刻および場所は、システム情報の識別情報であり、パターンは事例の種類である。なお、事例番号、時刻、場所はそれぞれ必須ではなく、システム情報を識別できる情報が少なくとも1つあればよい。
 システム状況取得部401は、監視対象システム430における監視対象装置431~434から当該監視対象装置におけるシステム情報(状況情報)を取得する。このシステム情報には、異常度だけではなく、当該監視対象装置における状況情報も含む。システム状況取得部401は、取得したシステム情報を状況格納部410に格納する。状況情報とは、異常度とは異なり、その値の大小が障害の可能性を表さない値である。例えば、装置が他の装置と所定の期間にデータを送信した回数は、その値が大きくても、故障の可能性を示すものではない。本形態では、異常度は、本発明において監視対象装置の異常度を示す複数の指標値に相当する。また、状況情報は、監視対象装置の異常度とは関係のない指標値に相当する。また、異常度と状況情報とを含む情報(システム情報を呼ぶ)は、本発明のシステム情報に相当する。
 システム状況取得部401は、取得したシステム情報を状況格納部410に格納する。パターン学習部413がパターン学習を行う際に用いる特徴空間の基底となる特徴は、これらのシステム情報に含まれる。
 また、このシステム状況取得部401は、試行回数取得部402と、イベント数取得部403と、時刻取得部404と、曜日取得部405と、時間的状況推測値取得部406と、構成状況推測値取得部407とを備える。システム状況取得部401は、試行回数取得部402と、イベント数取得部403と、時刻取得部404と、曜日取得部405と、時間的状況推測値取得部406と、構成状況推測値取得部407とに受け取ったシステム情報を渡す。試行回数取得部402、イベント数取得部403、時刻取得部404、曜日取得部405、時間的状況推測値取得部406および構成状況推測値取得部407は、受け取ったシステム情報を基に各処理を行い、出力結果をパターン判定部415に渡す。
 試行回数取得部402は、監視対象装置431~434が、当該監視対象装置に接続されるその他の装置に所定の期間にデータを送信した回数を示す送信回数情報を取得する。取得方法は、例えば、システム情報に含まれる送信回数情報を抽出することによって行ってもよい。そして、試行回数取得部402は、取得した送信回数情報をパターン判定部415に渡す。
 イベント数取得部403は、監視対象装置431~434において発生した所定の期間のイベント数を取得する。例えば、当該監視対象装置における所定の期間の起動回数などである。取得方法は、例えば、システム情報に含まれる前述の起動回数などを示す情報を抽出することによって行ってもよい。そして、試行回数取得部402は、取得したイベント数を示す情報をパターン判定部415に渡す。
 時刻取得部404は、その事例が発生した時刻、あるいは監視を行った時刻を示す時刻情報を取得する。取得方法は、例えば、システム情報に含まれる時刻情報を抽出することによって行ってもよいし、時刻取得部404が計測する現在の時刻を時刻情報として取得してもよい。そして、時刻取得部404は、取得した時刻情報をパターン判定部415に渡す。
 曜日取得部405は、その事例が発生した曜日、あるいは監視を行った曜日を示す曜日情報を取得する。取得方法は、例えば、システム情報に含まれる曜日情報を抽出することによって行ってもよいし、曜日取得部405が計測する現在の曜日を曜日情報として取得してもよい。そして、曜日取得部405は、取得した曜日情報をパターン判定部415に渡す。
 時間的状況推測値取得部406は、時間的状況推測値算出手段を含む。時間的状況推測値算出手段は各監視対象装置が過去に送信し、後述の状況格納部410に記憶されているシステム情報に基づいて現在の当該監視対象装置のシステム情報の予測値を算出する。そして、時間的状況推測値取得部406は、算出したシステム情報の予測値をパターン判定部415に渡す。
 例えば、過去数日の同時刻の平均値を用いることで、その監視対象装置の状況またはコンテキストを含んだ情報を取得することができる。
 構成状況推測値取得部407は、構成状況推測値算出手段を含む。構成状況推測値算出手段は、当該監視対象装置のシステム情報とあるほかの監視対象装置のシステム情報との関係を求め、当該ほかの監視対象装置の現在のシステム情報を用いて、当該監視対象装置のシステム情報を算出する。例えば、監視対象装置431の観測値aと監視対象装置432の観測値bとの間にb=2aの関係が定常的に成り立っているときに、監視対象装置431の値aから推測される監視対象装置432の値2aが、ここで取得される。b=2aの関係は後述の状況格納部410に記憶されている過去の当該監視対象装置のシステム情報および当該ほかの監視対象装置の現在のシステム情報から算出する。例えば、当該監視対象装置と当該ほかの監視対象装置との間に定常的に成り立っている数式モデル(例えば、ARXモデル(autoregressive model with exogenous input))をもとに算出してもよい。そして、構成状況推測値取得部407は、算出したシステム情報の予測値をパターン判定部415に渡す。
 状況格納部410は、過去にシステム状況取得部491が受信したシステム情報などを記憶する。
 図6は、図4に示した状況格納部410に格納されたテーブルを示す図である。
 図6に示すように、状況格納部401は、過去にシステム状況取得部401が受信したシステム情報に含まれる異常度または状況情報を示す特徴と、時刻と、場所と値と、を対応付けて記憶している。また、例えば、時間と場所で識別できるシステム情報を返すことができるように格納してもよい。
 パターン学習部413は、保守運用者から障害事例登録部411あるいは判定修正入力部417に対して入力があったタイミングで、あるいは定期的に、事例格納部412に格納された各事例に対応付けられているシステム情報を状況格納部410から読み出す。読み出された各システム情報に含まれる各特徴でパターン学習手段413が用いる特徴空間を構成している。
 すなわち、事例を基に読み出されるシステム情報に含まれる異常度または状況情報は、この特徴空間における特徴ベクトルを表している。
 図7は、図4に示したパターン学習部413内にて格納するデータ構造を示す図である。
 図7に示すように、パターン学習部413においては、異常度に関するデータ1901,1902と、システム情報に関するデータ1903~1909とが格納されている。
 また、パターン学習部413は、読み出されたシステム情報を基に障害を検出して分類するための閾値(超平面)を生成し、知識格納部414に格納する。
 知識格納部414は、パターン学習部413によって生成された閾値を格納する。
 パターン判定部415は、システム状況取得部401からシステム情報を受信する。そして、パターン判定部415は、知識格納部414に格納された閾値を読み出して、受信したシステム情報が、障害であるか、あるいは正常であるかを示しているかを判定する。さらに、障害であると判定された場合はどのような障害であるかを判定し、システム情報の識別情報と判定結果とを判定結果表示部416に渡す。
 判定結果表示部416は、パターン判定部415から受け取った判定結果(パターン、事例の種類、本発明の種別に相当する)とシステム情報の識別情報(事例)とを保守運用者に対して表示する。
 判定修正入力部417は、判定結果表示部416が保守運用者に対して提示した判定結果(パターン、事例の種類、本発明の種別に相当する)が間違いであった場合に、保守運用者が正しいと考える事例の種類(本発明の真の種別に相当する)と事例とを事例格納部412に登録する。例えば、時間と場所(事例)に加え、事例の種類(真の種別)などを、事例格納部412に追加する、あるいは事例格納部412に格納されている事例を保守運用者が正しいと考える事例に修正してもよい。
 次に、図8~図10のフローチャートを参照して本形態の全体の動作について詳細に説明する。
 図8~図10は、図4に示した障害分析装置400の動作を説明するためのフローチャートである。
 まず、システム状況取得部401が監視対象システム430からシステム情報(異常度および状況情報を含む情報)を取得し、取得したシステム情報をパターン判定部415に渡す(ステップ501)。
 パターン判定部415が知識格納部414に含まれる閾値(超平面)を用いて、システム状況取得部401から受け取ったシステム情報から、監視対象システム430における事例の種類を判定し、判定結果(事例の種類、種別)と当該システム情報の識別情報(事例)とを判定結果表示部416に渡す(ステップ502)。
 次に、ステップ502においてパターン判定部415が障害であると判定した場合には、判定結果表示手段416は、パターン判定部415から受け取った判定されたパターン(種別)とシステム情報の識別情報(事例)とを保守運用者に表示する。(ステップ503)。
 次に、保守運用者は、障害事例登録部411あるいは判定修正部417に対して、事例および真の種別として障害発生時間または正常である時間、場所、事例の種類を入力する。障害事例登録部411あるいは判定修正部417は、入力された事例を事例格納部412に格納する(ステップ601)。
 次に、パターン学習部413は、パターン学習により障害判定を行うための閾値を生成する(ステップ602)。このステップは、別途保守運用者からの指示により実行されても良い。
 事例から障害判定を行うための閾値を生成するために、パターン学習部413は、事例格納部412に含まれる全ての事例について、状況格納部410から当該事例に含まれる時間または場所に対応付けられているシステム情報を取得する(ステップ701,702)。
 パターン学習部413は、事例格納部412から得られた各事例に対応付けられている各システム情報に含まれる異常度および状況情報から構成される特徴ベクトルを用いて、各システム情報について、各システム情報の事例の種類というパターンに分類するための超平面を学習し(ステップ703)、超平面を生成する。
 パターン学習部413は、学習して生成した超平面を知識格納部414に格納し、パターン判定部415は、知識格納部414に格納された超平面を用いてシステム状況取得部401から受け取った各システム情報についてパターンを分類する(ステップ704)。
 次に、本形態の効果について説明する。
 本形態では、監視対象装置431~434に関する状況情報を含むシステム情報を取得し、これをパターン学習部413における特徴空間に含めるように構成されているため、保守運用者が事例の種類と事例とを登録した場合に、より精度の良い障害検出および分類を自動で行うことができる。その理由は、異常度を示す変数ではない変数も特徴空間に含めることで、特徴空間において、従来は分類できなかった、障害事例と正常事例とを分類する超平面が生成できる、あるいは生成される超平面が持つマージンが大きくなるためである。
 また、本形態では、障害の影響が異常度としては表れるものの、他の異なる種類の障害も同じ異常度として表れるようなシステムにおいても、保守運用者が障害事例を登録して異なる障害として検出できる。その理由は、試行回数といった変数も特徴空間に含めることで、異なる障害を分類するような超平面を特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。
 また、本形態では、ユーザがシステムを利用する回数が変化するようなシステムの障害を分析し、さらに特徴空間には、システムの異常度を示す変数に呼損率や失敗率などが含まれている場合、システムの利用回数が少ない時間帯でも、障害検出の精度を高くできる。その理由は、試行回数を特徴空間に含めることで、試行回数が少なく、かつ失敗率が高い空間と、試行回数が多く、かつ失敗率の低い空間とを分離する超平面を生成することができる点にある。
 また、本形態では、単一の監視対象装置の異常度だけでは根本的な障害を発見できず、複数の監視対象装置が影響しあうようなシステムにおいても、保守運用者が障害事例を登録して、障害検出の精度を高くすることができる。その理由は、当該監視対象装置の構成状況から推測される値を特徴空間に含めることで、定常的に監視対象装置間で成り立っていた関係が崩れた上で、当該監視対象装置のみが異常度が上昇していることを示す空間と、その関係を保ちながら、他の監視対象装置も共に異常度が上昇していることを示す空間とを分類するような超平面を、特徴空間に生成できる、あるいは生成できる超平面のマージンが大きくなるためである。
 以下に、上述した障害分析装置400の動作について、具体的な実施例を用いて説明する。
 図11は、図4に示した障害分析装置400の動作の一実施例を説明するための監視対象の構成図である。また、図12は、図4に示した障害分析装置400の動作の一実施例を説明するための特徴空間を示す図である。
 図11に示すように、本実施例では、監視対象システム430には、監視対象装置1001が存在し、他の監視対象装置1002との接続において、監視対象装置1001からの接続要求の単位時間あたりの試行回数が、時間変化1011に示すような変化を有し、その試行の呼損率が時間変化1012に示すような変化を有するものであるとする。
 この時系列データは、ある時刻において障害が発生しているものとするが、時間変化1012に示すように、呼損率には表れていない。試行回数の低下となって表れているが、試行回数の多寡自体は障害とは言えない。
 ここで、保守運用者が障害事例登録部411を用いて、図11に示す障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得部401における試行回数取得部402が存在しなく、試行回数を特徴空間に含めない場合は、図12に示すように、正常事例1101も、障害事例1102も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い境界面しか生成できない。
 それに対して、特徴空間に試行回数1113も含めた場合は、正常事例と障害事例とを分離する超平面1115を生成することができる。
 ただし、深夜時間帯など本来正常な時間帯にも、試行回数1113が低くなるため、正常事例1116のような障害事例に紛れ込んでしまうことがある。これはすなわち、深夜時間帯になると障害として検知してしまうことと対応する。
 このため、別の特徴として、試行回数1117以外に時間帯1118を特徴空間に含めても良い。このようにすることで、深夜時間帯に試行回数が少なくなっている事例と、昼間に試行回数が少なくなっている事例を高精度に分離する超平面を生成することができる。
 あるいは、試行回数1119以外に、この試行回数の時間的状況推測値1013(1120)を用いても良い。
 これにより、過去の正常な期間の監視対象のデータから推測される現在の試行回数が大きいときに、試行回数が小さいと障害であると判定するようになり、逆に推測される現在の試行回数が小さい時に、試行回数が小さいときには、正常であると判定されるようになる。
 図13は、図4に示した障害分析装置400の動作の他の実施例を説明するための監視対象の構成図である。また、図14は、図4に示した障害分析装置400の動作の他の実施例を説明するための特徴空間を示す図である。
 図13に示すように、本実施例では、監視対象システム430には、監視対象装置1201が存在し、他の監視対象装置1202との接続において、接続要求が失敗した際に再送されるような状態での障害と、再送されないような状態での障害とがあるとする。
 前者の障害では試行1211~1213のように、一定回数の試行を繰り返すため、単位時間あたりの試行回数の時間変化1204は上昇し、単位時間あたりの呼損率1203も上昇する。
 これに対して、監視対象装置1231と他の監視対象装置1232との接続で、後者の障害では試行1241で失敗すると再試行が行われないため、試行回数の時間変化1234は変わらず、呼損率1233のみが劣化する。
 ここで、保守運用者が障害事例登録部411を用いて、図13に示す障害期間を障害事例として登録し、それ以外の正常である期間を正常事例として登録したとすると、システム状況取得部401における試行回数取得部402が存在しなく、試行回数を特徴空間に含めない場合は、図14に示すように、障害パターン1の事例1311も、障害パターン2の事例1312も特徴空間において近傍の領域に分布するため、それらを分離する超平面の生成は困難である、あるいは精度の低い超平面しか生成できない。
 それに対して、特徴空間に試行回数1322も含めた場合は、障害パターン1の事例1311と障害パターン2の事例1312とを分離する超平面1323を生成することができる。
 図15は、図4に示した障害分析装置400の動作の他の実施例を説明するための監視対象の構成図である。また、図16は、図4に示した障害分析装置400の動作の他の実施例を説明するための特徴空間を示す図である。
 図15に示すように、本実施例では、監視対象システム430には、監視対象装置1401が存在し、他の監視対象装置1402との接続において、単位時間あたりの試行回数の時間変化1403に対して、単位時間あたりの呼損率1404があるとする。
 ここで、保守運用者が事例登録部411を用いて、障害事例と、図15に示す期間を正常事例として登録したとすると、システム状況取得手段における試行回数取得手段402が存在しなく、試行回数を特徴空間に含めない場合は、図16に示すように、正常事例1504も障害と判定するような超平面が生成されてしまうが、特徴空間に試行回数1512も含めた場合は、試行回数が少ないときに呼が落ちて呼損率が高くなるような事例1514と、実際の障害である事例との間に、両者を分離しやすい超平面を生成することができる。
 図17は、図4に示した障害分析装置400の動作の他の実施例を説明するための監視対象の構成図である。また、図18は、図4に示した障害分析装置400の動作の他の実施例を説明するための特徴空間を示す図である。
 図17に示すように、本実施例では、監視対象システム430には、監視対象装置としてAppサーバ1601が存在し、その異常度としてCPU利用率が監視により取得され、また別の監視対象装置としてWebサーバ1604が存在し、その異常度としてCPU利用率が監視により取得され、時系列データ1605が得られるとする。
 また、WebサーバとAppサーバの間には定常的な数理的な関係が成り立っており、Webサーバ1604から得られた値から推測されるAppサーバの値の時系列データ1606が得られるとする。
 ここで、保守運用者が障害事例登録部411を用いて、図17に示す障害期間1607を障害事例として登録し、それ以外の期間のデータを正常事例として登録したとすると、システム状況取得部401における試行回数取得部402が存在しなく、構成状況推測値を特徴空間に含めない場合は、図18に示すように、当該装置の障害事例1704と正常事例1703とを分離するような超平面が生成されない、あるいは分類精度の低い超平面しか生成できないが、特徴空間に構成状況推測値も含めた場合は、関連する装置が正常であるにも関わらず、当該装置のみの異常度のみが高いことを表す空間と、当該装置も、他の関連する装置も共に異常度が高くなっていることを表す空間とを分離しやすい超平面を生成することができる。
 本発明によれば、コンピュータシステムやネットワークシステムを運用管理するといった用途に適用できる。
 なお、本発明においては、障害分析装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを障害分析装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを障害分析装置に読み込ませ、実行するものであっても良い。障害分析装置にて読取可能な記録媒体とは、ICカードやメモリカード、あるいは、フロッピーディスク(登録商標)、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、障害分析装置に内蔵されたHDD等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。
 以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年3月7日に出願された日本出願特願2008-058441を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (11)

  1.  監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信するシステム情報受信手段と、
     前記システム情報受信手段が受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する種別判定手段と、
     前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する判定結果出力部と、
     前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受ける障害事例登録手段と、
     前記各システム情報の識別情報を前記真の種別と対応付けて記憶する事例格納部と、
     前記システム情報受信手段が受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するパターン学習手段とを有し、
     前記種別判定手段は、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する障害分析装置。
  2.  請求項1に記載の障害分析装置において、
     前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置が前記監視対象装置と接続される他の装置に所定の期間にデータを送信した回数を示す送信回数情報を含める障害分析装置。
  3.  請求項1に記載の障害分析装置において、
     前記監視対象装置の異常度とは関係のない指標値には、時刻を示す時刻情報を含める障害分析装置。
  4.  請求項1に記載の障害分析装置において、
     前記監視対象装置の異常度とは関係のない指標値には、曜日を示す曜日情報を含める障害分析装置。
  5.  請求項1に記載の障害分析装置において、
     前記システム情報受信手段は、該システム情報受信手段が受信したシステム情報に含まれる指標値に基づいて、前記指標値の現在の予測値を算出する時間的状況推測値算出手段を有し、
     前記監視対象装置の異常度とは関係のない指標値には、前記時間的状況推測値算出手段が算出した前記予測値を含める障害分析装置。
  6.  請求項1に記載の障害分析装置であって、
     前記障害分析装置は、第1の監視対象装置と第2の監視対象装置とそれぞれ通信可能に接続され、
     前記事例格納部は、前記監視対象装置毎に前記各システム情報の識別情報を前記真の種別と対応付けて記憶し、
     前記システム情報受信手段は、前記第1の監視対象装置の各指標値と前記第2の監視対象装置の各指標値との関係を算出し、前記第1の監視対象装置の各指標値と前記算出された関係とに基づいて、前記第2の監視対象装置の各指標値の予測値を求める構成状況推測値算出手段を有し、
     前記種別判定手段は、前記構成状況推測値算出手段にて求められた予測値を前記判定基準と比較することで前記第2の監視対象装置の各システム情報を種別毎に分類する障害分析装置。
  7.  請求項1に記載の障害分析装置において、
     前記監視対象装置の異常度とは関係のない指標値には、前記監視対象装置において所定の期間に発生したイベントの回数を示すイベント回数情報を含める障害分析装置。
  8.  請求項1に記載の障害分析装置において、
     前記真の種別を示す情報は、前記監視対象装置が正常であるか異常であるかを示す情報である障害分析装置。
  9.  請求項1に記載の障害分析装置において、
     前記障害事例登録手段は、前記真の種別を示す情報を、オペレータにより操作される端末から受信する障害分析装置。
  10.  情報処理装置を用いた障害分析方法であって、
     前記情報処理装置が、監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信ステップと、
     前記情報処理装置が、受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類ステップと、
     前記情報処理装置が、前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力するステップと、
     前記情報処理装置が、前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付けるステップと、
     前記情報処理装置が、前記各システム情報の識別情報を前記真の種別と対応付けて記憶するステップと、
     前記情報処理装置が、受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新するステップと、
     前記情報処理装置が、前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類するステップとを有する障害分析方法。
  11.  コンピュータを動作させるためのプログラムが書き込まれた記録媒体であって、
     前記コンピュータに、
     監視対象装置の異常度を示す複数の指標値を含むシステム情報を前記システム情報の識別情報とともに順次出力する監視対象装置から、前記システム情報および前記システム情報の識別情報を順次受信する手順と、
     受信した前記各システム情報を所定の判定基準と比較し、比較の結果に基づいて前記各システム情報を種別毎に分類する手順と、
     前記各システム情報の識別情報と、前記各システム情報が分類された各種別を示す情報とを対応付けて出力する手順と、
     前記各システム情報の識別情報についてそれぞれ真の種別を示す情報の入力を受け付ける手順と、
     前記各システム情報の識別情報を前記真の種別と対応付けて記憶する手順と、
     受信した各システム情報と、前記各システム情報の識別情報に対応付けて記憶されている真の種別を示す情報とに基づいて、前記判定基準を更新する手順と、
     前記各システム情報に前記監視対象装置の異常度とは関係のない指標値を含めて前記判定基準と比較することにより、前記各システム情報を種別毎に分類する手順とを実行させるためのプログラムが書き込まれた記録媒体。
PCT/JP2009/053017 2008-03-07 2009-02-20 障害分析装置、障害分析方法および記録媒体 WO2009110329A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/735,863 US8448025B2 (en) 2008-03-07 2009-02-20 Fault analysis apparatus, fault analysis method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-058441 2008-03-07
JP2008058441A JP5277667B2 (ja) 2008-03-07 2008-03-07 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム

Publications (1)

Publication Number Publication Date
WO2009110329A1 true WO2009110329A1 (ja) 2009-09-11

Family

ID=41055890

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/053017 WO2009110329A1 (ja) 2008-03-07 2009-02-20 障害分析装置、障害分析方法および記録媒体

Country Status (3)

Country Link
US (1) US8448025B2 (ja)
JP (1) JP5277667B2 (ja)
WO (1) WO2009110329A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135932A (zh) * 2011-03-08 2011-07-27 浪潮(北京)电子信息产业有限公司 一种监控系统及监控方法
CN102750462A (zh) * 2011-12-13 2012-10-24 北京安天电子设备有限公司 基于环境的日志分析转换方法及装置
CN105515817A (zh) * 2015-01-21 2016-04-20 上海北塔软件股份有限公司 一种将管理对象进行等级化运维的方法及系统
CN108463736A (zh) * 2016-01-20 2018-08-28 三菱电机株式会社 异常检测装置以及异常检测系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9167463B2 (en) * 2011-09-02 2015-10-20 Telcordia Technologies, Inc. Communication node operable to estimate faults in an ad hoc network and method of performing the same
JP6160064B2 (ja) * 2012-11-19 2017-07-12 富士通株式会社 適用判定プログラム、障害検出装置および適用判定方法
JP6152788B2 (ja) * 2013-12-02 2017-06-28 富士通株式会社 障害予兆検知方法、情報処理装置およびプログラム
US9971344B2 (en) * 2015-03-27 2018-05-15 Rockwell Automation Technologies, Inc. Systems and methods for assessing a quality of an industrial enterprise
US11755004B2 (en) * 2017-07-13 2023-09-12 Nec Corporation Analysis system, analysis method, and storage medium
CN112650200B (zh) * 2020-12-25 2022-08-30 中能融安(北京)科技有限公司 一种厂站设备故障的诊断方法及诊断装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225152A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd プロセスコントローラ
JP2000222255A (ja) * 1999-02-02 2000-08-11 Nec Software Chubu Ltd 性能監視装置、性能監視方法および性能監視プログラムを記録した記録媒体
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
JP2003263342A (ja) * 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
JP2005085157A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 不正アクセス検出装置、不正アクセス検出方法、および管理端末
JP2008027061A (ja) * 2006-07-19 2008-02-07 Internatl Business Mach Corp <Ibm> 異常の生じた情報処理装置を検出する技術

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253184A (en) * 1991-06-19 1993-10-12 Storage Technology Corporation Failure and performance tracking system
JPH06325016A (ja) 1993-05-10 1994-11-25 Toshiba Corp 異常解析装置
JPH08101258A (ja) 1994-09-29 1996-04-16 Hitachi Ltd テストパターン生成方法及びその装置
US7672756B2 (en) * 1995-06-07 2010-03-02 Automotive Technologies International, Inc. Vehicle communications using the internet
CA2237600C (en) 1995-12-26 2002-02-12 Northern Telecom Limited Call traffic based exception generating system
JP3301383B2 (ja) 1998-06-05 2002-07-15 日本電気株式会社 ネットワークシステムの試験方法とネットワーク試験システム
US6600821B1 (en) * 1999-10-26 2003-07-29 Rockwell Electronic Commerce Corp. System and method for automatically detecting problematic calls
AU777956B2 (en) * 1999-10-28 2004-11-04 General Electric Company Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
US7233933B2 (en) * 2001-06-28 2007-06-19 Microsoft Corporation Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability
US6892163B1 (en) * 2002-03-08 2005-05-10 Intellectual Assets Llc Surveillance system and method having an adaptive sequential probability fault detection test
JP3995569B2 (ja) 2002-09-20 2007-10-24 昌一 手島 波形パターンデータから設備の診断・監視のための特徴を抽出する方法及びプログラム
US7624174B2 (en) * 2003-05-22 2009-11-24 Microsoft Corporation Self-learning method and system for detecting abnormalities
US7536370B2 (en) * 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
JP2006059266A (ja) 2004-08-23 2006-03-02 Fujitsu Ltd 障害解析方法及びその装置
JP4413806B2 (ja) * 2005-03-25 2010-02-10 富士通株式会社 障害切り分け方法、障害切り分け機能を有する通信装置及びプログラム
JP4983604B2 (ja) * 2005-10-31 2012-07-25 富士通株式会社 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法
JP2007172131A (ja) 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
KR100738537B1 (ko) 2005-12-27 2007-07-11 삼성전자주식회사 네트워크 침입 탐지 시스템 및 그 탐지 방법
US7844439B2 (en) * 2006-03-10 2010-11-30 Edsa Micro Corporation Systems and methods for real-time protective device evaluation in an electrical power distribution system
US20070239629A1 (en) * 2006-04-10 2007-10-11 Bo Ling Cluster Trending Method for Abnormal Events Detection
US20080097945A1 (en) * 2006-08-09 2008-04-24 The University Of North Carolina At Chapel Hill Novelty detection systems, methods and computer program products for real-time diagnostics/prognostics in complex physical systems
US7894917B2 (en) * 2006-10-20 2011-02-22 Rockwell Automation Technologies, Inc. Automatic fault tuning
US8135994B2 (en) * 2006-10-30 2012-03-13 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting an anomalous sequence of function calls
WO2008148075A1 (en) * 2007-05-24 2008-12-04 Alexander George Parlos Machine condition assessment through power distribution networks
JP5196195B2 (ja) * 2007-11-27 2013-05-15 日本電気株式会社 通信方法、通信システム、ノード及びプログラム
JP5468837B2 (ja) * 2009-07-30 2014-04-09 株式会社日立製作所 異常検出方法、装置、及びプログラム
US8301333B2 (en) * 2010-03-24 2012-10-30 GM Global Technology Operations LLC Event-driven fault diagnosis framework for automotive systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225152A (ja) * 1992-02-13 1993-09-03 Hitachi Ltd プロセスコントローラ
JP2000222255A (ja) * 1999-02-02 2000-08-11 Nec Software Chubu Ltd 性能監視装置、性能監視方法および性能監視プログラムを記録した記録媒体
JP2001142746A (ja) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
JP2003263342A (ja) * 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
JP2005085157A (ja) * 2003-09-10 2005-03-31 Toshiba Corp 不正アクセス検出装置、不正アクセス検出方法、および管理端末
JP2008027061A (ja) * 2006-07-19 2008-02-07 Internatl Business Mach Corp <Ibm> 異常の生じた情報処理装置を検出する技術

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIYAMOTO T. ET AL.: "SVM o Mochiita Network Traffic Karano Ijo Kenshutsu", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, SHADAN HOJIN THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. 4, 1 April 2004 (2004-04-01), pages 593 - 598 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135932A (zh) * 2011-03-08 2011-07-27 浪潮(北京)电子信息产业有限公司 一种监控系统及监控方法
CN102750462A (zh) * 2011-12-13 2012-10-24 北京安天电子设备有限公司 基于环境的日志分析转换方法及装置
CN102750462B (zh) * 2011-12-13 2015-07-29 北京安天电子设备有限公司 基于环境的日志分析转换方法及装置
CN105515817A (zh) * 2015-01-21 2016-04-20 上海北塔软件股份有限公司 一种将管理对象进行等级化运维的方法及系统
CN108463736A (zh) * 2016-01-20 2018-08-28 三菱电机株式会社 异常检测装置以及异常检测系统
CN108463736B (zh) * 2016-01-20 2020-06-30 三菱电机株式会社 异常检测装置以及异常检测系统

Also Published As

Publication number Publication date
US20100325489A1 (en) 2010-12-23
US8448025B2 (en) 2013-05-21
JP2009217382A (ja) 2009-09-24
JP5277667B2 (ja) 2013-08-28

Similar Documents

Publication Publication Date Title
WO2009110329A1 (ja) 障害分析装置、障害分析方法および記録媒体
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
AU2019275633B2 (en) System and method of automated fault correction in a network environment
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
KR20190021560A (ko) 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법
KR20160132698A (ko) 지능형 시스템 진단 장치 및 방법
US20160321128A1 (en) Operations management system, operations management method and program thereof
JP5387779B2 (ja) 運用管理装置、運用管理方法、及びプログラム
KR102472081B1 (ko) 공정 모니터링 시스템 및 방법
JP2019095822A (ja) パラメータ設定方法、データ分析装置、データ分析システム及びプログラム
CN111459692A (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
CN114944957A (zh) 一种异常数据检测方法、装置、计算机设备及存储介质
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
WO2009110326A1 (ja) 障害分析装置、障害分析方法および記録媒体
CN113760689A (zh) 接口故障的报警方法、装置、设备及存储介质
JP2007189644A (ja) 管理装置及び管理方法及びプログラム
WO2015182072A1 (ja) 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
US11138512B2 (en) Management of building energy systems through quantification of reliability
CN116132121B (zh) 一种特征识别性能分析的方法
WO2024142312A1 (ja) 故障分析装置、故障分析方法、およびプログラム
WO2023135676A1 (ja) 推定装置、推定方法、およびプログラム
US20230069206A1 (en) Recovery judgment apparatus, recovery judgment method and program
WO2022143436A1 (zh) 一种设备的状态分析方法和分析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09717699

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12735863

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09717699

Country of ref document: EP

Kind code of ref document: A1