WO2012117549A1 - 障害解析装置、そのシステム、およびその方法 - Google Patents

障害解析装置、そのシステム、およびその方法 Download PDF

Info

Publication number
WO2012117549A1
WO2012117549A1 PCT/JP2011/054886 JP2011054886W WO2012117549A1 WO 2012117549 A1 WO2012117549 A1 WO 2012117549A1 JP 2011054886 W JP2011054886 W JP 2011054886W WO 2012117549 A1 WO2012117549 A1 WO 2012117549A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure analysis
failure
distribution
router
mahalanobis distance
Prior art date
Application number
PCT/JP2011/054886
Other languages
English (en)
French (fr)
Inventor
功 下川
俊明 垂井
啓生 宮本
馬場 智宏
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US13/819,563 priority Critical patent/US9065728B2/en
Priority to PCT/JP2011/054886 priority patent/WO2012117549A1/ja
Priority to JP2013502114A priority patent/JP5666685B2/ja
Priority to CN201180042291.5A priority patent/CN103081407B/zh
Publication of WO2012117549A1 publication Critical patent/WO2012117549A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Definitions

  • the present invention relates to an apparatus that processes a large number of wired nodes and performs failure analysis.
  • Patent Document 1 discloses a technique for detecting a state change using network tomography.
  • the communication efficiency can be used as one of the control triggers for regularly rearranging virtual servers and virtual switches under the control of the management server described above. This is because in a network with poor communication efficiency, there are many retransmissions, and if virtual servers and virtual switches are rearranged on such a network, there is a concern about an increase in power consumption. Therefore, the router and server that are the failure location in the network system are quickly identified, and the router or server that is the failure location is notified to the management server that relocates the virtual server or virtual switch. It is essential to relocate virtual switches and avoid wasting unnecessary power consumption.
  • the network tomography of Patent Document 1 relating to failure analysis is to send a probe packet from the outside and detect a change in state using analysis parameters such as probe packet delay.
  • the technical problem in this network tomography is to estimate the events inside the network topology by sending probe packets from outside the network topology, and there are few analysis parameters that can be acquired and it is not information of the actual flow (Flow) Therefore, the failure or event that can be analyzed is limited, and the detection result may not be a failure.
  • An example is the case where a change in state is detected with delay data.
  • an alert is sent by detecting a change in the state of only the delay data, the delay may have occurred due to the queuing of each router in the network system, and the detection result may not be a failure. There is.
  • an alert is sent even when there is no failure, such as when a sudden state change occurs, such as when application transmission starts or when application transmission stops, in order to send an alert by judging the state change based only on fluctuations in delay. .
  • the alert is sent even if a failure has not occurred, and the alert managed by the management server falls into an excessive state. It is difficult to determine an abnormality for the system in the system.
  • An object of the present invention is to provide a failure analysis apparatus, system, and method capable of accurately identifying a failure location and reducing a false detection rate for failure detection, avoiding an excessive alert state, and accurately determining an abnormality in the system. Is to provide.
  • a failure analysis device to which a plurality of routers on a network are connected, each router receives information obtained for each flow flowing on traffic as a data group.
  • the receiving unit, the accumulating unit for accumulating the received data group, and the accumulated data group for each router are set as at least one analysis parameter for each failure, and the Mahalanobis distance with respect to the reference parameter distribution is calculated for each router.
  • Failure analysis unit that performs abnormality determination using Mahalanobis distance to the reference distribution, and updates the average value of standard distribution and the expected value of standard deviation used for abnormality determination of all routers by moving average in the abnormality determination of each router
  • a failure analysis apparatus comprising:
  • a network failure analysis system comprising: a plurality of routers connected to nodes on a network; and a failure analysis device connected to the plurality of routers.
  • the failure analysis device includes a receiving unit that receives information for each flow that flows on the traffic acquired by each router as a data group, and a received data group for each router as at least one analysis parameter for each failure,
  • a failure analysis system including a failure analysis unit that calculates a Mahalanobis distance with respect to a reference distribution of analysis parameters and performs abnormality determination using the Mahalanobis distance with respect to the reference distribution for each router.
  • a failure analysis method for nodes connected to a plurality of routers on a network wherein each node acquires each flow that flows on the traffic acquired by each router.
  • the information is received as a data group, the received data group for each router is set as at least one analysis parameter for each failure, the Mahalanobis distance to the reference distribution of the analysis parameter is calculated, and the Mahalanobis distance to the reference distribution is calculated for each router.
  • a failure analysis method that performs abnormality determination using the method.
  • a group of data to be transmitted in large quantities is divided into at least one analysis parameter, and the Mahalanobis distance with respect to the expected value of the reference distribution is calculated for the distribution of the analysis parameter, and the reference distribution in the analysis parameter distribution is calculated. Since the abnormality determination is comprehensively performed using the Mahalanobis distance with respect to the expected value, the determination can be made appropriately.
  • the expected value of the reference distribution to be compared is determined from the abnormality determination result for each router managed by the information collection failure analysis device and updated. Since the state of the entire system is judged and the expected value of the reference distribution to be compared is updated, more appropriate abnormality determination can be performed.
  • FIG. 1 is a system outline diagram in a data center according to Embodiment 1.
  • FIG. 1 is a system outline diagram on a WAN in Embodiment 1.
  • FIG. 3 is a schematic diagram illustrating an example of an AFM packet according to the first embodiment.
  • FIG. 3 is a diagram for explaining an outline for performing comparative verification in Example 1.
  • FIG. 3 is a schematic explanatory diagram of a method of feeding back a reference distribution in the improved configuration of the first embodiment.
  • FIG. 3 is a schematic diagram for detecting an abnormal flow in the first embodiment.
  • 6 is a schematic explanatory diagram of a method for inspecting a Mahalanobis distance in three dimensions in Embodiment 2.
  • FIG. It is a functional block diagram for demonstrating one function structure of IMF in the failure analysis system of each Example.
  • IMF It is a flowchart figure of IMF in each example. It is a figure which shows an example of the block structure inside IMF in each Example. It is a figure which shows an example of the table which IMF manages in each Example. It is a figure which shows the graph of the data of the discard rate in each Example. It is a table figure of the data of the discard rate in each Example. It is a figure which shows the graph of the data of the throughput in each Example. It is a figure which shows the data of the throughput in each Example. It is a figure which shows the graph of the data of the average packet size in each Example. It is a figure which shows the data of the average packet size in each Example.
  • FIG. 10 is a diagram for explaining different numbers that are parameters of AFM in the fifth embodiment.
  • FIG. 10 is a diagram for explaining different numbers that are parameters of AFM in the fifth embodiment.
  • FIG. 16 is a graph illustrating throughput for each Source IPAddress as a different number when (Source IPAddress, Protocol) in Example 5 is fixed.
  • FIG. 10 is a diagram illustrating throughput for each Source IPAddress as a different number when (Source IPAddress, Protocol) is fixed in the fifth embodiment.
  • FIG. 10 is a graph illustrating throughput for each Destination IPAddress as a different number when (Source IPAddress, Protocol) in Example 5 is fixed.
  • FIG. 18 is a diagram illustrating the throughput for each Destination IPAddress as a different number when (Source IPAddress, Protocol) is fixed in the fifth embodiment.
  • FIG. 1 shows a schematic configuration diagram of a management system that executes failure analysis in the data center of the first embodiment.
  • a failure analysis apparatus that collects and analyzes information such as AFM (Aggregated Flow Mining) transmitted from each router to be examined is defined as IMF (Integrated Mining Flow of Flow).
  • AFM Aggregated Flow Mining
  • IMF Integrated Mining Flow of Flow
  • Ikeda et al. "Large-scale edge routers and high-speed traffic monitoring", IEICE Technical Report, vol.109, no.421, IA2009-90, PP47-52, Feb.2010, or Watanabe et al. See Japanese Patent Application Laid-Open No. 2006-314077.
  • the configuration in FIG. 1 shows a system in which the integrated management server controls and manages virtual servers and virtual switches inside the data center.
  • 101 is a client
  • 102 is a failure analysis device (Integrated Mining of Flow: IMF)
  • 103 indicates an integrated management server
  • 104 indicates a server
  • 105 indicates a router.
  • the management server 103 controls the system after detecting an abnormality in devices such as the router 105 and the server 104.
  • it is essential to acquire statistical parameters for analyzing the state change of each router 105 such as the amount of packets passing through the router 105 within a certain time. Become.
  • the thin solid lines in both directions indicate the communication lines between them, and the thick solid lines Shows the flow of various information on the communication line.
  • AFM is sent from each router 105 to the IMF 102 via a communication line.
  • various control commands (Control Command) are sent to the client 101, the server 104, and the router 105.
  • each element on these networks may be collectively referred to as a node other than a router that functions as a communication control device. Unless otherwise specified, the same applies to the system configuration diagrams of FIG.
  • AFM Aggregated Flow Mining
  • MIB Management Information Base
  • AFM is a protocol specialized in sending statistical information about abnormal flows and characteristic flows to the administrator from traffic, and does not have a database like the MIB of SNMP. Is stored on RAM (Random Access Memory) as a storage unit, and statistical information is retrieved using a hash function, and high-speed information exchange is performed. It is possible to handle traffic. AFM can acquire more detailed information than SNMP because it handles information for each flow.
  • RAM Random Access Memory
  • the system of the present embodiment includes an integrated management server 103 that integrally manages the entire system, AFMs that collect AFMs transmitted from a plurality of routers 105, detect traffic state changes from AFM information, a client 101, and The server 104 is configured.
  • Each router 105 transmits the AFM to the IMF 102.
  • AFM mirrors each port of the router, aggregates the mirrored information, stores it in a packet, and transmits it to the IMF 102, so it does not affect the traffic via the router 105.
  • the IMF IV 102 collects AFMs for each router 105 and differentiates the AFM data to perform failure analysis for each router.
  • the hardware performance of the IMF 102 is limited, the number of routers that can be managed by the IMF 102 is also limited. Therefore, it is assumed that there are a plurality of IMFs 102 in the system.
  • the IMF 102 considers the causal relationship of the routers 105 managed by the IMF 102 and based on the failure judgment of all the managed routers 105, it is compared with the comparison target. The expected value of the standard distribution is updated.
  • Each IMF 102 collects AFM transmitted from each router as a communication control device, performs failure analysis for each router 105, and transmits an alert to the integrated management server 103.
  • the integrated management server 103 that has received the alert performs control for optimally arranging virtual switches and virtual servers on the network.
  • the management server 103 in the data center shown in FIG. 1 controls movement of virtual servers and rearrangement of virtual switches between servers 104 and between data centers.
  • FIG. 2 is a configuration diagram illustrating an example of a management system on the WAN according to the present embodiment.
  • the integrated management server 201 is a system that controls and manages virtual servers and virtual switches on the WAN. As in FIG. 1, also in FIG. 2, the integrated management server 201 establishes virtual servers and virtual switches between the data centers 204A and 204B and between servers based on the alert (Alert) transmitted from the IMF 203 indicated by the bold solid line. Control for optimal placement.
  • a dotted line with a double-pointed arrow indicates a flow (Flow ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ A, Flow B, Flow C) between each client 205 and the data centers 204A and 204B.
  • the integrated management server 103 in the data center shown in FIG. 1 and the integrated management server 201 on the WAN shown in FIG. 2 cooperate with each other to control the entire network.
  • the integrated management server 201 on the WAN is defined as the parent management server of the integrated management server, and the management server 103 on the data center side is defined as the child management server.
  • the parent management server 201 only selects a control means for optimization, and the child management server 103 performs the control itself.
  • the parent management server 201 periodically inquires the child management server 103 to execute the optimization algorithm based on information transmitted from the IMF 203.
  • Fig. 3 shows an example of the format of an AFM packet for transmitting AFM information used in this embodiment.
  • General flow is 5-tuple (source IP address, destination IP address, protocol, source port number) among items included in IP header and TCP / UDP (Transmission Control / User Datagram Protocol) header. , Destination port number) is often defined as a collection of packets having the same value.
  • AFM extends this concept, defines a set of packets that match any n-tuple as an aggregated flow, and collects statistical information such as the number of packets and the number of bytes for each aggregated flow.
  • the AFM packet 300 in FIG. 3 includes a flow type 301, an item number 302, a payload length 303, a packet number 304, a byte number 305, a measurement time 306, an acquisition time 307, and the like, which are necessary for detecting an abnormal flow.
  • Information is transmitted to the IMFs 102 and 203.
  • FIG. 4 is a diagram for explaining an abnormality determination method when the IMFs 102 and 203 in the present embodiment perform failure analysis.
  • a specific example of the internal configuration of the IMFs 102 and 203 will be described later with reference to FIG.
  • the IMF needs to determine whether the traffic flowing on the network is normal or abnormal.
  • a method for determining whether the state of the entire flow flowing on the network is normal or abnormal is used.
  • FIG. 4 shows a distribution plotted using analysis parameter measurement values of all flows on a network at a certain time.
  • the horizontal axis represents data values
  • the vertical axis represents probability density.
  • the average value and standard deviation of the reference distribution 401 to be compared are set as initial values on FIG. These distributions indicate distributions for each flow. For example, when network traffic is defined as an analysis parameter, 32 [kbit / s] is set as the average value of network traffic and 32 [kbit / s] is set as the standard deviation. This value is based on a value of about 32 [kbit / s], which is the traffic volume per subscriber in Japan, presented by the Ministry of Internal Affairs and Communications and the General Communication Infrastructure Bureau in September 2010.
  • the IMFs 102 and 203 acquire necessary statistical information from the AFMs of the respective routers 105 in order to determine the abnormality of the traffic flowing on the network. Thereafter, for each acquired data, the absolute value of the Mahalanobis distance with respect to the reference distribution is calculated.
  • FIG. 5 is a diagram for explaining a modified embodiment for improving the accuracy of the traffic abnormality determination method using the Mahalanobis distance in the first embodiment described above. Since traffic changes from moment to moment, it is difficult to define normal values in traffic.
  • the present modification relates to a method of constantly updating a reference distribution serving as a reference for comparison in abnormality determination performed by the processing units of the IMFs 102 and 203 described later. That is, this is a method of updating the expected value of the reference distribution 501 that is the comparison target.
  • the Mahalanobis distance is calculated by comparing the average value and standard deviation of the distribution of the reference distribution defined based on the past data with respect to the distribution of the data collected in real time.
  • Equations 2 and 3 The formulas for moving average are shown in Equations 2 and 3 below.
  • Average moving average (average of standard distribution + average of data distribution acquired by AFM) / 2
  • Standard deviation moving average (Standard deviation of standard distribution + standard deviation of data distribution obtained by AFM) / 2
  • FIG. 5 illustrates the expected value average (circle 1, circle 2) after feedback, and illustrates the average of the abnormal distribution with respect to the expected value average (circle 2).
  • the AFM data is compared and verified in real time.
  • the Mahalanobis distance is calculated for the newly acquired AFM data based on the average and standard deviation of the reference distribution set for comparison verification. For a distribution with a calculated Mahalanobis average distance of 2 or more, if the distribution follows a normal distribution, it can be assumed that it is not significant at a significance level of 5%, and is assumed to be an abnormal distribution 502 with a probability of 5%. .
  • the moving average is not updated for an abnormal event that is a non-linear event. That is, when it is determined that an abnormality has occurred, the update of the reference distribution is suppressed by the measured value. Also, in each router managed by IMFIM102, 203, if an abnormal event occurs in any one of the routers, feedback of the average value and standard deviation value of the reference distribution of other managed routers is not performed. . In other words, in consideration of the causal relationship with other routers in the system, the average value of the reference distribution to be compared and the expected value of the standard deviation value are updated.
  • the expected value of the reference distribution is determined by the abnormality determination of that one unit. Update is performed. According to this modification, the traffic can be followed in real time, the normal value of the traffic can be updated, and an accurate abnormality determination can be performed on the distribution of the entire traffic flowing on the network.
  • FIG. 6 is a diagram for explaining a technique for identifying abnormal traffic from statistical data acquired from AFM.
  • the horizontal axis indicates the flow number
  • the vertical axis indicates the data value of each flow.
  • An evaluation formula for specifying the abnormal flow (603) is shown below.
  • the average distribution 601 and standard deviation ⁇ 602 of the reference distribution are estimated as abnormal traffic from the average value 601 of the reference distribution as shown in the above equation.
  • 2 ⁇ is exemplified as a threshold value in specifying the abnormal flow 603, but this is a parameter that can be set by the administrator of the IMFs 102 and 203.
  • 2 ⁇ is taken as an example of the main threshold, but if the distribution follows a normal distribution, the significance level is 5%, and the flow that occurs only at a probability of 5% with respect to the assumed traffic model. It is estimated that this is an abnormal flow. That is, in this embodiment, it is determined that an abnormal distribution is caused by these abnormal flows.
  • a failure analysis system based on multidimensional analysis will be described as a second embodiment.
  • the abnormality determination method in the failure analysis system it is necessary to increase the accuracy of abnormality determination in order to prevent erroneous detection.
  • an analysis with many false detections there are too many alerts sent to the management server, and there is a high possibility that the management server will malfunction or go down.
  • Fig. 7 is a diagram showing a schematic diagram of a failure analysis system based on a three-dimensional analysis using Mahalanobis distance.
  • the axes adopted in the figure increase the throughput 701, the average packet size 702, and the discard rate 703 as three axes.
  • Mahalanobis distance is calculated for each of these axes using the average value and standard deviation of the reference distribution for the data acquired by AFM.
  • a further three-dimensional distance is calculated.
  • the calculation formula is defined as the following formula.
  • the x-axis is defined as the Mahalanobis distance of the discard rate
  • the y-axis is defined as the Mahalanobis distance of the average packet size
  • the z-axis is defined as the throughput Mahalanobis distance.
  • ⁇ , ⁇ , and ⁇ are the weights of the respective axes, and by changing the weight parameter of each axis for each failure, more correct detection of the failure can be performed.
  • the three-dimensional Mahalanobis distance is calculated, and then an abnormality is determined using the three-dimensional Mahalanobis distance.
  • 3.5 is defined as the 3D Mahalanobis distance threshold.
  • abnormality determination is performed based on whether the average value exceeds 3.5. In this way, the failure determination can be comprehensively performed by increasing the number of dimensions for performing the abnormality determination.
  • ⁇ Regarding false detections that occur in the abnormality determination of a one-dimensional axis it is possible to make an accurate determination in order to comprehensively determine the abnormality in a multidimensional axis. For example, in the case where a distribution of one axis is determined to be abnormal and the distribution of the other two axes is not determined to be abnormal, it is determined that there is no abnormality when comprehensively determined in three dimensions. In this way, it is possible to prevent erroneous detection that occurs when abnormality determination is performed in one dimension by performing abnormality determination in three dimensions.
  • an example of performing abnormality determination in three dimensions is given as an example, but this can be reduced to two dimensions, and can be expanded to higher dimensions such as four dimensions and five dimensions. It is also possible to do.
  • FIG. 8 is a block diagram for explaining an example of functional processing of the IMFs 102 and 203.
  • an initial value of a reference distribution to be compared is set (801).
  • the IMF collects data for statistical processing using the AFM of each router (802).
  • the Mahalanobis distance with respect to the reference distribution is calculated for each router, and then an abnormality is determined for each managed router (803). If there is a router that detects anomalous distribution in the managed router, the expected value of the reference distribution is not updated for all routers managed by the IMF. Thereafter, if an abnormality is detected, an alert is transmitted to the management server (804).
  • the expected value of the reference distribution is updated (805).
  • the update (805) of the expected value of the reference distribution corresponds to the modified example using the feedback of the first embodiment described above.
  • FIG. 9 shows a flowchart for explaining an example of the control method of the IMFs 102 and 203.
  • the IMFs 102 and 203 first set an average and a standard deviation as reference values for each axis of each router as initial values (901).
  • IMF is activated and data for each flow is acquired from each router by AFM (902).
  • AFM collects statistics for each router and sends the information to the IMF.
  • the IMF stores the acquired information in an internal database.
  • the AFM information transmitted from each router is stored for N seconds (903).
  • the M dimension means all the one or more dimensions, and two or more correspond to the multi-dimension of the second embodiment. If an abnormality is detected, an alert is sent to the management server (907). If all the managed routers are normal in the abnormality determination, the expected value of the reference value is updated (906). This update (906) corresponds to the update (805) of FIG.
  • FIG. 10 shows a configuration diagram of an embodiment of the IMFs 102 and 203 in the failure analysis system of each embodiment.
  • the IMF1000 is a server and has a normal computer configuration.
  • a reception program 1007 that functions as a reception unit
  • a transmission program 1008 that functions as a transmission unit
  • a storage program 1006 that functions as a storage unit
  • a failure analysis program 1004 that functions as a failure analysis unit
  • an alert creation program that functions as an alert creation unit
  • the CPU 1002 sequentially reads each program constituting these functional units from the program 1011 stored in the HDD 1009, and develops and drives the program on the RAM 1003.
  • each element constituting the failure analysis system in FIGS. 1 and 2 other than the IMF described above is omitted, but the clients 101 and 205, the management servers 103 and 201, The server 104 and the routers 105 and 202 all have the basic computer configuration shown in FIG.
  • the routers 105 and 202 which are communication control devices that interconnect two or more different networks, have been described above in addition to the configuration as a communication control device on a normal network such as a packet buffer, a route table, and a flow control unit.
  • a function block and a program for realizing a function for generating an AFM to be sent to the IMFs 102 and 203 are provided.
  • An AFM is generated by executing a program by the processing unit and sent to the IMFs 102 and 203.
  • An example of the configuration of a communication control apparatus having such an AFM generation function is described in detail in the above-mentioned Japanese Patent Laid-Open No. 2006-314077.
  • the reception program 1007 in FIG. 10 functions as a reception unit that receives AFM transmitted from each router via a network interface (NIF) 1001.
  • the transmission program 1008 is a block that functions as a transmission unit that transmits an alert issued to the management server and a command issued to the router.
  • the storage program 1006 stores the statistical information received from the AFM into the database 1010 after processing the data into data corresponding to the management table on the database 1010. As parameters on the management table, statistical information is distributed for each router, and the distributed statistical information is distributed to analysis parameters for each failure to create a management table.
  • the topology information of the entire network is stored in the database from NMS (Network Management System).
  • the failure analysis program 1004 obtains analysis parameters from the management table on the database 1010, calculates the Mahalanobis distance from the reference distribution for each analysis parameter, and comprehensively analyzes each failure. If an abnormality is determined for each router and there is at least one router in the managed router, update the expected reference value of all the managed routers as described above. Do not do. In addition, when the abnormality determination is not made in all the managed routers, the expected value of the reference distribution of all the routers is updated.
  • the alert creation program 1005 which functions as an alert creation unit, includes the IP address of the router determined to be abnormal by the failure analysis program 1004, the source IP address of the flow that caused the abnormality, and the IP address of the destination in the alert packet.
  • For alerts define and determine alert levels and stages. As an example of the alert level to be determined, if it is divided into three stages, a danger alert with the highest alert level and a minute flow for a fault where the network is interrupted due to congestion or the wiring is degraded and disconnected A caution alert is transmitted for an event such as an unnecessary discard or an increase in throughput, and a safety alert is transmitted for a case where no fault has occurred in the network.
  • Fig. 11 shows an example of the management table 1101 managed by the IMF 1000 in the database 1010.
  • the management table 1101 includes, for each router, a reference distribution to be compared for each router and a flow data group passing through the router.
  • As the standard distribution the average and standard deviation of the distribution of various analysis parameters are described. This time, as an analysis parameter 1102, an average packet size (Average Packet Size), throughput (Throughput), and discard rate (Drop Ratio) are taken as examples.
  • the average and standard deviation serving as the reference distribution are managed on the table 1101.
  • the IMF storage program unit 1006 calculates the statistical distribution for the current analysis parameter and updates the management table 1101.
  • the statistical information transmitted from the AFM according to each of the above-described embodiments is the data on the discard rate, the throughput, the average packet size, and the reference distribution calculated in the IMF.
  • the calculation result of Mahalanobis distance is shown. All calculation results are absolute values.
  • FIGS. 20A and 20B show a graph 1201 and data 1202 showing the results of the discard rate, respectively.
  • the standard distribution was set with an average value of 0.2 and a standard deviation of 0.2.
  • the average value of Mahalanobis distance from the reference distribution is 0.99. Since the distribution of the Mahalanobis distance at 2 ⁇ in the distribution is 2 and the distribution follows a normal distribution, the distribution is generated with a probability of a significance level of 5% or higher. to decide. This time, we set the average value of the standard distribution as 0.2 and the standard deviation as 0.2, but this value has no theoretical basis this time.
  • the flow with the flow number 9 is identified as an abnormal flow because the Mahalanobis distance is 2.5 and takes a value of 2 or more.
  • Figures 13A and 13B show throughput results 1301 and 1302. Take nine flows as samples. As the standard distribution, the average value was set to 200 [Mbit / s] and the standard deviation was set to 200 [Mibt / s]. For the throughput given here, the average Mahalanobis distance is 2.59. This is a distribution that occurs with a probability of a significance level of 5% or less if the distribution follows a normal distribution because the Mahalanobis distance value at 2 ⁇ is 2 in the distribution, so the throughput distribution is judged to be abnormal. To do. As abnormal flows, the flows with flow numbers 2, 3, and 4 are identified as abnormal flows because the Mahalanobis distance is 6.5 and takes a value of 2 or more.
  • Figures 14A and 14B show the average packet size results 1401 and 1402. Take nine flows as samples.
  • the average value was set to 300 and the standard deviation was set to 300.
  • the average value of Mahalanobis distance is 0.88. This is a distribution that occurs with a probability of a significance level of 5% or higher if the distribution follows the normal distribution because the Mahalanobis distance value at 2 ⁇ is 2 in the distribution, so the throughput distribution is judged to be normal.
  • the flow with flow number 2 is specified as an abnormal flow because the Mahalanobis distance takes a value of 2 or more.
  • FIGS. 15A and 15B show a graph 1501 illustrating a method for performing a comprehensive and three-dimensional abnormality determination using the discard rate, throughput, average packet size, and three-axis Mahalanobis distance, and data 1502 thereof.
  • a packet (alert) containing the cause and the IP of the detected router is transmitted to the management server.
  • IMF uses AFM statistical information sent by routers to perform comprehensive failure analysis for each router and considers the causal relationships of other routers, and all routers managed by IMF are determined to be normal. Sometimes, it is possible to determine the abnormality more accurately by updating the average value of the reference distribution and the expected value of the standard deviation.
  • FIGS. 16A and 16B to FIGS. 19A and 19B are graphs showing calculation results of Mahalanobis distances with respect to the reference distribution when the average value of the reference distribution and the expected value of the standard deviation are updated when abnormality determination is performed. And data. All calculation results are absolute values. The above result is a sample result based on the prediction, and is not an actual measurement value.
  • Figures 16A and 16B show the discard rate results 1601 and 1602.
  • the average Mahalanobis distance for the previous data is 0.95. Mahalanobis' distance to the previous expectation was 0.99. If the Mahalanobis distance is a sufficiently large value from 0, it can be regarded as a value deviating from the mean and standard deviation of the reference distribution. This time, the expected value of the average value of the standard distribution and the expected value of the standard deviation were updated, and it is considered that the Mahalanobis distance to each data decreased.
  • data of the discard rate when it is determined that the updated reference distribution expected value is abnormal is also shown. Since the expected value of the reference distribution has been updated, a value that deviates considerably is required in order to be determined as abnormal. The deviated value is when 6 flows from 4 to 9 out of 9 flows show a value of 0.9 as the discard rate.
  • Figures 17A and 17B show the results 1701 and 1702 of the throughput.
  • the throughput when the average value of the standard distribution and the expected value of the standard deviation are updated, the average Mahalanobis distance for the previous data is 1.27. Mahalanobis' distance to the expected value before the update was 2.62. This time, the average value of the standard distribution and the expected value of the standard deviation were updated, so it is considered that the Mahalanobis distance has decreased.
  • the throughput is determined to be an abnormal distribution before the average value of the reference distribution and the expected value of the standard deviation are updated. However, if the expected value is updated even for the same distribution, it is determined to be normal.
  • throughput data indicating abnormalities with respect to the updated reference distribution is also shown. Since the expected value of the reference distribution has been updated, a value that deviates considerably is required in order to be determined as abnormal. The deviated value is when the throughput of 1.5 [Gbit / s] is shown in 7 of 2 to 8 out of 9 flows.
  • 18A and 18B show the average packet size results 1801 and 1802.
  • the average Mahalanobis distance for the previous data is 0.82. Mahalanobis' distance to the previous expectation was 0.88. This time, the average value of the standard distribution and the expected value of the standard deviation were updated, so it is considered that the Mahalanobis distance has decreased.
  • throughput data indicating abnormalities with respect to the updated reference distribution is also shown. Since the expected value of the reference distribution has been updated, a value that deviates considerably is required in order to be determined as abnormal. The deviated value is when the average packet size of 1000 [bytes] is shown in 3 to 2 flows out of 9 flows.
  • 19A and 19B show the evaluation results 1901 and 1902 of the three-dimensional Mahalanobis distance.
  • 3D Mahalanobis distance when the average value of the standard distribution and the expected value of the standard deviation are updated, it is determined to be an abnormal distribution that is 2 ⁇ away from the average value of the standard distribution. As a deviating value is required. Since the average value of the standard distribution and the expected value of the standard deviation were updated this time, the Mahalanobis distance calculated before the average value of the standard distribution and the standard deviation expected value was updated is It can be seen that the Mahalanobis distance value is smaller. That is, it can be seen that the result of including the possibility of erroneous detection last time approaches a more normal value this time, and more appropriate abnormality determination can be performed by performing feedback.
  • the data group obtained from the test object such as the router is a time-series data group divided into a plurality of analysis parameters. Based on these time-series data groups, the data group is obtained for each analysis parameter. The average value of the standard distribution and the expected value of the standard deviation are updated with feedback. Regarding the average value of the standard distribution and the expected value of the standard deviation, the initial parameters are set based on empirical rules. In addition, an analysis parameter is assigned for each failure, and the Mahalanobis distance with respect to a reference distribution of a plurality of assigned analysis parameters such as three dimensions is calculated, and comprehensive abnormality determination is performed.
  • anomaly determination is performed using a plurality of parameters, and after considering the causal relationship between each router, the average value of the standard distribution and the expected value of the standard deviation are further based on the determination result of each router.
  • the other routers When one router detects an abnormality, the other routers output the abnormality detection all at once, and there are too many alerts sent from the information collection failure analysis device to the management server. It can prevent becoming a state. Further, by increasing the number of analysis parameters to three or more dimensions, it is possible to eliminate erroneous detection as much as possible and obtain an appropriate determination.
  • the third embodiment will be described.
  • the AFM that each router transmits the average value and the standard deviation of the reference distribution next. are updated with a weighted moving average instead of a simple moving average.
  • the average of the standard distribution and the moving average of the expected standard deviation are shown by the following formula.
  • Moving average of the average expected value of the standard distribution (Average expected value of ⁇ * standard distribution + average of data distribution obtained by ⁇ * AFM) / 2 (8)
  • the average value of the standard distribution and the expected value of the standard deviation are updated using the above formula.
  • the ⁇ value and the ⁇ value and their ratios are changed when updating the average value of the standard distribution and the expected value of the standard deviation.
  • 1- ⁇ (12)
  • the average value of the standard distribution and the weighted average of the standard deviation are obtained.
  • the reference distribution serving as a comparison reference can be regarded as a normal distribution.
  • the failure analysis apparatus / system of the first embodiment is connected to the network without setting the initial values of the average and standard deviation of the reference distribution, and the network state is determined for A second using AFM.
  • the AFM data acquired at that time is set as the initial value of the average and standard deviation of the reference distribution.
  • learning the network status and automatically setting the standard distribution average and standard deviation initial values means that the administrator sets the standard distribution average and standard deviation initial values to the system status. It is not necessary to set after guessing.
  • a method of setting an average value as 0 and setting a system maximum allowable value as a standard deviation is also conceivable. In this case, when the moving average of the reference distribution is taken for N seconds, there is a possibility that the reference distribution converges from the maximum allowable value to the distribution of values currently driven.
  • the following equation is defined as an analysis parameter used for abnormality determination when the IMF performs failure analysis.
  • Mbit / s] (13)
  • the different numbers will be described.
  • 20A and 20B are diagrams for explaining the different numbers.
  • AFM is taken as an example as a means to acquire analysis parameters for detecting state changes from routers.
  • AFM introduces the concept of aggregate flow. For example, in 5-tuple (source IP address, destination IP address, protocol, source port number, destination port number), as shown in Figs. 20A and 20B, an example of an aggregation flow consisting of packets that match 2-tuple increase.
  • FIGS. 20A and 20B show the cases where (transmission source IP address, protocol) 2001 or (destination IP address, protocol) 2002 is set as a 2-tuple set to be matched as the aggregation flow.
  • source IP address, protocol it is assumed that a PC is connected to multiple servers via TCP communication.
  • destination IP address, protocol it is assumed that the server receives TCP communication transmitted from a plurality of clients.
  • the different number is a different number for (source IP address, protocol is TCP) or a different number for (destination IP address, protocol is TCP).
  • the different number is a different number with respect to (source IP address, protocol is TCP)
  • it is an average throughput per TCP communication in the TCP communication in which the client is connected to a certain PC and connected. If this value indicates a large value, it is assumed that a certain PC is connected to a plurality of servers via a large-capacity TCP communication.
  • the client is connected to a plurality of servers, and shows the average throughput of the flows connected to the server. If this value shows a high value, it can be assumed that the client is connected to a plurality of servers with a large capacity, and the client may cause the performance degradation of the entire system.
  • the average Mahalanobis distance for the previous data is 1.592. This is a distribution that occurs with a probability of a significance level of 5% or higher if the distribution follows the normal distribution because the Mahalanobis distance value at 2 ⁇ is 2 in the distribution, so the throughput distribution is judged to be normal. To do.
  • the results shown in FIGS. 21A and 21B are defined as one dimension in the multidimensional analysis shown above.
  • FIGS. 22A and 22B show the results 2201 and 2202 regarding the equation (13).
  • the results shown in FIGS. 22A and 22B-1 are the results of the throughput for each different number of Source-IPAddress when (Destination-IPAddress, Protocol) is fixed. This can assume the situation where the server is connected to a plurality of clients, and shows the average throughput of the flow where the server is connected to the clients. If this value shows a high value, it can be assumed that the server is connected to a plurality of clients with a large capacity, and that server may cause the performance degradation of the entire system.
  • the average Mahalanobis distance for the previous data is 2.81. This is a distribution that occurs with a probability of a significance level of 5% or less if the distribution follows a normal distribution because the Mahalanobis distance value at 2 ⁇ is 2 in the distribution, so the throughput distribution is judged to be abnormal. To do.
  • Source IPAddress 192.168.10.1
  • Source IPAddress 192.168.10.2
  • the results shown in FIGS. 22A and 22B may be defined as one dimension in the multidimensional analysis shown above.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
  • each of the above-described configurations, functions, processing units, etc. may be realized by hardware by designing a part or all of them, for example, by an integrated circuit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 ネットワークトモグラヒィ技術においては、障害がおきた場所、障害要因を特定することができず、また情報量が少ないため誤検知も多い。IMF102は被検対象である各ルータ105からAFM(Aggregated Flow Mining)等を用いてフロー毎の情報を取得して、ルータ毎に、フロー毎の差分やスループット等の統計情報の分布を取り、各分布に対して基準分布の期待値に対するマハラノビスの距離を計算し、分布を包括的に判断して異常判定を行う。異常判定を行うに当り、比較対象である分布の正常値はAFMから取得し、随時フィードバックをかけて更新する。また他のルータの異常判定結果を判断した上で比較対象である基準分布の平均値及び標準偏差の期待値の更新を行う。

Description

障害解析装置、そのシステム、およびその方法
 本発明は、大多数の有線ノードを処理し、障害解析を行う装置に関するものである。
 昨今、大規模な分散処理ネットワークシステムにおいて、最も大きな課題は可用性である。24時間、365日、実質ノンストップで稼働しなければ、分散処理ネットワークシステムを基幹業務で用いることは難しい。特に、分散処理ネットワークシステムの可用性を上げるためには、分散処理ネットワークシステムに対する信頼性及び情報処理の高速応答性の向上を図ることが必須となる。
 現行、通信の信頼性の向上を図るために、アプリケーションは分散処理を施され、またネットワークシステムとして、大部分のシステムは冗長構成を取っている。しかし、分散処理ネットワークシステムを用いたサービスの拡大は、トラヒックの飛躍的な増大を招き、分散処理を行いかつ冗長構成をとるデータセンタ及びネットワークシステムにおいて、消費電力の増大が今後懸念されている。そこで、低消費電力化を図るために、信頼性を確保しつつ肥大化したネットワークを効率よく縮退し、最適に仮想サーバや仮想スイッチを再配置することが必要であり、そのためには、障害解析技術が必須である。このような障害解析手法の従来技術として、ネットワークトモグラヒィを用いて状態変化を探知する技術を開示する特許文献1や、特許文献2がある。
特開2007-201646号公報 特開2005-189163号公報 特開2006-314077号公報
 上述の管理サーバの制御により、定期的に最適に仮想サーバや仮想スイッチを再配置するための制御トリガーの一つとして通信効率が利用できる。通信効率が悪いネットワークでは、再送も多く、そのようなネットワーク上に仮想サーバや仮想スイッチを再配置すると消費電力の増大が懸念されるからである。そのため、ネットワークシステムにおいて障害箇所であるルータ及びサーバ等を素早く特定し、障害箇所であるルータやサーバを、仮想サーバや仮想スイッチの再配置を行う管理サーバへと通知し、管理サーバが仮想サーバや仮想スイッチの再配置を行い、無駄な消費電力の浪費を避けることが必須である。
 障害解析に関する特許文献1のネットワークトモグラヒィとは、外部からプローブ(Probe)パケットを送信し、Probeパケットの遅延等の解析パラメータを用いて、状態変化を探知するものである。このネットワークトモグラヒィにおける技術課題は、ネットワークトポロジーの外部からProbeパケットを送信することで、ネットワークトポロジー内部の事象を推定するものであり、取得できる解析パラメータが少なくかつ実フロー(Flow)の情報でないため、解析できる障害や事象が限定され、また検知結果が障害でない可能性がある。
 遅延データにて状態変化を検知した場合を例に挙げる。遅延データのみの状態変化を探知してアラートを送信した場合、ネットワークシステムにおいて、遅延が増大した原因として各ルータがキューイングして発生した遅延である可能性もあり、検知結果が障害でない可能性がある。また遅延の揺らぎのみで状態変化を判断して、アラートを送信するために、アプリケーションの送信開始、アプリケーションの送信停止等の急激な状態変化が発生する場合等、障害でない場合でもアラートが送信される。このように遅延の急激な状態変化のみで管理サーバへとアラートを送信した場合は、障害が発生していない場合でもアラートが送信され、管理サーバが管理するアラートが過多状態へと陥り、管理サーバでのシステムに対する異常判定が困難となる。また障害箇所も特定し難く、トモグラヒィの結果を用いて、管理サーバが仮想スイッチや仮想サーバの再配置を行うことは困難である。
 また特許文献2に記載してある異常判定装置では、異常検知に当り、制御の煩雑化は取り除けるが、前もって正常時のデータを保持しておく必要がある。ネットワークシステムのように、常時トラヒックの状況が変化し、多様化した障害が発生するシステムには、正常と判断できるパラメータを前もって計測することは難しい。このように異常と判定する際に、比較対象となる基準値の定義が難しい。
 本発明の目的は、障害箇所の詳細な特定及び障害検知に対する誤検知率を減らし、アラート過多状態を回避し、かつ正確にシステムに対する異常判定を行うことが可能な障害解析装置、システム、及び方法を提供することにある。
 上記の目的を達成するため、本発明においては、ネットワーク上の複数のルータが接続される障害解析装置であって、各ルータが取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、受信したデータ群を蓄積する蓄積部と、蓄積したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行い、各ルータの異常判定にて全ルータの異常判定に用いる基準分布の平均値及び標準偏差の期待値の更新を移動平均にて行う障害解析部を備える障害解析装置を提供する。
 また、上記の目的を達成するため、本発明においては、ネットワークの障害解析システムであって、ネットワーク上に、ノードが接続される複数のルータと、複数のルータに接続される障害解析装置とを備え、障害解析装置は、ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、受信したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える障害解析システムを提供する。
 更に、上記の目的を達成するため、本発明においては、ネットワーク上の複数のルータに接続されるノードにおける障害解析方法であって、ノードは、ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信し、受信したルータ毎のデータ群を、障害毎に少なくとも一個の解析パラメータとし、解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析方法を提供する。
 本発明によれば、大量に送信されるデータ群を少なくとも一つの解析パラメータちし、この解析パラメータの分布に関して、基準分布の期待値に対するマハラノビスの距離を算出し、解析パラメータ分布においての基準分布の期待値に対するマハラノビスの距離を用いて包括的に異常判定を行うので、適切に判定を行える。
 また異常判定を行うに当り、比較対象である基準分布の期待値を情報収集障害解析装置が管理しているルータ毎の異常判定結果から判断して更新する。システム全体の状態を判断して比較対象である基準分布の期待値の更新を行うため、より適切な異常判定を行うことができる。
 さらに、線形事象から非線形事象への移行の有無で異常判定を行うために、比較対象である基準値を固定する必要性はない。
実施例1におけるデータセンタ内におけるシステム概要図である。 実施例1におけるWAN上におけるシステム概要図である。 実施例1におけるAFMのパケットの一例を示す概要図である。 実施例1における比較検証を行うための概要を説明する図である。 実施例1の改良構成における基準分布をフィードバックする方法の概要説明図である。 実施例1における異常フローを検出する概要図である。 実施例2における3次元においてマハラノビスの距離を検査する方法の概要説明図である。 各実施例の障害解析システムにおけるIMFの一機能構成を説明するための機能ブロック図である。 各実施例におけるIMFのフローチャート図である。 各実施例におけるIMF内部のブロック構成の一例を示す図である。 各実施例におけるIMFが管理するテーブルの一例を示す図である。 各実施例における廃棄率のデータのグラフを示す図である。 各実施例における廃棄率のデータのテーブル図である。 各実施例におけるスループットのデータのグラフを示す図である。 各実施例におけるスループットのデータを示す図である。 各実施例における平均パケットサイズのデータのグラフを示す図である。 各実施例における平均パケットサイズのデータを示す図である。 各実施例における3次元マハラノビスの距離のデータのグラフ図を示す図である。 各実施例における3次元マハラノビスの距離のデータを示す図である。 各実施例における廃棄率のデータのグラフを示す図である。 各実施例における廃棄率のデータを示す図である。 各実施例におけるスループットのデータのグラフを示す図である。 各実施例におけるスループットのデータを示す図である。 各実施例における平均パケットサイズのデータのグラフを示す図である。 各実施例における平均パケットサイズのデータを示す図である。 各実施例における3次元マハラノビスの距離のデータのグラフを示す図である。 各実施例における3次元マハラノビスの距離のデータを示す図である。 実施例5におけるAFMのパラメータである異なり数を説明する図である。 実施例5におけるAFMのパラメータである異なり数を説明する図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットを説明したグラフ図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットを説明した図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットを説明したグラフ図である。 実施例5における(Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットを説明した図である。
 以下、本発明の具体的な実施例を図面に基づき説明する。
 図1に第1の実施例のデータセンタ内で障害解析を実行する管理システムの概略構成図を示す。本明細書においては、被検対象である各ルータから送信されるAFM(Aggregated Flow Mining)等の情報を収集し、解析する障害解析装置をIMF(Integrated Mining of Flow)と定義する。なお、AFM技術に関しては、池田他、「大規模エッジルータと高速トラヒックモニタリング」、信学会技報、vol.109、no.421、IA2009-90、PP47-52、Feb.2010、或いは渡辺他、特開2006-314077号公報等を参照されたい。
 図1の構成は、統合管理サーバがデータセンタ内部の仮想サーバ及び仮想スイッチを制御、管理するシステムを示しており、101はクライアント(Client)、102は障害解析装置(Integrated Mining of Flow:IMF)、103は統合管理サーバ、104はサーバ、105はルータを示している。この管理システムおいて、管理サーバ103はルータ105やサーバ104等の装置の異常を検知した上で、システムの制御を行う。ここで各ルータ105やサーバ104の状態変化を探知するために、ある時間内にルータ105を経由したパケット量等、各ルータ105の状態変化を解析するための統計パラメータを取得することが必須となる。
 なお、図1において、管理システム上の、クライアント101、IMF 102、統合管理サーバ103、サーバ104、ルータ105等の間の各種の結線中、両方向の細実線は相互間の通信線を、太実線は通信線上を各種情報の流れを示している。同図から明らかなように、各ルータ105からIMF 102に通信線を介してAFMが送られることを示している。またクライアント101、サーバ104、ルータ105に各種のコントロールコマンド(Control Command)が送られることを示している。本明細書において、これらのネットワーク上の各要素は、通信制御装置として機能するルータ以外をノードと総称する場合がある。特に断らない限り、図2以降のシステム構成図においても同様である。
 本実施例の管理システムにおいては、各ルータ105の状態変化を解析するめの統計パラメータを取得する手段としてAFM(Aggregated Flow Mining)を例に上げた。AFMは、上述の文献等で明らかなように、ルータ等の通信制御装置が、大量のトラヒックの中から、ネットワークの正常な運用を妨げる異常フローや特徴的なフローを、運用者がいち早く見つけ出せる統計情報を提供する。また別の統計情報を取得する手法としてSNMP(Simple Network Management Protocol)がある。しかし、SNMPはMIB(Management Information Base)を使うため、統計情報を管理者へと送信する場合、SNMPとMIBとの情報交換が低速なためリアルタイムな統計情報を管理者へと送信することができない。またSNMPの統計情報は、ルータ105のキューの情報等、情報としては荒い情報が多い。
 AFMはSNMPとは違い、トラヒックの中から異常フローや特徴的なフローに関しての統計情報を管理者へと送信することに特化したプロトコルであり、SNMPのMIBのようなデータベースを持たず、データベースを記憶部であるRAM(Random Access Memory)上に持ち、ハッシュ(hash)関数を用いて統計情報を検索し、高速な情報交換を行うために、制御に当り動作のオーバヘッドが少なく、大容量のトラヒックを取り扱うことが可能である。またAFMは、フロー毎の情報を取り扱うためにSNMPに比べより詳細な情報を取得することが可能である。
 本実施例のシステムは、システム全体を統合管理する統合管理サーバ103と、複数のルータ105から送信されるAFMを収集し、AFMの情報からトラヒックの状態変化を探知するIMF 102、クライアント101、及びサーバ104から構成される。各ルータ105は、AFMをIMF 102へと送信する。AFMはルータが持つ各ポートをミラーリングして、ミラーリングした情報を集約してパケットに格納してIMF 102へと送信するため、ルータ105を経由するトラヒックには影響を与えない。
 IMF 102はAFMをルータ105毎に収集して、AFMのデータを差分化することで、ルータ毎の障害解析を行う。ここでIMF 102のハード的な性能も限られているために、IMF 102の管理できるルータの台数も限られている。よってシステム中に複数のIMF 102が存在することが想定される。IMF 102は障害解析を行うに当り、IMF 102が管理しているルータ105の因果関係を考慮して、管理している全ルータ105の障害判定に基づいて、障害判定を行うに当り比較対象となる基準分布の期待値の更新を行う。各々のIMF 102は通信制御装置である各ルータから送信されるAFMを収集し、ルータ105毎に障害解析を行い、アラート(Alert)を統合管理サーバ103へと送信する。アラートを受信した統合管理サーバ103は、ネットワーク上に最適に仮想スイッチや仮想サーバを配置するための制御を行う。図1に示すデータセンタ内部の管理サーバ103は、サーバ104間やデータセンタ間で仮想サーバの移動や仮想スイッチの再配置の制御を行う。
 図2は、本実施例のWAN上の管理システムの一例を示す構成図である。統合管理サーバ201は、WAN上にある仮想サーバ及び仮想スイッチを制御、管理するシステムである。図1同様、図2においても、統合管理サーバ201は、太実線で示されるIMF203から送信されるアラート(Alert)を元に、データセンタ204A、204B間やサーバ間で、仮想サーバ及び仮想スイッチを最適に配置するための制御を行う。なお、図2において、両方向矢印の点線は、各クライアント205とデータセンタ204A、204B間のフロー(Flow A、Flow B、Flow C)を示している。
 システム全体としては、図1に示すデータセンタ内部の統合管理サーバ103、図2に示すWAN上の統合管理サーバ201は互いに連携を取り、ネットワーク全体の制御を行う。WAN上にある統合管理サーバ201を統合管理サーバの親管理サーバとして定義し、データセンタ側にある管理サーバ103を子管理サーバとして定義する。親管理サーバ201では、最適化するための制御の手段を選択するのみで、制御自体は子管理サーバ103が行う。親管理サーバ201は定期的に、IMF203から送信される情報等を基に、最適化のアルゴリズムを実行するように、子管理サーバ103へと問い合わせる。
 図3に、本実施例で用いるAFMの情報を伝達するAFMパケットのフォーマットの一例を示す。一般のフロー(Flow)は、IPヘッダやTCP/UDP(Transmission Control Protocol/User Datagram Protocol)ヘッダに含まれるアイテムの内、5-tuple(送信元IPアドレス、宛先IPアドレス、プロトコル、送信元ポート番号、宛先ポート番号)の値が一致しているパケットの集まりと定義されることが多い。AFMではこの考え方を拡張し、任意のn-tupleが一致しているパケットの集合を集約フローと定義し、この集約フロー単位にパケット数やバイト数等の統計情報を収集する。集約フローの概念を導入すると、例えばDDoS(Distribute Denial of Service)攻撃やネットワークスキャンのような1対nホスト間を流れるトラヒックを単一フローと見なしてその統計情報を得られるようになり、ネットワーク上を流れるトラヒックの振る舞いをより簡単に把握できるようになる。
 図3のAFMパケット300は、フロー種別301、アイテム数302、ペイロード長303、パケット数304、バイト数305、計測時間306、取得時刻307等から構成され、異常フローを探知するに当り、必要な情報をIMF102、203へと送信する。
 図4は、本実施例におけるIMF102、203が障害解析を行う場合における異常判定方法を説明するための図である。なお、IMF102、203の内部構成の具体的実施例は、後で図10を用いて説明する。IMFは障害を解析するに当たり、ネットワーク上に流れるトラヒックが正常か異常かを判断する必要がある。本実施例においては、ネットワーク上に流れるフロー全体の状態が正常か異常かを判断する手法を用いる。図4では、ある時刻におけるネットワーク上において、全フローの解析パラメータ測定値を用いてプロットした分布を示す。図4の横軸はデータ値を縦軸は確率密度を示す。
 始めに、図4上に、比較対象となる基準分布401の平均値と標準偏差を、初期値として設定する。これらの分布は、フロー毎の分布を示している。例えば、解析パラメータとして、ネットワークトラヒックを定義した場合において、ネットワークトラヒックの平均値として32[kbit/s]、標準偏差として32[kbit/s]を設定する。この値は、平成22年9月に総務省、総合通信基盤局が提示している、日本における1契約者当りのトラヒック量である32[kbit/s]程度の値に基づくものである。
 続いて、IMF102、203は、ネットワーク上に流れているトラヒックの異常判定を行うために、各ルータ105のAFMから必要な統計情報を取得する。その後、取得した各データに関して、基準分布に対してのマハラノビスの距離の絶対値を計算する。
 マハラノビスの距離の式は下式の通りである。
D=(x-平均)/標準偏差 [a.u.]・・・・・・・・・・・・・・(1)
 式(1)からマハラノビスの距離の値が0から十分離れた値であれば、比較対象である基準分布から逸脱したデータとなることが解る。分布に関して、各フローのマハラノビスの距離を計算後に、全フローのマハラノビスの距離の平均値を計算する。計算したマハラノビスの距離の平均値が、図4の分布402に示すように、2以上の分布に関しては、もし分布が正規分布に従うのであれば、有意水準5%で有意でないと推測できる。つまり、5%の確率で発生した異常分布とみなすことができる。このようにして、分布の異常を探知することにより、AFMを送付したルータを流れるトラヒック全体の分布から、異常であるかを検知することができる。
 図5は、以上説明した実施例1におけるマハラノビスの距離を用いたトラヒックの異常判定方法の精度向上のための変形実施例を説明するための図である。トラヒックは刻々と移り変わるために、トラヒックにおいての正常値を定義するのは難しい。本変形例は、後で説明するIMF102、203の処理部で行う異常判定において、比較基準となる基準分布を常にフィードバックをかけて更新する方法に関する。すなわち、比較対象である基準分布501の期待値を更新する手法である。本変形例では、リアルタイムに収集したデータの分布に関して、過去のデータを基に定義した基準分布の分布の平均値及び標準偏差を比較してマハラノビスの距離を計算する。
 IMF102、203でAFMのデータを収集し、収集したデータの分布に関して、平均及び標準偏差を算出し、基準分布の平均値及び標準偏差の移動平均を取得する。
 移動平均の計算式を下式2、3に示す。
平均の移動平均=(基準分布の平均+AFMで取得したデータ分布の平均)/2 
・・・・・・・・・・・・・・・・・・・・・・・・・・(2)
標準偏差の移動平均=
(基準分布の標準偏差+AFMで取得したデータ分布の標準偏差)/2 
・・・・・・・・・・・・・・・・・・・・・・・・・・(3)
 上記求めた式2、3から、フィードバック後の平均の移動平均を新たな基準分の平均として定義し、標準偏差の移動平均を新たな基準分布の標準偏差として定義する。図5に、フィードバック後の期待値平均(丸1、丸2)を例示し、期待値平均(丸2)に対する異常分布の平均を例示した。
 この過去のデータを基に新たに定義した基準分布501を基にして、新たにリアルタイムに取得したAFMのデータと比較検証を行う。比較検証を行うに当り設定した基準分布の平均及び標準偏差を基に、新たに取得したAFMのデータに関してマハラノビスの距離の計算を行う。計算したマハラノビスの距離の平均値が2以上の分布に関しては、もし分布が正規分布に従うのであれば、有意水準5%で有意でないと推測でき、5%の確率で発生した異常分布502と推測する。
 このように、基準分布の平均値と標準偏差に関してフィードバックをかけ、移動平均を取りながら更新し、移動平均から大幅に外れた分布を異常分布と推定することにより、線形の現象から大幅に外れた異常事象が発生したと推定する。通常は、呼の発生等の事象はほぼ独立に発生する。しかし、急激に事象の相関が高くなった場合は、通常では考慮できないイベントが発生したと捉えることができる。例えば、軸としてトラヒックを例に上げるのであれば、通常では発生しないイベントが発生し、急激に複数のトラヒックが上昇する。その通常では発生しないイベントとして例えば、正月の午前0時に明治神宮で家族や友達に携帯電話で一斉に通信し、携帯電話が音信不通になるような、急激に相関値が上昇するイベントである。
 本変形例においては、フィードバックを行うに当り、基準分布として線形事象を定義しているために、非線形事象である異常事象に関して移動平均は更新しない。つまり、異常が発生したと判定された場合には、測定された値によって、基準分布が更新されることを抑圧する。またIMF 102、203が管理している各ルータにおいて、ルータの内1つでも異常事象が発生したならば、管理している他のルータの基準分布の平均値と標準偏差値のフィードバックを行わない。つまりシステム内の他のルータとの因果関係を考慮し、比較対象である基準分布の平均値と標準偏差値の期待値の更新を行う。また、基準分布の平均値と標準偏差値の期待値の更新を行うに当り、IMF 102、203が管理しているルータが1台の場合は、その1台の異常判定で基準分布の期待値の更新は行う。本変形例により、トラヒックをリアルタイムに追従し、トラフィックの正常値を更新することができ、ネットワーク上を流れるトラヒック全体の分布に対する、正確な異常判定を行うことができる。
 続いて図6を用い、トラヒック全体において、状態が異常であると判定した場合に、異常を引き起こしている障害要因を特定する方法を説明する。図6はAFMから取得した統計データの中から異常トラヒックを特定する手法を説明する図である。同図において、横軸はフロー番号、縦軸は各フローのデータ値を示している。
 異常フロー(603)を特定するための評価式を下式に示す。
Avg(基準分布)+2σ(基準分布)<フローのデータ ・・・・(4)
 AFMを用いて計測した分布を異常分布と判定した場合、上式のように基準分布の平均値601及び標準偏差σ 602から、基準分布の平均値601から2σ以上のトラヒックを異常トラヒックと推定する。図6では、この異常フロー603の特定に当って、2σを閾値として例示しているが、これはIMF 102、203の管理者が設定できるパラメータである。今回主な閾値として2σを例に上げているが、これは分布が正規分布に従うのであれば、有意水準5%であり、想定していたトラヒックモデルに対して5%の確率でしか発生しないフローであり、これを異常フローであると推定する。つまり、本実施例においては、これらの異常フローが原因で異常分布が引き起こされたと判定する。
 このように、常にトラヒックの状況をモニタリングし、そのトラヒック状況に関して、フィードバックをかけて学習し、その学習した基準分布とリアルタイムのトラヒックとを比較する。比較検証を行うに当たり、解析パラメータ毎に
 続いて、実施例2として、多次元解析による障害解析システムについて説明する。障害解析システムにおける異常判定方法においては、誤検知を防ぐために異常判定の精度をあげる必要がある。誤検知が多い解析では、管理サーバへと送信されるアラート(Alert)が過多になり、管理サーバの誤動作やダウンを引き起こしてしまう可能性が高い。
 図7は、マハラノビスの距離を用いた3次元解析に基づく障害解析システムの概要図を示す図である。同図において採用する軸は、スループット701、平均パケットサイズ702、廃棄率703を3つの軸として上げる。これらの軸毎に前述のように、AFMで取得したデータに対して、基準分布の平均値及び標準偏差を用いてマハラノビスの距離の計算を行う。また軸毎に求めたマハラノビスの距離に関して、更に3次元の距離を計算する。
 本実施例においては、計算式を下式として定義する。
3次元マハラノビスの距離=sqrt(α*x2+β*y2+γ*z2)・・・(5)
α+β+γ=3 ・・・・・・・・・・・・・・・・・・・・・(6)
 ここで、x軸は廃棄率のマハラノビスの距離、y軸を平均パケットサイズのマハラノビスの距離、z軸をスループットのマハラノビスの距離として定義する。ここでα、β、γは、各軸の重みであり、各障害に対して各軸の重みのパラメータを変化させることで、障害に対するより正しい検知が可能となる。上記式に基づいて、3次元のマハラノビスの距離を計算し、その後、3次元のマハラノビスの距離を用いて異常判定を行う。3次元のマハラノビスの距離の閾値として、3.5を定義する。
 これは、各軸に関して、異常と見なす閾値は2.0であり、その閾値に関して、3次元へと換算した場合は、下式として定義することができる。
sqrt(22 + 22 + 22)=2*sqrt(3)≒3.5 ・・・・・・・・・・(7)
として定義することができる。
 本実施例においては、この閾値を用いて、3次元のマハラノビスの距離の平均値を計算した場合に、平均値が3.5を超えているかで異常判定を行う。このように異常判定を行う次元数を増やすことにより、包括的に障害判定を行える。
 1次元の軸の異常判定で発生する誤検知に関しても、包括的に多次元の軸で異常判定を行うために正確な判定を行うことができる。例えば、ある1軸の分布は異常と判定され、他の2軸の分布が異常と判定されない場合において、包括的に3次元で判断すると異常でないと判定される。このように、1次元で異常判定を行うと発生してしまう誤検知を3次元で異常判定を行うことで防ぐことが可能となる。以上説明した実施例2では、3次元にて異常判定を行うことを例に上げたが、これは2次元にも縮小が可能であるし、また4次元、5次元等、高次元へと拡張することも可能となる。
 続いて、図8~図10を用いて、上述した各実施例における、IMF102、203の具体的な構成例とその動作処理を説明する。
 図8は、IMF102、203の機能処理の一例を説明するためのブロック図である。まず、IMFが制御を行うに当り、比較対象である基準分布の初期値を設定する(801)。その後、IMFは各ルータのAFMを用いて統計的処理を行うためのデータを収集する(802)。各軸に対して、基準分布に対してのマハラノビスの距離の計算をルータ毎に行い、その後、管理しているルータ毎の異常判定を行う(803)。もし、管理しているルータ内に異常分布を検知したルータが存在するのであれば、IMFが管理している全てのルータに対して、基準分布の期待値の更新を行わない。その後、異常が検知されたのであれば、管理サーバへとアラートを送信する(804)。または、管理している全てのルータにおいて、異常が検知されないのであれば基準分布の期待値の更新を行う(805)。なお、この基準分布の期待値の更新(805)が上述した実施例1のフィードバックを用いる変形例に対応していることは言うまでもない。このように管理しているルータの相互関係で依存関係を考慮しながら各ルータで比較検証を行うための基準分布の期待値の更新の有無を決めることで、より誤検知を減らしていく。
 図9は、IMF102、203の制御方式の一例を説明するためのフローチャートを示す。IMF102、203は、制御に当り、まず初めに初期値として各ルータの各軸の基準値として平均及び標準偏差を設定する(901)。設定後に、IMFを起動し各ルータからAFMにてフロー毎のデータを取得する(902)。AFMは各ルータの統計情報を収集し、その情報をIMFへと送信する。IMFは取得した情報を内部のデータベースへと格納する。N秒間、各ルータから送信されるAFMの情報を格納する(903)。ルータ毎に振り分けた解析パラメータを用いてM次元マハラノビスの距離を求めて異常判定を行い、異常判定の結果を基に管理しているルータにおいて1台でも異常があったならば基準値の期待値の更新を行わない(905)。ここで、M次元とは、1以上の全ての次元を意味することはいうまでもなく、2以上は実施例2の多次元に対応する。異常が検知されたならば、管理サーバへとアラートを送信する(907)。もし、管理しているルータにおいて全ルータが異常判定において正常であった場合は、基準値の期待値の更新を行う(906)。この更新(906)は図8の更新(805)に対応する。
 図10に各実施例の障害解析システムにおけるIMF102、203の一実施例の構成図を示す。IMF1000はサーバであり、通常のコンピュータ構成を備えており、処理部を構成する中央処理部(Central Processing Unit:CPU)1002、記憶部を構成するRAM(Random Access Memory)1003とHDD(Hard Disk Drive)1009、及びNIF(Network Interface)1001を備える。RAM1003に、受信部として機能する受信プログラム1007、送信部として機能する送信プログラム1008、蓄積部として機能する蓄積プログラム1006、障害解析部として機能する障害解析プログラム1004、アラート作成部として機能するアラート作成プログラム1005を記憶する。IMF 1000ではこれらの機能部を構成する各プログラムを、CPU 1002がHDD 1009に記憶されたプログラム1011から逐次読み出し、RAM上 1003に展開して駆動する。
 なお、本明細書においては、上述したIMF以外の、図1、図2中の障害解析システムを構成する各要素の内部構成の説明を省略するが、クライアント101、205、管理サーバ103、201、サーバ104、更にはルータ105、202等も全て図10に示すコンピュータの基本構成を備えている。なお、2つ以上の異なるネットワークを相互接続する通信制御装置であるルータ105、202は、パケットバッファ、経路テーブル、フロー制御部等の通常のネットワーク上の通信制御装置としての構成に加え、上述したIMF102、203に送出するAFMを生成する機能を実現するための機能ブロック、プログラムを備えており、処理部によるプログラム実行によりAFMを生成して、IMF102、203に送出する。このようなAFM生成機能を備えた通信制御装置の構成の一例は、上述した特開2006-314077号公報に詳述されている。
 図10の受信プログラム1007は、各ルータから送信されるAFMを、NIF(Network Interface)1001を経由して受信する受信部として機能ブロックする。送信プログラム1008は、管理サーバへと発行するアラート(Alert)やルータに対して発行するコマンドを送信する送信部として機能するブロックである。蓄積プログラム1006は、AFMから受信した統計情報をデータベース1010上の管理テーブルに対応したデータへと加工後に、データベース1010へと格納する。管理テーブル上のパラメータとしては、統計情報をルータ毎に振り分け、振り分けられた統計情報を、障害毎に解析パラメータを振り分け、管理テーブルを作成する。またIMF1000が管理しているルータ間の因果関係を知るために、NMS(Network Management System)からネットワーク全体のトポロジー情報をデータベースへと格納する。
 障害解析プログラム1004は、データベース1010上にある管理テーブルから解析パラメータを取得し、解析パラメータ毎の基準分布に対してのマハラノビスの距離を計算した上で、包括的に障害毎に解析を行う。各ルータに対して異常判定を行い、管理しているルータ内において、一つでも異常があるルータが存在したならば、上述の通り、管理している全てのルータの基準値の期待値の更新を行わない。また、管理している全ルータにおいて異常判定がなされない場合は、全てのルータの基準分布の期待値の更新を行う。
 アラート作成部として機能するアラート作成プログラム1005は、障害解析プログラム1004にて異常と判定されたルータのIPアドレス、また異常を引き起こしたフローのsourceのIPアドレス、destinationのIPアドレスをアラートパケットに内包し、管理サーバへと送信する。またアラートに関して、アラートのレベル・段階を定義、決定する。決定するアラートレベルの例として、3段階に分けた場合は、ネットワークが輻輳により遮断されたり、配線が劣化して断線されるような障害に対してはアラートレベルが最も高い危険アラート、フローの微小な廃棄が発生する事象や、スループットが上昇する等の事象に関しては注意アラート、特にネットワークとして障害が発生していない場合に関しては、安全アラートを送信する。
 図11にIMF1000がデータベース1010で管理する管理テーブル1101の一例を示す。管理テーブル1101は、ルータ毎に、ルータ毎の比較対象となる基準分布及びルータを経由するフローのデータ群から構成される。基準分布として、各種解析パラメータの分布の平均及び標準偏差が記載している。今回は、解析パラメータ1102として、平均パケットサイズ(Average Packet Size)、スループット(Throughput)、廃棄率(Drop Ratio)を例に上げる。これらの分布に関して、基準分布となる平均及び標準偏差がテーブル1101上に管理されている。
 またフロー毎(Flow 1、Flow 2 - - - )の情報も格納している。フロー毎の情報としては、解析パラメータである、平均パケットサイズ(Average Packet Size)、スループット(Throughput)、廃棄率(Drop Ratio)に加え、Source IP、Destination IP、Source Port、Destination Portを情報として格納している。これらのフロー毎の情報を基に、IMFの蓄積プログラム部1006おいて、現状の解析パラメータに関して統計分布を計算し管理テーブル1101を更新する。
 図12A、12B~図15A、15Bに、上述した各実施例より、AFMから送信された統計情報として、廃棄率、スループット、平均パケットサイズのデータ及び、IMF内で計算した基準分布に対してのマハラノビスの距離の計算結果を示した。計算結果は全て絶対値である。
 図12A、12Bに廃棄率の結果を示すグラフ1201とデータ1202をそれぞれ示す。以下、図20A、20Bを除き、同様にグラフとそのデータを示している。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を0.2、標準偏差を0.2として設定した。今回例に上げた廃棄率に関して、基準分布に対してのマハラノビスの距離の平均値は0.99ある。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、廃棄率の分布は正常と判断する。今回、基準分布の平均値を0.2、標準偏差を0.2として設定したが、この値に今回は理論的な根拠はない。また異常フローとしては、フロー番号が9のフローがマハラノビスの距離が2.5であり、2以上の値を取るために異常なフローと特定する。
 図13A、13Bにスループットの結果1301、1302を示す。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を200[Mbit/s]、標準偏差を200[Mibt/s]として設定した。今回例に上げたスループットに関して、マハラノビスの距離の平均値は2.59である。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以下の確率で発生する分布であるため、スループットの分布は異常と判断する。また異常フローとしては、フロー番号が2、3、4のフローが、マハラノビスの距離が6.5であり、2以上の値を取るために異常なフローと特定する。
 図14 A、14Bに平均パケットサイズの結果1401、1402を示す。9本のフローをサンプルとして取り上げる。また基準分布としては、平均値を300、標準偏差を300として設定した。今回例に上げた平均パケットサイズに関して、マハラノビスの距離の平均値は0.88である。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、スループットの分布は正常と判断する。また異常フローとしては、フロー番号が2のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。
 図15A、15Bは、廃棄率、スループット、平均パケットサイズ、3つの軸のマハラノビスの距離を用いて包括的かつ3次元に異常判定を行う手法を説明したグラフ1501と、そのデータ1502を示している。今回例に上げたマハラノビスの距離の3次元化に関して、マハラノビスの距離を3次元化した値の平均値は3.41である。これは1次元の分布において、異常判定するための閾値を2σ賭した場合、3次元のマハラノビスの距離の閾値値がsqrt(2*2+2*2+2*2)=2sqrt(3)=3.46≒3.5のために、分布が正規分布に従うとしたならば、有意水準95%の確率で発生する分布であるため、今回の状態分布は正常と判断する。異常と判断した場合は、原因及び検知した先のルータのIPを内包したパケット(アラート)を管理サーバへと送信する。IMFは、ルータが送信するAFMの統計情報を用いて、ルータ毎に包括的な障害解析を行い、他のルータの因果関係を考慮し、IMFが管理している全ルータが正常と判定された時に、基準分布の平均値及び標準偏差の期待値を更新することで、より正確に異常を判定できることが可能となる。
 図16A、16B~図19A、19Bに、異常判定を行う場合において、基準分布の平均値及び標準偏差の期待値を更新した場合において、基準分布に対してのマハラノビスの距離の計算結果を示すグラフとデータである。計算結果は全て絶対値である。上記の結果は、予測に基づいたサンプル結果であり、実測値ではない。
 図16A、16Bに廃棄率の結果1601、1602を示す。廃棄率に関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は0.95となる。前回の期待値に対してのマハラノビスの距離は0.99であった。マハラノビスの距離は0から十分に大きい値であれば、基準分布の平均と標準偏差から逸脱した値と捉える事ができる。今回は、基準分布の平均値の期待値及び標準偏差の期待値が更新されたため、各データに対するマハラノビスの距離が減少したと考えられる。また更新した基準分布の期待値に対して、異常と判定される場合の廃棄率のデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、4~9の6本のフローが廃棄率として、0.9という値を示した時である。
 図17A、17Bにスループットの結果1701、1702を示す。スループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は1.27となる。更新する前の期待値に対してのマハラノビスの距離は2.62であった。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、マハラノビスの距離が減少したと考えられる。また基準分布の平均値及び標準偏差の期待値を更新する前は、スループットは異常分布と判定されていたのが、同じ分布であっても期待値を更新した場合は正常と判定される。また更新した基準分布に対して、異常と示すスループットのデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、2~8の7本のフローで、スループット1.5[Gbit/s]という値を示した時である。
 図18A、18Bに平均パケットサイズの結果1801、1802を示す。平均パケットサイズに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は0.82となる。前回の期待値に対してのマハラノビスの距離は0.88であった。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、マハラノビスの距離が減少したと考えられる。また更新した基準分布に対して、異常と示すスループットのデータも示す。基準分布の期待値を更新したため、異常と判定されるためには、かなり逸脱した値を必要とされる。逸脱した値としては、9本のフローの中で、2~4の3本のフローで、平均パケットサイズ1000[byte]という値を示した時である。
 図19A、19Bに3次元のマハラノビスの距離の評価結果1901、1902を示す。3次元のマハラノビスの距離に関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、更新前に比べ、基準分布の平均値より2σ離れた異常分布として判定されるためには、データとしてかなり逸脱した値を必要とされる。今回は、基準分布の平均値及び標準偏差の期待値が更新されたため、基準分布の平均値及び標準偏差の期待値が更新する前に算出したマハラノビスの距離が大きい値は、今回の判定においては、マハラノビスの距離の値が小さくなっていることが分かる。つまり前回、誤検知の可能性を内包した結果に対して、今回はより正常な値に近づき、フィードバックを行うことでより適切な異常判定を行えることが分かる。
 以上説明したように、ルータ等の被検対象より得られるデータ群は、複数の解析パラメータに分割される時系列のデータ群であり、これらの時系列のデータ群を基に、解析パラメータ毎に対する基準分布の平均値及び標準偏差の期待値を、フィードバックをかけて更新する。基準分布の平均値及び標準偏差の期待値に関して、初期パラメータは、経験則に基づいて設定する。また障害毎に解析パラメータを割り当て、割り当てられた3次元等の複数の解析パラメータの基準分布に対するマハラノビスの距離を算出し、包括的に異常判定を行う。
 このようにして、複数のパラメータを用いた上で異常判定を行い、各ルータ間の因果関係を考慮した上で、各ルータの判定結果を基に更に基準分布の平均値及び標準偏差の期待値に関してフィードバックをかけて更新するために、ある一つのルータが異常検知を行った場合に、他のルータも一斉に異常検知を出力し、情報収集障害解析装置から管理サーバへと送信するアラートが過多状態となることを防止することができる。また、解析パラメータ数を3次元以上に増やすことで、限りなく誤検知をなくし適切な判定を得ることが可能となる。
 続いて、第3の実施例に関して説明する。本実施例においては、上述した障害解析装置・システムにおいて、基準分布の平均値と標準偏差の期待値を更新する場合において、基準分布の平均値と標準偏差を、次に各ルータが送信するAFMの統計情報を用いて、単純移動平均に代え加重移動平均にて新たに更新する。
 基準分布の平均と標準偏差の期待値の移動平均は下式で示される。
基準分布の平均の期待値の移動平均=
(α*基準分布の平均の期待値+β*AFMで取得したデータ分布の平均)/2 
・・・・・・・・・・・・・・・・・・・・・・・・・・(8)
基準分布の標準偏差の期待値の移動平均=(α*基準分布の標準偏差の期待値
+β*AFMで取得したデータ分布の標準偏差)/2 ・・(9)
α+β=1 ・・・・・・・・・・・・・・・・・・・・・・(10)
 上記の式を用いて、基準分布の平均値及び標準偏差の期待値を更新する。上記式の平均値及び標準偏差の期待値を更新する場合は、IMFが管理しているルータ間の因果関係を考慮し、管理している全ルータが正常の場合のみに基準分布の平均値及び標準偏差の期待値を更新する。この実施例の動作に関して説明する。システム構成は、上述した実施例1、2と同様であるのでここでは、説明を省略する。
 (8)~(10)式を用いて、基準分布の平均値及び標準偏差の期待値を更新するに当り、α値、β値、それぞれの比率を変化させる。α、βに関して、
β=1/マハラノビスの距離 ・・・・・・・・・・・・・・(11)
       if(マハラノビスの距離<1) マハラノビスの距離=1・・(11a)
α=1-β ・・・・・・・・・・・・・・・・・・・・・・(12)
 上記の式を用いて、基準分布の平均値及び標準偏差の加重平均を取得する。このように加重平均を取ることにより、比較基準となる基準分布の平均値及び標準偏差に関して逸脱度合いが高いデータを重要視せず、基準分布の平均値及び標準偏差により近いデータを重要視する。このように、逸脱度合いに対応して移動平均を取ることにより、比較基準となる基準分布を正常分布と見なすことができる。上記式の平均値及び標準偏差の期待値を更新する場合は、IMFが管理しているルータ間の因果関係を考慮し、管理している全ルータが正常の場合のみに基準分布の平均値及び標準偏差の期待値を更新する。
 本実施例においては、実施例1の障害解析装置・システムに対して、基準分布の平均及び標準偏差の初期値を設定せずに、ネットワークに接続し、AFMを用いてN秒間ネットワークの状態を把握し、その時に取得したAFMのデータを基準分布の平均及び標準偏差の初期値として設定するものである。このようにネットワークの状況を学習した上で、基準分布の平均値及び標準偏差の初期値を自動的に設定することは、基準分布の平均値及び標準偏差の初期値を管理者がシステムの状況を推測した上で設定する必要はない。また、基準分布の初期値として、平均値を0として、システムの最大許容値を標準偏差として設定する手法も考えられる。この場合は、N秒間基準分布の移動平均を取った場合は、基準分布は最大許容値から現状駆動している値の分布へと収束していく可能性が考えられる。
 次に、第5の実施例について説明する。本実施例においては、実施例1、2で説明した障害解析装置・システムにおいて、IMFが障害解析を行うに当り、異常判定にもちいる解析パラメータとして下式を定義する。
TCPのスループット/異なり数[Mbit/s] ・・・・・・・・・・(13)
 ここで異なり数について説明する。図20A、20Bは、異なり数を説明する図である。ルータから状態変化を検知するための解析パラメータを取得する手段としてAFMを例に上げた。AFMでは、集約フローの概念を導入している。例えば5-tuple(送信元IPアドレス、宛先IPアドレス、プロトコル、送信元ポート番号、宛先ポート番号)の内、図20A、20Bに示すように、2-tupleが一致するパケットからなる集約フローを例上げる。このように1対n通信を1つの集約フローと見なすと、2-tupleに含まれないアイテムに何種類の異なる値が現れたかという「異なり数」と呼ぶ新たな統計量も定義することができる。AFMでは、この異なり数も統計情報の一部として収集する。図20A、20Bは、集約フローとして、一致させる2-tupleの組として、それぞれ(送信元IPアドレス、プロトコル)2001、または(宛先IPアドレス、プロトコル)2002の場合を示している。2-tupleの組として(送信元IPアドレス、プロトコル)の場合は、あるPCが複数のサーバにTCP通信で接続していることが想定される。2-tupleの組として(宛先IPアドレス、プロトコル)の場合は、サーバが複数のクライアントから送信されたTCP通信を受信していることが想定される。上記のパラメータの概念は、異なり数は(送信元IPアドレス、プロトコルがTCP)に対する異なり数や、(宛先IPアドレス、プロトコルがTCP)に対する異なり数である。異なり数が(送信元IPアドレス、プロトコルがTCP)に対する異なり数である場合は、クライアントがあるPCに接続し、接続しているTCP通信において、TCP1通信当りの平均スループットである。この値が大きい値を示すのであれば、あるPCが複数のサーバに大容量なTCP通信で接続していることが想定される。
 このように大容量のTCP通信で、複数のサーバにアクセスする場合、著しくネットワークの効率を減少させる。また接続先のサーバがダウンしてしまう可能性が高い。上記のようなパラメータを定義することで、悪意のあるユーザ、もしくは通常ユーザにはあり得ない通信を行っているユーザを特定することができる。異なり数が(宛先IPアドレス、プロトコルがTCP)に対する異なり数である場合は、サーバに接続しているTCP通信において、TCP1通信当りの平均スループットである。このように複数かつ大容量のTCP通信で、サーバにアクセスする場合、サーバがダウンしてしまう可能性が高い。上記のようなパラメータを定義することで、ダウンしてしまう可能性があるサーバを特定することができる。
 上記の実施例において下式のようなパラメータを定義する実施例も考えられる。
UDPのスループット/異なり数[Mbit/s] ・・・・・・・・(14)
 また上記の実施例において下式のようなパラメータを定義する実施例も考えられる。
TCPのスループット/異なり数[Mbit/s]
+UDPのスループット/異なり数[Mbit/s] ・・(15)
 図21A、21Bに式(13)に関しての結果2101、2102を示す。図21 A、21Bに示す結果は(Source IPAddress、Protocol)を固定した場合において、Destination IPAddressの異なり数毎に対するスループットの結果である。これはクライアントが複数のサーバへと接続している状況を想定でき、サーバへと接続しているフローの平均スループットを示している。この値が高い値を示しているならば、大容量に複数のサーバへと接続しているクライアントと想定でき、クライアントがシステム全体の性能劣化を引き起こしている可能性がある。異なり数毎のスループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は1.592となる。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以上の確率で発生する分布であるため、スループットの分布は正常と判断する。
 また異常フローとしては、Source IPAddress=192.168.30.6、Source IPAddress=192.168.30.7のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。図21A、21Bに示した結果を、先程示した多次元解析において、1つ次元として定義する。
 図22A、22Bに式(13)に関しての結果2201、2202を示す。図22A、22B 1に示す結果は(Destination IPAddress、Protocol)を固定した場合において、Source IPAddressの異なり数毎に対するスループットの結果である。これはサーバが複数のクライアントへと接続している状況を想定でき、サーバがクライアントへと接続しているフローの平均スループットを示している。この値が高い値を示しているならば、大容量に複数のクライアントへと接続しているサーバと想定でき、そのサーバがシステム全体の性能劣化を引き起こしている可能性がある。異なり数毎のスループットに関して、基準分布の平均値及び標準偏差の期待値を更新した場合は、前回のデータに関しての平均のマハラノビス距離は2.81となる。これは分布において2σにおいてのマハラノビスの距離の値が2のために、分布が正規分布に従うとしたならば、有意水準5%以下の確率で発生する分布であるため、スループットの分布は異常と判断する。
 また異常フローとしては、Source IPAddress=192.168.10.1、Source IPAddress=192.168.10.2、Source IPAddress=192.168.10.8のフローが、マハラノビスの距離が2以上の値を取るために異常なフローとして特定する。図22A、22Bに示した結果を、先程示した多次元解析において、1つ次元として定義すれば良い。
 以上詳述した本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。
 また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 更に、上述した各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良いことは言うまでもない。
101 クライアントPC 
102 IMF 
103 統合管理サーバ 
104 サーバPC 
105 ルータ
201 統合管理サーバ 
202 ルータ 
203 IMF 
204 データセンタ 
205 クライアントPC
301 UDPヘッダ 
302 AFMヘッダ 
303 AFM統計ペイロード 
304 バージョン番号 
305 統計ペイロード数 
306 Reserved 
307 バージョン番号 
308 AFMエージェントID
401 基準分布 
402 異常分布
501 基準分布 
502 異常分布
601 基準分布の平均 
602 基準分布の標準偏差 
603 異常フロー
701 スループットのマハラノビスの距離 
702 平均パケットサイズのマハラノビスの距離 
703 廃棄率のマハラノビスの距離 
801 基準分布の初期設定 
802 N秒間AFMからデータ取得 
803 管理している全ルータの異常判定 
804 アラート送信 
805 基準分布の期待値の更新
901 初期値として、各ルータの各軸の基準値として平均及び標準偏差を設定 902 各ルータからAFMにてデータを取得 
903 N秒経過? 
904 軸毎に分布のマハラノビスの距離の検定 
905 ルータ毎にM次元のマハラノビスの距離に対して検定異常or全部正常? 906 管理サーバへアラート送信 
907 ルータ毎に軸毎の基準値である平均及び標準偏差を更新
1001 NIF 
1002 MPU 
1003 RAM 
1004 障害解析プログラム 
1005 アラート作成プログラム 
1006 蓄積プログラム 
1007 受信プログラム 
1008 送信プログラム 
1009 HDD 
1010 DB
1101 廃棄率グラフ 
1102 廃棄率のデータ
1201 廃棄率グラフ 
1202 廃棄率のデータ
1301 スループットグラフ 
1302 スループットのデータ
1401 平均パケットサイズグラフ 
1402 平均パケットサイズのデータ
1501 3次元マハラノビスの距離グラフ 
1502 3次元マハラノビスの距離のデータ表
1601 廃棄率グラフ 
1602 廃棄率のデータ
1701 スループットグラフ 
1702 スループットのデータ
1801 平均パケットサイズグラフ 
1802 平均パケットサイズのデータ
1901 3次元マハラノビスの距離グラフ 
1902 3次元マハラノビスの距離のデータ表
2001 送信元IPアドレスを固定した場合の異なり数 
2002 宛先元IPアドレスを固定した場合の異なり数
2101 (Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループット 
2102 (Source IPAddress, Protocol)を固定した場合において、異なり数としてSource IPAddress毎のスループットのデータ
2201 (Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループット 
2202 (Source IPAddress, Protocol)を固定した場合において、異なり数としてDestination IPAddress毎のスループットのデータ

Claims (15)

  1. ネットワーク上の複数のルータに接続される障害解析装置であって、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、
    受信した前記データ群を蓄積する蓄積部と、
    蓄積したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える、
    ことを特徴とする障害解析装置。
  2. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析装置。
  3. 請求項1に記載の障害解析装置であって、
    アラート作成部を更に備え、
    前記アラート作成部は、前記障害解析部が前記異常判定により特定した障害要因及び障害個所から、外部に送信するアラートの段階を決定する、
    ことを特徴とする障害解析装置。
  4. 請求項2に記載の障害解析装置であって、
    前記障害解析部は、
    異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を加重移動平均で行う際、加重平均を取るデータに対する重みを前記マハラノビスの距離に反比例した値にて行う、
    ことを特徴とする障害解析装置。
  5. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    前記ルータ毎の異常判定にて、一定期間前記ルータから前記データ群を収集し、収集した前記データ群から異常判定に用いる前記基準分布の平均値及び標準偏差を計算し、前記基準分布の初期値とする、
    ことを特徴とする障害解析装置。
  6. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎の前記データ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、TCPスループット/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    ことを特徴とする障害解析装置。
  7. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎の前記データ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、UDPスループット/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    ことを特徴とする障害解析装置。
  8. 請求項1に記載の障害解析装置であって、
    前記障害解析部は、
    取得したルータ毎のデータ群を用いて、障害毎に複数の解析パラメータを分割し、複数の前記解析パラメータの一つとして、(TCPスループット+UDPスループット)/異なり数[Mbit/s]にて、前記基準分布に対するマハラノビスの距離を算出する、
    こと特徴とする障害解析装置。
  9. ネットワークの障害解析システムであって、
    前記ネットワーク上に、ノードが接続される複数のルータと、複数の前記ルータに接続される障害解析装置とを備え、
    前記障害解析装置は、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信する受信部と、
    受信したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う障害解析部とを備える、
    ことを特徴とする障害解析システム。
  10. 請求項9に記載の障害解析システムであって、
    前記障害解析部は、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析システム。
  11. 請求項9に記載の障害解析システムであって、
    前記障害解析部を備えた前記ノードは、アラート作成部を更に備え、
    前記アラート作成部は、前記障害解析部が前記異常判定により特定した障害要因及び障害個所から、送信するアラートの段階を決定する、
    ことを特徴とする障害解析システム。
  12. 請求項11に記載の障害解析システムであって、
    前記ネットワーク上に、前記障害解析部を備えた前記ノードに接続される管理サーバを更に備え、
    前記アラート作成部を備えた前記ノードは、
    前記アラート作成部が段階を決定した前記アラートを前記管理サーバへと送信する送信部を備える、
    ことを特徴とする障害解析システム。
  13. ネットワーク上の複数のルータに接続されるノードにおける障害解析方法であって、
    前記ノードは、
    前記ルータ各々が取得した、トラヒック上に流れるフロー毎の情報をデータ群として受信し、
    受信したルータ毎の前記データ群を、障害毎に少なくとも一個の解析パラメータとし、前記解析パラメータの基準分布に対するマハラノビスの距離を算出し、ルータ毎に前記基準分布に対するマハラノビスの距離を用いて異常判定を行う、
    ことを特徴とする障害解析方法。
  14. 請求項13に記載の障害解析方法であって、
    前記ノードは、
    前記基準分布に対するマハラノビスの距離を用いて異常判定を行うに際し、前記ルータ異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を、単純移動平均或いは加重移動平均にて行う、
    ことを特徴とする障害解析方。
  15. 請求項14に記載の障害解析方法であって、
    前記ノードは、
    異常判定に用いる前記基準分布の平均値及び標準偏差の期待値の更新を加重移動平均で行う際、加重平均を取るデータに対する重みを前記マハラノビスの距離に反比例した値にて行う、
    ことを特徴とする障害解析方法。
PCT/JP2011/054886 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法 WO2012117549A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/819,563 US9065728B2 (en) 2011-03-03 2011-03-03 Failure analysis device, and system and method for same
PCT/JP2011/054886 WO2012117549A1 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法
JP2013502114A JP5666685B2 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法
CN201180042291.5A CN103081407B (zh) 2011-03-03 2011-03-03 故障分析装置、故障分析系统及故障分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/054886 WO2012117549A1 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法

Publications (1)

Publication Number Publication Date
WO2012117549A1 true WO2012117549A1 (ja) 2012-09-07

Family

ID=46757509

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/054886 WO2012117549A1 (ja) 2011-03-03 2011-03-03 障害解析装置、そのシステム、およびその方法

Country Status (4)

Country Link
US (1) US9065728B2 (ja)
JP (1) JP5666685B2 (ja)
CN (1) CN103081407B (ja)
WO (1) WO2012117549A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016146580A (ja) * 2015-02-09 2016-08-12 日本電信電話株式会社 通信監視システム、通信監視方法およびプログラム
CN112636974A (zh) * 2020-12-22 2021-04-09 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
WO2021171526A1 (ja) * 2020-02-27 2021-09-02 日本電信電話株式会社 付与装置、付与方法及び付与プログラム
CN114666577A (zh) * 2022-05-24 2022-06-24 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898317B2 (en) 2012-06-06 2018-02-20 Juniper Networks, Inc. Physical path determination for virtual network packet flows
US8953441B2 (en) * 2012-06-06 2015-02-10 Juniper Networks, Inc. Re-routing network traffic after link failure
JP5987701B2 (ja) * 2013-01-16 2016-09-07 富士通株式会社 通信監視装置、予測方法及び予測プログラム
JP5958354B2 (ja) 2013-01-16 2016-07-27 富士通株式会社 通信監視装置、発生予測方法及び発生予測プログラム
DE112013006475T5 (de) * 2013-11-29 2015-10-08 Hitachi, Ltd. Verwaltungssystem und Verfahren zur Unterstützung einer Analyse in Bezug auf eine Hauptursache eines Ereignisses
US9276871B1 (en) * 2014-03-20 2016-03-01 Cisco Technology, Inc. LISP stretched subnet mode for data center migrations
US9479457B2 (en) 2014-03-31 2016-10-25 Juniper Networks, Inc. High-performance, scalable and drop-free data center switch fabric
US20150333998A1 (en) * 2014-05-15 2015-11-19 Futurewei Technologies, Inc. System and Method for Anomaly Detection
JP6362992B2 (ja) * 2014-10-20 2018-07-25 三菱日立パワーシステムズ株式会社 熱交換器の監視装置及び熱交換器の監視方法
JP6440203B2 (ja) 2015-09-02 2018-12-19 Kddi株式会社 ネットワーク監視システム、ネットワーク監視方法およびプログラム
US10958559B2 (en) 2016-06-15 2021-03-23 Juniper Networks, Inc. Scaled inter-domain metrics for link state protocols
US10243840B2 (en) 2017-03-01 2019-03-26 Juniper Networks, Inc. Network interface card switching for virtual networks
JP7188950B2 (ja) * 2018-09-20 2022-12-13 株式会社Screenホールディングス データ処理方法およびデータ処理プログラム
JP7179663B2 (ja) * 2019-03-28 2022-11-29 三菱重工業株式会社 プラント監視装置、プラント監視方法、及びプログラム
CN110207996A (zh) * 2019-04-19 2019-09-06 中国神华能源股份有限公司 燃气轮机故障预警方法和装置
WO2020227985A1 (en) * 2019-05-15 2020-11-19 Alibaba Group Holding Limited Real-time fault detection on network devices and circuits based on traffic volume statistics
US10999183B2 (en) 2019-08-12 2021-05-04 Juniper Networks, Inc. Link state routing protocol adjacency state machine
TWI785718B (zh) * 2021-08-04 2022-12-01 中華電信股份有限公司 電信網路的自我修復系統和自我修復方法
CN116662794B (zh) * 2023-08-02 2023-11-10 成都凯天电子股份有限公司 一种考虑数据分布更新的振动异常监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
JP2008118242A (ja) * 2006-11-01 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 異常トラヒック検出方法およびその装置およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2618538B1 (en) * 2003-11-12 2018-09-05 The Trustees Of Columbia University In The City Of New York Apparatus, Method and Medium for Detecting Payload Anomaly using N-Gram Distribution of Normal Data
JP4250075B2 (ja) 2003-12-26 2009-04-08 株式会社リコー 画像形成装置
US7203431B2 (en) 2003-12-26 2007-04-10 Ricoh Company, Ltd. Abnormality determining method, abnormality determining apparatus, and image forming apparatus
JP4547342B2 (ja) 2005-04-06 2010-09-22 アラクサラネットワークス株式会社 ネットワーク制御装置と制御システム並びに制御方法
US7694338B1 (en) * 2005-06-03 2010-04-06 Sprint Communications Company L.P. Shared tap DOS-attack protection
JP4089719B2 (ja) * 2005-09-09 2008-05-28 沖電気工業株式会社 異常検出システム,異常管理装置,異常管理方法,プローブおよびそのプログラム
JP4594869B2 (ja) 2006-01-24 2010-12-08 富士通株式会社 状態監視装置
US7742404B2 (en) * 2006-02-23 2010-06-22 Asankya Networks, Inc. Systems and methods of network monitoring
US8533819B2 (en) * 2006-09-29 2013-09-10 At&T Intellectual Property Ii, L.P. Method and apparatus for detecting compromised host computers
US20100138919A1 (en) * 2006-11-03 2010-06-03 Tao Peng System and process for detecting anomalous network traffic
US8311018B2 (en) * 2007-02-05 2012-11-13 Andrew Llc System and method for optimizing location estimate of mobile unit
KR20090089034A (ko) * 2008-02-18 2009-08-21 삼성전자주식회사 아이피 통신 시스템에서 비정상동작 아이피 패킷 검출을위한 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
JP2008118242A (ja) * 2006-11-01 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 異常トラヒック検出方法およびその装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAOYAIKEDA: "Daikibo Edge Router to Kosoku Traffic Monitoring", IEICE TECHNICAL REPORT, vol. 109, no. 421, 12 February 2010 (2010-02-12), pages 47 - 52 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016146580A (ja) * 2015-02-09 2016-08-12 日本電信電話株式会社 通信監視システム、通信監視方法およびプログラム
WO2021171526A1 (ja) * 2020-02-27 2021-09-02 日本電信電話株式会社 付与装置、付与方法及び付与プログラム
JPWO2021171526A1 (ja) * 2020-02-27 2021-09-02
JP7396454B2 (ja) 2020-02-27 2023-12-12 日本電信電話株式会社 付与装置、付与方法及び付与プログラム
CN112636974A (zh) * 2020-12-22 2021-04-09 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
CN112636974B (zh) * 2020-12-22 2022-08-02 安徽飞凯电子技术有限公司 一种基于大数据的通信设备智能监管系统
CN114666577A (zh) * 2022-05-24 2022-06-24 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置
CN114666577B (zh) * 2022-05-24 2022-09-02 杭州海康威视数字技术股份有限公司 一种基于视频行为距离的设备异常检测方法和装置

Also Published As

Publication number Publication date
CN103081407A (zh) 2013-05-01
JP5666685B2 (ja) 2015-02-12
US20130329571A1 (en) 2013-12-12
CN103081407B (zh) 2015-11-25
US9065728B2 (en) 2015-06-23
JPWO2012117549A1 (ja) 2014-07-07

Similar Documents

Publication Publication Date Title
JP5666685B2 (ja) 障害解析装置、そのシステム、およびその方法
US7313141B2 (en) Packet sequence number network monitoring system
US8443074B2 (en) Constructing an inference graph for a network
US8601155B2 (en) Telemetry stream performance analysis and optimization
JP4727275B2 (ja) 高速トラヒック測定および解析の方法論とプロトコル
US20130191829A1 (en) Computer system, virtual server alignment method, and alignment control apparatus
EP1367771B1 (en) Passive network monitoring system
Teixeira et al. Traffic matrix reloaded: Impact of routing changes
US9774506B2 (en) Method and apparatus for analysis of the operation of a communication system using events
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
Zhuang et al. Data collection with accuracy-aware congestion control in sensor networks
JP6220625B2 (ja) 遅延監視システムおよび遅延監視方法
KR20150090216A (ko) 암호화된 세션 모니터링
CN111989979A (zh) 控制通信网络的操作以减少等待时间的方法和系统
JP2012039565A (ja) 監視システム、監視装置、監視プログラム及び端末
KR20220029142A (ko) Sdn 컨트롤러 서버 및 이의 sdn 기반 네트워크 트래픽 사용량 분석 방법
JP2009199556A (ja) 通信監視装置、通信監視方法、コンピュータプログラム、そのシステム
Wu et al. Lossdetection: Real-time packet loss monitoring system for sampled traffic data
JP2002164890A (ja) ネットワークの診断装置
JP4158480B2 (ja) ネットワーク品質劣化判断システム
Lan et al. Passive overall packet loss estimation at the border of an ISP
Miyazawa et al. In-network real-time performance monitoring with distributed event processing
Tri et al. On Reducing Measurement Load on Control-Plane in Locating High Packet-Delay Variance Links for OpenFlow Networks
Liu et al. Active Measurement Approach to Traffic QoS Sensing for Smart Network Access in SDN

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180042291.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11859958

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13819563

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2013502114

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 11859958

Country of ref document: EP

Kind code of ref document: A1