WO2021002298A1 - 故障影響推定装置、故障影響推定方法、及びプログラム - Google Patents

故障影響推定装置、故障影響推定方法、及びプログラム Download PDF

Info

Publication number
WO2021002298A1
WO2021002298A1 PCT/JP2020/025331 JP2020025331W WO2021002298A1 WO 2021002298 A1 WO2021002298 A1 WO 2021002298A1 JP 2020025331 W JP2020025331 W JP 2020025331W WO 2021002298 A1 WO2021002298 A1 WO 2021002298A1
Authority
WO
WIPO (PCT)
Prior art keywords
amount
traffic
failure
log
estimation
Prior art date
Application number
PCT/JP2020/025331
Other languages
English (en)
French (fr)
Inventor
松尾 洋一
丈浩 川田
西松 研
達明 木村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/621,605 priority Critical patent/US11736343B2/en
Publication of WO2021002298A1 publication Critical patent/WO2021002298A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/149Network analysis or design for prediction of maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput

Definitions

  • the present invention relates to a technique for analyzing the business contents of an operator in the operation of a communication system, and particularly to a technique related to grasping the influence on the communication system due to an abnormality such as a failure occurring in the communication system.
  • Non-Patent Document 1 research for early detection of abnormalities in communication systems (Non-Patent Document 1) and research for estimating the cause and cause (Non-Patent Document 2) are being conducted.
  • Non-Patent Document 3 and Non-Patent Document 4 the dependency relationship between the target service and the sub-services constituting them in the Web service system, the sub-service and the resource (switch, server, etc.) that executes the function is defined and simulated.
  • the magnitude of the influence when a certain sub-service or resource in the service state becomes abnormal is estimated.
  • Non-Patent Document 5 discloses a technique for predicting how many terminals are within the range of a base station and estimating the number of affected terminals when an abnormality occurs in a certain base station in mobile communication. There is.
  • Abnormality can be detected by conventional abnormality detection such as Non-Patent Documents 1 and 2.
  • conventional abnormality detection such as Non-Patent Documents 1 and 2.
  • the degree of influence varies greatly depending on the usage status of NW (for example, the usage status differs greatly between the daytime time zone and the nighttime time zone) and the location of occurrence, but these cannot be taken into consideration.
  • the conventional failure impact analysis mainly analyzes which equipment and functions are affected in the event of an abnormality, and it is not known how many users are affected or how long the impact will continue. Further, in Non-Patent Document 3 and Non-Patent Document 4, it is necessary to define the dependency relationships between devices / functions in advance, but it takes a lot of time and know-how of an operator with specialized knowledge to construct them. It is not possible to estimate the failure effect efficiently.
  • the present invention has been made in view of the above points, and an object of the present invention is to provide a technique capable of efficiently estimating the influence on a user due to an abnormality occurring in a communication system.
  • an input unit for inputting a log and a traffic amount obtained from the communication system at the time of an abnormality and An estimation unit that estimates the amount of failure impact in the communication system based on the log and the traffic amount.
  • a failure impact estimation device including an output unit that outputs the failure impact amount estimated by the estimation unit.
  • the amount of change in the traffic amount (which may be called the traffic change amount) and the failure effect time are predicted, and the traffic is predicted.
  • the amount of failure impact is estimated from the amount of change (specifically, the amount of decrease).
  • the failure impact amount includes the number of affected users, RTT, throughput, failure impact time (the length of time during which the user is affected by the failure), and the like.
  • RTT the number of affected users
  • throughput the number of affected users
  • failure impact time the length of time during which the user is affected by the failure
  • FIG. 1 shows the functional configuration of the failure impact estimation device 100 that estimates the failure impact amount.
  • the failure impact estimation device 100 includes a past traffic log storage DB (database) 110, a past traffic change amount / impact user number storage DB 120, a failure impact time / traffic change amount estimation unit 130, and an impact user number. It includes an estimation unit 140, a user interface 150, a learning unit 160, a preprocessing unit 170, and an input unit 180.
  • the user interface 150 may be called an output unit. Further, the failure impact time / traffic change amount estimation unit 130 and the impact user number estimation unit 140 may be collectively referred to as an estimation unit. Further, the failure impact time / traffic change amount estimation unit 130 may be referred to as a first estimation unit, and the impact user number estimation unit 140 may be referred to as a second estimation unit. Further, the failure impact estimation device 100 may be called a failure impact estimation system.
  • the user terminal 200 is connected to the failure impact estimation device 100 via a network.
  • the user terminal 200 uses the failure impact estimation device 100 via the user interface 150.
  • the past traffic log accumulation DB 110 accumulates the past log x and the past traffic amount X.
  • the past traffic change amount / influence user number accumulation DB 120 accumulates the past failure influence time, the traffic change amount in the past failure influence time, and the influence user number in the past failure influence time. The values actually observed are accumulated in the past traffic log accumulation DB 110 and the past traffic change amount / influence user number accumulation DB 120.
  • the failure impact time / traffic change amount estimation unit 130 is a model for estimating the failure impact time and the change amount of the traffic amount.
  • a model based on the regression method is used as the model, and the failure effect time / traffic change amount estimation unit 130 corresponds to the model 1 described later.
  • any model in the present embodiment is learned by a machine learning method, any machine learning method may be used.
  • a regression method is used as an example.
  • the affected user number estimation unit 140 is a model that estimates the number of affected users from the traffic change amount and the log.
  • a model based on the regression method is used as the model, and the affected user number estimation unit 140 corresponds to the model 2 described later.
  • the learning unit 160 learns the estimation unit (in the example of FIG. 1, the failure impact time / traffic change amount estimation unit 130 and the impact user number estimation unit 140).
  • the pre-processing unit 170 executes log template creation.
  • the input unit 180 inputs the traffic amount and the log obtained from the communication system when a failure occurs (when an abnormality occurs).
  • the learning unit 160 uses the past log x and the past traffic amount X accumulated in the past traffic log storage DB 110, and uses a time-series regression method such as deepsense to estimate the failure effect time / traffic change amount 130 (model 1). ) To learn.
  • the training optimizes the parameters of model 1.
  • Part 140 (model 2) is trained. The training optimizes the parameters of model 2.
  • the failure impact estimation device 100 estimates the failure impact time and the number of affected users based on the traffic amount and the log at the time of failure occurrence.
  • the learning unit 160, the past traffic log storage DB 110, and the past traffic change amount / impact user number storage DB 120 may be provided outside the failure impact estimation device 100.
  • an externally learned estimation unit in the example of FIG. 1, the failure effect time / traffic change amount estimation unit 130 and the effect user number estimation unit 140
  • the traffic change amount estimation unit 130 and the influence user number estimation unit 140 are used for estimation.
  • the failure impact estimation device 100 described above in the present embodiment can be realized, for example, by causing a computer to execute a program describing the processing contents described in the present embodiment.
  • the "computer” may be a virtual machine provided by a cloud service.
  • the "hardware” described here is virtual hardware.
  • the failure impact estimation device 100 of the present embodiment (including a modification) is a program corresponding to the processing executed by the failure impact estimation device 100 by using hardware resources such as a CPU and a memory built in the computer. It can be achieved by executing it.
  • the above program can be recorded on a computer-readable recording medium (portable memory, etc.), stored, and distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 2 is a diagram showing a hardware configuration example of the computer according to the present embodiment.
  • the computer of FIG. 2 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, and the like, which are connected to each other by a bus B, respectively.
  • the program that realizes the processing on the computer is provided by, for example, a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed in the auxiliary storage device 1002 from the recording medium 1001 via the drive device 1000.
  • the program does not necessarily have to be installed from the recording medium 1001, and may be downloaded from another computer via the network.
  • the auxiliary storage device 1002 stores the installed program and also stores necessary files, data, and the like.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when the program is instructed to start.
  • the CPU 1004 realizes the function related to the failure impact estimation device 100 according to the program stored in the memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network.
  • the display device 1006 displays a programmatic GUI (Graphical User Interface) or the like.
  • the input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, and the like, and is used for inputting various operation instructions.
  • FIG. 3 shows an example of a communication system (which may be called an ICT (Information and Communication Technology) system) in which a failure effect is estimated by the failure effect estimation device 100.
  • ICT Information and Communication Technology
  • the network 300 in the communication system is equipped with a large number of devices such as routers and servers.
  • FIG. 3 shows a device (device 310) among a large number of devices.
  • a large number of user terminals 400-1 to 400-n that use services eg, Web service, video service, voice service, etc.
  • services eg, Web service, video service, voice service, etc.
  • the device 310 is, for example, a server that provides services to user terminals 400-1 to 400-n. Further, the device 310 may be a router that transfers traffic from a server that provides services to user terminals 400-1 to 400-n to user terminals 400-1 to 400-n. Further, the device 310 may be any device other than these. Further, the "user terminal" may be referred to as a "user”.
  • the past log accumulated in the past traffic log accumulation DB 110 is, for example, a past syslog, a show tech log, etc. obtained from a certain device.
  • a certain device is, for example, the device 310 described above.
  • the past traffic amount accumulated in the past traffic log storage DB110 is the traffic amount of the device.
  • the traffic amount of the device may be the amount of traffic transmitted from the device to the user terminal side, may be the amount of traffic received by the device from the user terminal side, or may be from the device. It may be the sum of the amount of traffic transmitted to the user terminal side and the amount of traffic received by the device from the user terminal side, or the amount of all traffic transmitted and received by the device regardless of the direction of the traffic. There may be. Also, the amount of traffic may be the number of sessions such as PPPoE generated by the device.
  • the syslog and show tech logs include information on redundant configurations in the device, telemetry information such as light level, information on the state of the device, information on the failure that has occurred, and the like. Further, the data accumulated in the past traffic log storage DB 110 includes data at the time of normal operation and data at the time of occurrence of an abnormality.
  • Data collected from a large number of devices is stored in the past traffic log storage DB 110.
  • the DB 120 stores the amount of traffic change in the failure impact time and the failure impact time, and the number of impact users in the failure impact time.
  • the data stored in the past traffic change amount / influence user number storage DB 120 is, for example, data collected at a time corresponding to the collection time of the data stored in the past traffic log storage DB 110.
  • the failure impact time is, for example, the time during which a user terminal affected by an abnormality in the communication system (for example, a user terminal whose throughput when receiving a service is reduced) exists.
  • the number of affected users may be, for example, the number of user terminals whose quality of service experienced by the user at the user terminal has deteriorated due to the occurrence of an abnormality in the communication system, or the throughput related to the service at the user terminal is a predetermined threshold value.
  • the number of user terminals may be reduced as described above, or the number may be other.
  • the type of abnormality and the use of NW can be used by using the device status information (log) and the traffic volume at that time. It is possible to estimate the effect of failure in consideration of the situation.
  • the service impact is estimated by estimating the number of affected users. In addition, it is possible to estimate without relying on specialized knowledge by learning using past normal and abnormal data.
  • the learning unit 160 acquires the traffic amount and the log (show tech log, syslog, etc.) from the past traffic log storage DB 110. Further, the learning unit 160 acquires a set of the traffic change amount, the failure effect time, and the number of affected users from the past traffic change amount / affected user number accumulation DB 120.
  • the preprocessing unit 170 creates a log template so that a log (show tech log, syslog, etc.) which is text information can be handled as a numerical value. Templates themselves are an existing technology. Template-making is a technique for automatically assigning a natural number to each line of a log, and the same number is assigned to logs having the same value other than the numerical parts such as time information and IP address. That is, the preprocessing unit 170 assigns a number to each line of the log. As a result, the log can be treated as a numerical value thereafter.
  • ⁇ S103 Estimating the amount of change in failure effect time and traffic amount>
  • the learning unit 160 inputs the traffic amount and log for learning into the failure effect time / traffic change amount estimation unit 130 (model 1), and the failure effect time / failure effect time output from the traffic change amount estimation unit 130. Obtain an estimated value of the amount of change (loss amount) in the traffic amount.
  • model 1 The detailed example of the failure impact time / traffic change amount estimation unit 130 (model 1) will be described below.
  • x t be an M-dimensional vector representing the state of occurrence of the device log at time t.
  • M integer of 0 or more
  • x t and m are the m elements of the time t, and the number of occurrences of the m-th template log or the value of the m-th template log.
  • the “number of appearances” is the number of appearances from time t-1 to t.
  • X t is used as a scalar value, and represents the traffic amount of the device at time t.
  • the failure effect time is u
  • V t ⁇ t + u is the traffic loss due to the failure effect from time t to t + u.
  • the traffic loss is, for example, the amount of decrease in the number of sessions established by the device (the device for which the log is acquired) or the amount of decrease in the transmitted (received) packet. In the case of the amount of decrease in the number of sessions, for example, if the number of sessions at time t is 100 and the number of sessions at time t + u is 10, the decrease number is 90.
  • the traffic amount X t depends on the past traffic amount X t-1 , X t-2 , ..., X tk . Since it is considered that x t-1 , x t-2 , ..., X tk contains information on the state of the device, by inputting these data into the following formula, u, V t ⁇ Estimate t + u .
  • the k indicating the past time length from t may be determined in advance, or the optimum k may be obtained by learning.
  • the model represented by the following formula corresponds to the failure impact time / traffic change amount estimation unit 130 (model 1).
  • L (X t-1 , X t-2 , ..., X tk , x t-1 , x t-2 , ..., x tk )
  • L is an estimator, and is a model obtained by a regression method of time series data such as deepsense [].
  • the learning unit 160 updates the model 1 by comparing the failure effect time and the traffic change amount (loss amount) output from the failure effect time / traffic change amount estimation unit 130 with the actual values.
  • model 1 to which the optimized parameters are applied can be obtained.
  • the learning unit 160 inputs the traffic change amount for learning and the log for learning into the influence user number estimation unit 140 (model 2), and acquires the estimated value of the influence user number output from the influence user number estimation unit 140. ..
  • a detailed example of the affected user number estimation unit 140 (model 2) will be described below.
  • U t ⁇ t + u is estimated by inputting V t ⁇ t + u , x t-1 , x t-2 , ..., X tk into the following equation.
  • the model represented by the following equation corresponds to the affected user number estimation unit 140 (model 2).
  • H is an estimator, and a general regression model used in an environment in which a data set of the amount of traffic change and the number of affected users can be obtained can be used.
  • the amount of change in traffic is, for example, the amount of change in the number of sessions such as PPPoE.
  • the learning unit 160 updates the model 2 by comparing the number of affected users output from the affected user number estimation unit 140 with the actual value.
  • a regression model 2 to which is applied can be obtained.
  • the learning unit 160 outputs trained models (model 1 and model 2) of the two regression methods.
  • the model itself (specifically, the program corresponding to the equation representing the model) is provided in the failure effect estimation device 100, so that the learned model output by the learning unit 160 is Optimized parameters set in the model.
  • the input unit 180 receives the traffic amount and the log at the time of failure occurrence (abnormal occurrence) in the communication system from the communication system and inputs them.
  • the traffic amount and the log are obtained from a certain device in the communication system in which the failure has occurred.
  • the device may be a predetermined device, an arbitrary device, or a device in which a failure has occurred.
  • the input traffic amount and log correspond to the above-mentioned X t-1 , X t-2 , ..., X tk , x t-1 , x t-2 , ..., X tk .
  • the preprocessing unit 170 creates a template for the log acquired in S201 in the same manner as during learning.
  • ⁇ S203 Estimation of failure effect time and traffic change amount>
  • the input unit 180 inputs the traffic amount and the preprocessed log to the failure effect time / traffic change amount estimation unit 130 (model 1).
  • the failure effect time / traffic change amount estimation unit 130 (model 1) outputs the failure effect time and the traffic change amount.
  • the failure effect time and the traffic change amount correspond to u, V t ⁇ t + u described above.
  • ⁇ S204 Estimating the number of affected users>
  • the traffic change amount and the log are input to the affected user number estimation unit 140 (model 2), and the affected user number estimation unit 140 estimates the number of affected users and outputs it to the user interface 150.
  • the traffic change amount and the log correspond to the above-mentioned V t ⁇ t + u , x t-1 , x t-2 , ..., X tk , and the number of affected users corresponds to the above-mentioned U t ⁇ t + u .
  • the user interface 150 outputs the number of affected users to the user terminal 200. Further, the user interface 150 may output the number of affected users and the amount of traffic change to the user terminal 200. Further, the user interface 150 may further output the failure influence time to the user terminal 200.
  • the estimation unit fault impact time / traffic change amount estimation unit 130 and impact user number estimation unit 140 in the configuration shown in FIG. 1 is the above model. Is replaced by. Further, the past traffic change amount / affected user number accumulation DB 120 is replaced with the affected user number accumulation DB 125 that accumulates the affected user number.
  • RTT throughput estimation
  • C t ⁇ t + u can be estimated by the following two equations (models).
  • V t ⁇ t + u L (X t-1 , X t-2 , ..., X tk , x t-1 , x t-2 , ..., x tk )
  • C t ⁇ t + u H'(V t ⁇ t + u , x t-1 , x t-2 , ..., x tk )
  • Ct ⁇ t + u can be estimated by the following one equation (model).
  • failure impact estimation device An input unit for inputting the log and traffic amount obtained from the communication system when an abnormality occurs, An estimation unit that estimates the amount of failure impact in the communication system based on the log and the traffic amount.
  • a failure effect estimation device including an output unit that outputs the failure effect amount estimated by the estimation unit.
  • the estimation unit A first estimation unit that estimates the failure effect time and the traffic change amount based on the log and the traffic amount.
  • the failure impact estimation device according to item 1, further comprising a second estimation unit that estimates the number of affected users as the failure impact amount based on the log and the traffic change amount.
  • the estimation unit A first estimation unit that estimates the failure effect time and the traffic change amount based on the log and the traffic amount.
  • the failure impact estimation device according to item 1, further comprising a second estimation unit that estimates a network index value as the failure impact amount based on the log and the traffic change amount.
  • (Section 6) A program for causing a computer to function as each part in the failure impact estimation device according to any one of the first to fourth paragraphs.
  • Failure impact estimation device 110 Past traffic log storage DB 120 Past traffic change amount / impact user number accumulation DB 130 Failure impact time / traffic change estimation unit 140 Impact user number estimation unit 150
  • User interface 160 Learning unit 170
  • Preprocessing unit 180 Input unit 300 Network 310 Equipment 400-1 to 400-n User terminal 1000 Drive device 1001 Recording medium 1002 Auxiliary Storage device 1003 Memory device 1004 CPU 1005 Interface device 1006 Display device 1007 Input device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

故障影響推定装置において、異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、前記推定部により推定された前記故障影響量を出力する出力部とを備える。

Description

故障影響推定装置、故障影響推定方法、及びプログラム
 本発明は、通信システム運用におけるオペレータの業務内容を分析する技術に関わり、特に通信システム内で発生した故障等の異常による通信システムへの影響の把握に関連する技術である。
 通信事業者にとって、通信システム内に発生する異常に対して、異常の状態の把握や迅速な対応は重要である。こうした中で、通信システム内の異常を早期に検知するための研究(非特許文献1)や、原因箇所・要因の推定を行う研究(非特許文献2)が行われている。
 しかし、これらの技術では、異常の対処のために必要な情報のみがわかり、異常時にネットワーク内にどの程度影響が発生しているのか(サービスを利用するユーザに影響が有るか否か等)、発生しているとすればそれがどの程度か、復旧にかかる時間がどの程度か(復旧対処時間)、ネットワークの状態の変化(ユーザにおけるRTTやスループットの値)等の情報はわからない。これらのように、通信システム内で発生した機器の異常により生じるユーザに対する影響を故障影響と呼び、故障影響の量を故障影響量と呼ぶことにする。
 一方、これら情報は、Service Level Agreement(SLA)等の観点でサービスを利用しているユーザに報告する必要があるとともに、故障影響の度合いにより対処の優先度を決めることもできる(例えば、故障影響がない場合は日中に復旧を行い、夜勤の常駐勤務者の数を減らすといったこと)ため、稼働の平準化によるOPEX削減等を行うためにもオペレータが把握する必要がある情報である。
 通信システムにおいて故障影響を推定することに関連する研究は、いくつかなされている。例えば、非特許文献3、非特許文献4では、Webサービス系において対象サービスとそれらを構成するサブサービス、サブサービスとその機能を実行するリソース(スイッチやサーバ等)の依存関係を定義し、模擬ユーザ端末を用いてサービスを外部から計測することでサービス状態とあるサブサービスやリソースが異常状態になった際の影響の大きさを推定している。非特許文献5は、モバイル通信において、ある基地局に異常が発生した際、基地局の範囲内に何台の端末があるかを予測し、影響がある端末数を推定する技術を開示している。
池田,石橋,中野,渡辺,川原,"オートエンコーダを用いた異常検知におけるスパース最適化を用いた要因推定手法," 信学技報, vol. 117, no. 89, IN2017-18, pp. 61-66, 2017年6月. Yoichi Matsuo ; Yuusuke Nakano ; Akio Watanabe ; Keishiro Watanabe ; Keisuke Ishibashi, Ryoichi Kawahara, Root-Cause Diagnosis for Rare Failures Using Bayesian Network with Dynamic Modification, ICC 2018, 2018 A. Hanemann ; D. Schmitz ; M. Sailer, A framework for failure impact analysis and recovery with respect to service level agreements, SCC05, 2005 Shuying Wang ; Miriam A.M. Capretz, A Dependency Impact Analysis Model for Web Services Evolution, International Conference on Web Services, 2009 Sen Yang;Yan He;Zihui Ge;Dongmei Wang, Jun XuPredictive Impact Analysis for Designing a Resilient Cellular Backhaul Network, SIGMETRICS, Vol.1, No.30, 2017
 非特許文献1,2等の従来の異常検知等により異常発生は検知できる。しかし、異常が起こったとしても必ずしもサービスを利用するユーザへの影響が出るとは限らない。また異常の種類毎にトラヒック量の変化量は異なるため、従来手法では故障影響はわからない。また同じ異常でもNWの利用状況(例えば日中時間帯と夜間時間帯では利用状況が大きく異なる)や、発生箇所によっても、影響度合いは大きく異なるが、それらは考慮できない。
 従来の故障影響分析は、主に異常時にどの機器や機能に影響がでるかを分析するものであり、どのくらいのユーザに影響が出ているか、どのくらい継続して影響がでるか、等はわからない。更に、非特許文献3、非特許文献4では、機器/機能間の依存関係を事前に定義する必要があるが、これらの構築には専門知識を持ったオペレータのノウハウと多大な時間がかかり、効率的に故障影響を推定することができない。
 本発明は上記の点に鑑みてなされたものであり、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術を提供することを目的とする。
 開示の技術によれば、異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
 前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
 前記推定部により推定された前記故障影響量を出力する出力部と
 を備える故障影響推定装置が提供される
 開示の技術によれば、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術が提供される。
本発明の実施の形態における故障影響推定装置の構成図である。 装置のハードウェア構成の例を示す図である。 推定対象のネットワーク構成例を示す図である。 学習時の処理を示すフローチャートである。 推定時の処理を示すフローチャートである。
 以下、図面を参照して本発明の実施の形態を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 本実施の形態では、通信システム内で発生した機器(例えば、ルータ又はサーバ)の異常に対して、トラヒック量の変化量(トラヒック変化量と呼んでもよい)と故障影響時間を予測し、そのトラヒック変化量(具体的には減少幅)から故障影響量を推定する。
 本実施の形態において、故障影響量には、影響ユーザ数、RTT、スループット、故障影響時間(故障によりユーザに影響が生じている時間の長さ)等がある。以下では、まず、故障影響量として影響ユーザ数、故障影響時間を推定する場合を説明する。
 (装置構成例)
 図1に、故障影響量の推定を行う故障影響推定装置100の機能構成を示す。図1に示すように、故障影響推定装置100は、過去トラヒック・ログ蓄積DB(データベース)110、過去トラヒック変化量・影響ユーザ数蓄積DB120、故障影響時間・トラヒック変化量推定部130、影響ユーザ数推定部140、ユーザインタフェース150、学習部160、前処理部170、入力部180を備える。
 ユーザインタフェース150を出力部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140をまとめて推定部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部130を第1推定部と呼び、影響ユーザ数推定部140を第2推定部と呼んでもよい。また、故障影響推定装置100を故障影響推定システムと呼んでもよい。
 図1に示されるように、利用者端末200はネットワークにより故障影響推定装置100に接続される。利用者端末200は、ユーザインタフェース150を介して故障影響推定装置100を利用する。
 過去トラヒック・ログ蓄積DB110は、過去のログxと過去のトラヒック量Xを蓄積する。過去トラヒック変化量・影響ユーザ数蓄積DB120は、過去の故障影響時間、過去の故障影響時間におけるトラヒック変化量、過去の故障影響時間における影響ユーザ数を蓄積する。過去トラヒック・ログ蓄積DB110と過去トラヒック変化量・影響ユーザ数蓄積DB120には、実際に観測された値が蓄積されている。
 故障影響時間・トラヒック変化量推定部130は、故障影響時間とトラヒック量の変化量を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、故障影響時間・トラヒック変化量推定部130は、後述するモデル1に相当する。なお、本実施の形態におけるいずれのモデルも機械学習の手法で学習されるが、どのような機械学習の手法を用いてもよい。本実施の形態では例として回帰手法を用いている。
 影響ユーザ数推定部140は、トラヒック変化量とログから影響ユーザ数を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、影響ユーザ数推定部140は、後述するモデル2に相当する。
 学習部160は、推定部(図1の例では故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140)の学習を行う。
 前処理部170はログのテンプレート化を実行する。入力部180は、故障発生時(異常発生時)に通信システムから得られたトラヒック量とログを入力する。
 図1に示す故障影響推定装置100の動作概要を次に説明する。学習部160は、過去トラヒック・ログ蓄積DB110に蓄積された過去のログxと過去のトラヒック量Xを用いて、deepsense等の時系列回帰手法により故障影響時間・トラヒック変化量推定部130(モデル1)を学習させる。学習により、モデル1のパラメータが最適化される。
 続いて、過去トラヒック変化量・影響ユーザ数蓄積DB120に蓄積された過去のトラヒック変化量と過去の影響ユーザ数をもとに、サポートベクター回帰等の一般的な回帰手法を用いて影響ユーザ数推定部140(モデル2)を学習させる。学習により、モデル2のパラメータが最適化される。
 学習の後、故障影響推定装置100は、故障発生時のトラヒック量、ログに基づき、故障影響時間と、影響ユーザ数を推定する。
 図1に示す構成において、学習部160、過去トラヒック・ログ蓄積DB110、及び過去トラヒック変化量・影響ユーザ数蓄積DB120は、故障影響推定装置100の外部に備えられていてもよい。その場合、外部で学習された推定部(図1の例では故障影響時間・トラヒック変化量推定部130、及び影響ユーザ数推定部140)が、故障影響推定装置100に入力され、当該故障影響時間・トラヒック変化量推定部130、及び影響ユーザ数推定部140が推定に使用される。
 (ハードウェア構成例)
 本実施の形態における上述した故障影響推定装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、クラウドサービスにより提供される仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」とは仮想的なハードウェアである。
 本実施の形態(変形例を含む)の故障影響推定装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、故障影響推定装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、故障影響推定装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
 (詳細動作例)
 次に、故障影響推定装置100の動作例を詳細に説明する。
 図3は、故障影響推定装置100が推定の対象とする故障影響が生じる通信システム(ICT(Information and Communication Technology)システムと呼んでもよい)の一例を示す。
 当該通信システムにおけるネットワーク300にはルータ、サーバ等の多数の機器が備えられている。図3には、多数の機器のうちのある機器(機器310)を示している。また、ネットワーク300には、サービス(例:Webサービス、映像サービス、音声サービス等)を利用する多数のユーザ端末400-1~400-nが接続されている。
 機器310は、例えば、ユーザ端末400-1~400-nにサービスを提供するサーバである。また、機器310は、ユーザ端末400-1~400-nにサービスを提供するサーバからのトラヒックをユーザ端末400-1~400-nに転送するルータであってもよい。また、機器310がこれら以外の任意の機器であってもよい。また、「ユーザ端末」を「ユーザ」と呼んでもよい。
 過去トラヒック・ログ蓄積DB110に蓄積された過去のログは、例えば、ある機器から得られた過去のsyslog、show techログ等である。ある機器とは例えば上述した機器310である。
 過去トラヒック・ログ蓄積DB110に蓄積された過去のトラヒック量は、当該機器のトラヒック量である。当該機器のトラヒック量とは、当該機器からユーザ端末側に送信されるトラヒックの量であってもよいし、ユーザ端末側から当該機器が受信するトラヒックの量であってもよいし、当該機器からユーザ端末側に送信されるトラヒックの量とユーザ端末側から当該機器が受信するトラヒックの量の合計であってもよいし、トラヒックの方向に関わらず、当該機器が送受信する全てのトラヒックの量であってもよい。また、トラヒックの量が、当該機器が生成するPPPoE等のセッションの数であってもよい。
 syslog、show techログには、機器内の冗長構成の情報、光レベル等のテレメトリー情報、機器の状態に関する情報、発生した障害に関する情報等が含まれる。また、過去トラヒック・ログ蓄積DB110に蓄積されたデータには、正常時のデータと異常発生時のデータが含まれる。
 過去トラヒック・ログ蓄積DB110には、多数の機器から収集されたデータが蓄積される。
 過去トラヒック変化量・影響ユーザ数蓄積DB120には、故障影響時間、故障影響時間におけるトラヒック変化量と、当該故障影響時間における影響ユーザ数が蓄積されている。過去トラヒック変化量・影響ユーザ数蓄積DB120に蓄積されているデータは、例えば、過去トラヒック・ログ蓄積DB110に蓄積されたデータの収集時刻に対応した時刻に収集されたデータである。
 故障影響時間とは、例えば、通信システムの異常発生により、影響を受けるユーザ端末(例えば、サービスを受ける際のスループットが低下したユーザ端末)が存在した時間である。
 影響ユーザ数とは、例えば、通信システムの異常発生により、ユーザ端末においてユーザが体感するサービスの品質が低下したユーザ端末の数であってもよいし、ユーザ端末でのサービスに係るスループットが所定閾値以上低下したユーザ端末の数であってもよいし、その他の数であってもよい。
 機器のトラヒック量やその変化量には、疎通の有無やサービス利用状況が反映されているため、機器状態の情報(ログ)とそのときのトラヒック量を用いることで、異常の種別とNWの利用状況を加味して、故障影響を推定をすることが可能になる。
 また、正常時のデータと異常発生時時のデータを用いることで、異常がなくなる時間と異常によるトラヒックの変化量を予測することができる。そして影響ユーザ数を推定することでサービスインパクトを推定する。また、過去の正常、異常時のデータを用いて学習することで専門知識に頼らずに推定することが可能になる。
 次に、図4のフローチャートを参照して学習時の動作を説明する。
 <S101:学習用データ取得>
 学習部160は、過去トラヒック・ログ蓄積DB110からトラヒック量、及びログ(show techログ、syslog等)を取得する。更に、学習部160は、過去トラヒック変化量・影響ユーザ数蓄積DB120からトラヒック変化量、故障影響時間、影響ユーザ数のセットを取得する。
 <S102:前処理>
 前処理部170は、テキスト情報であるログ(show techログ、syslog等)を数値として扱えるようにするために、ログのテンプレート化を行う。テンプレート化自体は既存技術である。テンプレート化とは、ログ1行毎に自然の番号を自動で付与する技術のことであり、時刻情報やIPアドレス等の数値部分以外が同一のログには同一の番号が付与される。つまり、前処理部170により、ログ1行毎に番号が付される。これにより、以降、ログを数値として扱うことができる。
 <S103:故障影響時間とトラヒック量の変化量の推定>
 学習部160は、学習用のトラヒック量、及びログを故障影響時間・トラヒック変化量推定部130(モデル1)に入力し、故障影響時間・トラヒック変化量推定部130から出力された故障影響時間とトラヒック量の変化量(損失量)の推定値を取得する。
 以下、故障影響時間・トラヒック変化量推定部130(モデル1)の詳細例を説明する。
 ある機器(例えば図3の機器310)において、時刻tにおける機器のログの発生状況を表すM次元ベクトルをxとする。ただし、M(0以上の整数)はテンプレート種類数であり、xt,mを時刻tのm要素とし、テンプレートm番目のログの出現回数、又は、テンプレートm番目のログの値とする。xt,mが時刻tにおけるテンプレートm番目のログの出現回数である場合における「出現回数」とは、時刻t-1からtまでの出現回数である。また、Xをスカラー値とし、当該機器の時刻tのトラヒック量を表す。
 故障影響時間をuとし、Vt→t+uは時刻tからt+uまでの故障影響によるトラヒックの損失分とする。トラヒックの損失分とは、例えば、当該機器(ログ取得対象となった機器)が確立しているセッション数の減少量や送信(受信)パケットの減少量である。セッション数の減少量の場合、例えば、時刻tのセッション数が100、時刻t+uのセッション数が10でれば減少数は90である。
 トラヒック量Xは過去のトラヒック量Xt-1,Xt-2,…,Xt-kに依存する。xt-1,xt-2,…,xt-kに機器の状態に関する情報が含まれていると考えられるので、これらのデータを下記の式に入力することにより、u,Vt→t+uを推定する。なお、tからの過去の時間長を示すkは、予め決めておいてもよいし、学習により最適なkが求められてもよい。
 下記の式で表されるモデルが故障影響時間・トラヒック変化量推定部130(モデル1)に相当する。
 u,Vt→t+u=L(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
 上記のLは推定器であり、例えばdeepsense[]等の時系列データの回帰手法で得られたモデルである。
 <S104:アップデート>
 学習部160は、故障影響時間・トラヒック変化量推定部130から出力された故障影響時間とトラヒック変化量(損失量)を、実際の値と比較することでモデル1をアップデートする。
 十分な数の学習データセットu,Vt→t+u,Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-kを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用されたモデル1を得ることができる。
 <S105:影響ユーザ数の推定>
 学習部160は、学習用のトラヒック変化量と学習用のログを影響ユーザ数推定部140(モデル2)に入力し、影響ユーザ数推定部140から出力された影響ユーザ数の推定値を取得する。以下、影響ユーザ数推定部140(モデル2)の詳細例を説明する。
 時刻t→t+uの影響ユーザ数(時刻tから時刻t+uまでの期間で影響を受けたユーザの数)をUt→t+uとする。Vt→t+u,xt-1,xt-2,…,xt-kを下記の式に入力することによりUt→t+uを推定する。下記の式で表されるモデルが影響ユーザ数推定部140(モデル2)に相当する。
 Ut→t+u=H(Vt→t+u,xt-1,xt-2,…,xt-k
 ここで、Hは推定器であり、トラヒック変化量と影響ユーザ数のデータセットを取得できるような環境で使用される一般的な回帰モデルを使用することができる。なお、トラヒック変化量は、例えば、PPPoEのようなセッション数の変化量である。
 <S106:アップデート>
 学習部160は、影響ユーザ数推定部140から出力された影響ユーザ数を、実際の値と比較することでモデル2をアップデートする。
 十分な数の学習データセットUt→t+u,Vt→t+u,xt-1,xt-2,…,xt-kを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用された回帰モデル2を得ることができる。
 <S107:出力>
 学習部160は、2つの回帰手法の学習済みモデル(モデル1とモデル2)を出力する。なお、本実施の形態では、モデル自体(具体的にはモデルを表す式に対応するプログラム)は、故障影響推定装置100に備えられているので、上記学習部160が出力する学習済みモデルは、モデルにセットされる最適化されたパラメータである。
 次に、図5のフローチャートを参照して推定時の動作を説明する。ここでは、図1に示す故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140は学習済みである。
 <S201:トラヒック量、ログの取得>
 入力部180が、通信システムにおける故障発生時(異常発生時)のトラヒック量とログを通信システムから受信し、入力する。当該トラヒック量と当該ログは、故障の発生した通信システムにおけるある機器から取得されるものである。当該機器は予め定められていてもよいし、任意の機器でもよいし、故障が発生した機器でもよい。
 入力されるトラヒック量とログは、前述したXt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-kに相当する。
 <S202:前処理>
 前処理部170は、学習時と同様にして、S201で取得したログのテンプレート化を行う。
 <S203:故障影響時間とトラヒック変化量の推定>
 入力部180は、トラヒック量と、前処理がされたログを故障影響時間・トラヒック変化量推定部130(モデル1)に入力する。故障影響時間・トラヒック変化量推定部130(モデル1)は、故障影響時間とトラヒック変化量を出力する。故障影響時間とトラヒック変化量は、前述したu,Vt→t+uに相当する。
 <S204:影響ユーザ数の推定>
 トラヒック変化量とログが影響ユーザ数推定部140(モデル2)に入力され、影響ユーザ数推定部140は影響ユーザ数を推定し、ユーザインタフェース150に対して出力する。トラヒック変化量とログは前述したVt→t+u,xt-1,xt-2,…,xt-kに相当し、影響ユーザ数は前述したUt→t+uに相当する。
 <S205:出力>
 ユーザインタフェース150は、影響ユーザ数を利用者端末200に出力する。また、ユーザインタフェース150は、影響ユーザ数とトラヒック変化量を利用者端末200に出力してもよい。また、ユーザインタフェース150は、更に故障影響時間を利用者端末200に出力してもよい。
 (変形例)
 上記の例では、LとHのように別々のモデルを立てて学習及び推定をしているが、トラヒック量の変化量を予測せずに、1つのモデルで、トラヒック量とログから影響ユーザ数、故障影響時間を推定することとしてもよい。具体的には、次式で推定する。
 u,Ut→t+u=L'(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
これにより、トラヒック量の変化量を推定せずに、影響ユーザ数、故障影響時間を推定できる。学習については、これまでの例と同様に、学習用のデータセットを用いてパラメータをアプデートすることで実施できる。また、推定についてもこれまでの例と同様である。
 このように1つのモデルを用いて学習及び推定を実行する場合、図1に示した構成における推定部(故障影響時間・トラヒック変化量推定部130及び影響ユーザ数推定部140)が、上記のモデルに置き換えられる。また、過去トラヒック変化量・影響ユーザ数蓄積DB120は、影響ユーザ数を蓄積する影響ユーザ数蓄積DB125に置き換えられる。
 一方で、ブラックボックス化を防ぎ、どの程度トラヒック量が変化するのかをオペレーターが確認したい場合は、既に説明したように2段階にモデルを立てることで実現する。
 (RTT、スループットの推定)
 これまでに説明した「影響ユーザ数」を、別の量に置き換えることで、当該別の量を推定することができる。当該別の量は、例えば、サービスを受けるユーザ端末において観測されるRTT(Round Trip Time、往復遅延時間)、あるいは、スループットである。RTT、スループットを総称して「ネットワーク指標値」と呼ぶことにする。
 故障影響時間におけるネットワーク指標値をCt→t+uで表すとすると、Ct→t+uは下記の2つの式(モデル)で推定できる。
 u,Vt→t+u=L(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
 Ct→t+u=H´(Vt→t+u,xt-1,xt-2,…,xt-k
 また、変形例のように、1つのモデルを使用する場合、Ct→t+uは下記の1つの式(モデル)で推定できる。
 u,Ct→t+u=L''(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
 (実施の形態の効果)
 本実施の形態に係る技術により、通信事業者が故障影響を解析することが可能になる、また、それにより、SLA等の観点でサービスを利用しているユーザに即時的に報告することが可能になり、故障影響の度合いにより対処の優先度を決めることもできる(例えば、故障影響がない場合は修理は日中に行い、夜勤の常駐勤務者の数を減らすといったこと)ため、稼働の平準化によるOPEX削減等を行うためにも必要な情報となる。
 (実施の形態のまとめ)
 本実施の形態において、少なくとも、下記の故障影響推定装置、故障影響推定方法、及びプログラムが提供される。
(第1項)
 異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
 前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
 前記推定部により推定された前記故障影響量を出力する出力部と
 を備える故障影響推定装置。
(第2項)
 前記推定部は、
 前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
 前記ログと前記トラヒック変化量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定部と
 を備える第1項に記載の故障影響推定装置。
(第3項)
 前記推定部は、
 前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
 前記ログと前記トラヒック変化量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第2推定部と
 を備える第1項に記載の故障影響推定装置。
(第4項)
 前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
 第1項ないし第3項のうちいずれか1項に記載の故障影響推定装置。
(第5項)
 故障影響推定装置が実行する故障影響推定方法であって、
 異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
 前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
 前記推定ステップにより推定された前記故障影響量を出力する出力ステップと
 を備える故障影響推定方法。
(第6項)
 コンピュータを、第1項ないし第4項のうちいずれか1項に記載の故障影響推定装置における各部として機能させるためのプログラム。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 故障影響推定装置
110 過去トラヒック・ログ蓄積DB
120 過去トラヒック変化量・影響ユーザ数蓄積DB
130 故障影響時間・トラヒック変化量推定部
140 影響ユーザ数推定部
150 ユーザインタフェース
160 学習部
170 前処理部
180 入力部
300 ネットワーク
310 機器
400-1~400-n ユーザ端末
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インターフェース装置
1006 表示装置
1007 入力装置

Claims (6)

  1.  異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
     前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
     前記推定部により推定された前記故障影響量を出力する出力部と
     を備える故障影響推定装置。
  2.  前記推定部は、
     前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
     前記ログと前記トラヒック変化量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定部と
     を備える請求項1に記載の故障影響推定装置。
  3.  前記推定部は、
     前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
     前記ログと前記トラヒック変化量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第2推定部と
     を備える請求項1に記載の故障影響推定装置。
  4.  前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
     請求項1ないし3のうちいずれか1項に記載の故障影響推定装置。
  5.  故障影響推定装置が実行する故障影響推定方法であって、
     異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
     前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
     前記推定ステップにより推定された前記故障影響量を出力する出力ステップと
     を備える故障影響推定方法。
  6.  コンピュータを、請求項1ないし4のうちいずれか1項に記載の故障影響推定装置における各部として機能させるためのプログラム。
PCT/JP2020/025331 2019-07-01 2020-06-26 故障影響推定装置、故障影響推定方法、及びプログラム WO2021002298A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/621,605 US11736343B2 (en) 2019-07-01 2020-06-26 Failure influence estimation apparatus, failure influence estimation method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019122896A JP7298343B2 (ja) 2019-07-01 2019-07-01 故障影響推定装置、故障影響推定方法、及びプログラム
JP2019-122896 2019-07-01

Publications (1)

Publication Number Publication Date
WO2021002298A1 true WO2021002298A1 (ja) 2021-01-07

Family

ID=74101071

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025331 WO2021002298A1 (ja) 2019-07-01 2020-06-26 故障影響推定装置、故障影響推定方法、及びプログラム

Country Status (3)

Country Link
US (1) US11736343B2 (ja)
JP (1) JP7298343B2 (ja)
WO (1) WO2021002298A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258894A (ja) * 2009-04-27 2010-11-11 Canon Inc 映像受信装置、映像受信方法及びプログラム
JP2010268068A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 輻輳影響度評価装置、リンクトラヒック計算方法およびそのプログラム
JP2014160992A (ja) * 2013-02-20 2014-09-04 Ntt Docomo Inc ネットワーク監視装置、ネットワーク監視プログラム及びネットワーク監視方法
WO2017064766A1 (ja) * 2015-10-14 2017-04-20 株式会社日立製作所 管理装置、管理方法、および、管理プログラム
JP2017123048A (ja) * 2016-01-07 2017-07-13 富士通株式会社 並列処理装置、ジョブ監視方法及びジョブ監視プログラム
JP2017135563A (ja) * 2016-01-27 2017-08-03 富士通株式会社 試験装置、ネットワークシステム、及び試験方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
JP2008078815A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 画像形成装置、機器管理装置、機器管理システム、状態取得方法、機器管理方法およびプログラム
JP4981831B2 (ja) * 2009-02-24 2012-07-25 日本電信電話株式会社 故障影響度評価装置、故障影響度評価方法およびそのプログラム
JP2010258994A (ja) * 2009-04-28 2010-11-11 Nec Corp 移動通信システム、移動通信方法、および移動通信制御プログラム
JP2011040954A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> ネットワーク評価システムおよびネットワーク評価方法、ならびにそのためのプログラム
US8949668B2 (en) * 2011-05-23 2015-02-03 The Boeing Company Methods and systems for use in identifying abnormal behavior in a control system including independent comparisons to user policies and an event correlation model
EP2578997B1 (en) * 2011-10-07 2020-01-08 Hitachi, Ltd. System for supporting a user of an electrically driven vehicle
JP6306499B2 (ja) * 2014-12-25 2018-04-04 クラリオン株式会社 障害情報提供サーバ、障害情報提供方法
JP6845657B2 (ja) * 2016-10-12 2021-03-24 株式会社日立製作所 管理サーバ、管理方法及びそのプログラム
EP3610785B1 (en) * 2017-04-14 2024-06-26 Sony Group Corporation Information processing device, information processing method, and program
JP6867589B2 (ja) * 2017-05-30 2021-04-28 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
JP6863091B2 (ja) * 2017-05-31 2021-04-21 富士通株式会社 管理装置、管理方法及び管理プログラム
JP7043755B2 (ja) * 2017-08-29 2022-03-30 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム、及び、移動体
CN111226094A (zh) * 2017-10-24 2020-06-02 索尼公司 信息处理装置、信息处理方法、程序和移动体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258894A (ja) * 2009-04-27 2010-11-11 Canon Inc 映像受信装置、映像受信方法及びプログラム
JP2010268068A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 輻輳影響度評価装置、リンクトラヒック計算方法およびそのプログラム
JP2014160992A (ja) * 2013-02-20 2014-09-04 Ntt Docomo Inc ネットワーク監視装置、ネットワーク監視プログラム及びネットワーク監視方法
WO2017064766A1 (ja) * 2015-10-14 2017-04-20 株式会社日立製作所 管理装置、管理方法、および、管理プログラム
JP2017123048A (ja) * 2016-01-07 2017-07-13 富士通株式会社 並列処理装置、ジョブ監視方法及びジョブ監視プログラム
JP2017135563A (ja) * 2016-01-27 2017-08-03 富士通株式会社 試験装置、ネットワークシステム、及び試験方法

Also Published As

Publication number Publication date
US20220417078A1 (en) 2022-12-29
JP2021010105A (ja) 2021-01-28
US11736343B2 (en) 2023-08-22
JP7298343B2 (ja) 2023-06-27

Similar Documents

Publication Publication Date Title
US10805185B2 (en) Detecting bug patterns across evolving network software versions
JP4786908B2 (ja) 障害検出および診断
US7606165B2 (en) What-if analysis for network diagnostics
EP2918044B1 (en) Root cause analysis in a sensor-actuator network
US11405280B2 (en) AI-driven capacity forecasting and planning for microservices apps
US20050204028A1 (en) Methods and systems for removing data inconsistencies for a network simulation
US10728085B1 (en) Model-based network management
JP6823501B2 (ja) 異常検知装置、異常検知方法及びプログラム
US20160283307A1 (en) Monitoring system, monitoring device, and test device
Luo et al. Local Search with Efficient Automatic Configuration for Minimum Vertex Cover.
Kakadia et al. Quantitative approaches for optimization of user experience based on network resilience for wireless service provider networks
Suresh et al. Assessing transmission excellence and flow detection based on Machine Learning
US10931513B2 (en) Event-triggered distributed data collection in a distributed transaction monitoring system
JP2005250802A (ja) 不正アクセス検出装置及び不正アクセス検出プログラム
US7844443B2 (en) Network subscriber experience modeling
US20100293262A1 (en) Automated system management process
WO2021002298A1 (ja) 故障影響推定装置、故障影響推定方法、及びプログラム
US11327817B2 (en) Automatic scope configuration of monitoring agents for tracking missing events at runtime
Deepak et al. Design and implementation of AQM evaluation suite for ns-3
WO2021245854A1 (ja) モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム
Ishigaki et al. DeepPR: Incremental recovery for interdependent VNFs with deep reinforcement learning
US11516234B1 (en) In-process correlation through class field injection
US20170123760A1 (en) Code Correction During a User Session in a Distributed Business Transaction
US20230033681A1 (en) Opentelemetry-based circuit breaker automation
CN118282531A (zh) 一种基于工业数字化的交互信息系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20835165

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20835165

Country of ref document: EP

Kind code of ref document: A1