WO2018180364A1 - 障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体 - Google Patents

障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体 Download PDF

Info

Publication number
WO2018180364A1
WO2018180364A1 PCT/JP2018/009183 JP2018009183W WO2018180364A1 WO 2018180364 A1 WO2018180364 A1 WO 2018180364A1 JP 2018009183 W JP2018009183 W JP 2018009183W WO 2018180364 A1 WO2018180364 A1 WO 2018180364A1
Authority
WO
WIPO (PCT)
Prior art keywords
procedure
failure
network
recovery
execution
Prior art date
Application number
PCT/JP2018/009183
Other languages
English (en)
French (fr)
Inventor
圭介 黒木
林 通秋
Original Assignee
Kddi株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kddi株式会社 filed Critical Kddi株式会社
Priority to EP18776484.0A priority Critical patent/EP3605953B1/en
Priority to CN201880019081.6A priority patent/CN110447206A/zh
Publication of WO2018180364A1 publication Critical patent/WO2018180364A1/ja
Priority to US16/553,761 priority patent/US11080128B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4641Virtual LANs, VLANs, e.g. virtual private networks [VPN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Definitions

  • the present invention relates to a technique for creating an operation procedure for recovering a network failure by machine learning or correcting the created operation procedure.
  • Patent Document 1 discloses a technique for dealing with an abnormality that occurs during operation of an automatic operation process.
  • an operation operation is executed in an automatic operation process that automatically executes an operation operation for a plurality of computers
  • an abnormality is detected in a certain computer among the plurality of computers.
  • the role of the computer that detected the abnormality and the configuration of the system to which the computer belongs are read.
  • case data including a condition that matches or is similar to a condition including at least the contents of a certain operation operation, the contents of a certain abnormality, the role of a certain computer, and the configuration of the system to which the certain computer belongs is read out.
  • An object of the present invention is to provide a failure automatic recovery system, a control device, a procedure creation device, and a computer-readable storage medium that can be used.
  • an automatic failure recovery system that creates an operation procedure for recovering a network failure by machine learning or corrects the created operation procedure is provided for recovery execution having a plurality of recovery tasks for recovering a network failure.
  • Learning means for selecting, procedure execution means for executing the selected execution procedure when a network failure occurs, success determination means for determining whether or not the network failure has been recovered by the execution procedure, and the result of the determination
  • the learning means And a, and procedures modifying means for notifying the order of the modification.
  • the present invention it is possible to create or modify an operation procedure for automatically recovering from a network failure. As a result, it is possible to reduce the man-hours for creating and correcting a recovery procedure related to the failure and to realize quick recovery and maintenance of the recovery procedure for the failure.
  • the present inventors are expected to perform automatic operation for the purpose of efficient operation.
  • man-hours can be reduced by omitting the creation and correction of operation flows by humans, and the present invention has been achieved.
  • FIG. 1 is a diagram showing a schematic configuration of an automatic failure recovery system according to the present embodiment.
  • This automatic failure recovery system includes a control system 1 and a procedure creation system 20.
  • the control system 1 includes a configuration information storage unit 3, a user interface unit 5, a parameter creation unit 7, a recovery execution unit 9 having “task-1, task-2... Task-n” as a recovery unit, a success determination unit 11 is provided.
  • the procedure creation system 20 includes a learning unit 22 including an input 22a, a model 22b, and an output 22c. Further, a procedure execution unit 24, a procedure correction unit 26, and a procedure information storage unit 28 are provided.
  • the control system 1 performs recovery for the control device group 13 or the network 15, and the procedure creation system 20 creates a recovery procedure.
  • FIG. 2 is a diagram illustrating an example of information stored in the configuration information storage unit 3.
  • the configuration information storage unit 3 stores network configuration information, and is used to determine which network has a failure from failure information (such as an alarm) and to create a parameter to be output to the learning unit 22.
  • failure information such as an alarm
  • FIG. 2 for example, configuration functions such as a network name, a firewall, and a router, a host name, an IP address, a ToS value, the number of persons accommodated, the number of links, the number of used stations, the allowable maximum interruption time, and the like are stored.
  • FIG. 3 is a diagram illustrating an example of information stored by the procedure information storage unit 28.
  • the procedure information storage unit 28 stores a combination of tasks, that is, a procedure derived from the model 22b of the learning unit 22 in a probable order for each alarm type of the network. It is also used when a failure is triggered and the procedure execution unit 24 is contacted or the next correct procedure by the procedure correction unit 26 is executed.
  • step S1 prior learning is performed (step S1).
  • the control system 1 is premised on having a plurality of recovery tasks.
  • API call of the control system 1 corresponds to this.
  • step S1 the user creates parameters through the user interface unit 5 by creating the network configuration information created, information on failures that have occurred so far in the network, and the combination of tasks (procedure: flow).
  • step S1 the user creates parameters through the user interface unit 5 by creating the network configuration information created, information on failures that have occurred so far in the network, and the combination of tasks (procedure: flow).
  • the learning unit 22 creates a model 22b based on the input 22a.
  • the network configuration information, the failure information, and the combination of tasks corresponding thereto may be random data. That is, the model 22b may not be perfect.
  • the learning unit 22 uses, for example, machine learning such as deep learning.
  • machine learning such as deep learning.
  • the parameter creation unit 7 mainly has two roles. That is, the network configuration information given by the user is stored in the configuration information storage unit 3, and the network configuration information, failure information, and the like are digitized and standardized and input to the learning unit 22.
  • step S2 it is determined whether or not a failure has been detected (step S2). If no failure is detected, this determination is repeated. If a failure is detected, the process proceeds to step S3 to check the corresponding network. Then, it is determined whether or not the failure is the first failure (step S4). If it is the first failure, the network configuration information and the failure information are transmitted to the procedure creation system 20 (step S6). That is, failure information is issued from the network toward the parameter creation unit 7 of the control system 1.
  • the failure information in this case is, for example, an alarm that is issued when a network device fails.
  • the parameter creation unit 7 derives from the alarm information which network has failed by referring to the information in the configuration information storage unit 3. Thereafter, the network configuration information and alarm information derived from the configuration information storage unit 3 are digitized and standardized, and input to the learning unit 22 of the procedure creation system as inputs 22a.
  • the learning unit 22 Based on the input 22a, the learning unit 22 derives the alarm task combination (flow) for the corresponding network by the model 22b constructed in step S1, and stores it in the procedure information storage unit 28 (step S7).
  • the procedure information storage unit 28 stores a probable order of the derived combination of tasks in addition to the network name and the failure alarm.
  • the procedure information storage unit 28 instructs the procedure execution unit 24 to execute the corresponding task after storing the information.
  • the procedure execution unit 24 instructs the recovery execution unit 9 of the control system 1 to execute tasks (step S8), and the recovery execution unit 9 executes the instructed tasks in the order requested.
  • the recovery execution in this case may be performed directly on the network device or the like, or may be instructed to another control device group via the API or the like.
  • the success determination unit 11 determines whether the failure has been recovered by the combination of the tasks executed as described above and whether the allowable maximum interruption time defined for the network is satisfied (step S10).
  • a conventional technique can be applied to the confirmation process. For example, a virtual traffic generator is prepared for each network in advance, a packet is constantly communicated, and the traffic generator is inquired to check whether disconnection time or communication has been established. Is possible.
  • step S11 it is determined whether or not communication has been made as a result of the determination by the success determining unit 11 (step S11). If the communication cannot be established, the procedure information storage unit 28 corrects the procedure to the most likely procedure after the procedure executed most recently (step S12), and executes the corrected procedure (step S8). On the other hand, if communication is possible in step S11, it is determined whether or not the allowable maximum disconnection time is satisfied (step S13). If the allowable maximum interruption time is not satisfied, the procedure information storage unit 28 corrects the information to execute the most probable procedure next to the procedure executed most recently when the failure occurs next, and the correction procedure Is stored (step S14).
  • step S13 when the allowable maximum interruption time is satisfied in step S13, the procedure is not corrected (step S15), and the procedure is transmitted to the procedure correction unit 26.
  • the procedure correction unit 26 passes through the learning unit 22 and succeeds. Is relearned and the process ends (step S16).
  • step S4 determines in step S4 that the failure has not occurred for the first time
  • the process proceeds to step S5, the procedure is stored with reference to the procedure information storage unit 28, and the process proceeds to step S11. .
  • step S11 when communication is not possible in step S11, the process transitions to step S12, step S8, step S9, and step S10, and these steps are repeated until communication is possible.
  • step S11 if the communication is successful, but the allowable maximum disconnection time cannot be satisfied, the procedure to be executed next is changed and stored. Therefore, when a failure occurs next time, the procedure that could not satisfy the allowable maximum interruption time most recently will not be executed.
  • FIG. 5 is a diagram showing a modification of the present embodiment.
  • the automatic failure recovery system according to the present embodiment includes a classifier 50 that classifies each network by unsupervised learning based on network configuration information, and a machine learning unit 52 that executes an algorithm or machine learning, and corresponds to the classification result. The procedure to do is registered in the table 54.
  • the machine learning unit 52 is substantially the same as the learning unit 22 shown in FIG.
  • the classifier 50 clusters the networks based on the network configuration, and classifies each network for each network type.
  • FIG. 5 shows an example in which NW-A and NW-B are classified into network type 1, and NW-C and NW-D are classified into network type 2.
  • NW-A and NW-B are classified into network type 1
  • NW-C and NW-D are classified into network type 2.
  • the procedure of network type 1 when the alarm type is “down”, the procedure to be executed in the order of tasks 1, 2, and 3 is registered first, and the procedure is executed in the order of tasks 1, 3, and 2. The second procedure is registered.
  • At least one of the processes of the control system 1 or the procedure creation system 20 according to the present embodiment may be realized by a processor or the like executing a program.
  • a program may be stored in a storage medium such as a hard disk or a silicon drive.
  • a failure recovery procedure can be automatically created when a failure occurs in the network.
  • the correction of the failure recovery procedure can be automatically executed.
  • machine learning using artificial intelligence it is possible to respond immediately to failures that occur after the second time. As a result, it is not necessary to manually create and manage a recovery procedure manual for each network, which can contribute to reduction of man-hours.
  • automatic recovery can be executed in cooperation with a control system that executes recovery.
  • the automatic failure recovery system creates an operation procedure for recovering a network failure by machine learning or corrects an operation procedure that has been created.
  • a system a recovery execution unit having a plurality of recovery tasks for recovering from a network failure, a parameter creation unit for outputting failure data indicating failure information and network configuration information acquired when a network failure occurs, and failure data
  • the learning unit that selects the execution procedure of each recovery task, the procedure execution unit that executes the execution procedure selected when a network failure occurs, and the network failure is recovered by the execution procedure Success determination unit to determine whether or not, and the result of the determination, the recovery level of the network failure Characterized in that it and a procedure correction unit for notifying the modification of the procedure for learning portion according.
  • the system has a plurality of recovery tasks for recovering from a network failure, outputs failure data indicating failure information and network configuration information acquired when a network failure occurs, and is based on the failure data and a recovery model acquired in advance.
  • Select the execution procedure for each recovery task execute the execution procedure selected when a network failure occurs, determine whether the execution procedure has recovered the network failure, and as a result of the determination, recover the network failure
  • the correction of the procedure is notified to the learning unit, so that it is possible to create or correct an operation procedure for automatically recovering from a network failure.
  • it is possible to reduce the man-hours for creating and correcting the recovery procedure related to the failure, realizing a quick recovery and maintaining the recovery procedure for the failure.
  • the success determining unit succeeds the execution procedure when the network is communicated and the allowable maximum interruption time is satisfied.
  • the learning unit is notified through the procedure correction unit, and learning is performed.
  • the success determination unit notifies the learning unit of the execution procedure as a successful procedure and learns when the network is in communication and the allowable maximum interruption time is satisfied. Even if it occurs, it becomes possible to quickly recover from the failure.
  • the success determination unit determines that the network failure occurs next when the network is communicated but the allowable maximum interruption time is not satisfied.
  • the procedure correction unit is notified that the next most likely execution procedure should be executed, and the procedure correction unit selects the next most likely execution procedure after the execution procedure. Is characterized by executing the execution procedure selected by the procedure correction unit when the next network failure occurs.
  • the success determining unit should execute the most probable execution procedure next to the execution procedure when the next network failure occurs.
  • the procedure correction unit selects the most likely execution procedure after the execution procedure, and the procedure execution unit selects the execution procedure selected by the procedure correction unit when the next network failure occurs. Therefore, even if a similar network failure occurs next time, it is possible to increase the possibility of quickly recovering from the failure.
  • the success determining unit executes a probable execution procedure next to the execution procedure when the network is not communicated.
  • the procedure correction unit notifies the procedure correction unit, and the procedure correction unit selects the most likely execution procedure after the execution procedure, and the procedure execution unit executes the execution procedure selected by the procedure correction unit. To do.
  • the success determination unit notifies the procedure correction unit that the execution procedure that is most likely to be executed next to the execution procedure is to be executed. Next, a probable execution procedure is selected, and the procedure execution unit executes the execution procedure selected by the procedure correction unit. Therefore, the execution procedure by each recovery task is executed until the network communicates. This makes it possible to quickly recover from a network failure.
  • the parameter creation unit creates failure data by quantifying and standardizing failure information and network configuration information, and learning unit Is characterized by inputting failure data and creating a recovery model.
  • the parameter creation unit digitizes and standardizes failure information and network configuration information to create failure data
  • the learning unit inputs failure data to create a recovery model, so machine learning using artificial intelligence Can be used to quickly recover from network failures.
  • the automatic failure recovery system classifies each network based on the network configuration information, and adds a classifier that gives information indicating the network type for each classification. Further, the learning unit is characterized by selecting the same execution procedure when a failure occurs with respect to networks having the same network type.
  • each network is classified based on the network configuration information, information indicating the network type is assigned to each classification, and the same execution procedure is selected for a network with the same network type when a failure occurs.
  • Recovery can be realized. That is, since the networks included in the same network type also approximate the tendency of failure occurrence, recovery can be facilitated by executing the already selected execution procedure as it is.
  • the control device creates an operation procedure for recovering a network failure by machine learning, or an automatic failure recovery system for correcting the created operation procedure.
  • Applicable control device a recovery execution unit having a plurality of recovery tasks for recovering a network failure, and a parameter creation unit that outputs failure data indicating failure information and network configuration information acquired when a network failure occurs
  • a success determination unit for determining whether or not the network failure has been recovered by the execution procedure after the execution procedure of each recovery task selected based on the failure data and the recovery model acquired in advance is executed. It is characterized by.
  • This configuration makes it possible to create a system that creates or corrects operational procedures for automatically recovering from network failures. As a result, it is possible to reduce the man-hours for failure recovery and realize quick recovery.
  • the procedure creation device creates an operation procedure for restoring a network failure by machine learning or corrects the created operation procedure.
  • a procedure creation device that applies to a plurality of recovery tasks for recovering a network failure based on failure data indicating failure information and network configuration information acquired when a network failure occurs, and a recovery model acquired in advance.
  • the learning unit that selects the execution procedure, the procedure execution unit that executes the execution procedure selected when a network failure occurs, and whether or not the network failure has been recovered by the execution procedure are determined.
  • a procedure correction unit that notifies the learning unit of the correction of the procedure according to the recovery level. And butterflies.
  • This configuration makes it possible to create a system that creates or corrects operational procedures for automatically recovering from network failures. As a result, it is possible to reduce the man-hours for creating and correcting the recovery procedure related to the failure and to realize a quick recovery and maintenance of the recovery procedure for the failure.
  • the program according to the present embodiment is applied to an automatic failure recovery system that creates an operation procedure for recovering a network failure by machine learning or corrects the created operation procedure.
  • a program for the control device which is selected based on the failure data acquired when the network failure occurs and the failure data indicating the network configuration information in the parameter creation unit, and the failure data and the recovery model acquired in advance.
  • the success determination unit executes a series of processing to determine whether the network failure has been recovered by the execution procedure and to the computer It is characterized by making it.
  • This configuration makes it possible to create a system that creates or corrects operational procedures for automatically recovering from network failures. As a result, it is possible to reduce the man-hours for creating and correcting the recovery procedure related to the failure and to realize a quick recovery and maintenance of the recovery procedure for the failure.
  • the program according to the present embodiment is applied to an automatic failure recovery system that creates an operation procedure for recovering a network failure by machine learning or corrects the created operation procedure.
  • a plurality of restorations for restoring a network failure based on failure data indicating failure information and network configuration information acquired when a network failure occurs and a recovery model acquired in advance in the learning unit, which is a program of the procedure creation device The process for selecting the task execution procedure, the process for executing the selected execution procedure in the event of a network failure, and whether or not the network failure has been recovered by the execution procedure are determined by the procedure correction unit.
  • the learning unit according to the recovery level of network failure Characterized in that to execute a process of notifying the modification of the procedures for a series of processes of the computer.
  • This configuration makes it possible to create a system that creates or corrects operational procedures for automatically recovering from network failures. As a result, it is possible to reduce the man-hours for creating and correcting the recovery procedure related to the failure and to realize a quick recovery and maintenance of the recovery procedure for the failure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムは、ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行手段と、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成手段と、障害データおよび予め取得した復旧モデルに基づいて、各復旧手段の実行手順を選定する学習手段と、ネットワークの障害発生時に選定された実行手順を実行する手順実行手段と、実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断手段と、判断の結果、ネットワークの障害の復旧レベルに応じて学習手段に対して手順の修正を通知する手順修正手段と、を備える。

Description

障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体
 本発明は、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する技術に関する。
 従来から、SDN(Software Defined Networking)やNFV(Network Function Virtualization)に関連する研究や技術開発が盛んに行なわれている。例えば、特許文献1には、自動運用プロセスの運用時に発生する異常に対処する技術が開示されている。特許文献1では、複数のコンピュータに対する運用操作を自動的に実行する自動運用プロセスにおいて、ある運用操作を実行した場合、当該複数のコンピュータのうちのあるコンピュータにおいて異常を検出すると、複数のコンピュータを含むシステムの構成および複数のコンピュータの各々の役割のうち、異常を検出したコンピュータの役割およびそのコンピュータが属するシステムの構成を読み出す。
 そして、運用操作の内容、異常の内容、当該異常が発生したコンピュータの役割、当該コンピュータが属するシステムの構成、対処方法を含む事例データを読み出す。この場合、ある運用操作の内容とある異常の内容とあるコンピュータの役割およびあるコンピュータが属するシステムの構成とを少なくとも含む条件に一致または類似する条件を含む事例データを読み出すこととされている。
特開2014-127036号公報
 従来から、SDNやNFVを用いて構築される仮想ネットワークにおいて、効率的な運用を目的に自動運用が期待されているが、将来的に仮想ネットワークの種類が多種に渡る場合、それぞれの仮想ネットワークのそれぞれの障害復旧パターンも多種多様になり、自動復旧のための運用フロー(手順)作成やその維持が難しくなる。
 特許文献1記載の技術でも、運用フローのタスク内で使用されるパラメータ値は、そのタスクを実行した際に、成功しなければ自動で修正(更新)されるが、フローの修正には対応していない。このため、フロー自体に修正が必要な場合には対応することができない。
 本発明は、このような事情に鑑みてなされたものであり、機械学習を利用して、運用フローの作成と修正を実行させ、人間による運用フロー作成や修正を省略させることで、工数を削減することができる障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体を提供することを目的とする。
 本発明の一態様によると、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムは、ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行手段と、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成手段と、前記障害データおよび予め取得した復旧モデルに基づいて、前記各復旧タスクの実行手順を選定する学習手段と、ネットワークの障害発生時に前記選定された実行手順を実行する手順実行手段と、前記実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断手段と、前記判断の結果、ネットワークの障害の復旧レベルに応じて前記学習手段に対して手順の修正を通知する手順修正手段と、を備えている。
 本発明によれば、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正することが可能となる。これにより、障害復旧とそれに関わる復旧手順作成およびその修正の工数を削減し、迅速な復旧と、障害に対する復旧手順の維持を実現させることが可能となる。
 本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。
 添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
本実施形態に係る障害自動復旧システムの概略構成を示す図である。 構成情報保管部3が保管する情報の一例を示す図である。 手順情報保管部28が保管する情報の一例を示す図である。 本実施形態に係る障害自動復旧システムの動作を示すフローチャートである。 本実施形態に係る障害自動復旧システムの動作を示すフローチャートである。 本実施形態の変形例を示す図である。
 本発明者らは、SDN/NFVを用いて構築される仮想ネットワークにおいて、効率的な運用を目的に自動運用が期待されているが、将来的に仮想ネットワークの種類が多種に渡る場合に、それぞれの仮想ネットワークのそれぞれの障害復旧パターンも多種多様になり、自動復旧のための運用フロー(手順)作成やその維持が難しくなる点に着目し、機械学習を利用して、運用フローの作成と修正を実行させ、人間による運用フロー作成や修正を省略させることにより、工数を削減することができることを見出し、本発明に至った。
 図1は、本実施形態に係る障害自動復旧システムの概略構成を示す図である。この障害自動復旧システムは、制御システム1と手順作成システム20とから構成されている。制御システム1は、構成情報保管部3、ユーザインタフェース部5、パラメータ作成部7、復旧部である「タスク-1、タスク-2...タスク-n」を有する復旧実行部9、成功判断部11を備えている。手順作成システム20は、入力22a、モデル22b、出力22cを含む学習部22を備えている。また、手順実行部24、手順修正部26、手順情報保管部28を備えている。制御システム1は、制御装置群13またはネットワーク15に対し、復旧の実行を行ない、手順作成システム20は、復旧手順の作成を行なう。
 図2は、構成情報保管部3が保管する情報の一例を示す図である。構成情報保管部3は、ネットワークの構成情報を保管し、障害情報(アラームなど)からどのネットワークの障害であるかの判断や、学習部22へ出力するパラメータの作成に利用される。図2では、例えば、ネットワーク名、ファイヤーウォール、ルータなどの構成機能、ホスト名、IPアドレス、ToS値、収容人数、リンク数、利用局舎数、許容最大断時間などが保管されている。
 図3は、手順情報保管部28が保管する情報の一例を示す図である。手順情報保管部28は、ネットワークのアラーム種別毎に、学習部22のモデル22bによって導かれた、タスクの組合せ、つまり手順を、確からしい順番で格納している。障害を契機に、手順実行部24への連絡や、手順修正部26による次に確からしい手順を実行させる場合にも用いられる。
 図4A、4Bは、本実施形態に係る障害自動復旧システムの動作を示すフローチャートである。図4A、4Bでは、制御システムの動作と手順作成システムの動作を分けて表示している。まず、事前学習を行なう(ステップS1)。図1に示したように、制御システム1は、復旧のタスクを複数持ち合わせていることが前提となる。例えば、制御システム1の「API呼び出し」等がそれに該当する。ステップS1では、ユーザが、ユーザインタフェース部5を経由して、作成したネットワーク構成情報や、そのネットワークにおいて今までに発生した障害の情報と、それに対するタスクの組合せ(手順:フロー)を、パラメータ作成部7を経由して学習部22に入力する。学習部22では、入力22aに基づいて、モデル22bを作成する。但し、ここでは、学習部22内のモデル22bの作成が目的であるため、ネットワーク構成情報や障害情報、またそれに対するタスクの組合せなどは、ランダムデータで構わない。すなわち、モデル22bは、完璧でなくても構わない。
 この場合、学習部22は、例えば、深層学習等の機械学習を利用する。入力22a(ネットワークの構成情報と障害情報)と出力22c(タスクの組合せ)を学習させることで、入力から出力に至るまでのモデル22bを自動で作成することが可能である。パラメータ作成部7には、主に2つの役割がある。すなわち、ユーザから与えられたネットワーク構成情報を構成情報保管部3に保管することと、ネットワーク構成情報や障害情報等を数値化・標準化し、学習部22へ入力することである。
 次に、障害を検知したかどうかを判断する(ステップS2)。障害を検知しなければ、この判断を繰り返し、障害を検知した場合は、ステップS3に遷移し、該当ネットワークを確認する。そして、その障害が、初めての障害であるかどうかを判断する(ステップS4)。初めての障害であった場合、ネットワーク構成情報と障害情報を手順作成システム20に伝達する(ステップS6)。すなわち、ネットワークから制御システム1のパラメータ作成部7に向けて、障害情報が発出される。この場合の障害情報とは、例えば、ネットワーク機器が障害時に発するアラーム等である。パラメータ作成部7は、アラーム情報から、どのネットワークに障害が発生したのかを、構成情報保管部3の情報を参照して導き出す。その後、構成情報保管部3から導き出した、ネットワークの構成情報とアラーム情報を数値化、標準化し、手順作成システムの学習部22に、入力22aとして入力する。
 学習部22は、その入力22aに基づいて、ステップS1で構築したモデル22bによって、該当ネットワークに対するアラームのタスクの組合せ(フロー)を導き出し、手順情報保管部28に格納する(ステップS7)。なお、手順情報保管部28にはネットワーク名、障害アラームの他に、導き出したタスクの組合せの確からしい順番が格納される。手順情報保管部28は、情報を格納後、該当するタスクの実行を手順実行部24へ指示する。手順実行部24は、制御システム1の復旧実行部9にタスク実行を指示し(ステップS8)、復旧実行部9は、指示されたタスクを依頼された順番で実行を行なう。この場合の復旧実行は、直接ネットワーク機器等に対して行なっても良いし、別の制御装置群にAPI等を介して指示するものでも良い。
 成功判断部11は、上記のように実行したタスクの組合せによって、障害が復旧したかどうか、そのネットワークに定義された許容最大断時間を満たしたかどうかを判断する(ステップS10)。確認処理は、従来の技術を適用することが可能である。例えば、事前に、ネットワーク毎に仮想的なトラフィックジェネレータを準備しておき、常時パケットを疎通させておき、そのトラフィックジェネレータに問い合わせることで、断時間や疎通ができたかどうかなどを確認する方法を適用することが可能である。
 次に、成功判断部11による判断の結果、疎通ができたかどうかを判定する(ステップS11)。疎通ができなかった場合は、手順情報保管部28において、直近で実行した手順の次に確からしい手順に修正し(ステップS12)、修正した手順を実行する(ステップS8)。一方、ステップS11において、疎通ができた場合は、許容最大断時間を満たしたかどうかを判定する(ステップS13)。許容最大断時間を満たしていない場合は、手順情報保管部28において、次に障害が発生したときは、直近で実行した手順の次に確からしい手順を実行するように情報を修正し、修正手順を保管後、終了する(ステップS14)。一方、ステップS13において、許容最大断時間を満たした場合は、手順の修正をすることなく(ステップS15)、その手順を手順修正部26に伝え、手順修正部26が、学習部22を通じて成功手順を再学習させて終了する(ステップS16)。
 一方、ステップS4において、パラメータ作成部7が、初めて起きた障害ではないと判断すると、ステップS5に遷移し、手順情報保管部28を参照して、該当する手順を実行し、ステップS11に遷移する。
 以上のように、ステップS11において、疎通ができなかった場合は、ステップS12、ステップS8、ステップS9、ステップS10に処理が遷移し、疎通ができるまでこれらのステップが繰り返されることとなる。また、ステップS11において、疎通ができたが、許容最大断時間であることを満たせなかった場合は、次に実行する手順を変更し、これを保管する。従って、次に障害が発生したときは、直近で許容最大断時間を満たせなかった手順は実行されないこととなる。
 [変形例]
 図5は、本実施形態の変形例を示す図である。本実施形態に係る障害自動復旧システムは、ネットワーク構成情報に基づいて各ネットワークを教師なし学習により分類する分類器50と、アルゴリズムまたは機械学習を実行する機械学習部52とを備え、分類結果と対応する手順がテーブル54に登録されている。なお、機械学習部52は、図1に示した学習部22と実質的に同一である。
 分類器50は、ネットワーク構成に基づいて、ネットワークをクラスタリングし、各ネットワークをネットワーク種別毎に分類する。図5では、NW-AとNW-Bがネットワーク種別1に分類されており、NW-CとNW-Dがネットワーク種別2に分類されている例を示している。ネットワーク種別1の手順は、アラーム種別が「down」であった場合は、タスク1、2、3の順番で実行する手順が1番目に登録されており、タスク1、3、2の順番で実行する手順が2番目に登録されている。
 この構成により、あるネットワークで障害が発生した場合、ネットワーク種別が同一であるネットワークに対しては、同一の実行手順を選定することができるため、実行データのランダム化が減少し、迅速な復旧を実現させることが可能となる。
 なお、本実施形態に係る制御システム1または手順作成システム20の少なくとも何れかの処理は、プロセッサなどがプログラムを実行することで実現されてもよい。また、そのようなプログラムは、ハードディスクまたはシリコンドライブなどの記憶媒体に格納されてもよい。
 以上説明したように、本実施形態によれば、ネットワークにおいて障害が発生した場合障害復旧手順を自動で作成することができる。また、障害復旧手順の修正を自動で実行することができる。さらに、人工知能による機械学習を通じ、2回目以降に発生した障害に即座に対応することができる。これにより、ネットワーク毎の復旧手順書の作成や管理を人手で実現する必要がなく、工数の削減に寄与できる。また、復旧を実行する制御システムと連携することによって、自動復旧を実行することが可能となる。
 (1)また、以上説明したように、本実施形態によれば、障害自動復旧システムは、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムであって、ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行部と、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成部と、障害データおよび予め取得した復旧モデルに基づいて、各復旧タスクの実行手順を選定する学習部と、ネットワークの障害発生時に選定された実行手順を実行する手順実行部と、実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断部と、判断の結果、ネットワークの障害の復旧レベルに応じて学習部に対して手順の修正を通知する手順修正部と、を備えることを特徴とする。
 このように、ネットワーク障害を復旧させる複数の復旧タスクを有し、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力し、障害データおよび予め取得した復旧モデルに基づいて、各復旧タスクの実行手順を選定し、ネットワークの障害発生時に選定された実行手順を実行し、実行手順によってネットワークの障害が復旧したかどうかを判断し、判断の結果、ネットワークの障害の復旧レベルに応じて、学習部に対して手順の修正を通知するので、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正することが可能となる。これにより、障害復旧とそれに関わる復旧手順作成およびその修正の工数を削減し、迅速な復旧の実現と、障害に対する復旧手順の維持を実現させることが可能となる。
 (2)また、以上説明したように、本実施形態によれば、障害自動復旧システムにおいて、成功判断部は、ネットワークが疎通し、かつ許容最大断時間を満たした場合は、その実行手順を成功手順として手順修正部を介して学習部に通知し、学習させることを特徴とする。
 このように、成功判断部は、ネットワークが疎通し、かつ許容最大断時間を満たした場合は、その実行手順を成功手順として学習部に通知し、学習させるので、次に同じようなネットワーク障害が発生した場合も、迅速に障害を復旧させることが可能となる。
 (3)また、以上説明したように、本実施形態によれば、障害自動復旧システムにおいて、成功判断部は、ネットワークが疎通したが、許容最大断時間を満たさなかった場合は、次にネットワーク障害が発生したときにその実行手順の次に確からしい実行手順を実行すべき旨を手順修正部に通知し、手順修正部は、その実行手順の次に確からしい実行手順を選定し、手順実行部は、次にネットワーク障害が発生したときに手順修正部が選定した実行手順を実行することを特徴とする。
 このように、成功判断部は、ネットワークが疎通したが、許容最大断時間を満たさなかった場合は、次にネットワーク障害が発生したときにその実行手順の次に確からしい実行手順を実行すべき旨を手順修正部に通知し、手順修正部は、その実行手順の次に確からしい実行手順を選定し、手順実行部は、次にネットワーク障害が発生したときに手順修正部が選定した実行手順を実行するので、次に同じようなネットワーク障害が発生した場合も、迅速に障害を復旧させる可能性を高めることが可能となる。
 (4)また、以上説明したように、本実施形態によれば、障害自動復旧システムにおいて、成功判断部は、ネットワークが疎通しなかった場合は、その実行手順の次に確からしい実行手順を実行すべき旨を手順修正部に通知し、手順修正部は、その実行手順の次に確からしい実行手順を選定し、手順実行部は、手順修正部が選定した実行手順を実行することを特徴とする。
 このように、成功判断部は、ネットワークが疎通しなかった場合は、その実行手順の次に確からしい実行手順を実行すべき旨を手順修正部に通知し、手順修正部は、その実行手順の次に確からしい実行手順を選定し、手順実行部は、手順修正部が選定した実行手順を実行するので、ネットワークが疎通するまで、各復旧タスクによる実行手順が実行される。これにより、ネットワーク障害の迅速な復旧を図ることが可能となる。
 (5)また、以上説明したように、本実施形態によれば、障害自動復旧システムにおいて、パラメータ作成部は、障害情報およびネットワーク構成情報を数値化および標準化して障害データを作成し、学習部は、障害データを入力して復旧モデルを作成することを特徴とする。
 このように、パラメータ作成部は、障害情報およびネットワーク構成情報を数値化および標準化して障害データを作成し、学習部は、障害データを入力して復旧モデルを作成するので、人工知能による機械学習を活用し、ネットワーク障害の迅速な復旧を図ることが可能となる。
 (6)また、以上説明したように、本実施形態によれば、障害自動復旧システムは、各ネットワークをネットワーク構成情報に基づいて分類し、分類毎にネットワーク種別を示す情報を付与する分類器をさらに備え、学習部は、ネットワーク種別が同一のネットワークに対し、障害発生時に同一の実行手順を選定することを特徴とする。
 このように、各ネットワークをネットワーク構成情報に基づいて分類し、分類毎にネットワーク種別を示す情報を付与し、ネットワーク種別が同一のネットワークに対し、障害発生時に同一の実行手順を選定するので、迅速な復旧を実現することが可能となる。すなわち、同一のネットワーク種別に含まれる各ネットワークは、障害発生の傾向も近似するため、すでに選定されている実行手順をそのまま実行することで復旧がし易くなる。
 (7)また、以上説明したように、本実施形態によれば、制御装置は、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される制御装置であって、ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行部と、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成部と、障害データおよび予め取得した復旧モデルに基づいて選定された各復旧タスクの実行手順が実行された後、実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断部と、を備えることを特徴とする。
 この構成により、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正するシステムを構築することが可能となる。その結果、障害復旧の工数を削減し、迅速な復旧を実現させることが可能となる。
 (8)また、以上説明したように、本実施形態によれば、手順作成装置は、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される手順作成装置であって、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データおよび予め取得した復旧モデルに基づいて、ネットワーク障害を復旧させる複数の復旧タスクの実行手順を選定する学習部と、ネットワークの障害発生時に選定された実行手順を実行する手順実行部と、実行手順によってネットワークの障害が復旧したかどうかが判断され、判断の結果、ネットワークの障害の復旧レベルに応じて学習部に対して手順の修正を通知する手順修正部と、を備えることを特徴とする。
 この構成により、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正するシステムを構築することが可能となる。その結果、障害復旧とそれに関わる復旧手順作成およびその修正の工数を削減し、迅速な復旧と、障害に対する復旧手順の維持を実現させることが可能となる。
 (9)また、以上説明したように、本実施形態に係るプログラムは、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される制御装置のプログラムであって、パラメータ作成部において、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力する処理と、障害データおよび予め取得した復旧モデルに基づいて選定され、ネットワーク障害を復旧させる複数の復旧タスクの実行手順が実行された後、成功判断部において、実行手順によってネットワークの障害が復旧したかどうかを判断する処理と、の一連の処理をコンピュータに実行させることを特徴とする。
 この構成により、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正するシステムを構築することが可能となる。その結果、障害復旧とそれに関わる復旧手順作成およびその修正の工数を削減し、迅速な復旧と、障害に対する復旧手順の維持を実現させることが可能となる。
 (10)また、以上説明したように、本実施形態に係るプログラムは、機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される手順作成装置のプログラムであって、学習部において、ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データおよび予め取得した復旧モデルに基づいて、ネットワーク障害を復旧させる複数の復旧タスクの実行手順を選定する処理と、手順実行部において、ネットワークの障害発生時に選定された実行手順を実行する処理と、実行手順によってネットワークの障害が復旧したかどうかが判断され、手順修正部において、判断の結果、ネットワークの障害の復旧レベルに応じて学習部に対して手順の修正を通知する処理と、の一連の処理をコンピュータに実行させることを特徴とする。
 この構成により、ネットワークの障害を自動的に復旧させる運用手順を作成し、または修正するシステムを構築することが可能となる。その結果、障害復旧とそれに関わる復旧手順作成およびその修正の工数を削減し、迅速な復旧と、障害に対する復旧手順の維持を実現させることが可能となる。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。
 本願は、2017年3月29日提出の日本国特許出願特願2017-066059を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims (10)

  1.  機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムであって、
     ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行手段と、
     ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成手段と、
     前記障害データおよび予め取得した復旧モデルに基づいて、前記各復旧タスクの実行手順を選定する学習手段と、
     ネットワークの障害発生時に前記選定された実行手順を実行する手順実行手段と、
     前記実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断手段と、
     前記判断の結果、ネットワークの障害の復旧レベルに応じて前記学習手段に対して手順の修正を通知する手順修正手段と、を備える障害自動復旧システム。
  2.  前記成功判断手段は、ネットワークが疎通し、かつ許容最大断時間を満たした場合は、その実行手順を成功手順として前記手順修正手段を介して前記学習手段に通知する請求項1記載の障害自動復旧システム。
  3.  前記成功判断手段は、ネットワークが疎通したが、許容最大断時間を満たさなかった場合は、次にネットワーク障害が発生したときにその実行手順の次に確からしい実行手順を実行すべき旨を前記手順修正手段に通知し、
     前記手順修正手段は、その実行手順の次に確からしい実行手順を選定し、選定した実行手順を前記学習手段に通知し、
     前記手順実行手段は、次にネットワーク障害が発生したときに前記手順修正手段が選定した実行手順を実行する請求項1記載の障害自動復旧システム。
  4.  前記成功判断手段は、ネットワークが疎通しなかった場合は、その実行手順の次に確からしい実行手順を実行すべき旨を前記手順修正手段に通知し、
     前記手順修正手段は、その実行手順の次に確からしい実行手順を選定し、
     前記手順実行手段は、前記手順修正手段が選定した実行手順を実行する請求項1記載の障害自動復旧システム。
  5.  前記パラメータ作成手段は、前記障害情報および前記ネットワーク構成情報を数値化および標準化して前記障害データを作成し、
     前記学習手段は、前記障害データを入力して復旧モデルを作成する請求項1記載の障害自動復旧システム。
  6.  各ネットワークをネットワーク構成情報に基づいて分類し、分類毎にネットワーク種別を示す情報を付与する分類手段をさらに備え、
     前記学習手段は、前記ネットワーク種別が同一のネットワークに対し、障害発生時に同一の実行手順を選定する請求項1から請求項5のいずれか1項に記載の障害自動復旧システム。
  7.  機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される制御装置であって、
     ネットワーク障害を復旧させる複数の復旧タスクを有する復旧実行手段と、
     ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力するパラメータ作成手段と、
     前記障害データおよび予め取得した復旧モデルに基づいて選定された前記各復旧タスクの実行手順が実行された後、前記実行手順によってネットワークの障害が復旧したかどうかを判断する成功判断手段と、を備える制御装置。
  8.  機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される手順作成装置であって、
     ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データおよび予め取得した復旧モデルに基づいて、ネットワーク障害を復旧させる複数の復旧タスクの実行手順を選定する学習手段と、
     ネットワークの障害発生時に前記選定された実行手順を実行する手順実行手段と、
     前記実行手順によってネットワークの障害が復旧したかどうかが判断され、前記判断の結果、ネットワークの障害の復旧レベルに応じて前記学習手段に対して手順の修正を通知する手順修正手段と、を備えることを特徴とする手順作成装置。
  9.  機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される制御装置の1つ以上のプロセッサで実行されるプログラムを格納するコンピュータ可読記憶媒体であって、
     前記プログラムは、前記1つ以上のプロセッサで実行されると、
     ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データを出力する処理と、
     前記障害データおよび予め取得した復旧モデルに基づいて選定され、ネットワーク障害を復旧させる複数の復旧タスクの実行手順が実行された後、前記実行手順によってネットワークの障害が復旧したかどうかを判断する処理と、を前記制御装置に実行させる、コンピュータ可読記憶媒体。
  10.  機械学習により、ネットワークの障害を復旧させる運用手順を作成しまたは作成した運用手順を修正する障害自動復旧システムに適用される手順作成装置の1つ以上のプロセッサで実行されるプログラムを格納するコンピュータ可読記憶媒体であって、
     前記プログラムは、前記1つ以上のプロセッサで実行されると、
     ネットワーク障害が発生したときに取得した障害情報およびネットワーク構成情報を示す障害データおよび予め取得した復旧モデルに基づいて、ネットワーク障害を復旧させる複数の復旧タスクの実行手順を選定する処理と、
     ネットワークの障害発生時に前記選定された実行手順を実行する処理と、
     前記実行手順によってネットワークの障害が復旧したかどうかの判断の結果、ネットワークの障害の復旧レベルに応じて前記実行手順の修正を通知する処理と、を前記手順作成装置に実行させる、コンピュータ可読記憶媒体。
PCT/JP2018/009183 2017-03-29 2018-03-09 障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体 WO2018180364A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18776484.0A EP3605953B1 (en) 2017-03-29 2018-03-09 Failure automatic recovery system, control device, procedure creation device, and computer-readable storage medium
CN201880019081.6A CN110447206A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质
US16/553,761 US11080128B2 (en) 2017-03-29 2019-08-28 Automatic failure recovery system, control device, procedure creation device, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017066059A JP2018170618A (ja) 2017-03-29 2017-03-29 障害自動復旧システム、制御装置、手順作成装置およびプログラム
JP2017-066059 2017-03-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/553,761 Continuation US11080128B2 (en) 2017-03-29 2019-08-28 Automatic failure recovery system, control device, procedure creation device, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2018180364A1 true WO2018180364A1 (ja) 2018-10-04

Family

ID=63675664

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/009183 WO2018180364A1 (ja) 2017-03-29 2018-03-09 障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体

Country Status (5)

Country Link
US (1) US11080128B2 (ja)
EP (1) EP3605953B1 (ja)
JP (1) JP2018170618A (ja)
CN (1) CN110447206A (ja)
WO (1) WO2018180364A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080128B2 (en) 2017-03-29 2021-08-03 Kddi Corporation Automatic failure recovery system, control device, procedure creation device, and computer-readable storage medium
JP2021141481A (ja) * 2020-03-06 2021-09-16 Kddi株式会社 モデル学習装置、モデル学習方法及びコンピュータプログラム
US11595244B2 (en) * 2018-11-14 2023-02-28 Nippon Telegraph And Telephone Corporation Recovery support apparatus, recovery support method and program
JP7428769B2 (ja) 2021-10-04 2024-02-06 株式会社日立製作所 柔軟で適応的なロボット学習のための人間ロボット協働

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200067851A1 (en) * 2018-08-21 2020-02-27 Argela Yazilim ve Bilisim Teknolojileri San. ve Tic. A.S. Smart software-defined network (sdn) switch
US20220012130A1 (en) 2020-07-13 2022-01-13 Samsung Electronics Co., Ltd. Storage device with fault resilient read-only mode
KR102432284B1 (ko) * 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
CN113777914A (zh) * 2021-09-10 2021-12-10 北京理工大学 具有智能故障检测和修正功能的控制分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008508760A (ja) * 2004-07-30 2008-03-21 アルカテル・ルーセント 自動障害修復のための通信ネットワーク管理システム
US8024611B1 (en) * 2010-02-26 2011-09-20 Microsoft Corporation Automated learning of failure recovery policies
JP2014127036A (ja) 2012-12-26 2014-07-07 Fujitsu Ltd 情報処理プログラム、情報処理方法及び装置
JP2017066059A (ja) 2015-09-28 2017-04-06 小林製薬株式会社 リポソーム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006104285A1 (ja) * 2005-03-31 2006-10-05 Nec Corporation リングネットワークシステム、障害回復方法、障害検出方法、ノード、およびノード用プログラム
CN100525206C (zh) * 2005-06-15 2009-08-05 华为技术有限公司 自动恢复设备故障的实现方法及系统
JP4701148B2 (ja) * 2006-03-02 2011-06-15 アラクサラネットワークス株式会社 障害回復システム及びサーバ
US7739207B2 (en) * 2006-07-11 2010-06-15 International Business Machines Corporation Network autonomous learning system that allows computers to share learned knowledge such that errors and potential problems are identified and resolved
CN101446913B (zh) * 2009-01-13 2011-06-08 杭州华三通信技术有限公司 设备故障的检测方法和装置
JP5229696B2 (ja) * 2011-03-04 2013-07-03 日本電気株式会社 情報処理システム、情報処理装置、その制御方法、及びその制御プログラム、通信環境監視復旧方法
US9071535B2 (en) * 2013-01-03 2015-06-30 Microsoft Technology Licensing, Llc Comparing node states to detect anomalies
WO2014171047A1 (ja) * 2013-04-17 2014-10-23 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
JP2015118440A (ja) * 2013-12-17 2015-06-25 株式会社日立製作所 監視装置及び障害復旧手順更新方法
CN105095001B (zh) * 2014-05-08 2018-01-30 中国银联股份有限公司 分布式环境下虚拟机异常恢复方法
CN104301160A (zh) * 2014-11-18 2015-01-21 成都远为天胜科技有限公司 一种网络故障自动恢复的方法
US11082439B2 (en) * 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
AU2017100148A4 (en) * 2017-02-08 2017-03-09 Macau University Of Science And Technology A system, method, computer program and data signal for fault detection and recovery of a network
JP2018170618A (ja) 2017-03-29 2018-11-01 Kddi株式会社 障害自動復旧システム、制御装置、手順作成装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008508760A (ja) * 2004-07-30 2008-03-21 アルカテル・ルーセント 自動障害修復のための通信ネットワーク管理システム
US8024611B1 (en) * 2010-02-26 2011-09-20 Microsoft Corporation Automated learning of failure recovery policies
JP2014127036A (ja) 2012-12-26 2014-07-07 Fujitsu Ltd 情報処理プログラム、情報処理方法及び装置
JP2017066059A (ja) 2015-09-28 2017-04-06 小林製薬株式会社 リポソーム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3605953A4

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080128B2 (en) 2017-03-29 2021-08-03 Kddi Corporation Automatic failure recovery system, control device, procedure creation device, and computer-readable storage medium
US11595244B2 (en) * 2018-11-14 2023-02-28 Nippon Telegraph And Telephone Corporation Recovery support apparatus, recovery support method and program
JP2021141481A (ja) * 2020-03-06 2021-09-16 Kddi株式会社 モデル学習装置、モデル学習方法及びコンピュータプログラム
JP7234173B2 (ja) 2020-03-06 2023-03-07 Kddi株式会社 モデル学習装置、モデル学習方法及びコンピュータプログラム
JP7428769B2 (ja) 2021-10-04 2024-02-06 株式会社日立製作所 柔軟で適応的なロボット学習のための人間ロボット協働

Also Published As

Publication number Publication date
EP3605953B1 (en) 2021-06-23
EP3605953A1 (en) 2020-02-05
US20190384670A1 (en) 2019-12-19
EP3605953A4 (en) 2020-02-26
JP2018170618A (ja) 2018-11-01
CN110447206A (zh) 2019-11-12
US11080128B2 (en) 2021-08-03

Similar Documents

Publication Publication Date Title
WO2018180364A1 (ja) 障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体
JP2566711B2 (ja) 分散アプリケーション用の集中制御
US6038677A (en) Automatic resource group formation and maintenance in a high availability cluster configuration
US6154849A (en) Method and apparatus for resource dependency relaxation
JP4672722B2 (ja) ネットワーク設計処理装置,方法およびそのプログラム
US10728085B1 (en) Model-based network management
JP2017509262A (ja) ネットワーク障害のトラブルシューティング・オプションの識別
US9231779B2 (en) Redundant automation system
CN110794867B (zh) 通信干扰下无人机编队信息交互拓扑智能决策方法和装置
JP2006500654A (ja) コンピュータ・システムにおける適応型問題判別及びリカバリー
US11349703B2 (en) Method and system for root cause analysis of network issues
Braun et al. Loop-free alternates with loop detection for fast reroute in software-defined carrier and data center networks
WO2020024615A1 (zh) 一种共识流程恢复方法及相关节点
JP7191080B2 (ja) アプリケーション動作要求の解析を介したアプリケーション機能のリカバリ
CN111585797B (zh) 以太网链路切换方法、装置、设备及计算机可读存储介质
US20100097925A1 (en) Selective routing traffic controls and automated recovery among parallel multi-access interfaces
JP2005539320A (ja) 自己管理分散計算システムを構築する方法、コンピュータ・プログラム、およびデータ処理システム(自己管理計算処理システム)
AU2022212094A1 (en) Systems and methods for artificial intelligence-defined networking
CN109951334B (zh) 一种交换机升级方法、装置、网络控制器及可读存储介质
CN105939215A (zh) Vrrp备份组状态切换的方法及装置
JP2010009127A (ja) 管理プログラムおよび管理装置
US11374849B1 (en) High availability router switchover decision using monitoring and policies
US10708348B2 (en) High availability in packet processing for high-speed networks
US20240080239A1 (en) Systems and methods for arbitrated failover control using countermeasures
CN116055228B (zh) 一种数据平面构建方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18776484

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018776484

Country of ref document: EP

Effective date: 20191029