WO2021053801A1 - 情報分析装置、方法およびプログラム - Google Patents

情報分析装置、方法およびプログラム Download PDF

Info

Publication number
WO2021053801A1
WO2021053801A1 PCT/JP2019/036839 JP2019036839W WO2021053801A1 WO 2021053801 A1 WO2021053801 A1 WO 2021053801A1 JP 2019036839 W JP2019036839 W JP 2019036839W WO 2021053801 A1 WO2021053801 A1 WO 2021053801A1
Authority
WO
WIPO (PCT)
Prior art keywords
failure
recovery
information
location
rule
Prior art date
Application number
PCT/JP2019/036839
Other languages
English (en)
French (fr)
Inventor
鈴木 聡
晴久 野末
俊介 金井
文香 浅井
尚美 村田
健一 田山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021546144A priority Critical patent/JP7268748B2/ja
Priority to PCT/JP2019/036839 priority patent/WO2021053801A1/ja
Priority to US17/641,810 priority patent/US11940868B2/en
Publication of WO2021053801A1 publication Critical patent/WO2021053801A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Definitions

  • Embodiments of the present invention relate to information analyzers, methods and programs.
  • the cause of the failure estimated from the alarm (alarm) at the time of the failure and the type of device that is the location of the failure in the network. Estimate the recovery countermeasures from, and present it to the network administrator.
  • the appropriate recovery countermeasures may differ depending on the number of failures.
  • the appropriate recovery countermeasure method is estimated according to the number of occurrences of the above failure. Can't.
  • the appropriate recovery countermeasure may differ depending on the form of the network, the position of the above device on the network, and the like.
  • the method of estimating the recovery countermeasure method from the cause of the failure and the type of the device that is the location of the failure in the network is suitable depending on the form of the network, the position of the device on the network, and the like. It is not possible to estimate how to deal with recovery.
  • the method of estimating the recovery countermeasure method from the cause of the failure and the type of the device that is the location of the failure cannot acquire the information related to the appropriate recovery response when a network failure occurs. It was.
  • the present invention has been made by paying attention to the above circumstances, and an object of the present invention is an information analyzer capable of acquiring information related to appropriate recovery measures when a network failure occurs. To provide methods and programs.
  • the information analyzer includes a device that is a failure occurrence location in a communication network, an input means for inputting information indicating the cause of the failure, a device that is the failure occurrence location, the cause of the failure, and the above-mentioned failure.
  • a storage unit that stores the recovery countermeasure rules associated with the appropriate recovery countermeasures for, and information related to failures that have occurred in the past for the device at the failure occurrence location, or conditions specific to the device at the failure occurrence location. Based on the above, the device and the analysis means for analyzing an appropriate recovery countermeasure for the factor indicated by the input information from the recovery countermeasure rule are provided.
  • the information analysis method includes a storage unit that stores a recovery coping method rule that associates a device that is a failure occurrence location in a communication network, a cause of the failure, and an appropriate recovery coping method for the failure.
  • This is a method performed by an information analyzer, in which information indicating the device at which the failure occurs and the cause of the failure is input, and information related to a failure that has occurred in the past for the device at the failure location, or the failure. Based on the conditions peculiar to the device at the occurrence location, it is provided to analyze from the recovery coping method rule an appropriate recovery coping method for the device and the factor indicated by the input information.
  • FIG. 1 is a block diagram showing an example of a hardware configuration of a failure recovery target method analyzer according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of a software configuration of a failure recovery target method analyzer according to an embodiment of the present invention.
  • FIG. 3 is a diagram showing an example of restoration implementation information stored in the restoration implementation information DB in a table format.
  • FIG. 4 is a diagram showing an example of past failure history information stored in the past failure history information DB in a table format.
  • FIG. 5 is a diagram showing an example of device attribute information stored in the device attribute information DB in a table format.
  • FIG. 6 is a diagram showing an example of the influence on the degree of influence on the user (user) in a table format.
  • FIG. 1 is a block diagram showing an example of a hardware configuration of a failure recovery target method analyzer according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of a software configuration of a failure recovery target
  • FIG. 7 is a diagram showing an example of the weight list information of the device attribute information stored in the weight list DB of the device attribute information in a table format.
  • FIG. 8 is a diagram showing an example of a recovery method rule list stored in the recovery method rule list DB in a table format.
  • FIG. 9 is a diagram showing an example of a recovery method rule list stored in the recovery method rule list DB in a table format.
  • FIG. 10 is a flowchart (flow chart) showing an example of the processing operation by the failure recovery target method analyzer according to the embodiment of the present invention.
  • FIG. 11 is a sequence diagram showing an example of a processing operation by the failure recovery target method analyzer according to the embodiment of the present invention.
  • FIG. 12 is a diagram showing an example of a display screen of the failure location estimation result.
  • FIG. 13 is a diagram showing an example of a display screen of the estimation result list.
  • FIG. 14 is a diagram showing an example of the notified recovery countermeasure method in a table format.
  • FIG. 15 is a diagram showing an example of the notified recovery countermeasure method in a table format.
  • FIG. 16 is a diagram showing an example of the notified recovery countermeasure method in a table format.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of the failure recovery target method analyzer 10 according to the embodiment of the present invention.
  • the failure recovery target method analyzer 10 is composed of, for example, a server computer or a personal computer, and has a hardware processor 111A such as a CPU (Central Processing Unit). Then, the program memory 111B, the data memory 112, the input / output interface 113, and the communication interface 114 are connected to the hardware processor 111A via the bus 120. ..
  • a hardware processor 111A such as a CPU (Central Processing Unit).
  • the program memory 111B, the data memory 112, the input / output interface 113, and the communication interface 114 are connected to the hardware processor 111A via the bus 120. ..
  • the communication interface 114 includes, for example, one or more wireless communication interface units, and enables information to be transmitted / received to / from the communication network NW.
  • the wireless interface for example, an interface that employs a low-power wireless data communication standard such as a wireless LAN (Local Area Network) is used.
  • An input device (device) 20 for an administrator and an output device 30 attached to the failure recovery target method analyzer 10 are connected to the input / output interface 113.
  • the input / output interface 113 captures operation data input by the administrator through an input device 20 such as a keyboard, a touch panel, a touchpad, and a mouse, and outputs the output data as a liquid crystal or organic.
  • a process of outputting to an output device 30 including a display device using an EL (Electro Luminescence) or the like and displaying the data is performed.
  • the input device 20 and the output device 30 the device built in the failure recovery target method analyzer 10 may be used, and the input device and the output device of another information terminal capable of communicating via the network NW may be used. May be used.
  • the program memory 111B is a non-volatile memory such as an HDD (Hard Disk Drive) or SSD (Solid State Drive) that can be written and read at any time as a non-temporary tangible storage medium, and a ROM (Read Only Memory). It is used in combination with a non-volatile memory such as the above, and stores programs necessary for executing various control processes according to one embodiment.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • ROM Read Only Memory
  • the data memory 112 is used as a tangible storage medium, for example, in combination with the above-mentioned non-volatile memory and a volatile memory such as RAM (RandomAccess Memory), and is acquired and acquired in the process of performing information collection processing. It is used to store various created data.
  • RAM RandomAccess Memory
  • FIG. 2 is a block diagram showing an example of the software configuration of the failure recovery target method analyzer 10 according to the embodiment of the present invention.
  • the software configuration of the failure recovery target method analyzer 10 is shown in association with the hardware configuration shown in FIG.
  • the failure recovery target method analyzer 10 according to the embodiment of the present invention has a failure location / factor input unit 11, an analysis unit 12, an information collection unit 13, and recovery as a processing function unit by software.
  • the overall control unit 15 includes a failure location / factor input unit 11, an analysis unit 12, an information collection unit 13, a recovery countermeasure information output unit 14, an overall control unit 15, device attribute information DB 41, recovery implementation information DB 42, and past failure history information. It controls the entire DB 43, the recovery method rule list DB 44, and the device attribute information weight list DB 45. Details of each part will be described later.
  • the device attribute information DB 41, recovery execution information DB 42, past failure history information DB 43, recovery method rule list DB 44, and device attribute information weight list DB 45 in the failure recovery target method analyzer 10 shown in FIG. 2 are shown in FIG. It can be configured using the created data memory 112. However, these device attribute information DB 41, recovery execution information DB 42, past failure history information DB 43, recovery method rule list DB 44, and device attribute information weight list DB 45 are not essential configurations in the failure recovery target method analyzer 10, for example. , USB (Universal Serial Bus) memory or other external storage medium, or a storage device such as a database server located in the cloud may be provided.
  • USB Universal Serial Bus
  • the processing function units in each of the above-mentioned failure location / factor input unit 11, analysis unit 12, information collection unit 13, recovery countermeasure information output unit 14, and overall control unit 15 are all stored in the program memory 111B. This is realized by reading and executing the program by the hardware processor 111A. Some or all of these processing function units are realized by various other formats including integrated circuits such as integrated circuits (ASIC: Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array) for specific applications. May be done.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • FIG. 3 is a diagram showing an example of restoration implementation information stored in the restoration implementation information DB in a table format.
  • the recovery execution information stored in the recovery execution information DB 42 (1) the cause of the failure related to the past network failure, and (2) the failure related to the failure cause have been executed in the past.
  • a recovery countermeasure (sometimes referred to as a recovery method) and (3) the number of times this recovery countermeasure has been implemented in the past are associated.
  • the restoration method L for the failure related to the failure factor X has been implemented twice in the past.
  • FIG. 4 is a diagram showing an example of past failure history information stored in the past failure history information DB in a table format.
  • the device name that identifies the device that is the location of the failure related to the past network failure, and (2) this failure.
  • the number of network failures caused by this factor (4) Natural recovery event (event) flag (flag) indicating whether or not the natural recovery (natural recovery) of the network failure caused by the corresponding factor is considered.
  • flag Natural recovery event
  • the above flags are defined for each type of cause of failure.
  • the above-mentioned natural recovery includes, for example, that the connection is naturally restored by linking up after linking down without taking any recovery measures.
  • FIG. 5 is a diagram showing an example of device attribute information stored in the device attribute information DB in a table format.
  • the device attribute information stored in the device attribute information DB 41 (1) the name of each device arranged in the network, (2) the type of the corresponding device, and (3) the corresponding device. Vendor, (4) layer type of network related to the device, (5) network form related to the device, (6) position (hierarchy) on the network related to the device, (7) The redundancy of the corresponding device and (8) information indicating the corresponding 1 system (spare system) or 0 system (normal system) when the corresponding device has redundancy are associated with each other.
  • the specific storage results of the device type in the device attribute information are, for example, CLI (Client), R (Router), SW (Network switch), SRV (Server), STR ( Storage).
  • Specific storage results of the layer type in the device attribute information are, for example, a logical layer, a virtual layer, and a physical layer.
  • Specific storage results of the network form in the device attribute information are, for example, mesh, ring, rudder, and star.
  • the specific storage result of the position (hierarchy) on the network in the device attribute information is, for example, a small block (block), a medium block, and a large block.
  • the specific storage result of the redundancy in the device attribute information is, for example, redundant and non-redundant.
  • the specific storage result of the information indicating the 1 system (spare system) or the 0 system (normal system) in the device attribute information is, for example, blank information when there is no redundancy, and 1 when there is redundancy.
  • System preliminary system
  • 0 system normal system
  • a parameter that is a basis for calculating the user influence degree, which is in the range of 0 to 1 and will be described later, according to the types (2) to (8) above.
  • the value p is defined.
  • This parameter value p may be obtained in advance and stored in the device attribute information DB 41, or may be calculated each time the analysis unit 12 analyzes the recovery countermeasure method according to the storage result of the device attribute.
  • the parameter value p related to the layer is relatively small, and when the layer of the network related to the device is a physical layer, the parameter value p related to the layer is Relatively large.
  • the number of past failures for each failure factor which is separately detected for each device, is associated. The same applies to the number of natural recovery times for each failure factor when natural recovery occurs for each device.
  • FIG. 6 is a diagram showing an example of the influence on the degree of influence on the user in a table format.
  • the user influence degree is a value that affects whether or not the recovery countermeasure method is implemented by the user who is the network administrator.
  • the score S of the degree of user influence can be obtained by the following equation (1) based on p'in which the parameter value p is normalized ((min-max normalization)) and the weight w.
  • N in equation (1) is a variable corresponding to the number of parameter values and weight types.
  • the minimum value of the various parameter values p'and the various weights w is 0, the maximum value is 1, the minimum value of the user influence score S is 0, and the maximum value is 1.
  • the magnitude of the influence on the magnitude of the degree of influence on the user is shown for each of the total of eight types including the number of natural recovery and the above (2) to (8) in the device attribute information. Further, in FIG. 6, when the calculated user influence degree is extremely small, no action (wait-and-see) is selected as the recovery target method, and as the user influence degree increases, the recovery target method selected is selected. , Command execution, PKG (package) replacement, and device replacement are shown to be changed in stages.
  • FIG. 7 is a diagram showing an example of the weight list information of the device attribute information stored in the weight list DB of the device attribute information in a table format.
  • the value of the weight w for obtaining the score S of the user influence degree is shown in the example shown in FIG. 7, there are eight types of weights, which are the above (2) to (8) in consideration of the number of times recovery measures have been taken in the past and the device attribute information.
  • the weight value of each type can be dynamically changed by using the input device 20 or the like under the condition that the total value of the weight values of each type is 1.
  • the type of the parameter value p includes the number of times the past recovery measures have been taken.
  • the parameter value p related to the number of implementations is relatively small, and when the number of past recovery measures implemented is relatively large, the parameter value p related to the number of implementations is relatively large. ..
  • FIG. 8 and 9 are diagrams showing an example of a recovery method rule list stored in the recovery method rule list DB in a table format.
  • a list of recovery target method rules when the number of natural recovery is taken into consideration is shown.
  • the recovery countermeasure method selected for the above and (4) the flag exceeding the reference value of the number of natural recovery times are associated with each other.
  • the recovery method selected differs depending on whether or not the number of natural recovery exceeds the reference value under the same device name and the same failure factor.
  • the cause of the failure related to this device is factor Z, and the number of past natural restorations related to this failure exceeds the reference value.
  • the selected recovery countermeasure is recovery method Q.
  • the name of the device that is the failure location is also device B, the cause of the failure related to this device is also factor Z, and the number of past natural restorations related to this failure does not exceed the reference value, it is selected.
  • the recovery countermeasure method is the recovery method P.
  • a list of recovery target method rules when the number of natural recovery times is not taken into consideration is shown. Specifically, in the list of recovery target method rules when the number of natural recovery is taken into consideration, (1) the name of the device that is the failure location, (2) the cause of the failure related to the device, and (3) the corresponding device. The recovery countermeasures selected for the failure and (4) the range of user influence are associated with each other.
  • the recovery method selected differs depending on the magnitude of the calculated user influence score S for the same device name and the same failure factor.
  • the name of the device that is the failure location is device A
  • the cause of the failure related to this device is factor X
  • the user influence score S calculated for device A is 0.5.
  • the recovery coping method selected is the recovery method M.
  • the name of the device that is the failure location is also device A
  • the cause of the failure related to this device is also factor X
  • the user influence score S calculated for device A exceeds 0.25 and is 0.5.
  • the recovery countermeasure method selected is the recovery method N.
  • FIG. 10 is a flowchart showing an example of a processing operation by the failure recovery target method analyzer 10 according to the embodiment of the present invention.
  • FIG. 11 is a sequence diagram showing an example of a processing operation by the failure recovery target method analyzer 10 according to the embodiment of the present invention.
  • the failure location / factor input unit 11 inputs the name of the device that is the failure occurrence location related to the newly generated network failure and the estimation result list including the estimation result of the failure factor via the input device 20 or the like. (S11).
  • the estimation result of the failure occurrence location and the failure cause may be a result estimated by visual inspection by a network administrator or the like, or may be a result estimated by a known technique.
  • FIG. 12 is a diagram showing an example of a display screen of the failure location estimation result. As shown in FIG. 12, the fault location estimation result is displayed via the output device 30. In FIG. 12, the failure location is the device adjacent to the x mark surrounded by a in FIG.
  • FIG. 13 is a diagram showing an example of a display screen of the estimation result list.
  • the failure location estimation result is displayed via the output device 30 as shown in FIG.
  • the estimation result input in S11 may include the node type of the device at which the failure occurs, the certainty of the failure, and the type of the alarm associated with the failure.
  • the icon "action" shown in FIG. 13 is selected by the input device 20, the subsequent processing by the analysis unit 12 is started.
  • the analysis unit 12 sends an information collection instruction to the information collection unit 13.
  • the information collecting unit 13 receives the device attribute information stored in the device attribute information DB 41, the recovery execution information stored in the recovery execution information DB 42, and the past failure history information stored in the past failure history information DB 43.
  • the name of the device which is the failure occurrence location input in S11 and the information related to the failure cause are collected and sent to the analysis unit 12 (S12).
  • the analysis unit 12 includes the name of the device which is the failure occurrence location input in S11 in the recovery method rule list stored in the recovery method rule list DB44, and the failure.
  • the rules related to the factors are collected, and the weight list information of the device attribute information stored in the weight list DB 45 of the device attribute information is collected (S13).
  • the analysis unit 12 determines whether the failure factor input in S11 is a factor in which the number of natural recovery is considered. Whether or not it is determined (S14).
  • the failure factor input in S11 is a factor in which the number of natural recovery is considered, that is, the natural recovery event flag corresponding to the failure factor input in S11 is "1" (in S14). Yes), the analysis unit 12 collates the failure factor input in S11 with the past failure history information and device attribute information collected in S12, so that the current nature of the failure due to the same failure occurrence location and failure factor It is determined whether or not the number of recovery times exceeds the reference value in the past failure history information (S15).
  • the analysis unit 12 considers the number of natural recovery stored in the recovery method rule list DB 45.
  • the recovery target method rule the recovery target method corresponding to the device name, the cause of failure, and the reference value exceeding flag “1” input in S11 is extracted (S16).
  • the recovery target method extracted here is, for example, the recovery method Q shown in FIG.
  • the analysis unit 12 stores the name of the device input in S11 in the recovery target method rule when the number of natural recovery is considered, which is stored in the recovery method rule list DB45. , The cause of the failure, and the recovery target method corresponding to the reference value exceeding flag "0" (S17).
  • the recovery target method extracted here is, for example, the recovery method P (which may be defined as “no action required”), which indicates that no special action is required, as shown in FIG.
  • the analysis unit 12 when the failure factor input in S11 is a factor in which the number of natural recovery is not considered, that is, the natural recovery event flag corresponding to the failure factor input in S11 is "0" ( No) of S14, the analysis unit 12 was input in S11 based on the device attribute information stored in the device attribute information DB 44 and the weight list information of the device attribute information stored in the device attribute information weight list DB 45. The score S of the user influence degree related to the device name is calculated.
  • the analysis unit 12 stores the name of the device, the cause of failure, and the calculated degree of user influence in the recovery target method rule stored in the recovery method rule list DB 45 when the number of natural recovery is not considered.
  • the recovery target method corresponding to the score S of is extracted (S14 ⁇ S16).
  • the recovery coping method extracted here is, for example, a recovery method according to the calculated score S among the recovery methods L, M, N, and ⁇ shown in FIG.
  • the recovery countermeasure method not corresponding to the calculated score S is It may be extracted together for reference by the user.
  • the recovery coping method information output unit 14 can visually recognize the recovery coping method extracted in S16 or S17 to the user via the output device 30 as the optimum recovery coping method corresponding to the estimation result input in S11. Output in a format (S18).
  • FIGS. 14, 15, and 16 are diagrams showing an example of the notified recovery countermeasure method in a table format.
  • the failure location is device A and the failure cause is a power failure
  • there is one recovery countermeasure and here, the notification result of the recovery countermeasure when only the unit replacement is extracted. Is.
  • the failure factor is a link failure
  • this factor is a factor in which the number of natural recovery is not considered, a plurality of recovery corresponding to this device and the factor.
  • This is the notification result of the coping method.
  • the recovery countermeasures corresponding to the calculated user impact score S are displayed at the top, and the recovery countermeasures that do not correspond are displayed in other rows.
  • these methods are used in descending order of the number of times the recovery method is executed in the recovery execution information stored in the recovery method DB 42, as shown in FIG. Lined up.
  • the failure factor is a link failure, and this factor is a factor in which the number of natural recovery is considered, there is one recovery countermeasure, here. This is the notification result of the recovery countermeasure when only the unit exchange is extracted.
  • the analysis unit 12 recognizes this implementation by operating the input device 20 or the like, and collects information related to the implemented restoration implementation method. Feedback is given to the recovery execution information stored in the recovery execution method DB 42 and the past failure history information stored in the past failure history information DB 43 via the recovery execution method DB 42 (S19).
  • the input failure factor considers the number of natural recovery, and as a result of the processing by the analysis unit 12, if the number of natural recovery in the past does not reach the reference value, a message indicating that no action is required is sent to the output device 30. Displayed through.
  • the failure recovery target method analyzer is a device that is a failure occurrence location in a communication network and a device that is a failure occurrence location by inputting information indicating the cause of the failure. Based on the information related to the failure that occurred in the past or the conditions specific to the device that is the location of the failure, the appropriate recovery action method for the device and factor indicated by the input information is analyzed based on the recovery action method rule. ..
  • the failure recovery target method analyzer extracts, for example, an appropriate recovery countermeasure for a failure due to the corresponding device / factor according to the number of times that a failure due to the same device / factor has occurred in the past, and presents it to the user. Can be done.
  • the failure recovery target method analyzer is, for example, a failure due to the corresponding device / factor according to the device type, vendor, layer, network form, position on the network, etc., which are conditions specific to the device at which the failure occurs. Appropriate recovery measures can be extracted and presented to the user.
  • the disaster recovery target method analyzer extracts the recovery countermeasure method and presents it to the user to shorten the time required to determine the appropriate recovery countermeasure method and reduce the operation until this decision. can do.
  • an appropriate recovery countermeasure method is determined based on the recovery countermeasure rule, variations in countermeasures by the network administrator can be reduced.
  • each embodiment includes, for example, a magnetic disk (floppy (registered trademark) disk (Floppy disk), hard disk, etc.) and an optical disk (CD) as a program (software means) that can be executed by a computer (computer).
  • a program software means
  • -It can be stored in a recording medium such as (ROM, DVD, MO, etc.), a semiconductor memory (ROM, RAM, Flash memory, etc.), or transmitted and distributed by a communication medium.
  • the program stored on the medium side also includes a setting program for configuring the software means (including not only the execution program but also the table and the data structure) to be executed by the computer in the computer.
  • a computer that realizes this device reads a program recorded on a recording medium, constructs software means by a setting program in some cases, and executes the above-described processing by controlling the operation by the software means.
  • the recording medium referred to in the present specification is not limited to distribution, and includes storage media such as magnetic disks and semiconductor memories provided in devices connected inside a computer or via a network.
  • the present invention is not limited to the above embodiment, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be carried out in combination as appropriate, and in that case, the combined effect can be obtained.
  • the above-described embodiment includes various inventions, and various inventions can be extracted by a combination selected from a plurality of disclosed constituent requirements. For example, even if some constituent requirements are deleted from all the constituent requirements shown in the embodiment, if the problem can be solved and the effect is obtained, the configuration in which the constituent requirements are deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一実施形態に係る情報分析装置は、通信ネットワークにおける故障発生箇所である装置、および故障の要因を示す情報を入力する入力手段と、故障発生箇所である装置、故障の要因、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールを記憶する記憶部と、前記故障発生箇所である装置について過去に発生した故障に関わる情報、または前記故障発生箇所である装置に固有の条件に基づいて、前記入力された情報で示される装置および要因に対する適切な復旧対処方法を前記復旧対処方法ルールから分析する分析手段とを有する。

Description

情報分析装置、方法およびプログラム
 本発明の実施形態は、情報分析装置、方法およびプログラムに関する。
 通信ネットワーク(以下、ネットワーク)(network)に障害が発生したときの、従来の復旧対処では、障害発生時のアラーム(alarm)から推定される障害原因と、ネットワークにおける障害箇所である装置の種別とから、復旧対処方法を推定し、ネットワーク管理者に提示する。
日本国特開2019-125940号公報
 上記の、同じ障害箇所に起因する複数回の障害が発生したとき、この障害発生回数により、適した復旧対処方法が異なる場合がある。しかし、上記のように、障害原因と、ネットワークにおける障害箇所である装置の種別とから、復旧対処方法を推定する手法では、上記の障害発生回数に応じた、適した復旧対処方法を推定することはできない。
 また、ある種別の装置に起因する障害が発生したとき、ネットワークの形態、ネットワーク上における上記装置の位置などにより、適した復旧対処方法が異なる場合がある。しかし、上記のように、障害原因と、ネットワークにおける障害箇所である装置の種別とから、復旧対処方法を推定する手法では、上記のネットワークの形態、ネットワーク上における上記装置の位置などにより、適した復旧対処方法を推定することはできない。
 上記のように、障害原因と、障害箇所である装置の種別とから、復旧対処方法を推定する手法では、ネットワークに障害が発生したときの適切な復旧対処に係る情報を取得することができなかった。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、ネットワークに障害が発生したときの適切な復旧対処に係る情報を取得することができるようにした情報分析装置、方法およびプログラムを提供することにある。
 本発明の一態様に係る情報分析装置は、通信ネットワークにおける故障発生箇所である装置、および故障の要因を示す情報を入力する入力手段と、故障発生箇所である装置、故障の要因、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールを記憶する記憶部と、前記故障発生箇所である装置について過去に発生した故障に関わる情報、または前記故障発生箇所である装置に固有の条件に基づいて、前記入力された情報で示される装置および要因に対する適切な復旧対処方法を前記復旧対処方法ルールから分析する分析手段とを備える。
 本発明の一態様に係る情報分析方法は、通信ネットワークにおける故障発生箇所である装置、故障の要因、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールを記憶する記憶部を備える情報分析装置が行なう方法であって、故障発生箇所である装置、および故障の要因を示す情報を入力することと、前記故障発生箇所である装置について過去に発生した故障に関わる情報、または前記故障発生箇所である装置に固有の条件に基づいて、前記入力された情報で示される装置および要因に対する適切な復旧対処方法を前記復旧対処方法ルールから分析することと、を備える。
 本発明によれば、ネットワークに障害が発生したときの適切な復旧対処に係る情報を取得することができる。
図1は、この発明の一実施形態に係る障害復旧対象方法分析装置のハードウェア(hardware)構成の一例を示すブロック図である。 図2は、本発明の一実施形態に係る障害復旧対象方法分析装置のソフトウェア(software)構成の一例を示すブロック図である。 図3は、復旧実施情報DBに格納される復旧実施情報の一例を表形式で示す図である。 図4は、過去障害履歴情報DBに格納される過去障害履歴情報の一例を表形式で示す図である。 図5は、装置属性情報DBに格納される装置属性情報の一例を表形式で示す図である。 図6は、ユーザ(user)影響度への大小への影響の一例を表形式で示す図である。 図7は、装置属性情報の重み一覧DBに格納される装置属性情報の重み一覧情報の一例を表形式で示す図である。 図8は、復旧方法ルール(rule)一覧DBに格納される復旧方法ルール一覧の一例を表形式で示す図である。 図9は、復旧方法ルール一覧DBに格納される復旧方法ルール一覧の一例を表形式で示す図である。 図10は、この発明の一実施形態に係る障害復旧対象方法分析装置による処理動作の一例を示すフローチャート(flow chart)である。 図11は、この発明の一実施形態に係る障害復旧対象方法分析装置による処理動作の一例を示すシーケンス(sequence)図である。 図12は、障害箇所推定結果の表示画面の一例を示す図である。 図13は、推定結果一覧の表示画面の一例を示す図である。 図14は、通知される復旧対処方法の一例を表形式で示す図である。 図15は、通知される復旧対処方法の一例を表形式で示す図である。 図16は、通知される復旧対処方法の一例を表形式で示す図である。
 以下、図面を参照しながら、この発明に係わる一実施形態を説明する。 
 (構成)
 (ハードウェア構成)
 図1は、この発明の一実施形態に係る障害復旧対象方法分析装置10のハードウェア構成の一例を示すブロック図である。 
 障害復旧対象方法分析装置10は、例えばサーバコンピュータ(server computer)またはパーソナルコンピュータ(personal computer)により構成され、CPU(Central Processing Unit)等のハードウェアプロセッサ(hardware processor)111Aを有する。そして、このハードウェアプロセッサ111Aに対し、プログラムメモリ(program memory)111B、データメモリ(data memory)112、入出力インタフェース(interface)113及び通信インタフェース114を、バス(bus)120を介して接続される。
 通信インタフェース114は、例えば1つ以上の無線の通信インタフェースユニットを含んでおり、通信ネットワークNWとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線LAN(Local Area Network)などの小電力無線データ通信規格が採用されたインタフェースが使用される。
 入出力インタフェース113には、障害復旧対象方法分析装置10に付設される、管理者用の入力デバイス(device)20および出力デバイス30が接続される。 
 入出力インタフェース113は、キーボード(keyboard)、タッチパネル(touch panel)、タッチパッド(touchpad)、マウス(mouse)等の入力デバイス20を通じて管理者が入力した操作データを取り込むとともに、出力データを液晶または有機EL(Electro Luminescence)等が用いられた表示デバイスを含む出力デバイス30へ出力して表示させる処理を行なう。なお、入力デバイス20および出力デバイス30は障害復旧対象方法分析装置10に内蔵されたデバイスが使用されてもよく、また、ネットワークNWを介して通信可能な他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。
 プログラムメモリ111Bは、非一時的な有形の記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理を実行する為に必要なプログラムが格納されている。
 データメモリ112は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとが組み合わせて使用されたもので、情報収集処理を行なう過程で取得および作成された各種データが記憶される為に用いられる。
 (ソフトウェア構成)
 図2は、本発明の一実施形態に係る障害復旧対象方法分析装置10のソフトウェア構成の一例を示すブロック図である。この図2では、障害復旧対象方法分析装置10のソフトウェア構成が図1に示されたハードウェア構成と関連付けて示される。 
 図2に示されるように、本発明の一実施形態に係る障害復旧対象方法分析装置10は、ソフトウェアによる処理機能部として、障害箇所・要因入力部11、分析部12、情報収集部13、復旧対処方法情報出力部14、全体制御部15、装置属性情報DB(データベース(database))41、復旧実施情報DB42、過去障害履歴情報DB43、復旧方法ルール一覧DB44、および装置属性情報の重み一覧DB45を有する情報分析装置として構成され得る。
 全体制御部15は、障害箇所・要因入力部11、分析部12、情報収集部13、復旧対処方法情報出力部14、全体制御部15、装置属性情報DB41、復旧実施情報DB42、過去障害履歴情報DB43、復旧方法ルール一覧DB44、および装置属性情報の重み一覧DB45の全体の制御を司る。各部の詳細については後述する。
 図2に示された障害復旧対象方法分析装置10内の装置属性情報DB41、復旧実施情報DB42、過去障害履歴情報DB43、復旧方法ルール一覧DB44、装置属性情報の重み一覧DB45は、図1に示されたデータメモリ112を用いて構成され得る。ただし、これらの装置属性情報DB41、復旧実施情報DB42、過去障害履歴情報DB43、復旧方法ルール一覧DB44、装置属性情報の重み一覧DB45は障害復旧対象方法分析装置10内に必須の構成ではなく、例えば、USB(Universal Serial Bus)メモリなどの外付け記憶媒体、又はクラウド(cloud)に配置されたデータベースサーバ(database server)等の記憶装置に設けられたものであってもよい。
 上記の障害箇所・要因入力部11、分析部12、情報収集部13、および復旧対処方法情報出力部14、全体制御部15の各部における処理機能部は、いずれも、プログラムメモリ111Bに格納されたプログラムを上記ハードウェアプロセッサ111Aにより読み出させて実行させることにより実現される。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)またはFPGA(Field-Programmable Gate Array)などの集積回路を含む、他の多様な形式によって実現されてもよい。
 図3は、復旧実施情報DBに格納される復旧実施情報の一例を表形式で示す図である。 
 図3に示されるように、復旧実施情報DB42に格納される復旧実施情報では、(1)過去のネットワーク障害に係る故障の要因、(2)この故障要因に係る故障に対して過去に実施された復旧対処方法(復旧方法と称することがある)、および(3)この復旧対処方法が過去に実施された回数が関連付けられる。 
 例えば、図3に示される復旧実施情報の1列目では、故障要因Xに係る故障に対する復旧方法Lが過去に2回実施されたことが示される。
 図4は、過去障害履歴情報DBに格納される過去障害履歴情報の一例を表形式で示す図である。 
 図4に示されるように、過去障害履歴情報DB43に格納される過去障害履歴情報では、(1)過去のネットワーク障害に係る故障の発生箇所である装置を特定する装置名、(2)この故障の発生要因、(3)この要因によるネットワーク障害の発生回数、(4)該当の要因によるネットワーク障害の自然回復(自然復旧)が考慮されるか否かを示す自然回復イベント(event)フラグ(flag)、および(5)該当の自然回復が考慮されるときの自然回復回数の基準値、が関連付けられる。上記のフラグは、故障の発生要因の種別ごとに定義される。上記自然回復は、例えば、リンクダウン(link down)後に、特に復旧対処が施されることなくリンクアップ(link up)することで、接続が自然回復することが挙げられる。
 図5は、装置属性情報DBに格納される装置属性情報の一例を表形式で示す図である。図5に示されるように、装置属性情報DB41に格納される装置属性情報では、(1)ネットワークに配置される各装置の名称、(2)該当の装置の種別、(3)該当の装置のベンダ(Vendor)、(4)装置に係るネットワークのレイヤ(layer)種別、(5)該当の装置に係るネットワークの形態、(6)該当の装置に係るネットワーク上における位置(階層)、(7)該当の装置の冗長度、および(8)該当の装置が冗長性を有するときに該当する1系(予備系)または0系(通常系)を示す情報、が関連付けられる。
 装置属性情報における、装置の種別の具体的な格納結果は、例えばCLI(クライアント(Client))、R(ルータ(Router))、SW(ネットワークスイッチ(network switch))、SRV(サーバ)、STR(ストレージ(storage))である。 
 装置属性情報における、レイヤ種別の具体的な格納結果は、例えば論理レイヤ、仮想レイヤ、物理レイヤである。 
 装置属性情報における、ネットワークの形態の具体的な格納結果は、例えばメッシュ(mesh)、リング(ring)、ラダー(rudder)、スター(star)である。 
 装置属性情報における、ネットワーク上における位置(階層)の具体的な格納結果は、例えば小ブロック(block)、中ブロック、大ブロックである。 
 装置属性情報における、冗長度の具体的な格納結果は、例えば冗長性あり、冗長性なしである。 
 装置属性情報における、1系(予備系)または0系(通常系)を示す情報の具体的な格納結果は、例えば、冗長性が無い時のブランク(blank)情報、冗長性があるときの1系(予備系)および0系(通常系)である。
 この装置属性情報では、図5に示されるように、上記(2)~(8)の種類に応じた、0~1の範囲である後述するユーザ影響度の計算の元となる、パラメータ(parameter)値pが定義される。ここでは、パラメータ値pの最小値は0で最大値は1であるとする。このパラメータ値pは、予め求められて装置属性情報DB41に格納されてもよいし、装置属性の格納結果に応じて、分析部12による、復旧対処方法の分析処理時に都度計算されてもよい。
 例えば、装置に係るネットワークのレイヤが論理レイヤであるときは、当該レイヤに係るパラメータ値pは比較的小さく、装置に係るネットワークのレイヤが物理レイヤであるときは、当該レイヤに係るパラメータ値pは比較的大きい。
 また、装置属性情報では、各装置についての別途検出された、故障要因別の過去の故障発生回数が対応付けられる。各装置について自然回復が発生したときの故障要因別の自然回復回数についても同様である。
 図6は、ユーザ影響度への大小への影響の一例を表形式で示す図である。
 ユーザ影響度とは、ネットワーク管理者であるユーザによる復旧対処方法の実施の有無に影響する値である。 
 ユーザ影響度のスコアSは、パラメータ値pが正規化((min-max normalization))されたp´と重みwとに基づいて、下記の式(1)により求められ得る。 
Figure JPOXMLDOC01-appb-M000001
 式(1)のnは、パラメータ値および重みの種類の数に対応する変数である。各種のパラメータ値p´、および各種の重みwの最小値は0で、最大値は1であり、ユーザ影響度のスコアSの最小値は0で、最大値は1である。
 このユーザ影響度の値が比較的大きいときは、ユーザによる復旧対処方法を実施する必要性が比較的大きく、ユーザ影響度の値が比較的小さいときは、ユーザによる復旧対処方法を実施する必要性が比較的小さい。
 図6では、自然回復回数と、装置属性情報における上記(2)~(8)とでなる計8種類の各々について、ユーザ影響度の大小への影響の大小が示される。 
 また、図6では、計算されるユーザ影響度が著しく小さいときは、復旧対象方法として、対処なし(様子見)が選択され、このユーザ影響度が大きくなるにしたがって、選択される復旧対象方法が、コマンド実行、PKG(パッケージ(package))交換、装置交換の順で段階的に変更されることが示される。
 図7は、装置属性情報の重み一覧DBに格納される装置属性情報の重み一覧情報の一例を表形式で示す図である。 
 図7に示されるように、装置属性情報の重み一覧DB45に格納される装置属性情報の重み一覧情報では、ユーザ影響度のスコア(score)Sを求めるための重みwの値が示される。図7に示される例では、重みの種類は8種類であり、過去の復旧対処実施回数考慮、および装置属性情報における上記(2)~(8)である。 
 各種類の重みの値は、各種類における重みの値の合計値が1である条件下で、入力デバイス20などを用いて動的に変更可能である。
 図7に示されるように、過去の復旧対処実施回数考慮が重みの種類に含まれるときは、パラメータ値pの種類に過去の復旧対処実施回数が含まれる。過去の復旧対処実施回数が比較的少ない時は、当該実施回数に係るパラメータ値pは比較的小さく、過去の復旧対処実施回数が比較的多い時は当該実施回数に係るパラメータ値pは比較的大きい。
 図8および図9は、復旧方法ルール一覧DBに格納される復旧方法ルール一覧の一例を表形式で示す図である。 
 図8に示された例では、自然回復回数が考慮されるときの復旧対象方法ルールの一覧が示される。 
 具体的には、自然回復回数が考慮されないときの復旧対象方法ルールの一覧では、(1)故障箇所である装置の名称、(2)該当の装置に係る故障の要因、(3)該当の故障に対して選択される復旧対処方法、および(4)自然回復回数の基準値超えのフラグ、が対応付けられる。
 図8に示されるように、同一の装置名かつ同一の故障要因において、自然回復回数が基準値を超えるか否かで、選択される復旧方法が異なる。 
 図8に示された例では、故障箇所である装置の名称が装置Bで、この装置に係る故障の要因が要因Zで、この故障に係る過去の自然復旧回数が基準値を超えているときは、選択される復旧対処方法は復旧方法Qである。 
 一方で、故障箇所である装置の名称が同じく装置Bで、この装置に係る故障の要因が同じく要因Zで、この故障に係る過去の自然復旧回数が基準値を超えていないときは、選択される復旧対処方法は復旧方法Pである。
 図9に示された例では、自然回復回数が考慮されないときの復旧対象方法ルールの一覧が示される。 
 具体的には、自然回復回数が考慮されるときの復旧対象方法ルールの一覧では、(1)故障箇所である装置の名称、(2)該当の装置に係る故障の要因、(3)該当の故障に対して選択され復旧対処方法、および(4)ユーザ影響度の範囲、が対応付けられる。
 図9に示されるように、同一の装置名かつ同一の故障要因において、計算されるユーザ影響度のスコアSの大小により、選択される復旧方法が異なる。 
 図9に示された例では、故障箇所である装置の名称が装置Aで、この装置に係る故障の要因が要因Xで、装置Aについて計算されたユーザ影響度のスコアSが0.5を超え0.75以下であるときは、選択される復旧対処方法は復旧方法Mである。 
 一方で、故障箇所である装置の名称が同じく装置Aで、この装置に係る故障の要因が同じく要因Xで、装置Aについて計算されたユーザ影響度のスコアSが0.25を超え0.5以下であるときは、選択される復旧対処方法は復旧方法Nである。
 図10は、この発明の一実施形態に係る障害復旧対象方法分析装置10による処理動作の一例を示すフローチャートである。図11は、この発明の一実施形態に係る障害復旧対象方法分析装置10による処理動作の一例を示すシーケンス図である。 
 まず、障害箇所・要因入力部11は、入力デバイス20などを介して、新たに発生したネットワーク障害に係る故障発生箇所である装置の名称、およびこの故障要因の推定結果を含む推定結果一覧を入力する(S11)。この故障発生箇所およびこの故障要因の推定結果は、ネットワーク管理者による目視などにより推定された結果であってもよいし、公知の技術により推定された結果であってもよい。
 図12は、障害箇所推定結果の表示画面の一例を示す図である。 
 図12に示されるように、障害箇所推定結果は出力デバイス30を介して表示される。この図12では、故障箇所は図12中のaで囲まれた×印に隣接する装置である。
 図13は、推定結果一覧の表示画面の一例を示す図である。 
 図12中のaで囲まれた×印が入力デバイス20により選択されると、図13に示されるように、障害箇所推定結果は出力デバイス30を介して表示される。図13に示されるように、S11で入力される推定結果は、故障発生箇所である装置のノード種別、故障の確信度、故障に伴うアラームの種別を含んでもよい。 
 この図13に示されるアイコン(icon)「対処」が入力デバイス20により選択されることで、分析部12による以降の処理が開始される。
 分析部12は情報収集部13に情報収集の指示を送る。この指示にしたがって、情報収集部13は、装置属性情報DB41に格納される装置属性情報、復旧実施情報DB42に格納される復旧実施情報、および過去障害履歴情報DB43に格納される過去障害履歴情報のうち、S11で入力された故障発生箇所である装置の名称、およびこの故障要因に係る情報をそれぞれ収集し、分析部12に送る(S12)。
 次に、分析部12は、復旧対処方法を分析するために、復旧方法ルール一覧DB44に格納される復旧方法ルール一覧のうち、S11で入力された故障発生箇所である装置の名称、およびこの故障要因に係るルールを収集し、装置属性情報の重み一覧DB45に格納される装置属性情報の重み一覧情報を収集する(S13)。
 分析部12は、S11で入力された故障要因と、S12で収集された過去障害履歴情報とを照合することで、S11で入力された故障要因が、自然回復回数が考慮される要因であるか否かを判定する(S14)。
 このS14において、S11で入力された故障要因が、自然回復回数が考慮される要因である、つまり、S11で入力された故障要因に対応する自然回復イベントフラグが「1」である場合(S14のYes)、分析部12は、S11で入力された故障要因と、S12で収集された過去障害履歴情報、装置属性情報とを照合することで、同じ故障発生箇所および故障要因による故障に対する現在の自然回復回数が過去障害履歴情報における基準値を超えているか否かを判定する(S15)。
 このS15において、同じ故障発生および故障要因による故障の自然回復回数が、過去障害履歴情報における基準値を超えている、つまり、該当の自然回復回数が、S11で入力された故障要因に対応する自然回復イベントフラグ「1」に対応する基準値を超えていると判定された場合(S15のYes)、分析部12は、復旧方法ルール一覧DB45に格納される、自然回復回数が考慮されるときの復旧対象方法ルールにおける、S11で入力された装置の名称、故障要因、および基準値超えフラグ「1」に対応する復旧対象方法を抽出する(S16)。ここで抽出される復旧対象方法は、例えば図8に示される復旧方法Qである。
 一方で、S15でNoと判定された場合、分析部12は、復旧方法ルール一覧DB45に格納される、自然回復回数が考慮されるときの復旧対象方法ルールにおける、S11で入力された装置の名称、故障要因、および基準値超えフラグ「0」に対応する復旧対象方法を抽出する(S17)。ここで抽出される復旧対象方法は、例えば図8に示される、特段の対処が不要であることを示す復旧方法P(「対処不要」と定義されてもよい)である。
 また、上記のS14において、S11で入力された故障要因が、自然回復回数が考慮されない要因である、つまり、S11で入力された故障要因に対応する自然回復イベントフラグが「0」である場合(S14のNo)、分析部12は、装置属性情報DB44に格納された装置属性情報、および装置属性情報の重み一覧DB45に格納される装置属性情報の重み一覧情報に基づいて、S11で入力された装置名に係るユーザ影響度のスコアSを計算する。
 そして、分析部12は、復旧方法ルール一覧DB45に格納される、自然回復回数が考慮されないときの復旧対象方法ルールにおける、S11で入力された装置の名称、故障要因、および計算されたユーザ影響度のスコアSに対応する復旧対象方法を抽出する(S14→S16)。ここで抽出される復旧対処方法は、例えば図9に示される復旧方法L、M、N、Оのうち、計算されたスコアSに応じた復旧方法である。
 また、この処理では、S11で入力された装置の名称、故障要因、および計算されたユーザ影響度のスコアSに対応する復旧対象方法のうち、計算されたスコアSに対応しない復旧対処方法が、ユーザの参考に供するためにあわせて抽出されても良い。
 次に、復旧対処方法情報出力部14は、S16またはS17で抽出された復旧対処方法を、S11で入力された推定結果に対応する最適な復旧対処方法として出力デバイス30を介してユーザに視認可能な形式で出力する(S18)。
 図14、図15、図16は、通知される復旧対処方法の一例を表形式で示す図である。図14に示された例は、故障箇所が装置Aで、故障要因が電源故障であるときに、復旧対処方法が1つ、ここではUnit交換のみが抽出されたときの復旧対処方法の通知結果である。
 図15に示された例は、故障箇所が装置Aで、故障要因がリンク故障であり、この要因が、自然回復回数が考慮されない要因であるときに、この装置及び要因に対応する複数の復旧対処方法の通知結果である。この通知結果では、計算されたユーザ影響度のスコアSに対応する復旧対処方法が最上段に表示され、対応しない復旧対処方法が他の段に表示される。 
 この対応しない復旧対処方法が複数の方法であるときは、これらの方法は、図15に示されるように、復旧実施方法DB42に格納される復旧実施情報における、該当の復旧方法実施回数の降順に並べられる。
 図16に示された例は、故障箇所が装置Aで、故障要因がリンク故障であり、この要因が、自然回復回数が考慮される要因であるときに、復旧対処方法が1つ、ここではUnit交換のみが抽出されたときの復旧対処方法の通知結果である。
 そして、分析部12は、S18で出力された復旧実施方法が実施されたとき、この実施を入力デバイス20への操作などにより認識し、この実施された復旧実施方法に係る情報を、情報収集部13を介して復旧実施方法DB42に格納される復旧実施情報、および過去障害履歴情報DB43に格納される過去障害履歴情報へそれぞれフィードバックする(S19)。
 また、入力された故障要因が自然回復回数を考慮する場合で、分析部12による処理の結果、過去の自然回復回数が基準値に満たないときは、対処不要を示すメッセージなどが出力デバイス30を介して表示される。
 以上説明したように、本発明の一実施形態に係る障害復旧対象方法分析装置は、通信ネットワークにおける故障発生箇所である装置、および故障の要因を示す情報を入力し、故障発生箇所である装置について過去に発生した故障に関わる情報、または故障発生箇所である装置に固有の条件に基づいて、入力された情報で示される装置および要因に対する適切な復旧対処方法を復旧対処方法ルールに基づいて分析する。
 よって、障害復旧対象方法分析装置は、例えば同じ装置・要因による故障が過去に発生した回数に応じて、該当の装置・要因による故障に対する適切な復旧対処方法を抽出して、ユーザに提示することができる。
 また、障害復旧対象方法分析装置は、例えば故障発生箇所である装置に固有の条件である、装置種別、ベンダ、レイヤ、ネットワーク形態、ネットワーク上における位置などに応じて、該当の装置・要因による故障に対する適切な復旧対処方法を抽出して、ユーザに提示することができる。
 上記のように、障害復旧対象方法分析装置は、復旧対処方法を抽出して、ユーザに提示することにより、適切な復旧対処方法を決定するまでの時間を短縮し、この決定までの稼働を低減することができる。 
 また、復旧対処方法ルールに基づいて適切な復旧対処方法が決定されるため、ネットワーク管理者による対処のばらつきが低減され得る。
 また、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク(Floppy disk)、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ(Flash memory)等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
  10…障害復旧対象方法分析装置
  11…障害箇所・要因入力部
  12…分析部
  13…情報収集部
  14…復旧対処方法情報出力部
  15…全体制御部

Claims (8)

  1.  通信ネットワークにおける故障発生箇所である装置、および故障の要因を示す情報を入力する入力手段と、
     故障発生箇所である装置、故障の要因、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールを記憶する記憶部と、
     前記故障発生箇所である装置について過去に発生した故障に関わる情報、または前記故障発生箇所である装置に固有の条件に基づいて、前記入力された情報で示される装置および要因に対する適切な復旧対処方法を前記復旧対処方法ルールから分析する分析手段と、
     を備えた情報分析装置。
  2.  前記過去に発生した故障に関わる情報は、該当の故障が発生したときの過去の自然回復の回数を含み、
     前記復旧対処方法ルールは、故障発生箇所である装置、故障の要因、前記自然回復の回数に係る条件、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールであり、
     前記分析手段は、
      前記自然回復の回数の大小に基づいて、前記適切な復旧対処方法を前記復旧対処方法ルールから分析する、
     請求項1に記載の情報分析装置。
  3.  前記記憶部に記憶される、前記故障発生箇所である装置に固有の条件は、該当の装置の種別、該当の装置のベンダ、該当の装置に係るレイヤ種別、該当の装置が設けられるネットワークの形態、該当の装置が設けられるネットワークの階層、該当の装置に係る冗長性の有無の少なくとも1つを含み、
     前記分析手段は、
      前記故障発生箇所である装置に固有の条件に基づいて、前記発生した故障に対する復旧対処方法に与える影響の大小を示すスコアを計算し、
     前記復旧対処方法ルールは、故障発生箇所である装置、故障の要因、前記スコアに係る条件、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールであり、
     前記分析手段は、
      前記計算したスコアに基づいて、前記適切な復旧対処方法を前記復旧対処方法ルールから分析する、
     請求項1に記載の情報分析装置。
  4.  前記分析手段は、
      前記故障発生箇所である装置に固有の条件の格納結果に応じたパラメータ値に、前記条件の種類に応じた重み付けの値を掛けることで、前記スコアを計算する、
     請求項3に記載の情報分析装置。
  5.  通信ネットワークにおける故障発生箇所である装置、故障の要因、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールを記憶する記憶部を備える情報分析装置が行なう方法であって、
     故障発生箇所である装置、および故障の要因を示す情報を入力することと、
     前記故障発生箇所である装置について過去に発生した故障に関わる情報、または前記故障発生箇所である装置に固有の条件に基づいて、前記入力された情報で示される装置および要因に対する適切な復旧対処方法を前記復旧対処方法ルールから分析することと、
     を備える情報分析方法。
  6.  前記過去に発生した故障に関わる情報は、該当の故障が発生したときの過去の自然回復の回数を含み、
     前記復旧対処方法ルールは、故障発生箇所である装置、故障の要因、前記自然回復の回数に係る条件、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールであり、
     前記分析することは、
      前記自然回復の回数の大小に基づいて、前記適切な復旧対処方法を前記復旧対処方法ルールから分析することを含む、
     請求項5に記載の情報分析方法。
  7.  前記記憶部に記憶される、前記故障発生箇所である装置に固有の条件は、該当の装置の種別、該当の装置のベンダ、該当の装置に係るレイヤ種別、該当の装置が設けられるネットワークの形態、該当の装置が設けられるネットワークの階層、該当の装置に係る冗長性の有無の少なくとも1つを含み、
     前記分析することは、
      前記故障発生箇所である装置に固有の条件に基づいて、前記発生した故障に対する復旧対処方法に与える影響の大小を示すスコアを計算することを含み、
     前記復旧対処方法ルールは、故障発生箇所である装置、故障の要因、前記スコアに係る条件、および前記故障に対する適切な復旧対処方法、を関連付けた復旧対処方法ルールであり、
     前記分析することは、
      前記計算したスコアに基づいて、前記適切な復旧対処方法を前記復旧対処方法ルールから分析することを含む、
     請求項5に記載の情報分析方法。
  8.  請求項1乃至4のいずれか1項に記載の情報分析装置の前記各手段としてプロセッサを機能させる情報分析処理プログラム。
PCT/JP2019/036839 2019-09-19 2019-09-19 情報分析装置、方法およびプログラム WO2021053801A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021546144A JP7268748B2 (ja) 2019-09-19 2019-09-19 情報分析装置、方法およびプログラム
PCT/JP2019/036839 WO2021053801A1 (ja) 2019-09-19 2019-09-19 情報分析装置、方法およびプログラム
US17/641,810 US11940868B2 (en) 2019-09-19 2019-09-19 Information analyzing apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/036839 WO2021053801A1 (ja) 2019-09-19 2019-09-19 情報分析装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021053801A1 true WO2021053801A1 (ja) 2021-03-25

Family

ID=74884464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/036839 WO2021053801A1 (ja) 2019-09-19 2019-09-19 情報分析装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US11940868B2 (ja)
JP (1) JP7268748B2 (ja)
WO (1) WO2021053801A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281595A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 障害推定装置、方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107151A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd ストレージシステム及びストレージシステムの通信パス制御方法
JP2008181302A (ja) * 2007-01-24 2008-08-07 Mitsubishi Electric Corp 遠隔管理装置及び遠隔管理システム及び遠隔管理方法
JP2011066522A (ja) * 2009-09-15 2011-03-31 Oki Networks Co Ltd 監視システム及びプログラム
JP2019125940A (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003114811A (ja) * 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US7272531B2 (en) * 2005-09-20 2007-09-18 Fisher-Rosemount Systems, Inc. Aggregation of asset use indices within a process plant
JP6438875B2 (ja) * 2015-10-23 2018-12-19 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法
US10162699B2 (en) * 2016-12-30 2018-12-25 Secure-24, Llc Artificial intelligence for resolution and notification of a fault detected by information technology fault monitoring

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107151A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd ストレージシステム及びストレージシステムの通信パス制御方法
JP2008181302A (ja) * 2007-01-24 2008-08-07 Mitsubishi Electric Corp 遠隔管理装置及び遠隔管理システム及び遠隔管理方法
JP2011066522A (ja) * 2009-09-15 2011-03-31 Oki Networks Co Ltd 監視システム及びプログラム
JP2019125940A (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 作業手順提示装置及び作業手順提示方法、並びに、自動制御装置及び自動制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023281595A1 (ja) * 2021-07-05 2023-01-12 日本電信電話株式会社 障害推定装置、方法およびプログラム

Also Published As

Publication number Publication date
US11940868B2 (en) 2024-03-26
JP7268748B2 (ja) 2023-05-08
US20220327013A1 (en) 2022-10-13
JPWO2021053801A1 (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
CN104583968B (zh) 管理系统及管理程序
US8601319B2 (en) Method and apparatus for cause analysis involving configuration changes
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
US7823029B2 (en) Failure recognition, notification, and prevention for learning and self-healing capabilities in a monitored system
WO2021053801A1 (ja) 情報分析装置、方法およびプログラム
JP7218797B2 (ja) 情報処理装置およびapi使用履歴表示プログラム
JP2018195133A (ja) 情報処理装置及び情報処理プログラム
JP2018067241A (ja) 動作ログ生成装置、動作ログ生成システム、動作ログ生成方法、及び、動作ログ生成プログラム
JP6798504B2 (ja) ログ分析システム、ログ分析方法及びプログラム
WO2020100634A1 (ja) 復旧支援装置、復旧支援方法及びプログラム
JP2006099249A (ja) 障害管理装置および障害管理方法
JP7380830B2 (ja) 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム
JP7327493B2 (ja) 異常対処支援装置、方法およびプログラム
JP2008191849A (ja) 稼働管理装置、情報処理装置、稼働管理装置の制御方法、情報処理装置の制御方法及びプログラム
JP4063860B1 (ja) 業務イベントデータ補完装置及び業務イベントデータ補完プログラム
JP2004062741A (ja) 障害情報表示装置及びプログラム
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
JP6636656B2 (ja) 管理システム、管理装置、および管理方法
JP6552136B1 (ja) サイバー攻撃に対する演習表示プログラム
JP7334792B2 (ja) ルール生成装置、方法及びプログラム
JP2021157339A (ja) 情報処理方法、及び情報処理プログラム
WO2024116315A1 (en) Recommending apparatus, recommending method, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19946018

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021546144

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19946018

Country of ref document: EP

Kind code of ref document: A1