WO2023112359A1 - 通信システム、管理装置及び端末 - Google Patents

通信システム、管理装置及び端末 Download PDF

Info

Publication number
WO2023112359A1
WO2023112359A1 PCT/JP2022/023197 JP2022023197W WO2023112359A1 WO 2023112359 A1 WO2023112359 A1 WO 2023112359A1 JP 2022023197 W JP2022023197 W JP 2022023197W WO 2023112359 A1 WO2023112359 A1 WO 2023112359A1
Authority
WO
WIPO (PCT)
Prior art keywords
terminal
recovery
unit
failure analysis
management device
Prior art date
Application number
PCT/JP2022/023197
Other languages
English (en)
French (fr)
Inventor
亮 中野
一登 白根
輔 鈴木
大樹 山田
Original Assignee
株式会社日立産機システム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立産機システム filed Critical 株式会社日立産機システム
Priority to CN202280047314.XA priority Critical patent/CN117642725A/zh
Publication of WO2023112359A1 publication Critical patent/WO2023112359A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance

Definitions

  • the present invention relates to a method of analyzing failures occurring in one or more terminals to be managed and automatically executing recovery processing for the failures.
  • Patent Document 1 there is a technology that detects failure occurrence by self-analysis of the terminal instead of the management device and implements recovery processing.
  • a terminal acquires a list of recovery methods from a management device in advance, and when an abnormality is detected by self-analysis, the terminal refers to the list and executes recovery processing.
  • Patent Document 1 failure analysis is entrusted only to the terminal, so it is difficult for the terminal to respond to abnormal events that cannot be self-detected. For example, assume a case where the delivery of firmware from the management device to the terminal fails and the terminal continues to use the old firmware by mistake.
  • the distribution source management device knows the version information of the firmware that should be applied, and the terminal cannot self-detect that the firmware applied to itself is outdated. In this way, it is difficult for terminals to self-detect, and there are anomalies that can only be detected by the management device.
  • the present invention has been made in view of the above problems.
  • the terminal self-detects
  • the purpose is to respond to abnormal events that cannot be performed and to enable recovery.
  • the present invention is a communication system comprising one or more terminals to be managed and a management apparatus connected to the terminals, wherein the terminals collect log information of their own terminals and transmit the log information to the management apparatus.
  • a log information management unit a self-failure analysis unit that analyzes the presence or absence of an abnormal event in the terminal from the log information and determines self-recovery processing when the abnormal event is detected, and a self-recovery processing for the abnormal event.
  • a recovery notification transmission unit that notifies the management device; and a self-recovery processing unit that executes self-recovery processing for the abnormal event or recovery processing commanded by the management device.
  • the presence or absence of an abnormal event in the terminal is analyzed, and if the abnormal event is detected, a failure analysis unit determines recovery processing, and the terminal responds to the abnormal event detected by the terminal.
  • a recovery notification receiving unit that receives a notification of self-recovery processing, and a recovery instruction unit that instructs the terminal to execute recovery processing for an abnormal event detected by the failure analysis unit according to the presence or absence of the notification.
  • both the terminal and the management device analyze an abnormal event that has occurred in the terminal based on the log information of the terminal.
  • FIG. 1 is a block diagram illustrating the configuration of a communication system and the hardware configuration of a management device and terminals in Embodiment 1;
  • FIG. FIG. 5 is a diagram showing an example of a failure analysis condition management table for a management device and a terminal according to the first embodiment;
  • FIG. 5 is a diagram showing an example of an event determination condition management table of a management device and a terminal according to the first embodiment;
  • FIG. 10 is a diagram illustrating an example of a recovery process management table of a management device and a terminal in Embodiment 1;
  • FIG. 4 is a sequence diagram showing the flow of failure analysis and recovery by the management device and the terminal according to the first embodiment, and shows an example of self-recovery by the terminal.
  • FIG. 5 is a diagram showing an example of a failure analysis condition management table for a management device and a terminal according to the first embodiment
  • FIG. 5 is a diagram showing an example of an event determination condition management table of a management device and a terminal according to the first
  • FIG. 4 is a sequence diagram showing the flow of failure analysis and recovery by the management device and terminals in the first embodiment, and shows an example of a recovery command by the management device;
  • 5 is a flow chart showing an example of failure analysis processing by a management device and self-failure analysis processing by a terminal in Embodiment 1;
  • 7 is a flow chart showing an example of a process for determining whether or not a recovery command is required by the management device according to the first embodiment;
  • FIG. 10 is an explanatory diagram showing an example of a screen display for setting various tables in Example 1;
  • FIG. 10 is an explanatory diagram showing a screen display example regarding failure detection and restoration information in the first embodiment;
  • FIG. 12 is a diagram showing an example of a failure analysis condition management table of the management device in the second embodiment
  • FIG. FIG. 10 is a diagram illustrating an example of an event determination condition management table of a management device according to the second embodiment
  • FIG. FIG. 11 is a diagram illustrating an example of a recovery process management table of a management device in Embodiment 2
  • FIG. 12 is a diagram illustrating an example of a terminal recovery process management table according to the second embodiment
  • FIG. 12 is a sequence diagram showing the flow of failure analysis and recovery by the management device and terminals in the third embodiment
  • FIG. 11 is an explanatory diagram showing an example of system operation plan information held by a management device in Example 3
  • 15 is a flow chart showing an example of restoration instruction permission determination processing by a management device in Embodiment 3.
  • FIG. 10 is a diagram illustrating an example of an event determination condition management table of a management device according to the second embodiment
  • FIG. 11 is a diagram illustrating an example of a recovery process management table of
  • the terminal and management device each manage a list of failure analysis conditions for log information in the failure analysis condition management unit. Further, the event determination condition management section manages a list of event determination conditions based on a combination of matching failure analysis conditions, and a recovery process management section manages a list of recovery processes to be performed for each event.
  • the self-failure analysis unit of the terminal refers to the failure analysis condition management unit, analyzes the log information in the terminal for each condition, and extracts failure analysis conditions that match the log information.
  • the terminal refers to the event determination condition management unit, and detects an abnormal event that has occurred within the terminal based on the combination of matching failure analysis conditions. Then, the terminal refers to the recovery process management unit, and determines the self-recovery process for the abnormal event and the content of notification to the management device.
  • the terminal transmits a notification regarding the execution of the restoration process to the management device with the restoration notification transmission section, and executes the restoration process with the self-restoration processing section, thereby achieving self-recovery from the abnormal state.
  • the management device also refers to the failure analysis condition management unit in the failure analysis unit, executes analysis of the log information collected from the terminal, and extracts matching failure analysis conditions. Subsequently, the management device refers to the event determination condition management section, and detects an abnormal event that has occurred in the terminal based on a combination of matching failure analysis conditions.
  • the management device refers to the restoration processing management unit and determines restoration processing for the abnormal event. Thereafter, when the recovery notification receiving unit cannot receive the recovery notification from the terminal, the management device transmits a recovery processing execution command to the terminal, thereby realizing recovery from the abnormal state. On the other hand, when the recovery notification is received from the terminal, the command to execute the recovery process is canceled to avoid redundant recovery process execution in the terminal.
  • both the terminal and the management device analyze abnormal events that have occurred on the terminal and implement recovery processing.
  • Abnormal conditions that can only be detected by the management device such as setting errors, can be detected, and recovery and correction can be automatically taken.
  • it is possible to recover from various abnormal states by registering failure analysis conditions, event determination conditions, and recovery processing for abnormal events that can be detected only by either the terminal or the management device as management information.
  • by causing the terminal to transmit a notification regarding the recovery process to the management device it is possible to prevent redundant recovery processes.
  • the information may be expressed in terms of "AAA table”, but the information may be expressed in any data structure. That is, the "AAA table” can be "AAA information" to indicate that the information is independent of the data structure.
  • FIG. Example 1 will be described with reference to FIGS. 1 to 10
  • Example 2 will be described with reference to FIG. 11, and Example 3 will be described with reference to FIGS.
  • the communication system in FIG. 1 includes one or more terminals 101 (101-a to 101-b) to be managed, a management device 102, and a network 150.
  • FIG. 1 when the terminals 101-a to 101-b are not specified individually, the symbol "101" omitting "-" is used.
  • the terminal 101 and the management apparatus 102 are connected by a network 150 including either or both of wired communication and wireless communication. to the management device 102 .
  • the terminal 101 periodically self-analyzes whether there is an abnormal event that has occurred within itself, determines self-recovery processing when an abnormal event is detected, and notifies about the self-recovery processing. After transmitting to the management device 102, self-recovery processing is executed.
  • the management device 102 provides services that utilize the data received from the terminal 101, and also manages failures of the terminal 101. Specifically, the management device 102 periodically analyzes the presence or absence of an abnormal event in the terminal 101 based on log information collected from each terminal 101, and determines restoration processing when an abnormality is detected.
  • the management device 102 determines whether or not there is a notification regarding self-restoration processing from the terminal 101 in which the failure occurred, and if the notification is not received, the corresponding terminal 101 is instructed to execute the restoration processing. do.
  • FIG. 1 illustrates a configuration in which one management device 102 is responsible for both service provision using received data and fault management of the terminal 101.
  • the management device 102 is responsible for only the former service provision.
  • the management apparatus 102 that only handles the latter failure management.
  • the management device 102 may be installed at the same site as the terminal 101, or may be installed at another base such as on a cloud.
  • the terminal 101 is a computer that stores data obtained from the site, log information of the terminal itself, etc. in packets and transmits the packet to the management apparatus 102 , and has a communication function with the management apparatus 102 .
  • the terminal 101 has various configurations according to the type of data to be acquired. For example, in addition to collecting and transmitting data from other devices existing in the field, the terminal 101 itself also has a temperature measurement terminal with a communication function when measuring the temperature of the field, and when acquiring an image of the field, it is a communication terminal. It may be a camera terminal or the like having a function.
  • the terminal 101 is composed of a communication I/F 111, a CPU 112, an input section 113, an output section 114, and a storage device 115.
  • the communication I/F 111 is, for example, a transmission unit that converts a digital signal and a radio signal to each other, converts the generated digital data into a radio signal, and transmits the generated digital data when transmitting/receiving a packet to/from the management apparatus 102 via radio communication. and a receiver for extracting digital data from the received radio signal.
  • the terminal 101 transmits/receives packets not only to the management device 102 but also to other devices existing on site, or when the terminal 101 transmits/receives packets to/from the management device 102 via a plurality of communication means, a plurality of communications are performed.
  • a form in which the I/F 111 is mounted may be used.
  • the CPU 112 executes various computer programs stored in the storage device 115 , thereby realizing various functions of the terminal 101 .
  • the input unit 113 is composed of, for example, a keyboard, mouse, or touch panel, and is used by the operator to input various operations and settings.
  • the output unit 114 is composed of, for example, a liquid crystal display monitor, and displays setting screens and results of various processes.
  • the input unit 113 and the output unit 114 are not essential.
  • the storage device 115 includes, for example, a storage device configured by a read-only semiconductor memory or the like and a storage device configured by a rewritable semiconductor memory element or the like, and stores computer programs for realizing various processes, acquired data, and the like. Store.
  • the application program 116 manages various settings such as the acquisition method and transmission schedule of the data to be collected, and the CPU 112 connected via the internal bus executes acquisition processing and transmission commands to the communication processing unit 117 .
  • the application program 116 manages a method of acquiring log information to be transmitted to the management apparatus 102, a transmission schedule of log information, and the like.
  • the application program 116 stores the collected log information in the log buffer 300 and transmits the log information to the management device 102 at a predetermined timing.
  • the log information can include acquired information such as the state of the terminal 101 and measured values of sensors connected to the terminal 101 , a time stamp, and an identifier of the terminal 101 .
  • the application program 116 can function as a log information management unit that collects log information and transmits the log information to the management device 102 at a predetermined timing.
  • the communication processing unit 117 implements transmission/reception processing in communication. Specifically, packet analysis processing including packet assembly processing for transmission and determination of whether or not the packet is addressed to the terminal itself for reception is performed.
  • the self-failure analysis unit 118 periodically analyzes whether there is an abnormal event in the terminal by referring to the log information from the log buffer 300 of the terminal itself. Further, when the self-failure analysis unit 118 detects an abnormal event, it determines the self-restoration process to be taken and the contents of notification to the management device 102 . Details of the processing performed by the self-failure analysis unit 118 will be described in detail later with reference to FIG.
  • the recovery notification transmission unit 119 transmits notification contents (recovery notification) determined by the self-failure analysis unit 118 to the management device 102 before executing self-recovery processing for the abnormal event detected by the self-failure analysis unit 118 .
  • the recovery notification transmission unit 119 outputs notification contents to the communication processing unit 117, and executes transmission processing.
  • the self-recovery processing unit 120 executes the self-recovery processing determined by the self-failure analysis unit 118.
  • the contents of the self-recovery process are preset processes such as restarting the communication I/F 111, restarting the terminal body, and executing firmware update, and are not limited to specific processes.
  • the failure analysis condition management unit 121 manages failure analysis conditions that define analysis rules for log information. Specifically, it manages a failure analysis condition management table 121a, which will be described later with reference to FIG.
  • the event determination condition management unit 122 manages event determination conditions that define which events are detected for combinations of failure analysis conditions that match the failure analysis condition management table 121a. Specifically, it manages an event determination condition management table 122a, which will be described later with reference to FIG.
  • the recovery process management unit 123 manages the recovery process to be taken for each detected abnormal event and the contents of notification to the management device 102 . Specifically, the recovery processing management table 123a managed in FIG. 4 is managed.
  • the terminal 101 may be an independent device or may be a built-in device. Further, as described above, the terminal 101 has various configurations depending on the type of field data to be acquired, and may include, for example, a temperature sensor, a camera module, or an acceleration sensor.
  • Communication processing unit 117, self-failure analysis unit 118, recovery notification transmission unit 119, self-recovery processing unit 120, failure analysis condition management unit 121, event determination condition management unit 122, and recovery processing management unit 123 are implemented as programs. It is loaded into the storage device 115 and executed by the CPU 112 .
  • the CPU 112 operates as a functional unit that provides a predetermined function by executing processing according to the program of each functional unit.
  • CPU 112 functions as self-failure analysis unit 118 by executing processing according to a self-failure analysis program. The same is true for other programs.
  • the CPU 112 also operates as a functional unit that provides functions of multiple processes executed by each program.
  • Computers and computer systems are devices and systems that include these functional units.
  • the management device 102 includes a communication I/F 131, a CPU 132, an input unit 133, an output unit 134, a storage device 135, a communication processing unit 137, a failure analysis condition management unit 141, an event determination condition management unit 142, and a recovery process management unit 143. These components, including, are similar to the components of the terminal 101 described above.
  • FIG. 1 similar to the terminal 101 described above, reception of input information from an external device via the communication I/F 131, such as remote login from another external device to the management apparatus 102, and output to the external device When providing information, it is not essential to install the input unit 133 and the output unit 134 .
  • the application program 136 is a program that provides users with services that utilize data and log information collected from the terminal 101 .
  • the application program 136 is a program that provides an average value per unit time of on-site data (temperature, etc.) received from the terminal 101, data analysis processing such as calculating an average value from the values of the collected data. I do.
  • the application program 136 also includes a program for remotely setting and managing the transmission schedule of data and log information in the terminal 101 .
  • the application program 136 stores log information collected from each terminal 101 in the log accumulation information 200 .
  • the application program 136 also includes a case of managing operation plan information such as a planned stop time of the communication system.
  • the application program 136 stores the operation plan information in the system operation plan information 1300 and manages it.
  • the storage and management of the operation plan information is not essential in this embodiment. An example of utilizing the operation plan information will be described later in Example 3.
  • the failure analysis unit 138 manages the log information of the log accumulation information 200 collected from the terminal 101, analyzes the log information, and analyzes the presence or absence of an abnormal event in each terminal 101. It is similar to the failure analysis unit 118 .
  • the failure analysis unit 138 periodically determines the presence or absence of an abnormal event that has occurred in each terminal 101 by analyzing the log information of the collected log accumulation information 200, and determines recovery processing to be taken when an abnormal event is detected. do. Details of the processing performed by the failure analysis unit 138 will be described in detail with reference to FIG. 7, which will be described later.
  • the recovery notification receiving unit 139 manages notifications regarding self-recovery processing received from each terminal 101 . Specifically, as a result of analyzing the received packet in the communication processing unit 137, if the packet is a notification related to self-restoration processing, it is notified to the restoration notification reception unit 139, and the restoration notification reception unit 139 receives from which terminal 101, Record what notifications you receive.
  • the recovery command unit 140 commands the terminal 101 at the source of the error to execute the recovery process determined by the failure analysis unit 138 .
  • the recovery command unit 140 refers to the recovery notification receiving unit 139 and determines whether or not the command is necessary depending on whether or not there is a recovery notification regarding the self-recovery process from the terminal 101 .
  • the recovery command unit 140 If the recovery command unit 140 has not received a notification regarding the self-recovery process from the failed terminal 101, it sends a recovery process execution command (hereinafter referred to as a recovery command) to the terminal 101 in question. Specifically, it notifies the communication processing unit 137 of the restoration instruction to transmit the restoration instruction to the terminal 101 .
  • a recovery command a recovery process execution command
  • the recovery command unit 140 cancels and discards the recovery command, thereby avoiding redundant recovery commands. Details of this process will be described later with reference to FIG.
  • the management apparatus 102 may be configured separately into a plurality of management apparatuses 102 including all the configurations in FIG. Therefore, it is not essential to include all of the configuration shown in FIG. 1 in one management apparatus 102 .
  • failure analysis condition management tables 121a and 141a managed by the failure analysis condition management unit 121 of the terminal 101 and the failure analysis condition management unit 141 of the management device 102 will be described with reference to FIG.
  • the failure analysis condition management tables 121a and 141a manage failure analysis conditions defining analysis rules for various types of log information of the terminal 101.
  • FIG. 2 shows a block diagram of the failure analysis condition management table in the first embodiment. .
  • the analysis condition ID 201 indicates the identifier of the failure analysis condition, and a unique identifier is set for each failure analysis condition.
  • the identifier in this field can be in any format. As illustrated in FIG. 2, the type of log information to be referenced may be expressed as a character string as an identifier, or the identifier may be defined as a serial number such as "No. 1, No. 2, ". .
  • the reference information 202 indicates the type of log information to be referred to in the failure analysis condition among the log information of the terminal 101 .
  • the log information type is described in the form of a character string that is easy for humans to interpret, such as "LTE connection status", but the format of this description is arbitrary. For example, if individual log information is stored in each register of the terminal 101 and the register value can be substituted for the log information type, the register value may be described in the reference information 202 .
  • the comparison method 203 indicates whether the value described in the threshold value 205, which will be described later, is compared as an "absolute value” or as a “relative value” (amount of change) from the previous reference value. For example, in the failure analysis condition management table illustrated in FIG. Determine whether the CPU usage rate of the terminal 101 is 95% (0.95) or more, and if a "relative value" is registered, check whether the current CPU usage rate has increased by 95% or more from the previous reference value. judge.
  • FIG. 2 exemplifies two patterns of "absolute value” and “relative value” as options for the comparison method 203.
  • Any comparison method such as “average”, “maximum”, “minimum” may be added.
  • the threshold value 205 indicates a comparison reference value for the log information specified in the reference information 202.
  • the description format of the threshold value 205 is not limited to numerical values, and may be character strings. For example, as exemplified in FIG. Specify the character string "disconnect" in .
  • the match count 206 indicates how many times the analysis conditions specified by the comparison method 203, the comparison condition 204, and the threshold 205 for the log information type specified by the reference information 202 are satisfied in succession before the conditions are considered to be met. ing.
  • failure analysis condition management tables 121a and 141a are managed by both the terminal 101 and the management device 102, the contents of failure analysis conditions registered in each may be different.
  • the row of "failure analysis condition ID: FirmVer” illustrates failure analysis conditions for analyzing whether the firmware version applied to the terminal 101 is less than 14.01.
  • the management device 102 manages the latest firmware version information.
  • the management device 102 can update the setting value of the threshold value 205, for example, from “14.01” to "15.00". Unless instructed by the management device 102, it is difficult to update the failure analysis condition management table 121a in the same manner as the management device 102. FIG.
  • the failure analysis condition related to "failure analysis condition ID: FirmVer” is registered only in the failure analysis condition management unit 141 of the management apparatus 102, and is not registered in the terminal 101, thereby reducing the load of failure analysis processing in the terminal 101. It becomes possible to Also, different threshold values 205 and matching counts 206 may be specified for the same log information for the terminal 101 and the management apparatus 102 .
  • failure analysis condition management tables 121a and 141a managed by the terminal 101 and the management device 102 it becomes possible to flexibly detect an abnormality occurring in the terminal 101.
  • various failures and anomalies can be detected by registering failure analysis conditions related to anomalies that can be detected only by either the terminal 101 or the management device 102 .
  • the event determination condition management tables 122a and 142a managed by the event determination condition management unit 122 of the terminal 101 and the event determination condition management unit 142 of the management device 102 will be described with reference to FIG.
  • the event determination condition management tables 122a and 142a manage event determination conditions that define which event should be detected as an abnormal event based on the match determination result for each failure analysis condition.
  • FIG. 3 shows a configuration diagram of the event determination condition management tables 122a and 142a in the first embodiment.
  • the event ID 301 indicates an identifier for distinguishing the type of abnormal event to be detected, and a unique identifier is registered for each event.
  • the naming rule of the identifier is arbitrary, and in the example of FIG. , identifiers may be written.
  • a matching condition (1) 302, a matching condition (2) 303, and a matching condition (3) 304 indicate identifiers of failure analysis conditions to be matched in detecting an abnormal event specified by the event ID 301.
  • any of the identifiers listed in the analysis condition ID 201 of the failure analysis condition management tables 121a and 141a of FIG. 2 is registered in this field. As illustrated in the row of "Event ID: LackRxCapability (Insufficient reception capability due to increased load)" in FIG. 3, a plurality of failure analysis condition IDs may be specified for a single event.
  • the abnormal event is detected only when all of these failure analysis conditions are met.
  • failure analysis condition ID CpuRatio (a CPU usage rate of 95% or more is detected three times 300 packets in a row)” is satisfied, the terminal 101 detects “insufficient reception capability due to increased load” as an abnormal event.
  • the event determination condition management tables 122a and 142a are managed by both the terminal 101 and the management device 102, the contents of the event determination conditions registered in each may be different.
  • the recovery process management tables 123a and 143a managed by the recovery process management unit 123 of the terminal 101 and the recovery process management unit 143 of the management device 102 will be described with reference to FIG.
  • the recovery process management tables 123a and 143a manage recovery processes to be performed for each abnormal event, and FIG.
  • the event ID 401 indicates an identifier for distinguishing types of abnormal events. It is similar to the event ID 301 of the event determination condition management table in FIG. 3, and the description format conforms to the event ID 301 in FIG.
  • the notification message 402 indicates the contents of notification to be sent to the management device 102 when the terminal 101 detects an abnormal event described in the event ID 401.
  • registration is made to notify a combination of a character string indicating the content of recovery processing (eg, LteReboot (communication I/F restart related to LTE)) and a detected event ID (eg, LteDisconn (LTE disconnection)).
  • the content of this notification may be in any format.
  • the management apparatus 102 when the management apparatus 102 receives this notification, the format must be such that it can determine what kind of self-recovery processing the terminal 101 that is the source of the notification executes or what kind of abnormal event is detected. is desirable.
  • the field of the notification message 402 may be left blank or omitted in the recovery process management table managed by the management device 102 .
  • a recovery measure 403 indicates a recovery process to be taken when the terminal 101 or the management device 102 detects an abnormal event described in the event ID 401.
  • the self-recovery processing unit 120 executes self-recovery processing registered in the recovery measure 403 .
  • the restoration instruction unit 140 transmits an instruction to execute the restoration process registered in the restoration measure 403 to the target terminal 101 .
  • the recovery process is described in a format that prioritizes readability such as "Communication I/F restart (LTE)". It can be in any format.
  • the commands necessary for executing the recovery process may be written directly in the recovery measure 403.
  • the commands necessary for executing the recovery process may be written directly in the recovery measure 403.
  • only a single recovery process is described for each abnormal event. , and information such as the order of execution may be added as necessary.
  • the waiting time 404 indicates the waiting time until recovery processing of the recovery measure 403 is taken when an abnormal event described in the event ID 401 is detected.
  • the terminal 101 detects an abnormal event described in the event ID 401
  • the terminal 101 waits for the time described in the waiting time 404 from the detection of the abnormal event, and then executes the self-recovery process described in the recovery measure 403 .
  • the management apparatus 102 when the management apparatus 102 detects an abnormal event, it waits for the time described in the waiting time 404 from the detection of the abnormal event, and then issues an execution command for the recovery processing described in the recovery measure 403 to the recovery command unit. 140 to the terminal 101 .
  • recovery processing such as restarting the terminal 101
  • data collection from other on-site devices may be interrupted. Inconvenient cases are also assumed.
  • the waiting time 404 may be set to "0 minutes" if it is necessary to take immediate recovery processing immediately after detecting an abnormal event. Also, in the example of FIG. 4, the waiting time 404 is specified in minutes, but the unit of time may be changed arbitrarily.
  • the recovery process management tables 123a and 143a are managed by both the terminal 101 and the management device 102, the contents of the tables registered in each may be different. For example, it is conceivable to set the value of the waiting time 404 in the management device 102 longer than the waiting time set in the terminal 101 .
  • any field may be added in addition to the fields illustrated in FIG.
  • a field such as priority may be added in order to clarify recovery processing that should be prioritized in case multiple abnormal events are detected at the same time.
  • the failure analysis condition management tables 121a and 141a in FIG. 2, the event determination condition management tables 122a and 142a in FIG. 3, and the recovery process management tables 123a and 143a in FIG. may be registered or changed at any timing.
  • a screen display example related to these registrations or changes will be described later with reference to FIG.
  • the event determination condition management tables 122a and 142a in FIG. 3 and the recovery process management tables 123a and 143a in FIG. may be in a form in which they are collectively managed in one table.
  • FIG. 5 illustrates a case in which recovery from a failure is realized by self-failure analysis and self-restoration processing of the terminal 101, and the details will be described below.
  • the type of log information to be transmitted includes at least the log information described in the reference information 202 of the failure analysis condition management table of FIG. However, log information not described in the reference information 202 may be included in the transmission.
  • Terminal 101 acquires its own log information in accordance with a method managed by application program 116 , temporarily stores it in log buffer 300 , and then operates communication processing unit 117 according to a transmission schedule also managed by application program 116 . log information is transmitted to the management apparatus 102 via the
  • step S501a As illustrated in FIG. 5, for example, if the application program 116 specifies that the log information should be transmitted at a predetermined log transmission period ⁇ T, the application program 116 transmits the log information in step S501a. After that, in step S501b after the log transmission cycle ⁇ T has passed, the log information is transmitted again.
  • the self-failure analysis unit 118 of the terminal 101 self-analyzes the presence or absence of an abnormal event in the own terminal based on the log information of the own terminal, These are restoration processing and processing for determining the content of notification to the management apparatus 102 .
  • the execution timing of the self-failure analysis processing in steps S502a, S502b, and S502c is managed by the self-failure analysis unit 118 of the terminal 101. For example, as shown in FIG. is executed in
  • the self-failure analysis unit 118 executes the self-failure analysis process again after the elapse of the self-failure analysis period ⁇ t1.
  • the self-failure analysis unit 118 detects an abnormal event (eg, step S502c)
  • the self-failure analysis unit 118 determines the contents of the notification addressed to the management device 102 and the self-restoration process to be executed, and The process of S505 is executed.
  • the failure analysis unit 138 of the management device 102 analyzes whether or not an abnormal event has occurred in the terminal 101 based on the log information of the accumulated log information 200 collected from the terminal 101, and detects an abnormal event. In this case, the recovery process to be instructed to the terminal 101 is determined.
  • the execution timing of the fault analysis processing in steps S503a to S503c is managed by the fault analysis unit 138 of the management device 102, and is executed at time intervals of the fault analysis cycle ⁇ t2, as illustrated in FIG. 5, for example.
  • the failure analysis unit 138 executes the failure analysis process again after the failure analysis period ⁇ t2 has passed, and detects the failure event. If detected (eg, step S503c), the process of step S506, which will be described later, is executed.
  • the log transmission cycle ⁇ T by the terminal 101 in step S501, the self-failure analysis cycle ⁇ t1 by the terminal 101 in step S502, and the failure analysis cycle ⁇ t2 by the management device 102 in step S503 are set to different cycles. I don't mind.
  • the failure analysis cycle ⁇ t2 must be set longer.
  • the self-failure analysis cycle ⁇ t1 by the terminal 101 can be set short regardless of the communication band or communication fee.
  • the self-failure analysis cycle ⁇ t1 short it is possible to shorten the time required from failure occurrence to detection, compared to a form in which only the management apparatus 102 executes failure analysis processing.
  • steps S501a to S503c are executed periodically
  • these may be executed at specified times.
  • the management apparatus 102 it is possible to set the management apparatus 102 to execute failure analysis processing at 12:00 and 18:00 every day, and the execution schedule of steps S501a to S503c may be set arbitrarily.
  • Step S504 is a process in which the recovery notification transmission unit 119 of the terminal 101 transmits a notification regarding the self-recovery process to the management device 102.
  • This notification is the notification content determined when the self-failure analysis unit 118 detects an abnormal event in step S502c. Specifically, in the recovery process management table of FIG. This corresponds to the notification content described in message 402 .
  • the recovery notification transmission unit 119 notifies the communication processing unit 117 of the content of the notification, and transmits a packet containing the content of the notification to the management device 102 .
  • the communication processing unit 137 analyzes the packet to determine which terminal 101 transmitted the notification, what kind of abnormal event was detected, or what kind of recovery process was performed. It notifies the restoration notification receiving unit 139 of the notification content such as whether to take measures, and records the notification content.
  • step S504 is executed after the detection of an abnormal event in step S502c.
  • the recovery notification transmitting unit 119 may suspend (delay) the transmission of the notification, and transmit the notification immediately before executing the self-recovery process in step S505, which will be described later.
  • Step S505 is processing in which the self-restoration processing unit 120 of the terminal 101 executes the self-restoration processing determined when the abnormal event is detected in step S502c. Specifically, the recovery process described in the recovery measure 403 is executed in the recovery process management tables 123a and 143a of FIG.
  • the self-recovery processing unit 120 executes the recovery process. As a result, the terminal 101 can realize self-recovery from the detected abnormal event.
  • Step S506 is a process in which the recovery command unit 140 of the management apparatus 102 determines whether or not it is necessary to issue a command to the terminal 101 where the error has occurred, for the recovery process determined in step S503c. be.
  • the recovery command process is executed at the timing when the time specified in the waiting time 404 in the recovery process management table of FIG.
  • the recovery command unit 140 refers to the recovery notification receiving unit 139 to determine whether the recovery notification described in step S504 has been received from the terminal 101. If it has been received, step S507 will be described later. to cancel the recovery order.
  • step S601 If the recovery notification has not been received, the process proceeds to step S601, which will be described later with reference to FIG. . Details of this process will be described later with reference to FIG. In the example of FIG. 5, since the recovery notification has already been received from the terminal 101 in step S504, the process proceeds to step S507.
  • step S507 the recovery command unit 140 of the management device 102 cancels the recovery process execution command determined in step S503c. If a recovery notification has already been received from the terminal 101 that caused the error in step S504, the terminal 101 will perform self-recovery processing without an instruction from the management device 102. Therefore, the recovery command should be redundantly transmitted from the management device 102. isn't it. By canceling the recovery command by the recovery command unit 140 in step S507, the terminal 101 can recover from the abnormal event without performing redundant recovery processing.
  • FIG. 5 exemplifies a mode in which the terminal 101 transmits a recovery notification in step S504 and then executes self-recovery processing in step S505, the order may be reversed.
  • the management device 102 can cancel the redundant recovery command with a higher probability, thereby improving efficiency. can be planned.
  • steps S501a to S501c, steps S502a to S502c, steps S503a to S503c, and step S506 are the same as in FIG.
  • step S503c after the fault analysis unit 138 detects an abnormal event of the terminal 101 in step S503c, the recovery notification from the terminal 101 is not performed until the recovery instruction necessity determination process in step S506. is not received, the process proceeds to step S601.
  • step S601 the recovery command unit 140 of the management device 102 commands the terminal 101 in which the abnormal event occurred to perform the recovery process determined in step S503c. Specifically, the recovery command unit 140 notifies the communication processing unit 137 of the recovery process, and transmits a packet containing the details of the recovery process to be executed to the terminal 101 .
  • step S602 the terminal 101, which has received the restoration command transmitted in step S601, executes the restoration processing specified by the management device 102 using the self-restoration processing unit 120. Specifically, when the terminal 101 receives a restoration command from the management device 102, the communication processing unit 117 analyzes the packet, notifies the self-restoration processing unit 120 of restoration processing to be executed, and the self-restoration processing unit 120 executes the restoration process. As a result, recovery from the abnormal event of the terminal 101 is realized.
  • the terminal 101 when the terminal 101 does not self-detect an abnormal event and the management apparatus 102 detects an abnormal event, the terminal 101 has not transmitted a recovery notification as described in step S504 of FIG. With this, the management device 102 transmits a recovery command.
  • the management device 102 Even if the terminal 101 is capable of self-detecting an abnormal event, if the management device 102 detects it early before the terminal 101 self-detects it, the management device 102 can transmit a recovery command as shown in FIG. , it is possible to realize fault recovery at an early stage, compared with a form in which only the terminal 101 performs self-failure analysis.
  • the self-failure analysis processing executed by the self-failure analysis unit 118 of the terminal 101 and the failure analysis processing executed by the failure analysis unit 138 of the management device 102 will be described with reference to FIG. Specifically, it corresponds to the processing executed in steps S502a to S502c and S503a to S503c in FIGS.
  • the terminal 101 and the management device 102 refer to the log information of the terminal 101 to analyze the presence or absence of an abnormal event, and if an abnormal event is detected, determine the recovery process to be taken.
  • the self-failure analysis processing by the self-failure analysis unit 118 of the terminal 101 the content of the recovery notification to be notified to the management device 102 is also determined in this processing.
  • FIG. 7 is a flowchart showing self-failure analysis processing by the terminal 101 and failure analysis processing by the management device 102 in Embodiment 1, and the details will be described below. Note that the management device 102 processes unprocessed log information in the accumulated log information 200 , and the terminal 101 processes unprocessed log information in the log buffer 300 .
  • the failure analysis unit 138 (self-failure analysis unit 118) refers to the failure analysis condition management tables 121a and 141a of FIG. This is a process of performing determination of an abnormal event.
  • the failure analysis condition management table 121a managed by the failure analysis condition management unit 121 is referenced, and the log information of the own terminal is analyzed.
  • the failure analysis condition management table 141a managed by the failure analysis condition management unit 141 is referred to, and the log information collected from each terminal 101 is analyzed. to run.
  • the failure analysis unit 138 When analysis processing is completed for all failure analysis conditions registered in the failure analysis condition management tables 121a and 141a and there is a failure analysis condition that matches the conditions, the failure analysis unit 138 (self failure analysis unit 118) performs the analysis.
  • a condition ID (analysis condition ID 201 in FIG. 2) is recorded. For example, in the log information of the terminal 101, if the "LTE connection state" is "0 (disconnected)" three times in a row in the past, "analysis condition ID: LteState" is stored in the example of the table in FIG. Record on device 115 , 135 . After the process of step S701 is completed, the process proceeds to step S702.
  • Step S702 is a process in which the failure analysis unit 138 (self-failure analysis unit 118) determines whether or not there is an analysis condition ID that matches the failure analysis conditions in the processing of step S701.
  • step S703 If there is at least one matching analysis condition ID (YES), the process proceeds to step S703. On the other hand, if there is no matching analysis condition ID (NO), it is clear that there is no abnormal event to be detected, so the process of FIG. 7 is terminated.
  • step S703 the failure analysis unit 138 (self-failure analysis unit 118) refers to the event determination condition management tables 122a and 142a of FIG. This is processing for determining an event.
  • the event determination condition management table 122a managed by the event determination condition management unit 122 is referenced to execute determination.
  • the event determination condition management table 142a managed by the event determination condition management unit 142 is referenced to execute determination.
  • the failure analysis unit 138 (self-failure analysis unit 118) records the event ID (event ID 301 in FIG. 3) in the storage devices 115, 135 when a corresponding abnormal event exists.
  • step S703 detects an abnormal event of “LTE disconnection” in the terminal 101 and records the event ID.
  • step S704 the failure analysis unit 138 (self-failure analysis unit 118) determines whether or not the corresponding event ID 301 exists in the processing of step S703. As in the case of "event ID: LteDisconn (LTE disconnection)" described above, if at least one corresponding event ID 301 exists (YES), the process proceeds to step S705. On the other hand, if the corresponding event ID does not exist (NO), it is determined that there is no abnormal event in the terminal 101, and the processing of FIG. 7 ends.
  • step S705 the recovery instruction unit 140 (self-recovery processing unit 120) refers to the recovery processing management tables 123a and 143a of FIG. This is the process of determining the execution timing of the recovery process.
  • the recovery instruction unit 140 (self-recovery processing unit 120) refers to the recovery measure 403 and waiting time 404 fields, and executes the corresponding event ID 301 in step S703.
  • the recovery process to be executed and the waiting time 404 between which the recovery process should be executed or commanded are determined.
  • the recovery command unit 140 self-recovery processing unit 120
  • “communication I about LTE” after "5 minutes” in the example of FIG. /F reboot” can be determined to be executed or commanded.
  • the self-restoration processing unit 120 refers to the restoration processing management table 123a managed by the restoration processing management unit 123 and executes the processing of step S705. Further, the self-restoration processing unit 120 also refers to the field of the notification message 402 of the restoration processing management table 123a, and determines the contents of the notification to be notified to the management device 102 as well.
  • the notification content determined in this process is transmitted to the management device 102 in the recovery notification transmission process in step S504 of FIG. 5, and after the specified waiting time has passed, the recovery process is executed in step S505 of FIG.
  • step S705 is executed.
  • the failure analysis unit 138 After the specified waiting time has passed, the failure analysis unit 138 performs the recovery command necessity determination processing in step S506 shown in FIGS. , an execution command for the recovery process is transmitted.
  • the process of step S705 ends, the process of FIG. 7 ends.
  • the terminal 101 and the management device 102 can analyze the presence or absence of an abnormal event in the terminal 101, restore processing that should be performed when an abnormal event is detected, and the execution timing of the restoration processing. can be determined up to
  • the restoration instruction necessity determination process executed by the restoration instruction unit 140 of the management device 102 will be described. Specifically, this corresponds to the processing executed in step S506 in FIGS.
  • FIG. 8 is a flow chart showing the process of determining whether or not a restoration command is required by the management device 102 according to the first embodiment, and the details will be described below.
  • Step S801 is a process in which the restoration instruction unit 140 of the management device 102 refers to the restoration notification reception unit 139 and determines whether or not the restoration notification from the terminal 101 subject to the restoration instruction has been received.
  • the recovery command unit 140 determines whether or not a recovery notification has been received from the terminal 101 in which the abnormal event detected in the failure analysis process of FIG. 7 has occurred. If it is related to the abnormal event detected in the process or the recovery process determined in the failure analysis process of FIG. 7, it is determined that it has been received.
  • step S801 as a result of the restoration instruction unit 140 referring to the restoration notification reception unit 139, the terminal 101 sends a restoration notification indicating that “LTE disconnection” has been self-detected, or “restarts communication I/F related to LTE”. If a recovery notification to the effect that it will be executed as self-recovery processing has been received, it is determined that it has been received.
  • the recovery command unit 140 can determine that the recovery command should be withheld in order to avoid redundant recovery processes. If the management apparatus 102 has already received the restoration notification from the target terminal 101 (YES), the process proceeds to step S802, and if not (NO), the process proceeds to step S803.
  • Step S802 is a process in which the recovery command unit 140 determines that the recovery process execution command determined in the failure analysis process of FIG. 7 is unnecessary, and cancels the recovery command. Specifically, the process transitions to the process of canceling the restoration instruction described in step S507 of FIG.
  • step S801 it is determined that the recovery notification from the target terminal 101 has been received, so that the recovery command is canceled, thereby avoiding execution of redundant recovery processing in the terminal 101. can be done.
  • step S802 ends, the process of FIG. 8 ends.
  • Step S803 is a process in which the recovery command unit 140 determines that the recovery process execution command determined in the failure analysis process of FIG. 7 is necessary, and transmits the recovery command to the target terminal 101 . Specifically, the process transitions to the recovery instruction transmission process described in step S601 of FIG.
  • step S801 If it is determined in step S801 that the recovery notification has not been received from the target terminal 101, the terminal 101 cannot self-detect an abnormal event. Action can be taken. When the process of step S803 ends, the process of FIG. 8 ends.
  • the recovery command unit 140 of the management device 102 can determine whether the recovery process command determined in the failure analysis process of FIG. 7 is necessary. Further, when it is determined that the command is unnecessary based on the determination of the reception of the recovery notification from the terminal 101 to which the recovery order is issued, the recovery command is canceled, thereby preventing the terminal 101 from executing redundant recovery processing. It can be suppressed.
  • the output unit 114 of the terminal 101 and the output unit 134 of the management apparatus 102 can display a display screen 900.
  • a display area 901 for setting failure analysis conditions and an event determination condition and a display area 903 for setting recovery processing are provided.
  • a display area 901 is an area for setting the failure analysis condition management tables 121a and 141a of FIG.
  • the input values are set in the failure analysis condition management tables 121a and 141a.
  • failure analysis conditions may be added at any time during the operation process of the communication system. Therefore, in the example of FIG. 9, an add button 904 for adding input fields (rows) for failure analysis conditions is provided. making it possible.
  • a display area 902 is an area for setting the event determination condition management tables 122a and 142a of FIG.
  • the input values are set in the event determination condition management tables 122a and 142a.
  • the type of abnormal event to be detected and the number of failure analysis conditions required for match determination may be added at any time during the operation of the system, so an add button 904 is also provided.
  • a display area 903 is an area for setting the recovery process management tables 123a and 143a of FIG.
  • the display area 903 when the recovery process to be taken for each abnormal event and the waiting time until the recovery process is entered from the input units 113 and 133, the input values are set in the recovery process management table. For the same reason as above, the display area 903 also has an add button 904 .
  • a file input button 905 and a file output button 906 are provided.
  • a function is provided to read various table values saved in separate external files onto the display screen 900 of FIG. provides a function of outputting table values input on the display screen 900 of FIG. 9 to an external file.
  • the output unit 134 of the management device 102 In addition to displaying the screen of FIG. 9 on each of the terminal 101 and the management device 102, for example, the output unit 134 of the management device 102 also displays a screen for setting various table information of the terminal 101, and presses the file output button. It is also conceivable to register various table values of the terminal 101 by sending the external file output by pressing the button 906 to the terminal 101 . Thus, it is not essential that both the terminal 101 and the management device 102 include an input unit and an output unit.
  • a screen display example for outputting an abnormal event detected by the self-failure analysis processing by the terminal 101 in FIG. 7 or by the failure analysis processing by the management device 102 and the determined recovery processing will be described with reference to FIG.
  • the output unit 114 of the terminal 101 and the output unit 134 of the management apparatus 102 can display a display screen 1000, and a display area 1001 for displaying failure detection and recovery information is set on the display screen 1000. .
  • detected abnormal event information analyzed by the self-failure analysis unit 118 of the terminal 101 and the failure analysis unit 138 of the management device 102, and recovery processing information for the abnormal event are displayed.
  • the identifier information of the terminal 101 that is the source of the failure, the detected abnormal event information, the detection time of the abnormal event, the detection source information of the abnormal event, and the restoration process to be performed for the abnormal event. is displayed, but any information may be output as necessary.
  • the scheduled execution time of the recovery process determined from the waiting time 404 in the recovery process management tables 123a and 143a of FIG. 4 may be added.
  • recovery processing such as restarting of the terminal 101
  • that may involve interruption of communication system operation is executed, by referring to the display screen 1000, it is possible to take measures such as taking advance preparations for system stoppage. It is also possible to determine whether or not it is necessary.
  • a screen display that outputs in text format instead of table format may be used, and the display format of information related to failure detection and recovery is not limited to a specific method. do not have.
  • self-analysis and recovery of the terminal 101 enable early failure detection and self-recovery from a communication disconnection state.
  • the terminal 101 can also detect an abnormal event that cannot be self-detected, and restore it.
  • the terminal 101 takes self-recovery processing, by transmitting a recovery notification to the management device 102, it is possible to suppress redundant recovery orders from the management device 102, and the failure recovery of the terminal 101 can be efficiently performed. can be practically realized. Since these processes are automatically performed, the number of man-hours required for recovery work in the event of a failure can be reduced, and early failure recovery can be realized, which in turn contributes to an improvement in the operating rate of the communication system.
  • the management apparatus 102 when the management apparatus 102 performs the failure analysis processing in the failure analysis unit 138, the failure analysis condition management tables 121a and 141a of FIG. It was determined whether or not they matched.
  • self-recovery processing by the terminal 101 includes processing that may involve interruption of the operation of the communication system, such as restarting the terminal body. It is desirable to temporarily disable the restoration process by the terminal 101 .
  • the management apparatus 102 in the management apparatus 102, the fact that a plurality of terminals 101 simultaneously meet the same failure analysis condition is added as a criterion for detecting an abnormal event, and self-recovery of the terminal 101 according to the type of the abnormal event is also added. A form in which enabling or disabling of processing is also possible will be described.
  • the failure analysis condition management unit 141 the event determination condition management unit 142, the recovery processing management unit 143 of the management device 102, and the recovery processing management unit 123 of the terminal 101 manage various Explain the structure of the table.
  • Various configurations, processes, and the like according to the second embodiment are the same as those of the first embodiment except for the configuration of the tables shown in FIGS. 11A to 11D.
  • FIG. 11A shows a configuration diagram of the failure analysis condition management table 141a managed by the failure analysis condition management unit 141 of the management device 102 in the second embodiment.
  • the analysis condition ID 201, reference information 202, comparison method 303, comparison condition 204, threshold value 205, and number of matches 206 are the same as in the failure analysis condition management table 141a in the first embodiment of FIG. 1101 fields are newly added.
  • the number of simultaneous detections 1101 indicates how many terminals 101 that meet the analysis condition exist as a result of analyzing the log information collected from each terminal 101 by the management device 102, and whether the conditions are considered to be met. ing.
  • the management device 102 determines whether this failure analysis condition is met.
  • FIG. 11B shows a configuration diagram of the event determination condition management table 142a managed by the event determination condition management unit 142 of the management device 102 in the second embodiment.
  • the event determination condition management table 142a is the same as the event determination condition management table 142a in Example 1 of FIG. In the case of the example of FIG. 11B, based on the matching of "analysis condition ID: Multi-LteState" in FIG. can be detected.
  • 11C and 11D are configuration diagrams of the recovery process management table 143a managed by the recovery process management unit 143 of the management device 102 and the recovery process management table 123a managed by the recovery process management unit 123 of the terminal 101 in the second embodiment. is shown.
  • a valid/invalid 1102 in FIGS. 11C and 11D is a field for specifying whether to validate or invalidate execution of recovery processing when an abnormal event described in the event ID 401 is detected. If "invalid" is specified in this field, even if an abnormal event described in the event ID 401 is detected, the process described in the restoration measure 403 is not executed.
  • step S705 when the management device 102 detects “event ID: NwFailure (carrier failure)”, the failure analysis processing ( In step S705), it is determined to invalidate the recovery process when self-detection of "LTE disconnection” is performed.
  • the management device 102 performs the recovery command necessity determination process of FIG. 8 in the same manner as the flow described in FIG. Send to the target terminal. Then, the terminal 101 that has received this restoration command changes the valid/invalid 1102 field corresponding to "event ID: LteDisconn (LTE disconnection)" to "invalid" according to the command, as illustrated in FIG. 11D.
  • the terminal 101 does not execute self-recovery processing even if "LTE disconnection" is detected, so that unnecessary self-recovery processing is not required during carrier failure.
  • timing to re-enable the disabled recovery process can be set arbitrarily.
  • the management device 102 instructs to re-enable the disabled recovery process, and the terminal 101 instructed to disable It may be in the form of automatic reactivation.
  • the present embodiment in the failure analysis processing of the management apparatus 102, by adopting the fact that a plurality of terminals 101 simultaneously meet the same failure analysis condition as an abnormal event detection criterion, a single event can be detected. Abnormal events that cannot be detected only by the log information of the terminal 101 can also be detected.
  • a field of waiting time 404 is provided in the recovery processing management tables 123a and 143a of FIG. explained.
  • the terminal 101 By issuing a restoration command to the terminal 101 at the timing at which the management device 102 permits the execution of restoration processing, it is possible to set an arbitrary waiting time. For example, if the management device 102 holds information related to the operation plan of the communication system and knows the time period during which communication disconnection should not be caused due to the firmware update of the field device, etc., the terminal 101 will restore the communication during that time period. Even if the notification is received, the recovery order is not sent immediately, and the recovery order is withheld until the end of the relevant time period, thereby avoiding a temporary disconnection of communication due to self-recovery processing (such as restarting the terminal 101). be able to.
  • the terminal 101 has detected an abnormality, it is actually an intentional abnormal event due to a planned system stop, etc., and there may be cases where self-recovery processing is unnecessary.
  • the terminal 101 and another on-site device are connected by wired communication, and the terminal 101 self-detects disconnection of the wired communication when the on-site device is powered off due to a planned shutdown of the communication system.
  • the terminal 101 transmits a recovery notification regarding the self-recovery process to the management apparatus 102
  • execution of the recovery process is waited until a recovery command is received from the management apparatus 102.
  • the terminal 101 executes self-recovery processing after transmitting the recovery notification to the management device 102. , suspend the execution of recovery processing.
  • the restoration notification receiving unit 139 when the management device 102 receives a restoration notification from the terminal 101, the restoration notification receiving unit 139 only records the contents of the notification. It also determines permission to execute. Then, only when the management device 102 determines that the restoration is executable, the management device 102 sends back the restoration instruction to the terminal 101 at an appropriate timing. Note that the restoration command transmitted by the management device 102 is a reply to the restoration notification transmitted by the terminal 101 .
  • Example 3 Various configurations and processes according to Example 3 are the same as those in Example 1 or Example 2 except for the processes shown in FIGS.
  • Steps S501, S502, S504, and S602 of FIG. 12 are the same as those of FIGS. 5 and 6, and are the same as those of the first or second embodiment, so description thereof will be omitted.
  • the terminal 101 After transmitting the recovery notification in step S504, the terminal 101 suspends execution of the recovery process until it receives a recovery command from the management device 102, as shown in FIG.
  • the management device 102 receives the recovery notification transmitted by the terminal 101 in step S504
  • the content of the notification is output to the recovery notification reception unit 139.
  • the contents of the notification are also output to the recovery instruction unit 140, and the process proceeds to step S1201.
  • step S1201 based on the recovery notification transmitted by the terminal 101 in step S504, the recovery command unit 140 of the management apparatus 102 determines whether the terminal 101 may be permitted to execute self-recovery processing for the notified abnormal event. This is the process of determining with .
  • the system operation plan information 1300 (described later in FIG. 13) held by the management device 102 is referenced to determine whether the abnormal event detected by the terminal 101 is due to a planned shutdown of the communication system. When doing so, the transmission of the recovery command is canceled because the self-recovery process is unnecessary.
  • step S1202 restores the system in step S1202 at an appropriate timing in terms of the operation plan of the communication system. Transition to command transmission processing. Note that detailed processing of step S1201 will be described later with reference to FIG.
  • Step S1202 is a process of transmitting a restoration instruction to the target terminal 101 from the restoration instruction unit 140 of the management device 102 .
  • the recovery command transmission process (S601) of FIG. 6 in the first or second embodiment the execution command of the recovery process determined in the failure analysis process (S503) is transmitted, but the recovery command transmission in step S1202 In the process, an execution command for the self-recovery process described in the recovery notification in step S504 is transmitted.
  • the recovery process management table managed by the recovery process management unit 143 is referred to, and Sends an instruction to execute the corresponding restoration process.
  • the terminal 101 causes the self-restoration processing unit 120 to execute the specified restoration process in step S602.
  • the management device 102 determines whether the terminal 101 is permitted to perform the self-recovery process, and controls the transmission cancellation and transmission timing of the recovery command. It is possible to avoid execution of processing and execution of unnecessary recovery processing.
  • system operation plan information 1300 held by the management device 102 An example of system operation plan information 1300 held by the management device 102 will be described with reference to FIG.
  • the system operation plan information 1300 is managed by the application program 136 of the management device 102, and as described above, when the management device 102 receives a recovery notification, it is used to determine whether the terminal 101 is permitted to execute self-recovery processing. .
  • the system operation plan information 1300 is stored in the storage device 135 of the management device 102. FIG.
  • the operation plan 1301 in FIG. 13 indicates the operation plan information of the communication system.
  • the description format of this field is arbitrary, and as illustrated in FIG. Communication I/F restart, etc.) may be written together.
  • a related terminal 1302 is a field for describing the identifier of the terminal 101 targeted for the operation plan described in the operation plan 1301 .
  • the identifiers of the terminals 101 are exemplified by subscripts in FIG. It doesn't matter if it is.
  • the management apparatus 102 When the management apparatus 102 receives the recovery notification from the terminal 101 and determines whether or not to permit the self-recovery process, the management apparatus 102 refers to the related terminal 1302 to determine which operation plan is used in the recovery process of the terminal 101. It becomes possible to identify which should be considered.
  • the target date and time 1303 indicates date and time information for executing the operation plan described in the operation plan 1301 .
  • the management device 102 determines that the communication system is scheduled to be shut down during, for example, "2021/9/22 02:00:00 to 03:00:00", and the terminal 101 -a, the abnormal event detected by the terminal 101-b was caused by planning, and the management device 102 can determine that self-recovery is unnecessary.
  • system operation plan information 1300 the fields of the operation plan 1301, the related terminal 1302, and the target date and time 1303 are illustrated, but the system operation plan information held by the management device 102 is limited to a specific format. not a thing For example, if various operation plans are applied periodically on a specific day of the week and a specific time period, change the target date and time field 1303 to a format that describes the day of the week and time period, and add a new input field can be added arbitrarily.
  • the restoration instruction permission determination process executed by the restoration instruction unit 140 of the management apparatus 102 will be described. Specifically, this corresponds to the processing executed in step S1201 of FIG. This processing is executed when the management device 102 receives a recovery notification from the terminal 101, and determines whether or not the terminal 101 is permitted to execute self-recovery processing based on the system operation plan information 1300.
  • FIG. 14 the restoration instruction permission determination process executed by the restoration instruction unit 140 of the management apparatus 102 will be described. Specifically, this corresponds to the processing executed in step S1201 of FIG. This processing is executed when the management device 102 receives a recovery notification from the terminal 101, and determines whether or not the terminal 101 is permitted to execute self-recovery processing based on the system operation plan information 1300.
  • FIG. 14 is a flowchart showing an example of restoration order permission determination processing by the management device 102 according to the third embodiment, and the details will be described below.
  • step S1401 the management device 102 determines whether the abnormal event detected by the terminal 101 that transmitted the restoration notification was caused by the planned shutdown of the communication system. Specifically, the restoration command unit 140 of the management device 102 refers to the system operation plan information 1300 of FIG. Determine whether it is
  • the recovery command unit 140 determines that the event occurred due to a planned shutdown. can.
  • step S1402. proceed to
  • Step S1402 is a process in which the recovery command unit 140 of the management device 102 determines that a recovery command is unnecessary and cancels the recovery command in response to the recovery notification.
  • step S1401 if the recovery command unit 140 can determine that the event is an abnormal event caused by a planned shutdown, self-recovery processing by the terminal 101 is unnecessary. Execution of self-recovery processing can be suppressed.
  • the recovery command unit 140 only cancels the recovery command.
  • the process of step S1402 ends, the process of FIG. 14 ends.
  • Step S1403 is a process for determining whether there is no problem if the recovery command unit 140 immediately executes the recovery process in the terminal 101 that transmitted the recovery notification.
  • the recovery command unit 140 of the management device 102 refers to the system operation plan information 1300 of FIG. judge.
  • step S1404 If it can be determined that the recovery process can be immediately executed on the terminal 101 (YES), the process proceeds to step S1404, and if it is necessary to suspend the execution as in the above example (NO), the process proceeds to step S1405.
  • step S1404 the recovery command unit 140 determines that the terminal 101 that sent the recovery notification may be permitted to immediately execute the recovery process, and transmits a recovery command to the terminal 101 concerned.
  • the recovery command unit 140 immediately transitions to the recovery command transmission process described in step S1202 of FIG. 12, and issues a recovery command to the terminal 101.
  • the process of step S1404 ends, the process of FIG. 14 ends.
  • step S1405 the recovery command unit 140 determines that it is necessary to suspend the execution of the recovery process by the terminal 101 that has transmitted the recovery notification. to the terminal 101 concerned.
  • the recovery command unit 140 refers to the system operation plan information 1300 in FIG. Then, a recovery command is issued to the terminal 101 .
  • the recovery command unit 140 since it is necessary to wait at least 15 minutes after receiving the recovery notification, the recovery command unit 140 performs recovery command transmission processing after 15 minutes.
  • step S1405 By suspending the transmission of the restoration command in step S1405, the terminal 101 can take self-restoration processing at an appropriate timing in terms of the operation plan of the communication system.
  • step S1405 of FIG. 14 the transmission of the recovery command is suspended until the recovery process becomes executable. 101 immediately, and the terminal 101 receiving the instruction may suspend the execution of the self-recovery process until a specified timing.
  • the management apparatus 102 determines whether or not the terminal 101 can execute the self-recovery process, thereby preventing unnecessary self-recovery from an abnormal event caused by an artificial planned shutdown of the communication system. In addition to suppressing the processing, it becomes possible to execute the restoration processing at a more appropriate timing for the operation plan of the communication system.
  • interfering with the operation of the communication system through self-recovery processing is putting the cart before the horse, and by executing recovery processing at a timing that is in line with the operation plan, it is possible to contribute to further improving the operation rate of the communication system.
  • the communication systems of the first to third embodiments can be configured as follows.
  • a communication system comprising one or more terminals (101) to be managed and a management device (102) connected to the terminals (101), wherein the terminal (101)
  • a log information management unit application program 116) that collects the log information of and transmits it to the management device (102); a self-failure analysis unit (118) that determines self-recovery processing when an abnormal event is detected; a self-recovery processing unit (120) that executes self-recovery processing or recovery processing commanded by the management device (102), wherein the management device (102) collects log information from the terminal (101).
  • a failure analysis unit (138) that analyzes the presence or absence of an abnormal event in the terminal (101) and determines recovery processing when the abnormal event is detected, and a terminal (101) from the terminal ( a recovery notification receiving unit (139) for receiving a notification of self-recovery processing for the abnormal event detected by the device 101); and a recovery instruction unit (140) that instructs the terminal (101) to
  • both the terminal and the management device 102 analyze an abnormal event that has occurred in the terminal 101 based on the log information of the terminal 101, so that self-analysis and restoration of the terminal 101 can detect failures early and prevent communication disconnection.
  • the management apparatus 102 can detect abnormal events that cannot be self-detected by the terminal 101 and recover the terminal 101 by means of analysis and recovery instructions.
  • the terminal 101 may redundantly execute the recovery processing. For example, assume that the terminal 101 and the management device 102 detect an abnormal event on the terminal 101 at approximately the same time. At this time, the terminal 101 performs self-restoration processing for the detected abnormal event, but the management device 102 instructs the terminal 101 to execute the restoration processing without knowing that self-restoration has been completed. As a result, the terminal 101 will execute redundant recovery processing again, and in the case of recovery by restarting, etc., the continuous operation of the terminal 101 will be hindered.
  • the management device 102 when the terminal 101 executes self-recovery processing, the management device 102 explicitly transmits a notification regarding the recovery processing to the management device 102, so that the management device 102 determines that a recovery command is unnecessary, Redundant execution of recovery processing can be avoided.
  • a management device (102) having a processor (CPU 132) and a memory (storage device 135) and connected to one or more terminals (101) to be managed, collecting data from the terminals (101)
  • a failure analysis unit (138) that analyzes the presence or absence of an abnormal event in the terminal (101) based on the log information obtained and determines recovery processing when the abnormal event is detected, and from the terminal (101) , a recovery notification receiving unit (139) for receiving a notification of self-recovery processing for an abnormal event detected by the terminal (101);
  • a management device (102) characterized by comprising a recovery instruction unit (140) that issues a process execution instruction to the terminal (101).
  • both the terminal and the management device 102 analyze an abnormal event that has occurred in the terminal 101 based on the log information of the terminal 101, so that self-analysis and restoration of the terminal 101 can detect failures early and prevent communication disconnection.
  • the management apparatus 102 can detect abnormal events that cannot be self-detected by the terminal 101 and recover the terminal 101 by means of analysis and recovery instructions.
  • the management device (102) comprising: a failure analysis condition management unit (141) for managing failure analysis conditions for the log information; An event determination condition management unit (142) that manages event determination conditions based on combinations, and a recovery processing management unit (143) that manages recovery processing to be performed for each abnormal event, and the failure analysis unit (
  • the terminal (138) analyzes the log information according to the failure analysis conditions of the failure analysis condition management unit (141), and analyzes the terminal (101) based on the analysis result and the event determination conditions of the event determination condition management unit (142).
  • the recovery process management unit (143) is referred to determine the recovery process for the error event, and the recovery command unit (140) causes the recovery notification reception unit (139) to A management device (102) that commands an execution command of the recovery process to the terminal (101) when a notification of the self-recovery process for the abnormal event is not received from the terminal (101).
  • the management apparatus 102 detects an abnormal event from the log information from the terminal 101, and if the notification regarding the restoration process has not been received from the terminal 101, the management apparatus 102 instructs the terminal 101 to execute the restoration process.
  • the terminal 101 can be restored by detecting an abnormal event that cannot be self-detected by the terminal 101 .
  • the failure analysis condition management unit (141) includes log information (reference information 202) referred to for each failure analysis condition and comparison criteria. a threshold value (205), a comparison condition (204) that defines a magnitude relationship with respect to the threshold value (205), a comparison method (203) that defines whether the threshold value (205) is treated as an absolute value or a relative value; A management device characterized in that it is possible to designate the number of times (matching number 206) that the log information matches the fault analysis condition.
  • the failure analysis condition management unit 141 of the management device 102 stores log information (reference information 202) to be referred to for each failure analysis condition, the threshold value 205 as a comparison standard, and the threshold value 205 in the failure analysis condition management table 141a.
  • a comparison method 203 that defines whether the threshold value 205 is treated as an absolute value or a relative value, and the number of times 206 that the log information matches the fault analysis condition can be specified. This makes it possible to set failure analysis conditions according to the environment of the terminal 101 .
  • recovery process management unit (143) includes a recovery process (recovery measure 403) to be taken for each abnormal event, and A management device characterized by being able to designate a waiting time (404) until execution of a restoration command.
  • the recovery process management unit 143 can specify the recovery measure 403 to be taken for each abnormal event and the waiting time 404 from the detection of the abnormal event to the execution of the recovery command in the recovery process management table 143a. It becomes possible to set a recovery process according to an abnormal event that may occur in the terminal 101 .
  • the failure analysis condition managed by the failure analysis condition management unit (141) and the event determination managed by the event determination condition management unit (142) an input unit (133) for inputting conditions and recovery processing managed by the recovery processing management unit (143); information on the abnormal event detected by the failure analysis unit (138); and an output unit (134) for outputting the processing.
  • the management device 102 can input failure analysis conditions, event determination conditions, and restoration processing through the input unit 133, and can output information on abnormal events and restoration processing for abnormal events through the output unit 114.
  • the failure analysis unit (138) detects that two or more of the terminals (101) meet predetermined failure analysis conditions. , a management device that determines an abnormal event that has occurred in the terminal (101).
  • the recovery command unit (140) responds to an abnormal event occurring in the terminal (101) to the terminal (101).
  • a management device that commands activation or deactivation of predetermined restoration processing.
  • the management device 102 enables/disables the self-recovery processing by the terminal 101 according to the detected abnormal event. It is possible to suppress the execution of processing.
  • the recovery command unit (140) receives the self-recovery process from the terminal (101) received by the recovery notification receiving unit (139).
  • a management device that determines whether or not the recovery process can be executed in response to the notification, and issues an execution command to the terminal (101) at a timing at which the recovery process can be executed.
  • the management device 102 determines whether or not the terminal 101 can execute self-recovery processing, thereby suppressing unnecessary self-recovery processing in response to an abnormal event caused by a planned artificial shutdown of the communication system.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above embodiments are described in detail for easy understanding of the present invention, and are not necessarily limited to include all the described configurations.
  • any addition, deletion, or replacement of other configurations for a part of the configuration of each embodiment can be applied singly or in combination.
  • each of the above configurations, functions, processing units, processing means, etc. may be implemented in hardware, for example, by designing a part or all of them in an integrated circuit. Further, each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function. Information such as programs, tables, and files that implement each function should be recorded in recording devices such as memory, hard disks, SSD (Solid State Drives), or recording media such as IC cards, SD cards, and DVDs. can be done.
  • control lines and information lines indicate what is considered necessary for explanation, and not all control lines and information lines are necessarily indicated on the product. In practice, it may be considered that almost all configurations are interconnected.
  • a terminal having a processor and a memory and connected to a management device, a log information management unit that collects log information of its own terminal and transmits it to the management device; a self-failure analysis unit that analyzes the presence or absence of an abnormal event in the terminal from the log information and determines self-recovery processing when the abnormal event is detected; a recovery notification transmission unit that notifies the management device of self-recovery processing for the abnormal event; a self-recovery processing unit that executes self-recovery processing for the abnormal event or recovery processing commanded by the management device; The terminal, wherein the restoration processing unit waits execution of the restoration processing until an execution command is received from the management apparatus after notifying the restoration processing via the restoration notification transmission unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

端末と接続される管理装置を含む通信システムであって、端末はログ情報を収集して管理装置へ送信するログ情報管理部と、ログ情報から端末における異常イベントの有無を解析して自己復旧処理を決定する自己障害解析部と、異常イベントに対する自己復旧処理を管理装置に通知する復旧通知送信部と、異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する自己復旧処理部と、を有し、管理装置は、端末から収集したログ情報を基に端末における異常イベントの有無を解析して復旧処理を決定する障害解析部と、端末から異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部と、通知の有無に応じて障害解析部で検知した異常イベントに対する復旧処理の実行命令を端末に指令する復旧命令部と、を有する。

Description

通信システム、管理装置及び端末 参照による取り込み
 本出願は、令和3年(2021年)12月17日に出願された日本出願である特願2021-205356の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、管理対象となる1以上の端末で発生した障害を解析し、当該障害に対する復旧処理を自動実行する手法に関する。
 近年、通信端末を介して工場等の現場装置に関するデータを収集し、現場装置の遠隔監視及び制御等を行うシステムが構築されている。一方、端末の増加や、システムの複雑化に伴い、障害発生時の解析、及び復旧工数の増大が課題となっており、障害解析及び復旧の自動化が求められている。
 本課題に対する解決策として、複数の端末を管理する管理装置を設け、端末から収集したログ情報を基に、管理装置が自動で障害解析を行い、復旧処理を講じる手法が存在する。しかし、障害により端末が通信の切断状態に陥り、管理装置が障害解析に必要なログ情報を収集できなくなった場合、管理装置は障害解析及び復旧処理が困難となる。
 また、通信帯域が狭い場合や、ログ情報の収集毎に通信料金が発生する場合、ログ情報の収集頻度を下げる必要があり、管理装置は障害発生から検知までに時間を要してしまうケースもある。
 そこで、管理装置ではなく、端末の自己解析により障害発生を検知し、復旧処理を講じる技術が存在する(例えば、特許文献1)。当該先行技術では、端末が管理装置から復旧方法の一覧を事前に取得し、自己解析によって異常を検知した際に、当該一覧を参照して復旧処理を実行する。
 当該先行技術によれば、端末が通信の切断状態に陥った場合でも、端末による通信切断の自己検知、及び自己復旧で通信を接続状態に復帰させることが可能になる。また、端末による自己解析は、管理装置に対するログ情報の送信を必要としないため、通信帯域や通信料金の増大を招くことなく、短周期で実行することが可能であり、早期の障害検知を実現できる。
国際公開第2017/135226号
 しかし、特許文献1では障害の解析を端末のみに委ねているため、端末が自己検知できない異常なイベントに対しては対応が困難である。例えば、管理装置から端末へのファームウェアの配信が失敗し、端末が誤って古いファームウェアを継続使用しているケースを想定する。
 この場合、本来適用されるべきファームウェアのバージョン情報は配信元である管理装置のみが把握しており、端末は自身に適用されているファームウェアが古いことを自己検知することはできない。このように、端末による自己検知が困難で、管理装置でしか検知できない異常も存在し、当該ケースへの対応も実現することが望ましい。
 本発明は、上記課題に鑑みてなされたものであり、端末の自己障害解析及び自己復旧により、通信の切断状態からの自己復旧や、障害の早期検知を実現することに加え、端末では自己検知できない異常イベントにも対応し、復旧可能にすることを目的としている。
 本発明は、管理対象となる1以上の端末と、前記端末と接続される管理装置からなる通信システムであって、前記端末は、自端末のログ情報を収集して、前記管理装置へ送信するログ情報管理部と、前記ログ情報から当該端末における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する自己障害解析部と、前記異常イベントに対する自己復旧処理を前記管理装置に通知する復旧通知送信部と、前記異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する自己復旧処理部と、を有し、前記管理装置は、前記端末から収集したログ情報を基に、前記端末における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する障害解析部と、前記端末から当該端末が検知した異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部と、前記通知の有無に応じて前記障害解析部で検知した異常イベントに対する復旧処理の実行命令を前記端末に指令する復旧命令部と、を有する。
 本発明によれば、端末で発生した異常イベントを、端末のログ情報を基に端末と管理装置の双方で解析することで、端末の自己解析及び復旧により障害の早期検知や、通信切断状態からの自己復旧を実現することに加え、管理装置による解析及び復旧命令で、端末では自己検知できない異常イベントも検知して端末を復旧させることが可能となる。
 本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。
実施例1における通信システムの構成及び管理装置と端末のハードウェア構成を説明するブロック図である。 実施例1における管理装置と端末の障害解析条件管理テーブルの一例を示す図である。 実施例1における管理装置と端末のイベント判定条件管理テーブルの一例を示す図である。 実施例1における管理装置と端末の復旧処理管理テーブルの一例を示す図である。 実施例1における管理装置と端末による障害解析と復旧の流れを示すシーケンス図で、端末による自己復旧の例を示す。 実施例1における管理装置と端末による障害解析と復旧の流れを示すシーケンス図で、管理装置による復旧命令の例を示す。 実施例1における管理装置による障害解析処理、及び端末による自己障害解析処理の一例を示すフローチャートである。 実施例1における管理装置による復旧命令の要否判定処理の一例を示すフローチャートである。 実施例1における各種テーブルを設定するための画面表示の例を示す説明図である。 実施例1における障害検知と復旧情報に関する画面表示例を示す説明図である。 実施例2における管理装置の障害解析条件管理テーブルの一例を示す図である。 実施例2における管理装置のイベント判定条件管理テーブルの一例を示す図である。 実施例2における管理装置の復旧処理管理テーブルの一例を示す図である。 実施例2における端末の復旧処理管理テーブルの一例を示す図である。 実施例3における管理装置と端末による障害解析と復旧の流れを示すシーケンス図である。 実施例3における管理装置が保持するシステム運用計画情報の一例を示す説明図である。 実施例3における管理装置による復旧命令許可判定処理の一例を示すフローチャートである。
 まず、発明の原理(概要)について説明する。
 端末と管理装置は、障害解析条件管理部にてログ情報に対する障害解析条件一覧を各々で管理する。また、イベント判定条件管理部にて、一致した障害解析条件の組み合わせに基づくイベント判定条件一覧、さらに復旧処理管理部にて、イベント毎に講じるべき復旧処理一覧を管理する。
 端末と管理装置は、これらの管理情報に基づき、端末上で発生した異常イベントをそれぞれ解析し、当該イベントに対して講じるべき復旧処理を決定する。端末は、自己障害解析部にて前記障害解析条件管理部を参照し、条件毎に自端末内のログ情報に対する解析を実行して、ログ情報に合致した障害解析条件を抽出する。
 続いて、端末は、前記イベント判定条件管理部を参照し、合致した障害解析条件の組み合わせを基に、自端末内で発生した異常イベントを検知する。そして、端末は復旧処理管理部を参照し、当該異常イベントに対する自己復旧処理、ならびに管理装置に対する通知内容を決定する。
 その後、端末は復旧通知送信部にて、前記復旧処理実行に関する通知を管理装置宛に送信し、自己復旧処理部にて復旧処理を実行することで、異常状態からの自己復旧を実現する。
 また、管理装置も同様に、障害解析部にて前記障害解析条件管理部を参照して、端末から収集したログ情報に対する解析を実行し、合致した障害解析条件を抽出する。続いて、管理装置は前記イベント判定条件管理部を参照し、合致した障害解析条件の組み合わせを基に、当該端末で発生した異常イベントを検知する。
 そして、管理装置は復旧処理管理部を参照し、当該異常イベントに対する復旧処理を決定する。その後、管理装置は復旧通知受信部にて当該端末からの復旧通知を受信できない場合に、復旧処理の実行命令を当該端末へ送信し、異常状態からの復旧を実現する。一方、当該端末から復旧通知を受信した場合は、復旧処理の実行命令をキャンセルし、端末における冗長な復旧処理実行を回避する。
 このように端末と管理装置の双方で、端末上で発生した異常イベントを解析し、復旧処理を講じることにより、端末による早期障害検知及び自己復旧を実現することに加え、古いファームウェアの継続使用や設定ミスなど、管理装置でしか検知できない異常状態も検知し、自動的に復旧及び是正を講じることができる。特に、端末と管理装置の一方でしか検知できない異常イベントに対する障害解析条件やイベント判定条件、復旧処理も管理情報として登録しておくことで、様々な異常状態から復旧することが可能となる。また、端末から管理装置へ復旧処理に関する通知を送信させることで、冗長な復旧処理を抑止することも可能となる。
 以下、実施例について、図面を参照して説明する。尚、以下に説明する実施例は特許請求の範囲に係る発明を限定するものではなく、また実施例の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
 以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報はどのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」とすることができる。
 以下に、本発明の障害解析及び復旧方法に係る実施例を図1~図14を用いて説明する。実施例1を図1~図10を用いて説明し、実施例2を図11を用いて説明し、実施例3を図12~図14を用いて説明する。
 実施例1では、端末と管理装置による障害解析及び復旧処理について基本形を説明する。まず、図1を用いて通信システムの構成、及び端末と管理装置の構成を説明する。次に、図2~図4を用いて端末と管理装置が管理するテーブル情報を説明する。その後、図5~図8を用いて端末と管理装置による障害解析及び復旧処理の流れを説明し、図9と図10で各種テーブル情報の入力、及び障害検知及び復旧情報に関する解析結果を出力する画面表示の例を説明する。
 図1を参照して、実施例1における通信システムの構成、及び端末と管理装置のハードウェア構成を説明する。図1の通信システムは、管理対象となる1台以上の端末101(101-a~101-b)と、管理装置102とネットワーク150を含んで構成される。尚、以下の説明では端末101-a~101-bを個々に特定しない場合には「-」以降を省略した符号「101」を用いる。
 端末101と管理装置102は有線通信と無線通信の何れか、或いは両方を含むネットワーク150で接続されており、端末101は設置現場から取得したデータや、自端末の稼働情報等を記録したログ情報を管理装置102へ送信する。
 また、端末101は、該ログ情報を基に、自端末内で発生した異常イベントの有無を定期的に自己解析し、異常イベントの検知時には自己復旧処理を決定し、当該自己復旧処理に関する通知を管理装置102宛に送信した後、自己復旧処理を実行する。
 管理装置102は、端末101からの受信データを活用したサービスを提供する他、端末101の障害管理を担う。具体的には、管理装置102が各端末101から収集したログ情報を基に端末101における異常イベントの有無を定期的に解析し、異常を検知した場合は復旧処理を決定する。
 その後、管理装置102は、障害が発生した端末101からの自己復旧処理に関する通知の有無を判定し、通知が受信されてない場合には、該当する端末101に対して前記復旧処理の実行を命令する。
 尚、図1では、1台の管理装置102が受信データを活用したサービス提供と、端末101の障害管理の両方を担う構成を例示しているが、例えば前者のサービス提供のみを担う管理装置102と、後者の障害管理のみを担う管理装置102に分ける構成などであっても構わない。また、管理装置102は、端末101と同一の現場に設置する他、クラウド上など別拠点に設置する構成でも構わない。
 次に、端末101のハードウェア構成を説明する。端末101は、前述の通り現場から取得したデータや、自端末のログ情報等をパケットに格納して管理装置102へ送信するものであり、管理装置102との通信機能を有する計算機である。
 端末101は、取得するデータの種類に応じて種々の構成を有する。例えば、現場に存在する他の装置からデータを集約して送信するだけでなく、端末101自身も現場の温度を計測する場合は通信機能を有する温度計測端末、現場の映像を取得する場合は通信機能を有するカメラ端末などであってもよい。
 図1において、端末101は通信I/F111と、CPU112、入力部113、出力部114、記憶装置115から構成されている。通信I/F111は、例えば無線通信を介して管理装置102とパケットの送受信を行う場合、デジタル信号と無線信号とを相互に変換し、生成したデジタルデータを無線信号に変換して送信する送信部と、受信した無線信号からデジタルデータを取り出す受信部から構成される。
 また、例えば端末101が管理装置102だけでなく、現場に存在する他の装置ともパケットの送受信を行う場合や、管理装置102と複数の通信手段を介してパケットの送受信を行う場合、複数の通信I/F111を搭載する形態であっても構わない。
 これらの通信手段はLTEや、Ethernet、WiFi、光回線など任意のものとする。CPU112は、記憶装置115に格納されている各種コンピュータプログラムを実行し、これにより端末101の有する各種機能が実現される。
 入力部113は、例えばキーボードやマウス或いはタッチパネルなどから構成され、作業者が各種操作や設定を入力するために用いられる。出力部114は、例えば液晶ディスプレイモニタなどから構成され、設定画面や各種処理の結果を表示する。ただし、別の外部機器から端末101へリモートログインを行う形態など、通信I/F111を介して外部機器からの入力情報の受け付けや、外部機器への出力情報の提供を行う場合は、入力部113と出力部114の搭載は必須ではない。
 記憶装置115は、例えば読み出し専用の半導体メモリなどから構成される記憶装置と、書き換え可能な半導体メモリ素子などから構成される記憶装置を含み、各種処理を実現するコンピュータプログラムや、取得したデータなどを格納する。
 アプリケーションプログラム116では、収集するデータの取得方法や送信スケジュールなどの各種設定が管理され、内部バスを介して接続されたCPU112により取得処理や、通信処理部117への送信命令が実行される。例えば、管理装置102に対して送信するログ情報の取得方法や、ログ情報の送信スケジュールなどもアプリケーションプログラム116で管理される。
 尚、アプリケーションプログラム116は、収集したログ情報をログバッファ300へ格納し、所定のタイミングで管理装置102へログ情報を送信する。ログ情報としては、端末101の状態や端末101に接続されたセンサの測定値等の取得情報と、タイムスタンプと端末101の識別子を含むことができる。尚、アプリケーションプログラム116は、ログ情報を収集し、所定のタイミングでログ情報を管理装置102へ送信するログ情報管理部として機能することができる。
 通信処理部117は、通信における送受信処理を実現するものである。具体的には、送信する際のパケットの組立て処理や、受信する際の自端末宛のパケットか否かの判定等を始めとした、パケットの解析処理を行う。
 自己障害解析部118では、自端末のログバッファ300からログ情報を参照して、自端末内の異常イベントの有無を定期的に解析する。また、自己障害解析部118は異常イベントを検知した場合は、講じるべき自己復旧処理と、管理装置102に対する通知内容を決定する。自己障害解析部118の処理内容については、後述の図7にて詳述する。
 復旧通知送信部119は、自己障害解析部118で検知した異常イベントに対する自己復旧処理を実行する前に、管理装置102宛に自己障害解析部118で決定した通知内容(復旧通知)を送信する。具体的には、復旧通知送信部119が通信処理部117に通知内容を出力し、送信処理を実行する。
 自己復旧処理部120は、自己障害解析部118で決定した自己復旧処理を実行する。尚、自己復旧処理の内容は、通信I/F111の再起動や、端末本体の再起動、ファームウェアの更新の実行など予め設定された処理であり、特定の処理に限定されるものではない。
 障害解析条件管理部121は、ログ情報に対する解析規則を定義した障害解析条件を管理する。具体的には、図2で後述する障害解析条件管理テーブル121aを管理する。
 イベント判定条件管理部122は、障害解析条件管理テーブル121aに合致した障害解析条件の組み合わせに対して、どのイベントを検知するかを定義したイベント判定条件を管理する。具体的には、図3で後述するイベント判定条件管理テーブル122aを管理する。
 復旧処理管理部123は、検知された異常イベント毎に講じるべき復旧処理や、管理装置102に対する通知内容を管理する。具体的には、図4で管理する復旧処理管理テーブル123aを管理する。
 尚、端末101は独立した装置である他、組み込み機器であってもよい。また、端末101は前述の通り、取得する現場データの種類に応じて構成が様々であり、例えば温度センサやカメラモジュール或いは加速度センサなども含む構成であって構わない。
 通信処理部117、自己障害解析部118、復旧通知送信部119、自己復旧処理部120、障害解析条件管理部121、イベント判定条件管理部122、復旧処理管理部123の各機能部は、プログラムとして記憶装置115にロードされてCPU112によって実行される。
 CPU112は、各機能部のプログラムに従って処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、CPU112は、自己障害解析プログラムに従って処理を実行することで自己障害解析部118として機能する。他のプログラムについても同様である。さらに、CPU112は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
 続いて、管理装置102のハードウェア構成を説明する。管理装置102は、通信I/F131と、CPU132、入力部133、出力部134、記憶装置135、通信処理部137、障害解析条件管理部141、イベント判定条件管理部142、復旧処理管理部143を含みこれらの構成要素は前述の端末101の構成要素と同様である。
 図1において、前述の端末101と同様に、別の外部機器から管理装置102へリモートログインを行う形態など、通信I/F131を介して外部機器からの入力情報の受け付けや、外部機器への出力情報の提供を行う場合は、入力部133と出力部134の搭載は必須ではない。
 また、アプリケーションプログラム136は、端末101から収集したデータやログ情報を活用したサービスをユーザに提供するプログラムである。アプリケーションプログラム136が、例えば、端末101から受信した現場データ(温度等)の単位時間当たりの平均値を提供するプログラムの場合、収集したデータの値から平均値を算出するなど、データの解析処理等を行う。
 その他、端末101におけるデータやログ情報の送信スケジュールを遠隔設定及び管理するプログラム等を有する場合も、当該アプリケーションプログラム136に含まれる。尚、アプリケーションプログラム136は、各端末101から収集したログ情報をログ蓄積情報200に格納する。また、通信システムの計画停止時刻など、運用計画情報を管理する場合も当該アプリケーションプログラム136に含まれる。アプリケーションプログラム136は、当該運用計画情報をシステム運用計画情報1300に格納して管理する。ただし、本実施例において当該運用計画情報の格納・管理は必須ではない。当該運用計画情報を活用する実施例については、実施例3で後述する。
 障害解析部138は、端末101から収集したログ蓄積情報200のログ情報を管理し、当該ログ情報を解析して各端末101における異常イベントの有無を解析する以外は、前述の端末101が有する自己障害解析部118と同様である。
 障害解析部138は、収集したログ蓄積情報200のログ情報の解析により、各端末101で発生した異常イベントの有無を定期的に判定し、異常イベントを検知した際には講じるべき復旧処理を決定する。障害解析部138の処理内容については、後述の図7にて詳述する。
 復旧通知受信部139では、各端末101から受信した、自己復旧処理に関する通知を管理する。具体的には、通信処理部137で受信パケットを解析した結果、当該パケットが自己復旧処理に関する通知であった場合、復旧通知受信部139に通知され、復旧通知受信部139はどの端末101から、どのような通知内容を受信したかを記録する。
 復旧命令部140では、障害解析部138で決定した復旧処理の実行を、異常発生元の端末101に対して命令する。このとき、復旧命令部140は復旧通知受信部139を参照し、当該端末101からの自己復旧処理に関する復旧通知の有無に応じて命令の要否を判定する。
 復旧命令部140は障害が発生した端末101から自己復旧処理に関する通知を未受信であれば、復旧処理の実行命令(以下、復旧命令)を該当の端末101に送信する。具体的には、通信処理部137に復旧命令を通知して、当該復旧命令を当該端末101へ送信させる。
 一方、障害が発生した端末101から前記通知を受信済みであれば復旧命令部140は復旧命令をキャンセルし、破棄することで、冗長な復旧命令を回避する。本処理の詳細は、図8にて後述する。
 尚、管理装置102は前述の通り、図1における全ての構成を1台の管理装置102に含む、複数台の管理装置102に分離して構成する形態であっても構わない。そのため、図1に示す構成を、1台の管理装置102に全てを含むことは必須ではない。
 図2を参照して、端末101の障害解析条件管理部121、及び管理装置102の障害解析条件管理部141で管理する障害解析条件管理テーブル121a、141aについて説明する。
 障害解析条件管理テーブル121a、141aは、端末101の各種ログ情報に対する解析規則を定義した障害解析条件を管理するもので、図2は実施例1における障害解析条件管理テーブルの構成図を示している。
 解析条件ID201は、障害解析条件の識別子を示しており、障害解析条件毎にユニークな識別子を設定する。このフィールドに記載する識別子は、任意の形式であって構わない。図2に例示の通り、参照するログ情報の種別を識別子として文字列で表現する他、「No.1、No.2、…」などの連番で識別子を定義する形態であっても構わない。
 参照情報202は、端末101のログ情報のうち、当該障害解析条件において参照するログ情報の種別を示している。図2の例では、「LTE接続状態」など人間が解釈しやすい文字列の形式でログ情報種別を記載しているが、本記載の形式は任意である。例えば、端末101の各レジスタに個々のログ情報が格納されており、レジスタ値をログ情報種別として代用できる場合は、当該レジスタ値を参照情報202に記載しても構わない。
 比較方法203は、後述の閾値205に記載の値を、「絶対値」として比較するか、前回参照値からの「相対値」(変化量)として比較するかを示している。例えば、図2に例示する障害解析条件管理テーブルのうち、「障害解析条件ID:CpuRatio」の行に登録された障害解析条件において、比較方法203に「絶対値」を登録した場合は、現在の端末101のCPU使用率が95%(0.95)以上であるかを判定し、「相対値」を登録した場合は、現在のCPU使用率が前回参照値から95%以上増加しているかを判定する。
 このように、比較方法203で指定する比較方法を適切に設定することで、様々な障害解析条件を柔軟に定義することを可能にしている。尚、図2では比較方法203の選択肢として、「絶対値」と「相対値」の2パターンを例示しているが、他にも過去N回(Nは1以上の整数)の参照値に対する「平均値」、「最大値」、「最小値」など、任意の比較方法を追加しても構わない。
 比較条件204は、後述の閾値205に対する大小関係を規定する比較条件を示している。具体的には、「=、≧、>、<、≦、≠」などの比較演算子を登録するフィールドである。ただし、比較演算子に限らず、「一致」や「以上」など文字列で大小関係を定義する形態であっても構わない。
 閾値205は、参照情報202で指定したログ情報に対する比較基準値を示している。ただし、閾値205における記載形式は数値に限らず、文字列であっても構わない。例えば、図2に例示のように、端末101において「LTE接続状態」を「0」や「1」の数値ではなく、「切断」や「接続」などの文字列で表現する場合は、閾値205に「切断」という文字列を指定する。
 閾値205に文字列を登録する場合、多くの場合、比較条件204に登録される比較演算子は「=(一致)」、「≠(不一致)」の何れかとなるが、「前方一致」や「後方一致」など任意の比較条件を追加しても構わない。
 合致回数206は、参照情報202で指定したログ情報種別に対して、比較方法203、比較条件204、閾値205で指定した解析条件を、連続で何回満たした場合に条件合致と見なすかを示している。
 例えば、瞬時的なLTE切断だけで過剰に異常を検知することを避けたい場合は、図2の「障害解析条件ID:LteState」の行に記載の通り、合致回数206を「3」などに設定することで対応できる。この場合、連続3回以上に亘って、「LTE接続状態」が「0(切断)」であることを検知しない限り、「障害解析条件ID:LteState」は合致判定が下されないため、一定期間のLTE切断を以って、異常を検知することが可能となる。
 尚、障害解析条件管理テーブル121a、141aは、端末101と管理装置102の双方で管理するが、各々に登録する障害解析条件の内容は異なっていても構わない。例えば、図2に例示のテーブルのうち、「障害解析条件ID:FirmVer」の行では、端末101に適用されているファームウェアバージョンが14.01未満であるかを解析する障害解析条件を例示しているが、一般的に最新のファームウェアバージョン情報は管理装置102のみが管理するケースが多い。
 最新のファームウェアバージョンが更新された場合、管理装置102は閾値205の設定値を、例えば「14.01」から「15.00」などに更新することが可能であるが、端末101は明示的に管理装置102から指示されない限り、障害解析条件管理テーブル121aを管理装置102と同様に更新することは困難である。
 そのため、「障害解析条件ID:FirmVer」に関する障害解析条件は、管理装置102の障害解析条件管理部141でのみ登録し、端末101には登録しないことで、端末101における障害解析処理の負荷を軽減することが可能となる。また、同一のログ情報に対して、端末101と管理装置102で異なる閾値205や合致回数206を指定してもよい。
 例えば、端末101が3分以上に亘ってLTE切断状態に陥った場合に、異常を検知したいケースを想定する。このとき、端末101の自己障害解析部118による自己解析周期を1分、管理装置102の障害解析部138による解析周期を1分30秒とした場合、端末101の「障害解析条件ID:LteState」に対する合致回数206を「3」(=3分÷1分)、管理装置102における合致回数206を「2」(=3分÷1分30秒)とすることなどが考えられる。
 このように、端末101と管理装置102で管理する障害解析条件管理テーブル121a、141aに各々適切な障害解析条件を定義することで、柔軟に端末101で発生した異常を検知することが可能となる。特に、端末101又は管理装置102の一方でしか検知できない異常に関する障害解析条件も登録することで、様々な障害や異常を検知することが可能となる。
 図3を参照して、端末101のイベント判定条件管理部122、及び管理装置102のイベント判定条件管理部142で管理するイベント判定条件管理テーブル122a、142aについて説明する。
 イベント判定条件管理テーブル122a、142aは、前記障害解析条件毎の合致判定結果を基に、どのイベントを異常イベントとして検知すべきかを定義したイベント判定条件を管理するものである。図3は実施例1におけるイベント判定条件管理テーブル122a、142aの構成図を示している。
 イベントID301は、検知する異常イベント種別を区別するための識別子を示しており、イベント毎にユニークな識別子を登録する。当該識別子の命名規則は任意であり、図3の例では「LteDisconn(LTE切断)」のような可読性を優先した表記を採用しているが、例えば「event01、event02、…」などの連番で、識別子を表記しても構わない。
 合致条件(1)302、合致条件(2)303、合致条件(3)304は、イベントID301で指定した異常イベントの検知において、合致すべき障害解析条件の識別子を示している。
 当該フィールドには、図2の障害解析条件管理テーブル121a、141aの解析条件ID201に記載した識別子の何れかを登録する。尚、図3の「イベントID:LackRxCapability(負荷上昇による受信能力不足)」の行に例示の通り、単一のイベントに対して複数の障害解析条件IDを指定しても構わない。
 本ケースでは、これらの障害解析条件の全てに合致した場合のみ、当該異常イベントを検知する。図3の例では、図2の「障害解析条件ID:CpuRatio(95%以上のCPU使用率を3回連続検知)」と、「障害解析条件ID:PacketDrop(パケットドロップ数の増加量が3回連続で300パケットを超過)」の両方を満たした場合に、端末101における「負荷上昇による受信能力不足」を異常イベントとして検知する。
 尚、単一の障害解析条件の合致を以って、複数の異常イベントを検知したい場合は、複数の異常イベントに対して同一の障害解析条件IDを登録することで検知可能となる。このように、各異常イベントに対して単一又は複数の障害解析条件IDを登録可能にすることで、複雑かつ多様な異常イベントを検知することが可能である。図3の例では、合致条件(1)~合致条件(3)の計3つの合致条件フィールドを記載しているが、当該フィールド数は任意に変更して構わない。
 尚、イベント判定条件管理テーブル122a、142aは、端末101と管理装置102の双方で管理するが、各々に登録するイベント判定条件の内容は異なっていても構わない。
 例えば、前述の通り、端末101が自身に適用されているファームウェアバージョンが古いことを自己検知することが困難なケースを想定する。この場合、図3の「イベントID:OldFirm(古いファームウェア適用)」に関するイベント判定条件を、端末101には登録せず、管理装置102のイベント判定条件管理部142のみに登録する形態などが考えられる。
 図4を参照して、端末101の復旧処理管理部123、及び管理装置102の復旧処理管理部143で管理する復旧処理管理テーブル123a、143aについて説明する。復旧処理管理テーブル123a、143aは、異常イベント毎に講じるべき復旧処理を管理するものであり、図4は実施例1における復旧処理管理テーブル123a、143aの構成図を示している。
 イベントID401は、異常イベントの種別を区別するための識別子を示している。図3のイベント判定条件管理テーブルのイベントID301と同様であり、記載形式は図3のイベントID301に準拠する。
 通知メッセージ402は、端末101がイベントID401に記載の異常イベントを検知した際に、管理装置102宛に送信する通知内容を示している。図4の例では、復旧処理内容を示す文字列(例:LteReboot(LTEに関する通信I/F再起動))と、検知したイベントID(例:LteDisconn(LTE切断))の組み合わせを通知するよう登録しているが、本通知内容は任意の形式であって構わない。
 ただし、管理装置102が本通知を受信した際に、通知元の端末101がどのような自己復旧処理を実行するのか、或いはどのような異常イベントを検知したのかを判別できるような形式であることが望ましい。尚、通知メッセージ402のフィールドは、管理装置102が管理する復旧処理管理テーブルにおいては空欄とする他、省略しても構わない。
 復旧施策403は、端末101や管理装置102がイベントID401に記載の異常イベントを検知した際に、講じるべき復旧処理を示している。端末101がイベントID401に記載の異常イベントを検知した場合は、復旧施策403に登録された自己復旧処理を自己復旧処理部120にて実行する。
 また、管理装置102が異常イベントを検知した場合は、復旧施策403に登録された復旧処理の実行命令を、復旧命令部140より対象の端末101宛に送信する。尚、図4の例では、「通信I/F再起動(LTE)」など可読性を優先した形式で復旧処理を記載しているが、復旧施策403への記載形式は復旧処理を識別可能な形式であれば、任意の形式であって構わない。
 例えば、復旧処理の実行に必要なコマンドを、復旧施策403に直接記載する形態であってもよい。また、図4の例では、各異常イベントに対して単一の復旧処理しか記載していないが、複数の復旧処理を実行する必要がある場合は、復旧施策403に複数の復旧処理を記載し、必要に応じて実行順序などの情報を追記しても構わない。
 待ち時間404は、イベントID401に記載の異常イベントを検知した際に、復旧施策403の復旧処理を講じるまでの待ち時間を示している。端末101がイベントID401に記載の異常イベントを検知した場合は、当該異常イベントの検知から待ち時間404に記載された時間だけ待機した後に、復旧施策403に記載の自己復旧処理を実行する。
 一方、管理装置102が異常イベントを検知した場合は、当該異常イベントの検知から待ち時間404に記載された時間だけ待機した後に、復旧施策403に記載された復旧処理の実行命令を、復旧命令部140より端末101へ送信する。
 例えば、端末101の再起動等の復旧処理を実行することで、他の現場装置からのデータ収集が中断される場合もあり、異常イベントの検知直後に、これらのシステム停止を招く復旧処理を実行されると不都合なケースも想定される。
 このような場合、待ち時間404に復旧処理を講じるまでの待ち時間を適宜設定することで、システム停止までの時間の猶予を設け、停止に向けた準備などを事前に行うことが可能となる。勿論、異常イベントの検知直後に即時復旧処理を講じる必要がある場合は、待ち時間404を「0分」に設定しても構わない。また、図4の例では待ち時間404を分単位で指定しているが、時間の単位は任意に変更して構わない。
 尚、復旧処理管理テーブル123a、143aは、端末101と管理装置102の双方で管理するが、各々に登録する当該テーブルの内容は異なっていても構わない。例えば、管理装置102における待ち時間404の値を、端末101に設定する待ち時間よりも長く設定することなどが考えられる。
 これにより、管理装置102での異常イベントの検知から復旧命令送信までの時間猶予が長く設けられるため、端末101からの自己復旧処理に関する通知受信をより長い時間待機することが可能となり、冗長な復旧命令の発生確率を低減することができる。
 また、図4に例示したフィールド以外にも、任意のフィールドを追加しても構わない。例えば、複数の異常イベントを同時検知した場合に備えて、優先して講じるべき復旧処理を明確化するために、優先順位などのフィールドを追加してもよい。
 尚、図2の障害解析条件管理テーブル121a、141a、図3のイベント判定条件管理テーブル122a,142a、図4の復旧処理管理テーブル123a、143aの登録は、システム構築段階で行う他、システム運用中の任意のタイミングで登録又は変更しても構わない。これらの登録又は変更に係る画面表示例については、図9にて後述する。
 また、図3のイベント判定条件管理テーブル122a,142aと、図4の復旧処理管理テーブル123a、143aを分けて例示したが、当該2つのテーブルを統合し、異常イベント毎の判定条件と復旧処理を纏めて、一つのテーブルで管理する形態であっても構わない。
 この場合、端末101のイベント判定条件管理部122と復旧処理管理部123、ならびに管理装置102のイベント判定条件管理部142と復旧処理管理部143を統合することも可能である。
 図5を参照して、端末101と管理装置102による障害解析及び復旧処理の流れについて説明する。図5では、端末101の自己障害解析及び自己復旧処理により、障害からの復旧を実現するケースを例示しており、以下詳細を説明する。
 図5のステップS501a、S501b、S501cは、端末101が各種ログ情報を管理装置102へ送信する処理である。送信するログ情報の種別は、少なくとも図2の障害解析条件管理テーブルの参照情報202に記載されたログ情報を含むものとする。ただし、参照情報202に記載されていないログ情報を含めて送信しても構わない。
 端末101は、アプリケーションプログラム116で管理される方法に従って自端末のログ情報を取得し、一旦ログバッファ300へ格納した後に、同じくアプリケーションプログラム116で管理される送信スケジュールに沿って、通信処理部117を介して管理装置102へのログ情報の送信を実行する。
 図5に例示の通り、例えば、所定のログ送信周期ΔTの時間間隔でログ情報の送信を実行するよう、アプリケーションプログラム116で規定されている場合、アプリケーションプログラム116はステップS501aでログ情報を送信した後、ログ送信周期ΔTが経過したステップS501bで再びログ情報の送信を行う。
 ステップS502a、S502b、S502cは、端末101の自己障害解析部118が、自端末のログ情報を基に自端末における異常イベントの有無を自己解析し、異常イベントが検知された場合に、講じるべき自己復旧処理と、管理装置102への通知内容を決定する処理である。
 ステップS502a、S502b、S502cの自己障害解析処理の詳細については、図7で後述する。尚、ステップS502a、S502b、S502cの自己障害解析処理の実行タイミングは、端末101の自己障害解析部118で管理するものとし、例えば図5に例示の通り、所定の自己障害解析周期Δt1の時間間隔で実行される。
 自己障害解析部118は自己障害解析処理により、異常イベントが検知されなかった場合(例:ステップS502a、S502b)は自己障害解析周期Δt1だけ経過した後に、再び自己障害解析処理を実行する。一方、自己障害解析部118は、異常イベントを検知した場合(例:ステップS502c)は、本ステップで管理装置102宛の通知内容と、実行すべき自己復旧処理を決定し、後述のステップS504、S505の処理を実行する。
 ステップS503a、S503b、S503cは、管理装置102の障害解析部138が、端末101から収集したログ蓄積情報200のログ情報を基に端末101における異常イベントの有無を解析し、異常イベントが検知された場合に、端末101へ命令すべき復旧処理を決定する処理である。
 ステップS503a~503cの障害解析処理の詳細についても、図7で後述する。尚、ステップS503a~503cの障害解析処理の実行タイミングは、管理装置102の障害解析部138で管理するものとし、例えば図5に例示の通り、障害解析周期Δt2の時間間隔で実行される。
 障害解析部138は障害解析処理により、端末101の異常イベントが検知されなかった場合(例:ステップS503a、S503b)は障害解析周期Δt2だけ経過した後に、再び障害解析処理を実行し、異常イベントが検知された場合(例:ステップS503c)は後述のステップS506の処理を実行する。
 尚、図5に例示の通り、ステップS501の端末101によるログ送信周期ΔT、ステップS502の端末101による自己障害解析周期Δt1、ステップS503の管理装置102による障害解析周期Δt2は、各々異なる周期を設定しても構わない。
 特に、端末101と管理装置102の間の通信帯域が狭い場合や、ログ情報の送信に通信料金が伴う場合は、ログ送信周期ΔTを長めに設定する必要があり、付随して管理装置102による障害解析周期Δt2も長めに設定せざるを得ないケースもある。
 一方、端末101による自己障害解析周期Δt1は、通信帯域や通信料金に関わらず、短く設定することが可能である。特に、自己障害解析周期Δt1を短く設定することで、管理装置102でのみ障害解析処理を実行する形態と比較して、障害発生から検知までに要する時間を短縮することが可能となる。
 尚、図5では説明の便宜上、ステップS501a~S503cの各処理を定周期で実行する形態のみを例示したが、これらを指定時刻に実行する形態などであっても構わない。例えば、毎日12時と18時に管理装置102による障害解析処理を実行するなどの設定も可能であり、ステップS501a~S503cの実行スケジュールは任意に設定して構わない。
 ステップS504は、端末101の復旧通知送信部119が、自己復旧処理に関する通知を管理装置102宛に送信する処理である。当該通知は、ステップS502cで自己障害解析部118が異常イベントを検知した際に決定した通知内容であり、具体的には復旧処理管理部123で管理される図4の復旧処理管理テーブルにおいて、通知メッセージ402に記載の通知内容に該当する。
 本処理では、復旧通知送信部119が、当該通知内容を通信処理部117に通知し、当該通知内容を格納したパケットを管理装置102宛に送信する。一方、管理装置102は当該通知を受信すると、通信処理部137にてパケットの解析を行い、どの端末101が通知を送信し、どのような異常イベントを検知したのか、或いはどのような復旧処理を講じるのか、といった通知内容を復旧通知受信部139に通知し、当該通知内容を記録する。
 尚、ステップS504の復旧通知送信処理は、ステップS502cでの異常イベントの検知後に実行されるが、検知直後に復旧通知を送信する他、図4の復旧処理管理テーブルにおける待ち時間404の指定時間だけ、復旧通知送信部119で通知の送信を保留(遅延)し、後述のステップS505で自己復旧処理を実行する直前に送信する形態であっても構わない。
 ステップS505は、端末101の自己復旧処理部120が、ステップS502cで異常イベントを検知した際に決定した自己復旧処理を実行する処理である。具体的には復旧処理管理部123で管理される図4の復旧処理管理テーブル123a、143aにおいて、復旧施策403に記載の復旧処理を実行する。
 ステップS502cでの異常イベントの検知から、復旧処理管理テーブル123a、143aの待ち時間404に記載された待ち時間が経過したタイミングで、自己復旧処理部120は当該復旧処理を実行する。これにより、端末101は検知した異常イベントからの自己復旧を実現することができる。
 ステップS506は、管理装置102の復旧命令部140が、ステップS503cで決定した復旧処理を、異常発生元の端末101に対して命令する必要があるか、命令の発行の要否を判定する処理である。
 当該復旧命令処理は、ステップS503cでの異常イベントの検知から、復旧処理管理部143で管理される図4の復旧処理管理テーブルにおける待ち時間404で指定した時間が経過したタイミングで実行される。
 当該復旧命令処理では、復旧命令部140が復旧通知受信部139を参照し、ステップS504で述べた復旧通知を当該端末101から受信済みであるかを判定し、受信済みであれば後述のステップS507に進んで復旧命令をキャンセルする。
 復旧通知が未受信であれば図6で後述するステップS601の処理に進み、復旧命令部140は前記復旧命令の内容を通信処理部137に通知し、当該端末101に対して復旧命令を送信する。本処理の詳細については、図8で後述する。図5の例では、ステップS504にて端末101から復旧通知を受信済みであるため、ステップS507の処理に進む。
 ステップS507は、管理装置102の復旧命令部140が、ステップS503cで決定した復旧処理の実行命令をキャンセルする処理である。ステップS504により異常発生元の端末101から復旧通知を受信済みの場合は、管理装置102が命令せずとも端末101による自己復旧処理が実行されため、管理装置102から冗長に復旧命令を送信すべきではない。本ステップS507により復旧命令部140が復旧命令をキャンセルすることで、端末101において冗長な復旧処理を講じることなく、異常イベントから復旧することが可能となる。
 尚、図5では端末101において、ステップS504で復旧通知を送信した後に、ステップS505で自己復旧処理を実行する形態を例示したが、本順序は逆であっても構わない。ただし、自己復旧処理の実行前に、早期に管理装置102に対して復旧通知を送信することで、より高い確率で管理装置102にて冗長な復旧命令をキャンセルすることが可能となり、効率化を図ることができる。
 続いて、図6を参照して、管理装置102の障害解析及び復旧命令処理により、端末101を障害から復旧させるケースも例示する。以下、詳細を説明する。
 図6において、ステップS501a~S501c、ステップS502a~S502c、ステップS503a~S503c、ステップS506は図5と同様であるため、説明を省略する。
 図6の例では、ステップS503cで障害解析部138が端末101の異常イベントを検知後、ステップS506の復旧命令要否判定処理までに、端末101からの復旧通知が行われていないことから、通知の未受信に伴いステップS601の処理に進む。
 ステップS601は、管理装置102の復旧命令部140が、ステップS503cで決定された復旧処理を、異常イベントが発生した端末101に対して命令する処理である。具体的には、復旧命令部140が当該復旧処理を通信処理部137に通知し、実行すべき復旧処理内容を格納したパケットを当該端末101宛に送信する。
 ステップS602は、ステップS601で送信された復旧命令を受信した端末101が、管理装置102から指定された復旧処理を、自己復旧処理部120で実行する処理である。具体的には、端末101が管理装置102から復旧命令を受信すると、通信処理部117でパケットの解析を行い、実行すべき復旧処理を自己復旧処理部120に通知して、自己復旧処理部120が当該復旧処理を実行する。これにより、端末101の異常イベントからの復旧が実現される。
 このように、端末101が異常イベントを自己検知しておらず、管理装置102が異常イベントを検知した場合、図5のステップS504で述べた端末101からの復旧通知の送信が行われていないことを以って、管理装置102は復旧命令を送信する。
 これにより、前述の古いファームウェアの継続使用など、端末101が自己検知困難な異常イベントに対しても、復旧及び是正処理を講じることが可能となる。
 また、端末101が自己検知可能な異常イベントであっても、端末101が自己検知する前に管理装置102が早期検知した場合は、図6のように管理装置102が復旧命令を送信することで、端末101のみが自己障害解析を行う形態と比較して、障害復旧を早期に実現することが可能となる。
 図7を参照して、端末101の自己障害解析部118が実行する自己障害解析処理、ならびに管理装置102の障害解析部138が実行する障害解析処理について説明する。具体的には、図5と図6のステップS502a~S502c、S503a~S503cで実行する処理に該当する。
 本処理では、端末101や管理装置102が、端末101のログ情報を参照して異常イベントの有無を解析し、異常イベントを検知した場合は、講じるべき復旧処理まで決定する。端末101の自己障害解析部118による自己障害解析処理の場合は、管理装置102に通知する復旧通知の内容も本処理で決定する。
 図7は、実施例1における端末101による自己障害解析処理と、管理装置102による障害解析処理を示すフローチャートであり、以下詳細を説明する。尚、管理装置102は、ログ蓄積情報200のうち未処理のログ情報について処理を行い、端末101は、ログバッファ300のうち未処理のログ情報について処理を行う。
 図7のステップS701は、障害解析部138(自己障害解析部118)が図2の障害解析条件管理テーブル121a、141aを参照し、端末101のログ情報に対して解析条件ID201毎に解析処理を行い、異常イベントの判定を行う処理である。
 尚、図2の例では、LTE(無線ネットワーク)の切断、CPU使用率の増大、パケットドロップ数の増大、ファームウェアのバージョン違い等の例を示したが、異常イベントの種類はこれらに限定されるものではない。端末101が扱うデータやセンサ等に応じて適宜変更することができる。
 端末101の自己障害解析部118による自己障害解析処理の場合、障害解析条件管理部121で管理される障害解析条件管理テーブル121aを参照し、自端末のログ情報に対して解析を実行する。
 一方、管理装置102の障害解析部138による障害解析処理の場合は、障害解析条件管理部141で管理される障害解析条件管理テーブル141aを参照し、各端末101から収集したログ情報に対して解析を実行する。
 障害解析条件管理テーブル121a、141aに登録された全ての障害解析条件について解析処理が終了し、条件に合致する障害解析条件が存在した場合、障害解析部138(自己障害解析部118)は当該解析条件ID(図2の解析条件ID201)を記録する。例えば、端末101のログ情報にて、過去3回連続で「LTE接続状態」が「0(切断)」であった場合は、図2のテーブル例であれば「解析条件ID:LteState」を記憶装置115、135に記録する。ステップS701の処理が終了すると、ステップS702に進む。
 ステップS702は、ステップS701の処理において、障害解析条件に合致した解析条件IDが存在するか否かを障害解析部138(自己障害解析部118)が判定する処理である。
 前述の「解析条件ID:LteState」で合致した例のように、一つでも合致した解析条件IDが存在する場合(YES)はステップS703に進む。一方、合致した解析条件IDが存在しない場合(NO)は、検知すべき異常イベントが存在しないことが明らかであるため、図7の処理を終了する。
 ステップS703は、障害解析部138(自己障害解析部118)が図3のイベント判定条件管理テーブル122a、142aを参照し、ステップS701で合致した解析条件IDの組み合わせを基に、端末101での異常イベントを判定する処理である。
 端末101の自己障害解析部118による自己障害解析処理の場合、イベント判定条件管理部122で管理されるイベント判定条件管理テーブル122aを参照して判定を実行する。
 一方、管理装置102の障害解析部138による障害解析処理の場合は、イベント判定条件管理部142で管理されるイベント判定条件管理テーブル142aを参照して判定を実行する。
 障害解析部138(自己障害解析部118)は、該当する異常イベントが存在した場合は、当該イベントID(図3のイベントID301)を記憶装置115、135に記録する。
 前述の「解析条件ID:LteState」が合致した例であれば、図3のテーブル例の場合、「イベントID:LteDisconn(LTE切断)」に該当するため、障害解析部138(自己障害解析部118)は端末101における「LTE切断」の異常イベントを検知し、当該イベントIDを記録する。ステップS703の処理が終了すると、ステップS704に進む。
 ステップS704は、ステップS703の処理において、障害解析部138(自己障害解析部118)が該当するイベントID301が存在したか否かを判定する処理である。前述の「イベントID:LteDisconn(LTE切断)」にて該当した例のように、一つでも該当したイベントID301が存在する場合(YES)はステップS705に進む。一方、該当したイベントIDが存在しない場合(NO)は、端末101における異常イベントは無しと判定し、図7の処理を終了する。
 ステップS705は、復旧命令部140(自己復旧処理部120)が図4の復旧処理管理テーブル123a、143aを参照し、ステップS703で該当したイベントID301に対応する復旧処理(復旧施策403)と、当該復旧処理の実行タイミングを決定する処理である。
 図4に示す復旧処理管理テーブル123a、143aにおいて、復旧命令部140(自己復旧処理部120)は復旧施策403と待ち時間404のフィールドを参照し、ステップS703で該当したイベントID301に対して実行すべき復旧処理と、どれだけの待ち時間404を挟んで当該復旧処理を実行、或いは命令すべきかを決定する。
 例えば、前述の「イベントID:LteDisconn(LTE切断)」に該当した例であれば、復旧命令部140(自己復旧処理部120)は図4の例では「5分後」に「LTEに関する通信I/F再起動」を実行し、或いは命令することを決定できる。
 端末101の自己障害解析部118による自己障害解析処理の場合、自己復旧処理部120は復旧処理管理部123で管理される復旧処理管理テーブル123aを参照してステップS705の処理を実行する。さらに自己復旧処理部120は復旧処理管理テーブル123aの通知メッセージ402のフィールドも参照して、管理装置102に対して通知すべき通知内容も含めて決定する。
 本処理で決定した通知内容は、図5のステップS504の復旧通知送信処理にて管理装置102へ送信され、指定の待ち時間経過後に、図5のステップS505で前記復旧処理が実行される。
 一方、管理装置102の障害解析部138による障害解析処理の場合は、復旧処理管理部143で管理される復旧処理管理テーブル143aを参照してステップS705の処理を実行する。
 そして、障害解析部138は指定の待ち時間経過後に、図5と図6に記載のステップS506の復旧命令要否判定処理を経て、復旧命令が必要と判断された場合に、図6のステップS601にて前記復旧処理の実行命令が送信される。ステップS705の処理が終了すると、図7の処理を終了する。
 以上の図7の処理を行うことで、端末101と管理装置102は、端末101における異常イベントの有無を解析することに加え、異常イベントの検知時には講じるべき復旧処理と、当該復旧処理の実行タイミングまで決定することが可能となる。
 図8を参照して、管理装置102の復旧命令部140が実行する復旧命令要否判定処理について説明する。具体的には、図5と図6のステップS506で実行する処理に該当する。
 本処理では、管理装置102が図7の障害解析処理で決定した復旧処理に関する命令の送信の要否を、端末101からの復旧通知の有無に応じて判定する。図8は、実施例1における管理装置102による復旧命令要否判定処理を示すフローチャートであり、以下詳細を説明する。
 ステップS801は、管理装置102の復旧命令部140が、復旧通知受信部139を参照して、復旧命令対象の端末101からの復旧通知を受信済みであるか否かを判定する処理である。
 具体的には、復旧命令部140が、図7の障害解析処理で検知した異常イベントが発生した端末101から復旧通知を受信しているか否かを判定し、さらに当該通知が図7の障害解析処理で検知した異常イベント、或いは図7の障害解析処理で決定した復旧処理に関するものであれば受信済みと判定する。
 例えば、図7で前述した例のように、障害解析部138の障害解析処理により、端末101について「イベントID:LteDisconn(LTE切断)」の異常イベントを検知し、復旧処理として「LTEに関する通信I/F再起動」を講じるべきであることを決定したとする。
 この場合、ステップS801では復旧命令部140が復旧通知受信部139を参照した結果、当該端末101より「LTE切断」を自己検知した旨の復旧通知、或いは「LTEに関する通信I/F再起動」を自己復旧処理として実行する旨の復旧通知を受信していれば、受信済みと判定する。
 例えば、端末101が自己検知した異常イベントは異なるが、当該異常イベントに対して「LTEに関する通信I/F再起動」を講じる旨の復旧通知を受信したのであれば、検知された異常イベントは異なっていても所望の復旧処理が端末101で実行されるため、復旧命令部140は冗長な復旧処理回避のために復旧命令は控えるべきであることが判断できる。管理装置102は対象の端末101から当該復旧通知を受信済みの場合(YES)はステップS802に進み、未受信の場合(NO)はステップS803に進む。
 ステップS802は、復旧命令部140が図7の障害解析処理で決定した復旧処理の実行命令は不要と判断し、復旧命令をキャンセルする処理である。具体的には、図5のステップS507で説明した復旧命令をキャンセルする処理に遷移する。
 ステップS801にて、対象の端末101からの復旧通知を受信済みであることが判定できたことを以って、復旧命令をキャンセルすることで、端末101における冗長な復旧処理の実行を回避することができる。ステップS802の処理が終了すると、図8の処理を終了する。
 ステップS803は、復旧命令部140が図7の障害解析処理で決定した復旧処理の実行命令は必要と判断し、復旧命令を対象の端末101に対して送信する処理である。具体的には、図6のステップS601で説明した復旧命令の送信処理に遷移する。
 ステップS801にて、対象の端末101から復旧通知を未受信であることが判定された場合、当該端末101は異常イベントを自己検知できていない状態であるため、管理装置102からの復旧命令により復旧処理を講じることが可能となる。ステップS803の処理が終了すると、図8の処理を終了する。
 以上の図8の復旧命令要否判定処理により、管理装置102の復旧命令部140は、図7の障害解析処理で決定した復旧処理の命令が必要であるかを判定することができる。また、復旧命令の対象となる端末101からの復旧通知の受信の判定を以って命令不要と判断された場合に、当該復旧命令をキャンセルすることで、端末101における冗長な復旧処理の実行を抑止することが可能となる。
 図9を参照して、図2の障害解析条件管理テーブル121a、141a、図3のイベント判定条件管理テーブル122a、142a、図4の復旧処理管理テーブル123a、143aを登録するための画面の表示例を説明する。
 図9において、端末101の出力部114、及び管理装置102の出力部134は表示画面900を表示可能であり、表示画面900には障害解析条件を設定するための表示エリア901と、イベント判定条件を設定するための表示エリア902と、復旧処理を設定するための表示エリア903が設けられている。
 表示エリア901は、端末101や管理装置102の障害解析条件管理部121、141で管理する、図2の障害解析条件管理テーブル121a、141aを設定するための領域である。
 表示エリア901では、入力部113、133から障害解析条件毎に参照情報や閾値等の各種情報を入力すると、当該入力値が障害解析条件管理テーブル121a、141aに設定される。尚、通信システムの運用過程で、障害解析条件が随時追加されるケースも考えられる。そこで、図9の例では、障害解析条件の入力欄(行)を追加するための追加ボタン904を搭載しており、当該ボタンの押下(又はクリック)により、障害解析条件を任意に追加することを可能にしている。
 表示エリア902は、端末101や管理装置102のイベント判定条件管理部122、142で管理する、図3のイベント判定条件管理テーブル122a、142aを設定するための領域である。
 表示エリア902では、入力部113、133から異常イベント毎に合致すべき障害解析条件を入力すると、当該入力値がイベント判定条件管理テーブル122a、142aに設定される。検知すべき異常イベント種別や、合致判定に必要な障害解析条件の数も、システムの運用過程で随時追加されるケースも考えられるため、同じく追加ボタン904を搭載している。
 表示エリア903は、端末101や管理装置102の復旧処理管理部123、143で管理する、図4の復旧処理管理テーブル123a、143aを設定するための領域である。
 表示エリア903では、入力部113、133から異常イベント毎に講じるべき復旧処理や、復旧処理実行までの待ち時間等を入力すると、当該入力値が復旧処理管理テーブルに設定される。前記同様の理由で、表示エリア903にも追加ボタン904を搭載している。
 また、各種テーブル情報を、図9の表示画面900上で管理するだけでなく、別の外部ファイル等でも管理する形態が考えられる。そこで、図9の画面表示例では、ファイル入力ボタン905と、ファイル出力ボタン906を設けている。
 入力部113、133からファイル入力ボタン905を押下することで、別の外部ファイルに保存された各種テーブル値を図9の表示画面900上に読み込む機能が提供され、ファイル出力ボタン906を押下することで図9の表示画面900上で入力されたテーブル値を外部ファイルに出力する機能が提供される。
 これにより、テーブルの値が格納される外部ファイルとの連携を容易に実現することが可能となる。ただし、当該機能の搭載は任意である。図9のように各種テーブル情報の設定画面を表示することで、各種テーブル値の登録や途中変更等を容易にすることが可能となる。尚、図9の画面表示例では、テーブルの値をプルダウン形式で選択又は設定する形態や、直接入力する形態などを例示しているが、設定を受け付ける表示形式は任意とする。
 また、端末101と管理装置102の各々で図9の画面表示を行う他、例えば管理装置102の出力部134にて、端末101の各種テーブル情報を設定するための画面表示も行い、ファイル出力ボタン906を押下して出力された外部ファイルを端末101に送信することで、端末101の各種テーブル値を登録する形態も考えられる。このように、必ずしも端末101と管理装置102の双方に入力部と出力部を含むことは必須ではない。
 図10を参照して、図7の端末101による自己障害解析処理、又は管理装置102による障害解析処理によって検知された異常イベント、及び決定された復旧処理を出力する画面表示例を説明する。
 図10において、端末101の出力部114、及び管理装置102の出力部134は表示画面1000を表示可能であり、表示画面1000には障害検知及び復旧情報を表示する表示エリア1001が設定されている。
 表示エリア1001には、端末101の自己障害解析部118や、管理装置102の障害解析部138によって解析された検知異常イベント情報や、当該異常イベントに対する復旧処理情報が表示される。
 図10の例では、障害の発生元となる端末101の識別子情報、及び検知された異常イベント情報、当該異常イベントの検知時刻、当該異常イベントの検知元情報、当該異常イベントに対して講じる復旧処理を表示しているが、必要に応じて任意の情報を出力しても構わない。例えば、図4の復旧処理管理テーブル123a、143aにおける待ち時間404から決定される、復旧処理の実行予定時刻などを追加してもよい。
 図10のような画面を表示することで、システム管理者や作業者は、どの端末101で異常イベントが検知され、どのような復旧処理が実行されるのかを容易に判断することができる。
 特に、端末101の再起動など、通信システムの稼働中断を伴う可能性のある復旧処理が実行される場合、当該表示画面1000を参照することで、システム停止に備えた事前準備を講じるなどの対応要否も判断することが可能となる。
 尚、図10のような表示画面1000以外にも、例えば表形式ではなく、テキスト形式で出力する画面表示等でもよく、障害検知及び復旧に関する情報の表示形式は特定の方法に限定されるものではない。
 以上のように、本実施例によれば、端末101の自己解析及び復旧により早期の障害検知や、通信切断状態からの自己復旧を実現することに加え、管理装置102による解析及び復旧命令で、端末101では自己検知できない異常イベントも検知し、復旧させることが可能となる。
 また、端末101が自己復旧処理を講じる際に、管理装置102に対して復旧通知を送信することで、管理装置102による冗長な復旧命令を抑止することも可能となり、端末101の障害復旧を効率的に実現することができる。これらの処理は自動で行われるため、障害発生時の復旧作業に要する工数を削減する他、早期障害復旧の実現により、ひいては通信システムの稼働率向上にも寄与することができる。
 前記実施例1では、管理装置102が障害解析部138で障害解析処理を行う際、図2の障害解析条件管理テーブル121a、141aを参照し、各端末101のログ情報に対して障害解析条件に合致するか否かを判定した。
 一方、図1のように管理装置102に複数の端末101が接続される構成の場合、複数の端末101が同時に同一の障害解析条件に合致したことを以って、異常イベントをより詳細に検知できるケースがある。
 例えば、図2の例のように端末101のLTE切断状態が「0(切断)」であることを判定する障害解析条件が存在したときに、複数(2以上)の端末101が同時に当該解析条件に合致した場合、端末101のハードウェアの異常等によるLTE切断よりも、LTE通信網(モバイルネットワーク)を提供するキャリアの設備(基地局など)の障害発生により、複数の端末101が同時に切断された可能性が疑われる。この場合は、端末101の障害ではなく、外部環境の障害となる。
 このように、複数の端末101が同時に障害解析条件に合致したことも検知基準に加えて判定を行うことで、より幅広い異常を検知することが可能となる。また、前述の例のように端末101に起因した障害ではなく、外部環境に起因した障害の場合、端末101の自己復旧処理だけでは異常状態から復旧することは困難である。
 例えば、前述のキャリア障害の例においても、キャリアの設備の障害が解決するまでは、端末101が自己復旧を試みてもLTE網に再接続することが困難であることは自明である。
 そのため、キャリアでの障害が解決するまでは、端末101ではLTE切断を自己検知しても、自己復旧処理を控えることが望ましい。特に、端末101による自己復旧処理には、端末本体の再起動など、通信システムの稼働の中断を伴う可能性がある処理も含まれるため、当該ケースにおいては無駄な自己復旧処理を講じないよう、一時的に端末101による当該復旧処理を無効化することが望ましい。
 そこで、実施例2では、管理装置102において、複数の端末101が同時に同一の障害解析条件に合致したことも異常イベントの検知基準として加え、さらに当該異常イベントの種別に応じた端末101の自己復旧処理の有効化又は無効化も可能にした形態について説明する。
 実施例2において、図11A~図11Dを用いて管理装置102の障害解析条件管理部141、イベント判定条件管理部142、復旧処理管理部143、ならびに端末101の復旧処理管理部123で管理する各種テーブルの構成を説明する。尚、実施例2に係る各種構成や処理等について、図11A~図11Dに示すテーブルの構成以外は前記実施例1と同様であるため、これらの説明は省略する。
 図11Aは、実施例2における、管理装置102の障害解析条件管理部141で管理する障害解析条件管理テーブル141aの構成図を示している。解析条件ID201、参照情報202、比較方法303、比較条件204、閾値205、合致回数206は、図2の実施例1における障害解析条件管理テーブル141aと同様であるが、実施例2では同時検知台数1101のフィールドを新たに追加している。
 同時検知台数1101は、管理装置102が各端末101から収集したログ情報に対して解析を行った結果、本解析条件を満たす端末101が何台以上存在した場合に、条件合致と見なすのかを示している。
 参照情報202、比較方法203、比較条件204、閾値205、合致回数206に記載の解析条件を満たした端末101の台数が、同時検知台数1101のフィールドに記載の値以上であれば、管理装置102の障害解析部138は本障害解析条件の合致を判定する。
 図11Aの例の場合、「LTE接続状態」が「0(切断)」に該当する端末101が5台以上存在した場合に、管理装置102は図7の障害解析処理(ステップS701)で「解析条件ID:Multi-LteState」に対して合致の判定を下す。尚、端末101は自端末のログ情報に対してのみ自己障害解析処理を行うため、端末101で管理する障害解析条件管理テーブル121aには、同時検知台数1101のフィールドは追加不要である。
 図11Bは、実施例2における、管理装置102のイベント判定条件管理部142で管理するイベント判定条件管理テーブル142aの構成図を示している。イベント判定条件管理テーブル142aは、図3の実施例1におけるイベント判定条件管理テーブル142aと同様である。図11Bの例の場合、図11Aの「解析条件ID:Multi-LteState」の合致を基に、管理装置102は図7の障害解析処理(ステップS703)で「イベントID:NwFailure(キャリア障害)」を検知することが可能となる。
 図11C、図11Dは、実施例2における、管理装置102の復旧処理管理部143で管理する復旧処理管理テーブル143aと、端末101の復旧処理管理部123で管理する復旧処理管理テーブル123aの構成図を示している。
 図11C、図11DのイベントID401、通知メッセージ402、復旧施策403、待ち時間404は、図4の実施例1における復旧処理管理テーブル123a、143aと同様であるが、実施例2における復旧処理管理テーブル123a、143aでは、有効/無効1102のフィールドを新たに追加している。
 図11C、図11Dの有効/無効1102は、イベントID401に記載の異常イベントを検知した際の復旧処理の実行を有効とするか、無効とするかを指定するフィールドである。本フィールドに「無効」が指定されている場合は、イベントID401に記載の異常イベントを検知しても復旧施策403に記載の処理は実行しない。
 図11Cの例の場合、管理装置102は「イベントID:NwFailure(キャリア障害)」を検知すると、「解析条件ID:Multi-LteState」に合致した端末101に対して、図7の障害解析処理(ステップS705)にて、「LTE切断」を自己検知した際の復旧処理の無効化を決定する。
 その後、管理装置102は、図6に記載の流れと同様、図8の復旧命令要否判定処理を行った後に、当該無効化の旨を復旧命令として、LTE以外の通信I/Fを介して対象の端末へ送信する。そして、本復旧命令を受信した端末101は、当該命令に従い、図11Dに例示の通り、「イベントID:LteDisconn(LTE切断)」に対応する有効/無効1102のフィールドを「無効」に変更する。
 これにより、当該端末101は、「LTE切断」を検知しても自己復旧処理を実行しないため、キャリア障害の発生中に不必要な自己復旧処理を講じずに済むこととなる。
 尚、無効化した復旧処理を再度有効化するタイミングは任意に設定して構わない。例えば、前述の例であれば、キャリア障害が解決されたタイミングで、無効化した復旧処理を再度有効化するよう管理装置102から命令する他、無効化を命令された端末101が一定時間経過後に自動で再度有効化する形態などであっても構わない。
 以上のように、本実施例によれば、管理装置102の障害解析処理において、複数の端末101が同時に同一の障害解析条件に合致したことも異常イベントの検知基準として採用することで、単一の端末101のログ情報だけでは検知できない異常イベントも検知可能となる。
 また、検知した異常イベントに応じて、端末101による自己復旧処理の有効化/無効化を行うことで、端末101だけでは明らかに自己復旧できないケースにおいて、不必要な自己復旧処理の実行を抑止することが可能となる。
 前記実施例1では、端末101による異常検知の直後に、自己復旧処理を講じると不都合が生じるケースを考慮し、図4の復旧処理管理テーブル123a、143aにて、待ち時間404のフィールドを設ける形態を説明した。
 一方、異常イベントが発生した状況に応じて、異常検知から自己復旧処理実行までの待ち時間を柔軟に変更すべきケースも考えられる。この場合、新たなアプローチとして、端末101が自己復旧処理に関する復旧通知を管理装置102へ送信した後、管理装置102からの復旧命令(許可)を受信するまで、当該復旧処理の実行を待機する形態も考えられる。
 管理装置102が復旧処理の実行を許可するタイミングで復旧命令を端末101に指令することで、任意の待ち時間を設けることが可能となる。例えば、管理装置102が通信システムの運用計画に関する情報を保持しており、現場装置のファームウェア更新等で通信切断を招いてはならない時間帯を把握している場合、当該時間帯に端末101から復旧通知を受信しても、すぐに復旧命令を送信せず、当該時間帯の終了まで復旧命令を保留することで、自己復旧処理(端末101の再起動等)による一時的な通信切断を回避することができる。
 また、端末101が異常を検知したものの、実際はそれが計画的なシステム停止等による故意の異常イベントであり、自己復旧処理が不要であるケースも想定される。例えば、端末101と他の現場装置が有線通信で接続されており、通信システムの計画停止によって現場装置の電源が切られたことで、端末101が有線通信の切断を自己検知したとする。
 本ケースは計画停止による人為的なものであるため、切断に対する自己復旧処理が不要であることは自明である。本ケースにおいても上記と同様に、管理装置102が通信システムの運用計画情報を保持し、システム稼働停止の時間帯を把握している場合は、当該時間帯に端末101から復旧通知を受信しても、復旧命令の送信を控えることにより、不必要な自己復旧処理を抑止することが可能となる。
 そこで、実施例3では、端末101が自己復旧処理に関する復旧通知を管理装置102へ送信した後、管理装置102から復旧命令を得るまで、当該復旧処理の実行を待機する形態について説明する。
 前記実施例1では、図5に例示の通り、端末101は復旧通知を管理装置102へ送信した後に自己復旧処理を実行していたが、本実施例では管理装置102から復旧命令を受信するまで、復旧処理の実行を保留する。
 また、管理装置102は、前記実施例1では端末101から復旧通知を受信すると、復旧通知受信部139にて通知内容を記録するだけであったが、実施例3では端末101による自己復旧処理について実行の許可判定も行う。そして、管理装置102は実行可能と判断された場合にのみ、適切なタイミングで復旧命令を当該端末101に返信する形態とする。尚、管理装置102が送信する復旧命令は、端末101が送信した復旧通知に対する返信とする。
 実施例3における、端末101と管理装置102による障害解析と復旧の流れを図12で説明する。また、管理装置102が保持するシステム運用計画情報1300の例を図13で説明する。また、管理装置102が端末101から復旧通知を受信した際に実行する、復旧命令許可判定処理について図14を用いて説明する。尚、実施例3に係る各種構成及び処理等について、図12~図14に示す処理以外は、前記実施例1又は実施例2と同様であるため、重複する構成の説明は省略する。
 図12を参照して、実施例3における端末101と管理装置102による障害解析と復旧処理の流れについて説明する。図12のステップS501、S502、S504、S602は図5や図6と同様であり、実施例1又は実施例2と同様であるため、これらの説明は省略する。
 端末101は、ステップS504で復旧通知を送信すると、図12に記載の通り、管理装置102から復旧命令を受信するまで復旧処理の実行を保留する。一方、ステップS504で端末101が送信した復旧通知を管理装置102が受信すると、実施例3では、通信処理部137での解析を経て、通知内容を復旧通知受信部139に出力することに加え、復旧命令部140にも通知内容を出力して、ステップS1201の処理に進む。
 ステップS1201は、ステップS504で端末101が送信した復旧通知を基に、通知された異常イベントに対する自己復旧処理の実行を、当該端末101に許可してもよいかを管理装置102の復旧命令部140で判定する処理である。
 具体的には、管理装置102が保持するシステム運用計画情報1300(図13で後述)を参照して、端末101が検知した異常イベントが通信システムの計画停止によるものか否かを判定し、該当する場合は自己復旧処理が不要のため、復旧命令の送信をキャンセルする。
 一方、端末101が検知した異常イベントが通信システムの計画停止には該当せず、予期せぬ異常状態であれば、管理装置102は、通信システムの運用計画上、適切なタイミングでステップS1202の復旧命令送信処理に遷移する。尚、ステップS1201の詳細な処理については、図14で後述する。
 ステップS1202は、管理装置102の復旧命令部140より、対象の端末101に対して復旧命令を送信する処理である。実施例1又は実施例2における、図6の復旧命令送信処理(S601)では、障害解析処理(S503)で決定した復旧処理の実行命令を送信する形態であったが、ステップS1202の復旧命令送信処理では、ステップS504の復旧通知に記された自己復旧処理に対する実行命令を送信する。
 ただし、端末101が送信した復旧通知に、端末101が自己検知した異常イベントの情報しか記されていない場合は、復旧処理管理部143で管理される復旧処理管理テーブルを参照し、当該異常イベントに対応した復旧処理の実行命令を送信する。
 そして、当該復旧命令を端末101が受信すると、ステップS602で端末101は自己復旧処理部120にて、指定された復旧処理を実行する。
 このように、端末101による自己復旧処理実行について、管理装置102が許可の判定を行い、復旧命令の送信キャンセルや送信タイミングを制御することで、通信システムの運用計画上、不都合なタイミングでの復旧処理の実行や、不必要な復旧処理の実行を回避することが可能となる。
 図13を参照して、管理装置102が保持するシステム運用計画情報1300の例を説明する。当該システム運用計画情報1300は、管理装置102のアプリケーションプログラム136で管理され、前述の通り、管理装置102が復旧通知を受信した際に、端末101での自己復旧処理の実行の許可判定に使用する。尚、システム運用計画情報1300は管理装置102の記憶装置135に格納される。
 図13の運用計画1301は、通信システムの運用計画情報を示すものである。本フィールドの記載形式は任意であり、図13に例示の通り、現場装置(端末101)のファームウェア更新により通信切断を回避すべき場合や、通信切断を伴う恐れのある復旧処理禁止(端末本体、通信I/F再起動等)を併記するなどしても構わない。
 図13において、関連端末1302は、運用計画1301に記載の運用計画の対象となる端末101の識別子を記載するフィールドである。図13では、端末101の識別子を図1の添字部分で例示しているが、当該識別子は端末101の製造番号や、通信I/Fに割り当てられたIPアドレス(又はMACアドレス)など任意の形式であって構わない。
 管理装置102は、端末101から復旧通知を受信して自己復旧処理を許可するか否かの判定を行う際、関連端末1302を参照することで、当該端末101の復旧処理において、どの運用計画を考慮すべきかを識別することが可能となる。
 対象日時1303は、運用計画1301に記載の運用計画を実行する日時情報を示している。管理装置102は、本フィールドを参照することで、例えば「2021/9/22 02:00:00~03:00:00」の間は通信システムが計画停止しており、当該時間帯に端末101-a、端末101-bが検知した異常イベントは計画の上で招かれたものであり、管理装置102は自己復旧が不要であることを判断できる。
 尚、図13では、システム運用計画情報1300として、運用計画1301、関連端末1302、対象日時1303のフィールドにて例示したが、管理装置102が保持するシステム運用計画情報は特定の形式に限定されるものではない。例えば、各種運用計画が特定の曜日、特定の時間帯で周期的に適用される場合は、対象日時1303のフィールドを変更して、曜日や時間帯を記載する形式にする他、新たな入力フィールドを任意に追加しても構わない。
 図14を参照して、管理装置102の復旧命令部140が実行する復旧命令の許可判定処理について説明する。具体的には、図12のステップS1201で実行する処理に該当する。本処理は、管理装置102が端末101から復旧通知を受信した際に実行され、システム運用計画情報1300を基に、当該端末101による自己復旧処理の実行を許可してもよいかを判定する。
 図14は、実施例3における管理装置102による復旧命令許可判定処理の一例を示すフローチャートであり、以下詳細を説明する。
 ステップS1401は、復旧通知の送信元の端末101で検知された異常イベントが、通信システムの計画停止によって招かれたものであるかを管理装置102で判定する処理である。具体的には、管理装置102の復旧命令部140が、アプリケーションプログラム136で管理される図13のシステム運用計画情報1300を参照し、復旧通知の送信元の端末101が属する通信システムが計画停止中であるかを判定する。
 例えば、図13の例では、端末101-aからの復旧通知を「2021/9/22 02:30:00」に受信した場合、復旧命令部140は計画停止によって発生したイベントであることが判断できる。
 復旧命令部140は計画停止によって招かれたものであることが判断できる場合(YES)はステップS1402に進み、計画停止の時間外に発生した想定外の異常イベントである場合(NO)はステップS1403に進む。
 ステップS1402は、管理装置102の復旧命令部140が復旧命令は不要と判断し、前記復旧通知に対する復旧命令をキャンセルする処理である。ステップS1401で、復旧命令部140は計画停止によって招かれた異常イベントであることが判断できた場合、端末101による自己復旧処理は不要であるため、本処理による復旧命令のキャンセルで、不必要な自己復旧処理の実行を抑止することができる。
 尚、図14の例では復旧命令部140が復旧命令をキャンセルするのみとしているが、例えば端末101に対して、自己復旧処理が不要の旨を明示的に通知する処理を行っても構わない。ステップS1402の処理が終了すると、図14の処理を終了する。
 ステップS1403は、復旧命令部140が復旧通知の送信元の端末101において復旧処理を即時実行しても問題無いかを判定する処理である。具体的には、管理装置102の復旧命令部140が、アプリケーションプログラム136で管理される図13のシステム運用計画情報1300を参照し、当該端末101が実行しようとしている復旧処理を禁じられていないかを判定する。
 例えば、「端末本体の再起動」を自己復旧処理とする旨の復旧通知を端末101-aより「2021/9/20 00:15:00」に受信した場合、図13の例では「現場装置のファームウェア更新」のため「2021/9/20 00:30:00」まで前記復旧処理の実行を禁止されており、少なくとも15分間は実行を保留すべきであることが判断できる。
 端末101において復旧処理を即時実行可能であることが判断できる場合(YES)はステップS1404に進み、前述の例のように実行保留が必要な場合(NO)はステップS1405に進む。
 ステップS1404は、復旧命令部140は復旧通知の送信元の端末101による復旧処理の即時実行を許可してよいものと判断し、復旧命令を当該端末101に対して送信する処理である。
 具体的には、復旧命令部140は図12のステップS1202で説明した復旧命令の送信処理に即時遷移し、端末101への復旧命令を行う。ステップS1404の処理が終了すると、図14の処理を終了する。
 ステップS1405は、復旧命令部140が復旧通知の送信元の端末101による復旧処理の実行を保留する処理が必要と判断し、通信システムの運用計画上、復旧処理実行可能となったタイミングで復旧命令を当該端末101に対して送信する処理である。
 具体的には、復旧命令部140は図13のシステム運用計画情報1300を参照し、端末101による復旧処理を実行可能となったタイミングで、図12のステップS1202で説明した復旧命令の送信処理に遷移し、端末101への復旧命令を行う。
 ステップS1403で示した例の場合、復旧通知受信から少なくとも15分間の待機が必要であるため、復旧命令部140は15分経過後に復旧命令の送信処理を行う。
 ステップS1405による復旧命令送信の保留により、通信システムの運用計画上、適切なタイミングで端末101は自己復旧処理を講じることが可能となる。尚、図14のステップS1405では、復旧処理が実行可能となるまで復旧命令の送信を保留する形態にて例示したが、例えば、復旧処理の実行タイミングを格納した復旧命令を復旧命令部140が端末101に対して即時送信し、当該命令を受信した端末101が、指定されたタイミングまで自己復旧処理実行を保留する形態であっても構わない。
 以上のように、本実施例により、端末101による自己復旧処理の実行の可否を管理装置102が決定することで、通信システムの人為的な計画停止によって招かれた異常イベントに対する不必要な自己復旧処理を抑止することに加え、通信システムの運用計画に対して、より適切なタイミングで復旧処理を実行することが可能となる。
 特に、自己復旧処理によって通信システムの稼働を妨げることは本末転倒であり、運用計画に即したタイミングで復旧処理を実行することで、さらなる通信システムの稼働率向上に寄与することが可能となる。
 <結び>
 以上のように、上記実施例1~3の通信システムは、以下のような構成とすることができる。
 (1)管理対象となる1以上の端末(101)と、前記端末(101)と接続される管理装置(102)からなる通信システムであって、前記端末(101)は、自端末(101)のログ情報を収集して、前記管理装置(102)へ送信するログ情報管理部(アプリケーションプログラム116)と、前記ログ情報から当該端末(101)における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する自己障害解析部(118)と、前記異常イベントに対する自己復旧処理を前記管理装置(102)に通知する復旧通知送信部(119)と、前記異常イベントに対する自己復旧処理又は前記管理装置(102)から命令された復旧処理を実行する自己復旧処理部(120)と、を有し、前記管理装置(102)は、前記端末(101)から収集したログ情報を基に、前記端末(101)における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する障害解析部(138)と、前記端末(101)から当該端末(101)が検知した異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部(139)と、前記通知の有無に応じて前記障害解析部(138)で検知した異常イベントに対する復旧処理の実行命令を前記端末(101)に指令する復旧命令部(140)と、を有すること特徴とする通信システム。
 上記構成により、端末101で発生した異常イベントを、端末101のログ情報を基に端末と管理装置102の双方で解析することで、端末101の自己解析及び復旧により障害の早期検知や、通信切断状態からの自己復旧を実現することに加え、管理装置102による解析及び復旧命令で、端末101では自己検知できない異常イベントも検知して端末101を復旧させることが可能となる。
 一方、単に端末101と管理装置102の双方で異常イベントを解析し、復旧処理を講じるだけでは、端末101が復旧処理を冗長に実行する恐れがある。例えば、端末101と管理装置102がほぼ同時刻に、端末101上の異常イベントを検知したとする。このとき、端末101は検知した異常イベントに対する自己復旧処理を講じるが、管理装置102は自己復旧済みであることを知らずに、当該端末101に対して復旧処理の実行命令を指令してしまう。これにより、端末101は再度冗長な復旧処理を実行することになり、再起動による復旧などの場合、端末101の連続稼働を妨げてしまう。しかし、本発明によれば、端末101が自己復旧処理の実行時に、当該復旧処理に関する通知を管理装置102へ明示的に送信することで、管理装置102は復旧命令が不要の旨を判定し、復旧処理の冗長な実行を回避することが可能となる。
 (2)プロセッサ(CPU132)とメモリ(記憶装置135)を有して、管理対象となる1以上の端末(101)と接続される管理装置(102)であって、前記端末(101)から収集したログ情報を基に、前記端末(101)における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する障害解析部(138)と、前記端末(101)から、当該端末(101)で検知した異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部(139)と、前記通知の有無に応じて前記障害解析部(138)で検知した異常イベントに対する復旧処理の実行命令を前記端末(101)に指令する復旧命令部(140)と、を有すること特徴とする管理装置(102)。
 上記構成により、端末101で発生した異常イベントを、端末101のログ情報を基に端末と管理装置102の双方で解析することで、端末101の自己解析及び復旧により障害の早期検知や、通信切断状態からの自己復旧を実現することに加え、管理装置102による解析及び復旧命令で、端末101では自己検知できない異常イベントも検知して端末101を復旧させることが可能となる。
 (3)上記(2)に記載の管理装置(102)であって、前記ログ情報に対する障害解析条件を管理する障害解析条件管理部(141)と、前記ログ情報と合致した前記障害解析条件の組み合わせに基づくイベント判定条件を管理するイベント判定条件管理部(142)と、前記異常イベント毎に講じるべき復旧処理を管理する復旧処理管理部(143)と、をさらに有し、前記障害解析部(138)は、前記障害解析条件管理部(141)の障害解析条件に従って前記ログ情報を解析して、解析結果と、前記イベント判定条件管理部(142)のイベント判定条件を基に前記端末(101)の異常イベントを検知した後、前記復旧処理管理部(143)を参照して前記異常イベントに対する復旧処理を決定し、前記復旧命令部(140)は、前記復旧通知受信部(139)にて前記端末(101)から前記異常イベントに対する自己復旧処理の通知が受信されない場合に、前記復旧処理の実行命令を前記端末(101)に指令することを特徴とする管理装置(102)。
 上記構成により、管理装置102は端末101からのログ情報で異常イベントを検知し、端末101から当該復旧処理に関する通知を受信していなければ復旧処理の実行命令を端末101に指令することで、端末101では自己検知できない異常イベントも検知して端末101を復旧させることが可能となる。
 (4)請求項3に記載の管理装置(102)であって、前記障害解析条件管理部(141)は、前記障害解析条件毎に参照するログ情報(参照情報202)と、比較基準となる閾値(205)と、前記閾値(205)に対する大小関係を規定する比較条件(204)と、前記閾値(205)を絶対値と相対値の何れで扱うかを規定する比較方法(203)と、ログ情報が前記障害解析条件に合致した回数(合致回数206)を指定可能とすることを特徴とする管理装置。
 上記構成により、管理装置102の障害解析条件管理部141は、障害解析条件管理テーブル141aで、障害解析条件毎に参照するログ情報(参照情報202)と、比較基準となる閾値205と、閾値205に対する大小関係を規定する比較条件204と、閾値205を絶対値と相対値の何れで扱うかを規定する比較方法203と、ログ情報が前記障害解析条件に合致した合致回数206を指定可能とすることで、端末101の環境に応じた障害解析条件を設定することが可能となる。
 (5)請求項3に記載の管理装置(102)であって、前記復旧処理管理部(143)は、前記異常イベント毎に講じるべき復旧処理(復旧施策403)と、前記異常イベントの検知から復旧命令実行までの待ち時間(404)を指定可能とすることを特徴とする管理装置。
 上記構成により、復旧処理管理部143は、復旧処理管理テーブル143aで異常イベント毎に講じるべき復旧施策403と、異常イベントの検知から復旧命令の実行までの待ち時間404を指定することが可能となり、端末101で発生し得る異常イベントに応じた復旧処理を設定することが可能となる。
 (6)上記(3)に記載の管理装置(102)であって、前記障害解析条件管理部(141)で管理する障害解析条件と、前記イベント判定条件管理部(142)で管理するイベント判定条件と、前記復旧処理管理部(143)で管理する復旧処理と、を入力する入力部(133)と、前記障害解析部(138)で検知された異常イベントの情報と、当該異常イベントに対する復旧処理を出力する出力部(134)と、をさらに有することを特徴とする管理装置。
 上記構成により、管理装置102は入力部133で障害解析条件とイベント判定条件と復旧処理とを入力し、出力部114で異常イベントの情報と、異常イベントに対する復旧処理を出力することができる。
 (7)上記(2)に記載の管理装置(102)であって、前記障害解析部(138)は、2以上の前記端末(101)が所定の障害解析条件に合致したことを以って、前記端末(101)で発生した異常イベントを判定することを特徴とする管理装置。
 上記構成により、管理装置102の障害解析処理において、複数の端末101が同時に同一の障害解析条件に合致したことも異常イベントの検知基準として採用することで、単一の端末101のログ情報だけでは検知できない異常イベントも検知可能となる。
 (8)上記(7)に記載の管理装置(102)であって、前記復旧命令部(140)は、前記端末(101)で発生した異常イベントに応じて、前記端末(101)に対して所定の復旧処理の有効化又は無効化を命令することを特徴とする管理装置。
 上記構成により、管理装置102は検知した異常イベントに応じて、端末101による自己復旧処理の有効化/無効化を行うことで、端末101だけでは明らかに自己復旧できないケースにおいて、不必要な自己復旧処理の実行を抑止することが可能となる。
 (9)上記(2)に記載の管理装置(102)であって、前記復旧命令部(140)は、前記復旧通知受信部(139)で受信した前記端末(101)からの自己復旧処理の通知に応じて、当該復旧処理の実行可否を判定し、当該復旧処理を実行可能なタイミングで前記端末(101)へ実行命令を指令することを特徴とする管理装置。
 上記構成により、端末101による自己復旧処理の実行の可否を管理装置102が決定することで、通信システムの人為的な計画停止によって招かれた異常イベントに対する不必要な自己復旧処理を抑止することに加え、通信システムの運用計画に対して、より適切なタイミングで復旧処理を実行することが可能となる。自己復旧処理によって通信システムの稼働を妨げることは本末転倒であり、運用計画に即したタイミングで復旧処理を実行することで、さらなる通信システムの稼働率向上に寄与することが可能となる。
 尚、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を含むものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換の何れもが、単独で、又は組み合わせても適用可能である。
 また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に記録しておくことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 <補足>
 特許請求の範囲に記載した以外の本発明の観点の代表的なものとして、次のものがあげられる。
 <16>
 プロセッサとメモリを有して管理装置と接続される端末であって、
 自端末のログ情報を収集して、前記管理装置へ送信するログ情報管理部と、
 前記ログ情報から当該端末における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する自己障害解析部と、
 前記異常イベントに対する自己復旧処理を前記管理装置に通知する復旧通知送信部と、
 前記異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する自己復旧処理部と、を有し、
 前記復旧処理部は、前記復旧通知送信部を介して復旧処理を通知した後、前記管理装置から実行命令を受信するまで、当該復旧処理の実行を待機することを特徴とする端末。
 <17>
 1以上の端末と接続される管理装置が前記端末を管理する管理方法であって、
 前記端末が、自端末のログ情報を収集して、前記管理装置へ送信する第1のステップと、
 前記端末が、前記ログ情報から当該端末における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する第2のステップと、
 前記端末が、前記異常イベントに対する自己復旧処理を前記管理装置に通知する第3のステップと、
 前記管理装置が、前記端末から収集したログ情報を基に、前記端末における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する第4のステップと、
 前記管理装置が、前記端末から当該端末が検知した異常イベントに対する自己復旧処理の通知を受信する第5のステップと、
 前記管理装置が、前記通知の有無に応じて前記障害解析部で検知した異常イベントに対する復旧処理の実行命令を前記端末に指令する第6のステップと、
 前記端末が、前記異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する第7のステップと、を含むことを特徴とする管理方法。

Claims (15)

  1.  管理対象となる1以上の端末と、前記端末と接続される管理装置からなる通信システムであって、
     前記端末は、
     自端末のログ情報を収集して、前記管理装置へ送信するログ情報管理部と、
     前記ログ情報から当該端末における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する自己障害解析部と、
     前記異常イベントに対する自己復旧処理を前記管理装置に通知する復旧通知送信部と、
     前記異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する自己復旧処理部と、を有し、
     前記管理装置は、
     前記端末から収集したログ情報を基に、前記端末における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する障害解析部と、
     前記端末から当該端末が検知した異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部と、
     前記通知の有無に応じて前記障害解析部で検知した異常イベントに対する復旧処理の実行命令を前記端末に指令する復旧命令部と、を有すること特徴とする通信システム。
  2.  プロセッサとメモリを有して、管理対象となる1以上の端末と接続される管理装置であって、
     前記端末から収集したログ情報を基に、前記端末における異常イベントの有無を解析して、前記異常イベントを検知した場合には復旧処理を決定する障害解析部と、
     前記端末から、当該端末で検知した異常イベントに対する自己復旧処理の通知を受信する復旧通知受信部と、
     前記通知の有無に応じて前記障害解析部で検知した異常イベントに対する復旧処理の実行命令を前記端末に指令する復旧命令部と、を有すること特徴とする管理装置。
  3.  請求項2に記載の管理装置であって、
     前記ログ情報に対する障害解析条件を管理する障害解析条件管理部と、
     前記ログ情報と合致した1以上の前記障害解析条件の組み合わせに基づくイベント判定条件を管理するイベント判定条件管理部と、
     前記異常イベント毎に講じるべき復旧処理を管理する復旧処理管理部と、をさらに有し、
     前記障害解析部は、
     前記障害解析条件管理部の障害解析条件に従って前記ログ情報を解析して、解析結果と、前記イベント判定条件管理部のイベント判定条件を基に前記端末の異常イベントを検知した後、前記復旧処理管理部を参照して前記異常イベントに対する復旧処理を決定し、
     前記復旧命令部は、
     前記復旧通知受信部にて前記端末から前記異常イベントに対する自己復旧処理の通知が受信されない場合に、前記復旧処理の実行命令を前記端末に指令することを特徴とする管理装置。
  4.  請求項3に記載の管理装置であって、
     前記障害解析条件管理部は、
     前記障害解析条件毎に参照するログ情報と、比較基準となる閾値と、前記閾値に対する大小関係を規定する比較条件と、前記閾値を絶対値と相対値の何れで扱うかを規定する比較方法と、ログ情報が前記障害解析条件に合致した回数を指定可能とすることを特徴とする管理装置。
  5.  請求項3に記載の管理装置であって、
     前記復旧処理管理部は、
     前記異常イベント毎に講じるべき復旧処理と、前記異常イベントの検知から復旧命令実行までの待ち時間を指定可能とすることを特徴とする管理装置。
  6.  請求項3に記載の管理装置であって、
     前記障害解析条件管理部で管理する障害解析条件と、前記イベント判定条件管理部で管理するイベント判定条件と、前記復旧処理管理部で管理する復旧処理と、を入力する入力部と、
     前記障害解析部で検知された異常イベントの情報と、当該異常イベントに対する復旧処理を出力する出力部と、をさらに有することを特徴とする管理装置。
  7.  請求項2に記載の管理装置であって、
     前記障害解析部は、
     2以上の前記端末が所定の障害解析条件に合致したことを以って、前記端末で発生した異常イベントを判定することを特徴とする管理装置。
  8.  請求項7に記載の管理装置であって、
     前記復旧命令部は、
     前記端末で発生した異常イベントに応じて、前記端末に対して所定の復旧処理の有効化又は無効化を命令することを特徴とする管理装置。
  9.  請求項2に記載の管理装置であって、
     前記復旧命令部は、
     前記復旧通知受信部で受信した前記端末からの自己復旧処理の通知に応じて、当該復旧処理の実行可否を判定し、当該復旧処理を実行可能なタイミングで前記端末へ実行命令を指令することを特徴とする管理装置。
  10.  プロセッサとメモリを有して管理装置と接続される端末であって、
     自端末のログ情報を収集して、前記管理装置へ送信するログ情報管理部と、
     前記ログ情報から当該端末における異常イベントの有無を解析して前記異常イベントを検知した場合には自己復旧処理を決定する自己障害解析部と、
     前記異常イベントに対する自己復旧処理を前記管理装置に通知する復旧通知送信部と、
     前記異常イベントに対する自己復旧処理又は前記管理装置から命令された復旧処理を実行する自己復旧処理部と、を有することを特徴とする端末。
  11.  請求項10に記載の端末であって、
     前記ログ情報に対する障害解析条件を管理する障害解析条件管理部と、
     前記ログ情報と合致した1以上の前記障害解析条件の組み合わせに基づくイベント判定条件を管理するイベント判定条件管理部と、
     前記異常イベント毎に講じるべき復旧処理を管理する復旧処理管理部と、をさらに有し、
     前記自己障害解析部は、
     前記障害解析条件管理部の障害解析条件に従って前記ログ情報を解析して、解析結果と、前記イベント判定条件管理部のイベント判定条件を基に自端末の異常イベントを検知した後、前記復旧処理管理部を参照して前記異常イベントに対する復旧処理を決定し、

     前記自己復旧処理部は、
     前記復旧通知送信部を介して当該復旧処理を前記管理装置へ通知した後に前記復旧処理を実行又は前記管理装置からの命令で指定された復旧処理を実行することを特徴とする端末。
  12.  請求項11に記載の端末であって、
     前記障害解析条件管理部は、
     前記障害解析条件毎に参照するログ情報と、比較基準となる閾値と、前記閾値に対する大小関係を規定する比較条件と、前記閾値を絶対値と相対値の何れで扱うかを規定する比較方法と、ログ情報が前記障害解析条件に合致した回数を指定可能とすることを特徴とする端末。
  13.  請求項11に記載の端末であって、
     前記復旧処理管理部は、
     前記異常イベント毎に講じるべき復旧処理と、前記異常イベントの検知から復旧処理実行までの待ち時間と、前記管理装置に対する通知内容を指定可能とすることを特徴とする端末。
  14.  請求項11に記載の端末であって、
     前記障害解析条件管理部で管理する障害解析条件と、前記イベント判定条件管理部で管理するイベント判定条件と、前記復旧処理管理部で管理する復旧処理を入力する入力部と、
     前記自己障害解析部で検知された異常イベントの情報と、当該異常イベントに対する復旧処理を出力する出力部と、をさらに有することを特徴とする端末。
  15.  請求項10に記載の端末であって、
     前記自己復旧処理部は、
     前記管理装置からの命令に従って、前記復旧処理の一部を有効化又は無効化することを特徴とする端末。
PCT/JP2022/023197 2021-12-17 2022-06-08 通信システム、管理装置及び端末 WO2023112359A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280047314.XA CN117642725A (zh) 2021-12-17 2022-06-08 通信系统、管理装置和终端

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021205356A JP2023090412A (ja) 2021-12-17 2021-12-17 通信システム、管理装置及び端末
JP2021-205356 2021-12-17

Publications (1)

Publication Number Publication Date
WO2023112359A1 true WO2023112359A1 (ja) 2023-06-22

Family

ID=86774211

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023197 WO2023112359A1 (ja) 2021-12-17 2022-06-08 通信システム、管理装置及び端末

Country Status (3)

Country Link
JP (1) JP2023090412A (ja)
CN (1) CN117642725A (ja)
WO (1) WO2023112359A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087136A (ja) * 2007-10-01 2009-04-23 Nec Corp 障害修復システムおよび障害修復方法
JP2018524704A (ja) * 2015-06-19 2018-08-30 アップテイク テクノロジーズ、インコーポレイテッド 予測モデルの動的な実行

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087136A (ja) * 2007-10-01 2009-04-23 Nec Corp 障害修復システムおよび障害修復方法
JP2018524704A (ja) * 2015-06-19 2018-08-30 アップテイク テクノロジーズ、インコーポレイテッド 予測モデルの動的な実行

Also Published As

Publication number Publication date
JP2023090412A (ja) 2023-06-29
CN117642725A (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
JP4995104B2 (ja) 性能監視条件の設定・管理方法及びその方法を用いた計算機システム
US20190310906A1 (en) Systems and methods for real time computer fault evaluation
JP2007257085A (ja) 機器遠隔監視システム
JP2011100283A (ja) 管理装置、機器管理方法、機器管理プログラム、記録媒体、及び機器管理システム
JPWO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
KR102549129B1 (ko) 디바이스 장애 통합 관리 플랫폼 제공 방법
JP5983102B2 (ja) 監視プログラム、方法及び装置
US9336075B2 (en) Monitoring apparatus, monitoring method, and storage medium
WO2023112359A1 (ja) 通信システム、管理装置及び端末
EP2495660A1 (en) Information processing device and method for controlling information processing device
JP2019164518A (ja) 仲介装置、機器監視システム、仲介方法
JP2012230451A (ja) ネットワーク端末故障対応システム、端末装置、サーバ装置、ネットワーク端末故障対応方法及びプログラム
JPWO2013161522A1 (ja) ログ収集サーバ、ログ収集システム、ログ収集方法
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
JP2003032764A (ja) 保守装置、メンテナンスシステムおよびメンテナンス方法
JP5623449B2 (ja) 報告書作成装置、報告書作成プログラムおよび報告書作成方法
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
US20150113320A1 (en) Processing apparatus, process system, and non-transitory computer-readable recording medium
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
US11635923B2 (en) Monitoring system, monitoring method, and monitoring program
JP2014021586A (ja) プログラムのアップグレードを実施するサーバ、サーバと複数の機器からなるプログラムのアップグレードシステム及びプログラムのアップグレード方法
JP2011028490A (ja) システム監視装置、システム監視方法、及びプログラム
WO2024084776A1 (ja) 監視装置、管理装置、通信システム、および復旧方法
JP2015125591A (ja) プラント監視システムおよびその更新方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22906896

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280047314.X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2401000313

Country of ref document: TH