WO2012147176A1 - プログラム、情報処理装置、および監視方法 - Google Patents

プログラム、情報処理装置、および監視方法 Download PDF

Info

Publication number
WO2012147176A1
WO2012147176A1 PCT/JP2011/060253 JP2011060253W WO2012147176A1 WO 2012147176 A1 WO2012147176 A1 WO 2012147176A1 JP 2011060253 W JP2011060253 W JP 2011060253W WO 2012147176 A1 WO2012147176 A1 WO 2012147176A1
Authority
WO
WIPO (PCT)
Prior art keywords
monitoring
unit
monitored device
status
monitored
Prior art date
Application number
PCT/JP2011/060253
Other languages
English (en)
French (fr)
Inventor
浩平 木田
弘和 菅沼
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2013511833A priority Critical patent/JPWO2012147176A1/ja
Priority to PCT/JP2011/060253 priority patent/WO2012147176A1/ja
Publication of WO2012147176A1 publication Critical patent/WO2012147176A1/ja
Priority to US14/043,907 priority patent/US20140032173A1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N35/00Automatic analysis not limited to methods or materials provided for in any single one of groups G01N1/00 - G01N33/00; Handling materials therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Definitions

  • the present invention relates to a program for monitoring the operation of another device, an information processing device, and a monitoring method.
  • the monitoring device may periodically monitor whether the device to be monitored (monitored device) is operating normally. As means for confirming that the monitored device is operating normally, there are monitoring of whether or not there is a response by polling, monitoring by detecting a heartbeat output periodically, and the like.
  • a time-out of a response from a monitored device for polling or a hard beat interruption occurs in the monitoring device, it is determined that the monitored device is out of order.
  • the timeout of the response from the monitored device and the interruption of the hard beat also occur for reasons other than the failure.
  • NTP Network Time Protocol
  • the monitored device is restarted. At this time, the monitored device cannot return a response to polling until the restart of the monitored device is completed. Even in such a case, if it is determined that the monitored device is out of order, the reliability of the operation monitoring is lowered.
  • the monitoring target device notifies the reporting center device of its own power ON / OFF information.
  • the notification center device starts / cancels monitoring according to the notification. This makes it possible to more accurately determine the operating status of the monitoring target device.
  • the monitoring device determines that the monitored device is faulty, and the reliability of operation monitoring is reduced. It was.
  • an object of the present invention is to provide a program, an information processing apparatus, and a monitoring method capable of improving the reliability of failure determination in operation monitoring.
  • a program for causing a computer to execute the following processing is provided.
  • the computer measures a waiting time for receiving predetermined information from a monitored apparatus connected via a network.
  • the computer inquires of the monitoring apparatus that monitors the monitored apparatus about the operation status of the monitored apparatus. Then, the computer determines whether the monitored device has a failure or a network failure with the monitored device based on the operation state of the monitored device indicated in the response from the monitoring device.
  • an information processing apparatus having the same function as a computer that executes the above program is provided. Furthermore, an operation monitoring method for performing the same process as the process executed by the computer based on the program is provided.
  • FIG. 1 is a diagram illustrating a functional configuration example of an apparatus according to the first embodiment.
  • the information processing apparatus 1 monitors the operation of the monitored apparatus 2 connected via a network.
  • the monitoring device 3 also monitors the operation of the monitored device 2 via the network.
  • the information processing apparatus 1 includes a monitoring unit 1a, a timing unit 1b, an inquiry unit 1c, a determination unit 1d, a connection unit 1e, and a storage device 1f.
  • the monitoring unit 1a periodically monitors whether the monitored device 2 is operating normally. For example, the monitoring unit 1a periodically polls the monitored device 2 for confirming the operation, and determines that the monitored device 2 is operating if a response is received within a predetermined time limit. The monitoring unit 1a determines that the monitored device 2 is out of order if no response is received even after a predetermined time limit has elapsed with respect to polling of the monitored device 2.
  • the monitoring unit 1a can suppress the periodic monitoring of the monitored device 2 when receiving a periodic monitoring suppression instruction from the monitored device 2, for example. For example, if the monitoring unit 1a suppresses the periodic monitoring, the monitoring unit 1a does not perform the periodic monitoring of the monitored device 2 until a periodic monitoring suppression cancellation instruction is input.
  • the time measuring means 1b measures the waiting time for receiving predetermined information from the monitored apparatus connected via the network. For example, the time measuring unit 1b measures the reception waiting time of the periodic monitoring suppression release instruction after the monitoring unit 1a receives the periodic monitoring suppression instruction.
  • the inquiry means 1c inquires the monitoring device 3 that monitors the monitored device 2 about the operation status of the monitored device 2 when the predetermined information cannot be received even after the reception waiting time limit. For example, the inquiry unit 1c makes an inquiry to the monitoring device 3 when the periodic monitoring suppression release instruction cannot be received even after the time limit for waiting for the periodic monitoring suppression cancellation has passed.
  • the determining unit 1d determines whether the monitored device 2 is in failure or a network failure with the monitored device 2 based on the operation state of the monitored device 2 indicated in the response from the monitoring device 3. For example, when the determination unit 1 d receives a response from the monitoring device 3 indicating that the monitored device 2 is operating normally, the determination unit 1 d determines that there is a network failure with the monitored device 2. Further, the determination unit 1d determines that the monitored device 2 has a failure when receiving a response from the monitoring device 3 that the monitored device 2 has an abnormality.
  • the determination unit 1d can request the connection unit 1e to try a network connection with the monitored device 2. In that case, when the connection unit 1 e fails to connect to the monitored device 2 through the network, the determination unit 1 d determines the determination that there is a network failure with the monitored device 2. The determination unit 1d cancels the determination of a network failure with the monitored device 2 when the connection unit 1e succeeds in network connection with the monitored device 2.
  • the determination unit 1d determines that there is a failure in the monitored device 2 or the network, for example, the determination unit 1d registers the determination result in the storage device 1f.
  • the connection unit 1 e performs network connection for enabling communication with the monitored device 2. For example, the connection unit 1e attempts a network connection with the monitored device 2 in response to a request from the determination unit 1d. The connection unit 1e notifies the determination unit 1d whether or not the network connection is successful.
  • the monitoring unit 1a, timing unit 1b, inquiry unit 1c, determination unit 1d, and connection unit 1e can be realized by a CPU (Central Processing Unit) included in the information processing apparatus 1.
  • the storage device 1 f can be realized by a RAM (Random Access Memory) or a hard disk drive (HDD: Hard Disk Drive) included in the information processing apparatus 1.
  • the storage device 1f stores the determination result by the determination unit 1d.
  • the information processing apparatus 1 performs regular monitoring of the monitored apparatus 2. Further, when the monitored device 2 restarts, the monitored device 2 transmits a periodic monitoring suppression instruction to the information processing device 1, thereby suppressing failure detection in the information processing device 1 during the execution of the restart. However, the information processing apparatus 1 detects a failure when it cannot receive the periodic monitoring suppression cancellation instruction from the monitored apparatus 2 even after a predetermined suppression cancellation waiting time limit has elapsed since the reception of the periodic monitoring suppression instruction.
  • FIG. 2 is a sequence diagram illustrating a processing procedure of the first example of the first embodiment. In the following, the process illustrated in FIG. 2 will be described in order of step number.
  • Step S1 When restarting, the monitored device 2 first transmits a periodic monitoring suppression instruction to the information processing device 1.
  • Step S2 The monitored device 2 starts restarting.
  • Step S3 The monitoring unit 1a of the information processing device 1 suppresses the periodic monitoring of the monitored device 2 in response to the periodic monitoring suppression instruction. Moreover, the time measuring means 1b starts measuring time after receiving the periodic monitoring inhibition instruction.
  • Step S4 Restart of the monitored device 2 is completed.
  • the periodic monitoring suppression release instruction cannot be transmitted from the monitored device 2 to the information processing device 1.
  • the timing unit 1b of the information processing apparatus 1 detects that the time limit for waiting for the release of inhibition has elapsed since the reception of the periodic monitoring suppression instruction without receiving the periodic monitoring suppression cancellation instruction. Then, the inquiry unit 1 c makes an inquiry about the operating state of the monitored device 2 to the monitoring device 3.
  • the inquiry means 1c makes an inquiry about the operating state of the monitored device 2 to the monitoring device 3, thereby making it possible to more accurately determine whether or not the monitored device 2 is operating normally. That is, the monitoring device 3 is connected to the monitored device 2 through a communication path different from the communication path between the information processing device 1 and the monitored device 2. Therefore, even if communication between the information processing apparatus 1 and the monitored apparatus 2 is interrupted, if the monitored apparatus 2 is operating normally, the monitoring apparatus 3 and the monitored apparatus 2 can communicate normally. There is a possibility.
  • Step S6 The monitoring device 3 responds to the information processing device 1 with the status of the monitored device 2 in response to an inquiry from the information processing device 1. In the example of FIG. 2, it is assumed that a response indicating that the monitored device 2 is operating normally is transmitted to the information processing device 1.
  • Step S7 Upon receiving the response from the monitoring device 3, the inquiry unit 1c of the information processing device 1 notifies the determination unit 1d of the content of the response.
  • the determination unit 1d recognizes that the monitored device 2 is operating normally, it determines that a network failure has occurred. In this case, the determination unit 1d requests the connection unit 1e to connect the monitored device 2 to the network. Then, the connection unit 1e executes network connection processing with the monitored device 2.
  • connection unit 1e notifies the determination unit 1d that the network connection has failed.
  • the determination unit 1d determines that a network failure has occurred between the monitored device 2 and the monitored device 2 because the monitored device 2 is operating normally but cannot be connected to the network. Therefore, the determination unit 1d stores information indicating that a network failure has occurred in the storage device 1f.
  • FIG. 3 is a sequence diagram illustrating a processing procedure of the second example of the first embodiment.
  • the process illustrated in FIG. 3 will be described in order of step number.
  • the same step numbers as those in FIG. 2 are assigned to the same processes as those in FIG.
  • the network connection performed in step S7 is successful.
  • the connection unit 1e notifies the determination unit 1d that the network connection is successful. Although the determination unit 1d has not received the periodic monitoring suppression release instruction, it recognizes that the monitored device 2 has been restarted normally and communication via the network is possible because the network connection was successful. . Therefore, the determination unit 1d does not register information such as a failure in the storage device 1f because the monitored device 2 is operating normally.
  • the monitoring unit 1a can release the suppression of the regular monitoring and can resume the regular monitoring of the monitored device 2.
  • a process when the restart of the monitored apparatus 2 fails will be described.
  • FIG. 4 is a sequence diagram illustrating a processing procedure of the third example of the first embodiment. In the following, the process illustrated in FIG. 4 will be described in order of step number. In FIG. 4, the same processing as in FIG. 2 is assigned the same step number as in FIG.
  • Step S21 The monitoring device 3 responds to the information processing device 1 with the status of the monitored device 2 in response to an inquiry from the information processing device 1.
  • a response indicating that the monitored device 2 is abnormal is transmitted to the information processing device 1.
  • Step S22 Upon receiving the response from the monitoring device 3, the inquiry unit 1c of the information processing device 1 notifies the determination unit 1d of the content of the response.
  • the determination unit 1d recognizes that the monitored device 2 is abnormal, the determining unit 1d registers information indicating that the monitored device 2 has a failure in the storage device 1f.
  • the monitored device 2 is monitored by the information processing device 1 and the monitoring device 3. Even if communication between the information processing apparatus 1 and the monitored apparatus 2 is interrupted, if the communication can be normally performed between the monitoring apparatus 3 and the monitored apparatus 2, the operation of the monitored apparatus 2 is normal. It is judged that. As a result, it is possible to accurately determine whether the communication interruption with the monitored device 2 is caused by a failure of the monitored device 2 or a network failure.
  • the information processing apparatus 1 when the information processing apparatus 1 cannot receive the predetermined information from the monitored apparatus 2 even though the monitored apparatus 2 is operating normally, the information processing apparatus 1 A network connection to the monitored apparatus 2 is attempted. If the network connection is successful, the network fault information is not output. Thereby, excessive error detection can be suppressed.
  • the accuracy of the determination of whether or not the monitored device 2 is operating normally is improved, thereby reducing the man-hours for maintenance work and failure analysis work. Furthermore, since the detection of an excessive error can be suppressed, the maintenance worker can reduce the labor for finding an error that needs to be dealt with from a large number of errors, and the work efficiency is improved.
  • a multi-cluster is a system obtained by integrating a plurality of clusters.
  • FIG. 5 is a diagram illustrating a system configuration example according to the second embodiment.
  • a hardware control integration device A that manages the multi-cluster 300 is provided.
  • the multi-cluster 300 includes a large server 310, a shared memory device 320, and an I / O device 330.
  • the server 310 is a system including a plurality of clusters, for example.
  • the shared memory device 320 is a memory that can be shared by each cluster constituting the server 310.
  • the I / O device 330 is a device that inputs and outputs information to the server 310.
  • the hardware control integrated device A includes a console unit 100 and a management unit 200.
  • the console unit 100 controls the user interface.
  • the management unit 200 manages the multi-cluster 300 and the console unit 100.
  • the management unit 200 is connected to each of the server 310, the shared memory device 320, and the I / O device 330 of the multi-cluster 300 by, for example, a power control interface (I / F).
  • the management unit 200 can control the power supply of the devices in the multi-cluster 300 via the power supply control I / F.
  • the management unit 200 is connected to the console unit 100 through a plurality of LAN (Local Area Network) I / Fs.
  • LAN Local Area Network
  • the management unit 200 includes a server 210, a power control I / F extension device 221, a contact output I / F conversion device 222, an uninterruptible power supply (UPS) 223, and the like.
  • the power control I / F extension device 221 is a device that enables extension of the power control I / F connected to the multi-cluster 300.
  • the contact output I / F conversion device 222 is a device that converts the contact output I / F of the multi-cluster 300.
  • the UPS 223 is a device that supplies power to the hardware control integrated device A and the multi-cluster 300 for a certain period of time even when the input power is shut off.
  • the server 210 includes a management unit control unit 211 and a management unit server monitoring unit 212.
  • the management unit control unit 211 and the management unit internal server monitoring unit 212 are provided on separate modules, and are connected by, for example, a LAN.
  • the management unit control unit 211 controls the entire management unit 200.
  • the management unit control unit 211 is realized by a CPU in the management unit control unit 211 executing a control program that operates on an OS (Operating System) of the management unit 200.
  • the management unit server monitoring unit 212 monitors the operation of hardware in the server 210.
  • the in-management server monitoring unit 212 monitors the state of the server 210 itself such as the CPU, memory, and hard disk device (HDD), the number of rotations of the fan, and the temperature in the device.
  • HDD hard disk device
  • the management unit server monitoring unit 212 is realized, for example, by the CPU in the management unit server monitoring unit 212 executing a control program.
  • the instruction to the management unit server monitoring unit 212 can be given by command input via the console unit 100, for example.
  • the command input to the management unit server monitoring unit 212 can be performed not only from the command line of the console unit 100 but also from, for example, a Web browser of a terminal device connected via a network.
  • communication between the terminal device and the in-management server monitoring unit 212 is performed using an encryption communication technology such as SSH (Secure SHell) or SSL (Secure Socket Layer). Protected and secure.
  • FIG. 6 is a diagram illustrating a configuration example of the hardware of the console unit.
  • the console part 100 the whole apparatus is controlled by CPU101.
  • the CPU 101 is connected to the RAM 102 and a plurality of peripheral devices via a bus 109.
  • the RAM 102 is used as a main storage device of the console unit 100.
  • the RAM 102 temporarily stores at least a part of OS programs and application programs to be executed by the CPU 101.
  • the RAM 102 stores various data necessary for processing by the CPU 101.
  • Peripheral devices connected to the bus 109 include an HDD 103, a graphic processing device 104, an input interface 105, an optical drive device 106, and communication interfaces 107 and 108.
  • the HDD 103 magnetically writes and reads data to and from the built-in disk.
  • the HDD 103 is used as a secondary storage device of the console unit 100.
  • the HDD 103 stores an OS program, application programs, and various data.
  • a semiconductor storage device such as a flash memory can also be used as the secondary storage device.
  • a monitor 11 is connected to the graphic processing device 104.
  • the graphic processing device 104 displays an image on the screen of the monitor 11 in accordance with a command from the CPU 101.
  • Examples of the monitor 11 include a display device using a CRT (Cathode Ray Tube) and a liquid crystal display device.
  • a keyboard 12 and a mouse 13 are connected to the input interface 105.
  • the input interface 105 transmits a signal sent from the keyboard 12 or the mouse 13 to the CPU 101.
  • the mouse 13 is an example of a pointing device, and other pointing devices can also be used. Examples of other pointing devices include a touch panel, a tablet, a touch pad, and a trackball.
  • the optical drive device 106 reads data recorded on the optical disk 14 using a laser beam or the like.
  • the optical disk 14 is a portable recording medium on which data is recorded so that it can be read by reflection of light.
  • the optical disk 14 includes a DVD (Digital Versatile Disc), a DVD-RAM, a CD-ROM (Compact Disc Read Only Memory), a CD-R (Recordable) / RW (ReWritable), and the like.
  • the communication interface 107 is connected to the management unit control unit 211 via a LAN.
  • the communication interface 107 transmits / receives data to / from the management unit control unit 211.
  • the communication interface 108 is connected to the management unit server monitoring unit 212 via a LAN.
  • the communication interface 108 transmits / receives data to / from the management unit server monitoring unit 212.
  • the management unit control unit 211 and the management unit server monitoring unit 212 can also be realized by the same hardware configuration as the console unit 100. However, a display device such as a monitor and an input device such as a keyboard and a mouse may not be connected to the management unit control unit 211 and the management unit server monitoring unit 212.
  • Each information processing apparatus 1, monitored apparatus 2, and monitoring apparatus 3 shown in the first embodiment can also be realized by hardware similar to the computer shown in FIG.
  • the console unit 100, the management unit control unit 211, and the management unit server monitoring unit 212 are configured on individual modules.
  • the three units of the console unit 100, the management unit control unit 211, and the intra-management server monitoring unit 212 perform regular monitoring on two parties other than themselves.
  • regular monitoring for example, whether or not a device to be monitored (monitored device) is operating normally is monitored via the LAN.
  • Such operation monitoring via the LAN is called, for example, LAN path monitoring.
  • FIG. 7 is a block diagram showing the relationship between the monitoring and control devices.
  • the monitoring relationship between the devices is indicated by solid arrows.
  • the source of the solid line arrow is the device that performs monitoring, and the tip of the solid line arrow is the monitored device.
  • the control relationship between the devices is indicated by dotted arrows.
  • the source of the dotted arrow is the device that controls, and the tip of the dotted arrow is the device to be controlled.
  • the console unit 100 monitors the operations of the management unit control unit 211 and the management unit server monitoring unit 212 via the LAN.
  • the console unit 100 also controls the management unit control unit 211 and the intra-management server monitoring unit 212 via the LAN.
  • the management unit control unit 211 monitors the operations of the console unit 100 and the management unit server monitoring unit 212 via the LAN.
  • the management unit control unit 211 controls the console unit 100 and the management unit server monitoring unit 212 via the LAN.
  • the management unit server monitoring unit 212 monitors the operations of the console unit 100 and the management unit control unit 211 via the LAN. Further, the management unit server monitoring unit 212 controls the console unit 100 and the management unit control unit 211 via the LAN.
  • the console unit 100, the management unit control unit 211, and the server monitoring unit 212 in the management unit perform periodic operation monitoring with each other and can control other devices.
  • the reliability of operation monitoring is improved by using a control function between the devices.
  • console unit 100 the management unit control unit 211, and the intra-management server monitoring unit 212 use a control function between the devices, respectively, for two other than itself, a restart instruction and periodic monitoring at the time of restart A deterrence instruction can be notified.
  • console unit 100 when the console unit 100, the management unit control unit 211, and the server monitoring unit 212 in the management unit detect a network connection failure in any communication path, the console unit 100 tries the network reconnection process.
  • the apparatus is restarted, for example, when the internal clock is synchronized with the NTP server.
  • the management unit server monitoring unit 212 is restarted.
  • the restart of the management unit server monitoring unit 212 is performed based on an instruction from the management unit control unit 211, for example.
  • the management unit control unit 211 When the management unit control unit 211 notifies the server monitoring unit 212 in the management unit of the restart instruction, the management unit control unit 211 detects the LAN path monitoring error for itself so that the LAN monitoring error of the server monitoring unit 212 in the management unit is not detected. Perform deterrence. However, the console unit 100 does not assume that the server monitoring unit 212 in the management unit is restarted. Therefore, if monitoring of the management unit server monitoring unit 212 by the console unit 100 is not suppressed by any means, a LAN path monitoring error is detected in the console unit 100 when a restart instruction is issued to the management unit server monitoring unit 212. there is a possibility.
  • the server monitoring unit 212 in the management unit performs monitoring on a monitoring device (console unit 100) other than the device (management unit control unit 211) that instructs the restart when executing the restart.
  • the periodic monitoring suppression instruction is transmitted.
  • FIG. 8 is a block diagram illustrating an example of the function of each device.
  • the console unit 100 includes a regular monitoring unit 110, a monitoring status storage unit 120, a monitoring status control unit 130, a network connection unit 140, and an error log storage unit 150.
  • the regular monitoring unit 110 performs regular monitoring with the management unit control unit 211 and the server monitoring unit 212 within the management unit. For example, the regular monitoring unit 110 periodically transmits a regular monitoring message to each of the management unit control unit 211 and the intra-management unit server monitoring unit 212. When a response is returned from the device (monitored device) to which the periodic monitoring message is transmitted, the periodic monitoring unit 110 determines that the monitored device is operating normally. Further, the periodic monitoring unit 110 determines that the monitored device is not operating normally if no response is returned from the monitored device even after a predetermined periodic monitoring waiting time has elapsed. When it is determined that the monitored device is not operating normally by periodic monitoring, the periodic monitoring unit 110 stores the error log of the monitored device in the error log storage unit 150.
  • the regular monitoring message from the management unit control unit 211 or the intra-management server monitoring unit 212 to the console unit 100 is received by the regular monitoring unit 110, and the regular monitoring unit 110 returns a response to the transmission source of the regular monitoring message. .
  • the periodic monitoring unit 110 when the periodic monitoring suppression instruction is input from the management unit control unit 211 or the intra-management server monitoring unit 212, the periodic monitoring unit 110 temporarily stops the periodic monitoring for the transmission source of the periodic monitoring suppression instruction. When a periodic monitoring cancellation instruction is input from a device that has stopped periodic monitoring, the periodic monitoring unit 110 resumes periodic monitoring of the device. If the periodic monitoring suppression release instruction is not input from the device that has stopped the periodic monitoring even after a predetermined suppression release waiting time limit has elapsed, the periodic monitoring unit 110 sets the device as a confirmation target device. The regular monitoring unit 110 notifies the monitoring status control unit 130 of information on the confirmation target device.
  • the regular monitoring unit 110 stores the status of the monitored device recognized by the regular monitoring in the monitoring status storage unit 120 as a monitoring status.
  • the monitoring status indicates, for example, the states of “monitoring”, “monitoring inhibited”, “response received”, and “monitoring timeout”.
  • “Monitoring” is a state indicating that periodic monitoring is being executed.
  • “Monitoring is being suppressed” is a state indicating that periodic monitoring is being suppressed.
  • Reply received is a state indicating that a normal response to the periodic monitoring command has been received.
  • Monitoring timeout is a state indicating that a response to the periodic monitoring command was not received and timed out.
  • the regular monitoring unit 110 cooperates with the regular monitoring units 211a and 212a of other devices to periodically perform synchronization processing of the monitoring status storage units 120, 211b, and 212b of each device.
  • the synchronization process is a process for making the contents of the monitoring status storage units 120, 211b, and 212b the same.
  • the monitoring status storage unit 120 stores the monitoring status. For example, a part of the storage area of the RAM 102 or the HDD 103 is used as the monitoring status storage unit 120.
  • the monitoring status control unit 130 transmits / receives monitoring status information to / from the management unit control unit 211 or the intra-management server monitoring unit 212. For example, when the monitoring status control unit 130 acquires information on the confirmation target device from the periodic monitoring unit 110, the monitoring status control unit 130 transmits a monitoring status request regarding the confirmation target device to the device monitoring the confirmation target device. Then, the monitoring status control unit 130 determines whether there is a failure in the confirmation target device based on the monitoring status indicated in response to the monitoring status request.
  • the monitoring status control unit 130 determines that a failure has occurred in the confirmation target device. If it is determined that a failure has occurred in the confirmation target device, the monitoring status control unit 130 stores information regarding the failure in the error log storage unit 150. In addition, when the monitoring status control unit 130 acquires a monitoring status indicating that it is operating normally in monitoring the confirmation target device, the monitoring status control unit 130 determines that a failure has occurred in the network with the confirmation target device. When it is determined that a failure has occurred in the network with the confirmation target device, the monitoring status control unit 130 requests the network connection unit 140 to connect the network to the confirmation target device.
  • the network connection unit 140 performs network connection with the management unit control unit 211 or the management unit server monitoring unit 212.
  • the network connection is a process for establishing a connection between the management unit control unit 211 and the intra-management server monitoring unit 212, for example.
  • the network connection unit 140 performs network connection to the confirmation target device in response to a request from the monitoring status control unit 130.
  • the network connection unit 140 performs network connection with the management unit control unit 211 and the intra-management server monitoring unit 212 after activation. If the network connection unit 140 fails to connect to the confirmation target device, the network connection unit 140 stores an error log of the network failure in the error log storage unit 150.
  • the error log storage unit 150 stores an error log. For example, a part of the storage area of the RAM 102 or the HDD 103 is used as the error log storage unit 150.
  • the management unit control unit 211 includes a regular monitoring unit 211a, a monitoring status storage unit 211b, a monitoring status control unit 211c, a network connection unit 211d, an error log storage unit 211e, and a restart instruction unit 211f.
  • the regular monitoring unit 211a, the monitoring status storage unit 211b, the monitoring status control unit 211c, the network connection unit 211d, and the error log storage unit 211e have the same functions as the elements of the same name in the console unit 100.
  • the restart instruction unit 211f instructs the server monitoring unit 212 in the management unit to restart.
  • the intra-management unit server monitoring unit 212 includes a regular monitoring unit 212a, a monitoring status storage unit 212b, a monitoring status control unit 212c, a network connection unit 212d, an error log storage unit 212e, and a restart unit 212f.
  • the regular monitoring unit 212a, the monitoring status storage unit 212b, the monitoring status control unit 212c, the network connection unit 212d, and the error log storage unit 212e have the same functions as the elements of the same name in the console unit 100.
  • the restarting unit 212f performs a restart process of the intra-management server monitoring unit 212 in response to a restart instruction from the management unit control unit 211.
  • the console unit 100, the management unit control unit 211, and the management unit server monitoring unit 212 have various functions not shown in addition to the functions used for operation monitoring.
  • the regular monitoring units 110, 211a, and 212a are examples of functions that include the monitoring unit 1a and the time measuring unit 1b of the first embodiment shown in FIG.
  • the monitoring status control units 130, 211c, and 212c are an example of a function that includes the inquiry unit 1c and the determination unit 1d according to the first embodiment illustrated in FIG.
  • the network connection units 140, 211d, and 212d are examples of functions that include the connection unit 1e of the first embodiment shown in FIG.
  • the error log storage units 150, 211e, and 212e are examples of functions that include the storage device 1f according to the first embodiment illustrated in FIG.
  • FIG. 9 is a diagram illustrating an example of a data structure of the monitoring status storage unit.
  • the monitoring status storage unit 120 stores a plurality of pieces of monitoring status information 121, 122, 123, ..., 12n in a data chain type data structure.
  • the monitoring status information 121, 122, 123,..., 12n is a set of monitored module information, monitored module device number, monitored module status, data lock information, and pointer to the next database.
  • the monitored module information is identification information such as the name of the monitored device mounted on the module.
  • the device number of the monitored module is an identification number of the monitored device mounted on the module.
  • the status of the monitored module is the monitoring status of the monitored device mounted on the module.
  • the data lock information is information used for exclusive control of data, and is information indicating whether or not update of data is prohibited.
  • the regular monitoring unit 110 avoids contention for data update processing by updating data lock information.
  • the data structure of the monitoring status storage unit 211b of the management unit control unit 211 and the monitoring status storage unit 212b of the intra-management server monitoring unit 212 is also the same as the data structure of the monitoring status storage unit 120 of the console unit 100 shown in FIG. It is the same.
  • the monitoring status storage units 120, 211b, and 212b of each device are controlled so as to have the same contents by the synchronization process.
  • FIG. 10 is a diagram illustrating an example of a data structure of the error log storage unit.
  • the error log storage unit 150 stores a plurality of error logs 151, 152, 153,.
  • the error logs 151, 152, 153,... Include date, status, suspected location, message, and detailed code.
  • the date is the date and time when the error log is acquired.
  • the status is the type of event that has occurred, such as “error” or “warning”.
  • the suspected place is information indicating a device determined to be an error.
  • the message is a character string indicating the type of error.
  • the detail code (Detail Code) is information that can be used for error analysis, which is acquired when an error occurs.
  • the detail code includes the device type and device number of each of the monitoring device and the monitored device. Therefore, by referring to the detailed code, it is possible to determine which device has an error in monitoring.
  • the HLC is a format in which an HLC command frame and an HLC command response frame used for transmitting a response to the HLC command are paired.
  • FIG. 11 is a diagram showing the format of the HLC command frame.
  • the command frame 21 includes “frame length”, “command code”, “source node address”, “destination node address”, “RUN-LEVEL”, “command sequence number”, “control flag”, “source”
  • Each field 21-1 to 21-13 includes “extended node address”, “destination extended node address”, “device type”, “device number”, “reserve”, and "parameter part”.
  • the part excluding the “parameter part” field 21-13 is the header part.
  • the total size of the command frame 21 is 4096 bytes at the maximum.
  • the data length of the command frame 21 is set as 4-byte data.
  • the data length of the command frame 21 is a data length including the header part.
  • command code In the “command code” field 21-2, a 2-byte code (command code) indicating the type of the high-level command is set.
  • the 0 bit of the command code is a command / response bit and indicates the distinction between the command frame and the response frame. For example, in the case of a command frame, “0” is set in the command / response bit. In the case of a response frame, “1” is set in the command / response bit.
  • ⁇ 1 to 7 bits of command code (range of values that can be expressed is “0x00 to 0x7F”) is a classification code.
  • the classification code indicates the classification of the high level command.
  • the 8 to 15 bits of the command code (the range of values that can be expressed is “0x00 to 0xFF”) indicates the function of the high-level command.
  • the combination of the classification code and the function code represents the content of the high level command. For example, if “classification code + function code” is “0x4002,” it is a health check (periodic monitoring) command. If “classification code + function code” is “0x4003”, the command is a communication start command. If “classification code + function code” is “0x4004”, it is a communication stop command. If the “classification code + function code” is “0x4010”, it is a survival confirmation (monitoring status request) command.
  • a 2-byte address (node address) of a device (node) that transmits a command frame is set.
  • a 2-byte address (node address) of a device (node) that receives the command frame is set.
  • control flag a 4-byte flag indicating whether the extended node address is valid is set.
  • the 4-byte node address of the extended node that transmits the command frame is set in the “source extended node address” field 21-8.
  • the 4-byte node address of the extended node that receives the command frame is set in the “destination extended node address” field 21-9.
  • the “device type” field 21-10 the type of the device (confirmation target device) whose monitoring status is confirmed by the monitoring status request is set as 1-byte data.
  • the following devices are assigned to each bit of the device type field. 1) Console unit 100 (bit “0”) 2) Management unit control unit 211 (bit “1”) 3) In-management server monitoring unit 212 (bit “2”) 4) Reserve (bit “3-7”) For example, a device assigned to a bit whose value is “1” is a confirmation target device.
  • the device number of the confirmation target device specified in the “device type” field 21-10 is set as 1-byte data.
  • the “Reserve” field 21-12 is a spare 2-byte area.
  • FIG. 12 is a diagram showing the format of the HLC response frame.
  • the response frame 22 includes “frame length”, “command code”, “source node address”, “destination node address”, “RUN-LEVEL”, “command sequence number”, “control flag”, “source”
  • Each field 22-1 to 22-12 includes “extended node address”, “destination extended node address”, “status”, “error code”, and "parameter part”.
  • a 1-byte monitoring status 22-13 is set as one of the parameters in the "parameter part” field 22-12.
  • the monitoring status 22-13 indicates the state of the confirmation target device depending on which bit of 1-byte data is set to “1”. The following states are assigned to each bit of the monitoring status 22-13.
  • FIG. 13 is a sequence diagram showing a first example of the operation monitoring processing procedure.
  • the process illustrated in FIG. 13 is an example of a process procedure when all apparatuses and each other's communication are operating normally. In the following, the process illustrated in FIG. 13 will be described in order of step number.
  • the regular monitoring unit 110 of the console unit 100 performs regular monitoring of the server monitoring unit 212 in the management unit.
  • the regular monitoring unit 110 transmits an HLC command for regular monitoring to the server monitoring unit 212 in the management unit.
  • the periodic monitoring unit 212a of the server monitoring unit 212 in the management unit recognizes that the console unit 100 is operating normally by receiving the periodic monitoring HLC command from the console unit 100. If there is a change in the state of the console unit 100, the regular monitoring unit 212a updates the status of the monitoring status information corresponding to the console unit 100 in the monitoring status storage unit 212b.
  • Step S102 The periodic monitoring unit 212a of the intra-management server monitoring unit 212 returns a normal response to the periodic monitoring HLC command sent from the console unit 100.
  • a normal response 0 is set in all the bits of the status field 22-10 of the response frame 22.
  • the regular monitoring unit 110 of the console unit 100 receives a normal response from the server monitoring unit 212 within the management unit. At this time, if there is a change in the state of the management unit server monitoring unit 212, the regular monitoring unit 110 updates the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120.
  • the regular monitoring unit 110 of the console unit 100 performs regular monitoring of the management unit control unit 211.
  • the regular monitoring unit 110 transmits an HLC command for regular monitoring to the management unit control unit 211.
  • the periodic monitoring unit 211a of the management unit control unit 211 recognizes that the console unit 100 is operating normally by receiving the periodic monitoring HLC command from the console unit 100. If the state of the console unit 100 is changed, the regular monitoring unit 211a updates the status of the monitoring status information corresponding to the console unit 100 in the monitoring status storage unit 211b.
  • Step S104 The regular monitoring unit 211a of the management unit control unit 211 returns a normal response to the regular monitoring HLC command sent from the console unit 100. At this time, if there is a change in the state of the management unit control unit 211, the regular monitoring unit 110 updates the status of the monitoring status information corresponding to the management unit control unit 211 in the monitoring status storage unit 120.
  • the regular monitoring unit 211a of the management unit control unit 211 performs regular monitoring of the management unit server monitoring unit 212.
  • the periodic monitoring unit 211 a transmits an HLC command for periodic monitoring to the server monitoring unit 212 within the management unit.
  • the periodic monitoring unit 212a of the server monitoring unit 212 in the management unit recognizes that the management unit control unit 211 is operating normally by receiving the periodic monitoring HLC command from the management unit control unit 211. If there is a change in the state of the management unit control unit 211, the regular monitoring unit 212a updates the status of the monitoring status information corresponding to the management unit control unit 211 in the monitoring status storage unit 212b.
  • Step S106 The periodic monitoring unit 212a of the server monitoring unit 212 in the management unit returns a normal response to the HLC command for periodic monitoring sent from the management unit control unit 211. At this time, if there is a change in the state of the management unit server monitoring unit 212, the regular monitoring unit 211a updates the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 211b.
  • steps S101 to S106 is periodically repeated, so that the console unit 100, the management unit control unit 211, and the intra-management server monitoring unit 212 can monitor the operations of other devices.
  • the server monitoring unit 212 in the management unit is restarted, for example, for synchronizing the internal clock of the server monitoring unit 212 in the management unit with the clock of the NTP server.
  • the restart instruction is passed to the management unit control unit 211.
  • the restart processing of the management unit server monitoring unit 212 is performed in the following procedure.
  • the restart instruction unit 211f of the management unit control unit 211 transmits a restart instruction to the server monitoring unit 212 in the management unit. At this time, the restart instruction unit 211f notifies the periodic monitoring unit 211a that the server monitoring unit 212 in the management unit has been restarted. The periodic monitoring unit 211a that has received the notification does not determine that there is an error even if there is no response to the periodic monitoring of the intra-management server monitoring unit 212 for a predetermined period thereafter.
  • the restart unit 212f of the management unit server monitoring unit 212 receives the restart instruction from the management unit control unit 211. Then, the restart unit 212f notifies the periodic monitoring unit 212a that restart is performed based on an instruction from the management unit control unit 211. Then, the regular monitoring unit 212 a transmits a regular monitoring inhibition instruction to the console unit 100.
  • the restarting unit 212f confirms that the periodic monitoring suppression instruction has been transmitted, and starts restarting the intra-management server monitoring unit 212.
  • all the functions of the in-management server monitoring unit 212 are temporarily stopped, and after initializing data such as a memory, each function is started.
  • the periodic monitoring unit 110 of the console unit 100 suppresses the periodic monitoring of the management unit server monitoring unit 212 in response to the periodic monitoring suppression instruction from the management unit server monitoring unit 212.
  • the regular monitoring unit 110 changes the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “monitoring inhibited”. Changes to the monitoring status storage unit 120 are also reflected in the other monitoring status storage units 211b and 212b by the synchronization processing between the periodic monitoring units 110, 211a, and 212a of each device.
  • the periodic monitoring unit 110 continues the periodic monitoring of the management unit control unit 211 and transmits a periodic monitoring HLC command to the management unit control unit 211.
  • the periodic monitoring unit 211a of the management unit control unit 211 returns a normal response to the periodic monitoring HLC command sent from the console unit 100.
  • the regular monitoring unit 211a of the management unit control unit 211 performs regular monitoring of the management unit server monitoring unit 212.
  • the periodic monitoring unit 211 a transmits an HLC command for periodic monitoring to the server monitoring unit 212 within the management unit. While the management unit server monitoring unit 212 is being restarted, a response to the periodic monitoring HLC command to the management unit server monitoring unit 212 is not returned.
  • step S113 to step S115 is the same as the processing from step S110 to step S112, respectively. Thereafter, processing similar to that in steps S110 to S112 is periodically performed.
  • Step S121 The restart of the management unit server monitoring unit 212 is completed.
  • the network connection unit 212d performs network connection with the console unit 100.
  • the network connection is a setting to enable communication via the network.
  • the network connection unit 212d performs network connection with the management unit control unit 211.
  • the intra-management server monitoring unit 212 can perform communication such as HLC with each of the console unit 100 and the management unit control unit 211.
  • the periodic monitoring unit 212a transmits a periodic monitoring suppression release instruction to the console unit 100 after activation.
  • the periodic monitoring unit 110 of the console unit 100 receives the periodic monitoring suppression release instruction, the periodic monitoring unit 110 resumes the periodic monitoring of the management unit server monitoring unit 212.
  • the regular monitoring unit 110 changes the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “being monitored”. Changes to the monitoring status storage unit 120 are also reflected in the other monitoring status storage units 211b and 212b by the synchronization processing between the periodic monitoring units 110, 211a, and 212a of each device.
  • step S123 to step S128 is the same as the processing from step S101 to step S106, respectively. Thereafter, processing similar to that in steps S101 to S106 is periodically performed.
  • FIG. 14 is a sequence diagram showing a second example of the operation monitoring processing procedure.
  • the process illustrated in FIG. 14 is an example of a processing procedure when the network connection between the management unit server monitoring unit 212 and the console unit 100 after the restart fails.
  • the server monitoring unit 212 in the management unit has failed in the network connection with the console unit 100 although the restart process has been completed. Therefore, the console unit 100 cannot receive the periodic monitoring suppression release instruction from the management unit server monitoring unit 212 to the console unit 100.
  • Step S131 The periodic monitoring unit 211a of the management unit control unit 211 performs periodic monitoring by transmitting an HLC command for periodic monitoring to the server monitoring unit 212 in the management unit.
  • Step S ⁇ b> 132 The regular monitoring unit 212 a of the management unit server monitoring unit 212 returns a normal response to the regular monitoring HLC command sent from the management unit control unit 211.
  • the regular monitoring unit 211a that has received the normal response changes the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 211b to “response received”.
  • the periodic monitoring unit 110 of the console unit 100 detects that a predetermined suppression release waiting time limit has elapsed since the reception of the periodic monitoring suppression instruction without receiving the periodic monitoring suppression cancellation instruction.
  • a predetermined suppression release waiting time limit for example, a slightly longer time is set for the time required for restarting the intra-management server monitoring unit 212.
  • the periodic monitoring unit 110 notifies the monitoring status control unit 130 of the timeout of the suppression waiting time limit.
  • the monitoring status control unit 130 transmits, to the management unit control unit 211, a monitoring status request in which the management unit server monitoring unit 212 is designated as the confirmation target device.
  • Step S134 Upon receiving the monitoring status request, the monitoring status control unit 211c of the management unit control unit 211 acquires the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 211b. Then, the monitoring status control unit 211c transmits a normal response including the acquired status as the monitoring status to the console unit 100.
  • Step S135 The monitoring status control unit 130 of the console unit 100 recognizes that the intra-management server monitoring unit 212 is operating normally based on the monitoring status included in the normal response from the management unit control unit 211. At this time, the monitoring status control unit 130 temporarily determines that a network failure has occurred. Then, the monitoring status control unit 130 requests the network connection unit 140 to establish a network connection with the management unit server monitoring unit 212. In response to a request from the monitoring status control unit 130, the network connection unit 140 attempts network connection to the management unit server monitoring unit 212. In this example, it is assumed that the network connection is successful.
  • Step S136 The network connection unit 212d of the server monitoring unit 212 in the management unit transmits a normal response indicating that the network is normally connected to the console unit 100.
  • the network connection unit 140 of the console unit 100 notifies the monitoring status control unit 130 that the network connection is successful.
  • the monitoring status control unit 130 cancels the provisional determination that a network failure has occurred.
  • the monitoring status control unit 130 notifies the regular monitoring unit 110 that communication with the server monitoring unit 212 in the management unit can be normally performed.
  • the periodic monitoring unit 110 resumes the periodic monitoring of the server monitoring unit 212 in the management unit.
  • the regular monitoring unit 110 changes the status of the management status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “being monitored”. This status is further changed to “response received” when a response to the periodic monitoring is received.
  • the network connection from the management unit server monitoring unit 212 may be possible.
  • the network cannot be temporarily connected, and there is a possibility that the periodic monitoring unit 110 may detect a timeout of the periodic monitoring suppression release instruction.
  • the work man-hours will be devoted to the event investigation.
  • the periodic monitoring unit 110 performs periodic monitoring by transmitting an HLC command for periodic monitoring to the server monitoring unit 212 in the management unit.
  • the periodic monitoring unit 110 stores the error log of the periodic monitoring error in the error log storage unit 150 when the periodical response waiting time limit for the periodic monitoring times out. At this time, the regular monitoring unit 110 changes the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “monitoring timeout”, for example.
  • FIG. 15 is a diagram showing an example of an error log when a timeout occurs during regular monitoring. “Error” is set as the status (Status) in the error log 151 when a timeout occurs in the regular monitoring. In addition, a message “Alive check error” indicating that periodic monitoring has failed is set as a message.
  • FIG. 16 is a sequence diagram showing a third example of the operation monitoring processing procedure.
  • the processing shown in FIG. 16 fails in the network connection with the console unit 100 by the management unit server monitoring unit 212 after the restart, and the network connection with the management unit server monitoring unit 212 by the console unit 100 is also performed. It is an example of the process sequence when it fails.
  • step S139 the same steps as those in FIG. 14 are assigned the same step numbers as those in FIG. 16 is different from FIG. 14 only in step S139.
  • Step S139 There is no response from the management unit server monitoring unit 212 to the network connection from the console unit 100 to the management unit server monitoring unit 212. Therefore, the network connection unit 140 notifies the monitoring status control unit 130 that the network connection has failed. Then, the monitoring status control unit 130 determines that a network failure has occurred, and stores the network failure error log in the error log storage unit 150. That is, since the monitoring status control unit 130 confirms that the server monitoring unit 212 in the management unit is operating based on the monitoring status acquired from the management unit control unit 211, the network cannot be connected because of a network failure. Judged to be the cause. The monitoring status control unit 130 stores an error log of network failure.
  • FIG. 17 is a diagram showing an example of an error log when network reconnection fails.
  • “Error” is set as the status (Status).
  • a message “Network connect error” indicating that the network connection has failed is set as a message.
  • FIG. 18 is a sequence diagram illustrating a fourth example of the operation monitoring processing procedure.
  • the process illustrated in FIG. 18 is an example of a processing procedure when the in-management server monitoring unit 212 fails to restart.
  • step numbers as those in FIG. 14 are assigned to the same processes as those in FIG. 18 is different from that in FIG. 14 after step S141.
  • Step S141 The server monitoring unit 212 in the management unit has failed to restart. For this reason, a response is received even if the periodic monitoring unit 211a of the management unit control unit 211 performs periodic monitoring after the restart waiting time limit has elapsed since the restart instruction to the management unit server monitoring unit 212 has been issued. I can't. As a result, a periodic monitoring timeout occurs.
  • Step S142 When the periodic monitoring time-out occurs after the restart waiting time limit elapses, the periodic monitoring unit 211a stores a restart monitoring time-out error log in the error log storage unit 211e. Further, the regular monitoring unit 211a changes the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 211b to “monitoring timeout”.
  • Step S143 The periodic monitoring unit 110 of the console unit 100 detects that a predetermined suppression release waiting time limit has elapsed since the reception of the periodic monitoring suppression instruction without receiving the periodic monitoring suppression cancellation instruction. Then, the regular monitoring unit 110 notifies the monitoring status control unit 130 of the timeout of the suppression waiting time limit. Upon receiving the notification, the monitoring status control unit 130 transmits, to the management unit control unit 211, a monitoring status request in which the management unit server monitoring unit 212 is designated as the confirmation target device.
  • Step S144 Upon receiving the monitoring status request, the monitoring status control unit 211c of the management unit control unit 211 acquires the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 211b. Then, the monitoring status control unit 211c transmits a normal response including the acquired status as the monitoring status to the console unit 100.
  • the monitoring status included in this normal response is “monitoring timeout”.
  • Step S145 Based on the monitoring status included in the normal response from the management unit control unit 211, the monitoring status control unit 130 of the console unit 100 recognizes that the in-management server monitoring unit 212 is not operating normally. Therefore, the monitoring status control unit 130 registers the restart monitoring timeout error log in the error log storage unit 150.
  • FIG. 19 is a diagram showing an example of an error log at the time of restart failure.
  • “Error” is set as the status (Status).
  • a message “Reboot Timeout” indicating that the restart has failed is set as a message.
  • FIG. 20 is a sequence diagram illustrating a fifth example of the operation monitoring process.
  • the processing illustrated in FIG. 20 is an example of a processing procedure when acquisition of the monitoring status fails.
  • step S151 the same step numbers as those in FIG. 14 are assigned to the same processes as those in FIG. The processing different from FIG. 14 in the processing of FIG. 20 is after step S151.
  • Step S151 The periodic monitoring unit 110 of the console unit 100 detects that a predetermined suppression release waiting time limit has elapsed since the reception of the periodic monitoring suppression instruction without receiving the periodic monitoring suppression cancellation instruction. Then, the regular monitoring unit 110 notifies the monitoring status control unit 130 of the timeout of the suppression waiting time limit. Upon receiving the notification, the monitoring status control unit 130 transmits, to the management unit control unit 211, a monitoring status request in which the management unit server monitoring unit 212 is designated as the confirmation target device.
  • Step S152 The periodic monitoring unit 110 confirms that the response waiting time limit for the monitoring status request has timed out, and registers an error log of the HCL communication error in the error log storage unit 150.
  • FIG. 21 is a diagram showing an example of an error log of HLC communication errors.
  • “Error” is set as the status (Status).
  • a message “HLC communication error” indicating that the HLC communication has failed is set as a message.
  • the error log to be output differs depending on the monitoring status acquisition status and the contents of the acquired monitoring status even if the periodic monitoring suppression cancellation instruction is not input even after the periodical monitoring suppression cancellation wait time limit has elapsed. .
  • the processing procedure of each device from periodic monitoring to outputting an error log will be described.
  • the periodic monitoring processing includes active periodic monitoring such as polling and passive periodic monitoring such as heartbeat.
  • active periodic monitoring a periodic monitoring command is transmitted to the other party and a response is received to confirm that the system is operating.
  • passive periodic monitoring it is recognized that the partner device is operating while the periodic monitoring command transmitted from the partner can be periodically received.
  • the console unit 100 actively monitors the management unit control unit 211 and the management unit server monitoring unit 212 periodically.
  • the management unit control unit 211 actively and periodically monitors the intra-management server monitoring unit 212 and passively monitors the console unit 100.
  • the management unit server monitoring unit 212 passively and regularly monitors the console unit 100 and the management unit control unit 211.
  • FIG. 22 is a flowchart showing an active periodic monitoring procedure. In the following, the process illustrated in FIG. 22 will be described in order of step number. In the following description, it is assumed that the console unit 100 performs regular monitoring of the server monitoring unit 212 within the management unit.
  • the periodic monitoring unit 110 determines whether or not the periodic monitoring of the intra-management server monitoring unit 212 is being suppressed. For example, if the status of the monitoring status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 is “monitoring inhibited”, the periodic monitoring unit 110 determines that the periodic monitoring is being inhibited. If the regular monitoring is being suppressed, the regular monitoring unit 110 repeats the process of step S201. If the regular monitoring is not being suppressed, the regular monitoring unit 110 advances the process to step S202.
  • the periodic monitoring unit 110 transmits an HLC command for periodic monitoring to the server monitoring unit 212 in the management unit.
  • the regular monitoring unit 110 activates a regular monitoring timer and starts measuring time.
  • Step S204 The periodic monitoring unit 110 determines whether or not a periodic monitoring suppression instruction is received from the server monitoring unit 212 within the management unit. If the periodic monitoring unit 110 receives a periodic monitoring suppression instruction, the process proceeds to step S206. If the periodic monitoring unit 110 has not received the periodic monitoring suppression instruction, the process proceeds to step S205.
  • Step S205 The regular monitoring unit 110 determines whether or not a response to the regular monitoring HLC command has been received. If the periodic monitoring unit 110 receives a response, the process proceeds to step S206. If the periodic monitoring unit 110 has not received a response, the process proceeds to step S208.
  • Step S206 The periodic monitoring unit 110 stops the periodic monitoring timer and resets the timer value to “0”.
  • Step S207 The regular monitoring unit 110 waits for a predetermined time. Thereafter, the regular monitoring unit 110 advances the process to step S201.
  • the periodic monitoring unit 110 determines whether or not the time limit for waiting for a response for the periodic monitoring has timed out. For example, the periodic monitoring unit 110 determines that a time-out has occurred when the time of the periodic monitoring timer is equal to or longer than the periodical response waiting time limit. If time-out has occurred, the regular monitoring unit 110 advances the process to step S209. If not timed out, the regular monitoring unit 110 advances the process to step S204.
  • the periodic monitoring unit 110 stores an error log of the periodic monitoring error in the error log storage unit 150 when the time limit for waiting for a response to periodic monitoring times out. Thereafter, the process ends.
  • FIG. 23 is a flowchart showing a procedure for passive periodic monitoring. In the following, the process illustrated in FIG. 23 will be described in order of step number. In the following description, it is assumed that the management unit control unit 211 performs regular monitoring of the console unit 100.
  • the regular monitoring unit 211a determines whether the regular monitoring of the console unit 100 is being suppressed. For example, if the status of the monitoring status information corresponding to the console unit 100 in the monitoring status storage unit 211b is “monitoring inhibited”, the periodic monitoring unit 211a determines that the periodic monitoring is being inhibited. If the regular monitoring is being suppressed, the regular monitoring unit 211a repeats the process of step S211. If the regular monitoring is not being suppressed, the regular monitoring unit 211a advances the process to step S212.
  • Step S212 The regular monitoring unit 211a activates a regular monitoring timer and starts measuring time.
  • Step S213 The periodic monitoring unit 211a determines whether a periodic monitoring suppression instruction has been received from the console unit 100. If the periodic monitoring unit 211a receives the periodic monitoring suppression instruction, the process proceeds to step S216. If the periodic monitoring unit 211a has not received the periodic monitoring suppression instruction, the process proceeds to step S214.
  • Step S214 The periodic monitoring unit 211a determines whether or not the periodic monitoring HLC command has been received. When receiving the HLC command, the regular monitoring unit 211a advances the process to step S215. If the HLC command is not received, the regular monitoring unit 211a advances the process to step S218.
  • Step S215 The regular monitoring unit 211a transmits a response to the console unit 100.
  • Step S216 The periodic monitoring unit 211a stops the periodic monitoring timer and resets the timer value to “0”.
  • Step S217 The regular monitoring unit 211a waits for a predetermined time. Thereafter, the regular monitoring unit 211a advances the process to step S211.
  • step S218 If the periodic monitoring unit 211a has not received the periodic monitoring HLC command, the periodic monitoring unit 211a determines whether the waiting time limit for periodic monitoring has timed out. For example, the periodical monitoring unit 211a determines that a time-out has occurred if the periodical monitoring timer time is equal to or greater than the periodical monitoring wait time limit. If the time-out has occurred, the regular monitoring unit 211a advances the process to step S219. If not timed out, the regular monitoring unit 211a advances the process to step S213.
  • the periodic monitoring unit 211a stores the error log of the periodic monitoring error in the error log storage unit 211e when the waiting time limit for periodic monitoring times out. Thereafter, the process ends.
  • FIG. 24 is a first diagram illustrating an example of the procedure of the periodic monitoring suppression management process. In the following, the process illustrated in FIG. 24 will be described in order of step number. The following processing is started when a periodic monitoring suppression instruction is received.
  • Step S221 When the periodic monitoring unit 110 receives the periodic monitoring suppression instruction from the management unit server monitoring unit 212, the periodic monitoring unit 110 starts a timer for waiting for the cancellation of suppression and starts measuring time. At this time, the regular monitoring unit 110 changes the status of the management status information corresponding to the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “monitoring inhibited”, for example.
  • the periodic monitoring unit 110 determines whether or not a periodic monitoring suppression release instruction has been received from the intra-management server monitoring unit 212.
  • the periodic monitoring unit 110 changes the status of the management status information corresponding to, for example, the management unit server monitoring unit 212 in the monitoring status storage unit 120 to “being monitored” and ends the processing. To do.
  • the periodic monitoring unit 110 determines whether or not the suppression release waiting time limit has timed out. For example, the periodic monitoring unit 110 determines that a time-out has occurred when the time of the timer for waiting for the release of suppression reaches a predetermined time limit for waiting for the release of suppression. If the time-out has occurred, the periodic monitoring unit 110 notifies the monitoring status control unit 130 of the time-out of the suppression release waiting time limit, and advances the process to step S224. If the time-out monitoring unit 110 has not timed out, the process proceeds to step S222.
  • Step S224 Upon receiving notification of the timeout of the suppression release waiting time limit, the monitoring status control unit 130 transmits a monitoring status request to the management unit control unit 211.
  • the server monitoring unit 212 in the management unit is designated as the confirmation target device.
  • Step S225 The monitoring status control unit 130 activates a timer for monitoring status and starts measuring time. Thereafter, the monitoring status control unit 130 proceeds with the process to step S226 (see FIG. 25).
  • FIG. 25 is a second diagram illustrating an example of the procedure of the periodic monitoring suppression management process. In the following, the process illustrated in FIG. 25 will be described in order of step number.
  • Step S226 The monitoring status control unit 130 determines whether a monitoring status response has been received. If the monitoring status control unit 130 receives a response, the monitoring status control unit 130 proceeds with the process to step S229. If the monitoring status control unit 130 has not received a response, the monitoring status control unit 130 advances the process to step S227.
  • Step S227 When the monitoring status control unit 130 has not received a monitoring status response, the monitoring status control unit 130 determines whether or not the monitoring status response waiting time limit has timed out. For example, the monitoring status control unit 130 determines that a timeout has occurred when the time of the monitoring status timer becomes equal to or longer than the monitoring status response waiting time limit. If the monitoring status control unit 130 times out, the process proceeds to step S228. If the monitoring status control unit 130 has not timed out, the process proceeds to step S226.
  • the monitoring status control unit 130 registers an error log of the HLC communication error in the error log storage unit 150 when the response waiting time limit of the monitoring status times out. Thereafter, the monitoring status control unit 130 ends the process.
  • the monitoring status control unit 130 determines whether the acquired monitoring status is at least one of “monitoring” or “response received”. If the monitoring status is either “monitoring” or “response received”, the monitoring status control unit 130 advances the process to step S230. If the monitoring status is neither “monitoring” nor “response received”, the monitoring status control unit 130 advances the process to step S233.
  • Step S230 The monitoring status control unit 130 tries to connect the network to the server monitoring unit 212 in the management unit.
  • Step S231 The monitoring status control unit 130 determines whether a response indicating that the network connection has been executed is received from the intra-management server monitoring unit 212. When the monitoring status control unit 130 receives a response, the monitoring status control unit 130 ends the process. If the monitoring status control unit 130 fails to receive a response, the monitoring status control unit 130 advances the process to step S232.
  • the case where the response could not be received is, for example, the case where the response could not be received even after a predetermined time limit has elapsed since the network connection was attempted.
  • the monitoring status control unit 130 registers an error log of the network failure in the error log storage unit 150. Thereafter, the process ends.
  • the monitoring status control unit 130 determines whether the acquired monitoring status is at least one of “monitoring being inhibited” or “monitoring timeout”. If the monitoring status is either “monitoring inhibited” or “monitoring timeout”, the monitoring status control unit 130 advances the process to step S234. If the monitoring status is neither “monitoring inhibited” or “monitoring timeout”, the monitoring status control unit 130 ends the process.
  • Step S234 The monitoring status control unit 130 registers the restart monitoring timeout error log in the error log storage unit 150. Thereafter, the monitoring status control unit 130 ends the process.
  • the network connection from the management unit server monitoring unit 212 to the console unit 100 is possible.
  • the console unit 100 when the time limit for waiting for deactivation of periodic monitoring in the console unit 100 times out, the console unit 100 tries to connect to the server monitoring unit 212 in the management unit. If the network connection is successful, communication between the console unit 100 and the management unit server monitoring unit 212 can be normally performed thereafter. Therefore, when the network connection from the console unit 100 is successful, it is not handled as an error, and excessive error detection is suppressed.
  • the monitoring status information is acquired from the management unit control unit 211 when the periodic monitoring suppression release instruction from the management unit server monitoring unit 212 times out. Similar processing can be performed.
  • the monitoring status information may be acquired from the management unit control unit 211 when the response of the periodic monitoring of the management unit server monitoring unit 212 by the console unit 100 times out.
  • the console unit 100 may be connected between the console unit 100 and the in-management server monitoring unit 212. Judge that a network failure has occurred. If the acquired monitoring status information indicates that the management unit server monitoring unit 212 is not operating normally, the console unit 100 determines that a failure has occurred in the management unit server monitoring unit 212.
  • the monitoring status information from the server monitoring unit 212 in the management unit May be obtained.
  • the second embodiment is an example of monitoring other devices by three devices that perform mutual monitoring, but the number of devices that perform mutual monitoring may be four or more. In that case, for example, a plurality of devices may be restarted at the same time. In such a case, the same monitoring process as in the second embodiment can be performed on each restarted device by two devices that are not restarted.
  • the console unit 100 indicates that the monitoring status of the management unit server monitoring unit 212 acquired from the management unit control unit 211 represents a normal state of “monitoring” or “response received”.
  • the management unit server monitoring unit 212 is connected to the network.
  • the network connection by the console unit 100 can also be executed, for example, after the timeout of the periodical monitoring suppression release waiting time limit and before the transmission of the monitoring status request.
  • the console unit 100 recognizes that the management unit server monitoring unit 212 is operating normally. it can. Therefore, when the network connection made before the monitoring status request is transmitted is normally completed, the console unit 100 does not need to transmit the monitoring status request to the management unit control unit 211.
  • the processing functions described in the above embodiments can be realized by a computer.
  • a program describing the processing contents of the functions of the information processing apparatus 1, the console unit 100, the management unit control unit 211, and the server monitoring unit 212 in the management unit is provided.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium include a magnetic storage device, an optical disk, a magneto-optical recording medium, and a semiconductor memory.
  • the magnetic storage device include a hard disk device (HDD), a flexible disk (FD), and a magnetic tape.
  • Optical discs include DVD, DVD-RAM, CD-ROM / RW, and the like.
  • Magneto-optical recording media include MO (Magneto-Optical disc).
  • a portable recording medium such as a DVD or CD-ROM in which the program is recorded is sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
  • the computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Further, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
  • processing functions described above can be realized by an electronic circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or a PLD (Programmable Logic Device).
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 動作監視における障害判断の信頼性を向上させる。 計時手段(1b)は、ネットワークを介して接続された被監視装置(2)からの所定の情報の受信待ち時間を計測する。問い合わせ手段(1c)は、受信待ちの制限時間を過ぎても所定の情報を受信できない場合、被監視装置(2)を監視している監視装置(3)に、被監視装置(2)の動作状況を問い合わせる。判断手段(1d)は、監視装置(3)からの応答に示される被監視装置(2)の動作状態に基づいて被監視装置(2)の障害か、被監視装置(2)との間のネットワーク障害かを判断する。

Description

プログラム、情報処理装置、および監視方法
 本発明は、他の装置の動作を監視するプログラム、情報処理装置、および監視方法に関する。
 監視装置から、監視対象となる装置(被監視装置)が正常に動作しているか否かを定期的に監視する場合がある。被監視装置が正常に動作していることの確認手段としてはポーリングによる応答の有無の監視や、定期的に出力されるハートビートの検知による監視などがある。
 一般には、監視装置においてポーリングに対する被監視装置からの応答のタイムアウト、あるいはハードビートの途絶などが発生すると、被監視装置が故障していると判断される。ところが、被監視装置からの応答のタイムアウトやハードビートの途絶は、故障以外の理由でも発生する。例えば、被監視装置の時計をNTP(Network Time Protocol)サーバに同期させる場合、被監視装置の再起動が行われる。このとき被監視装置の再起動が完了するまで、被監視装置はポーリングへの応答を返すことができない。このような場合にまで、被監視装置を故障と判定してしまうと、動作監視の信頼性が低下してしまう。
 動作監視の信頼性を向上させる技術として、例えば、監視対象の装置の機能が一時的に停止する場合、監視対象の装置から監視装置へ、予め監視を抑止させる情報を通知する技術がある。この場合、監視対象装置は、自らの電源ON/OFFの情報を通報センター装置に通知する。通報センター装置は、その通知により監視の開始/解除を行う。これにより監視対象装置の稼働状況をより正確に判断することが可能となる。
特開2005-309643号公報
 しかし、従来の技術では、被監視装置との間のネットワークの接続障害が発生している場合においても、監視装置において被監視装置の障害と判断してしまい、動作監視の信頼性が低下していた。
 1つの側面では、本発明は、動作監視における障害判断の信頼性を向上させることができるプログラム、情報処理装置、および監視方法を提供することを目的とする。
 上記課題を解決するために、コンピュータに、以下の処理を実行させるプログラムが提供される。まずコンピュータは、ネットワークを介して接続された被監視装置からの所定の情報の受信待ち時間を計測する。次にコンピュータは、受信待ちの制限時間を過ぎても所定の情報を受信できない場合、被監視装置を監視している監視装置に、被監視装置の動作状況を問い合わせる。そしてコンピュータは、監視装置からの応答に示される被監視装置の動作状態に基づいて被監視装置の障害か、被監視装置との間のネットワーク障害かを判断する。
 また上記プログラムを実行するコンピュータと同様の機能を有する情報処理装置が提供される。さらに上記プログラムに基づいてコンピュータが実行する処理と同様の処理を行う動作監視方法が提供される。
 動作監視における障害判断の信頼性が向上する。
 本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
第1の実施の形態に係る装置の機能構成例を示す図である。 第1の実施の形態の第1の例の処理手順を示すシーケンス図である。 第1の実施の形態の第2の例の処理手順を示すシーケンス図である。 第1の実施の形態の第3の例の処理手順を示すシーケンス図である。 第2の実施の形態のシステム構成例を示す図である。 コンソール部のハードウェアの一構成例を示す図である。 監視および制御の装置間の関係を示すブロック図である。 各装置の機能の一例を示すブロック図である。 監視ステータス記憶部のデータ構造の一例を示す図である。 エラーログ記憶部のデータ構造の一例を示す図である。 HLCコマンドフレームの形式を示す図である。 HLCレスポンスフレームの形式を示す図である。 動作監視の処理手順の第1の例を示すシーケンス図である。 動作監視の処理手順の第2の例を示すシーケンス図である。 定期監視におけるタイムアウト発生時のエラーログの一例を示す図である。 動作監視の処理手順の第3の例を示すシーケンス図である。 ネットワーク再接続失敗時のエラーログの一例を示す図である。 動作監視の処理手順の第4の例を示すシーケンス図である。 再起動失敗時のエラーログの一例を示す図である。 動作監視の処理手順の第5の例を示すシーケンス図である。 HLC通信エラーのエラーログの一例を示す図である。 能動的な定期監視の処理手順を示すフローチャートである。 受動的な定期監視の処理手順を示すフローチャートである。 定期監視抑止管理処理の手順の一例を示す第1の図である。 定期監視抑止管理処理の手順の一例を示す第2の図である。
 以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
 〔第1の実施の形態〕
 図1は、第1の実施の形態に係る装置の機能構成例を示す図である。第1の実施の形態では、情報処理装置1は、ネットワークで接続された被監視装置2の動作監視を行う。また監視装置3も、ネットワークを介して被監視装置2の動作監視を行う。
 情報処理装置1は、監視手段1a、計時手段1b、問い合わせ手段1c、判断手段1d、接続手段1e、および記憶装置1fを有する。
 監視手段1aは、被監視装置2が正常に動作しているか否かの定期的な監視を行う。例えば監視手段1aは、被監視装置2に対して動作確認の定期的なポーリングを行い、所定の制限時間以内に応答を受信すれば、被監視装置2が動作していると判断する。また監視手段1aは、被監視装置2に対するポーリングに対して、所定の制限時間を経過しても応答を受信できなければ、被監視装置2が故障していると判断する。
 なお監視手段1aは、例えば被監視装置2から定期監視抑止指示を受信した場合、被監視装置2の定期監視を抑止することができる。監視手段1aは、例えば定期監視を抑止すると、定期監視の抑止解除指示が入力されるまで、被監視装置2の定期監視を行わない。
 計時手段1bは、ネットワークを介して接続された被監視装置からの所定の情報の受信待ち時間を計測する。例えば計時手段1bは、監視手段1aが定期監視抑止指示を受信してから、定期監視抑止解除指示の受信待ち時間を計時する。
 問い合わせ手段1cは、受信待ちの制限時間を過ぎても所定の情報を受信できない場合、被監視装置2を監視している監視装置3に、被監視装置2の動作状況を問い合わせる。例えば問い合わせ手段1cは、定期監視の抑止解除待ちの制限時間を過ぎても定期監視抑止解除指示を受信できない場合、監視装置3に問い合わせを行う。
 判断手段1dは、監視装置3からの応答に示される被監視装置2の動作状態に基づいて被監視装置2の障害か、被監視装置2との間のネットワーク障害かを判断する。例えば判断手段1dは、監視装置3から、被監視装置2が正常に動作している旨の応答を受け取った場合、被監視装置2との間のネットワーク障害と判断する。また判断手段1dは、監視装置3から、被監視装置2に異常がある旨の応答を受け取った場合、被監視装置2の障害と判断する。
 また判断手段1dは、ネットワーク障害と判断した場合には、接続手段1eに被監視装置2との間のネットワーク接続の試行を依頼することもできる。その場合、判断手段1dは、接続手段1eが被監視装置2とのネットワーク接続に失敗した場合に、被監視装置2との間のネットワーク障害との判断を確定する。判断手段1dは、接続手段1eが被監視装置2とのネットワーク接続に成功した場合、被監視装置2との間のネットワーク障害との判断を取り消す。
 判断手段1dは、被監視装置2またはネットワークに障害があると判断した場合、例えば、判断結果を記憶装置1fに登録する。
 接続手段1eは、被監視装置2と通信可能とするためのネットワーク接続を行う。例えば接続手段1eは、判断手段1dからの要求に応じて、被監視装置2との間のネットワーク接続を試行する。接続手段1eは、ネットワーク接続に成功したか否かを、判断手段1dに通知する。
 なお、監視手段1a、計時手段1b、問い合わせ手段1c、判断手段1d、および接続手段1eは、情報処理装置1が有するCPU(Central Processing Unit)により実現することができる。また、記憶装置1fは、情報処理装置1が有するRAM(Random Access Memory)やハードディスクドライブ(HDD:Hard Disk Drive)などにより実現することができる。
 また、図1に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。
 記憶装置1fは、判断手段1dによる判断結果を記憶する。
 次に、第1の実施の形態のシステムにおいて、情報処理装置1による障害箇所の判断処理例について説明する。以下の例では、情報処理装置1が被監視装置2の定期監視を行っているものとする。また被監視装置2は、再起動する際に、情報処理装置1に定期監視抑止指示を送信することで、再起動を実行している間の情報処理装置1での障害検知を抑止する。ただし、情報処理装置1は、定期監視抑止指示の受信から所定の抑止解除待ち制限時間を経過しても、被監視装置2から定期監視抑止解除指示を受信できない場合、障害を検知する。
 図2は、第1の実施の形態の第1の例の処理手順を示すシーケンス図である。以下、図2に示す処理をステップ番号に沿って説明する。
 [ステップS1]被監視装置2は、再起動を行う場合、まず情報処理装置1に定期監視抑止指示を送信する。
 [ステップS2]被監視装置2は、再起動を開始する。
 [ステップS3]情報処理装置1の監視手段1aは、定期監視抑止指示に応じて、被監視装置2の定期監視を抑止する。また計時手段1bは、定期監視抑止指示を受信してからの時間の計測を開始する。
 [ステップS4]被監視装置2は、再起動が完了する。図2の例では、被監視装置2から情報処理装置1への定期監視抑止解除指示が送信できないものとする。
 [ステップS5]情報処理装置1の計時手段1bは、定期監視抑止解除指示を受信することなく、定期監視抑止指示を受信してから抑止解除待ち制限時間が経過したことを検出する。すると、問い合わせ手段1cは、監視装置3に対して、被監視装置2の動作状態の問い合わせを行う。
 このように問い合わせ手段1cが、監視装置3に被監視装置2の動作状態を問い合わせることで、被監視装置2が正常に動作しているか否かを、より正確に判断可能となる。すなわち、監視装置3は、情報処理装置1と被監視装置2との間の通信経路とは別の通信経路によって被監視装置2に接続されている。そのため、情報処理装置1と被監視装置2との間で通信が途絶しても、被監視装置2が正常に動作していれば、監視装置3と被監視装置2との間では正常に通信できる可能性がある。
 [ステップS6]監視装置3は、情報処理装置1からの問い合わせに応じて、被監視装置2の状態を情報処理装置1に応答する。図2の例では、被監視装置2が正常に動作している旨の応答が情報処理装置1に送信されたものとする。
 [ステップS7]情報処理装置1の問い合わせ手段1cは、監視装置3からの応答を受信すると、応答の内容を判断手段1dに通知する。判断手段1dは、被監視装置2が正常に動作していることを認識すると、ネットワーク障害が発生したと判断する。この場合、判断手段1dは、接続手段1eに被監視装置2とのネットワーク接続を依頼する。すると接続手段1eが、被監視装置2との間のネットワーク接続処理を実行する。
 図2の例では、接続手段1eによるネットワーク接続に失敗するものとする。
 [ステップS8]接続手段1eは、ネットワーク接続に失敗したことを、判断手段1dに通知する。そして判断手段1dは、被監視装置2は正常に動作しているものの、ネットワーク接続ができないことから、被監視装置2との間のネットワーク障害が発生したものと判断する。そこで判断手段1dは、ネットワーク障害が発生したことを示す情報を、記憶装置1fに格納する。
 次に、情報処理装置1からのネットワーク接続に成功した場合の処理について説明する。
 図3は、第1の実施の形態の第2の例の処理手順を示すシーケンス図である。以下、図3に示す処理をステップ番号に沿って説明する。なお図3において、図2と同様の処理については図2と同じステップ番号を付与し、説明を省略する。
 図3の例では、ステップS7で行ったネットワーク接続に成功する。
 [ステップS11]接続手段1eは、ネットワーク接続に成功したことを、判断手段1dに通知する。判断手段1dは、定期監視抑止解除指示は受信できていないものの、ネットワーク接続が成功したことから、被監視装置2が正常に再起動されており、ネットワークを介した通信も可能であると認識する。そこで判断手段1dは、被監視装置2が正常に動作しているため、記憶装置1fへの障害などの情報の登録は行わない。
 この場合、監視手段1aは、定期監視の抑止を解除し、被監視装置2の定期監視を再開することができる。
 次に、被監視装置2の再起動が失敗した場合の処理について説明する。
 図4は、第1の実施の形態の第3の例の処理手順を示すシーケンス図である。以下、図4に示す処理をステップ番号に沿って説明する。なお図4において、図2と同様の処理については図2と同じステップ番号を付与し、説明を省略する。
 [ステップS21]監視装置3は、情報処理装置1からの問い合わせに応じて、被監視装置2の状態を情報処理装置1に応答する。図4の例では、被監視装置2に異常がある旨の応答が情報処理装置1に送信される。
 [ステップS22]情報処理装置1の問い合わせ手段1cは、監視装置3からの応答を受信すると、応答の内容を判断手段1dに通知する。判断手段1dは、被監視装置2に異常があることを認識すると、被監視装置2に障害がある旨の情報を記憶装置1fに登録する。
 このように、第1の実施の形態では、被監視装置2を、情報処理装置1と監視装置3との二者で監視する。そして、情報処理装置1において被監視装置2との間の通信が途絶えても、監視装置3と被監視装置2との間で正常に通信ができていれば、被監視装置2の動作は正常であると判断する。これにより、被監視装置2との間の通信の途絶が、被監視装置2の障害によるものか、ネットワーク障害によるものかを、正確に判断することができる。
 しかも、第1の実施の形態では、被監視装置2が正常に動作しているにも拘わらず、情報処理装置1が被監視装置2からの所定の情報を受信できない場合、情報処理装置1から被監視装置2へのネットワーク接続を試みる。ネットワークの接続に成功すれば、ネットワークの障害の情報出力を行わない。これにより、過度なエラー検出を抑止することができる。
 被監視装置2が正常に動作しているか否かの判定の正確性が向上することで、保守作業や障害解析作業の工数が削減される。さらに、過度なエラーの検出を抑止できることで、保守の作業者は、多数のエラーの中から対処が必要なエラーを見つけ出す労力を削減することができ、作業効率が向上する。
 〔第2の実施の形態〕
 次に第2の実施の形態について説明する。第2の実施の形態は、マルチクラスタシステムを管理する装置において、内部装置間の動作監視を行うものである。マルチクラスタとは、複数のクラスタを統合して1つのシステムとしたものである。
 図5は、第2の実施の形態のシステム構成例を示す図である。第2の実施の形態では、マルチクラスタ300を管理するハードウェア制御統合装置Aが設けられている。マルチクラスタ300は、大型のサーバ310、共有メモリ装置320、およびI/O装置330を有する。サーバ310は、例えば複数のクラスタを含むシステムである。共有メモリ装置320は、サーバ310を構成する各クラスタで共有可能なメモリである。I/O装置330は、サーバ310に対する情報の入力および出力を行う装置である。
 ハードウェア制御統合装置Aは、コンソール部100と管理部200とを有する。コンソール部100は、ユーザインターフェースを制御する。管理部200は、マルチクラスタ300とコンソール部100とを管理する。管理部200は、マルチクラスタ300のサーバ310、共有メモリ装置320、およびI/O装置330それぞれに、例えば電源制御インタフェース(I/F)によって接続されている。管理部200は、電源制御I/Fを介して、マルチクラスタ300内の装置の電源を制御することができる。また管理部200は、コンソール部100との間で複数のLAN(Local Area Network)I/Fで接続されている。
 管理部200は、サーバ210、電源制御I/F延長装置221、接点出力I/F変換装置222、無停電電源装置(UPS:Uninterruptible Power Supply)223などを有している。電源制御I/F延長装置221は、マルチクラスタ300と接続する電源制御I/Fの延長を可能とする装置である。接点出力I/F変換装置222は、マルチクラスタ300の接点出力のI/Fの変換を行う装置である。UPS223は、入力電源が遮断されても一定時間、ハードウェア制御統合装置Aやマルチクラスタ300に電力を供給する装置である。
 サーバ210は、管理部制御部211と管理部内サーバ監視部212とを有する。なお管理部制御部211と管理部内サーバ監視部212とは、それぞれが別個のモジュール上に設けられており、例えばLANで接続されている。
 管理部制御部211は、管理部200全体を制御する。管理部制御部211は、例えば、管理部200のOS(Operating System)上で動作する制御プログラムを、管理部制御部211内のCPUが実行することで実現される。管理部内サーバ監視部212は、サーバ210内のハードウェアなどの動作監視を行う。例えば管理部内サーバ監視部212は、サーバ210自身のCPU・メモリ・ハードディスク装置(HDD)などの状態、ファンの回転数、および装置内の温度等の監視を行う。
 管理部内サーバ監視部212は、例えば、管理部内サーバ監視部212内のCPUが制御プログラムを実行することで実現される。管理部内サーバ監視部212に対する指示は、例えばコンソール部100を介したコマンド入力によって行うことができる。また管理部内サーバ監視部212へのコマンド入力は、コンソール部100のコマンドラインからだけでなく、例えばネットワークを介して接続された端末装置のWebブラウザから行うこともできる。ネットワーク経由で管理部内サーバ監視部212にコマンド入力を行う場合、端末装置と管理部内サーバ監視部212との間の通信は、SSH(Secure SHell)、SSL(Secure Socket Layer)などの暗号通信技術で保護され、セキュリティが確保される。
 図6は、コンソール部のハードウェアの一構成例を示す図である。コンソール部100は、CPU101によって装置全体が制御されている。CPU101には、バス109を介してRAM102と複数の周辺機器が接続されている。
 RAM102は、コンソール部100の主記憶装置として使用される。RAM102には、CPU101に実行させるOSのプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
 バス109に接続されている周辺機器としては、HDD103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、および通信インタフェース107,108がある。
 HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンソール部100の二次記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。
 グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。モニタ11としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
 入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号をCPU101に送信する。なお、マウス13は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
 光学ドライブ装置106は、レーザ光などを利用して、光ディスク14に記録されたデータの読み取りを行う。光ディスク14は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク14には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)などがある。
 通信インタフェース107は、LANによって管理部制御部211に接続されている。通信インタフェース107は、管理部制御部211との間でデータの送受信を行う。
 通信インタフェース108は、LANによって管理部内サーバ監視部212に接続されている。通信インタフェース108は、管理部内サーバ監視部212との間でデータの送受信を行う。
 以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、管理部制御部211や管理部内サーバ監視部212も、それぞれコンソール部100と同様のハードウェア構成で実現することができる。ただし、管理部制御部211や管理部内サーバ監視部212には、モニタなどの表示装置や、キーボード、マウスなどの入力装置は、接続されていなくてもよい。
 また第1の実施の形態に示した各情報処理装置1、被監視装置2、および監視装置3も、図6に示したコンピュータと同様のハードウェアにより実現することができる。
 第2の実施の形態では、コンソール部100、管理部制御部211、および管理部内サーバ監視部212は、個別のモジュール上に構成されている。またコンソール部100、管理部制御部211、および管理部内サーバ監視部212の三者が、それぞれ自己以外の二者に対する定期監視を行う。定期監視では、例えば監視対象の装置(被監視装置)が正常に動作しているか否かの監視が、LAN経由で行われる。このようなLANを介した動作監視は、例えばLANパス監視と呼ばれる。
 図7は、監視および制御の装置間の関係を示すブロック図である。図7において、装置間の監視関係を実線の矢印で示している。実線の矢印の元が、監視を行う装置であり、実線の矢印の先が被監視装置である。また図7において、装置間の制御関係を点線の矢印で示している。点線の矢印の元が制御を行う装置であり、点線の矢印の先が制御対象の装置である。
 コンソール部100は、管理部制御部211と管理部内サーバ監視部212との動作を、LAN経由で監視している。またコンソール部100は、管理部制御部211と管理部内サーバ監視部212とを、LAN経由で制御する。
 管理部制御部211は、コンソール部100と管理部内サーバ監視部212との動作を、LAN経由で監視している。また管理部制御部211は、コンソール部100と管理部内サーバ監視部212とを、LAN経由で制御する。
 管理部内サーバ監視部212は、コンソール部100と管理部制御部211との動作を、LAN経由で監視している。また管理部内サーバ監視部212は、コンソール部100と管理部制御部211とを、LAN経由で制御する。
 このように、コンソール部100、管理部制御部211、および管理部内サーバ監視部212は、互いに定期的な動作監視を行っていると共に、他の装置を制御することができる。第2の実施の形態では、各装置間の制御機能を用いて、動作監視の信頼性を向上させる。
 例えばコンソール部100、管理部制御部211、および管理部内サーバ監視部212は、装置間の制御機能を用いて、それぞれ自己以外の二者に対し、再起動指示、および再起動の際の定期監視抑止指示を通知することができる。
 また、コンソール部100、管理部制御部211、および管理部内サーバ監視部212は、いずれかの通信経路でネットワークの接続障害を検出すると、ネットワークの再接続処理を試みる。
 第2の実施の形態では、コンソール部100、管理部制御部211、および管理部内サーバ監視部212のうちの1つが再起動した場合の、相互監視例を説明する。装置の再起動は、例えばNTPサーバに内部時計を同期させる場合などに行われる。例えば、管理部内サーバ監視部212の内部時計をNTPサーバに同期させる際に、管理部内サーバ監視部212の再起動が行われる。管理部内サーバ監視部212の再起動は、例えば管理部制御部211からの指示に基づいて行われる。
 なお管理部制御部211は、管理部内サーバ監視部212に再起動指示を通知する際に、管理部内サーバ監視部212のLANパス監視エラーを検出しないよう、自身に対してLANパス監視エラー検出の抑止を行う。ただし、コンソール部100は管理部内サーバ監視部212が再起動することを想定していない。そのためコンソール部100による管理部内サーバ監視部212の監視を、何らかの手段で抑止しないと、管理部内サーバ監視部212に再起動指示が行われた際に、コンソール部100においてLANパス監視エラーを検出する可能性がある。そこで第2の実施の形態では、管理部内サーバ監視部212は、再起動を実行する際に、再起動を指示した装置(管理部制御部211)以外の監視装置(コンソール部100)に対して、定期監視抑止指示を送信する。これにより、管理部内サーバ監視部212の再起動時に、コンソール部100においてエラーが検出されることを抑止できる。
 次に、動作監視に基づく障害箇所判定に用いられる各装置の機能について説明する。
 図8は、各装置の機能の一例を示すブロック図である。コンソール部100は、定期監視部110、監視ステータス記憶部120、監視ステータス制御部130、ネットワーク接続部140、およびエラーログ記憶部150を有する。
 定期監視部110は、管理部制御部211と管理部内サーバ監視部212との定期監視を行う。例えば定期監視部110は、管理部制御部211と管理部内サーバ監視部212とのそれぞれに対して、定期的に定期監視メッセージを送信する。定期監視メッセージの送信先の装置(被監視装置)から応答が返された場合、定期監視部110は、被監視装置が正常に動作していると判断する。また定期監視部110は、被監視装置から所定の定期監視待ち時間を経過しても応答が帰ってこない場合、被監視装置が正常に動作していないと判断する。定期監視によって被監視装置が正常に動作していないと判断した場合、定期監視部110は、被監視装置のエラーログを、エラーログ記憶部150に格納する。
 なお管理部制御部211または管理部内サーバ監視部212からコンソール部100への定期監視メッセージは、定期監視部110が受信し、定期監視部110がその定期監視メッセージの送信元に対して応答を返す。
 また定期監視部110は、管理部制御部211または管理部内サーバ監視部212から定期監視抑止指示が入力された場合、その定期監視抑止指示の送信元に対する定期監視を一時的に停止する。定期監視部110は、定期監視を停止している装置から定期監視解除指示が入力されると、その装置への定期監視を再開する。なお定期監視部110は、定期監視を停止した装置から、所定の抑止解除待ち制限時間を経過しても定期監視抑止解除指示が入力されない場合には、その装置を確認対象装置とする。定期監視部110は、確認対象装置の情報を監視ステータス制御部130に通知する。
 さらに定期監視部110は、定期監視によって認識した被監視装置の状態を、監視ステータスとして監視ステータス記憶部120に格納する。監視ステータスでは、例えば「監視中」、「監視抑止中」、「応答受信済み」、および「監視タイムアウト」の状態が示される。「監視中」は、定期監視を実行していることを示す状態である。「監視抑止中」は、定期監視の抑止中であることを示す状態である。「応答受信済み」は、定期監視のコマンドに対する正常応答を受信したことを示す状態である。「監視タイムアウト」は、定期監視のコマンドに対する応答が受信できずにタイムアウトしたことを示す状態である。
 また定期監視部110は、他の装置の定期監視部211a,212aと連携し、各装置の監視ステータス記憶部120,211b,212bの同期処理を定期的に行う。同期処理は、監視ステータス記憶部120,211b,212bの内容を同一にする処理である。
 監視ステータス記憶部120は、監視ステータスを記憶する。例えばRAM102またはHDD103の記憶領域の一部が、監視ステータス記憶部120として使用される。
 監視ステータス制御部130は、管理部制御部211または管理部内サーバ監視部212との間で、監視ステータス情報の送受信を行う。例えば監視ステータス制御部130は、定期監視部110から確認対象装置の情報を取得すると、確認対象装置を監視している装置に、確認対象装置に関する監視ステータス要求を送信する。そして監視ステータス制御部130は、監視ステータス要求に対して応答で示された監視ステータスに基づいて、確認対象装置の障害の有無を判断する。例えば監視ステータス制御部130は、確認対象装置に対する監視においてタイムアウトが発生したことを示す監視ステータスを取得した場合、確認対象装置に障害が発生したものと判断する。確認対象装置に障害が発生したと判断した場合、監視ステータス制御部130は、障害に関する情報をエラーログ記憶部150に格納する。また監視ステータス制御部130は、確認対象装置に対する監視において、正常に動作していることを示す監視ステータスを取得した場合、確認対象装置との間のネットワークに障害が発生したものと判断する。確認対象装置との間のネットワークに障害が発生したと判断した場合、監視ステータス制御部130は、ネットワーク接続部140に対して、確認対象装置へのネットワーク接続を要求する。
 ネットワーク接続部140は、管理部制御部211または管理部内サーバ監視部212との間のネットワーク接続を行う。ネットワーク接続は、例えば管理部制御部211および管理部内サーバ監視部212それぞれとの間で、コネクションを確立する処理である。例えば、ネットワーク接続部140は、監視ステータス制御部130からの要求に応じて、確認対象装置に対するネットワーク接続を行う。またネットワーク接続部140は、例えばコンソール部100が起動された場合、起動後に管理部制御部211および管理部内サーバ監視部212とネットワーク接続を行う。ネットワーク接続部140は、確認対象装置に対するネットワーク接続に失敗した場合、ネットワーク障害のエラーログをエラーログ記憶部150に格納する。
 エラーログ記憶部150は、エラーログを記憶する。例えばRAM102またはHDD103の記憶領域の一部がエラーログ記憶部150として使用される。
 管理部制御部211は、定期監視部211a、監視ステータス記憶部211b、監視ステータス制御部211c、ネットワーク接続部211d、エラーログ記憶部211e、および再起動指示部211fを有する。定期監視部211a、監視ステータス記憶部211b、監視ステータス制御部211c、ネットワーク接続部211d、およびエラーログ記憶部211eは、コンソール部100の同名の要素と同じ機能を有する。再起動指示部211fは、管理部内サーバ監視部212に対して再起動を指示する。
 管理部内サーバ監視部212は、定期監視部212a、監視ステータス記憶部212b、監視ステータス制御部212c、ネットワーク接続部212d、エラーログ記憶部212e、および再起動部212fを有する。定期監視部212a、監視ステータス記憶部212b、監視ステータス制御部212c、ネットワーク接続部212d、およびエラーログ記憶部212eは、コンソール部100の同名の要素と同じ機能を有する。再起動部212fは、管理部制御部211からの再起動指示に応じて、管理部内サーバ監視部212の再起動処理を行う。
 なお、図8に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。またコンソール部100、管理部制御部211、および管理部内サーバ監視部212は、動作監視に用いられる機能以外にも、図示していない様々な機能を有している。
 また、定期監視部110,211a,212aは、図1に示した第1の実施の形態の監視手段1aと計時手段1bとを包含する機能の一例である。監視ステータス制御部130,211c,212cは、図1に示した第1の実施の形態の問い合わせ手段1cと判断手段1dとを包含する機能の一例である。ネットワーク接続部140,211d,212dは、図1に示した第1の実施の形態の接続手段1eを包含する機能の一例である。エラーログ記憶部150,211e,212eは、図1に示した第1の実施の形態の記憶装置1fを包含する機能の一例である。
 次に、監視ステータス記憶部120のデータ構造について説明する。
 図9は、監視ステータス記憶部のデータ構造の一例を示す図である。監視ステータス記憶部120には、複数の監視ステータス情報121,122,123,・・・,12nがデータチェイン型のデータ構造で格納されている。
 監視ステータス情報121,122,123,・・・,12nは、被監視モジュール情報、被監視モジュールの装置番号、被監視モジュールのステータス、データのロック情報、次のデータベースへのポインタを1セットとした情報である。被監視モジュール情報は、モジュールに実装されている被監視装置の名称などの識別情報である。被監視モジュールの装置番号は、モジュールに実装されている被監視装置の識別番号である。被監視モジュールのステータスは、モジュールに実装されている被監視装置の監視ステータスである。データのロック情報は、データの排他制御に用いる情報であり、データの更新を禁止しているか否かを示す情報である。定期監視部110は、データのロック情報を更新することにより、データ更新処理の競合を回避する。
 なお、管理部制御部211の監視ステータス記憶部211bと管理部内サーバ監視部212の監視ステータス記憶部212bとのデータ構造も、図9に示したコンソール部100の監視ステータス記憶部120のデータ構造と同様である。各装置の監視ステータス記憶部120,211b,212bは、同期処理によって同じ内容となるように制御される。
 次に、エラーログ記憶部150のデータ構造について説明する。
 図10は、エラーログ記憶部のデータ構造の一例を示す図である。エラーログ記憶部150には、複数のエラーログ151,152,153,・・・が格納されている。エラーログ151,152,153,・・・には、日付、ステータス、被疑箇所、メッセージ、および詳細コードが含まれる。日付は、エラーログを取得した日時である。ステータスは、「エラー」、「警告」などの発生したイベントの種別である。被疑箇所は、エラーと判断された装置を示す情報である。メッセージは、エラーの種別を示す文字列である。詳細コード(Detail Code)は、エラーの発生に伴って取得した、エラーの解析に利用可能な情報である。
 なお詳細コードには監視装置と被監視装置それぞれの装置種別および装置番号が含まれている。従って、詳細コードを参照することで、どの装置間での監視においてエラーが発生したのか判別可能である。
 次に、各装置間で送受信される情報について説明する。第2の実施の形態では、例えばHLC(ハイレベルコマンド)を用いて通信を行うことができる。HLCは、HLCコマンドフレームと、HLCコマンドに対する応答の送信に使用するHLCコマンドレスポンスフレームが一対になった形式である。
 図11は、HLCコマンドフレームの形式を示す図である。コマンドフレーム21は、「フレーム長さ」、「コマンドコード」、「送信元ノードアドレス」、「送信先ノードアドレス」、「RUN-LEVEL」、「コマンドシーケンス番号」、「制御フラグ」、「送信元拡張ノードアドレス」、「送信先拡張ノードアドレス」、「装置種別」、「装置番号」、「リザーブ」、および「パラメータ部」の各フィールド21-1~21-13を有している。
 コマンドフレーム21のうち、「パラメータ部」のフィールド21-13を除いた部分が、ヘッダ部である。またコマンドフレーム21の全体のサイズは、最大で4096バイトである。
 「フレーム長さ」のフィールド21-1には、コマンドフレーム21のデータ長が、4バイトデータで設定される。なおコマンドフレーム21のデータ長は、ヘッダ部も含むデータ長である。
 「コマンドコード」のフィールド21-2には、ハイレベルコマンドの種別を示す、2バイトのコード(コマンドコード)が設定される。
 コマンドコードの0ビットは、コマンド/レスポンスビットであり、コマンドフレームとレスポンスフレームの区別を示す。例えばコマンドフレームであれば、コマンド/レスポンスビットに「0」が設定される。またレスポンスフレームであれば、コマンド/レスポンスビットに「1」が設定される。
 コマンドコードの1~7ビット(表現できる値の範囲は「0x00~0x7F」)は、分類コードである。分類コードは、ハイレベルコマンドの分類を示す。コマンドコードの8~15ビット(表現できる値の範囲は「0x00~0xFF」)は、ハイレベルコマンドの機能を示す。分類コードと機能コードとの組み合わせにより、ハイレベルコマンドの内容が表される。例えば、「分類コード+機能コード」が「0x4002」であれば、ヘルスチェック(定期監視)のコマンドである。「分類コード+機能コード」が「0x4003」であれば、通信開始のコマンドである。「分類コード+機能コード」が「0x4004」であれば、通信停止のコマンドである。「分類コード+機能コード」が「0x4010」であれば、生存確認(監視ステータス要求)のコマンドである。
 「送信元ノードアドレス」のフィールド21-3には、コマンドフレームを送信する装置(ノード)の2バイトのアドレス(ノードアドレス)が設定される。
 「送信先ノードアドレス」のフィールド21-4には、コマンドフレームを受信する装置(ノード)の2バイトのアドレス(ノードアドレス)が設定される。
 「RUN-LEVEL」のフィールド21-5には、複数のハイレベルコマンドがスタックされたときに、スタックから取り出す優先順位を示す、2バイトの値が設定される。
 「コマンドシーケンス番号」のフィールド21-6には、コマンドフレームのシーケンス番号が、4バイトのデータで設定される。
 「制御フラグ」のフィールド21-7には、拡張ノードアドレスが有効かどうかを示す、4バイトのフラグが設定される。
 「送信元拡張ノードアドレス」のフィールド21-8には、コマンドフレームを送信する拡張ノードの4バイトのノードアドレスが設定される。
 「送信先拡張ノードアドレス」のフィールド21-9には、コマンドフレームを受信する拡張ノードの4バイトのノードアドレスが設定される。
 「装置種別」のフィールド21-10には、監視ステータス要求により監視ステータスを確認する対象の装置(確認対象装置)の種別が、1バイトのデータで設定される。例えば、装置種別のフィールドの各ビットに対して、以下の装置が割り当てられる。
1)コンソール部100(bit「0」)
2)管理部制御部211(bit「1」)
3)管理部内サーバ監視部212(bit「2」)
4)リザーブ(bit「3~7」)
 例えば値が「1」となったビットに割り当てられた装置が、確認対象装置である。
 「装置番号」のフィールド21-11には、「装置種別」のフィールド21-10で指定した確認対象装置の装置番号が、1バイトのデータで設定される。
 「リザーブ」のフィールド21-12は、予備の2バイトの領域である。
 「パラメータ部」のフィールド21-13は、各種パラメータが設定される。
 図12は、HLCレスポンスフレームの形式を示す図である。レスポンスフレーム22は、「フレーム長さ」、「コマンドコード」、「送信元ノードアドレス」、「送信先ノードアドレス」、「RUN-LEVEL」、「コマンドシーケンス番号」、「制御フラグ」、「送信元拡張ノードアドレス」、「送信先拡張ノードアドレス」、「ステータス」、「エラーコード」、および「パラメータ部」の各フィールド22-1~22-12を有している。このうち「フレーム長さ」、「コマンドコード」、「送信元ノードアドレス」、「送信先ノードアドレス」、「RUN-LEVEL」、「コマンドシーケンス番号」、「制御フラグ」、「送信元拡張ノードアドレス」、および「送信先拡張ノードアドレス」のフィールド22-1~22-9には、コマンドフレーム21の同名のフィールドと同種の情報が設定される。
 「ステータス」のフィールド22-10には、ハイレベルコマンドの実行終了時の状態を示す、2バイトの情報が設定される。正常時は、「ステータス」のフィールド22-10全ビットが「0」となる。そして、エラー内容に応じたビットに「1」が設定される。各ビットに対するエラー内容の割り当ては、以下の通りである。
1)未定義コマンド(bit「0」)
2)パラメータエラー(bit「1」)
3)実行条件エラー(bit「2」)
4)実行時エラー(bit「3」)
5)リザーブ(bit「4~7」)
 「エラーコード」のフィールド22-11には、ステータスが実行条件エラー、または実行時エラーのとき、その詳細情報が設定される。
 「パラ-メータ部」のフィールド22-12には、パラメータの1つとして、1バイトの監視ステータス22-13が設定される。監視ステータス22-13は、1バイトのデータのどのビットに「1」が設定されるかで、確認対象装置の状態を示す。監視ステータス22-13の各ビットには、以下の状態が割り当てられている。
1)監視中(bit「0」):監視ステータス要求先の装置が、確認対象装置を監視中であることを示す。
2)監視抑止中(bit「1」):要求先のモジュールが、確認対象装置の監視を抑止している。
3)(監視)応答受信済み(bit「2」):要求先のモジュールが、監視対象モジュールから定期監視に対する応答を受けている。
4)監視タイムアウト(bit「3」):要求先の装置が、確認対象装置の監視タイムアウトを検出している。
5)リザーブ(bit「4~7」)
 このようなHLCを用いて装置間で通信を行い、互いの動作監視が行われる。
 次に、管理部制御部211からの指示によって管理部内サーバ監視部212の再起動を行う場合のコンソール部100、管理部制御部211、および管理部内サーバ監視部212による動作監視処理について説明する。
 図13は、動作監視の処理手順の第1の例を示すシーケンス図である。図13に示す処理は、すべての装置および互いの通信が正常に動作している場合の処理手順の一例である。以下、図13に示す処理をステップ番号に沿って説明する。
 [ステップS101]コンソール部100の定期監視部110は、管理部内サーバ監視部212の定期監視を行う。例えば定期監視部110は、管理部内サーバ監視部212に対して定期監視のHLCコマンドを送信する。
 このとき管理部内サーバ監視部212の定期監視部212aは、コンソール部100からの定期監視のHLCコマンドを受信したことで、コンソール部100が正常に動作していることを認識する。そして、定期監視部212aは、コンソール部100の状態に変更があれば、監視ステータス記憶部212b内のコンソール部100に対応する監視ステータス情報のステータスを更新する。
 [ステップS102]管理部内サーバ監視部212の定期監視部212aは、コンソール部100から送られた定期監視のHLCコマンドに対して正常応答を返す。正常応答では、レスポンスフレーム22のステータスのフィールド22-10のすべてのビットに0が設定される。
 コンソール部100の定期監視部110は、管理部内サーバ監視部212からの正常応答を受信する。このとき、定期監視部110は、管理部内サーバ監視部212の状態に変更があれば、監視ステータス記憶部120内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを更新する。
 [ステップS103]コンソール部100の定期監視部110は、管理部制御部211の定期監視を行う。例えば定期監視部110は、管理部制御部211に対して定期監視のHLCコマンドを送信する。
 このとき管理部制御部211の定期監視部211aは、コンソール部100からの定期監視のHLCコマンドを受信したことで、コンソール部100が正常に動作していることを認識する。そして、定期監視部211aは、コンソール部100の状態に変更があれば、監視ステータス記憶部211b内のコンソール部100に対応する監視ステータス情報のステータスを更新する。
 [ステップS104]管理部制御部211の定期監視部211aは、コンソール部100から送られた定期監視のHLCコマンドに対して正常応答を返す。このとき、定期監視部110は、管理部制御部211の状態に変更があれば、監視ステータス記憶部120内の管理部制御部211に対応する監視ステータス情報のステータスを更新する。
 [ステップS105]管理部制御部211の定期監視部211aは、管理部内サーバ監視部212の定期監視を行う。例えば定期監視部211aは、管理部内サーバ監視部212に対して定期監視のHLCコマンドを送信する。
 このとき管理部内サーバ監視部212の定期監視部212aは、管理部制御部211からの定期監視のHLCコマンドを受信したことで、管理部制御部211が正常に動作していることを認識する。そして、定期監視部212aは、管理部制御部211の状態に変更があれば、監視ステータス記憶部212b内の管理部制御部211に対応する監視ステータス情報のステータスを更新する。
 [ステップS106]管理部内サーバ監視部212の定期監視部212aは、管理部制御部211から送られた定期監視のHLCコマンドに対して正常応答を返す。このとき、定期監視部211aは、管理部内サーバ監視部212の状態に変更があれば、監視ステータス記憶部211b内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを更新する。
 ステップS101~S106の処理が定期的に繰り返されることで、コンソール部100、管理部制御部211、および管理部内サーバ監視部212が互いに他の装置の動作を監視できる。
 ここで、例えば管理部内サーバ監視部212の内部時計をNTPサーバの時計に同期させるなどの理由で、管理部内サーバ監視部212の再起動が行われるものとする。例えば管理者がコンソール部100に対して管理部内サーバ監視部212の再起動指示を入力すると、その再起動指示が管理部制御部211に渡される。そして管理部制御部211の制御により、以下の手順で管理部内サーバ監視部212の再起動処理が行われる。
 [ステップS107]管理部制御部211の再起動指示部211fは、管理部内サーバ監視部212に対して再起動指示を送信する。この際、再起動指示部211fは、定期監視部211aに対して、管理部内サーバ監視部212の再起動の実施を通知する。その通知を受けた定期監視部211aは、その後の所定期間の間、管理部内サーバ監視部212の定期監視に対して応答が無くてもエラーとは判定しない。
 [ステップS108]管理部内サーバ監視部212の再起動部212fは、管理部制御部211からの再起動指示を受信する。そして再起動部212fは、定期監視部212aに対して、管理部制御部211からの指示に基づく再起動の実施を通知する。すると定期監視部212aは、コンソール部100に対して、定期監視抑止指示を送信する。
 [ステップS109]再起動部212fは、定期監視抑止指示が送信されたことを確認し、管理部内サーバ監視部212の再起動を開始する。再起動では、管理部内サーバ監視部212のすべての機能が一端停止し、メモリなどのデータを初期化後、各機能が起動される。
 [ステップS110]コンソール部100の定期監視部110は、管理部内サーバ監視部212からの定期監視抑止指示に応じ、管理部内サーバ監視部212の定期監視を抑止する。定期監視を抑止した場合、例えば定期監視部110は、監視ステータス記憶部120内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを、「監視抑止中」に変更する。監視ステータス記憶部120に対する変更内容は、各装置の定期監視部110,211a,212a間の同期処理により、他の監視ステータス記憶部211b,212bにも反映される。
 また定期監視部110は、管理部制御部211の定期監視は継続し、管理部制御部211に対して定期監視のHLCコマンドを送信する。
 [ステップS111]管理部制御部211の定期監視部211aは、コンソール部100から送られた定期監視のHLCコマンドに対して正常応答を返す。
 [ステップS112]管理部制御部211の定期監視部211aは、管理部内サーバ監視部212の定期監視を行う。例えば定期監視部211aは、管理部内サーバ監視部212に対して定期監視のHLCコマンドを送信する。管理部内サーバ監視部212の再起動中は、管理部内サーバ監視部212に対する定期監視のHLCコマンドに対する応答は返されない。
 ステップS113~ステップS115の処理は、それぞれステップS110~ステップS112の処理と同様である。以後、ステップS110~ステップS112と同様の処理が定期的に行われる。
 [ステップS121]管理部内サーバ監視部212の再起動が完了する。このときネットワーク接続部212dは、コンソール部100とネットワーク接続を行う。ネットワーク接続は、ネットワークによる通信可能となるように設定を行うことである。またネットワーク接続部212dは、管理部制御部211とネットワーク接続を行う。これにより、管理部内サーバ監視部212は、コンソール部100と管理部制御部211とのそれぞれと、HLCなどの通信を行うことが可能となる。
 [ステップS122]定期監視部212aは、起動後に定期監視抑止解除指示をコンソール部100に送信する。コンソール部100の定期監視部110は、定期監視抑止解除指示を受信すると、管理部内サーバ監視部212の定期監視を再開する。
 定期監視を再開した場合、例えば定期監視部110は、監視ステータス記憶部120内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを、「監視中」に変更する。監視ステータス記憶部120に対する変更内容は、各装置の定期監視部110,211a,212a間の同期処理により、他の監視ステータス記憶部211b,212bにも反映される。
 ステップS123~ステップS128の処理は、それぞれステップS101~ステップS106の処理と同様である。以後、ステップS101~ステップS106と同様の処理が定期的に行われる。
 このようにして、各装置が正常に動作している場合、管理部内サーバ監視部212の再起動を行っても、定期監視抑止などの処理により、エラーは検出されない。
 次に、管理部内サーバ監視部212の再起動が正常に完了したが、管理部内サーバ監視部212からのネットワーク接続に失敗した場合の動作監視処理について説明する。
 図14は、動作監視の処理手順の第2の例を示すシーケンス図である。図14に示す処理は、再起動後の管理部内サーバ監視部212によるコンソール部100との間のネットワーク接続に失敗した場合の処理手順の一例である。
 この例では、管理部内サーバ監視部212は、再起動処理は完了しているものの、コンソール部100との間のネットワーク接続に失敗している。そのため管理部内サーバ監視部212からコンソール部100に対する定期監視抑止解除指示を、コンソール部100は受信することができない。
 他方、管理部内サーバ監視部212は、再起動後の管理部制御部211との間のネットワーク接続には成功したものとする。
 なお図14において、図13の処理と同様の処理については図13と同じステップ番号を付与し、説明を省略する。以下、図14の処理のうち図13と異なる処理をステップ番号に沿って説明する。
 [ステップS131]管理部制御部211の定期監視部211aは、管理部内サーバ監視部212に定期監視のHLCコマンドを送信することで、定期監視を行う。
 [ステップS132]管理部内サーバ監視部212の定期監視部212aは、管理部制御部211から送られた定期監視のHLCコマンドに対して正常応答を返す。
 正常応答を受信した定期監視部211aは、監視ステータス記憶部211b内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを、「応答受信済み」に変更する。
 [ステップS133]コンソール部100の定期監視部110は、定期監視抑止解除指示を受信することなく、定期監視抑止指示の受信から所定の抑止解除待ち制限時間が経過したことを検出する。抑止解除待ち制限時間としては、例えば管理部内サーバ監視部212の再起動に要する時間に少しだけ長い時間を設定する。抑止解除待ち制限時間が経過したことを検出すると、定期監視部110は、監視ステータス制御部130に抑止待ち制限時間のタイムアウトを通知する。通知を受けた監視ステータス制御部130は、管理部制御部211に対して、管理部内サーバ監視部212を確認対象装置に指定した監視ステータス要求を送信する。
 [ステップS134]管理部制御部211の監視ステータス制御部211cは、監視ステータス要求を受信すると、監視ステータス記憶部211b内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを取得する。そして監視ステータス制御部211cは、取得したステータスを監視ステータスとして含めた正常応答を、コンソール部100に送信する。
 [ステップS135]コンソール部100の監視ステータス制御部130は、管理部制御部211からの正常応答に含まれる監視ステータスに基づき、管理部内サーバ監視部212が正常に動作していることを認識する。このとき監視ステータス制御部130は、ネットワーク障害が発生したと仮判断する。そして監視ステータス制御部130は、ネットワーク接続部140に対して、管理部内サーバ監視部212とのネットワーク接続を依頼する。ネットワーク接続部140は、監視ステータス制御部130からの依頼に応じて、管理部内サーバ監視部212に対するネットワーク接続を試みる。この例では、ネットワーク接続が成功したものとする。
 [ステップS136]管理部内サーバ監視部212のネットワーク接続部212dは、コンソール部100に対してネットワークが正常に接続されたことを示す正常応答を送信する。コンソール部100のネットワーク接続部140は、ネットワーク接続が成功したことを監視ステータス制御部130に通知する。この通知を受けた監視ステータス制御部130は、ネットワーク障害が発生したとの仮判断を取り消す。そして監視ステータス制御部130は、定期監視部110に対して、管理部内サーバ監視部212と正常に通信可能であることを通知する。
 以後、定期監視部110は、管理部内サーバ監視部212の定期監視を再開する。定期監視再開時には、定期監視部110は、監視ステータス記憶部120内の管理部内サーバ監視部212に対応する管理ステータス情報のステータスを、「監視中」に変更する。このステータスは、定期監視に対する応答を受け取ると、さらに「応答受信済み」に変更される。
 このように、管理部内サーバ監視部212からのネットワーク接続に失敗しても、コンソール部100からのネットワーク接続は可能な場合がある。
 例えば多重アクセス等によりネットワークに負荷がかかっているケースを想定する。この場合、ネットワークが一時的に接続できなくなることも想定され、定期監視部110で定期監視抑止解除指示のタイムアウトを検知する可能性がある。このとき、ネットワークに根本的な問題があるのか、負荷がかかったことによる一時的な事象なのか切り分けがつかないと、事象調査に作業工数を割くことになる。
 他方、ネットワークの一時的な接続障害の場合、ネットワーク接続の状況を変更するだけで、接続できる可能性がある。そこで第2の実施の形態では、一方の装置からのネットワーク接続が失敗しても、他方の装置からネットワーク接続を再度行う。これにより、ネットワークの負荷がかかった状態におけるネットワーク障害のエラー通知を軽減でき、障害解析を要する作業工数を削減することが可能となる。
 なお、定期監視中に管理部内サーバ監視部212からの応答が途絶える場合もある。その場合、以下の処理が行われる。
 [ステップS137]定期監視部110は、管理部内サーバ監視部212に定期監視のHLCコマンドを送信することで、定期監視を行う。
 [ステップS138]定期監視部110は、定期監視の応答待ち制限時間がタイムアウトすると、定期監視エラーのエラーログを、エラーログ記憶部150に格納する。この際、定期監視部110は、例えば監視ステータス記憶部120内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを、「監視タイムアウト」に変更する。
 図15は、定期監視におけるタイムアウト発生時のエラーログの一例を示す図である。定期監視でタイムアウトが発生した場合のエラーログ151には、ステータス(Status)として「Error」が設定されている。またメッセージ(Message)として、定期監視に失敗したことを示すメッセージ「Alive check error」が設定されている。
 次に、管理部内サーバ監視部212の再起動が正常に完了したが、管理部内サーバ監視部212からのネットワーク接続に失敗し、コンソール部100からのネットワーク接続も失敗した場合の動作監視処理について説明する。
 図16は、動作監視の処理手順の第3の例を示すシーケンス図である。図16に示す処理は、再起動後の管理部内サーバ監視部212によるコンソール部100との間のネットワーク接続に失敗し、かつコンソール部100による管理部内サーバ監視部212との間のネットワーク接続にも失敗した場合の処理手順の一例である。
 なお図16において、図14の処理と同様の処理については図14と同じステップ番号を付与し、説明を省略する。図16の処理のうち図14と異なる処理は、ステップS139のみである。
 [ステップS139]コンソール部100から管理部内サーバ監視部212へのネットワーク接続に対し、管理部内サーバ監視部212から応答がない。そのため、ネットワーク接続部140は、ネットワーク接続に失敗したことを監視ステータス制御部130に通知する。すると監視ステータス制御部130は、ネットワーク障害が発生したとの判断を確定し、ネットワーク障害のエラーログをエラーログ記憶部150に格納する。すなわち、監視ステータス制御部130は、管理部制御部211から取得した監視ステータスにより管理部内サーバ監視部212が動作していることを確認しているため、ネットワークが接続できないのは、ネットワークの障害が原因であると判断する。そして監視ステータス制御部130は、ネットワーク障害のエラーログを格納する。
 図17は、ネットワーク再接続失敗時のエラーログの一例を示す図である。ネットワーク再接続に失敗した場合のエラーログ152には、ステータス(Status)として「Error」が設定されている。またメッセージ(Message)として、ネットワークの接続に失敗したことを示すメッセージ「Network connect error」が設定されている。
 次に、管理部内サーバ監視部212が再起動に失敗した場合の動作監視処理について説明する。
 図18は、動作監視の処理手順の第4の例を示すシーケンス図である。図18に示す処理は、管理部内サーバ監視部212が再起動に失敗した場合の処理手順の一例である。
 なお図18において、図14の処理と同様の処理については図14と同じステップ番号を付与し、説明を省略する。図18の処理のうち図14と異なる処理は、ステップS141以降である。
 [ステップS141]管理部内サーバ監視部212が再起動に失敗している。そのため、管理部内サーバ監視部212への再起動指示が出されてから再起動待ち制限時間が経過した後に、管理部制御部211の定期監視部211aが定期監視を行っても応答を受信することができない。その結果、定期監視のタイムアウトが発生する。
 [ステップS142]定期監視部211aは、再起動待ち制限時間の経過後に定期監視のタイムアウトが発生すると、再起動監視タイムアウトのエラーログを、エラーログ記憶部211eに格納する。また、定期監視部211aは、監視ステータス記憶部211b内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを、「監視タイムアウト」に変更する。
 [ステップS143]コンソール部100の定期監視部110は、定期監視抑止解除指示を受信することなく、定期監視抑止指示の受信から所定の抑止解除待ち制限時間が経過したことを検出する。すると定期監視部110は、監視ステータス制御部130に抑止待ち制限時間のタイムアウトを通知する。通知を受けた監視ステータス制御部130は、管理部制御部211に対して、管理部内サーバ監視部212を確認対象装置に指定した監視ステータス要求を送信する。
 [ステップS144]管理部制御部211の監視ステータス制御部211cは、監視ステータス要求を受信すると、監視ステータス記憶部211b内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスを取得する。そして監視ステータス制御部211cは、取得したステータスを監視ステータスとして含めた正常応答を、コンソール部100に送信する。この正常応答に含まれる監視ステータスは「監視タイムアウト」である。
 [ステップS145]コンソール部100の監視ステータス制御部130は、管理部制御部211からの正常応答に含まれる監視ステータスに基づき、管理部内サーバ監視部212が正常に動作していないことを認識する。そこで、監視ステータス制御部130は、再起動監視タイムアウトのエラーログを、エラーログ記憶部150に登録する。
 図19は、再起動失敗時のエラーログの一例を示す図である。再起動に失敗した場合のエラーログ153には、ステータス(Status)として「Error」が設定されている。またメッセージ(Message)として、再起動に失敗したことを示すメッセージ「Reboot Timeout」が設定されている。
 次に、監視ステータスの取得に失敗した場合の動作監視処理について説明する。
 図20は、動作監視の処理手順の第5の例を示すシーケンス図である。図20に示す処理は、監視ステータスの取得に失敗した場合の処理手順の一例である。
 なお図20において、図14の処理と同様の処理については図14と同じステップ番号を付与し、説明を省略する。図20の処理のうち図14と異なる処理は、ステップS151以降である。
 [ステップS151]コンソール部100の定期監視部110は、定期監視抑止解除指示を受信することなく、定期監視抑止指示の受信から所定の抑止解除待ち制限時間が経過したことを検出する。すると定期監視部110は、監視ステータス制御部130に抑止待ち制限時間のタイムアウトを通知する。通知を受けた監視ステータス制御部130は、管理部制御部211に対して、管理部内サーバ監視部212を確認対象装置に指定した監視ステータス要求を送信する。
 この例では、監視ステータス要求に対する応答が返されないものとする。
 [ステップS152]定期監視部110は、監視ステータス要求に対する応答待ち制限時間がタイムアウトしたことを確認し、HCL通信エラーのエラーログをエラーログ記憶部150に登録する。
 図21は、HLC通信エラーのエラーログの一例を示す図である。HLC通信エラーを検出した場合のエラーログ154には、ステータス(Status)として「Error」が設定されている。またメッセージ(Message)として、HLCの通信に失敗したことを示すメッセージ「HLC communication error」が設定されている。
 以上のように、定期監視の抑止解除待ち制限時間を経過しても定期監視抑止解除指示が入力されない場合でも、監視ステータスの取得状況、および取得した監視ステータスの内容によって、出力するエラーログが異なる。以下、定期監視からエラーログを出力するまでの個々の装置の処理手順について説明する。
 なお、定期監視処理は、ポーリングのような能動的な定期監視と、ハートビートのような受動的な定期監視とがある。能動的な定期監視では、定期監視コマンドを相手に送信し、その応答を受信することで動作していることを確認する。受動的な定期監視では、相手から送信された定期監視コマンドを定期的に受信できている間、相手の装置が動作していると認識する。例えば、図13に示した例では、コンソール部100は、管理部制御部211と管理部内サーバ監視部212を能動的に定期監視している。一方、管理部制御部211は、管理部内サーバ監視部212を能動的に定期監視し、コンソール部100を受動的に定期監視している。また管理部内サーバ監視部212は、コンソール部100と管理部制御部211とを受動的に定期監視している。
 そこで、能動的な定期監視と受動的な定期監視との処理を個別に説明する。
 図22は、能動的な定期監視の処理手順を示すフローチャートである。以下、図22に示す処理をステップ番号に沿って説明する。なお、以下の説明では、コンソール部100が管理部内サーバ監視部212の定期監視を行う場合を想定する。
 [ステップS201]定期監視部110は、管理部内サーバ監視部212の定期監視が抑止中か否かを判断する。例えば定期監視部110は、監視ステータス記憶部120内の管理部内サーバ監視部212に対応する監視ステータス情報のステータスが「監視抑止中」であれば、定期監視が抑止中であると判断する。定期監視が抑止中であれば、定期監視部110はステップS201の処理を繰り返す。定期監視が抑止中でなければ、定期監視部110は、処理をステップS202に進める。
 [ステップS202]定期監視部110は、定期監視のHLCコマンドを管理部内サーバ監視部212に送信する。
 [ステップS203]定期監視部110は、定期監視用のタイマを起動し、時間の計測を開始する。
 [ステップS204]定期監視部110は、管理部内サーバ監視部212から定期監視抑止指示を受信したか否かを判断する。定期監視部110は、定期監視抑止指示を受信した場合、処理をステップS206に進める。また定期監視部110は、定期監視抑止指示を受信していなければ、処理をステップS205に進める。
 [ステップS205]定期監視部110は、定期監視のHLCコマンドに対する応答を受信したか否かを判断する。定期監視部110は、応答を受信した場合、処理をステップS206に進める。また定期監視部110は、応答を受信していなければ、処理をステップS208に進める。
 [ステップS206]定期監視部110は、定期監視用のタイマを停止し、タイマの値を「0」にリセットする。
 [ステップS207]定期監視部110は、一定時間待機する。その後、定期監視部110は、処理をステップS201に進める。
 [ステップS208]定期監視部110は、応答を受信していない場合、定期監視の応答待ち制限時間がタイムアウトしたか否かを判断する。例えば定期監視部110は、定期監視用のタイマの時間が、定期監視の応答待ち制限時間以上であれば、タイムアウトしたと判断する。タイムアウトした場合、定期監視部110は、処理をステップS209に進める。タイムアウトしていなければ、定期監視部110は、処理をステップS204に進める。
 [ステップS209]定期監視部110は、定期監視の応答待ち制限時間がタイムアウトした場合、定期監視エラーのエラーログをエラーログ記憶部150に格納する。その後、処理を終了する。
 次に受動的な定期監視について説明する。第2の実施の形態では、監視相手が出力する定期監視コマンドを、監視相手のハートビートとして取り扱う。
 図23は、受動的な定期監視の処理手順を示すフローチャートである。以下、図23に示す処理をステップ番号に沿って説明する。なお、以下の説明では、管理部制御部211がコンソール部100の定期監視を行う場合を想定する。
 [ステップS211]定期監視部211aは、コンソール部100の定期監視が抑止中か否かを判断する。例えば定期監視部211aは、監視ステータス記憶部211b内のコンソール部100に対応する監視ステータス情報のステータスが「監視抑止中」であれば、定期監視が抑止中であると判断する。定期監視が抑止中であれば、定期監視部211aはステップS211の処理を繰り返す。定期監視が抑止中でなければ、定期監視部211aは、処理をステップS212に進める。
 [ステップS212]定期監視部211aは、定期監視用のタイマを起動し、時間の計測を開始する。
 [ステップS213]定期監視部211aは、コンソール部100から定期監視抑止指示を受信したか否かを判断する。定期監視部211aは、定期監視抑止指示を受信した場合、処理をステップS216に進める。また定期監視部211aは、定期監視抑止指示を受信していなければ、処理をステップS214に進める。
 [ステップS214]定期監視部211aは、定期監視のHLCコマンドを受信したか否かを判断する。定期監視部211aは、HLCコマンドを受信した場合、処理をステップS215に進める。また定期監視部211aは、HLCコマンドを受信していなければ、処理をステップS218に進める。
 [ステップS215]定期監視部211aは、コンソール部100に対して応答を送信する。
 [ステップS216]定期監視部211aは、定期監視用のタイマを停止し、タイマの値を「0」にリセットする。
 [ステップS217]定期監視部211aは、一定時間待機する。その後、定期監視部211aは、処理をステップS211に進める。
 [ステップS218]定期監視部211aは、定期監視のHLCコマンドを受信していない場合、定期監視の待ち制限時間がタイムアウトしたか否かを判断する。例えば定期監視部211aは、定期監視用のタイマの時間が、定期監視の待ち制限時間以上であれば、タイムアウトしたと判断する。タイムアウトした場合、定期監視部211aは、処理をステップS219に進める。タイムアウトしていなければ、定期監視部211aは、処理をステップS213に進める。
 [ステップS219]定期監視部211aは、定期監視の待ち制限時間がタイムアウトした場合、定期監視エラーのエラーログをエラーログ記憶部211eに格納する。その後、処理を終了する。
 図22、図23に示したように、互いに相手方を監視する2つの装置があるとき、一方の装置が能動的に定期監視を行い、他方の装置が受動的に定期監視を行うことで、相互の定期監視に必要な通信量を削減することができる。
 次に、定期監視抑止指示が入力された場合の処理について、図24、図25を参照して説明する。なお以下の説明では、コンソール部100が管理部内サーバ監視部212の定期監視を抑止する場合を想定する。
 図24は、定期監視抑止管理処理の手順の一例を示す第1の図である。以下、図24に示す処理をステップ番号に沿って説明する。以下の処理は、定期監視抑止指示を受信したときに開始される。
 [ステップS221]定期監視部110は、管理部内サーバ監視部212から定期監視抑止指示を受信すると、抑止解除待ち用のタイマを起動し、時間の計測を開始する。このとき定期監視部110は、例えば監視ステータス記憶部120内の管理部内サーバ監視部212に対応する管理ステータス情報のステータスを「監視抑止中」に変更する。
 [ステップS222]定期監視部110は、管理部内サーバ監視部212から定期監視抑止解除指示を受信したか否かを判断する。定期監視抑止解除指示を受信した場合、定期監視部110は、例えば監視ステータス記憶部120内の管理部内サーバ監視部212に対応する管理ステータス情報のステータスを「監視中」に変更し、処理を終了する。
 [ステップS223]定期監視部110は、抑止解除待ち制限時間がタイムアウトしたか否かを判断する。例えば定期監視部110は、抑止解除待ち用のタイマの時間が、所定の抑止解除待ち制限時間以上となった場合、タイムアウトしたと判断する。定期監視部110は、タイムアウトした場合、例えば監視ステータス制御部130に抑止解除待ち制限時間のタイムアウトを通知し、処理をステップS224に進める。また定期監視部110は、タイムアウトしていなければ、処理をステップS222に進める。
 [ステップS224]監視ステータス制御部130は、抑止解除待ち制限時間のタイムアウトの通知を受けると、監視ステータス要求を管理部制御部211に送信する。送信される監視ステータス要求では、管理部内サーバ監視部212が確認対象装置に指定されている。
 [ステップS225]監視ステータス制御部130は、監視ステータス用のタイマを起動し、時間の計測を開始する。その後、監視ステータス制御部130は、処理をステップS226(図25参照)に進める。
 図25は、定期監視抑止管理処理の手順の一例を示す第2の図である。以下、図25に示す処理をステップ番号に沿って説明する。
 [ステップS226]監視ステータス制御部130は、監視ステータスの応答を受信したか否かを判断する。監視ステータス制御部130は、応答を受信した場合、処理をステップS229に進める。また監視ステータス制御部130は、応答を受信していない場合、処理をステップS227に進める。
 [ステップS227]監視ステータス制御部130は、監視ステータスの応答を受信していない場合、監視ステータスの応答待ち制限時間がタイムアウトしたか否かを判断する。例えば監視ステータス制御部130は、監視ステータス用のタイマの時間が、監視ステータスの応答待ち制限時間以上となった場合、タイムアウトしたと判断する。監視ステータス制御部130は、タイムアウトした場合、処理をステップS228に進める。また監視ステータス制御部130は、タイムアウトしていなければ、処理をステップS226に進める。
 [ステップS228]監視ステータス制御部130は、監視ステータスの応答待ち制限時間がタイムアウトすると、HLC通信エラーのエラーログをエラーログ記憶部150に登録する。その後、監視ステータス制御部130は処理を終了する。
 [ステップS229]監視ステータス制御部130は、取得した監視ステータスが「監視中」または「応答受信済み」の少なくともいずれか一方か否かを判断する。監視ステータスが「監視中」または「応答受信済み」のいずれかであれば、監視ステータス制御部130は、処理をステップS230に進める。監視ステータスが「監視中」または「応答受信済み」のいずれでもなければ、監視ステータス制御部130は、処理をステップS233に進める。
 [ステップS230]監視ステータス制御部130は、管理部内サーバ監視部212に対して、ネットワークの接続を試行する。
 [ステップS231]監視ステータス制御部130は、管理部内サーバ監視部212からネットワーク接続が実行されたことを示す応答を受信したか否かを判断する。監視ステータス制御部130は、応答を受信した場合、処理を終了する。また監視ステータス制御部130は、応答を受信できなかった場合、処理をステップS232に進める。ここで応答を受信できなかった場合とは、例えばネットワーク接続を試行してから所定の制限時間を経過しても応答を受信できなかった場合である。
 [ステップS232]監視ステータス制御部130は、ネットワーク障害のエラーログを、エラーログ記憶部150に登録する。その後、処理が終了する。
 [ステップS233]監視ステータス制御部130は、取得した監視ステータスが「監視抑止中」または「監視タイムアウト」の少なくともいずれか一方か否かを判断する。監視ステータスが「監視抑止中」または「監視タイムアウト」のいずれかであれば、監視ステータス制御部130は、処理をステップS234に進める。監視ステータスが「監視抑止中」または「監視タイムアウト」のいずれでもなければ、監視ステータス制御部130は、処理を終了する。
 [ステップS234]監視ステータス制御部130は、再起動監視タイムアウトのエラーログを、エラーログ記憶部150に登録する。その後、監視ステータス制御部130は処理を終了する。
 以上のようにして、管理部内サーバ監視部212の動作監視の正確性を向上させることができる。例えば、コンソール部100と管理部内サーバ監視部212との間のネットワーク障害が発生した場合に、管理部内サーバ監視部212が動作していないという誤ったエラー検出が抑止される。
 また管理部内サーバ監視部212の再起動後に、管理部内サーバ監視部212からコンソール部100へのネットワーク接続に失敗しても、コンソール部100から管理部内サーバ監視部212へのネットワーク接続は可能な場合がある。第2の実施の形態では、コンソール部100において定期監視の抑止解除待ち制限時間がタイムアウトした場合、コンソール部100から管理部内サーバ監視部212にネットワーク接続を試みる。ネットワーク接続に成功すれば、それ以降は、コンソール部100と管理部内サーバ監視部212との間の通信は、正常に行うことができる。そのため、コンソール部100からのネットワーク接続に成功した場合にはエラーとは扱わないことで、過剰なエラー検出が抑止される。
 〔その他の実施の形態〕
 第2の実施の形態では、管理部内サーバ監視部212を再起動する場合の例を示したが、コンソール部100を再起動する場合や、管理部制御部211を再起動する場合にも、同様の処理を行うことができる。
 また、第2の実施の形態では、管理部内サーバ監視部212からの定期監視抑止解除指示がタイムアウトした場合に、管理部制御部211から監視ステータス情報を取得するが、他の情報のタイムアウト時にも同様の処理を行うことができる。例えばコンソール部100による管理部内サーバ監視部212の定期監視の応答がタイムアウトした場合に、管理部制御部211から監視ステータス情報を取得するようにしてもよい。この場合、コンソール部100は、取得した監視ステータス情報で、管理部内サーバ監視部212が正常に動作していることが示されていれば、コンソール部100と管理部内サーバ監視部212との間のネットワーク障害が発生したものと判断する。またコンソール部100は、取得した監視ステータス情報で、管理部内サーバ監視部212が正常に動作していないことが示されていれば、管理部内サーバ監視部212に障害が発生したものと判断する。
 また、管理部制御部211のように受動的な定期監視を行う装置では、例えばコンソール部100からの定期監視コマンドの受信待ち制限時間がタイムアウトした場合に、管理部内サーバ監視部212から監視ステータス情報を取得するようにしてもよい。
 また第2の実施の形態は、相互監視を行う3つの装置による他の装置の監視例であるが、相互監視を行う装置数は、4つ以上であってもよい。その場合、例えば複数の装置を同時に再起動する場合もあり得る。このような場合、再起動されない2台の装置によって、再起動をした装置それぞれに対して、第2の実施の形態と同様の監視処理を行うことができる。
 また第2の実施の形態では、コンソール部100は、管理部制御部211から取得した管理部内サーバ監視部212の監視ステータスが「監視中」や「応答受信済み」の正常状態を表しているときに、管理部内サーバ監視部212にネットワーク接続を行っている。このコンソール部100によるネットワーク接続は、例えば、定期監視の抑止解除待ち制限時間のタイムアウト後、監視ステータス要求の送信前に実行することもできる。監視ステータス要求の送信前に管理部内サーバ監視部212へのネットワーク接続を行い、正常にネットワーク接続ができた場合、コンソール部100は、管理部内サーバ監視部212が正常に動作していることを認識できる。そのため、監視ステータス要求の送信前に行ったネットワーク接続が正常に完了した場合、コンソール部100は、管理部制御部211に監視ステータス要求を送信せずにすむ。
 なお、上記の各実施の形態に示した処理機能は、コンピュータによって実現することができる。その場合、情報処理装置1、コンソール部100、管理部制御部211、および管理部内サーバ監視部212が有する機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD-RAM、CD-ROM/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disc)などがある。
 プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD-ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
 プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
 また、上記の処理機能の少なくとも一部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現することもできる。
 上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。
 1 情報処理装置
 1a 監視手段
 1b 計時手段
 1c 問い合わせ手段
 1d 判断手段
 1e 接続手段
 1f 記憶装置
 2 被監視装置
 3 監視装置

Claims (8)

  1.  コンピュータに、
     ネットワークを介して接続された被監視装置からの所定の情報の受信待ち時間を計測し、
     受信待ちの制限時間を過ぎても前記所定の情報を受信できない場合、前記被監視装置を監視している監視装置に、前記被監視装置の動作状況を問い合わせ、
     前記監視装置からの応答に示される前記被監視装置の動作状態に基づいて前記被監視装置の障害か、前記被監視装置との間のネットワーク障害かを判断する、
     処理を実行させることを特徴とするプログラム。
  2.  前記コンピュータに、さらに、
     前記被監視装置との間のネットワーク障害と判断された場合、前記被監視装置との間で前記ネットワークを介した通信接続を試行し、
     前記ネットワークを介した通信接続に成功した場合、前記被監視装置との間のネットワーク障害が発生したという判断を取り消す、
     処理を実行させることを特徴とする請求の範囲第1項記載のプログラム。
  3.  前記所定の情報は、定期監視の抑止解除指示であり、
     前記コンピュータに、さらに、
     前記被監視装置が正常に動作しているか否かの定期的な監視を行い、
     前記被監視装置から定期監視の抑止指示を受信すると、前記被監視装置の定期的な監視を抑止すると共に、前記受信待ち時間の計測を開始し、
     前記抑止解除指示を受信すると、前記被監視装置の定期的な監視の抑止を解除する、
     処理を実行させることを特徴とする請求の範囲第1項記載のプログラム。
  4.  前記コンピュータに、さらに、
     前記被監視装置との間のネットワーク障害と判断された場合、前記被監視装置との間で前記ネットワークを介した通信接続を試行し、
     前記ネットワークを介した通信接続に成功した場合、前記被監視装置の定期的な監視の抑止を解除する、
     処理を実行させることを特徴とする請求の範囲第3項記載のプログラム。
  5.  前記コンピュータに、さらに、
     前記被監視装置の障害か、前記被監視装置との間のネットワーク障害かの判断結果を、記憶装置に格納する、
     処理を実行させることを特徴とする請求の範囲第1項乃至第4項のいずれかに記載のプログラム。
  6.  前記コンピュータに、
     前記判断の際には、前記監視装置からの応答において前記被監視装置が異常であることが示されていた場合、前記被監視装置の障害と判断し、前記監視装置からの応答において前記被監視装置が正常であることが示されていた場合、前記被監視装置との間のネットワーク障害と判断する、
     処理を実行させることを特徴とする請求の範囲第1項乃至第5項のいずれかに記載のプログラム。
  7.  ネットワークを介して接続された被監視装置からの所定の情報の受信待ち時間を計測する計時手段と、
     受信待ちの制限時間を過ぎても前記所定の情報を受信できない場合、前記被監視装置を監視している監視装置に、前記被監視装置の動作状況を問い合わせる問い合わせ手段と、
     前記監視装置からの応答に示される前記被監視装置の動作状態に基づいて前記被監視装置の障害か、前記被監視装置との間のネットワーク障害かを判断する判断手段と、
     を有することを特徴とする情報処理装置。
  8.  ネットワークを介して接続された被監視装置からの所定の情報の受信待ち時間を計測し、
     受信待ちの制限時間を過ぎても前記所定の情報を受信できない場合、前記被監視装置を監視している監視装置に、前記被監視装置の動作状況を問い合わせ、
     前記監視装置からの応答に示される前記被監視装置の動作状態に基づいて前記被監視装置の障害か、前記被監視装置との間のネットワーク障害かを判断する、
     処理を実行させることを特徴とする監視方法。
PCT/JP2011/060253 2011-04-27 2011-04-27 プログラム、情報処理装置、および監視方法 WO2012147176A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013511833A JPWO2012147176A1 (ja) 2011-04-27 2011-04-27 プログラム、情報処理装置、および監視方法
PCT/JP2011/060253 WO2012147176A1 (ja) 2011-04-27 2011-04-27 プログラム、情報処理装置、および監視方法
US14/043,907 US20140032173A1 (en) 2011-04-27 2013-10-02 Information processing apparatus, and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/060253 WO2012147176A1 (ja) 2011-04-27 2011-04-27 プログラム、情報処理装置、および監視方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/043,907 Continuation US20140032173A1 (en) 2011-04-27 2013-10-02 Information processing apparatus, and monitoring method

Publications (1)

Publication Number Publication Date
WO2012147176A1 true WO2012147176A1 (ja) 2012-11-01

Family

ID=47071718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/060253 WO2012147176A1 (ja) 2011-04-27 2011-04-27 プログラム、情報処理装置、および監視方法

Country Status (3)

Country Link
US (1) US20140032173A1 (ja)
JP (1) JPWO2012147176A1 (ja)
WO (1) WO2012147176A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206809A (ja) * 2013-04-11 2014-10-30 三菱電機株式会社 データ処理装置
JP2016004488A (ja) * 2014-06-18 2016-01-12 富士通株式会社 データ管理プログラム、データ管理装置及びデータ管理方法
JP2017527052A (ja) * 2014-07-09 2017-09-14 リーオ インコーポレイテッド 接続監視に基づく故障診断
JP2018085107A (ja) * 2016-11-17 2018-05-31 株式会社リコー リブートシステム及び情報処理装置
CN112235370A (zh) * 2020-09-29 2021-01-15 卧安科技(深圳)有限公司 一种设备信息同步方法、同步装置、主设备及存储介质
WO2024057403A1 (ja) * 2022-09-13 2024-03-21 東芝キヤリア株式会社 設備機器管理装置および設備機器管理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI497437B (zh) * 2013-11-25 2015-08-21 Inst Information Industry 先進讀表基礎建設場勘系統
CN104394009B (zh) * 2014-10-29 2019-05-07 中国建设银行股份有限公司 一种故障信息的处理方法及装置
US9525608B2 (en) * 2015-02-25 2016-12-20 Quanta Computer, Inc. Out-of band network port status detection
US10868754B2 (en) * 2016-01-27 2020-12-15 Nebbiolo Technologies Inc. High availability input/output management nodes
CN105721172B (zh) * 2016-02-25 2019-04-30 广东美的暖通设备有限公司 主从式系统中通讯故障的处理方法和主从式系统
WO2017165701A1 (en) 2016-03-25 2017-09-28 Nebbiolo Technologies, Inc. Fog Computing Facilitated Flexible Factory
DE102016220197A1 (de) * 2016-10-17 2018-04-19 Robert Bosch Gmbh Verfahren zum Verarbeiten von Daten für ein automatisiertes Fahrzeug
US10798063B2 (en) 2016-10-21 2020-10-06 Nebbiolo Technologies, Inc. Enterprise grade security for integrating multiple domains with a public cloud
US10979368B2 (en) 2017-08-02 2021-04-13 Nebbiolo Technologies, Inc. Architecture for converged industrial control and real time applications
JP2019101515A (ja) * 2017-11-29 2019-06-24 ルネサスエレクトロニクス株式会社 半導体装置及びその電源監視方法
EP3724761B1 (en) * 2017-12-14 2021-04-28 Telefonaktiebolaget LM Ericsson (publ) Failure handling in a cloud environment
US10379985B1 (en) * 2018-02-01 2019-08-13 EMC IP Holding Company LLC Automating and monitoring rolling cluster reboots

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962415A (ja) * 1995-08-22 1997-03-07 Oki Electric Ind Co Ltd ネットワーク監視システム
JP2005309643A (ja) * 2004-04-20 2005-11-04 Fujitsu Ltd 稼動状況監視装置,監視対象装置およびそれらのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516196B1 (en) * 2000-03-21 2009-04-07 Nokia Corp. System and method for delivery and updating of real-time data
US7523357B2 (en) * 2006-01-24 2009-04-21 International Business Machines Corporation Monitoring system and method
JP2006338681A (ja) * 2006-07-28 2006-12-14 Matsushita Electric Ind Co Ltd 情報処理システム、サーバ装置および電子機器
US8423604B2 (en) * 2008-08-29 2013-04-16 R. Brent Johnson Secure virtual tape management system with balanced storage and multi-mirror options

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962415A (ja) * 1995-08-22 1997-03-07 Oki Electric Ind Co Ltd ネットワーク監視システム
JP2005309643A (ja) * 2004-04-20 2005-11-04 Fujitsu Ltd 稼動状況監視装置,監視対象装置およびそれらのプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206809A (ja) * 2013-04-11 2014-10-30 三菱電機株式会社 データ処理装置
JP2016004488A (ja) * 2014-06-18 2016-01-12 富士通株式会社 データ管理プログラム、データ管理装置及びデータ管理方法
JP2017527052A (ja) * 2014-07-09 2017-09-14 リーオ インコーポレイテッド 接続監視に基づく故障診断
JP2018085107A (ja) * 2016-11-17 2018-05-31 株式会社リコー リブートシステム及び情報処理装置
JP7006151B2 (ja) 2016-11-17 2022-01-24 株式会社リコー リブートシステム及び情報処理装置
CN112235370A (zh) * 2020-09-29 2021-01-15 卧安科技(深圳)有限公司 一种设备信息同步方法、同步装置、主设备及存储介质
CN112235370B (zh) * 2020-09-29 2023-04-28 卧安科技(深圳)有限公司 一种设备信息同步方法、同步装置、主设备及存储介质
WO2024057403A1 (ja) * 2022-09-13 2024-03-21 東芝キヤリア株式会社 設備機器管理装置および設備機器管理方法

Also Published As

Publication number Publication date
US20140032173A1 (en) 2014-01-30
JPWO2012147176A1 (ja) 2014-07-28

Similar Documents

Publication Publication Date Title
WO2012147176A1 (ja) プログラム、情報処理装置、および監視方法
JP6383839B2 (ja) リモートkvmセッションに使用する方法、記憶装置及びシステム
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
JP5872731B2 (ja) クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム
TWI337707B (en) System and method for logging recoverable errors
US7672247B2 (en) Evaluating data processing system health using an I/O device
US10547499B2 (en) Software defined failure detection of many nodes
US8266301B2 (en) Deployment of asynchronous agentless agent functionality in clustered environments
US7734948B2 (en) Recovery of a redundant node controller in a computer system
WO2013101082A1 (en) Reset of processing core in multi-core processing system
US20210149757A1 (en) Detecting and recovering from fatal storage errors
US10842041B2 (en) Method for remotely clearing abnormal status of racks applied in data center
JP3942216B2 (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置
JP2009265848A (ja) 情報処理システムの制御方法、情報処理システム、およびプログラム
JP2007299213A (ja) Raid制御装置および障害監視方法
JP4905165B2 (ja) 監視支援プログラム、監視方法および監視システム
CN109828855B (zh) 多处理器错误检测系统及其方法
JP2011159011A (ja) ジョブ監視システム及びジョブ監視プログラム
US20100318666A1 (en) Expediting adapter failover
JP2012150661A (ja) プロセッサ動作検査システム、及びその検査方法
US7243264B2 (en) Method and apparatus for error handling in networks
JP6222759B2 (ja) 障害通知装置、障害通知方法及びプログラム
EP1369784A2 (en) Computer system failure handling
TW201324115A (zh) 電腦系統及電腦系統的開機管理方法
JP2006350654A (ja) サーバ計算機

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11864353

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013511833

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11864353

Country of ref document: EP

Kind code of ref document: A1