WO2015015544A1 - 情報処理システム、装置、方法及びプログラム - Google Patents

情報処理システム、装置、方法及びプログラム Download PDF

Info

Publication number
WO2015015544A1
WO2015015544A1 PCT/JP2013/070422 JP2013070422W WO2015015544A1 WO 2015015544 A1 WO2015015544 A1 WO 2015015544A1 JP 2013070422 W JP2013070422 W JP 2013070422W WO 2015015544 A1 WO2015015544 A1 WO 2015015544A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
execution
unit
processing apparatus
control unit
Prior art date
Application number
PCT/JP2013/070422
Other languages
English (en)
French (fr)
Inventor
広大 太田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2015529233A priority Critical patent/JP6112205B2/ja
Priority to PCT/JP2013/070422 priority patent/WO2015015544A1/ja
Publication of WO2015015544A1 publication Critical patent/WO2015015544A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant

Definitions

  • the service processor operates independently of hardware such as CPU or memory in the server, and performs monitoring and control of these hardware.
  • the term service processor may refer to a so-called processor or a processing unit including a processor, a memory, a board, and the like.
  • the service processor When the service processor receives an operation execution instruction from an external device, the service processor controls the CPU to execute the operation. There is no problem when the service processor is operating normally, but there is a problem that if the service processor stops due to a software error or the like, the CPU cannot execute the operation.
  • each node monitors the node of the next entry on the address management table. As a result, each node monitors the node of the next entry and is monitored from the node of the previous entry.
  • the node that detects the occurrence of a failure in the monitoring target node acts as a proxy for the function of the node in which the failure has occurred, and the monitoring in charge of the node in which the failure has occurred.
  • a node in this technology is not provided with a service processor. Therefore, when the service processor stops due to an error, the CPU controlled by the service processor cannot execute the process, and as a result, the problem that the execution of the process by the server is delayed cannot be dealt with.
  • an object of the present invention is to provide a technique for suppressing delay of execution of processing by a server when a service processor in the server is stopped.
  • An information processing system includes a management apparatus, and a plurality of information processing apparatuses each including an execution unit and a control unit that receives an execution instruction from the management unit and causes the execution unit to execute a process specified in the execution instruction.
  • a management apparatus a plurality of information processing apparatuses each including an execution unit and a control unit that receives an execution instruction from the management unit and causes the execution unit to execute a process specified in the execution instruction.
  • the control unit in any one of the plurality of information processing devices detects a stop of the control unit in the other information processing device among the plurality of information processing devices, other information is received from the management device.
  • the first execution instruction for the first processing unit that receives the first execution instruction transmitted to the control unit in the processing device instead of the other information processing device, and the execution unit in the other information processing device.
  • a second processing unit that requests execution of the designated process.
  • FIG. 1 is a diagram showing a system outline of the present embodiment.
  • FIG. 2 is a functional block diagram of the service processor.
  • FIG. 3 is a diagram illustrating an example of data stored in the control data storage unit.
  • FIG. 4 is a diagram illustrating an example of data stored in the setting data storage unit.
  • FIG. 5 is a diagram illustrating an example of a monitoring method in the present embodiment.
  • FIG. 6 is a diagram showing a main processing flow.
  • FIG. 7 is a diagram showing a main processing flow.
  • FIG. 8 is a diagram showing a main processing flow.
  • FIG. 9 is a diagram illustrating an example of data stored in the operation data storage unit.
  • FIG. 10 is a diagram showing an outline of the processing according to the present embodiment.
  • FIG. 11 is a diagram for explaining the effect of the present embodiment.
  • FIG. 12 is a diagram for explaining the effect of the present embodiment.
  • FIG. 13 is a functional block diagram of a computer.
  • Fig. 1 shows the system outline of this embodiment.
  • an information processing apparatus 11, an information processing apparatus 13, an information processing apparatus 15, and a management apparatus 5 are connected to a network 31 that is a LAN (Local Area Network).
  • the information processing apparatus 11 is connected to the network 31 via a NIC (Network Interface Card) 110
  • the information processing apparatus 13 is connected to the network 31 via a NIC 130
  • the information processing apparatus 15 is connected to the network 31 via a NIC 150.
  • the network 31 is a network for communication between service processors in the information processing apparatuses 11 to 15 and communication between the service processor and the management apparatus 5.
  • the NIC is, for example, a LAN card.
  • the information processing apparatus 11, the information processing apparatus 13, and the information processing apparatus 15 are connected to the network 33, which is a LAN, for example.
  • the information processing apparatus 11 is connected to the network 33 via a NIC (Network Interface Card) 117
  • the information processing apparatus 13 is connected to the network 33 via a NIC 137
  • the information processing apparatus 15 is connected to the network 33 via a NIC 157.
  • the network 33 is a network for communication between host CPUs in the information processing apparatuses 11 to 15.
  • the NIC is, for example, a LAN card.
  • the information processing apparatus 11 includes a NIC 110, a CPU 112, a service processor 111 including an HDD (Hard Disk Drive) 113 and a memory 114, a shared memory 115, a host CPU 116, and a NIC 117.
  • the service processor 111 performs monitoring and control of the host CPU 116 and monitoring of other service processors.
  • the shared memory 115 is a memory for exchanging data between the service processor 111 and the host CPU 116.
  • the host CPU 116 receives an operation execution instruction from the management apparatus 5 via the service processor 111 and executes the operation. Since the information processing devices 13 and 15 are the same as the information processing device 11, description thereof is omitted.
  • the management apparatus 5 operated by the user transmits an operation execution instruction for the information processing apparatus to the service processor in the information processing apparatus via the network 31. If the operation specified in the operation execution instruction is an operation to be executed by the host CPU, the service processor stores the data of the operation in the shared memory. The host CPU executes the operation using the operation data stored in the shared memory.
  • the operation is, for example, processing such as shutting down or rebooting (that is, restarting) the host CPU.
  • the number of information processing apparatuses is three, but the number is not limited.
  • FIG. 2 shows a functional block diagram of the service processor 111.
  • the service processor 111 includes a management unit 1110, an execution request unit 1111, a control data storage unit 1112, a setting data storage unit 1113, and an operation data storage unit 1114.
  • the management unit 1110 and the execution request unit 1111 are realized when the CPU 112 executes a program stored in the HDD 113.
  • areas for the control data storage unit 1112, the setting data storage unit 1113, and the operation data storage unit 1114 are secured in the HDD 113 or the memory 114.
  • the management unit 1110 performs processing using the data stored in the control data storage unit 1112 and the data stored in the setting data storage unit 1113. Specifically, the management unit 1110 performs processing for monitoring a service processor in another information processing apparatus, processing for detecting a stop of a monitored service processor, and execution of an operation transmitted to the other information processing apparatus. A process of receiving an instruction instead of another information processing apparatus is executed.
  • the execution request unit 1111 performs processing using the data stored in the operation data storage unit 1114. Specifically, the execution request unit 1111 temporarily stores, in the operation data storage unit 1114, operation data that cannot be immediately executed by the host CPU in another information processing apparatus, and the information processing apparatus 11. For example, processing for storing the operation data for the information processing apparatus and the operation data for the monitored information processing apparatus in the shared memory 115 is executed.
  • FIG. 3 shows an example of data stored in the control data storage unit 1112.
  • an ID (IDentifier) of the information processing apparatus to be monitored data indicating the status of the service processor in the information processing apparatus to be monitored, a retry counter for counting the number of retries for status confirmation, A threshold value for the number of retries and an upper limit for the number of retries are stored.
  • the status of the service processor is “normal”, the service processor is operating normally.
  • the status of the service processor is “retrying”
  • the status confirmation is retried for the service processor.
  • the status of the service processor is “rebooting”
  • the service processor is rebooting. If the status of the service processor is “error”, the reboot in that service processor has failed.
  • the retry counter is incremented by 1 each time a retry is performed.
  • the upper limit of the number of retries is calculated as, for example, (reboot time) / (time interval for executing state confirmation) using the reboot time stored in the setting data storage unit 1113.
  • FIG. 4 shows an example of data stored in the setting data storage unit 1113.
  • the ID of the information processing device the serial number of the information processing device, the IP address of the information processing device, the ID of the information processing device monitored by the information processing device, and the monitoring by the information processing device
  • the reboot time (that is, the time required for reboot) of the information processing apparatus to be stored is stored.
  • the setting data storage unit 1113 stores data for all information processing apparatuses in the system.
  • FIG. 5 shows an example of the monitoring method in the present embodiment.
  • the service processor 111 monitors the service processor 131
  • the service processor 131 monitors the service processor 151
  • the service processor 151 monitors the service processor 111.
  • any service processor is monitored, so that any service processor that is stopped is detected as being stopped.
  • the monitoring method is not limited to the monitoring method shown in FIG. 5 as long as the condition that any service processor is monitored is satisfied.
  • processing performed in the system according to the present embodiment will be described with reference to FIGS.
  • the process performed in the system in the present embodiment will be described mainly by describing the process executed by the information processing apparatus 11.
  • the processing described with reference to FIGS. 6 to 9 is periodically performed for each information processing apparatus to be monitored.
  • step S1 the management unit 1110 in the information processing apparatus 11 determines whether a predetermined time has elapsed since the previous process (FIG. 6: step S1).
  • step S1 Yes route
  • the timing of checking the status of the information processing apparatus to be monitored hereinafter referred to as the information processing apparatus 13
  • step S31 the timing of checking the status of the information processing apparatus to be monitored
  • the management unit 1110 transmits a status confirmation request to the monitoring information processing apparatus 13 via the network 31 (FIG. 7: step S31).
  • the status confirmation request is a request for confirming the status of the service processor 131 in the information processing apparatus 13 to be monitored. If a response to the status confirmation request is returned, it is determined that the service processor 131 in the information processing apparatus 13 to be monitored is operating normally.
  • the management unit 1110 determines whether a response to the status confirmation request has been received (step S33). If no response has been received (step S33: No route), the process proceeds to S51 in FIG.
  • the management unit 1110 determines whether or not the state of the service processor 131 in the information processing apparatus 13 to be monitored is “normal” based on the data stored in the control data storage unit 1112. (FIG. 8: Step S51). If the status is “normal” (step S51: Yes route), the first status check has been performed, and therefore the management unit 1110 sets the retry counter value stored in the control data storage unit 1112 to “1”. "(Step S53). In addition, the management unit 1110 sets the status of the service processor 131 in the monitored information processing apparatus 13 stored in the control data storage unit 1112 to “retrying” (step S55). Then, the process proceeds to the process of FIG.
  • step S51 when the state is not “normal” (step S51: No route), the management unit 1110 determines whether or not the state is “retrying” based on the data stored in the control data storage unit 1112. (Step S57). When the status is “retrying” (step S57: Yes route), the management unit 1110 increments the value of the retry counter for the monitored information processing device 13 stored in the control data storage unit 1112 by 1. (Step S59).
  • the management unit 1110 determines whether the value of the retry counter is equal to or less than the retry threshold value stored in the control data storage unit 1112 (step S61).
  • the value of the retry counter is equal to or smaller than the retry threshold (step S61: Yes route)
  • the process proceeds to the process of FIG.
  • step S61 when the value of the retry counter is larger than the threshold (step S61: No route), the management unit 1110 changes the status of the service processor 131 in the information processing apparatus 13 to be monitored stored in the control data storage unit 1112 to “ “Rebooting” is set (step S63).
  • the service processor stops for example, the service processor is automatically rebooted. Therefore, when the number of retries exceeds the retry threshold (that is, when a certain amount of time has passed), it is considered that the service processor is being rebooted. It is.
  • the management unit 1110 additionally sets the IP address of the information processing device 13 to be monitored stored in the setting data storage unit 1113 as the IP address of the information processing device 11 (step S65).
  • step S65 for example, the setting of the IP address of the information processing device 13 to be monitored is added to the setting of the IP address of the information processing device 11 in the NIC 110.
  • the operation execution request transmitted from the management device 5 to the information processing device 13 to be monitored is also transferred to the information processing device 11. Even if the user of the management apparatus 5 does not change the transmission destination, an operation execution request for the information processing apparatus 13 to be monitored is automatically transmitted to the information processing apparatus 11.
  • step S57 when the state is not “retrying” (step S57: No route), the state is “rebooting”.
  • the management unit 1110 increments the retry counter value by 1 (step S67).
  • the management unit 1110 determines whether the value of the retry counter has exceeded the upper limit of the number of retries stored in the control data storage unit 1112 (step S69). When the upper limit of the number of retries has not been exceeded (step S69: No route), in order to continue the retry, the process proceeds to the process of FIG. On the other hand, when the upper limit of the number of retries is exceeded (step S69: Yes route), it is considered that the reboot of the monitored information processing apparatus 13 has failed. Therefore, the management unit 1110 sets the status of the service processor 131 in the monitored information processing apparatus 13 stored in the control data storage unit 1112 to “error” (step S71). Then, the process proceeds to the process of FIG.
  • step S ⁇ b> 33: Yes route when a response to the status confirmation request is received (step S ⁇ b> 33: Yes route), the management unit 1110 stores the service processor in the monitored information processing apparatus 13 stored in the control data storage unit 1112. The state of 131 is set to “normal” (step S35).
  • the management unit 1110 sets the value of the retry counter stored in the control data storage unit 1112 to “0” (step S37).
  • the management unit 1110 deletes the setting for the IP address of the information processing apparatus 13 to be monitored (step S39). Note that the setting of the IP address of the information processing apparatus 13 to be monitored is performed when the number of retries exceeds the retry threshold, and therefore there may be no setting.
  • the management unit 1110 determines whether operation data is stored in the operation data storage unit 1114 for the information processing apparatus 13 to be monitored (step S41).
  • operation data storage unit 1114 data of an operation that depends on the service processor 131 in the information processing apparatus 13 to be monitored (that is, a process that cannot be executed unless the service processor is operating normally) is stored by the process of step S19.
  • FIG. 9 shows an example of data stored in the operation data storage unit 1114.
  • the execution instruction issue source IP address, the execution instruction issue destination information processing apparatus IP address, the execution instruction reception time, the operation type, and the parameters used to execute the operation are as follows. Stored.
  • step S41 No route
  • step S41 when the operation data is stored in the operation data storage unit 1114 for the information processing apparatus 13 to be monitored (step S41: Yes route), the management unit 1110 requests the execution because the operation should be executed.
  • the unit 1111 is instructed to execute processing.
  • the execution request unit 1111 stores a transfer request including the data of the operation in the shared memory 115 (step S43).
  • step S45 the block of step S45 is represented by a broken line in FIG.
  • the host CPU 136 in the information processing apparatus 13 to be monitored that has received the execution request executes the operation using the operation data included in the execution request.
  • the host CPU 136 in the information processing apparatus 13 to be monitored transmits a notification indicating the completion of the operation to the host CPU 116 of the information processing apparatus 11 via the network 31.
  • the host CPU 116 of the information processing apparatus 11 When the host CPU 116 of the information processing apparatus 11 receives a notification indicating the completion of the operation from the information processing apparatus 13 to be monitored, the host CPU 116 stores it in the shared memory 115. As a result, the service processor 111 receives a notification indicating the completion of the operation (step S47), and confirms that the operation is completed. If the service processor 111 in the monitoring target information processing device 13 has been rebooted, the service processor 111 sends a notification indicating the completion of the substitution to the service processor 131 in the monitoring target information processing device 13. Send through. In addition, the service processor 111 transmits a notification indicating the completion of the operation to the management apparatus 5 via the network 31. Then, the processing shifts to the description of FIG.
  • the management unit 1110 has received a status confirmation request from the information processing apparatus that monitors the information processing apparatus 11 when the predetermined time has not elapsed since the previous process (step S1: No route). (Step S3).
  • step S3 Yes route
  • the management unit 1110 sends a response indicating that the status is normal to the information processing apparatus that is the source of the status confirmation request. Then, the data is transmitted via the network 31 (step S5). Then, the process ends.
  • the management unit 1110 determines whether an operation execution instruction has been received from the management device 5 (step S7).
  • step S7 If the operation execution instruction has not been received from the management device 5 (step S7: No route), the process returns to the process of step S1 to continue the process.
  • step S7: Yes route the management unit 1110 determines whether the operation specified in the operation execution instruction is an operation for the information processing apparatus 11 (step S9). In step S ⁇ b> 9, the determination is made based on whether or not the IP address of the information processing apparatus to which the execution instruction is issued included in the execution instruction is the IP address of the information processing apparatus 11.
  • the management unit 1110 stores an operation execution request including the operation data specified in the execution instruction in the shared memory 115 (step S11). Then, the process ends.
  • the host CPU 116 reads the execution request from the shared memory 115 and executes the operation using the operation data included in the execution request.
  • the host CPU 116 stores a notification indicating the completion of the operation in the shared memory 115.
  • the service processor 111 transmits a notification indicating the completion of the operation to the management apparatus 5 via the network 31.
  • the management unit 1110 stores the status of the service processor 131 in the monitored information processing apparatus 13 stored in the control data storage unit 1112 as “ Whether or not it is an “error” is determined based on the data stored in the control data storage unit 1112 (step S15).
  • step S15 Yes route
  • the management unit 1110 indicates that an error has occurred in the service processor 131 in the monitored information processing apparatus 13. Is sent to the management apparatus 5 via the network 31 (step S13).
  • the user of the management apparatus 5 can know that an error has occurred in the information processing apparatus 13 to be monitored. The user eliminates the error, for example, by performing work such as replacing the service processor.
  • step S15: No route the management unit 1110 determines that the operation specified in the execution instruction is the information processing to be monitored. It is determined whether the operation depends on the service processor 131 in the device 13 (step S17).
  • the management unit 1110 stores the operation data designated in the execution instruction in the operation data storage unit 1114. Then, the management unit 1110 transmits a notification indicating that the execution instruction has been received to the management device 5 via the network 31 (step S19). Then, the process ends.
  • step S17 when the operation specified in the execution instruction is an operation that does not depend on the service processor 131 in the information processing apparatus 13 to be monitored (step S17: No route), the operation can be immediately executed. Accordingly, the management unit 1110 instructs the execution request unit 1111 to execute processing.
  • the operation that does not depend on the service processor 131 is, for example, a shutdown of the host CPU 136.
  • the execution request unit 1111 stores the transfer request including the data of the operation in the shared memory 115 (step S21).
  • step S23 Since the process of step S23 is executed by the host CPU 116, the block of step S23 is represented by a broken line in FIG.
  • the host CPU 136 in the information processing apparatus 13 to be monitored that has received the execution request executes the operation using the operation data included in the execution request.
  • the host CPU 136 in the information processing apparatus 13 to be monitored transmits a notification indicating the completion of the operation to the host CPU 116 of the information processing apparatus 11 via the network 33.
  • the host CPU 116 of the information processing apparatus 11 When the host CPU 116 of the information processing apparatus 11 receives a notification indicating the completion of the operation from the information processing apparatus 13 to be monitored, the host CPU 116 stores it in the shared memory 115. As a result, the service processor 111 receives a notification indicating the completion of the operation (step S25), and confirms that the operation is completed. Here, if the reboot of the service processor 131 in the information processing apparatus 13 to be monitored has been completed, the service processor 111 notifies the service processor 131 in the information processing apparatus 13 to be notified of the completion of the substitution. To send through. In addition, the service processor 111 transmits a notification indicating the completion of the operation to the management apparatus 5 via the network 31. Then, the process ends.
  • FIG. 10 shows an outline of the processing of the present embodiment as described above.
  • the service processor 111 when the service processor 111 is monitoring the service processor 131, the service processor 131 is being rebooted. In such a case, an operation execution instruction transmitted from the management apparatus 5 to the service processor 131 is not accepted by the service processor 131.
  • the service processor 111 receives an operation execution instruction transmitted from the management device 5 to the service processor 131 instead. Then, the service processor 111 transmits a transfer request including the data of the operation designated in the execution instruction to the host CPU 116 via the shared memory 115.
  • the host CPU 116 generates an execution request including operation data included in the transfer request and transmits the execution request to the host CPU 136.
  • the host CPU 136 receives the execution request from the host CPU 116, the host CPU 136 executes the operation using the operation data included in the execution request.
  • FIGS. 11 and 12. 11 and 12 the host CPU executes an operation of shutdown and an operation of restart.
  • FIG. 11 the processing of the present embodiment is not performed, and in FIG. 12, the processing of the present embodiment is performed. Execute.
  • the management apparatus 5 transmits useless execution instructions (that is, first and second execution instructions), a wasteful communication load is generated in the network 31, and the management apparatus 5 is useless. Processing load occurs. Further, since the host CPU cannot execute the operation until the reboot of the service processor is completed and the normal operation is resumed, the execution start of the operation is delayed.
  • the information processing apparatus that performs monitoring instead receives the execution instruction transmitted from the management apparatus 5 to the service processor.
  • the host CPU in the information processing apparatus that has received the execution instruction directly transmits an execution request for the operation specified in the execution instruction to the host CPU without passing through the service processor in the information processing apparatus to be monitored.
  • the host CPU in the information processing apparatus to be monitored executes the shutdown operation, and when the shutdown operation is completed, the completion of the operation is transmitted to the service processor in the information processing apparatus that performs monitoring.
  • the service processor in the information processing apparatus that performs monitoring notifies the information processing apparatus to be monitored of the completion of the substitution and notifies the management apparatus 5 of the completion of the operation.
  • the management apparatus 5 transmits an execution instruction to the service processor in the information processing apparatus to be monitored.
  • the service processor accepts the execution instruction, it returns a response to the management device 5 and causes the host CPU to execute a restart operation.
  • the management apparatus 5 when the processing of the present embodiment is executed, the management apparatus 5 does not transmit a useless execution instruction, so that a useless communication load is not generated in the network 31, and the management apparatus No useless processing load is generated in 5. Further, even before the reboot of the service processor is completed and before normal operation is resumed, the host CPU can execute the operation, so that the start of the operation execution is not delayed.
  • the present invention is not limited to this.
  • the functional block configurations of the information processing apparatuses 11 to 15 described above may not match the actual program module configuration.
  • each table described above is an example, and it does not have to be the configuration described above. Further, in the processing flow, the processing order can be changed if the processing result does not change. Further, it may be executed in parallel.
  • the management device 5 described above is a computer device, and as shown in FIG. 13, a memory 2501, a CPU (Central Processing Unit) 2503, a hard disk drive (HDD: Hard Disk Drive) 2505, and a display device 2509.
  • a display control unit 2507 connected to the computer, a drive device 2513 for a removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519.
  • An operating system (OS: Operating System) and an application program for performing the processing in this embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503.
  • OS Operating System
  • the CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 according to the processing content of the application program, and performs a predetermined operation. Further, data in the middle of processing is mainly stored in the memory 2501, but may be stored in the HDD 2505.
  • an application program for performing the above-described processing is stored in a computer-readable removable disk 2511 and distributed, and installed in the HDD 2505 from the drive device 2513. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517.
  • Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above with programs such as the OS and application programs. .
  • the information processing system includes (A) a management device, and (B) each receiving an execution instruction from an execution unit (for example, a host CPU in the embodiment) and the management device. And a plurality of information processing apparatuses including a control unit (for example, a service processor in the embodiment) that causes the execution unit to execute the process specified in the instruction.
  • a control unit for example, a service processor in the embodiment
  • the control unit in any one of the plurality of information processing devices detects (b1) the stop of the control unit in the other information processing device among the plurality of information processing devices, from the management device A first processing unit that accepts a first execution instruction transmitted to a control unit in another information processing apparatus instead of the other information processing apparatus; and (b2) an execution unit in another information processing apparatus.
  • a second processing unit that requests execution of the process specified in the first execution instruction.
  • the second processing unit described above is (b21) when the process specified in the first execution instruction is a process that cannot be executed unless the control unit in another information processing apparatus is operating. 1 is stored in the storage device, and (b22) when the operation of the control unit in the other information processing device is resumed, the first instruction stored in the storage device is sent to the execution unit in the other information processing device. You may make it request
  • the first processing unit described above may set (b11) the address of another information processing apparatus in the own information processing apparatus. In this way, it is possible to receive an execution instruction transmitted to another information processing apparatus.
  • the first processing unit described above detects the stop of the control unit depending on whether (b12) a response to the data transmitted to the control unit in another information processing apparatus is received from the control unit. May be. In this way, it is possible to reliably detect the stop of the control unit.
  • the information processing method includes (C) another information processing that includes an execution unit and a control unit that causes the execution unit to execute the process specified in the execution instruction received from the management apparatus.
  • the apparatus when it is detected that the control unit is stopped, the first execution instruction transmitted from the management apparatus to the control unit in the other information processing apparatus is received instead of the other information processing apparatus.
  • D) includes a process of requesting the execution unit in another information processing apparatus to execute the process specified in the first execution instruction.
  • a program for causing a computer to perform the processing according to the above method can be created.
  • the program can be a computer-readable storage medium such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, or a hard disk. It is stored in a storage device.
  • the intermediate processing result is temporarily stored in a storage device such as a main memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

 本情報処理システムは、管理装置と、各々が実行部と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置が、複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付ける第1処理部と、他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する第2処理部とを有する。

Description

情報処理システム、装置、方法及びプログラム
 システムにおいて発生したエラーに対処する技術に関する。
 サービスプロセッサ(Service Processor)は、サーバにおけるCPU或いはメモリ等のハードウェアとは独立して動作し、これらのハードウェアの監視及び制御等を行う。サービスプロセッサという言葉は、いわゆるプロセッサを指す場合もあるし、プロセッサ、メモリ及びボード等を含む処理ユニットを指す場合もある。
 サービスプロセッサは、外部の装置等からオペレーションの実行指示を受け付けた場合、CPUにオペレーションを実行させるように制御を行う。サービスプロセッサが正常に稼働している場合には問題は無いが、もしサービスプロセッサがソフトウェアエラー等によって停止した場合には、CPUがオペレーションを実行できなくなるという問題がある。
 システムにおいて発生したエラーに対処するための技術として、以下のような技術が知られている。具体的には、ネットワーク上に複数のノードが有るシステムにおいて、各ノードは、アドレス管理テーブル上における次エントリのノードを監視する。これにより、各ノードは次エントリのノードを監視すると共に、前エントリのノードから監視される。監視対象のノードにおける障害の発生を検知したノードは、障害が発生したノードの機能を代理し、また障害が発生したノードが担当する監視を代理する。
 しかし、この技術におけるノードには、サービスプロセッサが設けられていない。そのため、サービスプロセッサがエラーによって停止した場合には、サービスプロセッサによって制御されるCPUが処理を実行できず、結果としてサーバによる処理の実行が遅れるという問題には対処することができない。
特開2011-60056号公報
 従って、1つの側面では、本発明の目的は、サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制するための技術を提供することである。
 本発明に係る情報処理システムは、管理装置と、各々が実行部と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付ける第1処理部と、他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する第2処理部とを有する。
 サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制できるようになる。
図1は、本実施の形態のシステム概要を示す図である。 図2は、サービスプロセッサの機能ブロック図である。 図3は、制御データ格納部に格納されるデータの一例を示す図である。 図4は、設定データ格納部に格納されるデータの一例を示す図である。 図5は、本実施の形態における監視方法の一例を示す図である。 図6は、メインの処理フローを示す図である。 図7は、メインの処理フローを示す図である。 図8は、メインの処理フローを示す図である。 図9は、オペレーションデータ格納部に格納されるデータの一例を示す図である。 図10は、本実施の形態の処理の概要を示す図である。 図11は、本実施の形態の効果について説明するための図である。 図12は、本実施の形態の効果について説明するための図である。 図13は、コンピュータの機能ブロック図である。
 図1に、本実施の形態のシステム概要を示す。例えばLAN(Local Area Network)であるネットワーク31には、情報処理装置11と、情報処理装置13と、情報処理装置15と、管理装置5とが接続されている。情報処理装置11はNIC(Network Interface Card)110を介してネットワーク31に接続され、情報処理装置13はNIC130を介してネットワーク31に接続され、情報処理装置15はNIC150を介してネットワーク31に接続される。ネットワーク31は、情報処理装置11乃至15におけるサービスプロセッサ間の通信及びサービスプロセッサと管理装置5との間の通信のためのネットワークである。NICは、例えばLANカードである。
 また、例えばLANであるネットワーク33には、情報処理装置11と、情報処理装置13と、情報処理装置15とが接続されている。情報処理装置11はNIC(Network Interface Card)117を介してネットワーク33に接続され、情報処理装置13はNIC137を介してネットワーク33に接続され、情報処理装置15はNIC157を介してネットワーク33に接続される。ネットワーク33は、情報処理装置11乃至15におけるホストCPU間の通信のためのネットワークである。NICは、例えばLANカードである。
 情報処理装置11は、NIC110と、CPU112、HDD(Hard Disk Drive)113及びメモリ114を含むサービスプロセッサ111と、共有メモリ115と、ホストCPU116と、NIC117とを有する。サービスプロセッサ111は、ホストCPU116の監視及び制御並びに他のサービスプロセッサの監視等を行う。共有メモリ115は、サービスプロセッサ111とホストCPU116との間でデータを交換するためのメモリである。ホストCPU116は、管理装置5からのオペレーションの実行指示をサービスプロセッサ111を介して受信し、オペレーションを実行する。情報処理装置13及び15は、情報処理装置11と同様であるので、説明を省略する。
 本実施の形態においては、ユーザにより操作された管理装置5が、情報処理装置に対するオペレーションの実行指示を、その情報処理装置におけるサービスプロセッサに対して、ネットワーク31を介して送信する。サービスプロセッサは、オペレーションの実行指示において指定されたオペレーションがホストCPUに実行させるオペレーションである場合には、共有メモリにそのオペレーションのデータを格納する。ホストCPUは、共有メモリに格納されたオペレーションのデータを用いて、オペレーションを実行する。オペレーションとは、例えば、ホストCPUのシャットダウン或いはリブート(すなわち再起動)等の処理である。
 なお、図1においては情報処理装置の数が3であるが、数に限定は無い。
 図2に、サービスプロセッサ111の機能ブロック図を示す。サービスプロセッサ111は、管理部1110と、実行要求部1111と、制御データ格納部1112と、設定データ格納部1113と、オペレーションデータ格納部1114とを含む。管理部1110及び実行要求部1111は、HDD113に格納されているプログラムがCPU112に実行されることによって実現される。また、制御データ格納部1112、設定データ格納部1113及びオペレーションデータ格納部1114のための領域は、HDD113又はメモリ114に確保される。
 管理部1110は、制御データ格納部1112に格納されているデータ及び設定データ格納部1113に格納されているデータを用いて処理を行う。具体的には、管理部1110は、他の情報処理装置におけるサービスプロセッサを監視する処理、監視対象のサービスプロセッサの停止を検出する処理、及び他の情報処理装置に対して送信されたオペレーションの実行指示を他の情報処理装置の代わりに受信する処理等を実行する。実行要求部1111は、オペレーションデータ格納部1114に格納されているデータを用いて処理を行う。具体的には、実行要求部1111は、他の情報処理装置におけるホストCPUがすぐには実行することができないオペレーションのデータをオペレーションデータ格納部1114に一時的に保存する処理、及び情報処理装置11に対するオペレーションのデータ及び監視対象の情報処理装置に対するオペレーションのデータを共有メモリ115に格納する処理等を実行する。
 なお、サービスプロセッサ131の機能ブロック図及びサービスプロセッサ151の機能ブロック図は、サービスプロセッサ111の機能ブロック図と同様であるので、説明を省略する。
 図3に、制御データ格納部1112に格納されるデータの一例を示す。図3の例では、監視対象の情報処理装置のID(IDentifier)と、監視対象の情報処理装置におけるサービスプロセッサの状態を示すデータと、状態確認のリトライの回数をカウントするためのリトライカウンタと、リトライ回数の閾値と、リトライ回数の上限とが格納される。サービスプロセッサの状態が「正常」である場合には、そのサービスプロセッサは正常に稼働している。サービスプロセッサの状態が「リトライ中」である場合には、そのサービスプロセッサに対して状態確認のリトライが行われている。サービスプロセッサの状態が「リブート中」である場合には、そのサービスプロセッサがリブートしている。サービスプロセッサの状態が「エラー」である場合には、そのサービスプロセッサにおけるリブートは失敗している。リトライカウンタは、リトライが行われる度に1インクリメントされる。リトライ回数の上限は、設定データ格納部1113に格納されているリブート時間を用いて、例えば(リブート時間)/(状態確認を実行する時間間隔)として算出される。
 図4に、設定データ格納部1113に格納されるデータの一例を示す。図4の例では、情報処理装置のIDと、情報処理装置のシリアル番号と、情報処理装置のIPアドレスと、その情報処理装置によって監視される情報処理装置のIDと、その情報処理装置によって監視される情報処理装置のリブート時間(すなわち、リブートに要する時間)とが格納される。設定データ格納部1113には、システムにおける全情報処理装置についてデータが格納される。
 図5に、本実施の形態における監視方法の一例を示す。図5の例では、サービスプロセッサ111がサービスプロセッサ131を監視し、サービスプロセッサ131がサービスプロセッサ151を監視し、サービスプロセッサ151がサービスプロセッサ111を監視する。このように監視することで、いずれのサービスプロセッサも監視されるようになるので、どのサービスプロセッサが停止したとしてもそのサービスプロセッサの停止は検出される。なお、監視の方法は、いずれのサービスプロセッサも監視されるという条件を満たすのであれば、図5のような監視方法でなくてもよい。
 次に、図6乃至図12を用いて、本実施の形態におけるシステムにおいて行われる処理について説明する。ここでは、主に情報処理装置11が実行する処理について説明することによって、本実施の形態におけるシステムにおいて行われる処理について説明する。なお、図6乃至図9を用いて説明する処理は、監視対象の情報処理装置毎に且つ定期的に行われる。
 まず、情報処理装置11における管理部1110は、前回の処理から所定時間が経過したか判断する(図6:ステップS1)。所定時間が経過した場合(ステップS1:Yesルート)、監視対象の情報処理装置(以下では、情報処理装置13とする)について状態確認を行うタイミングになったので、処理は端子Aを介して図7のステップS31に移行する。
 図7の説明に移行し、管理部1110は、ネットワーク31を介して、状態確認要求を監視対象の情報処理装置13に送信する(図7:ステップS31)。状態確認要求は、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を確認するための要求である。状態確認要求に対する応答が返ってくれば、監視対象の情報処理装置13におけるサービスプロセッサ131が正常に稼働していると判断される。
 管理部1110は、状態確認要求に対する応答を受信したか判断する(ステップS33)。応答を受信していない場合(ステップS33:Noルート)、処理は端子Bを介して図8のS51に移行する。
 図8の説明に移行し、管理部1110は、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「正常」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(図8:ステップS51)。状態が「正常」である場合(ステップS51:Yesルート)、1回目の状態確認をしたことになるので、管理部1110は、制御データ格納部1112に格納されているリトライカウンタの値を「1」に設定する(ステップS53)。また、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「リトライ中」に設定する(ステップS55)。そして処理は端子Cを介して図6の処理に移行して終了する。
 一方、状態が「正常」ではない場合(ステップS51:Noルート)、管理部1110は、状態が「リトライ中」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(ステップS57)。状態が「リトライ中」である場合(ステップS57:Yesルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13についてのリトライカウンタの値を1インクリメントする(ステップS59)。
 そして、管理部1110は、リトライカウンタの値が、制御データ格納部1112に格納されているリトライ閾値以下であるか判断する(ステップS61)。リトライカウンタの値がリトライ閾値以下である場合(ステップS61:Yesルート)、リトライを継続すべきであるため、処理は端子Cを介して図6の処理に移行して終了する。
 一方、リトライカウンタの値が閾値より大きい場合(ステップS61:Noルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「リブート中」に設定する(ステップS63)。サービスプロセッサが停止した場合には、例えば自動的にサービスプロセッサのリブートが行われるので、リトライの回数がリトライ閾値を超えた場合(すなわち、ある程度時間が経過した場合)にはリブート中であるとみなされる。
 そして、管理部1110は、設定データ格納部1113に格納されている、監視対象の情報処理装置13のIPアドレスを、情報処理装置11のIPアドレスに追加で設定する(ステップS65)。ステップS65においては、例えばNIC110における情報処理装置11のIPアドレスの設定に、監視対象の情報処理装置13のIPアドレスの設定を追加する。このようにすることで、管理装置5から監視対象の情報処理装置13に対して送信されたオペレーションの実行要求は、情報処理装置11にも転送されるようになる。管理装置5のユーザが送信先の変更などを行わなくても、監視対象の情報処理装置13に対するオペレーションの実行要求は自動的に情報処理装置11に対して送信されるようになる。
 一方、状態が「リトライ中」ではない場合(ステップS57:Noルート)、状態は「リブート中」である。管理部1110は、リトライカウンタの値を1インクリメントする(ステップS67)。
 管理部1110は、リトライカウンタの値が、制御データ格納部1112に格納されているリトライ回数の上限を超えたか判断する(ステップS69)。リトライ回数の上限を超えていない場合(ステップS69:Noルート)、リトライを継続するため、処理は端子Cを介して図6の処理に移行して終了する。一方、リトライ回数の上限を超えている場合(ステップS69:Yesルート)、監視対象の情報処理装置13のリブートは失敗したと考えられる。そこで、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「エラー」に設定する(ステップS71)。そして処理は端子Cを介して図6の処理に移行して終了する。
 図7の説明に戻り、状態確認要求に対する応答を受信した場合(ステップS33:Yesルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「正常」に設定する(ステップS35)。
 管理部1110は、制御データ格納部1112に格納されているリトライカウンタの値を「0」に設定する(ステップS37)。
 管理部1110は、監視対象の情報処理装置13のIPアドレスが、ステップS65の処理によって追加で設定されている場合には、監視対象の情報処理装置13のIPアドレスについての設定を削除する(ステップS39)。なお、監視対象の情報処理装置13のIPアドレスについての設定は、リトライの回数がリトライ閾値を超えた場合に行われるので、設定が存在しない場合もある。
 管理部1110は、監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されているか判断する(ステップS41)。オペレーションデータ格納部1114には、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーション(すなわち、サービスプロセッサが正常に稼働していなければ実行できない処理)のデータがステップS19の処理によって格納される。
 図9に、オペレーションデータ格納部1114に格納されるデータの一例を示す。図9の例では、実行指示の発行元のIPアドレスと、実行指示の発行先の情報処理装置のIPアドレスと、実行指示の受信時刻と、オペレーションの種別と、オペレーションの実行に用いるパラメータとが格納される。
 監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されていない場合(ステップS41:Noルート)、実行すべきオペレーションは無いので、処理は端子Cを介して図6の説明に移行し終了する。
 一方、監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されている場合(ステップS41:Yesルート)、そのオペレーションを実行すべきであるので、管理部1110は実行要求部1111に処理の実行を指示する。これに応じ、実行要求部1111は、そのオペレーションのデータを含む転送要求を共有メモリ115に格納する(ステップS43)。
 転送要求が共有メモリ115に格納されると、ホストCPU116は、転送要求を共有メモリ115から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ネットワーク33を介して、監視対象の情報処理装置13に対して送信する(ステップS45)。なお、ステップS45の処理はホストCPU116によって実行されるので、図7においてステップS45のブロックは破線で表されている。
 実行要求を受信した、監視対象の情報処理装置13におけるホストCPU136は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置13におけるホストCPU136は、オペレーションの完了を示す通知を、ネットワーク31を介して情報処理装置11のホストCPU116に送信する。
 情報処理装置11のホストCPU116は、オペレーションの完了を示す通知を監視対象の情報処理装置13から受信すると、共有メモリ115に格納する。これによって、サービスプロセッサ111は、オペレーションの完了を示す通知を受信し(ステップS47)、オペレーションが完了したことを確認する。ここで、サービスプロセッサ111は、監視対象の情報処理装置13におけるサービスプロセッサのリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置13におけるサービスプロセッサ131に、ネットワーク31を介して送信する。また、サービスプロセッサ111は、オペレーションの完了を示す通知を管理装置5に、ネットワーク31を介して送信する。そして処理は端子Cを介して図6の説明に移行し終了する。
 図6の説明に戻り、管理部1110は、前回の処理から所定時間が経過していない場合(ステップS1:Noルート)、情報処理装置11を監視する情報処理装置から、状態確認要求を受信したか判断する(ステップS3)。
 状態確認要求を受信した場合(ステップS3:Yesルート)、サービスプロセッサ111の状態は正常であるので、管理部1110は、正常であることを示す応答を、状態確認要求の送信元の情報処理装置に、ネットワーク31を介して送信する(ステップS5)。そして処理を終了する。一方、状態確認要求を受信していない場合(ステップS3:Noルート)、管理部1110は、オペレーションの実行指示を管理装置5から受信したか判断する(ステップS7)。
 オペレーションの実行指示を管理装置5から受信していない場合(ステップS7:Noルート)、処理を継続するため、ステップS1の処理に戻る。一方、オペレーションの実行要求を受信した場合(ステップS7:Yesルート)、管理部1110は、オペレーションの実行指示において指定されたオペレーションが、情報処理装置11に対するオペレーションであるか判断する(ステップS9)。ステップS9においては、実行指示に含まれる、実行指示の発行先の情報処理装置のIPアドレスが情報処理装置11のIPアドレスであるか否かによって判断する。
 情報処理装置11に対するオペレーションである場合(ステップS9:Yesルート)、管理部1110は、実行指示において指定されたオペレーションのデータを含む、オペレーションの実行要求を共有メモリ115に格納する(ステップS11)。そして処理を終了する。
 これに応じ、ホストCPU116は、実行要求を共有メモリ115から読み出し、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、ホストCPU116は、オペレーションの完了を示す通知を共有メモリ115に格納する。サービスプロセッサ111は、オペレーションの完了を示す通知が共有メモリ115に格納された場合、オペレーションの完了を示す通知を、ネットワーク31を介して管理装置5に送信する。
 一方、情報処理装置11に対するオペレーションではない場合(ステップS9:Noルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(ステップS15)。
 監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」である場合(ステップS15:Yesルート)、管理部1110は、監視対象の情報処理装置13におけるサービスプロセッサ131においてエラーが発生したことを示す通知を、ネットワーク31を介して管理装置5に送信する(ステップS13)。これによって、管理装置5のユーザは、監視対象の情報処理装置13においてエラーが発生したことを知ることができる。ユーザは、例えば、サービスプロセッサを交換する等の作業を行うことによって、エラーを解消する。一方、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」ではない場合(ステップS15:Noルート)、管理部1110は、実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーションであるか判断する(ステップS17)。
 実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーションである場合(ステップS17:Yesルート)、直ちにはオペレーションを実行できない。従って、管理部1110は、実行指示において指定されたオペレーションのデータをオペレーションデータ格納部1114に格納する。そして、管理部1110は、実行指示を受け付けたことを示す通知を、管理装置5に、ネットワーク31を介して送信する(ステップS19)。そして処理を終了する。
 一方、実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存しないオペレーションである場合(ステップS17:Noルート)、直ちにオペレーションを実行することができる。従って、管理部1110は実行要求部1111に処理の実行を指示する。なお、サービスプロセッサ131に依存しないオペレーションとは、例えばホストCPU136のシャットダウンである。
 これに応じ、実行要求部1111は、そのオペレーションのデータを含む転送要求を共有メモリ115に格納する(ステップS21)。
 転送要求が共有メモリ115に格納されると、ホストCPU116は、転送要求を共有メモリ115から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、監視対象の情報処理装置13に対して、ネットワーク33を介して送信する(ステップS23)。なお、ステップS23の処理はホストCPU116によって実行されるので、図6においてステップS23のブロックは破線で表されている。
 実行要求を受信した、監視対象の情報処理装置13におけるホストCPU136は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置13におけるホストCPU136は、オペレーションの完了を、示す通知を情報処理装置11のホストCPU116に、ネットワーク33を介して送信する。
 情報処理装置11のホストCPU116は、オペレーションの完了を示す通知を監視対象の情報処理装置13から受信すると、共有メモリ115に格納する。これによって、サービスプロセッサ111は、オペレーションの完了を示す通知を受信し(ステップS25)、オペレーションが完了したことを確認する。ここで、サービスプロセッサ111は、監視対象の情報処理装置13におけるサービスプロセッサ131のリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置13におけるサービスプロセッサ131に、ネットワーク31を介して送信する。また、サービスプロセッサ111は、オペレーションの完了を示す通知を、管理装置5に、ネットワーク31を介して送信する。そして処理を終了する。
 図10に、以上のような本実施の形態の処理の概要を示す。図10においては、サービスプロセッサ111がサービスプロセッサ131を監視している場合において、サービスプロセッサ131がリブート中である。このような場合、管理装置5からサービスプロセッサ131に対して送信されるオペレーションの実行指示は、サービスプロセッサ131には受け付けられない。
 但し、サービスプロセッサ111は、管理装置5からサービスプロセッサ131に対して送信されるオペレーションの実行指示を代わりに受信する。そして、サービスプロセッサ111は、実行指示において指定されたオペレーションのデータを含む転送要求を、共有メモリ115を介してホストCPU116に送信する。
 ホストCPU116は、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ホストCPU136に対して送信する。ホストCPU136は、ホストCPU116から実行要求を受信すると、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。
 次に、図11及び図12を用いて、本実施の形態の効果について説明する。図11及び図12においては、ホストCPUがシャットダウンというオペレーション及び再起動というオペレーションを実行するが、図11においては本実施の形態の処理を実行せず、図12においては本実施の形態の処理を実行する。
 まず、図11を用いて、本実施の形態の処理を実行しない場合について説明する。この場合、管理装置5からサービスプロセッサ(図11及び図12においては、SPと略されている)に対して実行指示が送信されても、サービスプロセッサはリブート中であるので、実行指示を受け付けることができない。サービスプロセッサが正常な動作を再開すると、実行指示を受け付け、管理装置5に応答を返す。サービスプロセッサは、シャットダウンのオペレーションをホストCPUに実行させる。シャットダウンのオペレーションが完了すると、ホストCPUはオペレーションの完了を管理装置5に通知する。シャットダウンのオペレーションの完了が通知されると、管理装置5は、サービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置5に応答を返すと共に、再起動のオペレーションをホストCPUに実行させる。
 このように、管理装置5は無駄な実行指示(すなわち、1回目及び2回目の実行指示)を送信することになるので、無駄な通信負荷がネットワーク31に発生し、また管理装置5に無駄な処理負荷が発生する。また、サービスプロセッサのリブートが完了して正常な動作を再開するまでは、ホストCPUはオペレーションを実行できないので、オペレーションの実行開始が遅れることになる。
 これに対し、本実施の形態の処理を実行した場合について図12を用いて説明する。この場合、サービスプロセッサがリブート中であっても、管理装置5からサービスプロセッサに対して送信された実行指示を、監視を行う情報処理装置が代わりに受け付ける。実行指示を受け付けた情報処理装置におけるホストCPUは、実行指示において指定されたオペレーションの実行要求を、監視対象の情報処理装置におけるサービスプロセッサを介さず、ホストCPUに直接送信する。監視対象の情報処理装置におけるホストCPUは、シャットダウンのオペレーションを実行し、シャットダウンのオペレーションが完了すると、オペレーションの完了を、監視を行う情報処理装置におけるサービスプロセッサに送信する。監視を行う情報処理装置におけるサービスプロセッサは、オペレーションの完了を通知されると、代行の完了を監視対象の情報処理装置に通知すると共に、オペレーションの完了を管理装置5に通知する。監視対象の情報処理装置におけるサービスプロセッサは、代行の完了が通知されると、正常な動作を再開する。シャットダウンのオペレーションの完了を通知されると、管理装置5は、監視対象の情報処理装置におけるサービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置5に応答を返すと共に、再起動のオペレーションをホストCPUに実行させる。
 このように、本実施の形態の処理を実行した場合には、管理装置5が無駄な実行指示を送信することはないので、無駄な通信負荷がネットワーク31に発生することはなく、また管理装置5に無駄な処理負荷が発生することもない。また、サービスプロセッサのリブートが完了して正常な動作を再開する前であっても、ホストCPUはオペレーションを実行できるので、オペレーションの実行開始が遅れることはない。
 以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置11乃至15の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
 また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
 なお、上で述べた管理装置5は、コンピュータ装置であって、図13に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウェアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
 以上述べた本実施の形態をまとめると以下のようになる。
 本実施の形態の第1の態様に係る情報処理システムは、(A)管理装置と、(B)各々が実行部(例えば、実施の形態におけるホストCPU)と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部(例えば、実施の形態におけるサービスプロセッサ)とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、(b1)複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付ける第1処理部と、(b2)他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する第2処理部とを有する。
 このようにすれば、情報処理装置における制御部が停止した場合に、その情報処理装置の実行部に別ルートから処理を要求できるので、その実行部による処理の実行が遅れることを抑制できるようになる。
 また、上で述べた第2処理部は、(b21)第1の実行指示において指定された処理が、他の情報処理装置における制御部が稼働していなければ実行できない処理である場合に、第1の実行指示を記憶装置に格納し、(b22)他の情報処理装置における制御部の稼働が再開した場合に、他の情報処理装置における実行部に対し、記憶装置に格納された第1の実行指示において指定された処理の実行を要求するようにしてもよい。このようにすれば、他の情報処理装置における制御部の稼働が再開した後迅速に処理を実行できるようになる。
 また、上で述べた第1処理部は、(b11)他の情報処理装置のアドレスを自情報処理装置に設定してもよい。このようにすれば、他の情報処理装置に対して送信された実行指示を受信できるようになる。
 また、上で述べた第1処理部は、(b12)他の情報処理装置における制御部に対して送信したデータに対する応答を当該制御部から受信するか否かによって、制御部の停止を検出してもよい。このようにすれば、制御部の停止を確実に検出できるようになる。
 本実施の形態の第1の態様に係る情報処理方法は、(C)実行部と、管理装置から受け付けた実行指示において指定された処理を実行部に実行させる制御部とを有する他の情報処理装置において、制御部が停止したことを検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付け、(D)他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する処理を含む。
 なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD-ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

Claims (7)

  1.  管理装置と、
     各々が実行部と前記管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部とを含む複数の情報処理装置と、
     を有し、
     前記複数の情報処理装置のうちいずれかの情報処理装置における前記制御部が、
     前記複数の情報処理装置のうちの他の情報処理装置における前記制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付ける第1処理部と、
     前記他の情報処理装置における前記実行部に対し、前記第1の実行指示において指定された処理の実行を要求する第2処理部と、
     を有する情報処理システム。
  2.  前記第2処理部は、
     前記第1の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第1の実行指示を記憶装置に格納し、
     前記他の情報処理装置における制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第1の実行指示において指定された処理の実行を要求する
     請求項1記載の情報処理システム。
  3.  前記第1処理部は、
     前記他の情報処理装置のアドレスを自情報処理装置に設定する
     請求項1又は2記載の情報処理システム。
  4.  前記第1処理部は、
     前記他の情報処理装置における前記制御部に対して送信したデータに対する応答を当該制御部から受信するか否かによって、前記制御部の停止を検出する
     請求項1乃至3のいずれか1つ記載の情報処理システム。
  5.  実行部と、
     管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部と、
     を有し、
     前記制御部が、
     他の情報処理装置における制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付ける第1処理部と、
     前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する第2処理部と、
     を有する情報処理装置。
  6.  実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付け、
     前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する、
     処理をコンピュータが実行する情報処理方法。
  7.  実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付け、
     前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する、
     処理をコンピュータに実行させるための情報処理プログラム。
PCT/JP2013/070422 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム WO2015015544A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015529233A JP6112205B2 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム
PCT/JP2013/070422 WO2015015544A1 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/070422 WO2015015544A1 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2015015544A1 true WO2015015544A1 (ja) 2015-02-05

Family

ID=52431126

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/070422 WO2015015544A1 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6112205B2 (ja)
WO (1) WO2015015544A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016201581A (ja) * 2015-04-07 2016-12-01 三菱電機株式会社 統合監視制御装置および統合監視制御システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274575A (ja) * 1996-04-04 1997-10-21 Hitachi Ltd 統合システム管理方式
JPH10171769A (ja) * 1996-12-11 1998-06-26 Hitachi Ltd 複合計算機システム
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
WO2013018183A1 (ja) * 2011-07-29 2013-02-07 富士通株式会社 システム制御装置、電力制御方法及び電子システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285384A (ja) * 2005-03-31 2006-10-19 Nec Corp プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
JP4703682B2 (ja) * 2008-04-21 2011-06-15 株式会社東芝 クラスタシステム及びプログラム
JP2011022741A (ja) * 2009-07-15 2011-02-03 Nec Computertechno Ltd コンピュータシステム、サービスプロセッサ、及びその診断方法
JP5511262B2 (ja) * 2009-08-20 2014-06-04 三菱電機株式会社 情報処理システム及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274575A (ja) * 1996-04-04 1997-10-21 Hitachi Ltd 統合システム管理方式
JPH10171769A (ja) * 1996-12-11 1998-06-26 Hitachi Ltd 複合計算機システム
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
WO2013018183A1 (ja) * 2011-07-29 2013-02-07 富士通株式会社 システム制御装置、電力制御方法及び電子システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016201581A (ja) * 2015-04-07 2016-12-01 三菱電機株式会社 統合監視制御装置および統合監視制御システム
EP3282604A4 (en) * 2015-04-07 2018-12-05 Mitsubishi Electric Corporation Integrated monitoring control device and integrated monitoring control system

Also Published As

Publication number Publication date
JPWO2015015544A1 (ja) 2017-03-02
JP6112205B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
CN110825544B (zh) 计算节点及其失效检测方法与云端数据处理系统
US10983880B2 (en) Role designation in a high availability node
US10645152B2 (en) Information processing apparatus and memory control method for managing connections with other information processing apparatuses
JP5679256B2 (ja) 分散タスクシステムおよび分散タスク管理方法
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
JP2013535745A (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
JP5948933B2 (ja) ジョブ継続管理装置、ジョブ継続管理方法、及び、ジョブ継続管理プログラム
US20160036654A1 (en) Cluster system
US20180285169A1 (en) Information processing system and computer-implemented method
US20140019525A1 (en) Virtual desktop system, network processing device, and management method and management program thereof
WO2018003031A1 (ja) 仮想化管理プログラム、仮想化管理装置および仮想化管理方法
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
TW200426571A (en) Policy-based response to system errors occurring during os runtime
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
JP2008283608A (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
US8156386B2 (en) Information processing apparatus, and method and computer program for controlling same, for detecting certain failures
WO2019119269A1 (zh) 一种网络故障探测方法及控制中心设备
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム
US8036105B2 (en) Monitoring a problem condition in a communications system
US9772914B2 (en) Processing apparatus, process system, and non-transitory computer-readable recording medium
WO2014147699A1 (ja) 管理装置、方法及びプログラム
JP2010176345A (ja) マルチノードシステム、ノード、メモリダンプ処理方法、及びプログラム
JP2008250427A (ja) 情報処理システムに用いられるバージョンアップ装置及び該装置を備えた情報処理システム並びに情報処理システムをバージョンアップするためのプログラム
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13890652

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015529233

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13890652

Country of ref document: EP

Kind code of ref document: A1