WO2009101908A1 - 監視マネージャ、統括マネージャおよびノード監視システム - Google Patents

監視マネージャ、統括マネージャおよびノード監視システム Download PDF

Info

Publication number
WO2009101908A1
WO2009101908A1 PCT/JP2009/052074 JP2009052074W WO2009101908A1 WO 2009101908 A1 WO2009101908 A1 WO 2009101908A1 JP 2009052074 W JP2009052074 W JP 2009052074W WO 2009101908 A1 WO2009101908 A1 WO 2009101908A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
load information
manager
information
monitoring
Prior art date
Application number
PCT/JP2009/052074
Other languages
English (en)
French (fr)
Inventor
Yoshifumi Kosumi
Hirotatsu Osaki
Takahiro Sokawa
Takahisa Iwama
Hironobu Sugata
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2009553409A priority Critical patent/JP5343863B2/ja
Publication of WO2009101908A1 publication Critical patent/WO2009101908A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Definitions

  • the present invention relates to a system for monitoring data processing of a node by a plurality of managers over a network, a node monitoring manager, a general manager, and a data processing method thereof, a computer program for these monitoring manager and general manager,
  • the present invention relates to a node monitoring system in which the monitoring manager and the general manager are connected via a network.
  • a system for performing state monitoring and failover described in Japanese Patent Application Laid-Open No. 2000-047894 is composed of a node including a monitoring agent and a shared disk including a monitoring information repository.
  • a conventional system that performs state monitoring and failover having such a configuration operates as follows.
  • the monitoring agent periodically monitors the CPU load information of each node and aggregates and stores the load information of all nodes in the monitoring information repository. Then, when a failure occurs in any one of the nodes, the failover destination node is determined using the load information.
  • the first problem is that the time required for failover may become long if communication for sharing the load information of each node between the monitoring managers is not performed regularly. The reason is that when a failure occurs in a node, it is necessary to inquire of all existing monitoring managers about the presence of a node with a low load.
  • the second problem is that if the monitoring manager is not inquired when a failure occurs, the network traffic during the normal operation of the node increases. The reason is that communication for sharing information on a node with a low load among nodes managed by each monitoring manager periodically occurs between the monitoring managers.
  • the present invention provides a monitoring manager capable of reducing the processing time required for failover in the event of a node failure while reducing the load on the network even when monitoring the processing of a plurality of nodes with a plurality of monitoring managers. It is an object to provide a general manager, a data processing method thereof, a computer program for the data processing device, and a monitoring system thereof.
  • the present invention provides: Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node; Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold; When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network. Information communication means for associating and transmitting the determined load information and the node identifier received together with the load information by the accepting means;
  • Received information storage means for storing the load information and the node identifier received by the receiving means; Request accepting means for accepting a judgment request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network; In response to the request received by the request receiving means, search means for comparing the load information stored in the received information storage means with the predetermined threshold value; Response communication means for transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
  • a node monitoring system in which a monitoring manager that monitors a node and a general manager are connected via a network,
  • the monitoring manager Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node; Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold; When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network.
  • Information communication means for transmitting the determined load information in association with the node identifier received together with the load information by the receiving means;
  • the general manager is Receiving means for receiving the load information for each node;
  • Receiving information storage means for storing the load information received by the receiving means in association with a node identifier for identifying the node;
  • a computer program for a monitoring manager On the computer, A reception procedure for receiving load information indicating a load of a node related to execution of the data processing from a node executing the data processing together with a node identifier for identifying the node; A determination procedure for determining whether the load information received from the node is greater than or equal to a predetermined threshold; When it is determined that the received load information is less than the threshold value, information for transmitting the load information in association with the node identifier to a general manager connected to a plurality of monitoring managers via a network The communication procedure is executed.
  • a computer program for the general manager On the computer, A reception procedure for receiving, from the first monitoring manager, load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with the node identifier for identifying the node; , A received information storage procedure for storing the received load information and the node identifier; A request reception procedure for receiving a determination request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network; A search procedure for comparing the stored load information with the predetermined threshold in response to the request; When there is the load information satisfying the predetermined threshold, a response communication procedure for transmitting the node identifier corresponding to the load information to the second monitoring manager is executed.
  • each manager provided with a predetermined function by a computer program It can be realized as a predetermined function realized in each manager by a computer program, any combination thereof, or the like.
  • the various components of the present invention do not have to be individually independent, a plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps a part of another component, and the like.
  • the plurality of steps of the data processing method of the present invention are not limited to being executed at different timings. For this reason, another process may occur during execution of a certain process, or a part or all of the execution timing of a certain process and the execution timing of another process may overlap.
  • the monitoring manager and the general manager in the present invention can read a computer program and execute corresponding data processing, so that a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), an I It can be implemented as hardware constructed with a general-purpose device such as an / F (Interface) unit, a dedicated logic circuit constructed so as to execute predetermined data processing, a combination thereof, and the like.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • I It can be implemented as hardware constructed with a general-purpose device such as an / F (Interface) unit, a dedicated logic circuit constructed so as to execute predetermined data processing, a combination thereof, and the like.
  • the processing time required for failover in the event of a node failure is reduced while reducing the load on the network.
  • FIG. 2 is a schematic block diagram illustrating a logical structure of a general manager illustrated in FIG. 1.
  • FIG. 5 is an example of a data structure held by a node information holding unit shown in FIG. 4.
  • FIG. 5 is an example of a data structure held by a node information holding unit shown in FIG. 4.
  • FIG. It is a figure explaining the structure of the node monitoring system which concerns on embodiment. It is a flowchart explaining the data processing method of the monitoring manager of this embodiment. It is a flowchart explaining the data processing method of the monitoring manager of this embodiment. It is a figure explaining the structure of the node monitoring system of 2nd Embodiment. It is an example of the data structure preserve
  • FIG. 1 is a diagram illustrating the configuration of the node monitoring system according to the present embodiment.
  • the node monitoring system includes a monitoring manager 1 that monitors processing nodes 2 and 3, a monitoring manager 4 that monitors processing nodes 5, and an overall manager 6. 1000 is connected.
  • the network 1000 may be any network that can mediate data communication between the monitoring managers 1 and 4 and the general manager 6, and may be wired, wireless, or a combination thereof.
  • FIG. 2 is a schematic block diagram showing the logical structure of the monitoring manager 4 shown in FIG.
  • the monitoring manager 4 shown in FIG. 1 accepts load information indicating a load on execution of data processing from a processing node 5 that monitors data processing together with a node identifier that identifies the processing node 5.
  • Unit 401 a determination unit 405 for determining whether or not the received load information is equal to or greater than a predetermined threshold, and a monitoring manager via network 1000 when the determination unit 405 determines that the received load information is less than the threshold.
  • the node control unit 411 is identified by a control identifier. Therefore, the information communication unit 407 may transmit the received load information in association with the control identifier of the node control unit 411 that controls the corresponding processing node 5.
  • the monitoring manager 4 ends the process when the determination unit 405 determines that the load information received from the processing node 5 is equal to or greater than a predetermined threshold.
  • the load information is information indicating a load applied to hardware when the processing nodes 2, 3, and 5 execute data processing.
  • the load information is information indicating the load on the CPU, memory, disk capacity, and the like.
  • the CPU load is calculated by various methods, and can be obtained from, for example, the CPU usage rate (Processor /% Processor Time) and the CPU idle rate (Processor /% Idle Time).
  • a function for obtaining load information is provided in the node itself.
  • FIG. 3 is a schematic block diagram showing the logical structure of the general manager 6 shown in FIG.
  • the overall manager 6 shown in FIG. 1 processes load information indicating the load of the processing node 5 monitored by the monitoring manager 4 connected via the network 1000 from the monitoring manager 4 as shown in FIG.
  • a reception unit 601 that receives the node identifier associated with the node 5 is connected to the reception information storage unit 603 that stores the load information and node identifier received by the reception unit 601 via the network 1000.
  • a request receiving unit 605 that receives a request for determining whether there is a node having load information that satisfies a predetermined threshold from the monitoring manager 1, and a request received by the request receiving unit 602 in the received information storage unit 603.
  • the load information includes And a response communication unit 609 to transmit a node identifier that respond to the monitoring manager 1.
  • the receiving unit 601 receives load information indicating the load of the processing node 2 in association with a note identifier for identifying the processing node 2 from the monitoring manager 1.
  • the receiving unit 601 receives load information indicating the load of the processing node 3 in association with a note identifier for identifying the processing node 3 from the monitoring manager 1. Further, the receiving unit 601 receives load information indicating the load on the processing node 5 in association with a note identifier for identifying the processing node 5 from the monitoring manager 4.
  • the reception information storage unit 603 stores the load information and node identifier received by the reception unit 601.
  • the data structure of the reception information storage unit 603 has the same configuration as that of the node information holding unit 103 and the node information holding unit 403. Therefore, the reception information storage unit 603 can also have a data structure shown in FIG.
  • the request reception unit 605 receives a determination request from the monitoring manager 1 as to whether or not there is a node having load information that satisfies a predetermined threshold together with the predetermined threshold. In addition, the request reception unit 605 may receive a determination request from the monitoring manager 4 as to whether there is a node having load information that satisfies a predetermined threshold together with the predetermined threshold.
  • the search unit 607 refers to the received information storage unit 603 in response to the request received by the request receiving unit 605, and compares the stored load information with the received predetermined threshold value.
  • the response communication unit 609 transmits a node identifier corresponding to the load information to the monitoring manager that requested the determination.
  • FIG. 4 is a schematic block diagram showing the logical structure of the monitoring manager 1 shown in FIG.
  • the monitoring manager 1 shown in FIG. 1 includes a reception unit 101, a node information holding unit 103, a determination unit 105, an information communication unit 107, a node failure detection unit 109, and a node control unit. 111.
  • the accepting unit 101 accepts the load information of the processing node 2 from the processing node 2 together with a node identifier for identifying the processing node 2.
  • the accepting unit 101 accepts load information of the processing node 3 from the processing node 3 together with a node identifier for identifying the processing node 3.
  • the node identifier is information for individually identifying the processing nodes 2 and 3.
  • the processing nodes 2 and 3 are monitored for data processing by the monitoring manager 1.
  • the load information is the amount of computer resources consumed as a result of execution of data processing in the processing node.
  • the node information holding unit 103 holds the received load information in association with the node identifier.
  • FIG. 5 shows an example of a data structure held by the node information holding unit 103 shown in FIG.
  • processing node name is an example of a node identifier.
  • the node control unit 111 controls the processing of the processing nodes 2 and 3.
  • the node control unit 111 performs start / end control of the processing nodes 2 and 3 in accordance with an external command.
  • the node information holding unit 103 identifies each node control unit 111 and holds it in association with the processing node and its load information.
  • “processing node control means name” serves as a control identifier.
  • the determination unit 105 determines whether the load information received from the processing node 5 is equal to or greater than a predetermined threshold value.
  • a predetermined threshold value there are means for using a fixed value in advance and means for dynamically specifying the threshold value. In this embodiment, it is assumed that a fixed value is determined in advance. In addition, there is a condition that the load information is smaller than the threshold value for the processing node used for failover.
  • the information communication unit 107 transmits the load information to the overall manager 6 in association with the node identifier.
  • the node failure detection unit 109 detects a failure of the processing nodes 2 and 3.
  • the monitoring manager 1 shown in FIG. 4 and the monitoring manager 4 shown in FIG. 2 are configured such that the receiving unit 101 receives the receiving unit 401, the node information holding unit 103 uses the node information holding unit 403, and the judging unit 105 uses the judging unit 405.
  • the information communication unit 107 corresponds to the information communication unit 407
  • the node failure detection unit 109 corresponds to the node failure detection unit 409
  • the node control unit 111 corresponds to the node control unit 411.
  • the determination unit 105 compares the stored load information with the stored threshold value.
  • the node information holding unit 403 holds the load information of the processing nodes 2 and 3. For example, the load information of the processing node 2 is 80% and the processing information of the processing node 3 is 70%. If the threshold value is 50%, it is determined that the load information of all stored processing nodes is greater than or equal to the threshold value.
  • the information communication unit 107 transmits a predetermined threshold value (50%) and sends a determination request to the general manager 6 as to whether there is a node having load information that satisfies the predetermined threshold value (50%) to be transmitted. Send.
  • the node control unit 111 causes the processing node 3 to execute the data processing that has been executed in the processing node 2.
  • the reception information storage unit 603 of the overall manager 6 holds the load information received from the monitoring manager 4 in association with the node identifier.
  • the response communication unit 609 compares the stored load information with a predetermined threshold, and when there is load information that satisfies the predetermined threshold, transmits a corresponding node identifier to the monitoring manager 1. .
  • the node control unit 111 receives data of the processing node 2 in which the failure is detected by the node failure detection unit 109 according to a command from the node failure detection unit 109.
  • the processing is executed by the processing node 5 corresponding to the received node identifier.
  • the monitoring manager 1 compares the stored load information with a threshold value. When it is determined that all the stored load information is equal to or greater than the threshold, the information communication unit 107 transmits the threshold and inquires the general manager 6 about the load information of other nodes that satisfy the threshold. If the threshold is fixed throughout the system, the threshold itself does not have to be transmitted.
  • the data processing that is being executed on the one node that detected the failure is executed on the threshold value of the other node determined to be less than the threshold value.
  • Each part of the monitoring manager as described above is realized by using various hardware as required. However, it is realized by functioning in correspondence with a computer program in which the monitoring manager is installed.
  • Such a computer program is, for example, a receiving process that receives load information indicating a load of a node related to execution of data processing from a node that executes data processing together with a node identifier that identifies the node, and load information received from the node is predetermined. If it is determined that the received load information is less than the threshold value, the load information is sent to the general manager connected to a plurality of monitoring managers via the network as node identifiers. It is stored in an information storage medium such as a RAM as software for causing a CPU or the like to execute processing operations such as information communication processing to be transmitted in association with each other.
  • an information storage medium such as a RAM as software for causing a CPU or the like to execute processing operations such as information communication processing to be transmitted in association with each other.
  • each unit of the general manager as described above is realized by using various hardware as necessary. However, it is realized by functioning corresponding to the computer program in which the general manager is installed.
  • Such a computer program is, for example, a node that identifies load information indicating the load of a node monitored by the first and second monitoring managers connected via a network and identifies the node from the first monitoring manager.
  • a reception process that is received in association with an identifier, a reception information storage process that stores received load information and a node identifier, and a determination as to whether there is a node having load information that satisfies a predetermined threshold from the second monitoring manager
  • Information such as RAM as software for causing the CPU to execute processing operations such as response communication processing to be transmitted to the second monitoring manager. Stored in the storage medium.
  • FIG. 6 is a diagram for explaining the configuration of the node monitoring system according to the embodiment.
  • the monitoring manager 1 includes a processing node control unit 11 (corresponding to the node control unit 111), a node information storage unit 12 (corresponding to the node information holding unit 103), and a node failure detection unit 13 (corresponding to the node failure detection unit 109).
  • the monitoring manager 4 includes a processing node control unit 41 (corresponding to the node control unit 411), a node information storage unit 42 (corresponding to the node information holding unit 403), and a node failure detection unit 43 (corresponding to the node failure detection unit 409).
  • the overall manager 6 includes node information storage means 61 (corresponding to the reception information storage unit 603).
  • Processing node 2, processing node 3, and processing node 5 execute processing determined by node control units 111 and 411 that control them.
  • the node control unit 111 performs start / end control of the processing nodes 2 and 3 in accordance with an external command.
  • the node information holding unit 103 acquires and stores the load information of the processing nodes 2 and 3 periodically or at an arbitrary timing. When the load of each processing node is smaller than the threshold value, the same load information is transmitted to the node information storage unit 61.
  • the node information holding unit 103 returns information of the processing node when there is a processing node whose load is smaller than the threshold value.
  • the node failure detection unit 109 monitors the processing nodes 2 and 3 and makes an inquiry to the node information holding unit 103 when a failure occurs in one of the processing nodes. If the node information holding unit 103 has information on a processing node whose load is smaller than the threshold value, the node control unit 111 is instructed to continue the processing executed in the processing node in which the failure has occurred in the processing node. To do. As a result of the inquiry to the node information holding unit 103, the node failure detection unit 109 makes an inquiry to the reception information storage unit 603 when there is no processing node having a load smaller than the threshold value. When there is a processing node whose load is smaller than the threshold value, the processing node control means included in the monitoring manager that monitors the processing node is executed on the processing node in which the processing node has failed Instructs processing to continue.
  • the monitoring manager 4, the node control unit 411 included in the monitoring manager 4, the node information holding unit 403, and the node failure detection unit 409 are the monitoring manager 1, the node control unit 111, and the node information holding unit 103, respectively.
  • the same operation as the node failure detection unit 109 is performed.
  • the reception information storage unit 603 stores the processing node load information transmitted from the node information holding units 103 and 403 included in each monitoring manager, and receives an inquiry from the node failure detection units 109 and 409 in each monitoring manager. In this case, the information of the processing node whose load is lower than the threshold is transmitted to the node failure detection units 109 and 409 that are the inquiry sources.
  • the flowchart of FIG. 7 represents processing until the load information of the processing node 5 is notified to the node information storage unit 61 included in the overall manager 6.
  • the flowchart in FIG. 8 represents processing until a processing node is identified until a processing node 2 is failed over and processing is continued when a failure occurs in the processing node 2.
  • FIG. 7 is a flowchart for explaining the data processing method of the monitoring manager 4 of this embodiment.
  • the processing node 5 transmits the load information of the processing node 5 to the node information holding unit 403 (step S1).
  • the node information holding unit 403 stores therein the load information of the processing node 5 (Step S2). Further, the node information holding unit 403 determines whether or not the load information of the processing node 5 is smaller than the threshold value (step S3). If the load information of the processing node 5 is greater than or equal to the threshold value (No in step S3), the process ends (step S6).
  • the node information holding unit 403 transmits the load information of the processing node 5 to the reception information storage unit 603 (step S4).
  • the load information to be transmitted includes a node name, a processing node control means name, and load information.
  • the reception information storage unit 603 that has received the load information of the processing node 5 stores the load information of the processing node 5 therein (step S5).
  • FIG. 8 is a flowchart for explaining the data processing method of the monitoring manager 1 of this embodiment.
  • the node failure detection unit 109 detects a failure in the processing node 2 (step S8).
  • the node failure detection unit 109 inquires of the node information holding unit 103 whether or not there is a processing node having a load less than the threshold value in order to continue the processing by failover via the determination unit 105 (step S9).
  • the determination unit 105 determines whether there is a processing node whose load is smaller than the threshold (step S10). When there is a processing node 3 whose load information is smaller than the threshold (Yes in Step S10), the determination unit 105 notifies the node failure detection unit 109 of the existence of the processing node 3 whose load is smaller than the threshold (Step 16). .
  • the node failure detection unit 109 instructs the node control unit 111 to continue the processing executed by the processing node 2 at the processing node 3 (step 17).
  • the determination unit 105 receives the received information storage unit 603 via the information communication unit 107. Is inquired whether there is a processing node whose load information is smaller than the threshold (step S11). When the load information of the processing node whose load information is less than the threshold does not exist in the reception information storage unit 603 (No in Step S12), the failover using the processing node whose load information is smaller than the threshold is given up (Step S15).
  • the search unit 607 receives the processing node whose load information is smaller than the threshold from the reception information storage unit 603. 5 and the processing node control means 41 for controlling the processing node 5 are extracted, and the presence of the processing node 5 is notified from the response communication unit 609 to the receiving unit 101 (step S13).
  • the node failure detection unit 109 instructs the node control unit 411 to continue the processing executed by the processing node 2 at the processing node 5 (step S14).
  • a monitoring manager 1, a monitoring manager 4, and an overall manager 6 are connected by a network 1000.
  • the monitoring manager 1 monitors the processing nodes 2 and 3, and the monitoring manager 4 monitors the processing node 5.
  • the monitoring managers 1 and 4 and the general manager 6 are computers connected by a network, and the processing nodes 2, 3, and 5 can execute arbitrary programs according to instructions of the node control unit 111 or the node control unit 411, respectively. .
  • the process flow is divided into a process for collecting load information and a process when a failure occurs in a processing node. First, processing for collecting load information will be described.
  • the node information holding unit 103 periodically transmits load information of each processing node from the processing nodes 2 and 3.
  • the load information may be transmitted from an agent function operating in each processing node at regular intervals, or an inquiry may be made to each processing node from the node information holding unit 103 at regular intervals.
  • the load information of the processing node 5 is periodically transmitted to the node information holding unit 403.
  • the received load information of the monitored node is stored inside.
  • Information stored in the node information holding units 103 and 403 includes a node identifier for uniquely identifying a processing node, a processing node control means for controlling the processing node, and an actual processing node load. At least load information is included.
  • Each of the node information holding units 103 and 403 determines whether the received load information is larger or smaller than a threshold value determined by some means. If the load information is smaller than the threshold value, the node manager information is sent to the general manager 6. The received information is stored in the received information storage unit 603.
  • the means for determining the threshold value may be a means for using a fixed value in advance or a means for dynamically specifying the threshold value. For example, assuming that the threshold value is 50% and the load information of each processing node is as shown in FIG. 5, only the information on the processing node 5 is transmitted to the overall manager 6.
  • the reception unit 601 stores the received load information of each processing node in the reception information storage unit 603 inside. Through the processing so far, the reception information storage unit 603 can internally store the information of all the processing nodes whose load information is smaller than the threshold among all the processing nodes monitored by all the monitoring managers.
  • the node information holding units 103 and 403 in the monitoring managers 1 and 4 store the load information of all the processing nodes whose load information is smaller than the threshold among the processing nodes monitored by the monitoring managers 1 and 4. Can do.
  • the node failure detection unit 109 included in the monitoring manager 1 that monitors the processing node 2 detects the failure.
  • an inquiry is made periodically, a failure is detected when there is no response within a certain time, and a survival signal is transmitted from the processing node 2 to the node failure detection unit 109 at regular intervals.
  • there is a method of detecting a failure by not receiving the next survival signal even after waiting for a certain period of time after the node failure detection unit 109 receives the previous survival signal.
  • the node failure detection unit 109 detects a failure of the processing node 2
  • the node failure detection unit 109 performs a failover and searches for another processing node for continuing the processing executed in the processing node 2.
  • the load information is smaller than the threshold value for the processing node used in the failover.
  • the load information is less than the threshold value for the node information holding unit 103 existing in the monitoring manager 1 including the node failure detection unit 109. Queries whether there is a smaller processing node.
  • the node information holding unit 103 does not include information on the processing node that satisfies the condition. Therefore, information indicating that there is no processing node that can be failed over is sent to the determination unit 105.
  • the determining unit 105 When determining that the node information holding unit 103 has no processing node capable of failing over, the determining unit 105 continues to the processing node that satisfies the above conditions with respect to the upper overall manager 6 via the information communication unit 107. Ask if there exists.
  • the reception information storage unit 603 displays the information of the processing node 5 and the information of the node control unit 411 that controls the processing node 5.
  • the response is transmitted to the monitoring manager 1 via the response communication unit 609.
  • the determination unit 105 determines to perform failover using the processing node 5.
  • the determination unit 105 instructs the node control unit 411 that controls the processing node 5 via the node failure detection unit 109 to continue the processing that has been executed on the processing node 2 by using the processing node 5. put out.
  • the node control unit 411 causes the processing designated by the processing node 5 to be executed in accordance with the received command.
  • load information is received from a node that monitors data processing together with a node identifier, and when the received load information is less than a predetermined threshold, it is stored in the overall manager.
  • the load information of the node it is possible to monitor the load information of the node and allow the general manager to manage only the information of the node whose load information is smaller than the threshold value. Therefore, even when the processes of a plurality of nodes are monitored by a plurality of monitoring managers, the processing time required for failover in the event of a node failure is reduced while reducing the network load.
  • the node information holding unit 103 of the monitoring manager 1 or the node information holding unit 403 of the monitoring manager 4 and the reception information storage unit 603 of the overall manager 6 are hierarchically configured. Therefore, only the load information of the processing nodes monitored by the monitoring managers 1 and 4 is managed by the lower layer node information holding units 103 and 403, and the received information storage unit 603 of the upper layer includes the load information of the entire system. It is possible to manage the load information of the processing node whose load information is smaller than the threshold value. Therefore, it is possible to specify a processing node for continuing processing while the number of inquiries at the time of failover is up to two times.
  • FIG. 9 is a diagram illustrating the configuration of the node monitoring system according to the second embodiment.
  • the best mode for carrying out the second invention of the present invention is different from the first embodiment in that the processing node 7 is added to the processing node to be monitored by the monitoring manager 4, and other components. This is the same as in the first embodiment. Constituent elements similar to those in the first embodiment are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof is omitted.
  • the node information storage unit 12 (corresponding to the node information holding unit 103 in FIG. 4) stores a node group name as an attribute information indicating a node attribute and a node identifier as a node identifier in association with each other. .
  • the information communication unit 107 transmits the received load information and the corresponding attribute information in association with each other.
  • the overall operation of the second embodiment is different from the first embodiment only in that the node group name is added to the configuration of the load information shown in FIG. This is the same as the first embodiment.
  • movement similar to 1st Embodiment the code
  • processing for storing the load information of each processing node in the node information storage means processing in which the processing node 5 is replaced with the processing node 7 in the flowchart of FIG. 7 is performed. Thereby, when the load information of the processing node 5 and the processing node 7 is smaller than the threshold value, the received information storage unit 603 stores the load information of the processing node 5 and the processing node 7.
  • the node group name indicates a group name of a plurality of nodes for operating one device or a group of nodes having the same characteristics.
  • FIG. 10 is an example of a data structure stored in the reception information storage unit 603.
  • the load information includes a node name that is a node identifier, a processing node control means name that is a control identifier, a node group name that is attribute information, and load information.
  • FIG. 11 is a flowchart for explaining the data processing method in the present embodiment, and shows processing after a failure has occurred in the processing node 2.
  • step S9 ′, step S11 ′, step S13 ′, and step S16 ′ are different from the flowchart of FIG. 8, and other steps are the same as those in the first embodiment shown in FIG. .
  • step S9 ' the determination unit 105 inquires of the node information holding unit 103 whether the load information of the processing node having the same node group name as the processing node 2 in which the load information is smaller than the threshold value and the failure has been stored.
  • the node information holding unit 103 determines that the processing node 3 exists and the processing node 3 is notified to the determining unit 105 (step S16 ′).
  • step S10 ′ When the load information of the processing node that the load information is smaller than the threshold and has the same node group name as the processing node 2 is not stored in the node information holding unit 103 (No in step S10 ′), the processing node that satisfies the above condition Is inquired to the general manager 6 via the information communication unit 107 (step S11 ′).
  • step S13 ′ When the load information of the processing node 7 that satisfies the condition is stored in the reception information storage unit 603, the presence of the processing node 7 and the node control unit 411 that controls the processing node 7 are notified to the monitoring manager 1 (step S13 ′). . Since other processes are the same as those of the first embodiment, detailed description thereof is omitted.
  • an element called a node group name is added to the load information as attribute information in the first embodiment. Therefore, in addition to the load information being smaller than the threshold value, a condition that a program for performing a specific process is installed is added. As a result, it is possible to specify a processing node to be used for continuing processing by failover.
  • a monitoring manager for monitoring load information of a processing node and a monitoring manager for a computer monitoring system that controls a processing node by a general manager that receives the load information from the monitoring manager.
  • a receiver for receiving load information from the processing node A monitoring manager comprising: a transmission unit that does not transmit the load information to the overall manager when the load information is greater than a threshold value.
  • node failure detection means for detecting a failure when a failure occurs in the processing node;
  • the monitoring manager according to (1) further comprising: node information storing means for transmitting node information whose load information is smaller than a threshold value in response to an inquiry.
  • the node information storage means An identifier for identifying a node in the load information to be handled; An identifier for identifying the processing node control means; The monitoring manager according to (2), further comprising load information.
  • the monitoring manager according to (3) wherein the load information to be handled includes an identifier indicating whether failover for each node or each program is possible.
  • the load information of the processing node notified from the lower monitoring manager is stored internally, A general manager comprising node information storage means for returning corresponding information when receiving an inquiry about the existence of a processing node that satisfies a specified condition.
  • the above configuration can be used as a system, a method, and a program combining (1) to (4) and (5).
  • the above invention relates to a distributed computer system, and in particular, can provide a computer monitoring method when a large number of computers are used.
  • each part of the monitoring manager and the general manager is logically realized as various functions by a computer program.
  • each of these units can be formed as unique hardware, or can be realized as a combination of software and hardware.
  • the current Internet is exemplified as the network.
  • this may be the next generation Internet NGN (Next Generation Network).

Abstract

 監視マネージャは、データ処理を実行するノードからデータ処理の実行にかかる負荷を示す負荷情報を、ノードを識別するノード識別子とともに受け付け、受け付けた負荷情報が所定の閾値以上か否かを判断し、受け付けた負荷情報が閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに、閾値未満であると判断された負荷情報と、この負荷情報とともに受け付けたノード識別子とを関連づけて送信する。

Description

監視マネージャ、統括マネージャおよびノード監視システム
 本発明は、ネットワークを介して複数のマネージャによりノードのデータ処理を監視するシステムに関し、ノードの監視マネージャ、統括マネージャ、およびこれらのデータ処理方法、これらの監視マネージャおよび統括マネージャのためのコンピュータプログラム、その監視マネージャと統括マネージャとがネットワークを介して接続しているノード監視システムに関する。
 近年の状態監視およびフェイルオーバーを行うシステムの一例が、特開2000-047894号公報に記載されている。特開2000-047894号公報に記載の状態監視およびフェイルオーバーを行うシステムは、監視エージェントを含むノードと、監視情報リポジトリを含む共有ディスクとから構成されている。このような構成を有する状態監視およびフェイルオーバーを行う従来のシステムは次のように動作する。
 監視エージェントが定期的に各ノードのCPUの負荷情報等を監視し、監視情報リポジトリに全てのノードの負荷情報を集約して保存する。そして、いずれかのノードに故障が発生した場合に負荷情報を利用してフェイルオーバー先のノードを決定する。
 現在、上述のような状態監視およびフェイルオーバーを行うシステムとして、特開2006-079161号公報や特開平09-160884号公報に開示されたものがある。
 しかしながら、特開2000-047894号公報に記載の技術は、1つの監視マネージャの処理能力に対してノードの数が多すぎるため、複数の監視マネージャに処理を分割する場合に、以下の問題を有していた。
 第1の問題点は、各ノードの負荷情報を各監視マネージャ間で共有するための通信を定期的に行なっていないと、フェイルオーバーに要する時間が長くなる可能性があるということである。その理由は、ノードに故障が発生した場合に、存在する全ての監視マネージャに対して負荷が小さいノードの存在を問い合わせる必要があるためである。
 第2の問題点は、故障発生時に各監視マネージャに問い合わせをしない場合には、ノードが正常に動作している間のネットワークの通信量が大きくなるということである。その理由は、各監視マネージャが管理しているノードのうち、負荷が小さいノードの情報を各監視マネージャ間で共有するための通信が定期的に発生するためである。
 本発明は、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減することができる監視マネージャ、統括マネージャ、そのデータ処理方法、そのデータ処理装置のためのコンピュータプログラム、その監視システムを提供することを目的とする。
 上記目的を達成するために本発明は、
 データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
 前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
 前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有する。
 また、ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手段と、
 前記受信手段にて受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手段と、
 前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手段と、
 前記要求受付手段にて受け付けた要求に応じて、前記受信情報記憶手段に記憶された前記負荷情報と、前記所定の閾値とを比較する検索手段と、
 前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有する。
 また、ノードを監視している監視マネージャと、統括マネージャとをネットワークを介して接続しているノード監視システムであって、
 前記監視マネージャは、
 データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
 前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
 前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有し、
 前記統括マネージャは、
 前記負荷情報を前記ノードごとに受信する受信手段と、
 前記受信手段にて受信した前記負荷情報を、前記ノードを識別するノード識別子と対応づけて記憶する受信情報記憶手段とを有する。
 また、データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付けるステップと、
 受け付けた前記負荷情報が所定の閾値以上か否かを判断するステップと、
 受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記閾値未満であると判断された前記負荷情報と、該負荷情報とともに受け付けた前記ノード識別子とを関連づけて送信するステップとを含む。
 また、監視マネージャのためのコンピュータプログラムであって、
 コンピュータに、
 データ処理を実行するノードから前記データ処理の実行にかかるノードの負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付ける受付手順と、
 前記ノードから受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手順と、
 受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記負荷情報を前記ノード識別子と対応づけて送信する情報通信手順とを実行させる。
 また、ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信するステップと、
 受信した前記負荷情報と前記ノード識別子とを記憶するステップと、
 前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付けるステップと、
 前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較するステップと、
 前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信するステップとを含む。
 また、統括マネージャのためのコンピュータプログラムであって、
 コンピュータに、
 ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手順と、
 受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手順と、
 前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手順と、
 前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較する検索手順と、
 前記所定の閾値を満たす前記負荷情報があった場合、該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手順とを実行させる。
 なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与された各マネージャ、コンピュータプログラムにより各マネージャに実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
 また、本発明の各種の構成要素は、個々に独立した存在である必要もなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でよい。
 また、本発明のデータ処理方法には複数の工程を順番に記載してあるが、その記載の順番は複数の工程を実行する順番を限定するものではない。このため、本発明のデータ処理方法を実施するときには、その複数の工程の順番は内容的に支障しない範囲で変更することができる。
 また、本発明のデータ処理方法の複数の工程は個々に相違するタイミングで実行されることに限定されない。このため、ある工程の実行中に他の工程が発生すること、ある工程の実行タイミングと他の工程の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 また、本発明でいう監視マネージャおよび統括マネージャは、コンピュータプログラムを読み取って対応するデータ処理を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定のデータ処理を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。
 本発明によれば、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減する。
本実施形態のノード監視システムの構成を説明する図である。 図1に示した監視マネージャの論理構造を示す模式的なブロック図である。 図1に示した統括マネージャの論理構造を示す模式的なブロック図である。 図1に示した監視マネージャの論理構造を示す模式的なブロック図である。 図4に示したノード情報保持部で保持されるデータ構造の一例である。 実施の形態に係るノード監視システムの構成を説明する図である。 本実施形態の監視マネージャのデータ処理方法について説明するフローチャートである。 本実施形態の監視マネージャのデータ処理方法について説明するフローチャートである。 第2の実施形態のノード監視システムの構成を説明する図である。 受信情報記憶部に保存されるデータ構造の一例である。 本実施形態におけるデータ処理方法を説明するフローチャートである。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施形態)
 図1は、本実施形態のノード監視システムの構成を説明する図である。
 本実施形態のノード監視システムは、図1に示すように、処理ノード2,3を監視している監視マネージャ1と、処理ノード5を監視している監視マネージャ4と、統括マネージャ6とをネットワーク1000を介して接続している。
 ネットワーク1000とは、監視マネージャ1,4と統括マネージャ6とのデータ通信を仲介できるものであればよく、有線、無線、これらの組み合わせでよい。
 図2は、図1に示した監視マネージャ4の論理構造を示す模式的なブロック図である。
 図1に示した監視マネージャ4は、図2に示すように、データ処理を監視する処理ノード5からデータ処理の実行にかかる負荷を示す負荷情報を、処理ノード5を識別するノード識別子とともに受け付ける受付部401と、受け付けた負荷情報が所定の閾値以上か否かを判断する判断部405と、判断部405において受け付けた負荷情報が閾値未満であると判断された場合、ネットワーク1000を介して監視マネージャ1,4と接続している統括マネージャ6に対して、所定の閾値未満であると判断された負荷情報と、この負荷情報とともに受付部401にて受け付けられたノード識別子とを関連づけて送信する情報通信部407と、ノード5の故障を検知するノード故障検知部409と、ノードにおけるデータ処理の実行を制御するノード制御部411と、ノード情報保持部403とを備える。ノード制御部411は、制御識別子で識別される。そのため、情報通信部407は、受け付けた負荷情報と、対応する処理ノード5を制御しているノード制御部411の制御識別子とを関連づけて送信してもよい。
 監視マネージャ4は、判断部405が処理ノード5から受け付けた負荷情報が所定の閾値以上と判断した場合は、処理を終了する。
 負荷情報とは、処理ノード2,3,5がデータ処理を実行する際、ハードウェアにかかる負荷を示す情報である。具体的には、負荷情報は、CPU、メモリ、ディスク容量等にかかる負荷を示す情報である。たとえば、CPUの負荷は種々の方法により算出されるが、たとえば、CPUの使用率(Processor/% Processor Time) およびCPUのIdle率(Processor/% Idle Time)から求めることができる。負荷情報を求める機能はノード自身に備えられている。
 図3は、図1に示した統括マネージャ6の論理構造を示す模式的なブロック図である。
 図1に示した統括マネージャ6は、図3に示すように、ネットワーク1000を介して接続している監視マネージャ4が監視している処理ノード5の負荷を示す負荷情報を、監視マネージャ4から処理ノード5を識別するノード識別子と対応づけて受信する受信部601と、受信部601にて受信した負荷情報とノード識別子とを記憶する受信情報記憶部603と、ネットワーク1000を介して接続している監視マネージャ1から、所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける要求受付部605と、要求受付部602にて受け付けた要求に応じて、受信情報記憶部603に記憶された負荷情報と、所定の閾値とを比較する検索部607と、所定の閾値を満たす負荷情報があった場合、その負荷情報に対応するノード識別子を監視マネージャ1に送信する応答通信部609とを備える。
 受信部601は、処理ノード2の負荷を示す負荷情報を、監視マネージャ1から処理ノード2を識別するノート識別子と対応づけて受信する。また、受信部601は、処理ノード3の負荷を示す負荷情報を、監視マネージャ1から処理ノード3を識別するノート識別子と対応づけて受信する。さらに、受信部601は、処理ノード5の負荷を示す負荷情報を、監視マネージャ4から処理ノード5を識別するノート識別子と対応づけて受信する。
 受信情報記憶部603は、受信部601にて受信した負荷情報とノード識別子とを記憶する。受信情報記憶部603のデータ構造は、ノード情報保持部103およびノード情報保持部403と同様な構成をしている。したがって、受信情報記憶部603もまた、後述する図5で示すデータ構造を有することができる。
 要求受付部605は、監視マネージャ1から、所定の閾値とともに所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける。また、要求受付部605は、監視マネージャ4から、所定の閾値とともに所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付けてもよい。
 検索部607は、要求受付部605にて受け付けた要求に応じて、受信情報記憶部603を参照し、記憶された負荷情報と、受け付けた所定の閾値とを比較する。
 応答通信部609は、検索部607にて所定の閾値を満たす負荷情報が抽出された場合、その負荷情報に対応するノード識別子を、判断要求のあった監視マネージャに送信する。
 図4は、図1に示した監視マネージャ1の論理構造を示す模式的なブロック図である。
 図1に示した監視マネージャ1は、図4に示すように、受付部101と、ノード情報保持部103と、判断部105と、情報通信部107と、ノード故障検知部109と、ノード制御部111とから構成されている。
 受付部101は、処理ノード2から処理ノード2の負荷情報を、処理ノード2を識別するノード識別子とともに受け付ける。また、受付部101は、処理ノード3から処理ノード3の負荷情報を、処理ノード3を識別するノード識別子とともに受け付ける。ノード識別子とは、処理ノード2,3を個々に識別する情報である。処理ノード2,3は、監視マネージャ1によってデータ処理が監視されている。負荷情報とは、処理ノードにおいて、データ処理の実行の結果消耗される計算機の資源量である。
 ノード情報保持部103は、受け付けた負荷情報をノード識別子と対応づけて保持する。
 図5は、図4に示したノード情報保持部103で保持されるデータ構造の一例である。
 図5中、「処理ノード名」とは、ノード識別子の一例である。
 ノード制御部111は、処理ノード2,3の処理を制御する。ノード制御部111は、外部からの命令に従って処理ノード2,3の起動終了制御を行う。図5に示すように、ノード情報保持部103は、各ノード制御部111を識別して処理ノードおよびその負荷情報と関連づけて保持している。なお、図5では、「処理ノード制御手段名」が制御識別子の役割を果たしている。
 判断部105は、処理ノード5から受け付けた負荷情報が所定の閾値以上か否かを判断する。閾値とは、閾値を定める手段にはあらかじめ固定の値を利用する手段と、動的に指定する手段とがあるが、本実施形態では、あらかじめ固定の値が決められているとする。また、フェイルオーバーで利用する処理ノードには負荷情報が閾値よりも小さいという条件がある。
 情報通信部107は、受け付けた負荷情報が閾値未満であると判断された場合、統括マネージャ6に、負荷情報をノード識別子と対応づけて送信する。
 ノード故障検知部109は、処理ノード2、3の故障を検知する。
 図4に示した監視マネージャ1と図2に示した監視マネージャ4とは、受付部101が受付部401と、ノード情報保持部103がノード情報保持部403と、判断部105が判断部405と、情報通信部107が情報通信部407と、ノード故障検知部109がノード故障検知部409と、ノード制御部111がノード制御部411とにそれぞれ対応している。
 ノード故障検知部109が監視する処理ノード2の故障を検知した場合、判断部105は、保持された負荷情報と、記憶された閾値とを比較する。ノード情報保持部403には、処理ノード2、3の負荷情報が保持されており、たとえば、処理ノード2の負荷情報は80%、処理ノード3の処理情報は70%とする。閾値を50%とすると、保持されたすべての処理ノードの負荷情報が閾値以上と判断される。このとき、情報通信部107が、所定の閾値(50%)を送信するとともに、送信する所定の閾値(50%)を満たす負荷情報を有するノードがあるか否かの判断要求を統括マネージャ6に送信する。
 一方、保持された処理ノード3の負荷情報が閾値未満と判断された場合、ノード制御部111は処理ノード2で実行されていたデータ処理を処理ノード3に実行させる。
 統括マネージャ6の受信情報記憶部603は、監視マネージャ4から受け付けた負荷情報をノード識別子と対応づけて保持する。応答通信部609は、要求に応じて、保持された負荷情報と、所定の閾値とを比較して、所定の閾値を満たす負荷情報があった場合、対応するノード識別子を監視マネージャ1に送信する。
 監視マネージャ1の受付部101が、統括マネージャ6からノード識別子を受信すると、ノード制御部111は、ノード故障検知部109による命令によって、ノード故障検知部109にて故障を検出した処理ノード2のデータ処理を、受け付けたノード識別子に対応する処理ノード5に実行させる。
 監視マネージャ1は、ノード故障検知部109が一のノードの故障を検知した場合、判断部105は、保持された負荷情報と、閾値とを比較する。保持されたすべての負荷情報が閾値以上と判断された場合、情報通信部107は、閾値を送信して、統括マネージャ6に閾値を満たす他のノードの負荷情報を問い合わせる。なお、閾値がシステム全体で固定であれば閾値自体は送信しなくてよい。
 一方、保持されたいずれかの負荷情報が閾値未満であると判断された場合、閾値未満と判断された他のノードの閾値に、故障を検知した一のノードで実行されているデータ処理を実行させる。
 上述のような監視マネージャの各部は、必要により各種のハードウェアを利用して実現される。しかし、監視マネージャが実装されているコンピュータプログラムに対応して機能することにより実現されている。
 このようなコンピュータプログラムは、例えば、データ処理を実行するノードからデータ処理の実行にかかるノードの負荷を示す負荷情報を、ノードを識別するノード識別子とともに受け付ける受付処理、ノードから受け付けた負荷情報が所定の閾値以上か否かを判断する判断処理、受け付けた負荷情報が閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに、負荷情報をノード識別子と対応づけて送信する情報通信処理、等の処理動作をCPU等に実行させるためのソフトウェアとしてRAM等の情報記憶媒体に格納されている。
 また、上述のような統括マネージャの各部は、必要により各種のハードウェアを利用して実現される。しかし、統括マネージャが実装されているコンピュータプログラムに対応して機能することにより実現されている。
 このようなコンピュータプログラムは、例えば、ネットワークを介して接続している第一および第二の監視マネージャが監視しているノードの負荷を示す負荷情報を、第一の監視マネージャからノードを識別するノード識別子と対応づけて受信する受信処理、受信した負荷情報とノード識別子とを記憶する受信情報記憶処理、第二の監視マネージャから、所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける要求受付処理、要求に応じて、記憶された負荷情報と、所定の閾値とを比較する検索処理、所定の閾値を満たす負荷情報があった場合、その負荷情報に対応するノード識別子を第二の監視マネージャに送信する応答通信処理、等の処理動作をCPU等に実行させるためのソフトウェアとしてRAM等の情報記憶媒体に格納されている。
 以下、本実施形態のノード監視システムについてより詳細に説明する。
 図6は、実施の形態に係るノード監視システムの構成を説明する図である。
 図6を参照すると、監視マネージャ1と、監視マネージャ1の監視対象である処理ノード2,3と、監視マネージャ1と同じ構成である監視マネージャ4と、監視マネージャ4の監視対象である処理ノード5と、統括マネージャ6とから構成される。監視マネージャ1は処理ノード制御手段11(ノード制御部111に対応)とノード情報保存手段12(ノード情報保持部103に対応)とノード故障検知手段13(ノード故障検知部109に対応)を含む。監視マネージャ4は処理ノード制御手段41(ノード制御部411に対応)とノード情報保存手段42(ノード情報保持部403に対応)とノード故障検知手段43(ノード故障検知部409に対応)とを含む。統括マネージャ6はノード情報保存手段61(受信情報記憶部603に対応)を含む。
 これらの手段はそれぞれ概略次のように動作する。
 処理ノード2と処理ノード3と処理ノード5はそれぞれを制御するノード制御部111,411により決められた処理を実行する。
 ノード制御部111は、外部からの命令に従い処理ノード2,3の起動終了制御を行う。
 ノード情報保持部103は、定期的または任意のタイミングで処理ノード2,3の負荷情報を取得して保存する。各処理ノードの負荷が閾値よりも小さい場合はノード情報保存手段61に同一の負荷情報を送信する。
 また、ノード情報保持部103は、ノード故障検知部109からの問い合わせに従い、負荷が閾値よりも小さい処理ノードが存在する場合はその処理ノードの情報を返す。
 ノード故障検知部109は、処理ノード2,3を監視して、どちらかの処理ノードに故障が発生した場合にノード情報保持部103に問い合わせを行う。ノード情報保持部103に負荷が閾値よりも小さい処理ノードの情報が存在する場合には、その処理ノードで故障が発生した処理ノードで実行していた処理を続行するようにノード制御部111に命令する。ノード故障検知部109は、ノード情報保持部103に問い合わせた結果、負荷が閾値よりも小さい処理ノードが存在しない場合に、受信情報記憶部603に問い合わせを行う。負荷が閾値よりも小さい処理ノードが存在する場合は、その処理ノードを監視している監視マネージャに含まれる処理ノード制御手段に対して、その処理ノードで故障が発生した処理ノードで実行していた処理を続行するように命令する。
 監視マネージャ4と、監視マネージャ4に含まれるノード制御部411と、ノード情報保持部403と、ノード故障検知部409とは、それぞれ監視マネージャ1と、ノード制御部111と、ノード情報保持部103と、ノード故障検知部109と同じ動作をする。
 受信情報記憶部603は、各監視マネージャ内に含まれるノード情報保持部103,403から送信された処理ノードの負荷情報を保存し、各監視マネージャ内のノード故障検知部109,409から問い合わせがあった場合に、負荷が閾値よりも低い処理ノードの情報を問い合わせ元のノード故障検知部109,409に送信する。
 次に、図7及び図8のフローチャートを参照して本実施の形態のデータ処理方法について詳細に説明する。
 図7のフローチャートでは、処理ノード5の負荷情報を統括マネージャ6に含まれるノード情報保存手段61に通知するまでの処理を表している。図8のフローチャートでは、処理ノード2に故障が発生した場合にフェイルオーバーして処理を続行させるまでの処理ノードを特定するまでの処理を表している。
 図7は、本実施形態の監視マネージャ4のデータ処理方法について説明するフローチャートである。
 処理ノード5は、ノード情報保持部403に対して処理ノード5の負荷情報を送信する(ステップS1)。次に、ノード情報保持部403は、処理ノード5の負荷情報を内部に保存する(ステップS2)。さらに、ノード情報保持部403は処理ノード5の負荷情報が閾値よりも小さいか否かを判断する(ステップS3)。処理ノード5の負荷情報が閾値以上の場合(ステップS3のNo)には処理を終了する(ステップS6)。
 一方、処理ノード5の負荷情報が閾値未満の場合(ステップS3のYes)には、ノード情報保持部403は受信情報記憶部603に対して処理ノード5の負荷情報を送信する(ステップS4)。
 送信する負荷情報は、ノード名と、処理ノード制御手段名と、負荷情報とから構成される。
 処理ノード5の負荷情報を受け取った受信情報記憶部603は、処理ノード5の負荷情報を内部に保存する(ステップS5)。
 図8は、本実施形態の監視マネージャ1のデータ処理方法について説明するフローチャートである。
 処理ノード2に故障が発生すると(ステップS7)、ノード故障検知部109は、処理ノード2の故障を検知する(ステップS8)。ノード故障検知部109は、判断部105を介してフェイルオーバーにより処理を続行させるために負荷が閾値未満の処理ノードが存在するか否かをノード情報保持部103に問い合わせる(ステップS9)。判断部105は、負荷が閾値よりも小さい処理ノードが存在するかどうかを判断する(ステップS10)。負荷情報が閾値よりも小さい処理ノード3が存在する場合(ステップS10のYes)、判断部105は、ノード故障検知部109に負荷が閾値よりも小さい処理ノード3の存在を通知する(ステップ16)。ノード故障検知部109は、処理ノード2で実行していた処理を処理ノード3で続行させるようにノード制御部111に命令する(ステップ17)。一方、ノード情報保持部103の中に負荷情報が閾値よりも小さい処理ノードの負荷情報が存在しない場合(ステップS10のNo)、判断部105は、情報通信部107を介して受信情報記憶部603に負荷情報が閾値より小さい処理ノードが存在するか否かを問い合わせる(ステップS11)。受信情報記憶部603に負荷情報が閾値未満の処理ノードの負荷情報が存在しない場合(ステップS12のNo)、負荷情報が閾値よりも小さい処理ノードを利用したフェイルオーバーをあきらめる(ステップS15)。受信情報記憶部603に負荷情報が閾値よりも小さい処理ノード5の負荷情報が存在する場合(ステップS12のYes)、検索部607は、受信情報記憶部603から負荷情報が閾値よりも小さい処理ノード5のノード識別子と処理ノード5を制御する処理ノード制御手段41とを抽出し、応答通信部609から受付部101に処理ノード5の存在を通知する(ステップS13)。最後に、ノード故障検知部109は処理ノード2で実行していた処理を処理ノード5で続行するようにノード制御部411に対して命令する(ステップS14)。
 次に、本実施形態のデータ処理方法の動作をさらに具体的に説明する。
 図1に示すように、本実施例では監視マネージャ1と、監視マネージャ4と、統括マネージャ6がネットワーク1000により結合しており、監視マネージャ1は処理ノード2と処理ノード3を監視し、監視マネージャ4は処理ノード5を監視している。
 監視マネージャ1,4と統括マネージャ6とはネットワークで接続されたコンピュータであり、処理ノード2,3,5はそれぞれ任意のプログラムをノード制御部111またはノード制御部411の命令に従って実行することができる。
 処理の流れは負荷情報を収集する処理と処理ノードに故障が発生した場合の処理に分けられる。まず初めに負荷情報を収集する処理について説明する。
 ノード情報保持部103には定期的に処理ノード2および処理ノード3から各処理ノードの負荷情報が送信される。負荷情報の送信には各処理ノード内で動作するエージェント機能から一定の間隔で送信される場合や、一定の間隔で各処理ノードに対してノード情報保持部103から問い合わせを行う場合がある。同様にノード情報保持部403には定期的に処理ノード5の負荷情報が送信される。
 ノード情報保持部103,403では、受信した監視対象のノードの負荷情報を内部に保存する。ノード情報保持部103、403の内部に保存する情報には、処理ノードを一意に認識するためのノード識別子と、処理ノードの制御を行う処理ノード制御手段名と、実際の処理ノードの負荷となる負荷情報が少なくとも含まれる。
 ノード情報保持部103,403はそれぞれ受信した負荷情報が何らかの手段により定められた閾値よりも大きいか小さいかを判断し、負荷情報が閾値よりも小さい場合はその処理ノードの情報を統括マネージャ6に含まれる受信情報記憶部603に送信する。閾値を定める手段にはあらかじめ固定の値を利用する手段と、動的に指定する手段とがありうる。例えば、閾値を50%とした場合に、各処理ノードの負荷情報が図5に示したとおりだとすると、処理ノード5の情報のみが統括マネージャ6に送信される。
 受信部601は、受信した各処理ノードの負荷情報を受信情報記憶部603に内部に保存する。ここまでの処理により受信情報記憶部603は全ての監視マネージャが監視している全ての処理ノードのうち、負荷情報が閾値よりも小さい全ての処理ノードの情報を内部に保存することができ、各監視マネージャ1,4内のノード情報保持部103,403には各監視マネージャ1,4が監視対象としている処理ノードの内、負荷情報が閾値よりも小さい全ての処理ノードの負荷情報を保存することができる。
 つづいて処理ノード2に故障が発生した場合の処理を説明する。
 処理ノード2に故障が発生すると、処理ノード2を監視する監視マネージャ1に含まれるノード故障検知部109が故障を検知する。故障を検知するには、定期的に問い合わせを行い、一定時間以内に反応が無いことで故障を検知する方法と、処理ノード2から一定の間隔で生存信号をノード故障検知部109に対して送信し、ノード故障検知部109が前の生存信号を受信してから一定以上の時間を待っても次の生存信号を受信できないことで故障を検知する方法などがある。ノード故障検知部109は、処理ノード2の故障を検知すると、フェイルオーバーを行い処理ノード2で実行していた処理を続行するための、別の処理ノードを探す。
 フェイルオーバーで利用する処理ノードには負荷情報が閾値よりも小さいという条件があり、まずはノード故障検知部109が含まれる監視マネージャ1内に存在するノード情報保持部103に対して負荷情報が閾値よりも小さい処理ノードが存在するか問い合わせる。
 閾値が50%であり、各処理ノードの負荷情報が図5に示したとおりの場合には、ノード情報保持部103には条件を満たす処理ノードの情報が含まれていないこととなる。そのため、フェイルオーバー可能な処理ノードが存在しないという情報が判断部105に送出される。
 判断部105は、ノード情報保持部103にフェイルオーバー可能な処理ノードが存在しないことを知ると、続いて情報通信部107を介し、上位の統括マネージャ6に対して前出の条件を満たす処理ノードが存在するかを問い合わせる。
 すると、条件を満たす処理ノード5の負荷情報が受信情報記憶部603の中に存在するため、受信情報記憶部603は処理ノード5の情報と、処理ノード5を制御するノード制御部411の情報を応答通信部609を介して監視マネージャ1に送信する。
 受付部101が統括マネージャ6の応答通信部609から受信した前出の情報により判断部105は処理ノード5を利用してフェイルオーバーすることを決定する。判断部105は、ノード故障検知部109を介して処理ノード5を制御するノード制御部411に対して、処理ノード5を利用して処理ノード2で実行していた処理を続行するように命令を出す。ノード制御部411は受信した命令に従い、処理ノード5で指定された処理を実行させる。
 以上の処理により処理を実行中の処理ノード2に故障が発生して、実行中の処理を続行できなくなった場合に、処理ノード5を利用してその処理を続行できるようになる。
 次に、本実施の形態の効果について説明する。
 本実施形態のノード監視システムによれば、データ処理を監視するノードから負荷情報をノード識別子とともに受け付け、受け付けた負荷情報が所定の閾値未満である場合、統括マネージャに記憶させる。これにより、ノードの負荷情報を監視し、負荷情報が閾値よりも小さいノードの情報のみを統括マネージャに管理させることができる。したがって、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減する。
 本実施の形態では、監視マネージャ1のノード情報保持部103または監視マネージャ4のノード情報保持部403と、統括マネージャ6の受信情報記憶部603とで、階層的に構成されている。したがって、下位階層のノード情報保持部103,403で各監視マネージャ1,4が監視している処理ノードの負荷情報のみを管理し、上位階層の受信情報記憶部603でシステム全体の負荷情報のうち負荷情報が閾値よりも小さい処理ノードの負荷情報を管理することができる。よって、フェイルオーバー時の問い合わせ回数が最大2回までにしながら、処理を続行させる処理ノードを特定することができる。
(第2の実施形態)
 次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
 図9は、第2の実施形態のノード監視システムの構成を説明する図である。
 本発明の第2の発明を実施するための最良の形態は、監視マネージャ4の監視対象となる処理ノードに処理ノード7が追加されていることが第1の実施形態と異なり、その他の構成要素については第1の実施の形態と同様である。第1の実施の形態と同様の構成要素については図1と同一の符号を付し、詳細な説明を省略する。
 本実施形態において、ノード情報保存手段12(図4のノード情報保持部103に対応)は、ノードの属性を示す属性情報としてノードグループ名と、ノードの識別子としてノード識別子とを対応づけて記憶する。情報通信部107は、受け付けた負荷情報と、対応する属性情報とを対応づけて送信する。
 第2の実施の形態の全体の動作については、図8に示した負荷情報の構成にノードグループ名が追加されていることのみが第1の実施の形態と異なり、その他の動作内容については第1の実施の形態と同様である。第1の実施の形態と同様の動作については、図7のフローチャート、図8のフローチャートと同一の符号を付し、第1の実施の形態と同一の動作詳細な説明を省略する。
 第2の実施の形態では各処理ノードの負荷情報をノード情報保存手段に保存する処理として、図7のフローチャートにおいて処理ノード5を処理ノード7で置き換えた処理が行われる。これにより、処理ノード5と処理ノード7の負荷情報が閾値よりも小さい場合、受信情報記憶部603には処理ノード5と処理ノード7の負荷情報が保存される。
 ノードグループ名とは、1つの装置を動作させるための複数のノードのグループや同一の特性をもつノードのグループの名称を示す。
 図10は、受信情報記憶部603に保存されるデータ構造の一例である。
 図10に示すように、負荷情報は、ノード識別子であるノード名と、制御識別子である処理ノード制御手段名と、属性情報であるノードグループ名と、負荷情報から構成される。
 図11は、本実施形態におけるデータ処理方法を説明するフローチャートであり、処理ノード2に障害が発生した後の処理を示している。
 図11のフローチャートではステップS9’と、ステップS11’と、ステップS13’と、ステップS16’が図8のフローチャートと異なり、そのほかのステップは図8に示した第1の実施の形態と同様である。
 ステップS9’では、判断部105がノード情報保持部103に負荷情報が閾値よりも小さく、故障が発生した処理ノード2と同じノードグループ名である処理ノードの負荷情報が保存されているかを問い合わせる。
 処理ノード3の情報が負荷情報が閾値よりも小さく、処理ノード2と同じノードグループ名であるという条件を満たす場合(ステップS10のYes)、ノード情報保持部103は処理ノード3の存在と処理ノード3を制御するノード制御部111を判断部105に通知する(ステップS16’)。
 負荷情報が閾値よりも小さく、処理ノード2と同じノードグループ名であるという処理ノードの負荷情報がノード情報保持部103に保存されていない場合(ステップS10’のNo)、前記条件を満たす処理ノードが存在するかを、情報通信部107を介して統括マネージャ6に問い合わせる(ステップS11’)。
 受信情報記憶部603に条件を満たす処理ノード7の負荷情報が保存されている場合、処理ノード7の存在と処理ノード7を制御するノード制御部411を監視マネージャ1に通知する(ステップS13’)。その他の処理は第1の実施の形態と同様であるので詳細な説明を省略する。
 次に、本発明を実施するための第2の実施の形態の効果について説明する。
 本発明を実施するための第2の実施の形態では、第1の実施の形態に対して、負荷情報に属性情報としてノードグループ名という要素が加えられている。したがって、負荷情報は閾値よりも小さいのに加えて、特定の処理を行うプログラムがインストールされているという条件を追加する。これにより、フェイルオーバーで処理を続行するために利用する処理ノードを特定することができる。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 たとえば、本発明は以下の構成も適用可能である。
(1)処理ノードの負荷情報の監視を行う監視マネージャであり、かつ、前記負荷情報を前記監視マネージャから受信する統括マネージャにより、処理ノードの制御を行う計算機監視システムのための監視マネージャであって、
 処理ノードから負荷情報を受信する受信部と、
 前記負荷情報が閾値よりも大きい場合に前記統括マネージャに対して前記負荷情報を送信しない送信部とを備えたことを特徴とする監視マネージャ。
(2)処理ノードに故障が発生した場合に故障を検知するノード故障検知手段と、
 問い合わせに応じて負荷情報が閾値よりも小さいノード情報を送信するノード情報保存手段とを備えたことを特徴とする(1)記載の監視マネージャ。
(3)前記ノード情報保存手段において、
 取り扱う負荷情報にノードを識別するための識別子と、
 処理ノード制御手段を識別する識別子と、
 負荷情報とを含むことを特徴とする(2)記載の監視マネージャ。
(4)前記ノード情報保存手段において、
 取り扱う負荷情報にノードごとまたはプログラムごとのフェイルオーバーが可能かどうかを表わす識別子を備えたことを特徴とする(3)記載の監視マネージャ。
(5)下位の監視マネージャから通知された処理ノードの負荷情報を内部に保存し、
 指定された条件を満たす処理ノードの存在の問い合わせを受けたときに対応する情報を返却するノード情報保存手段、を備えたことを特徴とする統括マネージャ。
 なお、上記の構成は、(1)~(4)と(5)を組み合わせたシステム、各方法およびプログラムとして、用いることができる。
 上記の構成によれば、分散計算機環境における状態監視およびフェイルオーバーを行うシステムおよび方法が提供される。上記の発明は分散計算機システムに関し、特に大量の計算機を利用する場合における計算機の監視方法に関するものを提供することができる。
 かかる構成により、複数の監視マネージャの上位に統括マネージャを配置して、監視マネージャが扱う各処理ノードの中から、負荷が閾値よりも小さい処理ノードの負荷情報のみを監視マネージャにも保存することができる。したがって、定常的なネットワーク負荷を低減することができる。また、実際に監視対象ノードに故障が発生して、フェイルオーバーを行う必要が発生した場合にも、高々2回の問い合わせのみでフェイルオーバーで利用する処理ノードを特定することができる。よってフェイルオーバーに必要な処理時間も低減する。
 本実施の形態では監視マネージャや統括マネージャの各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
 また、上記形態ではネットワークとして現状のインターネットを例示したが、これが次世代のインターネットであるNGN(Next Generation Network)でもよい。
 なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。
 以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年2月13日に出願された日本出願特願2008-032041を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (13)

  1.  データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
     前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
     前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有する監視マネージャ。
  2.  請求項1に記載の監視マネージャにおいて、
     前記ノードの故障を検知するノード故障検知手段を有し、
     前記判断手段は、前記ノード故障検知手段が一のノードの故障を検知した場合、保持された前記負荷情報と、前記閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断し、
     前記情報通信手段は、前記判断手段にて保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記統括マネージャに前記閾値を満たす他のノードの前記負荷情報を問い合わせる監視マネージャ。
  3.  請求項1に記載の監視マネージャにおいて、
     前記ノードの故障を検知するノード故障検知手段と、
     前記ノードにおける前記データ処理の実行を制御し、制御識別子で識別されるノード制御手段とを有し、
     前記判断手段は、前記ノード故障検知手段が一のノードの故障を検知した場合、保持された前記負荷情報と、記憶された前記閾値とを比較し、保持されたいずれかの負荷情報が閾値未満であるか否かを判断し、
     前記ノード制御手段は、前記判断手段にて保持されたいずれかの負荷情報が閾値未満であると判断された場合、閾値未満と判断された他のノードに、故障を検知した前記一のノードで実行されているデータ処理を実行させる監視マネージャ。
  4.  請求項1乃至3のいずれか1項に記載の監視マネージャにおいて、
     前記ノードの属性を示す属性情報と、前記ノードの識別子とを対応づけて記憶するノード情報保持手段を有し、
     前記情報通信手段は、受け付けた前記負荷情報と、対応する前記属性情報とを対応づけて送信する監視マネージャ。
  5.  請求項3に記載の監視マネージャにおいて、
     前記情報通信手段は、受け付けた前記負荷情報と、該負荷情報に対応する前記ノードを制御する前記ノード制御手段の前記制御識別子とを関連づけて送信する監視マネージャ。
  6.  ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手段と、
     前記受信手段にて受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手段と、
     前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手段と、
     前記要求受付手段にて受け付けた要求に応じて、前記受信情報記憶手段に記憶された前記負荷情報と、前記所定の閾値とを比較する検索手段と、
     前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有する統括マネージャ。
  7.  ノードを監視している監視マネージャと、統括マネージャとをネットワークを介して接続しているノード監視システムであって、
     前記監視マネージャは、
     データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
     前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
     前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有し、
     前記統括マネージャは、
     前記負荷情報を前記ノードごとに受信する受信手段と、
     前記受信手段にて受信した前記負荷情報を、前記ノードを識別するノード識別子と対応づけて記憶する受信情報記憶手段とを有するノード監視システム。
  8.  請求項7に記載のノード監視システムにおいて、
     前記監視マネージャは、第一の監視マネージャと、第二の監視マネージャとからなり、
     前記第一の監視マネージャは、
     前記情報通信手段が、前記負荷情報を対応する前記ノード識別子とともに前記統括マネージャに送信し、
     前記第二の監視マネージャは、
     前記ノードの故障を検知するノード故障検知手段を有し、
     前記判断手段が、前記ノード故障検知手段が監視するノードの故障を検知した場合、保持された前記負荷情報と、所定の閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断し、
     前記情報通信手段が、前記判断手段にて保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を送信し、
     前記統括マネージャは、
     前記受信情報記憶手段が、前記第一の監視マネージャから受け付けた前記負荷情報をノード識別子と対応づけて保持し、
     前記要求に応じて、前記受信情報記憶手段に保持された前記負荷情報と、前記所定の閾値とを比較して、前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有するノード監視システム。
  9.  請求項8に記載のノード監視システムにおいて、
     前記第二の監視マネージャは、
     前記受付手段が、前記統括マネージャから前記ノード識別子を受け付け、
     前記ノード故障検知手段が故障を検出した前記ノードのデータ処理を、前記受付手段にて受け付けた前記ノード識別子に対応する前記ノードに実行させるノード制御手段を有するノード監視システム。
  10.  データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付けるステップと、
     受け付けた前記負荷情報が所定の閾値以上か否かを判断するステップと、
     受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記閾値未満であると判断された前記負荷情報と、該負荷情報とともに受け付けた前記ノード識別子とを関連づけて送信するステップとを含む監視マネージャのデータ処理方法。
  11.  監視マネージャのためのコンピュータプログラムであって、
     コンピュータに、
     データ処理を実行するノードから前記データ処理の実行にかかるノードの負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付ける受付手順と、
     前記ノードから受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手順と、
     受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記負荷情報を前記ノード識別子と対応づけて送信する情報通信手順とを実行させるためのコンピュータプログラム。
  12.  ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信するステップと、
     受信した前記負荷情報と前記ノード識別子とを記憶するステップと、
     前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付けるステップと、
     前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較するステップと、
     前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信するステップとを含む統括マネージャのデータ処理方法。
  13.  統括マネージャのためのコンピュータプログラムであって、
     コンピュータに、
     ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手順と、
     受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手順と、
     前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手順と、
     前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較する検索手順と、
     前記所定の閾値を満たす前記負荷情報があった場合、該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手順とを実行させるためのコンピュータプログラム。
PCT/JP2009/052074 2008-02-13 2009-02-06 監視マネージャ、統括マネージャおよびノード監視システム WO2009101908A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009553409A JP5343863B2 (ja) 2008-02-13 2009-02-06 監視マネージャ、統括マネージャおよびノード監視システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-032041 2008-02-13
JP2008032041 2008-02-13

Publications (1)

Publication Number Publication Date
WO2009101908A1 true WO2009101908A1 (ja) 2009-08-20

Family

ID=40956939

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/052074 WO2009101908A1 (ja) 2008-02-13 2009-02-06 監視マネージャ、統括マネージャおよびノード監視システム

Country Status (2)

Country Link
JP (1) JP5343863B2 (ja)
WO (1) WO2009101908A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076512A (ja) * 2009-10-01 2011-04-14 Hitachi Solutions Ltd ジョブ管理サーバーの統合管理システム
JP2011076483A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd データ管理装置およびデータ管理プログラム
JP2013206075A (ja) * 2012-03-28 2013-10-07 Nec Corp 配信システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH088909A (ja) * 1994-06-20 1996-01-12 Hitachi Ltd ネットワークシステムの状態診断・監視装置
JP2000298637A (ja) * 1999-04-15 2000-10-24 Nec Software Kyushu Ltd 負荷分散システム、負荷分散方法、および記録媒体
JP2005182702A (ja) * 2003-12-24 2005-07-07 Fujitsu Ltd Ipネットワークにおけるアクセス制御方式

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110318A (ja) * 2002-09-18 2004-04-08 Nec Corp 階層的分散処理システムおよび階層的分散処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH088909A (ja) * 1994-06-20 1996-01-12 Hitachi Ltd ネットワークシステムの状態診断・監視装置
JP2000298637A (ja) * 1999-04-15 2000-10-24 Nec Software Kyushu Ltd 負荷分散システム、負荷分散方法、および記録媒体
JP2005182702A (ja) * 2003-12-24 2005-07-07 Fujitsu Ltd Ipネットワークにおけるアクセス制御方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076483A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd データ管理装置およびデータ管理プログラム
JP2011076512A (ja) * 2009-10-01 2011-04-14 Hitachi Solutions Ltd ジョブ管理サーバーの統合管理システム
JP2013206075A (ja) * 2012-03-28 2013-10-07 Nec Corp 配信システム

Also Published As

Publication number Publication date
JPWO2009101908A1 (ja) 2011-06-09
JP5343863B2 (ja) 2013-11-13

Similar Documents

Publication Publication Date Title
US7475127B2 (en) Real composite objects for providing high availability of resources on networked systems
US7418627B2 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
EP2883329B1 (en) Computer information system and dynamic disaster recovery method therefor
US8055933B2 (en) Dynamic updating of failover policies for increased application availability
US7895468B2 (en) Autonomous takeover destination changing method in a failover
US7676610B2 (en) Device and method for optimization of target host device process handling according to the status and the priority of the target host device process
US20080046142A1 (en) Layered architecture supports distributed failover for applications
US8479038B1 (en) Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
JP5343863B2 (ja) 監視マネージャ、統括マネージャおよびノード監視システム
US20050234919A1 (en) Cluster system and an error recovery method thereof
JP2008060971A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
US8036105B2 (en) Monitoring a problem condition in a communications system
US7607051B2 (en) Device and method for program correction by kernel-level hardware monitoring and correlating hardware trouble to a user program correction
US8352960B2 (en) Limiting receipt of unsolicited events by a logical partition in a data storage system
JP5594668B2 (ja) ノード、クラスタリングシステム、クラスタリングシステムの制御方法、およびプログラム
JP2010146215A (ja) クラスタストレージ装置、クラスタストレージシステム、及びその制御方法
JP2005031892A (ja) ジョブ実行システム及び実行制御方法
JP4703681B2 (ja) クラスタシステム及び引き継ぎ先ノード決定方法
CN112564927B (zh) 自适应的资源多域动态组织方法
JP2008009852A (ja) 負荷分散制御システム、方法、およびサーバ装置
US20090049456A1 (en) Limiting receipt of unsolicited events by a logical partition in a data storage system
JP2007156590A (ja) 障害回復方法、情報管理サーバおよび計算機システム
JP2009187269A (ja) データベースシステム及びデータベース接続制御方法
JPH11242608A (ja) 二重化制御システム及び記録媒体
JP2000010823A (ja) 計算機及び計算機システム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09711357

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009553409

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09711357

Country of ref document: EP

Kind code of ref document: A1