WO2012026041A1 - 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 - Google Patents

並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 Download PDF

Info

Publication number
WO2012026041A1
WO2012026041A1 PCT/JP2010/064639 JP2010064639W WO2012026041A1 WO 2012026041 A1 WO2012026041 A1 WO 2012026041A1 JP 2010064639 W JP2010064639 W JP 2010064639W WO 2012026041 A1 WO2012026041 A1 WO 2012026041A1
Authority
WO
WIPO (PCT)
Prior art keywords
job information
calculation
node
identification number
holding
Prior art date
Application number
PCT/JP2010/064639
Other languages
English (en)
French (fr)
Inventor
竹下 弘人
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to EP10856443.6A priority Critical patent/EP2610752B1/en
Priority to PCT/JP2010/064639 priority patent/WO2012026041A1/ja
Priority to JP2012530498A priority patent/JP5464276B2/ja
Publication of WO2012026041A1 publication Critical patent/WO2012026041A1/ja
Priority to US13/778,494 priority patent/US9336044B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3404Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Definitions

  • the present invention relates to a parallel computer, a job information acquisition program for a parallel computer, a job information acquisition method for a parallel computer, a calculation device, and a calculation management device.
  • a parallel computer for example, connects a large number of computers (hereinafter simply referred to as calculation nodes) via a network, distributes the calculation jobs to the individual calculation nodes, and executes the calculation jobs in parallel. It can be processed at high speed. Therefore, the demand for this parallel computer is increasing rapidly.
  • a parallel computer has a node (hereinafter simply referred to as a management node) that manages a group of computing nodes composed of a plurality of computing nodes.
  • a management node that manages a group of computing nodes composed of a plurality of computing nodes.
  • information such as the CPU used by each calculation node currently used by the calculation job, the amount of each resource such as a memory and a file, and the number of instructions executed by the calculation job (hereinafter simply referred to as job information). ) Is required on the management node side.
  • FIG. 14 is an explanatory diagram showing a snapshot acquisition method for a parallel computer.
  • the current time is managed by the management node 112 that manages the plurality of calculation nodes 111, and when the current time reaches a predetermined time, the calculation nodes 111 are requested to acquire job information (steps). S211).
  • Each calculation node 111 acquires job information that it is in charge of in response to a job information acquisition request (step S212).
  • each calculation node 111 transfers this job information to the management node 112 (step S213).
  • the management node 112 of the parallel computer 110 shown in FIG. 14 can acquire job information at the same time (timing) of each calculation node 111, that is, a snapshot.
  • FIG. 15 is an explanatory diagram showing another snapshot acquisition method for the parallel computer 120.
  • each calculation node 121 manages the current time.
  • each computation node 121 acquires job information that it is in charge of (step S221).
  • the calculation node 121 transfers the job information to the management node 122 (step S222).
  • the management node 122 of the parallel computer 120 shown in FIG. 15 can acquire job information of each calculation node 121 at the same time (timing), that is, a snapshot.
  • job information is asynchronously sent from each calculation node 121, so that the job information transmitted from each calculation node 121 at the same time (same timing) is acquired as the next job information. Not all of them reach the management node 122 by the time. As a result, it can be considered that job information at other times is sent together. That is, since the parallel computer 120 cannot grasp the job information of each computation node 121 at the same timing, an accurate snapshot cannot be acquired.
  • One aspect is to provide a parallel computer or the like that can acquire job information of the same timing related to a job being executed on each computation node of the parallel computer.
  • the parallel computer disclosed in the present application includes a plurality of calculation nodes that distribute and execute calculation jobs in parallel, and a management node that manages the plurality of calculation nodes.
  • the acquisition unit acquires job information related to a calculation job handled by the calculation node itself according to a cycle timing common to the calculation nodes.
  • the holding control unit on the calculation node side associates with the identification number for identifying the cycle timing at which the acquisition unit has acquired the job information, holds the job information in the holding unit on the calculation node side, and from the management node When the deletion request is received, all the job information held in the holding unit is deleted.
  • the information transmission unit receives a job information transmission request related to the specified identification number from the management node, if the job information related to the specified identification number is in the holding unit, the information transmission unit displays the job information related to the specified identification number. Sent to the management node.
  • the information transmission unit stores the job information related to the specified identification number in the management node Send to. Further, when the job control information is received from each computation node in response to the transmission request, the management node side holding control unit holds the received job information in the management node side holding unit. In addition, when the holding control unit on the management node side detects job information related to the calculation node having the same identification number in the holding unit, the holding information unit holds the job information having the same identification number as a snapshot.
  • the holding control unit on the management node side deletes job information other than the job information with the same identification number being held in the holding unit on the management node side To do.
  • the deletion request unit transmits the deletion request to each calculation node.
  • the holding unit on the calculation node side includes a holding area that can hold job information for a predetermined period, and the holding unit on the management node side includes job information for the predetermined period for each calculation node. A holding area is provided to enable holding.
  • FIG. 1 is a block diagram illustrating the parallel computer according to the first embodiment.
  • FIG. 2 is a block diagram illustrating the parallel computer according to the second embodiment.
  • FIG. 3 is an explanatory diagram of a parallel computer.
  • FIG. 4 is an explanatory diagram of a job information acquisition cycle (time belt).
  • FIG. 5 is an explanatory diagram showing the reason why the calculation side holding unit is divided into two generations.
  • FIG. 6 is an explanatory diagram showing an example of operation transition related to snapshot acquisition of a parallel computer.
  • FIG. 7 is an explanatory diagram showing an example of operation transition related to snapshot acquisition of a parallel computer.
  • FIG. 8 is an explanatory diagram showing an example of operation transition related to snapshot acquisition of a parallel computer.
  • FIG. 1 is a block diagram illustrating the parallel computer according to the first embodiment.
  • FIG. 2 is a block diagram illustrating the parallel computer according to the second embodiment.
  • FIG. 3 is an explanatory diagram of a parallel computer.
  • FIG. 4 is an explan
  • FIG. 9 is a flowchart showing the processing operation in the representative node related to the job acquisition process on the representative node side.
  • FIG. 10 is a flowchart showing the processing operation inside the computation node related to the computation node side job acquisition processing.
  • FIG. 11 is a flowchart showing processing operations inside the management node related to the management node side snapshot acquisition processing.
  • FIG. 12 is an explanatory diagram of the parallel computer according to the third embodiment.
  • FIG. 13 is an explanatory diagram of a computer that executes a job information acquisition program of a parallel computer.
  • FIG. 14 is an explanatory diagram showing a snapshot acquisition method for a parallel computer.
  • FIG. 15 is an explanatory diagram showing another snapshot acquisition method for a parallel computer.
  • FIG. 1 is a block diagram illustrating a parallel computer according to the first embodiment.
  • a parallel computer 1A shown in FIG. 1 includes a plurality of calculation nodes 50 that distribute and execute calculation jobs in parallel, and a management node 60 that manages the plurality of calculation nodes 50.
  • the calculation node 50 includes an acquisition unit 51, a holding unit 52, a holding control unit 53, and an information transmission unit 54.
  • the acquisition unit 51 acquires job information related to a calculation job handled by the calculation node 50 according to the cycle timing common to the calculation nodes.
  • the holding control unit 53 holds the job information in the holding unit 52 on the calculation node 50 side in association with the identification number for identifying the cycle timing at which the acquiring unit 51 has acquired the job information. Further, when receiving a deletion request from the management node 60, the holding control unit 53 deletes all job information held in the holding unit 52.
  • the holding unit 52 includes a holding area that holds its own job information for a predetermined plurality of cycles, for example, two cycles (generations).
  • the information transmission unit 54 receives a job information transmission request related to the specified identification number from the management node 60, if the job information related to the specified identification number is in the holding unit 52, the information transmission unit 54 The job information related to the number is transmitted to the management node 60.
  • the information transmission unit 54 performs job information relating to the identification number. Is transmitted to the management node 60.
  • the identification number immediately before the identification number corresponds to, for example, an identification number one generation before.
  • the management node 60 includes a holding unit 61, a holding control unit 62, and an erasing request unit 63.
  • the holding unit 61 includes a holding area that can hold job information for a predetermined plurality of cycles for each computation node 50.
  • the holding control unit 62 receives job information from each computation node 50 in response to the transmission request, the holding control unit 62 holds the received job information in the holding unit 61 on the management node 60 side. Further, when the holding control unit 62 detects job information related to all the calculation nodes 50 having the same identification number in the holding unit 61, the holding control unit 62 holds the job information having the same identification number as a snapshot.
  • the holding control unit 62 When holding the job information with the same identification number as a snapshot, the holding control unit 62 deletes job information other than the job information with the same identification number being held in the holding unit 61 on the management node 60 side.
  • the deletion request unit 63 transmits an deletion request to each calculation node 50.
  • the calculation node 50 acquires job information according to the cycle timing common to the calculation nodes, and associates the job information with the identification number for identifying the cycle timing at which the job information is acquired. It is held in the holding unit 52. Further, in the first embodiment, when the management node 60 receives job information from each calculation node 50 in response to the transmission request, the management node 60 holds the received job information in the holding unit 61 on the management node 60 side. In the first embodiment, when the calculation node 50 detects job information related to the calculation node with the same identification number in the holding unit 61, the job information with the same identification number is held as a snapshot.
  • the holding unit 52 on the calculation node 50 side includes a holding area that can hold job information for a predetermined plurality of cycles
  • the holding unit 61 on the management node 60 side has a predetermined plurality of cycles for each calculation node 50. It has a holding area that can hold job information.
  • the job information deletion timing due to the transmission delay of the clear request from the management node 60 differs for each calculation node 50. Therefore, it is possible to avoid a situation in which job information of each calculation node 50 cannot be collected on the management node 60 side, and to guarantee an accurate snapshot of the calculation job being executed on the parallel computer 1A.
  • FIG. 2 is a block diagram showing the parallel computer of the second embodiment
  • FIG. 3 is an explanatory diagram of the parallel computer.
  • a parallel computer 1 shown in FIG. 2 has a plurality of calculation nodes 3 connected to a network 2 and a management node 4 that manages the plurality of calculation nodes 3, and distributes calculation jobs to the individual calculation nodes 3. In parallel.
  • four computation nodes 3 (3A to 3D) are used, but the number is not limited to this.
  • the calculation node 3 corresponds to, for example, a computer and executes a calculation job.
  • the calculation node 3 includes a calculation processing unit 11, a job information processing control unit 12, a calculation side communication unit 13, and a calculation side holding unit 14.
  • the calculation processing unit 11 executes a calculation job that the calculation processing unit 11 is in charge of among the distributed calculation jobs.
  • the calculation side communication unit 13 communicates with the management node 4 via the network 2.
  • the calculation side holding unit 14 corresponds to, for example, a buffer, and includes a first holding area 14A and a second holding area 14B that hold job information for two generations, that is, two time belts.
  • the job information processing control unit 12 includes a timing detection unit 21, an acquisition processing unit 22, a calculation side holding control unit 23, and an information transmission unit 24.
  • the timing detection unit 21 detects timing for acquiring job information for which the timing detection unit 21 is responsible.
  • the timing detection unit 21 starts a timer operation in response to a job start command common to the calculation nodes 3.
  • FIG. 4 is an explanatory diagram of a job information acquisition cycle (time belt).
  • the timing detection unit 21 detects the job information acquisition timing using the cycle timing common to the calculation nodes, that is, the time belt of FIG.
  • the acquisition processing unit 22 acquires job information for which the acquisition processing unit 22 is responsible.
  • the calculation-side holding control unit 23 holds and controls the calculation-side holding unit 14 and holds the job information acquired by the acquisition processing unit 22 in the calculation-side holding unit 14.
  • the job information includes job information content, information presence / absence, node information, time belt number, information acquisition date and time, and the like.
  • the job information content includes a job ID for identifying the job, a usage amount of each resource such as a CPU, a memory, and a file used in the job that the user is in charge of, a number of instructions executed by the job, and the like.
  • the presence / absence of information is information indicating the presence / absence of information on job information contents. When the presence / absence of information is “present”, the job information content corresponds to certain job information.
  • the job information corresponds to error information described later.
  • the node information corresponds to a node ID that identifies the calculation node 3 that is the source of the job information.
  • the time belt number corresponds to a number for identifying a cycle timing common to the calculation nodes 3 that acquired the job information.
  • the information acquisition date and time corresponds to the date and time when the job information is acquired.
  • the calculation-side holding control unit 23 determines whether or not there is an empty holding area in the calculation-side holding unit 14 when acquiring the job information that it is in charge of according to the job information acquisition timing.
  • the calculation side holding control unit 23 holds job information in the calculation side holding unit 14 when there is a vacancy. Further, the calculation side holding control unit 23 prohibits holding of job information because there is no space.
  • the calculation side holding control unit 23 determines whether or not there is job information of the specified time belt number in the calculation side holding unit 14 in response to a transmission request of the specified time belt number described later from the management node 4. When there is job information of the specified time belt number in the calculation side holding unit 14, the calculation side holding control unit 23 transmits the job information of the specified time belt number to the management node 4 via the calculation side communication unit 13. In addition, when there is no job information of the specified time belt number in the calculation side holding unit 14, the calculation side holding control unit 23 has job information one generation before the specified time belt number in the calculation side holding unit 14. Determine whether or not.
  • the calculation side holding control unit 23 transmits the job information of the previous generation to the management node 4 via the calculation side communication unit 13. Further, the calculation side holding control unit 23 transmits error information to the management node 4 via the calculation side communication unit 13 when there is no job information one generation before the specified time belt number. Further, the calculation side holding control unit 23 deletes all job information held in the calculation side holding unit 14 in response to a clear request described later from the management node 4.
  • one calculation node 3A is a representative node.
  • the representative node has substantially the same internal configuration as that of the calculation node 3, but has a function described below.
  • the job information processing control unit 12 of the representative node acquires job information according to the cycle timing common to the calculation nodes 3 and holds the job information in the calculation side holding unit 14. Further, when the job information processing control unit 12 holds the job information in the calculation side holding unit 14, the job information processing control unit 12 notifies the management node 4 of the time belt number of the job information as a transmission request target via the calculation side communication unit 13. Is provided.
  • the management node 4 corresponds to, for example, a computer, and is connected to each calculation node 3 via the network 2 to manage each calculation node 3.
  • the management node 4 includes a management side processing unit 31, a snapshot processing control unit 32, a management side communication unit 33, and a management side holding unit 34.
  • the management processing unit 31 manages the distributed computation nodes 3.
  • the management communication unit 33 communicates with each computation node 3 via the network 2.
  • the management-side holding unit 34 corresponds to, for example, a buffer or the like, and has a first holding area 34A, a second holding area 34B, and a third holding area for holding job information for three generations, that is, three time belts for each computation node 3. It has area 34C.
  • the first holding area 34A holds job information related to a snapshot
  • the second holding area 34B and the third holding area 34C are used to temporarily hold job information so as to acquire a snapshot. To do.
  • the first holding area 34A is used to temporarily hold job information in the same manner as the second holding area 34B and the third holding area 34B in a state where the job information of the snapshot is not held.
  • the snapshot processing control unit 32 includes a transmission request unit 41, a reception information identification unit 42, a holding area monitoring unit 43, a clear request unit 44, and a management side holding control unit 45.
  • the transmission request unit 41 receives the time belt number to be transmitted from the representative node
  • the transmission request unit 41 requests each calculation node 3 to transmit job information related to the time belt number via the management-side communication unit 33.
  • the reception information identification unit 42 identifies the reception information of each calculation node 3 received in response to the transmission request for the designated time belt number to each calculation node 3.
  • the received information is, for example, job information of a specified time belt number, job information of a time belt number one generation before the specified time belt number, error information, or the like received from the calculation node 3.
  • the holding area monitoring unit 43 monitors the job information of each calculation node 3 held in the first holding area 34A, the second holding area 34B, and the third holding area 34C. Furthermore, the holding area monitoring unit 43 determines whether or not there is a time belt number corresponding to the timing at which the job information of all the calculation nodes 3 can be newly held based on the monitoring result of the job information. If there is a new time belt number that can hold the job information of all the calculation nodes 3, the management side holding control unit 45 determines that a new snapshot of the same time belt number has been acquired, and The job information of all the computation nodes 3 is updated and registered in the first holding area 34A.
  • the management-side holding control unit 45 deletes all the job information of each calculation node 3 being held in the second holding area 34B and the third holding area 34C. Further, when a new snapshot is acquired, the clear request unit 44 requests the calculation side holding unit 14 of all the calculation nodes 3 to clear all job information being held via the management side communication unit 33.
  • the management node 4 detects a snapshot presentation request from a user terminal
  • the job information of all the calculation nodes 3 having the same time belt number held in the first holding area 34A in the management side holding unit 34 is displayed. It will be presented to the user terminal as a snapshot. That is, the user can grasp the job information of each calculation node 3 regarding the currently executed calculation job.
  • FIG. 5 is an explanatory diagram showing the reason why the calculation-side holding unit 14 is divided into two generations.
  • the calculation node 3B when the clear request arrives from the management node 4 is the timing when the job information of the time belt number T2 is being acquired, up to the time belt number T2 held in the calculation side holding unit 14 All job information is deleted. As a result, in the calculation node 3B, the next job information to be acquired is the job information of the time belt number T3.
  • the calculation node 3C when the clear request arrives from the management node 4 is the timing when the job information of the time belt number T3 is being acquired, the job information up to the time belt number T3 held in the calculation side holding unit 14 Are all erased. As a result, in the calculation node 3B, the next job information to be acquired is the job information of the time belt number T4.
  • the calculation side holding unit 14 of each calculation node 3 uses the first holding area 14A and the second holding area 14B as holding areas for holding job information for two time belts in order to absorb the deviation for one time belt. Got ready.
  • the management side holding unit 34 is made an area for holding job information for three generations, that is, three time belts. For example, when job information for all calculation nodes 3 of the same time belt number T1 is held, that is, when a snapshot of the time belt number T1 is acquired, the job information of the time belt number is held in the first holding area 34A. The second holding area 34B and the third holding area 34C are used until the job information of all the calculation nodes 3 of the next time belt number is held. However, as described above, when the shift between the calculation nodes 3 with respect to the clear request is for one generation, the job information sent from each calculation node 3 to the management node 4 is also shifted by one generation. Accordingly, the management-side holding unit 34 also uses the first holding area 34A to hold snapshot job information, and holds job information for two time belts in order to absorb the deviation for one time belt. A second holding area 34B and a third holding area 34C were prepared as areas.
  • 6 to 8 are explanatory diagrams showing an example of operation transitions related to snapshot acquisition of the parallel computer 1A.
  • four calculation nodes 3 (3A to 3D) are used, and the calculation node 3A is a representative node.
  • each of the calculation nodes 3A, 3C, and 3D acquires job information according to the timing of the time belt number T1 from the job start command, and holds the job information in the calculation side holding unit 14.
  • the job information of the time belt number T1 is held in the first holding area 14A of the calculation nodes 3A, 3C, 3D.
  • the calculation node 3B is in a state in which the reception of the job start command is delayed for some reason and the job information of the time belt number T1 cannot be acquired, and no information is held in the first holding area 14A.
  • the calculation node 3A Since the calculation node 3A is a representative node, when the job information of the time belt number T1 is held in the calculation side holding unit 14, the time belt number T1 is notified to the management node 4 (step S11). When receiving the time belt number T1 of the calculation node 3A, the management node 4 requests all the calculation nodes 3 to transmit the job information of the time belt number T1 (step S12).
  • each calculation node 3 When each calculation node 3 receives the job information transmission request of the time belt number T1, it determines whether or not the job information of the time belt number T1 is in the calculation side holding unit 14.
  • the calculation nodes 3A, 3C and 3D in which the job information of the time belt number T1 is in the calculation side holding unit 14 transmit the job information of the time belt number T1 to the management node 4 (step S13).
  • the calculation node 3B that does not have the job information of the time belt number T1 in the calculation-side holding unit 14 and also has no job information of one generation before transmits error information to the management node 4 (step S13A).
  • the management node 4 When the management node 4 receives the job information of the time belt number T1 of the calculation nodes 3A, 3C and 3D, the management node 4 holds the job information of the time belt number T1 in the first holding area 34A corresponding to the calculation nodes 3A, 3C and 3D. Further, when the error information of the calculation node 3B is received, the management node 4 does not hold the information in the first holding area 34A corresponding to the calculation node 3B.
  • each of the calculation nodes 3A, 3C, and 3D acquires the job information of the time belt number T2 according to the timing of the time belt number T2, and holds the job information in the second holding area 14B of the calculation side holding unit 14. It is in the state.
  • the calculation node 3B acquires job information of the time belt number T1 according to the timing of the time belt number T1, and holds the job information in the first holding area 14A of the calculation side holding unit 14.
  • the calculation node 3A is a representative node
  • the time belt number T2 is notified to the management node 4 (step S14).
  • the management node 4 requests all the calculation nodes 3 to transmit the job information of the time belt number T2 (step S15).
  • each calculation node 3 determines whether or not the job information of the time belt number T2 is in the calculation side holding unit 14.
  • Each of the calculation nodes 3A, 3C, and 3D having the job information of the time belt number T2 in the calculation side holding unit 14 transmits the job information of the time belt number T2 to the management node 4 (step S16). Further, the job information of the time belt number T2 is not in the calculation side holding unit 14, and the calculation node 3B in which the job information of the previous generation, that is, the time belt number T1 is in the calculation side holding unit 14, is the time belt number T1. The job information is notified to the management node 4 (step S16A).
  • the management node 4 When the management node 4 receives the job information of the time belt number T2 of the calculation nodes 3A, 3C and 3D, the management node 4 holds the job information of the time belt number T2 in the second holding area 34B corresponding to the calculation nodes 3A, 3C and 3D. Further, upon receiving the job information of the time belt number T1 of the calculation node 3B, the management node 4 holds the job information of the time belt number T1 in the first holding area 34A corresponding to the calculation node 3B. As a result, the job information of all the calculation nodes 3 with the time belt number T1 is held in the first holding area 34A, that is, the snapshot with the time belt number T1 is acquired.
  • the management node 4 requests all the calculation nodes 3 to clear all the job information held in the calculation side holding unit 14 of all the calculation nodes 3 (Ste S17). Further, the management node 4 deletes all the job information held in the second holding area 34B and the third holding area 34C while holding the job information of the time belt number T1 in the first holding area 34A (step S18). .
  • each calculation node 3 receives the clear request from the management node 4, it erases all the job information held in the first holding area 14A and the second holding area 14B (step S19).
  • each of the calculation nodes 3A, 3C, and 3D acquires job information according to the timing of the time belt number T4, and holds the job information of the time belt number T4 in the first holding area 14A.
  • the calculation node 3B acquires job information according to the timing of the time belt number T3 and holds the job information in the first holding area 14A.
  • the calculation node 3A is a representative node
  • the time belt number T4 is notified to the management node 4 (step S20).
  • the management node 4 requests all the calculation nodes 3 to transmit the job information of the time belt number T4 (step S21).
  • each calculation node 3 determines whether or not the job information of the time belt number T4 is in the calculation side holding unit.
  • the calculation nodes 3A, 3C, and 3D having the job information of the time belt number T4 in the calculation side holding unit 14 notify the job information of the time belt number T4 to the management node 4 (step S22).
  • the management node 4 When the management node 4 receives the job information of the time belt number T4 of the calculation nodes 3A, 3C and 3D, the management node 4 holds the job information of the time belt number T4 in the second holding area 34B corresponding to the calculation nodes 3A, 3C and 3D. Further, upon receiving the job information of the time belt number T3 of the calculation node 3B, the management node 4 holds the job information of the time belt T3 in the second holding area 34B corresponding to the calculation node 3B. In the first holding area 34A, the job information of all the calculation nodes 3 with the time belt number T1 is held as a snapshot.
  • each of the calculation nodes 3A, 3C, and 3D acquires job information according to the timing of the time belt number T5, and holds the job information of the time belt number T5 in the second holding area 14B.
  • the calculation node 3B acquires job information according to the timing of the time belt number T4, and holds the job information of the time belt number T4 in the second holding area 14B.
  • the calculation node 3A is a representative node
  • the time belt number T5 is notified to the management node 4 (step S23).
  • the management node 4 requests all the calculation nodes 3 to transmit the job information of the time belt number T5 (step S24).
  • each calculation node 3 receives the transmission request for the job information of the time belt number T5, the calculation node 3 determines whether or not the job information of the time belt number T5 is in the calculation side holding unit 14.
  • the calculation nodes 3A, 3C, and 3D when the job information of the time belt number T5 is in the calculation side holding unit 14 transmits the job information of the time belt number T5 to the management node 4 (step S25).
  • the job information of number T4 is notified to the management node 4 (step S25A).
  • the management node 4 When the management node 4 receives the job information of the time belt number T5 of the calculation nodes 3A, 3C and 3D, the management node 4 holds the job information of the time belt number T5 in the third holding area 34C corresponding to the calculation nodes 3A, 3C and 3D. Further, upon receiving the job information of the time belt number T4 of the calculation node 3B, the management node 4 holds the job information of the time belt T4 in the third holding area 34C corresponding to the calculation node 3B.
  • the time belt number is calculated from the job information of the time belt number T4 corresponding to the calculation nodes 3A, 3C and 3D in the second holding area 34B and the job information of the time belt number T4 corresponding to the calculation node 3B in the third holding area 34C.
  • the job information of all the computation nodes 3 at T4 is held. That is, the snapshot of the time belt number T4 is acquired.
  • the management node 4 requests all the calculation nodes 3 to clear all the job information held in the calculation side holding unit 14 of all the calculation nodes 3 ( Step S26).
  • the management node 4 overwrites and updates the job information of the time belt number T1 with the job information of the time belt number T4 in the first holding area 34A, and all the jobs being held in the second holding area 34B and the third holding area 34C. Information is erased (step S27).
  • each calculation node 3 receives the clear request from the management node 4 and erases all job information held in the first holding area 14A and the second holding area 14B (step S28). Therefore, the latest snapshot can be held in the first holding area 34A of the management node 4 by repeating such a series of processing operations. As a result, even if the management node 4 detects a snapshot presentation request from the user terminal, the management node 4 can present it as the latest snapshot being held in the first holding area 34A.
  • FIG. 9 is a flowchart showing the processing operation of the computation node 3A related to the representative node side job acquisition processing.
  • the timing detection unit 21 in the job information processing control unit 12 of the computation node 3A determines whether or not the job information acquisition timing has been detected (step S51).
  • the acquisition processing unit 22 in the job information processing control unit 12 detects the acquisition timing of the job information (Yes at Step S51)
  • the acquisition processing unit 22 executes the job information acquisition process (Step S52A), and can acquire the job information that it is in charge of. It is determined whether or not (step S52).
  • the calculation-side holding control unit 23 in the job information processing control unit 12 determines whether or not there is a vacancy in the calculation-side holding unit 14 when the job information that it is in charge of can be acquired (Yes in step S52) ( Step S53). If there is an empty space in the calculation side holding unit 14 (Yes at Step S53), the calculation side holding control unit 23 holds the job information of the time belt number in the calculation side holding unit 14 (Step S54).
  • Step S55 The calculation-side holding control unit 23 determines whether or not a job information transmission request specifying the time belt number to be transmitted is received from the management node 4 (step S56).
  • step S56 the calculation side holding control unit 23 transmits job information related to the time belt number of the transmission request held in the calculation side holding unit 14 to the management node 4.
  • the calculation side holding control unit 23 determines whether or not a clear request has been received from the management node 4 (step S58). When receiving the clear request (Yes at Step S58), the calculation-side holding control unit 23 deletes all the job information held in the calculation-side holding unit 14 (Step S59), and detects whether the job information acquisition timing has been detected. To determine whether or not, the process proceeds to step S51.
  • the calculation side holding control unit 23 determines whether or not the acquisition timing of the job information is detected (Step S60). If the calculation-side holding control unit 23 does not detect the acquisition timing of the job information (No at Step S60), the calculation-side holding control unit 23 proceeds to Step S58 to determine whether or not a clear request has been received. If the calculation-side holding control unit 23 detects the acquisition timing of the job information (Yes at Step S60), the calculation-side holding control unit 23 proceeds to Step S52A to execute the job information acquisition process.
  • Step S51 If the timing for acquiring job information is not detected (No at Step S51), the timing detector 21 proceeds to Step S51 to continuously monitor the timing for acquiring job information. If the job information cannot be acquired (No at Step S52), the acquisition processing unit 22 proceeds to Step S51 in order to detect the acquisition timing of the job information.
  • step S53 when there is no space in the calculation side holding unit 14 (No in step S53), the calculation side holding control unit 23 does not hold the job information of the time belt number in the calculation side holding unit 14 (step S61). The process proceeds to step S51 in order to detect information acquisition timing.
  • Step S56 is a process executed by the representative node, since the time belt number of the transmission request target that urges the transmission request from the management node 4 is notified by itself, the management node 4 always makes sure that it is normal. A transmission request is received.
  • the representative node side job acquisition process shown in FIG. 9 when the representative node acquires job information according to the acquisition timing common to the calculation nodes, it is determined whether or not there is a free space in the calculation side holding unit 14. If there is a vacancy in the calculation side holding unit 14, the job information is held in the calculation side holding unit 14 in association with the time belt number for identifying the acquisition timing. As a result, the representative node can hold up to two generations of job information in association with the time belt number.
  • the management node 4 when job information is held in the calculation side holding unit 14 in association with the time belt number, the management node 4 is notified of the time belt number as a transmission request target. As a result, the representative node can notify the management node 4 of the time belt number of the job information to be transmitted.
  • the representative node side job acquisition process in response to a transmission request for job information of a specified time belt number from the management node 4, the job information of the specified time belt number is transmitted to the management node 4.
  • the representative node can transmit the job information to be transmitted to the management node 4 side.
  • the representative node side job acquisition process when a clear request is received from the management node 4, all job information held in the calculation side holding unit 14 is deleted. As a result, the representative node can hold new job information in the calculation side holding unit 14 so that the latest snapshot is acquired on the management node 4 side.
  • FIG. 10 is a flowchart showing the processing operation of the computation node 3 related to the computation node side job acquisition processing.
  • the timing detection unit 21 in the job information processing control unit 12 of the calculation node 3 determines whether or not the job information acquisition timing has been detected (step S71). If the acquisition processing unit 22 detects the acquisition timing of the job information (Yes at Step S71), the acquisition processing unit 22 executes the job information acquisition process (Step S72), and determines whether or not the job information that it is in charge of can be acquired (Step S71). S73).
  • the calculation side holding control unit 23 determines whether or not there is a vacancy in the calculation side holding unit 14 (step S74) when the job information that it is in charge of can be acquired (Yes in step S73). If there is an empty space in the calculation side holding unit 14 (Yes at Step S74), the calculation side holding control unit 23 holds the job information of the time belt number in the calculation side holding unit 14 (Step S75).
  • the calculation side holding control unit 23 determines whether or not the job information transmission request specifying the time belt number to be transmitted is received from the management node 4 (step S76). When receiving the job information transmission request (Yes at Step S76), the calculation side holding control unit 23 determines whether or not the job information of the time belt number of the transmission request is in the calculation side holding unit 14 (Step S77). ).
  • the information transmission unit 24 transmits the job information of the time belt number of the transmission request to the management node 4 (Step S78). ).
  • the calculation side holding control unit 23 determines whether or not a clear request is received from the management node 4 (step S79).
  • the calculation-side holding control unit 23 deletes all the job information held in the calculation-side holding unit 14 (Step S80), and detects whether the job information acquisition timing has been detected. To determine whether or not, the process proceeds to step S71.
  • the calculation-side holding control unit 23 determines whether the job information acquisition timing is detected (Step S81). If the calculation-side holding control unit 23 does not detect the acquisition timing of the job information (No at Step S81), the calculation-side holding control unit 23 proceeds to Step S79 to determine whether or not a clear request has been received. If the calculation-side holding control unit 23 detects the acquisition timing of the job information (Yes at Step S81), the calculation-side holding control unit 23 proceeds to Step S72 to execute the job information acquisition process.
  • the timing detection unit 21 determines whether the acquisition timing of the job information is acquired (No at Step S71). If the timing detection unit 21 does not detect the acquisition timing of the job information (No at Step S71), the timing detection unit 21 proceeds to Step S71 in order to continuously monitor the acquisition timing of the job information. Further, when the job information cannot be acquired (No at Step S73), the acquisition processing unit 22 proceeds to Step S71 so as to detect the acquisition timing of the job information.
  • step S74 when there is no space in the calculation side holding unit 14 (No in step S74), the calculation side holding control unit 23 does not hold the job information of the time belt number in the calculation side holding unit 14 (step S82). In order to detect the acquisition timing of the job information, the process proceeds to step S71.
  • Step S76 the calculation-side holding control unit 23 proceeds to Step S79 to determine whether or not a clear request has been received.
  • the calculation side holding control unit 23 holds the job information of the previous generation of the time belt number by the calculation side. It is determined whether it is in the unit 14 (step S83). If the time belt number of the transmission request is T3, for example, the job information of the previous generation corresponds to the job information of the time belt number T2.
  • the calculation side holding control unit 23 transmits the job information of the previous generation to the management node 4 when the job information of the previous generation of the time belt number is in the calculation side holding unit 14 (Yes in step S83) (step S83).
  • step S84 The process proceeds to step S79 to determine whether or not a clear request has been received.
  • the calculation side holding control unit 23 transmits error information to the management node 4 (Step S85), and the job information In order to determine whether or not the information acquisition timing has been detected, the process proceeds to step S71.
  • the calculation node 3 acquires job information according to the acquisition timing common to the calculation nodes, it is determined whether or not there is a free space in the calculation side holding unit 14. If there is a vacancy in the calculation side holding unit 14, the job information is held in the calculation side holding unit 14 in association with the time belt number for identifying the acquisition timing. As a result, the calculation node 3 can hold job information for up to two generations in association with the time belt number.
  • the job acquisition processing on the calculation node side in response to a transmission request for job information of the specified time belt number from the management node 4, it is determined whether or not the job information of the specified time belt number is in the calculation side holding unit 14. To do.
  • the job information of the specified time belt number is in the calculation side holding unit 14, the job information of the time belt number is transmitted to the management node 4.
  • the calculation node 3 can transmit job information of a specified time belt number according to the transmission request to the management node 4.
  • the calculation node 3 can also transmit the job information of the previous generation to the management node 4 in order to absorb the deviation between the calculation nodes 3 due to the transmission delay of the clear request, for example.
  • calculation node side job acquisition process error information is transmitted to the management node 4 when the job information of the previous generation is not in the calculation side holding unit 14.
  • the calculation node 3 can notify the management node 4 that there is no job information that can be transmitted.
  • calculation node side job acquisition process when a clear request is received from the management node 4, all job information held in the calculation side holding unit 14 is deleted. As a result, the calculation node 3 can hold new job information in the calculation side holding unit 14 so that the latest snapshot is acquired on the management node 4 side.
  • FIG. 11 is a flowchart showing the processing operation of the management node 4 related to the management node side snapshot processing.
  • the snapshot processing control unit 32 in the management node 4 determines whether or not the time belt number to be transmitted is received from the representative calculation node 3A (step S91).
  • the transmission request unit 41 of the snapshot processing control unit 32 receives the time belt number to be transmitted (Yes in step S91), it requests all the calculation nodes 3 to transmit job information related to the time belt number to be transmitted. (Step S92).
  • the reception information identification unit 42 in the snapshot processing control unit 32 determines whether or not the information received from each calculation node 3 is error information (step S93). If the received information is not error information (No at Step S93), the received information identifying unit 42 determines whether the received information is job information (Step S94). When the received information is job information (Yes in step S94), the management side holding control unit 45 in the snapshot processing control unit 32 holds the job information in the management side holding unit 34 corresponding to the calculation node 3 ( Step S95). Then, the reception information identification unit 42 determines whether or not the information reception from all the computation nodes 3 requested to transmit has been completed (step S96).
  • the reception information identification unit 42 determines that there is unidentified reception information when information reception from all the computation nodes 3 has not been completed (No at Step S96), and determines whether the reception information is error information. Therefore, the process proceeds to step S93.
  • the holding area monitoring unit 43 in the snapshot processing control unit 32 newly adds all the calculation nodes 3 based on the holding contents of the management side holding unit 34. It is determined whether there is a time belt number for which job information can be held (step S97).
  • the holding area monitoring unit 43 determines that a new snapshot of the same time belt number has been newly acquired when there is a new time belt number that can hold the job information of all the calculation nodes 3 (Yes in step S97). Further, the transmission request unit 41 determines that a snapshot having the same time belt number has been newly acquired, and requests all the calculation nodes 3 to clear the job information held in the management side holding unit 34 (step S40). S98).
  • the management side holding control unit 45 updates and registers the job information of all the calculation nodes 3 having the same time belt number that can be newly held in the first holding area 34A as a new snapshot (step S99). Further, the management-side holding control unit 45 deletes all the job information of each calculation node 3 being held in the second holding area 34B and the third holding area 34C (step S100), and ends the processing operation of FIG.
  • the snapshot processing control unit 32 does not receive the time belt number to be transmitted (No at Step S91), the processing operation of FIG. Further, when the received information is error information (Yes at Step S93), the reception information identifying unit 42 identifies the reception information from the calculation node 3 and the identification of the reception information from all the calculation nodes 3 is completed. To determine whether or not, the process proceeds to step S96.
  • the holding area monitoring unit 43 ends the processing operation of FIG. 11 when there is no new time belt number that can hold the job information of all the calculation nodes 3 (No at Step S97).
  • the management node 4 when the management node 4 receives the time belt number subject to transmission request from the representative node, the job information of the time belt number subject to transmission request is sent to each computation node 3. To do. As a result, the management node 4 can realize a job information transmission request related to the designated time belt number to each calculation node 3 in accordance with the time belt number to be transmitted from the representative node.
  • the management node 4 determines whether the received information from each calculation node 3 for the transmission request is job information. If the received information is job information, it is determined that the job information is the specified time belt number or the previous generation time belt number, and this job information is stored in association with the calculation node 3 in the management-side storage unit 34. To do. As a result, the management node 4 can hold the job information of each calculation node 3 in the management side holding unit 34 for three generations.
  • the management node 4 In the management-side snapshot acquisition process, when the management node 4 has a new time belt number in the management-side holding unit 34 that can hold the job information of all the calculation nodes 3, that is, a new snapshot with the same time belt number is newly created. It is judged that it was acquired. Further, the management node 4 determines that a snapshot having the same time belt number has been newly acquired, and requests all the calculation nodes 3 to clear the job information held in the management side holding unit 34. The job information of all the calculation nodes 3 having the same time belt number that can be newly held by the management node 4 is updated and registered in the first holding area 34A as a new snapshot, and is also registered in the second holding area 34B and the third holding area 34C. The job information of each computation node 3 being held is deleted.
  • the management node 4 since the management node 4 holds the snapshot related to the job information of the same time belt number in the first holding area 34A, it can present the latest snapshot to the user. Furthermore, the management node 4 can use the second holding area 34A and the third holding area 34C as temporary holding areas for job information by deleting the job information in the second holding area 34B and the third holding area 34C. .
  • the calculation node 3 acquires job information according to the cycle timing common to the calculation nodes, and associates the job information with the time belt number for identifying the cycle timing at which the job information is acquired, and stores the job information in the calculation side holding unit 14 Hold on. Furthermore, in the second embodiment, when the management node 4 receives job information from each calculation node 3 in response to the transmission request, the management node 4 holds the received job information in the management side holding unit 34. In the second embodiment, when the management node 4 detects job information related to the calculation node 3 having the same time belt number in the management side holding unit 34, the job information having the same time belt number is held as a snapshot.
  • the calculation-side holding unit 14 has a holding area that can hold job information for two generations, and the management-side holding unit 34 can hold job information for three generations for each calculation node 3. With area.
  • the job information erasing timing due to the transmission delay of the clear request from the management node 4 differs for each calculation node 3. Therefore, it is possible to guarantee the snapshot acquisition by avoiding the situation where the job information of each calculation node 3 cannot be collected on the management node 4 side.
  • one of the plurality of calculation nodes 3 is used as a representative node, and the management node 4 uses the time belt number as a key when the representative node notifies the management node 4 of the time belt number to be transmitted.
  • the job information transmission request since only one representative node is required, it is possible to reduce the communication burden for acquiring the snapshot.
  • the number of calculation nodes 3 is four, but the number is not limited to these. Moreover, in the said Example 2, although 1 unit
  • the calculation-side holding unit 14 has a holding area for holding job information for two generations
  • the management-side holding unit 34 has a holding area for holding job information for three generations.
  • the calculation side holding unit 14 may be provided with a holding area for holding job information for three generations
  • the management side holding unit 34 may be provided with a holding area for holding job information for four generations.
  • the time for each computation node 3 required until the clear request from the management node 4 reaches each computation node 3 and the job information is erased is measured. Based on the measurement result, The maximum shift time between the calculation nodes 3 is calculated. Then, assuming that the maximum deviation time is sufficiently shorter than the time belt interval time, a holding area for holding job information for two generations is prepared in the calculation side holding unit 14.
  • n 1, a holding area for holding job information for three generations is prepared in the calculation-side holding unit 14, and a holding area for holding job information for four generations is prepared in the management-side holding unit 34.
  • FIG. 12 is an explanatory diagram showing a parallel computer having a three-stage configuration.
  • the parallel computer 1B shown in FIG. 12 has twelve calculation nodes 3A to 3L, three sub management nodes 4B to 4D, and one management node 4A.
  • the sub management node 4B relays and manages the four calculation nodes 3A to 3D.
  • the sub management node 4C relays and manages the four calculation nodes 3E to 3H.
  • the sub management node 4D relays and manages the four calculation nodes 3I to 3L.
  • the management node 4A manages the three sub management nodes 4B to 4D.
  • the calculation side holding unit 14 of each calculation node 3A to 3L has a first holding area 14A and a second holding area 14B.
  • Each of the sub-management nodes 4B to 4D has a first holding area 34D, a second holding area 34E, and a third holding area 34F that hold job information of four calculation nodes for three generations.
  • the management-side holding unit 34 of the management node 4A has a first holding area 34A, a second holding area 34B, and a third holding area for three generations of job information of the same time belt number of the 12 calculation nodes 3A to 3L. It has a holding area 34C.
  • Each of the calculation nodes 3A to 3L acquires the job information at the common cycle timing from the job start command, and holds the job information in the calculation side holding unit 14.
  • Each of the sub management nodes 4B, 4C, and 4D collects and collects job information from each of the calculation nodes 3A to 3D (3E to 3H and 3I to 3L) to be managed.
  • the sub management nodes 4B, 4C, and 4D hold the collected job information. Further, the sub management nodes 4B, 4C and 4D collectively transmit the job information of the calculation nodes 3A to 3D (3E to 3H and 3I to 3L) to the management node 4A.
  • the management node 4A does not communicate with each of the calculation nodes 3A to 3L, but collects job information of the calculation nodes 3A to 3L through communication with the sub management nodes 4B, 4C, and 4D.
  • the management node 4A communicates with the sub-management nodes 4B, 4C, and 4D to collect job information of the calculation nodes 3A to 3L, so that the communication frequency can be reduced and the communication load can be reduced.
  • the three-layer structure of the management node 4A, the sub-management nodes 4B to 4D, and the calculation nodes 3A to 3L has been described.
  • the structure is not limited to the three-layer structure, and the hierarchy structure may be four or more layers. good.
  • each component of each part illustrated does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each part is not limited to the one shown in the figure, and all or a part thereof may be functionally or physically distributed / integrated in arbitrary units according to various loads and usage conditions. Can be configured.
  • each device is all or any part of it on a CPU (Central Processing Unit) (or a micro computer such as MPU (Micro Processing Unit) or MCU (Micro Controller Unit)). You may make it perform.
  • CPU Central Processing Unit
  • MPU Micro Processing Unit
  • MCU Micro Controller Unit
  • Various processing functions may be executed entirely or arbitrarily on a program that is analyzed and executed by a CPU (or a microcomputer such as an MPU or MCU) or hardware based on wired logic. Needless to say.
  • FIG. 13 is an explanatory diagram of a computer that executes a job information acquisition program of a parallel computer.
  • HDD hard disk drive
  • RAM random access memory
  • ROM read only memory
  • the ROM 230 stores in advance a job information acquisition program on the calculation node side that performs the same function as in the above embodiment.
  • the job information acquisition program on the calculation node side is an acquisition program 231, a holding program 232, an information transmission program 233, and an erasure program 234.
  • the programs 231 to 234 may be appropriately integrated or distributed in the same manner as each component of the calculation node 50 shown in FIG.
  • the CPU 240 reads these programs 231 to 234 from the ROM 230 and executes them.
  • the programs 231 to 234 function as an acquisition process 241, a holding process 242, an information transmission process 243, and an erasing process 244.
  • the computer 200A is configured by connecting an HDD 210A, a RAM 220A, a ROM 230A, and a CPU 240A via a bus 250A.
  • the ROM 230A stores in advance a job information acquisition program on the management node side that performs the same function as in the above-described embodiment.
  • the management node side job information acquisition program includes a holding program 231A, a snapshot holding program 232A, an erasing program 233A, and an erasing request program 234A.
  • the programs 231A to 234A may be appropriately integrated or distributed in the same manner as each component of the management node 60 shown in FIG.
  • the CPU 240A reads these programs 231A to 234A from the ROM 230A and executes them.
  • the programs 231A to 234A function as a holding process 241A, a snapshot holding process 242A, an erasing process 243A, and an erasing request process 244A.
  • the CPU 240 acquires job information related to a calculation job handled by the calculation node itself according to the cycle timing common to the calculation nodes. Further, the CPU 240 holds the job information in a holding unit in the RAM 220 that can hold job information for a predetermined plurality of cycles in association with an identification number for identifying the cycle timing at which the job information is acquired. Further, when the CPU 240 receives a job information transmission request related to the specified identification number from the management node, if the job information related to the specified identification number is in the holding unit, the CPU 240 displays the job information related to the specified identification number in the management node. Send to. In addition, when there is no job information related to the specified identification number in the holding unit and there is job information related to the identification number immediately before the specified identification number, the CPU 240 transmits the job information related to the specified identification number to the management node. .
  • the CPU 240A When the CPU 240A receives job information from each calculation node in response to the transmission request, the CPU 240A holds the received job information in a holding unit in the RAM 220A that can hold job information for a predetermined plurality of cycles for each calculation node. To do. Further, when the CPU 240A detects job information related to a calculation node having the same identification number in the holding unit, the CPU 240A holds the job information having the same identification number as a snapshot. Furthermore, when the job information with the same identification number is held as a snapshot, the CPU 240A deletes job information other than the job information with the same identification number being held in the holding unit in the RAM 220A. Further, when the job information having the same identification number is stored as a snapshot, the CPU 240A transmits an erasure request to each computation node.
  • the CPU 240 deletes all the job information held in the holding unit in the RAM 220.
  • the job information is managed using the identification number of the cycle timing for acquiring the job information as a key, an accurate snapshot of the job information between the computation nodes can be secured.
  • the job information deletion timing due to the transmission delay of the clear request from the management node is different, so that the situation where the management node cannot collect the job information of each calculation node is avoided, and the snapshot acquisition is guaranteed To do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 計算ジョブを分散して並列的に実行する複数の計算ノード(50)と、これら複数の計算ノードを管理する管理ノード(60)とを有する並列計算機(1A)において、計算ノード(50)に自分が取得した複数世代分のジョブ情報を保持する計算側保持部(14)を備え、管理ノード(60)に、各計算ノード(50)から収集した複数世代分のジョブ情報を保持する管理側保持部(34)を備えたので、管理ノード(60)は、各計算ノード(50)の計算側保持部(14)に保持された複数世代分のジョブ情報を使用して並列計算機(1A)で実行中の計算ジョブの正確なスナップショットを保証する。

Description

並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置
 本発明は、並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置に関する。 
 並列計算機は、例えば、多数のコンピュータ(以下、単に計算ノードと称する)をネットワークで接続し、計算ジョブを個々の計算ノードに分散させて並列的に計算ジョブを実行させることで、大規模計算を高速に処理できる。従って、この並列計算機の需要は急速に高まりつつあるのが実情である。
 並列計算機は、複数の計算ノードで構成する計算ノード群を管理するノード(以下、単に管理ノードと称する)を有するのが一般的である。並列計算機では、現在実行中の計算ジョブが各計算ノードで使用するCPU、メモリやファイル等の各資源の使用量や、計算ジョブによって実行された命令数等の情報(以下、単にジョブ情報と称する)を管理ノード側で認識できる技術が求められている。
 そこで、計算ジョブが実行される各計算ノードでは、同一時刻のジョブ情報、すなわちスナップショットの取得が必要である。図14は、並列計算機のスナップショット取得方法を示す説明図である。図14に示す並列計算機110では、複数の計算ノード111を管理する管理ノード112で現在時刻を管理し、現在時刻が所定時刻に到達すると、ジョブ情報の取得を各計算ノード111に依頼する(ステップS211)。各計算ノード111は、ジョブ情報の取得依頼に応じて自分が担当するジョブ情報を取得する(ステップS212)。各計算ノード111は、ジョブ情報を取得すると、このジョブ情報を管理ノード112に転送する(ステップS213)。この結果、図14に示す並列計算機110の管理ノード112では、各計算ノード111の同一時刻(タイミング)のジョブ情報、すなわちスナップショットを取得できる。
 図15は、並列計算機120の他のスナップショット取得方法を示す説明図である。図15に示す並列計算機120では、各計算ノード121が現在時刻を管理している。各計算ノード121は、現在時刻が所定時刻に到達すると、自分が担当するジョブ情報を取得する(ステップS221)。そして、各計算ノード121は、自分が担当するジョブ情報を取得すると、そのジョブ情報を管理ノード122に転送する(ステップS222)。その結果、図15に示す並列計算機120の管理ノード122では、各計算ノード121の同一時刻(タイミング)のジョブ情報、すなわちスナップショットを取得できる。
特開平8-44680号公報 特開昭63-136176号公報
 図14に示す並列計算機110では、管理ノード112からジョブ情報の取得依頼が各計算ノード111に到達するまでのタイミングにズレが生じると、計算ノード111間でジョブ情報の取得タイミングも同期できず、正確なスナップショットが取得できない。
 また、図15に示す並列計算機120では、各計算ノード121から非同期でジョブ情報が送られてくるため、各計算ノード121から送信された同一時刻(同一タイミング)のジョブ情報が次のジョブ情報取得時刻までに管理ノード122に全て届くとは限らない。その結果、他の時刻のジョブ情報が混在して送られてくることも考え得る。つまり、並列計算機120では、同一タイミングの各計算ノード121のジョブ情報を把握できていないため、正確なスナップショットが取得できない。
 1つの側面では、並列計算機の各計算ノードで実行中のジョブに関わる同一タイミングのジョブ情報を取得できる並列計算機等を提供することにある。
 本願の開示する並列計算機は、一つの態様において、計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有し、前記計算ノードは、取得部と、計算ノード側の保持部と、計算ノード側の保持制御部と、情報送信部とを有し、前記管理ノードは、管理側ノードの保持部と、管理ノード側の保持制御部と、消去依頼部とを有する。取得部は、計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する。計算ノード側の保持制御部は、取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算ノード側の保持部に保持すると共に、前記管理ノードからの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する。情報送信部は、管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信する。また、情報送信部は、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する。また、管理ノード側の保持制御部は、前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を当該管理ノード側の保持部に保持する。また、管理ノード側の保持制御部は、当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。また、管理ノード側の保持制御部は、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。消去依頼部は、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノードに対して前記消去依頼を送信する。また、前記計算ノード側の保持部は、所定複数周期分のジョブ情報を保持可能にする保持領域を備え、前記管理ノード側の保持部は、前記計算ノード毎の前記所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。
 一つの態様では、並列計算機の各計算ノードで実行中のジョブに関わる同一タイミングのジョブ情報を取得できる。
図1は、実施例1の並列計算機を示すブロック図である。 図2は、実施例2の並列計算機を示すブロック図である。 図3は、並列計算機の説明図である。 図4は、ジョブ情報の取得周期(タイムベルト)の説明図である。 図5は、計算側保持部を二世代分にした理由を示す説明図である。 図6は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図7は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図8は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図9は、代表ノード側ジョブ取得処理に関わる代表ノード内部の処理動作を示すフローチャートである。 図10は、計算ノード側ジョブ取得処理に関わる計算ノード内部の処理動作を示すフローチャートである。 図11は、管理ノード側スナップショット取得処理に関わる管理ノード内部の処理動作を示すフローチャートである。 図12は、実施例3の並列計算機を示す説明図である。 図13は、並列計算機のジョブ情報取得プログラムを実行するコンピュータを示す説明図である。 図14は、並列計算機のスナップショット取得方法を示す説明図である。 図15は、並列計算機の他のスナップショット取得方法を示す説明図である。
 以下、図面に基づいて、本願の開示する並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置の実施例を詳細に説明する。尚、本実施例により、開示技術が限定されるものではない。
 図1は、実施例1の並列計算機を示すブロック図である。図1に示す並列計算機1Aは、計算ジョブを分散して並列的に実行する複数の計算ノード50と、これら複数の計算ノード50を管理する管理ノード60とを有する。計算ノード50は、取得部51と、保持部52と、保持制御部53と、情報送信部54とを有する。取得部51は、計算ノード共通の周期タイミングに応じて、当該計算ノード50自体が担当する計算ジョブに関わるジョブ情報を取得する。
 保持制御部53は、取得部51がジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を計算ノード50側の保持部52に保持する。また、保持制御部53は、管理ノード60からの消去依頼を受信すると、保持部52に保持中のジョブ情報を全て消去する。保持部52は、所定複数周期分、例えば2周期(世代)分の自分のジョブ情報を保持する保持領域を備えている。
 また、情報送信部54は、管理ノード60から指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部52内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノード60に送信する。また、情報送信部54は、当該指定の識別番号に関わるジョブ情報が当該保持部52内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノード60に送信する。尚、識別番号直前の識別番号とは、例えば、一世代前の識別番号に相当する。
 管理ノード60は、保持部61と、保持制御部62と、消去依頼部63とを有する。保持部61は、計算ノード50毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。保持制御部62は、送信依頼に応じて各計算ノード50からジョブ情報を受信すると、当該受信したジョブ情報を管理ノード60側の保持部61に保持する。また、保持制御部62は、保持部61内に同一識別番号の全計算ノード50に関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。保持制御部62は、同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード60側の保持部61に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。消去依頼部63は、同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノード50に対して消去依頼を送信する。
 実施例1では、計算ノード50が計算ノード共通の周期タイミングに応じてジョブ情報を取得し、ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を計算ノード50側の保持部52に保持する。更に、実施例1では、管理ノード60が、送信依頼に応じて各計算ノード50からジョブ情報を受信すると、当該受信したジョブ情報を管理ノード60側の保持部61に保持する。そして、実施例1では、計算ノード50が、保持部61内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。更に、実施例1では、同一識別番号のジョブ情報をスナップショットとして保持した場合、管理ノード60側の保持部61に保持中の同一識別番号のジョブ情報以外のジョブ情報を消去すると共に、計算ノード50側の保持部52に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングの識別番号をキーにしてジョブ情報を管理するので、計算ノード50間のジョブ情報の正確なスナップショットを確保できる。
 実施例1では、計算ノード50側の保持部52に所定複数周期分のジョブ情報を保持可能にする保持領域を備え、管理ノード60側の保持部61に計算ノード50毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。その結果、例えば、管理ノード60からのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが計算ノード50毎に異なる。従って、管理ノード60側で各計算ノード50のジョブ情報が収集できなくなるような事態を回避して、並列計算機1Aで実行中の計算ジョブの正確なスナップショットを保証できる。
 図2は、実施例2の並列計算機を示すブロック図、図3は、並列計算機の説明図である。図2に示す並列計算機1は、ネットワーク2に接続された複数の計算ノード3と、これら複数の計算ノード3を管理する管理ノード4とを有し、計算ジョブを個々の計算ノード3に分散させて並列的に計算を実行させる。尚、説明の便宜上、計算ノード3(3A~3D)を4台としたが、この台数に限定するものではない。
 計算ノード3は、例えば、コンピュータに相当し、計算ジョブを実行する。計算ノード3は、計算処理部11と、ジョブ情報処理制御部12と、計算側通信部13と、計算側保持部14とを有する。計算処理部11は、分散された計算ジョブの内、自分が担当する計算ジョブを実行する。計算側通信部13は、ネットワーク2経由で管理ノード4と通信する。計算側保持部14は、例えば、バッファ等に相当し、二世代分、すなわち2タイムベルト分のジョブ情報を保持する第1保持領域14A及び第2保持領域14Bを有する。
 ジョブ情報処理制御部12は、タイミング検出部21と、取得処理部22と、計算側保持制御部23と、情報送信部24とを有する。タイミング検出部21は、自分が担当するジョブ情報を取得するタイミングを検出する。タイミング検出部21は、計算ノード3共通のジョブ開始コマンドに応じてタイマ動作を開始する。尚、図4は、ジョブ情報の取得周期(タイムベルト)の説明図である。タイミング検出部21は、計算ノード共通の周期タイミング、すなわち図4のタイムベルトを使用してジョブ情報の取得タイミングを検出する。取得処理部22は、タイミング検出部21にてジョブ情報の取得タイミングを検出すると、自分が担当するジョブ情報を取得する。
 計算側保持制御部23は、計算側保持部14を保持制御し、取得処理部22にて取得されたジョブ情報を計算側保持部14に保持する。尚、ジョブ情報は、ジョブ情報内容、情報有無、ノード情報、タイムベルト番号及び情報取得日時等を含む。ジョブ情報内容は、ジョブを識別するジョブIDと、自分が担当するジョブで使用するCPU、メモリ及びファイル等の各資源の使用量や、ジョブによって実行された命令数等を含む。情報有無は、ジョブ情報内容の情報有無を示す情報である。尚、情報有無が「あり」の場合、ジョブ情報内容があるジョブ情報に相当し、情報有無が「なし」の場合、当該ジョブ情報は後述するエラー情報に相当する。ノード情報は、当該ジョブ情報の出所となる計算ノード3を識別するノードIDに相当する。タイムベルト番号は、ジョブ情報を取得した計算ノード3共通の周期タイミングを識別する番号に相当する。情報取得日時は、ジョブ情報を取得した日時に相当する。
 計算側保持制御部23は、ジョブ情報の取得タイミングに応じて、自分が担当するジョブ情報を取得すると、計算側保持部14内の保持領域に空きがあるか否かを判定する。計算側保持制御部23は、空きがある場合、ジョブ情報を計算側保持部14内に保持する。また、計算側保持制御部23は、空きがないため、ジョブ情報の保持を禁止する。
 計算側保持制御部23は、管理ノード4から、後述する指定タイムベルト番号の送信依頼に応じて、計算側保持部14内に指定タイムベルト番号のジョブ情報があるか否かを判定する。計算側保持制御部23は、計算側保持部14内に指定タイムベルト番号のジョブ情報がある場合、計算側通信部13経由で、この指定タイムベルト番号のジョブ情報を管理ノード4に送信する。また、計算側保持制御部23は、計算側保持部14内に指定タイムベルト番号のジョブ情報がない場合、計算側保持部14内に、指定タイムベルト番号の一世代前のジョブ情報があるか否かを判定する。また、計算側保持制御部23は、指定タイムベルト番号の一世代前のジョブ情報がある場合、計算側通信部13経由で、一世代前のジョブ情報を管理ノード4に送信する。また、計算側保持制御部23は、指定タイムベルト番号の一世代前のジョブ情報がない場合、計算側通信部13経由で、エラー情報を管理ノード4に送信する。また、計算側保持制御部23は、管理ノード4からの後述するクリア依頼に応じて計算側保持部14内に保持したジョブ情報を全て消去する。
 尚、説明の便宜上、4台の計算ノード3(3A~3D)の内、例えば、1台の計算ノード3Aを代表ノードとする。代表ノードは、計算ノード3とほぼ同一の内部構成であるが、次に説明する機能を備えることを特徴とする。代表ノードのジョブ情報処理制御部12は、計算ノード3共通の周期タイミングに応じてジョブ情報を取得し、このジョブ情報を計算側保持部14に保持する。更に、ジョブ情報処理制御部12は、ジョブ情報を計算側保持部14内に保持すると、計算側通信部13経由で、当該ジョブ情報のタイムベルト番号を送信依頼対象として管理ノード4に通知する機能を備える。
 管理ノード4は、例えば、コンピュータに相当し、ネットワーク2で各計算ノード3と接続し、各計算ノード3を管理する。管理ノード4は、管理側処理部31と、スナップショット処理制御部32と、管理側通信部33と、管理側保持部34とを有する。管理側処理部31は、分散された計算ノード3を管理する。管理側通信部33は、ネットワーク2経由で各計算ノード3と通信する。管理側保持部34は、例えば、バッファ等に相当し、計算ノード3毎に三世代分、すなわち3タイムベルト分のジョブ情報を保持する第1保持領域34A、第2保持領域34B及び第3保持領域34Cを有する。尚、第1保持領域34Aは、スナップショットに関わるジョブ情報を保持し、第2保持領域34B及び第3保持領域34Cは、スナップショットを取得すべく、ジョブ情報を一時的に保持するのに使用する。尚、第1保持領域34Aは、スナップショットのジョブ情報が保持されていない状態では、第2保持領域34B及び第3保持領域34Bと同様にジョブ情報を一時的に保持するのに使用する。
 スナップショット処理制御部32は、送信依頼部41と、受信情報識別部42と、保持領域監視部43と、クリア依頼部44と、管理側保持制御部45とを有する。送信依頼部41は、代表ノードからの送信依頼対象のタイムベルト番号を受信すると、管理側通信部33経由で、タイムベルト番号に関わるジョブ情報の送信を各計算ノード3に依頼する。受信情報識別部42は、各計算ノード3に対する指定タイムベルト番号の送信依頼に応じて受信した各計算ノード3の受信情報を識別する。尚、受信情報は、計算ノード3から受信する、例えば、指定タイムベルト番号のジョブ情報、指定タイムベルト番号の一世代前のタイムベルト番号のジョブ情報やエラー情報等である。
 保持領域監視部43は、第1保持領域34A、第2保持領域34B及び第3保持領域34Cに保持された各計算ノード3のジョブ情報を監視する。更に、保持領域監視部43は、ジョブ情報の監視結果に基づき、新たに全計算ノード3のジョブ情報を保持できたタイミングに相当するタイムベルト番号があるか否かを判定する。管理側保持制御部45は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がある場合、同一タイムベルト番号のスナップショットを新たに取得したと判断し、当該同一タイムベルト番号の全計算ノード3のジョブ情報を第1保持領域34Aに更新登録する。更に、管理側保持制御部45は、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を全て消去する。また、クリア依頼部44は、新たなスナップショットを取得した場合、管理側通信部33経由で、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを依頼する。
 尚、管理ノード4は、例えば、ユーザ端末からのスナップショット提示要求を検出すると、管理側保持部34内の第1保持領域34Aに保持中の同一タイムベルト番号の全計算ノード3のジョブ情報をスナップショットとしてユーザ端末に提示することになる。つまり、ユーザは、現在実行中の計算ジョブについて各計算ノード3のジョブ情報を把握できる。
 次に、計算側保持部14を二世代分、すなわち2タイムベルト分のジョブ情報を保持する領域にした理由について説明する。図5は、計算側保持部14を二世代分にした理由を示す説明図である。管理ノード4では、新たなスナップショットのジョブ情報が保持されると、クリア依頼を各計算ノード3に発行する。
 図5では、計算ノード3Bは、管理ノード4からクリア依頼が届いたタイミングがタイムベルト番号T2のジョブ情報を取得中のタイミングの場合、計算側保持部14に保持されたタイムベルト番号T2までのジョブ情報が全て消去される。その結果、計算ノード3Bでは、次に取得すべきジョブ情報がタイムベルト番号T3のジョブ情報となる。
 また、計算ノード3Cは、管理ノード4からクリア依頼が届いたタイミングがタイムベルト番号T3のジョブ情報を取得中のタイミングの場合、計算側保持部14に保持されたタイムベルト番号T3までのジョブ情報が全て消去される。その結果、計算ノード3Bでは、次に取得すべきジョブ情報がタイムベルト番号T4のジョブ情報となる。
 つまり、クリア依頼が届くタイミングが計算ノード3間で異なるため、取得すべきジョブ情報が一世代分、すなわち1タイムベルト分ずれてしまう場合がある。従って、各計算ノード3の計算側保持部14では、1タイムベルト分のズレを吸収するために2タイムベルト分のジョブ情報を保持する保持領域として第1保持領域14A及び第2保持領域14Bを準備した。
 更に、管理側保持部34を三世代分、すなわち3タイムベルト分のジョブ情報を保持する領域にした理由について説明する。例えば、同一タイムベルト番号T1の全計算ノード3分のジョブ情報を保持、すなわちタイムベルト番号T1のスナップショットを取得した場合、第1保持領域34Aに当該タイムベルト番号のジョブ情報を保持する。そして、次のタイムベルト番号の全計算ノード3のジョブ情報が保持されるまで第2保持領域34B及び第3保持領域34Cを使用する。しかしながら、前述した通り、クリア依頼に対する計算ノード3間のズレが一世代分の場合、各計算ノード3から管理ノード4に送られてくるジョブ情報も一世代分ずれる。従って、管理側保持部34でも、スナップショットのジョブ情報を保持するのに第1保持領域34Aを使用し、1タイムベルト分のズレを吸収するために2タイムベルト分のジョブ情報を保持する保持領域として第2保持領域34B及び第3保持領域34Cを準備した。
 次に、実施例2の並列計算機1Aの動作について説明する。図6乃至図8は、並列計算機1Aのスナップショット取得に関わる動作遷移の一例を示す説明図である。尚、説明の便宜上、計算ノード3(3A~3D)を4台とし、計算ノード3Aを代表ノードとした。図6において各計算ノード3A,3C及び3Dは、例えば、ジョブ開始コマンドからタイムベルト番号T1のタイミングに応じてジョブ情報を取得し、そのジョブ情報を計算側保持部14に保持する。尚、計算ノード3A,3C,3Dの第1保持領域14Aには、タイムベルト番号T1のジョブ情報を保持した状態である。計算ノード3Bは、何らかの要因でジョブ開始コマンドの受信が遅れてタイムベルト番号T1のジョブ情報を取得できず、第1保持領域14Aには情報が保持されていない状態である。
 計算ノード3Aは、代表ノードであるため、タイムベルト番号T1のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T1を管理ノード4に通知する(ステップS11)。管理ノード4は、計算ノード3Aのタイムベルト番号T1を受信すると、このタイムベルト番号T1のジョブ情報の送信を全計算ノード3に依頼する(ステップS12)。
 各計算ノード3は、タイムベルト番号T1のジョブ情報の送信依頼を受信すると、タイムベルト番号T1のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T1のジョブ情報が計算側保持部14内にある各計算ノード3A,3C及び3Dは、タイムベルト番号T1のジョブ情報を管理ノード4に送信する(ステップS13)。また、タイムベルト番号T1のジョブ情報が計算側保持部14内になく、しかも一世代前のジョブ情報もない計算ノード3Bは、エラー情報を管理ノード4に送信する(ステップS13A)。
 管理ノード4は、計算ノード3A,3C及び3Dのタイムベルト番号T1のジョブ情報を受信すると、タイムベルト番号T1のジョブ情報を計算ノード3A,3C及び3D対応の第1保持領域34Aに保持する。また、管理ノード4は、計算ノード3Bのエラー情報を受信した場合、計算ノード3B対応の第1保持領域34Aに情報を保持しない。
 次に、各計算ノード3A,3C及び3Dは、タイムベルト番号T2のタイミングに応じてタイムベルト番号T2のジョブ情報を取得し、そのジョブ情報を計算側保持部14の第2保持領域14Bに保持した状態である。また、計算ノード3Bは、タイムベルト番号T1のタイミングに応じてタイムベルト番号T1のジョブ情報を取得し、このジョブ情報を計算側保持部14の第1保持領域14Aに保持した状態である。
 この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T2のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T2を管理ノード4に通知する(ステップS14)。管理ノード4は、当該タイムベルト番号T2を受信すると、このタイムベルト番号T2のジョブ情報の送信を全計算ノード3に依頼する(ステップS15)。
 図7において各計算ノード3は、タイムベルト番号T2のジョブ情報の送信依頼を受信すると、タイムベルト番号T2のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T2のジョブ情報が計算側保持部14内にある各計算ノード3A,3C及び3Dは、タイムベルト番号T2のジョブ情報を管理ノード4に送信する(ステップS16)。また、タイムベルト番号T2のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T1が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T1のジョブ情報を管理ノード4に通知する(ステップS16A)。
 管理ノード4は、計算ノード3A,3C及び3Dのタイムベルト番号T2のジョブ情報を受信すると、タイムベルト番号T2のジョブ情報を計算ノード3A,3C及び3D対応の第2保持領域34Bに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T1のジョブ情報を受信すると、タイムベルト番号T1のジョブ情報を計算ノード3B対応の第1保持領域34Aに保持する。その結果、第1保持領域34Aには、タイムベルト番号T1の全計算ノード3のジョブ情報が保持される、すなわちタイムベルト番号T1のスナップショットが取得されたことになる。
 そして、管理ノード4は、タイムベルト番号T1のスナップショットが取得されると、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを全計算ノード3に依頼する(ステップS17)。更に、管理ノード4は、第1保持領域34Aにタイムベルト番号T1のジョブ情報を保持したまま、第2保持領域34B及び第3保持領域34Cに保持中の全ジョブ情報を消去する(ステップS18)。
 更に、各計算ノード3は、管理ノード4からのクリア依頼を受信すると、第1保持領域14A及び第2保持領域14Bに保持中の全ジョブ情報を消去する(ステップS19)。
 次に、各計算ノード3A、3C及び3Dは、タイムベルト番号T4のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T4のジョブ情報を第1保持領域14Aに保持する。同様に、計算ノード3Bは、タイムベルト番号T3のタイミングに応じてジョブ情報を取得し、そのジョブ情報を第1保持領域14Aに保持する。
 この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T4のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T4を管理ノード4に通知する(ステップS20)。管理ノード4は、計算ノード3Aのタイムベルト番号T4を受信すると、このタイムベルト番号T4のジョブ情報の送信を全計算ノード3に依頼する(ステップS21)。
 図8において各計算ノード3は、タイムベルト番号T4のジョブ情報の送信依頼を受信すると、タイムベルト番号T4のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T4のジョブ情報が計算側保持部14内にある計算ノード3A、3C及び3Dは、当該タイムベルト番号T4のジョブ情報を管理ノード4に通知する(ステップS22)。また、タイムベルト番号T4のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T3のジョブ情報が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T3のジョブ情報を管理ノード4に通知する(ステップS22A)。
 管理ノード4は、計算ノード3A、3C及び3Dのタイムベルト番号T4のジョブ情報を受信すると、タイムベルト番号T4のジョブ情報を計算ノード3A、3C及び3D対応の第2保持領域34Bに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T3のジョブ情報を受信すると、タイムベルトT3のジョブ情報を計算ノード3B対応の第2保持領域34Bに保持する。尚、第1保持領域34Aには、タイムベルト番号T1の全計算ノード3のジョブ情報がスナップショットとして保持されたままである。
 次に、各計算ノード3A、3C及び3Dは、タイムベルト番号T5のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T5のジョブ情報を第2保持領域14Bに保持する。同様に、計算ノード3Bは、タイムベルト番号T4のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T4のジョブ情報を第2保持領域14Bに保持する。
 この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T5のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T5を管理ノード4に通知する(ステップS23)。管理ノード4は、計算ノード3Aのタイムベルト番号T5を受信すると、このタイムベルト番号T5のジョブ情報の送信を全計算ノード3に依頼する(ステップS24)。
 各計算ノード3は、タイムベルト番号T5のジョブ情報の送信依頼を受信すると、タイムベルト番号T5のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T5のジョブ情報が計算側保持部14内にある場合の計算ノード3A、3C及び3Dは、当該タイムベルト番号T5のジョブ情報を管理ノード4に送信する(ステップS25)。また、タイムベルト番号T5のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T4のジョブ情報が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T4のジョブ情報を管理ノード4に通知する(ステップS25A)。
 管理ノード4は、計算ノード3A、3C及び3Dのタイムベルト番号T5のジョブ情報を受信すると、タイムベルト番号T5のジョブ情報を計算ノード3A、3C及び3D対応の第3保持領域34Cに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T4のジョブ情報を受信すると、タイムベルトT4のジョブ情報を計算ノード3B対応の第3保持領域34Cに保持する。その結果、第2保持領域34Bの計算ノード3A,3C及び3D対応のタイムベルト番号T4のジョブ情報と、第3保持領域34Cの計算ノード3B対応のタイムベルト番号T4のジョブ情報とでタイムベルト番号T4の全計算ノード3のジョブ情報が保持される。すなわち、タイムベルト番号T4のスナップショットが取得されたことになる。
 そして、管理ノード4は、タイムベルト番号T4のスナップショットが取得されると、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを全計算ノード3に依頼する(ステップS26)。そして、管理ノード4は、第1保持領域34Aにタイムベルト番号T1のジョブ情報をタイムベルト番号T4のジョブ情報に上書き更新し、第2保持領域34B及び第3保持領域34Cに保持中の全ジョブ情報を消去する(ステップS27)。
 更に、各計算ノード3は、管理ノード4からのクリア依頼を受信すると、第1保持領域14A及び第2保持領域14Bに保持中の全ジョブ情報を消去する(ステップS28)。従って、このような一連の処理動作を繰り返すことで管理ノード4の第1保持領域34Aには最新のスナップショットが保持できる。その結果、管理ノード4は、ユーザ端末からスナップショット提示要求を検出したとしても、第1保持領域34Aに保持中の最新のスナップショットとして提示できる。
 次に、代表ノードである計算ノード3Aのジョブ取得処理について説明する。図9は、代表ノード側ジョブ取得処理に関わる計算ノード3Aの処理動作を示すフローチャートである。図9において計算ノード3Aのジョブ情報処理制御部12内のタイミング検出部21は、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS51)。ジョブ情報処理制御部12内の取得処理部22は、ジョブ情報の取得タイミングを検出した場合(ステップS51肯定)、ジョブ情報取得処理を実行し(ステップS52A)、自分の担当するジョブ情報を取得できたか否かを判定する(ステップS52)。
 ジョブ情報処理制御部12内の計算側保持制御部23は、自分が担当するジョブ情報を取得できた場合(ステップS52肯定)、計算側保持部14内に空きがあるか否かを判定する(ステップS53)。計算側保持制御部23は、計算側保持部14内に空きがある場合(ステップS53肯定)、そのタイムベルト番号のジョブ情報を計算側保持部14内に保持する(ステップS54)。
 ジョブ情報処理制御部12内の情報送信部24は、タイムベルト番号のジョブ情報を計算側保持部14内に保持すると、当該タイムベルト番号を送信依頼対象のタイムベルト番号として管理ノード4に通知する(ステップS55)。計算側保持制御部23は、管理ノード4から送信依頼対象のタイムベルト番号を指定したジョブ情報の送信依頼を受信したか否かを判定する(ステップS56)。計算側保持制御部23は、ジョブ情報の送信依頼を受信した場合(ステップS56肯定)、計算側保持部14内に保持中の送信依頼のタイムベルト番号に関わるジョブ情報を管理ノード4に送信する(ステップS57)。
 計算側保持制御部23は、管理ノード4からクリア依頼を受信したか否かを判定する(ステップS58)。計算側保持制御部23は、クリア依頼を受信した場合(ステップS58肯定)、計算側保持部14に保持中の全ジョブ情報を消去し(ステップS59)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS51に移行する。
 また、計算側保持制御部23は、クリア依頼を受信しなかった場合(ステップS58否定)、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS60)。計算側保持制御部23は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS60否定)、クリア依頼を受信したか否かを判定すべく、ステップS58に移行する。計算側保持制御部23は、ジョブ情報の取得タイミングを検出した場合(ステップS60肯定)、ジョブ情報の取得処理を実行すべく、ステップS52Aに移行する。
 また、タイミング検出部21は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS51否定)、ジョブ情報の取得タイミングを継続監視すべく、ステップS51に移行する。また、取得処理部22は、ジョブ情報を取得できなかった場合(ステップS52否定)、ジョブ情報の取得タイミングを検出すべく、ステップS51に移行する。
 また、計算側保持制御部23は、計算側保持部14内に空きがない場合(ステップS53否定)、当該タイムベルト番号のジョブ情報を計算側保持部14に保持せず(ステップS61)、ジョブ情報の取得タイミングを検出すべく、ステップS51に移行する。
 また、計算側保持制御部23は、ジョブ情報の送信依頼を受信しなかった場合(ステップS56否定)、当該ジョブ情報送信依頼の監視動作を継続すべく、ステップS56に移行する。尚、ステップS56は代表ノードが実行する処理であることから、自分が管理ノード4からの送信依頼を促す送信依頼対象のタイムベルト番号を通知しているため、正常な場合、必ず管理ノード4から送信依頼を受信することになる。
 図9に示す代表ノード側ジョブ取得処理では、代表ノードが計算ノード共通の取得タイミングに応じてジョブ情報を取得すると、計算側保持部14内に空きがあるか否かを判定する。計算側保持部14内に空きがある場合、取得タイミングを識別するタイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持する。その結果、代表ノードは、タイムベルト番号に関連付けてジョブ情報を二世代分まで保持できる。
 代表ノード側ジョブ取得処理では、タイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持すると、当該タイムベルト番号を送信依頼対象として管理ノード4に通知する。その結果、代表ノードは、送信依頼対象のジョブ情報のタイムベルト番号を管理ノード4側に報知できる。
 代表ノード側ジョブ取得処理では、管理ノード4から指定のタイムベルト番号のジョブ情報の送信依頼に応じて、当該指定のタイムベルト番号のジョブ情報を管理ノード4に送信する。その結果、代表ノードは、送信依頼対象のジョブ情報を管理ノード4側に送信できる。
 代表ノード側ジョブ取得処理では、管理ノード4からクリア依頼を受信した場合、計算側保持部14内に保持中の全てのジョブ情報を消去する。その結果、代表ノードは、管理ノード4側で最新のスナップショットを取得させるべく、新たなジョブ情報を計算側保持部14に保持できる。
 次に、代表ノード以外の各計算ノード3のジョブ取得処理について説明する。図10は、計算ノード側ジョブ取得処理に関わる計算ノード3の処理動作を示すフローチャートである。図10において計算ノード3のジョブ情報処理制御部12内のタイミング検出部21は、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS71)。取得処理部22は、ジョブ情報の取得タイミングを検出した場合(ステップS71肯定)、ジョブ情報取得処理を実行し(ステップS72)、自分の担当するジョブ情報を取得できたか否かを判定する(ステップS73)。
 計算側保持制御部23は、自分が担当するジョブ情報を取得できた場合(ステップS73肯定)、計算側保持部14内に空きがあるか否かを判定する(ステップS74)。計算側保持制御部23は、計算側保持部14内に空きがある場合(ステップS74肯定)、そのタイムベルト番号のジョブ情報を計算側保持部14内に保持する(ステップS75)。
 計算側保持制御部23は、管理ノード4から送信依頼対象のタイムベルト番号を指定したジョブ情報の送信依頼を受信したか否かを判定する(ステップS76)。計算側保持制御部23は、ジョブ情報の送信依頼を受信した場合(ステップS76肯定)、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にあるか否かを判定する(ステップS77)。
 情報送信部24は、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にある場合(ステップS77肯定)、送信依頼のタイムベルト番号のジョブ情報を管理ノード4に送信する(ステップS78)。計算側保持制御部23は、管理ノード4からクリア依頼を受信したか否かを判定する(ステップS79)。計算側保持制御部23は、クリア依頼を受信した場合(ステップS79肯定)、計算側保持部14に保持中の全ジョブ情報を消去し(ステップS80)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS71に移行する。
 また、計算側保持制御部23は、クリア依頼を受信しなかった場合(ステップS79否定)、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS81)。計算側保持制御部23は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS81否定)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。計算側保持制御部23は、ジョブ情報の取得タイミングを検出した場合(ステップS81肯定)、ジョブ情報取得処理を実行すべく、ステップS72に移行する。
 また、タイミング検出部21は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS71否定)、ジョブ情報の取得タイミングを継続監視すべく、ステップS71に移行する。また、取得処理部22は、ジョブ情報を取得できなかった場合(ステップS73否定)、ジョブ情報の取得タイミングを検出すべく、ステップS71に移行する。
 また、計算側保持制御部23は、計算側保持部14内に空きがない場合(ステップS74否定)、当該タイムベルト番号のジョブ情報を計算側保持部14内に保持せず(ステップS82)、ジョブ情報の取得タイミングを検出すべく、ステップS71に移行する。
 また、計算側保持制御部23は、ジョブ情報の送信依頼を受信しなかった場合(ステップS76否定)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。
 また、計算側保持制御部23は、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にない場合(ステップS77否定)、当該タイムベルト番号の一世代前のジョブ情報が計算側保持部14内にあるか否かを判定する(ステップS83)。尚、送信依頼のタイムベルト番号が例えばT3の場合、一世代前のジョブ情報とは、タイムベルト番号T2のジョブ情報に相当する。計算側保持制御部23は、当該タイムベルト番号の一世代前のジョブ情報が計算側保持部14内にある場合(ステップS83肯定)、一世代前のジョブ情報を管理ノード4に送信し(ステップS84)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。
 また、計算側保持制御部23は、当該タイムベルト番号のジョブ情報が計算側保持部14内にない場合(ステップS83否定)、管理ノード4に対してエラー情報を送信し(ステップS85)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS71に移行する。
 図10に示す計算ノード側ジョブ取得処理では、計算ノード3が計算ノード共通の取得タイミングに応じてジョブ情報を取得すると、計算側保持部14内に空きがあるか否かを判定する。計算側保持部14内に空きがある場合、取得タイミングを識別するタイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持する。その結果、計算ノード3は、タイムベルト番号に関連付けてジョブ情報を二世代分まで保持できる。
 計算ノード側ジョブ取得処理では、管理ノード4から指定のタイムベルト番号のジョブ情報の送信依頼に応じて、当該指定のタイムベルト番号のジョブ情報が計算側保持部14内にあるか否かを判定する。指定のタイムベルト番号のジョブ情報が計算側保持部14内にある場合、当該タイムベルト番号のジョブ情報を管理ノード4に送信する。その結果、計算ノード3は、送信依頼に応じた指定のタイムベルト番号のジョブ情報を管理ノード4に送信できる。
 計算ノード側ジョブ取得処理では、指定のタイムベルト番号のジョブ情報が計算側保持部14内にない場合、一世代前のジョブ情報が計算側保持部14内にあるか否かを判定する。一世代前のジョブ情報が計算側保持部14内にある場合、当該一世代前のジョブ情報を管理ノード4に送信する。その結果、計算ノード3は、例えば、クリア依頼の伝送遅延による計算ノード3間のズレを吸収すべく、一世代前のジョブ情報も管理ノード4に送信できる。
 計算ノード側ジョブ取得処理では、一世代前のジョブ情報が計算側保持部14内にない場合、エラー情報を管理ノード4に送信する。その結果、計算ノード3は、送信できるジョブ情報がない旨を管理ノード4に報知できる。
 計算ノード側ジョブ取得処理では、管理ノード4からクリア依頼を受信した場合、計算側保持部14内に保持中の全てのジョブ情報を消去する。その結果、計算ノード3は、管理ノード4側で最新のスナップショットを取得させるべく、新たなジョブ情報を計算側保持部14に保持できる。
 次に管理ノード4側の動作について説明する。図11は、管理ノード側スナップショット処理に関わる管理ノード4の処理動作を示すフローチャートである。図11において管理ノード4内のスナップショット処理制御部32は、代表の計算ノード3Aから送信依頼対象のタイムベルト番号を受信したか否かを判定する(ステップS91)。スナップショット処理制御部32の送信依頼部41は、送信依頼対象のタイムベルト番号を受信した場合(ステップS91肯定)、送信依頼対象のタイムベルト番号に関わるジョブ情報の送信を全計算ノード3に依頼する(ステップS92)。
 スナップショット処理制御部32内の受信情報識別部42は、各計算ノード3から受信した情報がエラー情報であるか否かを判定する(ステップS93)。受信情報識別部42は、受信した情報がエラー情報でない場合(ステップS93否定)、受信した情報がジョブ情報であるか否かを判定する(ステップS94)。スナップショット処理制御部32内の管理側保持制御部45は、受信した情報がジョブ情報である場合(ステップS94肯定)、当該計算ノード3対応の管理側保持部34内にジョブ情報を保持する(ステップS95)。そして、受信情報識別部42は、送信依頼した全計算ノード3からの情報受信が完了したか否かを判定する(ステップS96)。
 受信情報識別部42は、全計算ノード3からの情報受信が完了していない場合(ステップS96否定)、未識別の受信情報があると判断し、受信情報がエラー情報であるか否かを判定すべく、ステップS93に移行する。スナップショット処理制御部32内の保持領域監視部43は、全計算ノード3からの情報受信が完了した場合(ステップS96肯定)管理側保持部34の保持内容に基づき、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号があるか否かを判定する(ステップS97)。
 保持領域監視部43は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がある場合(ステップS97肯定)、同一タイムベルト番号のスナップショットを新たに取得したと判断する。更に、送信依頼部41は、同一タイムベルト番号のスナップショットを新たに取得したものと判断し、管理側保持部34に保持中のジョブ情報を消去するクリアを全計算ノード3に依頼する(ステップS98)。
 管理側保持制御部45は、新たに保持できた同一タイムベルト番号の全計算ノード3のジョブ情報を新たなスナップショットとして第1保持領域34Aに更新登録する(ステップS99)。更に、管理側保持制御部45は、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を全て消去し(ステップS100)、図11の処理動作を終了する。
 スナップショット処理制御部32は、送信対象のタイムベルト番号を受信しなかった場合(ステップS91否定)、図11の処理動作を終了する。また、受信情報識別部42は、受信した情報がエラー情報であった場合(ステップS93肯定)、計算ノード3からの受信情報と識別し、全ての計算ノード3からの受信情報の識別が完了したか否かを判定すべく、ステップS96に移行する。
 保持領域監視部43は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がない場合(ステップS97否定)、図11の処理動作を終了する。
 図11に示す管理側スナップショット取得処理では、管理ノード4が、代表ノードから送信依頼対象のタイムベルト番号を受信した場合、送信依頼対象のタイムベルト番号のジョブ情報を各計算ノード3に送信依頼する。その結果、管理ノード4は、代表ノードからの送信依頼対象のタイムベルト番号に応じて、各計算ノード3に対して指定のタイムベルト番号に関わるジョブ情報の送信依頼を実現できる。
 管理側スナップショット取得処理では、管理ノード4が、送信依頼に対する各計算ノード3からの受信情報がジョブ情報であるか否かを判定する。受信情報がジョブ情報の場合、指定のタイムベルト番号又は一世代前のタイムベルト番号のジョブ情報であると判断し、このジョブ情報を管理側保持部34内の当該計算ノード3に対応付けて保持する。その結果、管理ノード4は、各計算ノード3のジョブ情報を管理側保持部34内に三世代分保持できる。
 管理側スナップショット取得処理では、管理ノード4が、新たに全計算ノード3のジョブ情報を保持できたタイムベルト番号が管理側保持部34内にある場合、すなわち同一タイムベルト番号のスナップショットを新たに取得したと判断する。更に、管理ノード4は、同一タイムベルト番号のスナップショットを新たに取得したものと判断し、管理側保持部34に保持中のジョブ情報を消去するクリアを全計算ノード3に依頼する。管理ノード4が新たに保持できた同一タイムベルト番号の全計算ノード3のジョブ情報を新たなスナップショットとして第1保持領域34Aに更新登録すると共に、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を消去する。
 その結果、管理ノード4は、同一タイムベルト番号のジョブ情報に関するスナップショットを第1保持領域34Aに保持したので、最新のスナップショットをユーザに提示できる。更に、管理ノード4は、第2保持領域34B及び第3保持領域34Cのジョブ情報を消去することで、第2保持領域34A及び第3保持領域34Cをジョブ情報の一時的な保持領域として使用できる。
 実施例2では、計算ノード3が計算ノード共通の周期タイミングに応じてジョブ情報を取得し、ジョブ情報を取得した周期タイミングを識別するタイムベルト番号に関連付けして、ジョブ情報を計算側保持部14に保持する。更に、実施例2では、管理ノード4が、送信依頼に応じて各計算ノード3からジョブ情報を受信すると、当該受信したジョブ情報を管理側保持部34に保持する。そして、実施例2では、管理ノード4が、管理側保持部34内に同一タイムベルト番号の計算ノード3に関わるジョブ情報を検出した場合、同一タイムベルト番号のジョブ情報をスナップショットとして保持する。更に、実施例2では、同一タイムベルト番号のジョブ情報をスナップショットとして保持した場合、管理側保持部34に保持中の同一タイムベルト番号のジョブ情報以外のジョブ情報を消去すると共に、計算側保持部14に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングのタイムベルト番号をキーにしてジョブ情報を管理するので、計算ノード3間のジョブ情報の正確なスナップショットを確保できる。
 実施例2では、計算側保持部14に二世代分のジョブ情報を保持可能にする保持領域を備え、管理側保持部34に計算ノード3毎の三世代分のジョブ情報を保持可能にする保持領域を備えた。その結果、例えば、管理ノード4からのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが計算ノード3毎に異なる。従って、管理ノード4側で各計算ノード3のジョブ情報が収集できなくなるような事態を回避してスナップショット取得を保証できる。
 実施例2では、複数の計算ノード3内の1台を代表ノードとし、代表ノードから管理ノード4へ送信依頼対象のタイムベルト番号の通知を契機にして管理ノード4側ではタイムベルト番号をキーにしたジョブ情報の送信依頼を開始する。その結果、代表ノードは、1台で済むため、スナップショットを取得する上での通信負担を軽減できる。
 尚、上記実施例2では、計算ノード3の台数を4台としたが、これら台数に限定するものではない。また、上記実施例2では、複数の計算ノード3内の1台を代表ノードとしたが、1台に限定しなくても良い。また、上記実施例2では、複数の計算ノード3の内の1台を代表ノードとしたが、各計算ノード3を代表ノードとしても良い。
 また、上記実施例2では、計算側保持部14に二世代分のジョブ情報を保持する保持領域を備え、管理側保持部34に三世代分のジョブ情報を保持する保持領域を備えた。しかしながら、計算側保持部14に三世代分のジョブ情報を保持する保持領域を備え、管理側保持部34に四世代分のジョブ情報を保持する保持領域を備えるようにしても良い。
 また、上記実施例2では、管理ノード4からのクリア依頼が各計算ノード3に到達してジョブ情報の消去を実行するまでに要する計算ノード3毎の時間を測定し、その測定結果に基づき、計算ノード3間の最大ズレ時間を算出する。そして、その最大ズレ時間がタイムベルト間隔時間よりも十分短いと想定し、計算側保持部14に二世代分のジョブ情報を保持する保持領域を用意した。
 これに対して、その最大時間差がタイムベルト間隔時間よりも長い場合には、タイムベルト間隔時間のn倍<最大時間差≦タイムベルト間隔の(n+1)倍の条件が成立する場合、計算側保持部14に(n+2)世代分のジョブ情報を保持する保持領域を用意する。更に、管理側保持部34に(n+3)世代分のジョブ情報を保持する保持領域を用意する。例えば、n=1の場合、計算側保持部14に三世代分のジョブ情報を保持する保持領域を用意し、管理側保持部34に四世代分のジョブ情報を保持する保持領域を用意することになる。また、n=2の場合、計算側保持部14に四世代分のジョブ情報を保持する保持領域を用意し、管理側保持部34に五世代分のジョブ情報を保持する保持領域を用意することになる。
 また、上記実施例2では、管理ノード4及び計算ノード3間の2段構成の並列計算機1としたが、計算ノード3及び管理ノード4間の多段構成の並列計算機としても良い。図12は、3段構成の並列計算機を示す説明図である。
 図12に示す並列計算機1Bは、12台の計算ノード3A~3Lと、3台のサブ管理ノード4B~4Dと、1台の管理ノード4Aとを有する。サブ管理ノード4Bは、4台の計算ノード3A~3Dを中継管理する。更に、サブ管理ノード4Cは、4台の計算ノード3E~3Hを中継管理する。更に、サブ管理ノード4Dは、4台の計算ノード3I~3Lを中継管理する。更に、管理ノード4Aは、3台のサブ管理ノード4B~4Dを管理する。
 各計算ノード3A~3Lの計算側保持部14は、第1保持領域14A及び第2保持領域14Bを有する。各サブ管理ノード4B~4Dは、4台分の計算ノードのジョブ情報を三世代分保持する第1保持領域34D、第2保持領域34E及び第3保持領域34Fを有する。
 更に、管理ノード4Aの管理側保持部34は、12台分の計算ノード3A~3Lの同一タイムベルト番号のジョブ情報を三世代分保持する第1保持領域34A、第2保持領域34B及び第3保持領域34Cを有する。
 各計算ノード3A~3Lは、ジョブ開始コマンドから共通周期タイミングのジョブ情報を取得し、そのジョブ情報を計算側保持部14に保持する。各サブ管理ノード4B,4C,4Dは、管理する各計算ノード3A~3D(3E~3H及び3I~3L)からの各ジョブ情報を纏めて収集する。各サブ管理ノード4B,4C及び4Dは、ジョブ情報を収集すると、この収集したジョブ情報を保持する。更に、各サブ管理ノード4B,4C及び4Dは、各計算ノード3A~3D(3E~3H及び3I~3L)のジョブ情報を纏めて管理ノード4Aに送信する。
 つまり、管理ノード4Aは、各計算ノード3A~3Lと個別に通信するのではなく、サブ管理ノード4B、4C及び4Dとの通信で各計算ノード3A~3Lのジョブ情報を収集する。その結果、管理ノード4Aは、サブ管理ノード4B,4C及び4Dと通信して各計算ノード3A~3Lのジョブ情報を収集するため、その通信回数を減らして通信負担を軽減できる。
 図12の例では、管理ノード4A、サブ管理ノード4B~4D及び計算ノード3A~3Lの3階層構造で説明したが、3階層構造に限定するものではなく、4階層以上の階層構造にしても良い。
 また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
 更に、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(又はMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部又は任意の一部を実行するようにしても良い。また、各種処理機能は、CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行するプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしても良いことは言うまでもない。
 ところで、本実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図13を用いて、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図13は、並列計算機のジョブ情報取得プログラムを実行するコンピュータを示す説明図である。
 図13に示すコンピュータ200は、HDD(Hard Disk Drive)210、RAM(Random Access Memory)220、ROM(Read Only Memory)230及びCPU240をバス250で接続して構成される。
 そして、ROM230には、上記の実施例と同様の機能を発揮する計算ノード側のジョブ情報取得プログラムが予め記憶されている。計算ノード側のジョブ情報取得プログラムとしては、図13に示すように、取得プログラム231、保持プログラム232、情報送信プログラム233及び消去プログラム234である。尚、プログラム231~234については、図1に示した計算ノード50の各構成要素と同様、適宜統合又は分散してもよい。
 そして、CPU240が、これらのプログラム231~234をROM230から読み出して実行する。そして、図13に示すように、各プログラム231~234は、取得プロセス241、保持プロセス242、情報送信プロセス243及び消去プロセス244として機能するようになる。
 また、コンピュータ200Aは、HDD210A、RAM220A、ROM230A及びCPU240Aをバス250Aで接続して構成される。
 そして、ROM230Aには、上記の実施例と同様の機能を発揮する管理ノード側のジョブ情報取得プログラムが予め記憶されている。管理ノード側のジョブ情報取得プログラムとしては、図13に示すように、保持プログラム231A、スナップショット保持プログラム232A、消去プログラム233A及び消去依頼プログラム234Aである。尚、プログラム231A~234Aについては、図1に示した管理ノード60の各構成要素と同様、適宜統合又は分散してもよい。
 そして、CPU240Aが、これらのプログラム231A~234AをROM230Aから読み出して実行する。そして、図13に示すように、各プログラム231A~234Aは、保持プロセス241A、スナップショット保持プロセス242A、消去プロセス243A及び消去依頼プロセス244Aとして機能するようになる。
 CPU240は、計算ノード共通の周期タイミングに応じて、計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する。更に、CPU240は、ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にするRAM220内の保持部にジョブ情報を保持する。更に、CPU240は、管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、指定の識別番号に関わるジョブ情報が保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信する。また、CPU240は、当該指定の識別番号に関わるジョブ情報が保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する。
 また、CPU240Aは、送信依頼に応じて各計算ノードからジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にするRAM220A内の保持部に保持する。更に、CPU240Aは、保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。更に、CPU240Aは、同一識別番号のジョブ情報をスナップショットとして保持した場合、当該RAM220A内の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。更に、CPU240Aは、同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する。
 そして、CPU240は、管理ノードからの消去依頼を受信すると、RAM220内の保持部に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングの識別番号をキーにしてジョブ情報を管理するので、計算ノード間のジョブ情報の正確なスナップショットを確保できる。また、例えば、管理ノードからのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが異なることで、管理ノード側で各計算ノードのジョブ情報が収集できなくなるような事態を回避し、スナップショット取得を保証する。
 1 並列計算機
 1A 並列計算機
 3 計算ノード
 4 管理ノード
 14 計算側保持部
 14A 第1保持領域
 14B 第2保持領域
 22 取得処理部
 23 計算側保持制御部
 24 情報送信部
 34 管理側保持部
 34A 第1保持領域
 34B 第2保持領域
 34C 第3保持領域
 41 送信依頼部
 44 クリア依頼部
 45 管理側保持制御部
 50 計算ノード
 51 取得部
 52 保持部
 53 保持制御部
 54 情報送信部
 60 管理ノード
 61 保持部
 62 保持制御部
 63 消去依頼部

Claims (10)

  1.  計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有し、
     前記計算ノードは、
     計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
     前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算ノード側の保持部に保持すると共に、前記管理ノードからの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する計算ノード側の保持制御部と、
     前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する情報送信部と
    を有し、
     前記管理ノードは、
     前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を当該管理ノード側の保持部に保持すると共に、当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の保持制御部と、
     前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノードに対して前記消去依頼を送信する消去依頼部とを有し、
     前記計算ノード側の保持部は、
     所定複数周期分のジョブ情報を保持可能にする保持領域を備え、
     前記管理ノード側の保持部は、
     前記計算ノード毎の前記所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする並列計算機。
  2.  前記管理ノードからの前記消去依頼が各計算ノードに到達してジョブ情報の消去を実行するまでに要する計算ノード毎の時間を測定し、その測定結果に基づき、計算ノード間の最大ズレ時間を算出し、前記周期タイミングの間隔時間のn倍<最大ズレ時間≦前記周期タイミングの間隔時間の(n+1)倍が成立する場合、前記管理ノード側の保持部は、(n+3)周期分のジョブ情報を保持する保持領域を備え、前記計算ノード側の保持部は、(n+2)周期分のジョブ情報を保持する保持領域を備えることを特徴とする請求項1記載の並列計算機。
  3.  前記取得部は、
     前記計算ジョブの実行開始タイミングに応じてタイマ計時動作を開始し、この計時時間に基づき、前記周期タイミングを検出することを特徴とする請求項1又は2に記載の並列計算機。
  4.  前記管理ノードは、
     所定信号に応じて指定の識別番号に関わるジョブ情報の送信を各計算ノードに依頼する送信依頼部を有することを特徴とする請求項1又は2に記載の並列計算機。
  5.  前記複数の計算ノードの内、1台の計算ノードを代表ノードとし、
     当該代表ノードは、当該代表ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別番号を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。
  6.  前記計算ノードは、
     当該計算ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別情報を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。
  7.  計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得プログラムであって、
     計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得手順と、
     前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持手順と、
     前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信手順と
     前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持手順と、
     当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持手順と、
     前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去手順と、
     前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼手順と、
     前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去手順と
    を含むプログラムをコンピュータに実行させることを特徴とする並列計算機のジョブ情報取得プログラム。
  8.  計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得方法であって、
     計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得ステップと、
     前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持ステップと、
     前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信ステップと
     前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持ステップと、
     当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持ステップと、
     前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去ステップと、
     前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼ステップと、
     前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去ステップと
    を有することを特徴とする並列計算機のジョブ情報取得方法。
  9.  計算ジョブを分散して並列的に実行する計算処理部と、
     計算装置共通の周期タイミングに応じて、当該計算装置自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
     前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算装置側の保持部に保持すると共に、計算管理装置からの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する保持制御部と、
     前記計算管理装置から指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を計算管理装置に送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を計算管理装置に送信する情報送信部と
    を有し、
     前記保持部は、
     所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算装置。
  10.  複数の計算装置を管理する管理側処理部と、
     前記計算装置に対する指定の識別番号に関わるジョブ情報の送信依頼に応じて、各計算装置からジョブ情報を受信すると、当該受信したジョブ情報を当該計算管理装置側の保持部に保持すると共に、当該保持部内に同一識別番号の計算装置に関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該計算管理装置側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する保持制御部と、
     前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算装置に保持するジョブ情報を消去する消去依頼を送信する消去依頼部とを有し、
     前記保持部は、
     前記計算装置毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算管理装置。
PCT/JP2010/064639 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 WO2012026041A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP10856443.6A EP2610752B1 (en) 2010-08-27 2010-08-27 Parallel computer, job information acquisition program of parallel computer, and job information acquisition method for parallel computer
PCT/JP2010/064639 WO2012026041A1 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置
JP2012530498A JP5464276B2 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置
US13/778,494 US9336044B2 (en) 2010-08-27 2013-02-27 Parallel computer, and job information acquisition method for parallel computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/064639 WO2012026041A1 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/778,494 Continuation US9336044B2 (en) 2010-08-27 2013-02-27 Parallel computer, and job information acquisition method for parallel computer

Publications (1)

Publication Number Publication Date
WO2012026041A1 true WO2012026041A1 (ja) 2012-03-01

Family

ID=45723068

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/064639 WO2012026041A1 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Country Status (4)

Country Link
US (1) US9336044B2 (ja)
EP (1) EP2610752B1 (ja)
JP (1) JP5464276B2 (ja)
WO (1) WO2012026041A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014010047A1 (ja) * 2012-07-11 2014-01-16 株式会社日立製作所 管理システム及び情報取得方法
JP2015022755A (ja) * 2013-07-23 2015-02-02 富士通株式会社 フォールトトレラントな監視装置、方法及びシステム
US10662234B2 (en) * 2011-06-07 2020-05-26 Mesoblast International Sàrl Methods for repairing tissue damage using protease-resistant mutants of stromal cell derived factor-1

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324014A (ja) * 2001-04-26 2002-11-08 Meidensha Corp 監視制御システム
JP2007128122A (ja) * 2005-11-01 2007-05-24 Hitachi Ltd 稼働性能データ収集開始時刻決定方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63136176A (ja) 1986-11-27 1988-06-08 Casio Comput Co Ltd デ−タ処理装置
JP2940403B2 (ja) 1994-08-03 1999-08-25 株式会社日立製作所 並列計算機システムにおけるモニタデータ収集方法
DE69712552T2 (de) * 1996-02-14 2003-01-09 Hitachi Ltd Verfahren zur Überwachung eines Computersystems mit Leistungsdatenverteilung an mehrere Überwachungsprozesse
US6279001B1 (en) * 1998-05-29 2001-08-21 Webspective Software, Inc. Web service
US8037264B2 (en) * 2003-01-21 2011-10-11 Dell Products, L.P. Distributed snapshot process
DE10327155B4 (de) * 2003-06-13 2006-12-07 Sap Ag Backup-Verfahren mit Anpassung an Computer-Landschaft
US8769572B2 (en) * 2008-03-24 2014-07-01 Verizon Patent And Licensing Inc. System and method for providing an interactive program guide having date and time toolbars

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324014A (ja) * 2001-04-26 2002-11-08 Meidensha Corp 監視制御システム
JP2007128122A (ja) * 2005-11-01 2007-05-24 Hitachi Ltd 稼働性能データ収集開始時刻決定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2610752A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10662234B2 (en) * 2011-06-07 2020-05-26 Mesoblast International Sàrl Methods for repairing tissue damage using protease-resistant mutants of stromal cell derived factor-1
WO2014010047A1 (ja) * 2012-07-11 2014-01-16 株式会社日立製作所 管理システム及び情報取得方法
US9130880B2 (en) 2012-07-11 2015-09-08 Hitachi, Ltd. Management system and information acquisition method
JP2015022755A (ja) * 2013-07-23 2015-02-02 富士通株式会社 フォールトトレラントな監視装置、方法及びシステム
US10069698B2 (en) 2013-07-23 2018-09-04 Fujitsu Limited Fault-tolerant monitoring apparatus, method and system

Also Published As

Publication number Publication date
JP5464276B2 (ja) 2014-04-09
EP2610752B1 (en) 2017-09-27
US9336044B2 (en) 2016-05-10
EP2610752A1 (en) 2013-07-03
EP2610752A4 (en) 2015-11-04
US20130174170A1 (en) 2013-07-04
JPWO2012026041A1 (ja) 2013-10-28

Similar Documents

Publication Publication Date Title
JP5777467B2 (ja) 制御装置およびプログラム
JP4562568B2 (ja) 異常検出プログラムおよび異常検出方法
JP5817348B2 (ja) ファイル同期方法、ファイル同期サーバ装置及びファイル同期プログラム
JP2007334716A (ja) 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
JP5464276B2 (ja) 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置
CN105528366B (zh) 一种数据同步控制方法和装置
JP2007080171A (ja) 機器管理装置、機器管理方法、プログラム及び記録媒体
US8930532B2 (en) Session management in a thin client system for effective use of the client environment
CN110737526A (zh) 一种基于Redis的分布式集群下的定时任务管理方法及装置
JP6613763B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US11132223B2 (en) Usecase specification and runtime execution to serve on-demand queries and dynamically scale resources
JP2011159011A (ja) ジョブ監視システム及びジョブ監視プログラム
US20210149726A1 (en) Scheduling device, scheduling system, scheduling method, and non-transitory computer-readable medium
US11797356B2 (en) Multi-instrument behavior synchronization using jobs and milestones
JP2010009288A (ja) マルチプロセッサシステム及びプログラム実行方法
JP4962239B2 (ja) リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム
JP5614346B2 (ja) 試験方法、試験プログラム、及び情報処理装置
JP2011128959A (ja) ジョブ管理装置、ジョブ管理方法及びジョブ管理プログラム
JP5054495B2 (ja) 計算機システム、データ管理方法、データ管理プログラム及び処理装置
JP2012043148A (ja) 監視装置及び監視プログラム
JP2004264954A (ja) Cpu使用率測定システム
JP2009075724A (ja) 管理装置、管理システム、管理プログラム、および、管理方法
JP6620524B2 (ja) 処理分散制御装置、処理分散制御方法および処理分散制御プログラム
JP2013089061A (ja) 情報処理装置とプログラム
JP2015064848A (ja) ジョブ管理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10856443

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012530498

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2010856443

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010856443

Country of ref document: EP