JPWO2012026041A1 - 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 - Google Patents

並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 Download PDF

Info

Publication number
JPWO2012026041A1
JPWO2012026041A1 JP2012530498A JP2012530498A JPWO2012026041A1 JP WO2012026041 A1 JPWO2012026041 A1 JP WO2012026041A1 JP 2012530498 A JP2012530498 A JP 2012530498A JP 2012530498 A JP2012530498 A JP 2012530498A JP WO2012026041 A1 JPWO2012026041 A1 JP WO2012026041A1
Authority
JP
Japan
Prior art keywords
job information
calculation
node
identification number
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012530498A
Other languages
English (en)
Other versions
JP5464276B2 (ja
Inventor
竹下 弘人
弘人 竹下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012026041A1 publication Critical patent/JPWO2012026041A1/ja
Application granted granted Critical
Publication of JP5464276B2 publication Critical patent/JP5464276B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3404Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

計算ジョブを分散して並列的に実行する複数の計算ノード(50)と、これら複数の計算ノードを管理する管理ノード(60)とを有する並列計算機(1A)において、計算ノード(50)に自分が取得した複数世代分のジョブ情報を保持する計算側保持部(14)を備え、管理ノード(60)に、各計算ノード(50)から収集した複数世代分のジョブ情報を保持する管理側保持部(34)を備えたので、管理ノード(60)は、各計算ノード(50)の計算側保持部(14)に保持された複数世代分のジョブ情報を使用して並列計算機(1A)で実行中の計算ジョブの正確なスナップショットを保証する。

Description

本発明は、並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置に関する。
並列計算機は、例えば、多数のコンピュータ(以下、単に計算ノードと称する)をネットワークで接続し、計算ジョブを個々の計算ノードに分散させて並列的に計算ジョブを実行させることで、大規模計算を高速に処理できる。従って、この並列計算機の需要は急速に高まりつつあるのが実情である。
並列計算機は、複数の計算ノードで構成する計算ノード群を管理するノード(以下、単に管理ノードと称する)を有するのが一般的である。並列計算機では、現在実行中の計算ジョブが各計算ノードで使用するCPU、メモリやファイル等の各資源の使用量や、計算ジョブによって実行された命令数等の情報(以下、単にジョブ情報と称する)を管理ノード側で認識できる技術が求められている。
そこで、計算ジョブが実行される各計算ノードでは、同一時刻のジョブ情報、すなわちスナップショットの取得が必要である。図14は、並列計算機のスナップショット取得方法を示す説明図である。図14に示す並列計算機110では、複数の計算ノード111を管理する管理ノード112で現在時刻を管理し、現在時刻が所定時刻に到達すると、ジョブ情報の取得を各計算ノード111に依頼する(ステップS211)。各計算ノード111は、ジョブ情報の取得依頼に応じて自分が担当するジョブ情報を取得する(ステップS212)。各計算ノード111は、ジョブ情報を取得すると、このジョブ情報を管理ノード112に転送する(ステップS213)。この結果、図14に示す並列計算機110の管理ノード112では、各計算ノード111の同一時刻(タイミング)のジョブ情報、すなわちスナップショットを取得できる。
図15は、並列計算機120の他のスナップショット取得方法を示す説明図である。図15に示す並列計算機120では、各計算ノード121が現在時刻を管理している。各計算ノード121は、現在時刻が所定時刻に到達すると、自分が担当するジョブ情報を取得する(ステップS221)。そして、各計算ノード121は、自分が担当するジョブ情報を取得すると、そのジョブ情報を管理ノード122に転送する(ステップS222)。その結果、図15に示す並列計算機120の管理ノード122では、各計算ノード121の同一時刻(タイミング)のジョブ情報、すなわちスナップショットを取得できる。
特開平8−44680号公報 特開昭63−136176号公報
図14に示す並列計算機110では、管理ノード112からジョブ情報の取得依頼が各計算ノード111に到達するまでのタイミングにズレが生じると、計算ノード111間でジョブ情報の取得タイミングも同期できず、正確なスナップショットが取得できない。
また、図15に示す並列計算機120では、各計算ノード121から非同期でジョブ情報が送られてくるため、各計算ノード121から送信された同一時刻(同一タイミング)のジョブ情報が次のジョブ情報取得時刻までに管理ノード122に全て届くとは限らない。その結果、他の時刻のジョブ情報が混在して送られてくることも考え得る。つまり、並列計算機120では、同一タイミングの各計算ノード121のジョブ情報を把握できていないため、正確なスナップショットが取得できない。
1つの側面では、並列計算機の各計算ノードで実行中のジョブに関わる同一タイミングのジョブ情報を取得できる並列計算機等を提供することにある。
本願の開示する並列計算機は、一つの態様において、計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有し、前記計算ノードは、取得部と、計算ノード側の保持部と、計算ノード側の保持制御部と、情報送信部とを有し、前記管理ノードは、管理側ノードの保持部と、管理ノード側の保持制御部と、消去依頼部とを有する。取得部は、計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する。計算ノード側の保持制御部は、取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算ノード側の保持部に保持すると共に、前記管理ノードからの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する。情報送信部は、管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信する。また、情報送信部は、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する。また、管理ノード側の保持制御部は、前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を当該管理ノード側の保持部に保持する。また、管理ノード側の保持制御部は、当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。また、管理ノード側の保持制御部は、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。消去依頼部は、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノードに対して前記消去依頼を送信する。また、前記計算ノード側の保持部は、所定複数周期分のジョブ情報を保持可能にする保持領域を備え、前記管理ノード側の保持部は、前記計算ノード毎の前記所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。
一つの態様では、並列計算機の各計算ノードで実行中のジョブに関わる同一タイミングのジョブ情報を取得できる。
図1は、実施例1の並列計算機を示すブロック図である。 図2は、実施例2の並列計算機を示すブロック図である。 図3は、並列計算機の説明図である。 図4は、ジョブ情報の取得周期(タイムベルト)の説明図である。 図5は、計算側保持部を二世代分にした理由を示す説明図である。 図6は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図7は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図8は、並列計算機のスナップショット取得に関わる動作遷移の一例を示す説明図である。 図9は、代表ノード側ジョブ取得処理に関わる代表ノード内部の処理動作を示すフローチャートである。 図10は、計算ノード側ジョブ取得処理に関わる計算ノード内部の処理動作を示すフローチャートである。 図11は、管理ノード側スナップショット取得処理に関わる管理ノード内部の処理動作を示すフローチャートである。 図12は、実施例3の並列計算機を示す説明図である。 図13は、並列計算機のジョブ情報取得プログラムを実行するコンピュータを示す説明図である。 図14は、並列計算機のスナップショット取得方法を示す説明図である。 図15は、並列計算機の他のスナップショット取得方法を示す説明図である。
以下、図面に基づいて、本願の開示する並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置の実施例を詳細に説明する。尚、本実施例により、開示技術が限定されるものではない。
図1は、実施例1の並列計算機を示すブロック図である。図1に示す並列計算機1Aは、計算ジョブを分散して並列的に実行する複数の計算ノード50と、これら複数の計算ノード50を管理する管理ノード60とを有する。計算ノード50は、取得部51と、保持部52と、保持制御部53と、情報送信部54とを有する。取得部51は、計算ノード共通の周期タイミングに応じて、当該計算ノード50自体が担当する計算ジョブに関わるジョブ情報を取得する。
保持制御部53は、取得部51がジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を計算ノード50側の保持部52に保持する。また、保持制御部53は、管理ノード60からの消去依頼を受信すると、保持部52に保持中のジョブ情報を全て消去する。保持部52は、所定複数周期分、例えば2周期(世代)分の自分のジョブ情報を保持する保持領域を備えている。
また、情報送信部54は、管理ノード60から指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部52内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノード60に送信する。また、情報送信部54は、当該指定の識別番号に関わるジョブ情報が当該保持部52内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノード60に送信する。尚、識別番号直前の識別番号とは、例えば、一世代前の識別番号に相当する。
管理ノード60は、保持部61と、保持制御部62と、消去依頼部63とを有する。保持部61は、計算ノード50毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。保持制御部62は、送信依頼に応じて各計算ノード50からジョブ情報を受信すると、当該受信したジョブ情報を管理ノード60側の保持部61に保持する。また、保持制御部62は、保持部61内に同一識別番号の全計算ノード50に関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。保持制御部62は、同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード60側の保持部61に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。消去依頼部63は、同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノード50に対して消去依頼を送信する。
実施例1では、計算ノード50が計算ノード共通の周期タイミングに応じてジョブ情報を取得し、ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を計算ノード50側の保持部52に保持する。更に、実施例1では、管理ノード60が、送信依頼に応じて各計算ノード50からジョブ情報を受信すると、当該受信したジョブ情報を管理ノード60側の保持部61に保持する。そして、実施例1では、計算ノード50が、保持部61内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。更に、実施例1では、同一識別番号のジョブ情報をスナップショットとして保持した場合、管理ノード60側の保持部61に保持中の同一識別番号のジョブ情報以外のジョブ情報を消去すると共に、計算ノード50側の保持部52に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングの識別番号をキーにしてジョブ情報を管理するので、計算ノード50間のジョブ情報の正確なスナップショットを確保できる。
実施例1では、計算ノード50側の保持部52に所定複数周期分のジョブ情報を保持可能にする保持領域を備え、管理ノード60側の保持部61に計算ノード50毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えた。その結果、例えば、管理ノード60からのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが計算ノード50毎に異なる。従って、管理ノード60側で各計算ノード50のジョブ情報が収集できなくなるような事態を回避して、並列計算機1Aで実行中の計算ジョブの正確なスナップショットを保証できる。
図2は、実施例2の並列計算機を示すブロック図、図3は、並列計算機の説明図である。図2に示す並列計算機1は、ネットワーク2に接続された複数の計算ノード3と、これら複数の計算ノード3を管理する管理ノード4とを有し、計算ジョブを個々の計算ノード3に分散させて並列的に計算を実行させる。尚、説明の便宜上、計算ノード3(3A〜3D)を4台としたが、この台数に限定するものではない。
計算ノード3は、例えば、コンピュータに相当し、計算ジョブを実行する。計算ノード3は、計算処理部11と、ジョブ情報処理制御部12と、計算側通信部13と、計算側保持部14とを有する。計算処理部11は、分散された計算ジョブの内、自分が担当する計算ジョブを実行する。計算側通信部13は、ネットワーク2経由で管理ノード4と通信する。計算側保持部14は、例えば、バッファ等に相当し、二世代分、すなわち2タイムベルト分のジョブ情報を保持する第1保持領域14A及び第2保持領域14Bを有する。
ジョブ情報処理制御部12は、タイミング検出部21と、取得処理部22と、計算側保持制御部23と、情報送信部24とを有する。タイミング検出部21は、自分が担当するジョブ情報を取得するタイミングを検出する。タイミング検出部21は、計算ノード3共通のジョブ開始コマンドに応じてタイマ動作を開始する。尚、図4は、ジョブ情報の取得周期(タイムベルト)の説明図である。タイミング検出部21は、計算ノード共通の周期タイミング、すなわち図4のタイムベルトを使用してジョブ情報の取得タイミングを検出する。取得処理部22は、タイミング検出部21にてジョブ情報の取得タイミングを検出すると、自分が担当するジョブ情報を取得する。
計算側保持制御部23は、計算側保持部14を保持制御し、取得処理部22にて取得されたジョブ情報を計算側保持部14に保持する。尚、ジョブ情報は、ジョブ情報内容、情報有無、ノード情報、タイムベルト番号及び情報取得日時等を含む。ジョブ情報内容は、ジョブを識別するジョブIDと、自分が担当するジョブで使用するCPU、メモリ及びファイル等の各資源の使用量や、ジョブによって実行された命令数等を含む。情報有無は、ジョブ情報内容の情報有無を示す情報である。尚、情報有無が「あり」の場合、ジョブ情報内容があるジョブ情報に相当し、情報有無が「なし」の場合、当該ジョブ情報は後述するエラー情報に相当する。ノード情報は、当該ジョブ情報の出所となる計算ノード3を識別するノードIDに相当する。タイムベルト番号は、ジョブ情報を取得した計算ノード3共通の周期タイミングを識別する番号に相当する。情報取得日時は、ジョブ情報を取得した日時に相当する。
計算側保持制御部23は、ジョブ情報の取得タイミングに応じて、自分が担当するジョブ情報を取得すると、計算側保持部14内の保持領域に空きがあるか否かを判定する。計算側保持制御部23は、空きがある場合、ジョブ情報を計算側保持部14内に保持する。また、計算側保持制御部23は、空きがないため、ジョブ情報の保持を禁止する。
計算側保持制御部23は、管理ノード4から、後述する指定タイムベルト番号の送信依頼に応じて、計算側保持部14内に指定タイムベルト番号のジョブ情報があるか否かを判定する。計算側保持制御部23は、計算側保持部14内に指定タイムベルト番号のジョブ情報がある場合、計算側通信部13経由で、この指定タイムベルト番号のジョブ情報を管理ノード4に送信する。また、計算側保持制御部23は、計算側保持部14内に指定タイムベルト番号のジョブ情報がない場合、計算側保持部14内に、指定タイムベルト番号の一世代前のジョブ情報があるか否かを判定する。また、計算側保持制御部23は、指定タイムベルト番号の一世代前のジョブ情報がある場合、計算側通信部13経由で、一世代前のジョブ情報を管理ノード4に送信する。また、計算側保持制御部23は、指定タイムベルト番号の一世代前のジョブ情報がない場合、計算側通信部13経由で、エラー情報を管理ノード4に送信する。また、計算側保持制御部23は、管理ノード4からの後述するクリア依頼に応じて計算側保持部14内に保持したジョブ情報を全て消去する。
尚、説明の便宜上、4台の計算ノード3(3A〜3D)の内、例えば、1台の計算ノード3Aを代表ノードとする。代表ノードは、計算ノード3とほぼ同一の内部構成であるが、次に説明する機能を備えることを特徴とする。代表ノードのジョブ情報処理制御部12は、計算ノード3共通の周期タイミングに応じてジョブ情報を取得し、このジョブ情報を計算側保持部14に保持する。更に、ジョブ情報処理制御部12は、ジョブ情報を計算側保持部14内に保持すると、計算側通信部13経由で、当該ジョブ情報のタイムベルト番号を送信依頼対象として管理ノード4に通知する機能を備える。
管理ノード4は、例えば、コンピュータに相当し、ネットワーク2で各計算ノード3と接続し、各計算ノード3を管理する。管理ノード4は、管理側処理部31と、スナップショット処理制御部32と、管理側通信部33と、管理側保持部34とを有する。管理側処理部31は、分散された計算ノード3を管理する。管理側通信部33は、ネットワーク2経由で各計算ノード3と通信する。管理側保持部34は、例えば、バッファ等に相当し、計算ノード3毎に三世代分、すなわち3タイムベルト分のジョブ情報を保持する第1保持領域34A、第2保持領域34B及び第3保持領域34Cを有する。尚、第1保持領域34Aは、スナップショットに関わるジョブ情報を保持し、第2保持領域34B及び第3保持領域34Cは、スナップショットを取得すべく、ジョブ情報を一時的に保持するのに使用する。尚、第1保持領域34Aは、スナップショットのジョブ情報が保持されていない状態では、第2保持領域34B及び第3保持領域34Bと同様にジョブ情報を一時的に保持するのに使用する。
スナップショット処理制御部32は、送信依頼部41と、受信情報識別部42と、保持領域監視部43と、クリア依頼部44と、管理側保持制御部45とを有する。送信依頼部41は、代表ノードからの送信依頼対象のタイムベルト番号を受信すると、管理側通信部33経由で、タイムベルト番号に関わるジョブ情報の送信を各計算ノード3に依頼する。受信情報識別部42は、各計算ノード3に対する指定タイムベルト番号の送信依頼に応じて受信した各計算ノード3の受信情報を識別する。尚、受信情報は、計算ノード3から受信する、例えば、指定タイムベルト番号のジョブ情報、指定タイムベルト番号の一世代前のタイムベルト番号のジョブ情報やエラー情報等である。
保持領域監視部43は、第1保持領域34A、第2保持領域34B及び第3保持領域34Cに保持された各計算ノード3のジョブ情報を監視する。更に、保持領域監視部43は、ジョブ情報の監視結果に基づき、新たに全計算ノード3のジョブ情報を保持できたタイミングに相当するタイムベルト番号があるか否かを判定する。管理側保持制御部45は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がある場合、同一タイムベルト番号のスナップショットを新たに取得したと判断し、当該同一タイムベルト番号の全計算ノード3のジョブ情報を第1保持領域34Aに更新登録する。更に、管理側保持制御部45は、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を全て消去する。また、クリア依頼部44は、新たなスナップショットを取得した場合、管理側通信部33経由で、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを依頼する。
尚、管理ノード4は、例えば、ユーザ端末からのスナップショット提示要求を検出すると、管理側保持部34内の第1保持領域34Aに保持中の同一タイムベルト番号の全計算ノード3のジョブ情報をスナップショットとしてユーザ端末に提示することになる。つまり、ユーザは、現在実行中の計算ジョブについて各計算ノード3のジョブ情報を把握できる。
次に、計算側保持部14を二世代分、すなわち2タイムベルト分のジョブ情報を保持する領域にした理由について説明する。図5は、計算側保持部14を二世代分にした理由を示す説明図である。管理ノード4では、新たなスナップショットのジョブ情報が保持されると、クリア依頼を各計算ノード3に発行する。
図5では、計算ノード3Bは、管理ノード4からクリア依頼が届いたタイミングがタイムベルト番号T2のジョブ情報を取得中のタイミングの場合、計算側保持部14に保持されたタイムベルト番号T2までのジョブ情報が全て消去される。その結果、計算ノード3Bでは、次に取得すべきジョブ情報がタイムベルト番号T3のジョブ情報となる。
また、計算ノード3Cは、管理ノード4からクリア依頼が届いたタイミングがタイムベルト番号T3のジョブ情報を取得中のタイミングの場合、計算側保持部14に保持されたタイムベルト番号T3までのジョブ情報が全て消去される。その結果、計算ノード3Bでは、次に取得すべきジョブ情報がタイムベルト番号T4のジョブ情報となる。
つまり、クリア依頼が届くタイミングが計算ノード3間で異なるため、取得すべきジョブ情報が一世代分、すなわち1タイムベルト分ずれてしまう場合がある。従って、各計算ノード3の計算側保持部14では、1タイムベルト分のズレを吸収するために2タイムベルト分のジョブ情報を保持する保持領域として第1保持領域14A及び第2保持領域14Bを準備した。
更に、管理側保持部34を三世代分、すなわち3タイムベルト分のジョブ情報を保持する領域にした理由について説明する。例えば、同一タイムベルト番号T1の全計算ノード3分のジョブ情報を保持、すなわちタイムベルト番号T1のスナップショットを取得した場合、第1保持領域34Aに当該タイムベルト番号のジョブ情報を保持する。そして、次のタイムベルト番号の全計算ノード3のジョブ情報が保持されるまで第2保持領域34B及び第3保持領域34Cを使用する。しかしながら、前述した通り、クリア依頼に対する計算ノード3間のズレが一世代分の場合、各計算ノード3から管理ノード4に送られてくるジョブ情報も一世代分ずれる。従って、管理側保持部34でも、スナップショットのジョブ情報を保持するのに第1保持領域34Aを使用し、1タイムベルト分のズレを吸収するために2タイムベルト分のジョブ情報を保持する保持領域として第2保持領域34B及び第3保持領域34Cを準備した。
次に、実施例2の並列計算機1Aの動作について説明する。図6乃至図8は、並列計算機1Aのスナップショット取得に関わる動作遷移の一例を示す説明図である。尚、説明の便宜上、計算ノード3(3A〜3D)を4台とし、計算ノード3Aを代表ノードとした。図6において各計算ノード3A,3C及び3Dは、例えば、ジョブ開始コマンドからタイムベルト番号T1のタイミングに応じてジョブ情報を取得し、そのジョブ情報を計算側保持部14に保持する。尚、計算ノード3A,3C,3Dの第1保持領域14Aには、タイムベルト番号T1のジョブ情報を保持した状態である。計算ノード3Bは、何らかの要因でジョブ開始コマンドの受信が遅れてタイムベルト番号T1のジョブ情報を取得できず、第1保持領域14Aには情報が保持されていない状態である。
計算ノード3Aは、代表ノードであるため、タイムベルト番号T1のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T1を管理ノード4に通知する(ステップS11)。管理ノード4は、計算ノード3Aのタイムベルト番号T1を受信すると、このタイムベルト番号T1のジョブ情報の送信を全計算ノード3に依頼する(ステップS12)。
各計算ノード3は、タイムベルト番号T1のジョブ情報の送信依頼を受信すると、タイムベルト番号T1のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T1のジョブ情報が計算側保持部14内にある各計算ノード3A,3C及び3Dは、タイムベルト番号T1のジョブ情報を管理ノード4に送信する(ステップS13)。また、タイムベルト番号T1のジョブ情報が計算側保持部14内になく、しかも一世代前のジョブ情報もない計算ノード3Bは、エラー情報を管理ノード4に送信する(ステップS13A)。
管理ノード4は、計算ノード3A,3C及び3Dのタイムベルト番号T1のジョブ情報を受信すると、タイムベルト番号T1のジョブ情報を計算ノード3A,3C及び3D対応の第1保持領域34Aに保持する。また、管理ノード4は、計算ノード3Bのエラー情報を受信した場合、計算ノード3B対応の第1保持領域34Aに情報を保持しない。
次に、各計算ノード3A,3C及び3Dは、タイムベルト番号T2のタイミングに応じてタイムベルト番号T2のジョブ情報を取得し、そのジョブ情報を計算側保持部14の第2保持領域14Bに保持した状態である。また、計算ノード3Bは、タイムベルト番号T1のタイミングに応じてタイムベルト番号T1のジョブ情報を取得し、このジョブ情報を計算側保持部14の第1保持領域14Aに保持した状態である。
この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T2のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T2を管理ノード4に通知する(ステップS14)。管理ノード4は、当該タイムベルト番号T2を受信すると、このタイムベルト番号T2のジョブ情報の送信を全計算ノード3に依頼する(ステップS15)。
図7において各計算ノード3は、タイムベルト番号T2のジョブ情報の送信依頼を受信すると、タイムベルト番号T2のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T2のジョブ情報が計算側保持部14内にある各計算ノード3A,3C及び3Dは、タイムベルト番号T2のジョブ情報を管理ノード4に送信する(ステップS16)。また、タイムベルト番号T2のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T1が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T1のジョブ情報を管理ノード4に通知する(ステップS16A)。
管理ノード4は、計算ノード3A,3C及び3Dのタイムベルト番号T2のジョブ情報を受信すると、タイムベルト番号T2のジョブ情報を計算ノード3A,3C及び3D対応の第2保持領域34Bに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T1のジョブ情報を受信すると、タイムベルト番号T1のジョブ情報を計算ノード3B対応の第1保持領域34Aに保持する。その結果、第1保持領域34Aには、タイムベルト番号T1の全計算ノード3のジョブ情報が保持される、すなわちタイムベルト番号T1のスナップショットが取得されたことになる。
そして、管理ノード4は、タイムベルト番号T1のスナップショットが取得されると、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを全計算ノード3に依頼する(ステップS17)。更に、管理ノード4は、第1保持領域34Aにタイムベルト番号T1のジョブ情報を保持したまま、第2保持領域34B及び第3保持領域34Cに保持中の全ジョブ情報を消去する(ステップS18)。
更に、各計算ノード3は、管理ノード4からのクリア依頼を受信すると、第1保持領域14A及び第2保持領域14Bに保持中の全ジョブ情報を消去する(ステップS19)。
次に、各計算ノード3A、3C及び3Dは、タイムベルト番号T4のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T4のジョブ情報を第1保持領域14Aに保持する。同様に、計算ノード3Bは、タイムベルト番号T3のタイミングに応じてジョブ情報を取得し、そのジョブ情報を第1保持領域14Aに保持する。
この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T4のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T4を管理ノード4に通知する(ステップS20)。管理ノード4は、計算ノード3Aのタイムベルト番号T4を受信すると、このタイムベルト番号T4のジョブ情報の送信を全計算ノード3に依頼する(ステップS21)。
図8において各計算ノード3は、タイムベルト番号T4のジョブ情報の送信依頼を受信すると、タイムベルト番号T4のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T4のジョブ情報が計算側保持部14内にある計算ノード3A、3C及び3Dは、当該タイムベルト番号T4のジョブ情報を管理ノード4に通知する(ステップS22)。また、タイムベルト番号T4のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T3のジョブ情報が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T3のジョブ情報を管理ノード4に通知する(ステップS22A)。
管理ノード4は、計算ノード3A、3C及び3Dのタイムベルト番号T4のジョブ情報を受信すると、タイムベルト番号T4のジョブ情報を計算ノード3A、3C及び3D対応の第2保持領域34Bに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T3のジョブ情報を受信すると、タイムベルトT3のジョブ情報を計算ノード3B対応の第2保持領域34Bに保持する。尚、第1保持領域34Aには、タイムベルト番号T1の全計算ノード3のジョブ情報がスナップショットとして保持されたままである。
次に、各計算ノード3A、3C及び3Dは、タイムベルト番号T5のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T5のジョブ情報を第2保持領域14Bに保持する。同様に、計算ノード3Bは、タイムベルト番号T4のタイミングに応じてジョブ情報を取得し、そのタイムベルト番号T4のジョブ情報を第2保持領域14Bに保持する。
この際、計算ノード3Aは、代表ノードであるため、タイムベルト番号T5のジョブ情報を計算側保持部14に保持すると、そのタイムベルト番号T5を管理ノード4に通知する(ステップS23)。管理ノード4は、計算ノード3Aのタイムベルト番号T5を受信すると、このタイムベルト番号T5のジョブ情報の送信を全計算ノード3に依頼する(ステップS24)。
各計算ノード3は、タイムベルト番号T5のジョブ情報の送信依頼を受信すると、タイムベルト番号T5のジョブ情報が計算側保持部14内にあるか否かを判定する。タイムベルト番号T5のジョブ情報が計算側保持部14内にある場合の計算ノード3A、3C及び3Dは、当該タイムベルト番号T5のジョブ情報を管理ノード4に送信する(ステップS25)。また、タイムベルト番号T5のジョブ情報が計算側保持部14内になく、一世代前のジョブ情報、すなわちタイムベルト番号T4のジョブ情報が計算側保持部14内にある計算ノード3Bは、タイムベルト番号T4のジョブ情報を管理ノード4に通知する(ステップS25A)。
管理ノード4は、計算ノード3A、3C及び3Dのタイムベルト番号T5のジョブ情報を受信すると、タイムベルト番号T5のジョブ情報を計算ノード3A、3C及び3D対応の第3保持領域34Cに保持する。また、管理ノード4は、計算ノード3Bのタイムベルト番号T4のジョブ情報を受信すると、タイムベルトT4のジョブ情報を計算ノード3B対応の第3保持領域34Cに保持する。その結果、第2保持領域34Bの計算ノード3A,3C及び3D対応のタイムベルト番号T4のジョブ情報と、第3保持領域34Cの計算ノード3B対応のタイムベルト番号T4のジョブ情報とでタイムベルト番号T4の全計算ノード3のジョブ情報が保持される。すなわち、タイムベルト番号T4のスナップショットが取得されたことになる。
そして、管理ノード4は、タイムベルト番号T4のスナップショットが取得されると、全計算ノード3の計算側保持部14に保持中のジョブ情報を全て消去するクリアを全計算ノード3に依頼する(ステップS26)。そして、管理ノード4は、第1保持領域34Aにタイムベルト番号T1のジョブ情報をタイムベルト番号T4のジョブ情報に上書き更新し、第2保持領域34B及び第3保持領域34Cに保持中の全ジョブ情報を消去する(ステップS27)。
更に、各計算ノード3は、管理ノード4からのクリア依頼を受信すると、第1保持領域14A及び第2保持領域14Bに保持中の全ジョブ情報を消去する(ステップS28)。従って、このような一連の処理動作を繰り返すことで管理ノード4の第1保持領域34Aには最新のスナップショットが保持できる。その結果、管理ノード4は、ユーザ端末からスナップショット提示要求を検出したとしても、第1保持領域34Aに保持中の最新のスナップショットとして提示できる。
次に、代表ノードである計算ノード3Aのジョブ取得処理について説明する。図9は、代表ノード側ジョブ取得処理に関わる計算ノード3Aの処理動作を示すフローチャートである。図9において計算ノード3Aのジョブ情報処理制御部12内のタイミング検出部21は、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS51)。ジョブ情報処理制御部12内の取得処理部22は、ジョブ情報の取得タイミングを検出した場合(ステップS51肯定)、ジョブ情報取得処理を実行し(ステップS52A)、自分の担当するジョブ情報を取得できたか否かを判定する(ステップS52)。
ジョブ情報処理制御部12内の計算側保持制御部23は、自分が担当するジョブ情報を取得できた場合(ステップS52肯定)、計算側保持部14内に空きがあるか否かを判定する(ステップS53)。計算側保持制御部23は、計算側保持部14内に空きがある場合(ステップS53肯定)、そのタイムベルト番号のジョブ情報を計算側保持部14内に保持する(ステップS54)。
ジョブ情報処理制御部12内の情報送信部24は、タイムベルト番号のジョブ情報を計算側保持部14内に保持すると、当該タイムベルト番号を送信依頼対象のタイムベルト番号として管理ノード4に通知する(ステップS55)。計算側保持制御部23は、管理ノード4から送信依頼対象のタイムベルト番号を指定したジョブ情報の送信依頼を受信したか否かを判定する(ステップS56)。計算側保持制御部23は、ジョブ情報の送信依頼を受信した場合(ステップS56肯定)、計算側保持部14内に保持中の送信依頼のタイムベルト番号に関わるジョブ情報を管理ノード4に送信する(ステップS57)。
計算側保持制御部23は、管理ノード4からクリア依頼を受信したか否かを判定する(ステップS58)。計算側保持制御部23は、クリア依頼を受信した場合(ステップS58肯定)、計算側保持部14に保持中の全ジョブ情報を消去し(ステップS59)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS51に移行する。
また、計算側保持制御部23は、クリア依頼を受信しなかった場合(ステップS58否定)、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS60)。計算側保持制御部23は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS60否定)、クリア依頼を受信したか否かを判定すべく、ステップS58に移行する。計算側保持制御部23は、ジョブ情報の取得タイミングを検出した場合(ステップS60肯定)、ジョブ情報の取得処理を実行すべく、ステップS52Aに移行する。
また、タイミング検出部21は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS51否定)、ジョブ情報の取得タイミングを継続監視すべく、ステップS51に移行する。また、取得処理部22は、ジョブ情報を取得できなかった場合(ステップS52否定)、ジョブ情報の取得タイミングを検出すべく、ステップS51に移行する。
また、計算側保持制御部23は、計算側保持部14内に空きがない場合(ステップS53否定)、当該タイムベルト番号のジョブ情報を計算側保持部14に保持せず(ステップS61)、ジョブ情報の取得タイミングを検出すべく、ステップS51に移行する。
また、計算側保持制御部23は、ジョブ情報の送信依頼を受信しなかった場合(ステップS56否定)、当該ジョブ情報送信依頼の監視動作を継続すべく、ステップS56に移行する。尚、ステップS56は代表ノードが実行する処理であることから、自分が管理ノード4からの送信依頼を促す送信依頼対象のタイムベルト番号を通知しているため、正常な場合、必ず管理ノード4から送信依頼を受信することになる。
図9に示す代表ノード側ジョブ取得処理では、代表ノードが計算ノード共通の取得タイミングに応じてジョブ情報を取得すると、計算側保持部14内に空きがあるか否かを判定する。計算側保持部14内に空きがある場合、取得タイミングを識別するタイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持する。その結果、代表ノードは、タイムベルト番号に関連付けてジョブ情報を二世代分まで保持できる。
代表ノード側ジョブ取得処理では、タイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持すると、当該タイムベルト番号を送信依頼対象として管理ノード4に通知する。その結果、代表ノードは、送信依頼対象のジョブ情報のタイムベルト番号を管理ノード4側に報知できる。
代表ノード側ジョブ取得処理では、管理ノード4から指定のタイムベルト番号のジョブ情報の送信依頼に応じて、当該指定のタイムベルト番号のジョブ情報を管理ノード4に送信する。その結果、代表ノードは、送信依頼対象のジョブ情報を管理ノード4側に送信できる。
代表ノード側ジョブ取得処理では、管理ノード4からクリア依頼を受信した場合、計算側保持部14内に保持中の全てのジョブ情報を消去する。その結果、代表ノードは、管理ノード4側で最新のスナップショットを取得させるべく、新たなジョブ情報を計算側保持部14に保持できる。
次に、代表ノード以外の各計算ノード3のジョブ取得処理について説明する。図10は、計算ノード側ジョブ取得処理に関わる計算ノード3の処理動作を示すフローチャートである。図10において計算ノード3のジョブ情報処理制御部12内のタイミング検出部21は、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS71)。取得処理部22は、ジョブ情報の取得タイミングを検出した場合(ステップS71肯定)、ジョブ情報取得処理を実行し(ステップS72)、自分の担当するジョブ情報を取得できたか否かを判定する(ステップS73)。
計算側保持制御部23は、自分が担当するジョブ情報を取得できた場合(ステップS73肯定)、計算側保持部14内に空きがあるか否かを判定する(ステップS74)。計算側保持制御部23は、計算側保持部14内に空きがある場合(ステップS74肯定)、そのタイムベルト番号のジョブ情報を計算側保持部14内に保持する(ステップS75)。
計算側保持制御部23は、管理ノード4から送信依頼対象のタイムベルト番号を指定したジョブ情報の送信依頼を受信したか否かを判定する(ステップS76)。計算側保持制御部23は、ジョブ情報の送信依頼を受信した場合(ステップS76肯定)、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にあるか否かを判定する(ステップS77)。
情報送信部24は、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にある場合(ステップS77肯定)、送信依頼のタイムベルト番号のジョブ情報を管理ノード4に送信する(ステップS78)。計算側保持制御部23は、管理ノード4からクリア依頼を受信したか否かを判定する(ステップS79)。計算側保持制御部23は、クリア依頼を受信した場合(ステップS79肯定)、計算側保持部14に保持中の全ジョブ情報を消去し(ステップS80)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS71に移行する。
また、計算側保持制御部23は、クリア依頼を受信しなかった場合(ステップS79否定)、ジョブ情報の取得タイミングを検出したか否かを判定する(ステップS81)。計算側保持制御部23は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS81否定)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。計算側保持制御部23は、ジョブ情報の取得タイミングを検出した場合(ステップS81肯定)、ジョブ情報取得処理を実行すべく、ステップS72に移行する。
また、タイミング検出部21は、ジョブ情報の取得タイミングを検出しなかった場合(ステップS71否定)、ジョブ情報の取得タイミングを継続監視すべく、ステップS71に移行する。また、取得処理部22は、ジョブ情報を取得できなかった場合(ステップS73否定)、ジョブ情報の取得タイミングを検出すべく、ステップS71に移行する。
また、計算側保持制御部23は、計算側保持部14内に空きがない場合(ステップS74否定)、当該タイムベルト番号のジョブ情報を計算側保持部14内に保持せず(ステップS82)、ジョブ情報の取得タイミングを検出すべく、ステップS71に移行する。
また、計算側保持制御部23は、ジョブ情報の送信依頼を受信しなかった場合(ステップS76否定)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。
また、計算側保持制御部23は、送信依頼のタイムベルト番号のジョブ情報が計算側保持部14内にない場合(ステップS77否定)、当該タイムベルト番号の一世代前のジョブ情報が計算側保持部14内にあるか否かを判定する(ステップS83)。尚、送信依頼のタイムベルト番号が例えばT3の場合、一世代前のジョブ情報とは、タイムベルト番号T2のジョブ情報に相当する。計算側保持制御部23は、当該タイムベルト番号の一世代前のジョブ情報が計算側保持部14内にある場合(ステップS83肯定)、一世代前のジョブ情報を管理ノード4に送信し(ステップS84)、クリア依頼を受信したか否かを判定すべく、ステップS79に移行する。
また、計算側保持制御部23は、当該タイムベルト番号のジョブ情報が計算側保持部14内にない場合(ステップS83否定)、管理ノード4に対してエラー情報を送信し(ステップS85)、ジョブ情報の取得タイミングを検出したか否かを判定すべく、ステップS71に移行する。
図10に示す計算ノード側ジョブ取得処理では、計算ノード3が計算ノード共通の取得タイミングに応じてジョブ情報を取得すると、計算側保持部14内に空きがあるか否かを判定する。計算側保持部14内に空きがある場合、取得タイミングを識別するタイムベルト番号に関連付けてジョブ情報を計算側保持部14内に保持する。その結果、計算ノード3は、タイムベルト番号に関連付けてジョブ情報を二世代分まで保持できる。
計算ノード側ジョブ取得処理では、管理ノード4から指定のタイムベルト番号のジョブ情報の送信依頼に応じて、当該指定のタイムベルト番号のジョブ情報が計算側保持部14内にあるか否かを判定する。指定のタイムベルト番号のジョブ情報が計算側保持部14内にある場合、当該タイムベルト番号のジョブ情報を管理ノード4に送信する。その結果、計算ノード3は、送信依頼に応じた指定のタイムベルト番号のジョブ情報を管理ノード4に送信できる。
計算ノード側ジョブ取得処理では、指定のタイムベルト番号のジョブ情報が計算側保持部14内にない場合、一世代前のジョブ情報が計算側保持部14内にあるか否かを判定する。一世代前のジョブ情報が計算側保持部14内にある場合、当該一世代前のジョブ情報を管理ノード4に送信する。その結果、計算ノード3は、例えば、クリア依頼の伝送遅延による計算ノード3間のズレを吸収すべく、一世代前のジョブ情報も管理ノード4に送信できる。
計算ノード側ジョブ取得処理では、一世代前のジョブ情報が計算側保持部14内にない場合、エラー情報を管理ノード4に送信する。その結果、計算ノード3は、送信できるジョブ情報がない旨を管理ノード4に報知できる。
計算ノード側ジョブ取得処理では、管理ノード4からクリア依頼を受信した場合、計算側保持部14内に保持中の全てのジョブ情報を消去する。その結果、計算ノード3は、管理ノード4側で最新のスナップショットを取得させるべく、新たなジョブ情報を計算側保持部14に保持できる。
次に管理ノード4側の動作について説明する。図11は、管理ノード側スナップショット処理に関わる管理ノード4の処理動作を示すフローチャートである。図11において管理ノード4内のスナップショット処理制御部32は、代表の計算ノード3Aから送信依頼対象のタイムベルト番号を受信したか否かを判定する(ステップS91)。スナップショット処理制御部32の送信依頼部41は、送信依頼対象のタイムベルト番号を受信した場合(ステップS91肯定)、送信依頼対象のタイムベルト番号に関わるジョブ情報の送信を全計算ノード3に依頼する(ステップS92)。
スナップショット処理制御部32内の受信情報識別部42は、各計算ノード3から受信した情報がエラー情報であるか否かを判定する(ステップS93)。受信情報識別部42は、受信した情報がエラー情報でない場合(ステップS93否定)、受信した情報がジョブ情報であるか否かを判定する(ステップS94)。スナップショット処理制御部32内の管理側保持制御部45は、受信した情報がジョブ情報である場合(ステップS94肯定)、当該計算ノード3対応の管理側保持部34内にジョブ情報を保持する(ステップS95)。そして、受信情報識別部42は、送信依頼した全計算ノード3からの情報受信が完了したか否かを判定する(ステップS96)。
受信情報識別部42は、全計算ノード3からの情報受信が完了していない場合(ステップS96否定)、未識別の受信情報があると判断し、受信情報がエラー情報であるか否かを判定すべく、ステップS93に移行する。スナップショット処理制御部32内の保持領域監視部43は、全計算ノード3からの情報受信が完了した場合(ステップS96肯定)管理側保持部34の保持内容に基づき、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号があるか否かを判定する(ステップS97)。
保持領域監視部43は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がある場合(ステップS97肯定)、同一タイムベルト番号のスナップショットを新たに取得したと判断する。更に、送信依頼部41は、同一タイムベルト番号のスナップショットを新たに取得したものと判断し、管理側保持部34に保持中のジョブ情報を消去するクリアを全計算ノード3に依頼する(ステップS98)。
管理側保持制御部45は、新たに保持できた同一タイムベルト番号の全計算ノード3のジョブ情報を新たなスナップショットとして第1保持領域34Aに更新登録する(ステップS99)。更に、管理側保持制御部45は、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を全て消去し(ステップS100)、図11の処理動作を終了する。
スナップショット処理制御部32は、送信対象のタイムベルト番号を受信しなかった場合(ステップS91否定)、図11の処理動作を終了する。また、受信情報識別部42は、受信した情報がエラー情報であった場合(ステップS93肯定)、計算ノード3からの受信情報と識別し、全ての計算ノード3からの受信情報の識別が完了したか否かを判定すべく、ステップS96に移行する。
保持領域監視部43は、新たに全計算ノード3のジョブ情報が保持できたタイムベルト番号がない場合(ステップS97否定)、図11の処理動作を終了する。
図11に示す管理側スナップショット取得処理では、管理ノード4が、代表ノードから送信依頼対象のタイムベルト番号を受信した場合、送信依頼対象のタイムベルト番号のジョブ情報を各計算ノード3に送信依頼する。その結果、管理ノード4は、代表ノードからの送信依頼対象のタイムベルト番号に応じて、各計算ノード3に対して指定のタイムベルト番号に関わるジョブ情報の送信依頼を実現できる。
管理側スナップショット取得処理では、管理ノード4が、送信依頼に対する各計算ノード3からの受信情報がジョブ情報であるか否かを判定する。受信情報がジョブ情報の場合、指定のタイムベルト番号又は一世代前のタイムベルト番号のジョブ情報であると判断し、このジョブ情報を管理側保持部34内の当該計算ノード3に対応付けて保持する。その結果、管理ノード4は、各計算ノード3のジョブ情報を管理側保持部34内に三世代分保持できる。
管理側スナップショット取得処理では、管理ノード4が、新たに全計算ノード3のジョブ情報を保持できたタイムベルト番号が管理側保持部34内にある場合、すなわち同一タイムベルト番号のスナップショットを新たに取得したと判断する。更に、管理ノード4は、同一タイムベルト番号のスナップショットを新たに取得したものと判断し、管理側保持部34に保持中のジョブ情報を消去するクリアを全計算ノード3に依頼する。管理ノード4が新たに保持できた同一タイムベルト番号の全計算ノード3のジョブ情報を新たなスナップショットとして第1保持領域34Aに更新登録すると共に、第2保持領域34B及び第3保持領域34Cに保持中の各計算ノード3のジョブ情報を消去する。
その結果、管理ノード4は、同一タイムベルト番号のジョブ情報に関するスナップショットを第1保持領域34Aに保持したので、最新のスナップショットをユーザに提示できる。更に、管理ノード4は、第2保持領域34B及び第3保持領域34Cのジョブ情報を消去することで、第2保持領域34A及び第3保持領域34Cをジョブ情報の一時的な保持領域として使用できる。
実施例2では、計算ノード3が計算ノード共通の周期タイミングに応じてジョブ情報を取得し、ジョブ情報を取得した周期タイミングを識別するタイムベルト番号に関連付けして、ジョブ情報を計算側保持部14に保持する。更に、実施例2では、管理ノード4が、送信依頼に応じて各計算ノード3からジョブ情報を受信すると、当該受信したジョブ情報を管理側保持部34に保持する。そして、実施例2では、管理ノード4が、管理側保持部34内に同一タイムベルト番号の計算ノード3に関わるジョブ情報を検出した場合、同一タイムベルト番号のジョブ情報をスナップショットとして保持する。更に、実施例2では、同一タイムベルト番号のジョブ情報をスナップショットとして保持した場合、管理側保持部34に保持中の同一タイムベルト番号のジョブ情報以外のジョブ情報を消去すると共に、計算側保持部14に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングのタイムベルト番号をキーにしてジョブ情報を管理するので、計算ノード3間のジョブ情報の正確なスナップショットを確保できる。
実施例2では、計算側保持部14に二世代分のジョブ情報を保持可能にする保持領域を備え、管理側保持部34に計算ノード3毎の三世代分のジョブ情報を保持可能にする保持領域を備えた。その結果、例えば、管理ノード4からのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが計算ノード3毎に異なる。従って、管理ノード4側で各計算ノード3のジョブ情報が収集できなくなるような事態を回避してスナップショット取得を保証できる。
実施例2では、複数の計算ノード3内の1台を代表ノードとし、代表ノードから管理ノード4へ送信依頼対象のタイムベルト番号の通知を契機にして管理ノード4側ではタイムベルト番号をキーにしたジョブ情報の送信依頼を開始する。その結果、代表ノードは、1台で済むため、スナップショットを取得する上での通信負担を軽減できる。
尚、上記実施例2では、計算ノード3の台数を4台としたが、これら台数に限定するものではない。また、上記実施例2では、複数の計算ノード3内の1台を代表ノードとしたが、1台に限定しなくても良い。また、上記実施例2では、複数の計算ノード3の内の1台を代表ノードとしたが、各計算ノード3を代表ノードとしても良い。
また、上記実施例2では、計算側保持部14に二世代分のジョブ情報を保持する保持領域を備え、管理側保持部34に三世代分のジョブ情報を保持する保持領域を備えた。しかしながら、計算側保持部14に三世代分のジョブ情報を保持する保持領域を備え、管理側保持部34に四世代分のジョブ情報を保持する保持領域を備えるようにしても良い。
また、上記実施例2では、管理ノード4からのクリア依頼が各計算ノード3に到達してジョブ情報の消去を実行するまでに要する計算ノード3毎の時間を測定し、その測定結果に基づき、計算ノード3間の最大ズレ時間を算出する。そして、その最大ズレ時間がタイムベルト間隔時間よりも十分短いと想定し、計算側保持部14に二世代分のジョブ情報を保持する保持領域を用意した。
これに対して、その最大時間差がタイムベルト間隔時間よりも長い場合には、タイムベルト間隔時間のn倍<最大時間差≦タイムベルト間隔の(n+1)倍の条件が成立する場合、計算側保持部14に(n+2)世代分のジョブ情報を保持する保持領域を用意する。更に、管理側保持部34に(n+3)世代分のジョブ情報を保持する保持領域を用意する。例えば、n=1の場合、計算側保持部14に三世代分のジョブ情報を保持する保持領域を用意し、管理側保持部34に四世代分のジョブ情報を保持する保持領域を用意することになる。また、n=2の場合、計算側保持部14に四世代分のジョブ情報を保持する保持領域を用意し、管理側保持部34に五世代分のジョブ情報を保持する保持領域を用意することになる。
また、上記実施例2では、管理ノード4及び計算ノード3間の2段構成の並列計算機1としたが、計算ノード3及び管理ノード4間の多段構成の並列計算機としても良い。図12は、3段構成の並列計算機を示す説明図である。
図12に示す並列計算機1Bは、12台の計算ノード3A〜3Lと、3台のサブ管理ノード4B〜4Dと、1台の管理ノード4Aとを有する。サブ管理ノード4Bは、4台の計算ノード3A〜3Dを中継管理する。更に、サブ管理ノード4Cは、4台の計算ノード3E〜3Hを中継管理する。更に、サブ管理ノード4Dは、4台の計算ノード3I〜3Lを中継管理する。更に、管理ノード4Aは、3台のサブ管理ノード4B〜4Dを管理する。
各計算ノード3A〜3Lの計算側保持部14は、第1保持領域14A及び第2保持領域14Bを有する。各サブ管理ノード4B〜4Dは、4台分の計算ノードのジョブ情報を三世代分保持する第1保持領域34D、第2保持領域34E及び第3保持領域34Fを有する。
更に、管理ノード4Aの管理側保持部34は、12台分の計算ノード3A〜3Lの同一タイムベルト番号のジョブ情報を三世代分保持する第1保持領域34A、第2保持領域34B及び第3保持領域34Cを有する。
各計算ノード3A〜3Lは、ジョブ開始コマンドから共通周期タイミングのジョブ情報を取得し、そのジョブ情報を計算側保持部14に保持する。各サブ管理ノード4B,4C,4Dは、管理する各計算ノード3A〜3D(3E〜3H及び3I〜3L)からの各ジョブ情報を纏めて収集する。各サブ管理ノード4B,4C及び4Dは、ジョブ情報を収集すると、この収集したジョブ情報を保持する。更に、各サブ管理ノード4B,4C及び4Dは、各計算ノード3A〜3D(3E〜3H及び3I〜3L)のジョブ情報を纏めて管理ノード4Aに送信する。
つまり、管理ノード4Aは、各計算ノード3A〜3Lと個別に通信するのではなく、サブ管理ノード4B、4C及び4Dとの通信で各計算ノード3A〜3Lのジョブ情報を収集する。その結果、管理ノード4Aは、サブ管理ノード4B,4C及び4Dと通信して各計算ノード3A〜3Lのジョブ情報を収集するため、その通信回数を減らして通信負担を軽減できる。
図12の例では、管理ノード4A、サブ管理ノード4B〜4D及び計算ノード3A〜3Lの3階層構造で説明したが、3階層構造に限定するものではなく、4階層以上の階層構造にしても良い。
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
更に、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(又はMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部又は任意の一部を実行するようにしても良い。また、各種処理機能は、CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行するプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしても良いことは言うまでもない。
ところで、本実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図13を用いて、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図13は、並列計算機のジョブ情報取得プログラムを実行するコンピュータを示す説明図である。
図13に示すコンピュータ200は、HDD(Hard Disk Drive)210、RAM(Random Access Memory)220、ROM(Read Only Memory)230及びCPU240をバス250で接続して構成される。
そして、ROM230には、上記の実施例と同様の機能を発揮する計算ノード側のジョブ情報取得プログラムが予め記憶されている。計算ノード側のジョブ情報取得プログラムとしては、図13に示すように、取得プログラム231、保持プログラム232、情報送信プログラム233及び消去プログラム234である。尚、プログラム231〜234については、図1に示した計算ノード50の各構成要素と同様、適宜統合又は分散してもよい。
そして、CPU240が、これらのプログラム231〜234をROM230から読み出して実行する。そして、図13に示すように、各プログラム231〜234は、取得プロセス241、保持プロセス242、情報送信プロセス243及び消去プロセス244として機能するようになる。
また、コンピュータ200Aは、HDD210A、RAM220A、ROM230A及びCPU240Aをバス250Aで接続して構成される。
そして、ROM230Aには、上記の実施例と同様の機能を発揮する管理ノード側のジョブ情報取得プログラムが予め記憶されている。管理ノード側のジョブ情報取得プログラムとしては、図13に示すように、保持プログラム231A、スナップショット保持プログラム232A、消去プログラム233A及び消去依頼プログラム234Aである。尚、プログラム231A〜234Aについては、図1に示した管理ノード60の各構成要素と同様、適宜統合又は分散してもよい。
そして、CPU240Aが、これらのプログラム231A〜234AをROM230Aから読み出して実行する。そして、図13に示すように、各プログラム231A〜234Aは、保持プロセス241A、スナップショット保持プロセス242A、消去プロセス243A及び消去依頼プロセス244Aとして機能するようになる。
CPU240は、計算ノード共通の周期タイミングに応じて、計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する。更に、CPU240は、ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にするRAM220内の保持部にジョブ情報を保持する。更に、CPU240は、管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、指定の識別番号に関わるジョブ情報が保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信する。また、CPU240は、当該指定の識別番号に関わるジョブ情報が保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する。
また、CPU240Aは、送信依頼に応じて各計算ノードからジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にするRAM220A内の保持部に保持する。更に、CPU240Aは、保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する。更に、CPU240Aは、同一識別番号のジョブ情報をスナップショットとして保持した場合、当該RAM220A内の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する。更に、CPU240Aは、同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する。
そして、CPU240は、管理ノードからの消去依頼を受信すると、RAM220内の保持部に保持中のジョブ情報を全て消去する。その結果、ジョブ情報を取得する周期タイミングの識別番号をキーにしてジョブ情報を管理するので、計算ノード間のジョブ情報の正確なスナップショットを確保できる。また、例えば、管理ノードからのクリア依頼の伝送遅延によるジョブ情報消去のタイミングが異なることで、管理ノード側で各計算ノードのジョブ情報が収集できなくなるような事態を回避し、スナップショット取得を保証する。
1 並列計算機
1A 並列計算機
3 計算ノード
4 管理ノード
14 計算側保持部
14A 第1保持領域
14B 第2保持領域
22 取得処理部
23 計算側保持制御部
24 情報送信部
34 管理側保持部
34A 第1保持領域
34B 第2保持領域
34C 第3保持領域
41 送信依頼部
44 クリア依頼部
45 管理側保持制御部
50 計算ノード
51 取得部
52 保持部
53 保持制御部
54 情報送信部
60 管理ノード
61 保持部
62 保持制御部
63 消去依頼部

Claims (10)

  1. 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有し、
    前記計算ノードは、
    計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
    前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算ノード側の保持部に保持すると共に、前記管理ノードからの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する計算ノード側の保持制御部と、
    前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する情報送信部と
    を有し、
    前記管理ノードは、
    前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を当該管理ノード側の保持部に保持すると共に、当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の保持制御部と、
    前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノードに対して前記消去依頼を送信する消去依頼部とを有し、
    前記計算ノード側の保持部は、
    所定複数周期分のジョブ情報を保持可能にする保持領域を備え、
    前記管理ノード側の保持部は、
    前記計算ノード毎の前記所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする並列計算機。
  2. 前記管理ノードからの前記消去依頼が各計算ノードに到達してジョブ情報の消去を実行するまでに要する計算ノード毎の時間を測定し、その測定結果に基づき、計算ノード間の最大ズレ時間を算出し、前記周期タイミングの間隔時間のn倍<最大ズレ時間≦前記周期タイミングの間隔時間の(n+1)倍が成立する場合、前記管理ノード側の保持部は、(n+3)周期分のジョブ情報を保持する保持領域を備え、前記計算ノード側の保持部は、(n+2)周期分のジョブ情報を保持する保持領域を備えることを特徴とする請求項1記載の並列計算機。
  3. 前記取得部は、
    前記計算ジョブの実行開始タイミングに応じてタイマ計時動作を開始し、この計時時間に基づき、前記周期タイミングを検出することを特徴とする請求項1又は2に記載の並列計算機。
  4. 前記管理ノードは、
    所定信号に応じて指定の識別番号に関わるジョブ情報の送信を各計算ノードに依頼する送信依頼部を有することを特徴とする請求項1又は2に記載の並列計算機。
  5. 前記複数の計算ノードの内、1台の計算ノードを代表ノードとし、
    当該代表ノードは、当該代表ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別番号を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。
  6. 前記計算ノードは、
    当該計算ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別情報を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。
  7. 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得プログラムであって、
    計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得手順と、
    前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持手順と、
    前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信手順と
    前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持手順と、
    当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持手順と、
    前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去手順と、
    前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼手順と、
    前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去手順と
    を含むプログラムをコンピュータに実行させることを特徴とする並列計算機のジョブ情報取得プログラム。
  8. 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得方法であって、
    計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得ステップと、
    前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持ステップと、
    前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信ステップと
    前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持ステップと、
    当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持ステップと、
    前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去ステップと、
    前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼ステップと、
    前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去ステップと
    を有することを特徴とする並列計算機のジョブ情報取得方法。
  9. 計算ジョブを分散して並列的に実行する計算処理部と、
    計算装置共通の周期タイミングに応じて、当該計算装置自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
    前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算装置側の保持部に保持すると共に、計算管理装置からの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する保持制御部と、
    前記計算管理装置から指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を計算管理装置に送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を計算管理装置に送信する情報送信部と
    を有し、
    前記保持部は、
    所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算装置。
  10. 複数の計算装置を管理する管理側処理部と、
    前記計算装置に対する指定の識別番号に関わるジョブ情報の送信依頼に応じて、各計算装置からジョブ情報を受信すると、当該受信したジョブ情報を当該計算管理装置側の保持部に保持すると共に、当該保持部内に同一識別番号の計算装置に関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該計算管理装置側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する保持制御部と、
    前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算装置に保持するジョブ情報を消去する消去依頼を送信する消去依頼部とを有し、
    前記保持部は、
    前記計算装置毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算管理装置。
JP2012530498A 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 Active JP5464276B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/064639 WO2012026041A1 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Publications (2)

Publication Number Publication Date
JPWO2012026041A1 true JPWO2012026041A1 (ja) 2013-10-28
JP5464276B2 JP5464276B2 (ja) 2014-04-09

Family

ID=45723068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012530498A Active JP5464276B2 (ja) 2010-08-27 2010-08-27 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置

Country Status (4)

Country Link
US (1) US9336044B2 (ja)
EP (1) EP2610752B1 (ja)
JP (1) JP5464276B2 (ja)
WO (1) WO2012026041A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012268078B2 (en) * 2011-06-07 2017-06-01 Mesoblast International Sarl Methods for repairing tissue damage using protease-resistant mutants of stromal cell derived Factor-1
US9130880B2 (en) 2012-07-11 2015-09-08 Hitachi, Ltd. Management system and information acquisition method
EP2829975B1 (en) * 2013-07-23 2019-04-24 Fujitsu Limited A fault-tolerant monitoring apparatus, method and system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324014A (ja) * 2001-04-26 2002-11-08 Meidensha Corp 監視制御システム
JP2007128122A (ja) * 2005-11-01 2007-05-24 Hitachi Ltd 稼働性能データ収集開始時刻決定方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63136176A (ja) 1986-11-27 1988-06-08 Casio Comput Co Ltd デ−タ処理装置
JP2940403B2 (ja) 1994-08-03 1999-08-25 株式会社日立製作所 並列計算機システムにおけるモニタデータ収集方法
DE69712552T2 (de) * 1996-02-14 2003-01-09 Hitachi Ulsi Systems Co., Ltd. Verfahren zur Überwachung eines Computersystems mit Leistungsdatenverteilung an mehrere Überwachungsprozesse
US6279001B1 (en) * 1998-05-29 2001-08-21 Webspective Software, Inc. Web service
US8037264B2 (en) * 2003-01-21 2011-10-11 Dell Products, L.P. Distributed snapshot process
DE10327155B4 (de) * 2003-06-13 2006-12-07 Sap Ag Backup-Verfahren mit Anpassung an Computer-Landschaft
US8769572B2 (en) * 2008-03-24 2014-07-01 Verizon Patent And Licensing Inc. System and method for providing an interactive program guide having date and time toolbars

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002324014A (ja) * 2001-04-26 2002-11-08 Meidensha Corp 監視制御システム
JP2007128122A (ja) * 2005-11-01 2007-05-24 Hitachi Ltd 稼働性能データ収集開始時刻決定方法

Also Published As

Publication number Publication date
US9336044B2 (en) 2016-05-10
EP2610752A1 (en) 2013-07-03
US20130174170A1 (en) 2013-07-04
WO2012026041A1 (ja) 2012-03-01
EP2610752A4 (en) 2015-11-04
JP5464276B2 (ja) 2014-04-09
EP2610752B1 (en) 2017-09-27

Similar Documents

Publication Publication Date Title
JP5777467B2 (ja) 制御装置およびプログラム
WO2015139164A1 (zh) 一种任务调度的方法、装置及设备
JP2009282807A (ja) メッセージ紐付け処理装置、方法及びプログラム
JP2006277115A (ja) 異常検出プログラムおよび異常検出方法
US20220188214A1 (en) Dynamic distributed tracing instrumentation in a microservice architecture
JP5464276B2 (ja) 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置
CN108632106A (zh) 监控服务设备的系统
JP2013050847A (ja) ファイル同期方法、ファイル同期サーバ装置及びファイル同期プログラム
US8930532B2 (en) Session management in a thin client system for effective use of the client environment
JP2014063357A (ja) 情報処理装置、情報処理方法およびプログラム
JP2007080171A (ja) 機器管理装置、機器管理方法、プログラム及び記録媒体
CN108874653A (zh) 任务测试方法、测试机、共享服务器和可读存储介质
JP6252333B2 (ja) 装置
CN103430146A (zh) 计算系统中的任务控制
JP2017062711A (ja) 通信方法、通信プログラムおよび情報処理装置
CN110737526A (zh) 一种基于Redis的分布式集群下的定时任务管理方法及装置
US11132223B2 (en) Usecase specification and runtime execution to serve on-demand queries and dynamically scale resources
JP2017068393A (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2016018470A (ja) 情報処理装置,情報処理方法及び情報処理プログラム
JP5614346B2 (ja) 試験方法、試験プログラム、及び情報処理装置
JP5446833B2 (ja) ジョブ管理装置、ジョブ管理方法及びジョブ管理プログラム
WO2014141476A1 (ja) プログラマブル表示器、そのプログラム
TWI630478B (zh) 監控一電子元件溫度的方法及裝置
JP4962239B2 (ja) リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム
JP6951637B2 (ja) 調査資料採取プログラム、調査資料採取装置及び調査資料採取方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5464276

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150