JPWO2012026041A1 - 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 - Google Patents
並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 Download PDFInfo
- Publication number
- JPWO2012026041A1 JPWO2012026041A1 JP2012530498A JP2012530498A JPWO2012026041A1 JP WO2012026041 A1 JPWO2012026041 A1 JP WO2012026041A1 JP 2012530498 A JP2012530498 A JP 2012530498A JP 2012530498 A JP2012530498 A JP 2012530498A JP WO2012026041 A1 JPWO2012026041 A1 JP WO2012026041A1
- Authority
- JP
- Japan
- Prior art keywords
- job information
- calculation
- node
- identification number
- holding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3404—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/84—Using snapshots, i.e. a logical point-in-time copy of the data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
1A 並列計算機
3 計算ノード
4 管理ノード
14 計算側保持部
14A 第1保持領域
14B 第2保持領域
22 取得処理部
23 計算側保持制御部
24 情報送信部
34 管理側保持部
34A 第1保持領域
34B 第2保持領域
34C 第3保持領域
41 送信依頼部
44 クリア依頼部
45 管理側保持制御部
50 計算ノード
51 取得部
52 保持部
53 保持制御部
54 情報送信部
60 管理ノード
61 保持部
62 保持制御部
63 消去依頼部
Claims (10)
- 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有し、
前記計算ノードは、
計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算ノード側の保持部に保持すると共に、前記管理ノードからの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する計算ノード側の保持制御部と、
前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する情報送信部と
を有し、
前記管理ノードは、
前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を当該管理ノード側の保持部に保持すると共に、当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の保持制御部と、
前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算ノードに対して前記消去依頼を送信する消去依頼部とを有し、
前記計算ノード側の保持部は、
所定複数周期分のジョブ情報を保持可能にする保持領域を備え、
前記管理ノード側の保持部は、
前記計算ノード毎の前記所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする並列計算機。 - 前記管理ノードからの前記消去依頼が各計算ノードに到達してジョブ情報の消去を実行するまでに要する計算ノード毎の時間を測定し、その測定結果に基づき、計算ノード間の最大ズレ時間を算出し、前記周期タイミングの間隔時間のn倍<最大ズレ時間≦前記周期タイミングの間隔時間の(n+1)倍が成立する場合、前記管理ノード側の保持部は、(n+3)周期分のジョブ情報を保持する保持領域を備え、前記計算ノード側の保持部は、(n+2)周期分のジョブ情報を保持する保持領域を備えることを特徴とする請求項1記載の並列計算機。
- 前記取得部は、
前記計算ジョブの実行開始タイミングに応じてタイマ計時動作を開始し、この計時時間に基づき、前記周期タイミングを検出することを特徴とする請求項1又は2に記載の並列計算機。 - 前記管理ノードは、
所定信号に応じて指定の識別番号に関わるジョブ情報の送信を各計算ノードに依頼する送信依頼部を有することを特徴とする請求項1又は2に記載の並列計算機。 - 前記複数の計算ノードの内、1台の計算ノードを代表ノードとし、
当該代表ノードは、当該代表ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別番号を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。 - 前記計算ノードは、
当該計算ノード内の取得部がジョブ情報を取得すると、当該ジョブ情報の識別情報を前記管理ノードに通知する信号を前記所定信号とすることを特徴とする請求項4記載の並列計算機。 - 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得プログラムであって、
計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得手順と、
前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持手順と、
前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信手順と
前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持手順と、
当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持手順と、
前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去手順と、
前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼手順と、
前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去手順と
を含むプログラムをコンピュータに実行させることを特徴とする並列計算機のジョブ情報取得プログラム。 - 計算ジョブを分散して並列的に実行する複数の計算ノードと、これら複数の計算ノードを管理する管理ノードとを有する並列計算機のジョブ情報取得方法であって、
計算ノード共通の周期タイミングに応じて、当該計算ノード自体が担当する計算ジョブに関わるジョブ情報を取得する計算ノード側の取得ステップと、
前記取得手順が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、所定複数周期分のジョブ情報を保持可能にする計算ノード側の保持部に当該ジョブ情報を保持する計算ノード側の保持ステップと、
前記管理ノードから指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を管理ノードに送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を管理ノードに送信する計算ノード側の情報送信ステップと
前記送信依頼に応じて各計算ノードから前記ジョブ情報を受信すると、当該受信したジョブ情報を、計算ノード毎の所定複数周期分のジョブ情報を保持可能にする当該管理ノード側の保持部に保持する管理ノード側の保持ステップと、
当該保持部内に同一識別番号の計算ノードに関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持する管理ノード側のスナップショット保持ステップと、
前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該管理ノード側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する管理ノード側の消去ステップと、
前記同一識別番号のジョブ情報をスナップショットして保持した場合、各計算ノードに対して消去依頼を送信する管理ノード側の消去依頼ステップと、
前記管理ノードからの消去依頼を受信すると、当該計算ノード側の保持部に保持中のジョブ情報を全て消去する計算ノード側の消去ステップと
を有することを特徴とする並列計算機のジョブ情報取得方法。 - 計算ジョブを分散して並列的に実行する計算処理部と、
計算装置共通の周期タイミングに応じて、当該計算装置自体が担当する計算ジョブに関わるジョブ情報を取得する取得部と、
前記取得部が前記ジョブ情報を取得した周期タイミングを識別する識別番号に関連付けして、当該ジョブ情報を当該計算装置側の保持部に保持すると共に、計算管理装置からの消去依頼を受信すると、当該保持部に保持中のジョブ情報を全て消去する保持制御部と、
前記計算管理装置から指定の識別番号に関わるジョブ情報の送信依頼を受信すると、当該指定の識別番号に関わるジョブ情報が当該保持部内にある場合、当該指定の識別番号に関わるジョブ情報を計算管理装置に送信すると共に、当該指定の識別番号に関わるジョブ情報が当該保持部内になく、当該指定の識別番号直前の識別番号に関わるジョブ情報がある場合、当該識別番号に関わるジョブ情報を計算管理装置に送信する情報送信部と
を有し、
前記保持部は、
所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算装置。 - 複数の計算装置を管理する管理側処理部と、
前記計算装置に対する指定の識別番号に関わるジョブ情報の送信依頼に応じて、各計算装置からジョブ情報を受信すると、当該受信したジョブ情報を当該計算管理装置側の保持部に保持すると共に、当該保持部内に同一識別番号の計算装置に関わるジョブ情報を検出した場合、当該同一識別番号のジョブ情報をスナップショットとして保持すると共に、前記同一識別番号のジョブ情報をスナップショットとして保持した場合、当該計算管理装置側の保持部に保持中の当該同一識別番号のジョブ情報以外のジョブ情報を消去する保持制御部と、
前記同一識別番号のジョブ情報をスナップショットとして保持した場合、各計算装置に保持するジョブ情報を消去する消去依頼を送信する消去依頼部とを有し、
前記保持部は、
前記計算装置毎の所定複数周期分のジョブ情報を保持可能にする保持領域を備えたことを特徴とする計算管理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/064639 WO2012026041A1 (ja) | 2010-08-27 | 2010-08-27 | 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012026041A1 true JPWO2012026041A1 (ja) | 2013-10-28 |
JP5464276B2 JP5464276B2 (ja) | 2014-04-09 |
Family
ID=45723068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012530498A Active JP5464276B2 (ja) | 2010-08-27 | 2010-08-27 | 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9336044B2 (ja) |
EP (1) | EP2610752B1 (ja) |
JP (1) | JP5464276B2 (ja) |
WO (1) | WO2012026041A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012268078B2 (en) * | 2011-06-07 | 2017-06-01 | Mesoblast International Sarl | Methods for repairing tissue damage using protease-resistant mutants of stromal cell derived Factor-1 |
US9130880B2 (en) | 2012-07-11 | 2015-09-08 | Hitachi, Ltd. | Management system and information acquisition method |
EP2829975B1 (en) * | 2013-07-23 | 2019-04-24 | Fujitsu Limited | A fault-tolerant monitoring apparatus, method and system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002324014A (ja) * | 2001-04-26 | 2002-11-08 | Meidensha Corp | 監視制御システム |
JP2007128122A (ja) * | 2005-11-01 | 2007-05-24 | Hitachi Ltd | 稼働性能データ収集開始時刻決定方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63136176A (ja) | 1986-11-27 | 1988-06-08 | Casio Comput Co Ltd | デ−タ処理装置 |
JP2940403B2 (ja) | 1994-08-03 | 1999-08-25 | 株式会社日立製作所 | 並列計算機システムにおけるモニタデータ収集方法 |
DE69712552T2 (de) * | 1996-02-14 | 2003-01-09 | Hitachi Ulsi Systems Co., Ltd. | Verfahren zur Überwachung eines Computersystems mit Leistungsdatenverteilung an mehrere Überwachungsprozesse |
US6279001B1 (en) * | 1998-05-29 | 2001-08-21 | Webspective Software, Inc. | Web service |
US8037264B2 (en) * | 2003-01-21 | 2011-10-11 | Dell Products, L.P. | Distributed snapshot process |
DE10327155B4 (de) * | 2003-06-13 | 2006-12-07 | Sap Ag | Backup-Verfahren mit Anpassung an Computer-Landschaft |
US8769572B2 (en) * | 2008-03-24 | 2014-07-01 | Verizon Patent And Licensing Inc. | System and method for providing an interactive program guide having date and time toolbars |
-
2010
- 2010-08-27 JP JP2012530498A patent/JP5464276B2/ja active Active
- 2010-08-27 WO PCT/JP2010/064639 patent/WO2012026041A1/ja active Application Filing
- 2010-08-27 EP EP10856443.6A patent/EP2610752B1/en active Active
-
2013
- 2013-02-27 US US13/778,494 patent/US9336044B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002324014A (ja) * | 2001-04-26 | 2002-11-08 | Meidensha Corp | 監視制御システム |
JP2007128122A (ja) * | 2005-11-01 | 2007-05-24 | Hitachi Ltd | 稼働性能データ収集開始時刻決定方法 |
Also Published As
Publication number | Publication date |
---|---|
US9336044B2 (en) | 2016-05-10 |
EP2610752A1 (en) | 2013-07-03 |
US20130174170A1 (en) | 2013-07-04 |
WO2012026041A1 (ja) | 2012-03-01 |
EP2610752A4 (en) | 2015-11-04 |
JP5464276B2 (ja) | 2014-04-09 |
EP2610752B1 (en) | 2017-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5777467B2 (ja) | 制御装置およびプログラム | |
WO2015139164A1 (zh) | 一种任务调度的方法、装置及设备 | |
JP2009282807A (ja) | メッセージ紐付け処理装置、方法及びプログラム | |
JP2006277115A (ja) | 異常検出プログラムおよび異常検出方法 | |
US20220188214A1 (en) | Dynamic distributed tracing instrumentation in a microservice architecture | |
JP5464276B2 (ja) | 並列計算機、並列計算機のジョブ情報取得プログラム、並列計算機のジョブ情報取得方法、計算装置及び計算管理装置 | |
CN108632106A (zh) | 监控服务设备的系统 | |
JP2013050847A (ja) | ファイル同期方法、ファイル同期サーバ装置及びファイル同期プログラム | |
US8930532B2 (en) | Session management in a thin client system for effective use of the client environment | |
JP2014063357A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2007080171A (ja) | 機器管理装置、機器管理方法、プログラム及び記録媒体 | |
CN108874653A (zh) | 任务测试方法、测试机、共享服务器和可读存储介质 | |
JP6252333B2 (ja) | 装置 | |
CN103430146A (zh) | 计算系统中的任务控制 | |
JP2017062711A (ja) | 通信方法、通信プログラムおよび情報処理装置 | |
CN110737526A (zh) | 一种基于Redis的分布式集群下的定时任务管理方法及装置 | |
US11132223B2 (en) | Usecase specification and runtime execution to serve on-demand queries and dynamically scale resources | |
JP2017068393A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP2016018470A (ja) | 情報処理装置,情報処理方法及び情報処理プログラム | |
JP5614346B2 (ja) | 試験方法、試験プログラム、及び情報処理装置 | |
JP5446833B2 (ja) | ジョブ管理装置、ジョブ管理方法及びジョブ管理プログラム | |
WO2014141476A1 (ja) | プログラマブル表示器、そのプログラム | |
TWI630478B (zh) | 監控一電子元件溫度的方法及裝置 | |
JP4962239B2 (ja) | リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム | |
JP6951637B2 (ja) | 調査資料採取プログラム、調査資料採取装置及び調査資料採取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5464276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |