JPWO2008120383A1 - 情報処理装置、障害処理方法 - Google Patents
情報処理装置、障害処理方法 Download PDFInfo
- Publication number
- JPWO2008120383A1 JPWO2008120383A1 JP2009507374A JP2009507374A JPWO2008120383A1 JP WO2008120383 A1 JPWO2008120383 A1 JP WO2008120383A1 JP 2009507374 A JP2009507374 A JP 2009507374A JP 2009507374 A JP2009507374 A JP 2009507374A JP WO2008120383 A1 JPWO2008120383 A1 JP WO2008120383A1
- Authority
- JP
- Japan
- Prior art keywords
- failure
- partition
- information
- management unit
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 30
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000005192 partition Methods 0.000 claims abstract description 205
- 238000000638 solvent extraction Methods 0.000 claims abstract description 12
- 238000007726 management method Methods 0.000 claims description 84
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013468 resource allocation Methods 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
(管理方法2)H/Wリソースの配分、および情報の振り分け機能をASICおよびF/Wそれぞれの特性に合わせて実装し、連携させる。
(管理方法3)H/Wリソースの配分、および情報の振り分け機能を全てF/Wに実装する。(=仮想化)
Claims (20)
- ハードウェア資源を分割してそれぞれを異なるパーティションで利用する物理分割を行うことができる情報処理装置であって、
複数のパーティションに割り当てられた少なくとも1つのハードウェア資源に接続され、前記ハードウェア資源の管理を行うハードウェア管理部であって、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理部と、
前記パーティション毎に備えられたパーティション管理部であって、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理部と
を備える情報処理装置。 - 請求項1に記載の情報処理装置において、
前記パーティション管理部は、取得した前記障害情報の解析を行い、該解析の結果を障害解析情報として出力し、
更に、前記パーティション管理部により出力された障害解析情報を記録する障害情報記録部を備える情報処理装置。 - 請求項2に記載の情報処理装置において、
前記パーティション管理部は、前記障害情報の解析を行い、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記障害解析情報を前記障害発生パーティションから出力された情報として出力する情報処理装置。 - 請求項1に記載の情報処理装置において、
前記パーティション管理部は、前記障害発生パーティションにおいて前記障害の情報である障害情報の取得が失敗したと認識した場合、前記障害情報の取得が必要であると判定する情報処理装置。 - 請求項4に記載の情報処理装置において、
前記ハードウェア管理部は、前記障害情報の取得が正常に終了したか否かを示す正常終了情報を保持し、
前記パーティション管理部は、前記障害情報の取得を正常に終了した場合、前記正常終了情報を正常終了状態に設定する情報処理装置。 - 請求項5に記載の情報処理装置において、
物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記正常終了情報を監視し、前記所定の時間までに前記正常終了情報が正常終了状態にならない場合、前記障害発生パーティションにおいて前記障害情報の取得が失敗したと認識する情報処理装置。 - 請求項1に記載の情報処理装置において、
前記ハードウェア管理部は、前記パーティション毎に前記障害情報を保持し、
前記パーティション管理部は、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害情報の取得が必要であると判定した場合、前記ハードウェア管理部から前記障害発生パーティションの前記障害情報を取得する情報処理装置。 - 請求項7に記載の情報処理装置において、
前記ハードウェア管理部は、前記障害発生パーティションの障害情報を他のパーティションから隠蔽しておき、
前記パーティション管理部は、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記ハードウェア管理部による前記隠蔽を解除させ、前記障害情報の取得を行う情報処理装置。 - 請求項1に記載の情報処理装置において、
前記ハードウェア管理部は、物理分割が設定されているか否かを示す動作情報を保持し、
前記パーティション管理部は、前記動作情報を参照することにより物理分割の状態であるか否かの判定を行う情報処理装置。 - 請求項1に記載の情報処理装置において、
前記ハードウェア管理部は、前記障害の発生した位置を位置情報として保持し、
前記パーティション管理部は、前記ハードウェア管理部による報知に基づいて前記障害の発生を認識した場合、前記位置情報を参照することにより自己のパーティションが前記障害発生パーティションであるか否かの判定を行う情報処理装置。 - 請求項1に記載の情報処理装置において、
前記パーティション管理部は、前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションである場合、前記障害の情報の収集を行う情報処理装置。 - 請求項1に記載の情報処理装置において、
前記ハードウェア管理部は、障害の発生の有無を表す障害発生情報を保持し、前記複数のパーティションの1つで障害が発生した場合、前記障害発生情報に前記障害の発生を設定し、
前記パーティション管理部は、前記ハードウェア管理部における障害発生情報を監視することにより、前記障害の発生を認識する情報処理装置。 - ハードウェア資源を分割してそれぞれを異なるパーティションで利用することができる情報処理装置の障害処理方法であって、
複数のパーティションに割り当てられた少なくとも1つのハードウェア資源の管理を行い、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理ステップと、
パーティション毎に実行され、物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理ステップと
を実行する障害処理方法。 - 請求項13に記載の障害処理方法において、
前記パーティション管理ステップは、取得した前記障害情報の解析を行い、該解析の結果を障害解析情報として出力し、
更に、前記パーティション管理ステップにより出力された障害解析情報を記録する障害情報記録ステップを実行する障害処理方法。 - 請求項14に記載の障害処理方法において、
前記パーティション管理ステップは、前記障害情報の解析を行い、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記障害解析情報を前記障害発生パーティションから出力された情報として出力する障害処理方法。 - 請求項13に記載の障害処理方法において、
前記パーティション管理ステップは、前記障害発生パーティションにおいて前記障害の情報である障害情報の取得が失敗したと認識した場合、前記障害情報の取得が必要であると判定する障害処理方法。 - 請求項16に記載の障害処理方法において、
前記ハードウェア管理ステップは、前記障害情報の取得が正常に終了したか否かを示す正常終了情報を保持し、
前記パーティション管理ステップは、前記障害情報の取得を正常に終了した場合、前記正常終了情報を正常終了状態に設定する障害処理方法。 - 請求項17に記載の障害処理方法において、
物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記正常終了情報を監視し、前記所定の時間までに前記正常終了情報が正常終了状態にならない場合、前記障害発生パーティションにおいて前記障害情報の取得が失敗したと認識する障害処理方法。 - 請求項1に記載の障害処理方法において、
前記ハードウェア管理ステップは、前記パーティション毎に前記障害情報を保持し、
前記パーティション管理ステップは、物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害情報の取得が必要であると判定した場合、前記ハードウェア管理ステップから前記障害発生パーティションの前記障害情報を取得する障害処理方法。 - 請求項19に記載の障害処理方法において、
前記ハードウェア管理ステップは、前記障害発生パーティションの障害情報を他のパーティションから隠蔽しておき、
前記パーティション管理ステップは、前記ハードウェア管理ステップによる前記隠蔽を解除させ、前記障害情報の取得を行う障害処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/056957 WO2008120383A1 (ja) | 2007-03-29 | 2007-03-29 | 情報処理装置、障害処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4495248B2 JP4495248B2 (ja) | 2010-06-30 |
JPWO2008120383A1 true JPWO2008120383A1 (ja) | 2010-07-15 |
Family
ID=39807976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009507374A Active JP4495248B2 (ja) | 2007-03-29 | 2007-03-29 | 情報処理装置、障害処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7930599B2 (ja) |
JP (1) | JP4495248B2 (ja) |
WO (1) | WO2008120383A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5217988B2 (ja) * | 2008-12-08 | 2013-06-19 | 富士通株式会社 | 情報処理装置、プログラムおよび情報処理装置の制御方法 |
US8151147B2 (en) * | 2009-12-17 | 2012-04-03 | Hewlett-Packard Development Company, L.P. | Synchronize error handling for a plurality of partitions |
US8850260B1 (en) * | 2010-09-22 | 2014-09-30 | Western Digital Technologies, Inc. | Programmable error handling |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229811A (ja) * | 2001-02-05 | 2002-08-16 | Nec Eng Ltd | 論理分割システムの制御方法 |
JP2003076671A (ja) * | 2001-06-29 | 2003-03-14 | Fujitsu Ltd | 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理 |
JP2004062535A (ja) * | 2002-07-29 | 2004-02-26 | Nec Corp | マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード |
JP2004213178A (ja) * | 2002-12-27 | 2004-07-29 | Hitachi Ltd | 計算機システム |
JP2004342109A (ja) * | 2003-05-15 | 2004-12-02 | Internatl Business Mach Corp <Ibm> | 入出力ファブリックにおけるハードウェア・エラーからの自動回復 |
JP2005122229A (ja) * | 2003-10-14 | 2005-05-12 | Hitachi Ltd | 計算機システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6450135A (en) | 1987-08-20 | 1989-02-27 | Nec Corp | Fault processing system |
US6633916B2 (en) * | 1998-06-10 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Method and apparatus for virtual resource handling in a multi-processor computer system |
US7380001B2 (en) | 2001-05-17 | 2008-05-27 | Fujitsu Limited | Fault containment and error handling in a partitioned system with shared resources |
US7260752B2 (en) * | 2004-02-19 | 2007-08-21 | International Business Machines Corporation | Method and apparatus for responding to critical abstracted platform events in a data processing system |
US7321987B2 (en) * | 2005-01-04 | 2008-01-22 | International Business Machines Corporation | Error monitoring of partitions in a computer system using partition status indicators |
US7325163B2 (en) * | 2005-01-04 | 2008-01-29 | International Business Machines Corporation | Error monitoring of partitions in a computer system using supervisor partitions |
US20060250945A1 (en) * | 2005-04-07 | 2006-11-09 | International Business Machines Corporation | Method and apparatus for automatically activating standby shared Ethernet adapter in a Virtual I/O server of a logically-partitioned data processing system |
JP4882736B2 (ja) * | 2006-12-27 | 2012-02-22 | 富士通株式会社 | 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
US7783858B2 (en) * | 2007-01-20 | 2010-08-24 | International Business Machines Corporation | Reducing memory overhead of a page table in a dynamic logical partitioning environment |
-
2007
- 2007-03-29 JP JP2009507374A patent/JP4495248B2/ja active Active
- 2007-03-29 WO PCT/JP2007/056957 patent/WO2008120383A1/ja active Application Filing
-
2009
- 2009-09-18 US US12/562,657 patent/US7930599B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229811A (ja) * | 2001-02-05 | 2002-08-16 | Nec Eng Ltd | 論理分割システムの制御方法 |
JP2003076671A (ja) * | 2001-06-29 | 2003-03-14 | Fujitsu Ltd | 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理 |
JP2004062535A (ja) * | 2002-07-29 | 2004-02-26 | Nec Corp | マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード |
JP2004213178A (ja) * | 2002-12-27 | 2004-07-29 | Hitachi Ltd | 計算機システム |
JP2004342109A (ja) * | 2003-05-15 | 2004-12-02 | Internatl Business Mach Corp <Ibm> | 入出力ファブリックにおけるハードウェア・エラーからの自動回復 |
JP2005122229A (ja) * | 2003-10-14 | 2005-05-12 | Hitachi Ltd | 計算機システム |
Also Published As
Publication number | Publication date |
---|---|
WO2008120383A1 (ja) | 2008-10-09 |
US7930599B2 (en) | 2011-04-19 |
JP4495248B2 (ja) | 2010-06-30 |
US20100011257A1 (en) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7917811B2 (en) | Virtual computer system | |
CN102231681B (zh) | 一种高可用集群计算机系统及其故障处理方法 | |
US20070260910A1 (en) | Method and apparatus for propagating physical device link status to virtual devices | |
US20100325471A1 (en) | High availability support for virtual machines | |
CN104239161A (zh) | 在虚拟化系统中实现用于共享适配器的增强错误处理 | |
US10353786B2 (en) | Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program | |
JP2005115751A (ja) | 計算機システム及び計算機システムの障害兆候の検知方法 | |
US10102088B2 (en) | Cluster system, server device, cluster system management method, and computer-readable recording medium | |
JP5425720B2 (ja) | 仮想化環境監視装置とその監視方法およびプログラム | |
JP2010134557A (ja) | 仮想マシン運用管理システム、その運用管理方法、及びプログラム | |
CN117472623A (zh) | 处理内存故障的方法、装置、设备及存储介质 | |
JP4495248B2 (ja) | 情報処理装置、障害処理方法 | |
JP5712714B2 (ja) | クラスタシステム、仮想マシンサーバ、仮想マシンのフェイルオーバ方法、仮想マシンのフェイルオーバプログラム | |
JP2007299213A (ja) | Raid制御装置および障害監視方法 | |
JP5625605B2 (ja) | Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム | |
US7475076B1 (en) | Method and apparatus for providing remote alert reporting for managed resources | |
Leangsuksun et al. | A failure predictive and policy-based high availability strategy for linux high performance computing cluster | |
JP2011076344A (ja) | 情報処理装置,情報処理装置の制御方法および制御プログラム | |
JP6828558B2 (ja) | 管理装置、管理方法及び管理プログラム | |
CN113342593B (zh) | 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备 | |
CN104618191A (zh) | 一种主机与裸存储块之间的通信故障检测方法和装置 | |
JP2006252429A (ja) | コンピュータシステム、コンピュータシステムの診断方法およびコンピュータシステムの制御プログラム | |
JP5832408B2 (ja) | 仮想計算機システム及びその制御方法 | |
Lee et al. | NCU-HA: A lightweight HA system for kernel-based virtual machine | |
Lundin et al. | Significant advances in Cray system architecture for diagnostics, availability, resiliency and health |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100406 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4495248 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140416 Year of fee payment: 4 |