JPWO2006100747A1 - サービスプロセッサを用いたcpu縮退システム及び縮退方法 - Google Patents
サービスプロセッサを用いたcpu縮退システム及び縮退方法 Download PDFInfo
- Publication number
- JPWO2006100747A1 JPWO2006100747A1 JP2007509101A JP2007509101A JPWO2006100747A1 JP WO2006100747 A1 JPWO2006100747 A1 JP WO2006100747A1 JP 2007509101 A JP2007509101 A JP 2007509101A JP 2007509101 A JP2007509101 A JP 2007509101A JP WO2006100747 A1 JPWO2006100747 A1 JP WO2006100747A1
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- service processor
- microprogram
- error
- degeneration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007850 degeneration Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000003745 diagnosis Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims 1
- 239000013256 coordination polymer Substances 0.000 claims 1
- 238000012423 maintenance Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000593 degrading effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/273—Tester hardware, i.e. output processing circuits
- G06F11/2736—Tester hardware, i.e. output processing circuits using a dedicated service processor for test
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2284—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1417—Boot up procedures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Hardware Redundancy (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
Description
(図1の矢印(2)、(3)、(4))を実行しているときから、OS起動後にわたるまで、CPUハードウェアエラーの発生をサービスプロセッサCPU(B)20が認識(図1の矢印(5))し、エラーの発生回数が予め設定されている閾値を超えると、「後に重大なエラーを招く可能性がある、不安定な動作をする予兆のあるCPUである」とみなして、OSによってウェイト状態にしていた。つまり従来では、物理的にCPUを切り離すのではなく、対象のCPUに対してプロセスの割り当てを行なわない状態にしてソフト的にCPUを切り離して、次のリセットを契機にマイクロプログラム(Micro Program)11が縮退を実行していた。そして、マイクロプログラム11による診断の結果、OKであれば正常CPUでプログラム処理を継続するようにして診断処理を終了する(A8)。一方、マイクロプログラムによるCPU診断処理の結果、システム側CPU自身でNGの状況を呈すれば、マイクロプログラム11自身よって当該CPUを縮退するようにし(A7)、CPU縮退した場合でも残された正常CPUでプログラム処理の継続が可能であれば処理継続してマイクロプログラム11による診断処理を終了する(A8)。つまり、システムから不安定な動作をする予兆のあるCPUに対してプロセスの割り当てを行なわない状態にしているが、それは既にOS(システム)が起動された後であり、そのようなCPUを切り離すためには、次にマイクロプログラムが動作するリブートなどのタイミングであった。(特許文献1参照)
業時間・保守にかかるコストの節減を図ることができる。
Program)11がシステムを構成するユニットの初期設定/診断(図3の矢印(2)、(3)、(4))を実行中におけるCPUハードウェアエラーの発生をサービスプロセッサCPU(B)20が認識(図3の矢印(5))し、エラーの発生回数が予め設定されている閾値を超えると、「後に重大なエラーを招く可能性がある、不安定な動作をする予兆のあるCPUである」とみなして、サービスプロセッサ20にCPU縮退をするよう依頼する(B13)。そして、マイクロプログラム11による診断の結果、OKであれば正常CPUでプログラム処理を継続する(B9)。一方、マイクロプログラムによるCPU診断処理の結果、システム側CPU自身でNG(No Good)の状況を呈すれば、サービスプロセッサ20にCPU縮退をするよう依頼する(B7)。サービスプロセッサ20はマイクロプログラム11に依頼されたCPU縮退を実行(B8)し、残された正常CPUでプログラム処理の継続が可能であれば処理継続する(B9)。
なお、マイクロプログラムの動作中(システム構成ユニットの初期設定/診断中)に、CPUハードウェアエラーの発生がなかった場合は、通常通り、マイクロプログラムによる初期設定/診断処理を終了する。
等に見られるIAE(Instruction Access Error)、キャッシュにLoad/StoreアクセスしているときのUE等に見られるDAE (Data Access Error)、命令実行を妨害するようなエラーで、上記IAEやDAEでない、例えばプログラムから見えるレジスタ(PC(Program Counter Register)、CCR(Condition Codes Register)など)内のUE等に見られるI_UGE(Instruction Urgent Error)のようにエラーレベルの高いもの、また、命令非同期エラー(Asynchronous Error)に属しRE(Restrainable Error)すなわち現在実行中のプログラムに有害な影響を与えないエラー、例えば、ハードによって修正されるCE(correctable error)のようにエラーレベルが低いもの、が含まれるが、本願発明においては、エラーレベルの高低に関係なく、「不安定な動作をする予兆のあるCPU」であると判断された場合にはサービスプロセッサにCPU縮退依頼を出すことにより、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作業時間・保守にかかるコストの節減を図ることができる。
Claims (6)
- 運用システムのCPUチェックを行ない、前記CPUが自ハードウェアリソースによる基本的動作能力を有すると判断したときマイクロプログラムにCPU制御を渡すサービスプロセッサと、システムリセットを契機に前記運用システムのCPUを含むシステム構成ユニットの診断を行なうマイクロプログラムを備え、前記マイクロプログラムは、マイクロプログラムによる診断の終了直前までのエラーCPU情報を前記サービスプロセッサから取得し、前記エラーCPU情報に基づいて前記サービスプロセッサに不安定な動作をする予兆のあるCPUの縮退を依頼することを特徴とするサービスプロセッサを用いたCPU縮退システム。
- 前記サービスプロセッサは、前記運用システムのCPUのエラー発生状況を監視し、前記マイクロプログラムによる診断処理の終了直前まで前記エラー発生状況をストアするエラーCPU情報蓄積部を有することを特徴とする請求項1記載のサービスプロセッサを用いたCPU縮退システム。
- 前記サービスプロセッサは、前記マイクロプログラムからエラーCPU情報の送付依頼を受けたとき前記エラーCPU情報蓄積部にストアされたエラーCPU情報を前記マイクロプログラムに通知することを特徴とする請求項2記載のサービスプロセッサを用いたCPU縮退システム。
- 前記マイクロプラグラムは、前記サービスプロセッサから通知されたエラーCPU情報に基づいて縮退すべきCPUを決定し、前記サービスプロセッサに前記CPUの縮退依頼を行ない、依頼を受けた前記サービスプロセッサが前記CPUの縮退を実行することを特徴とする請求項3記載のサービスプロセッサを用いたCPU縮退システム。
- サービスプロセッサが取得しているCPU情報(マイクロプログラムでは直接認識することができないエラー)を、マイクロプログラムの終了直前にサービスプロセッサからマイクロプログラムが取得し、取得したエラーCPU情報に基づいて前記サービスプロセッサに不安定な動作をする予兆のあるCPUの縮退を依頼し、前記サービスプロセッサはOS起動前に不安定な動作をする予兆のあるCPUの縮退を実行することを特徴とするサービスプロセッサを用いたCPU縮退方法。
- マイクロプログラムがシステムを構成するユニットの初期設定または診断を実行中におけるCPUハードウェアエラーの発生をサービスプロセッサが認識するステップと、
システム側のエラーCPU情報を作成するステップと、
前記サービスプロセッサに対してエラーが起きたCPU情報の通知をマイクロプログラムの終了直前に依頼し、前記サービスプロセッサは前記依頼を受けてエラーが起きたCPU情報を前記マイクロプログラムに通知するステップと、
前記マイクロプログラムは通知されたエラーCPU情報の内容を判断し前記サービスプロセッサに縮退依頼をするCPUを決定し前記サービスプロセッサに対し縮退を依頼するステップと、
前記マイクロプログラムからの縮退依頼を受けて、前記サービスプロセッサは当該CP
Uの縮退を実行するステップ、を含んで成るサービスプロセッサを用いたCPU縮退方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/005033 WO2006100747A1 (ja) | 2005-03-18 | 2005-03-18 | サービスプロセッサを用いたcpu縮退システム及び縮退方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006100747A1 true JPWO2006100747A1 (ja) | 2008-08-28 |
JP4313833B2 JP4313833B2 (ja) | 2009-08-12 |
Family
ID=37023444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007509101A Expired - Fee Related JP4313833B2 (ja) | 2005-03-18 | 2005-03-18 | サービスプロセッサを用いたcpu縮退システム及び縮退方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7840853B2 (ja) |
EP (1) | EP1860566A4 (ja) |
JP (1) | JP4313833B2 (ja) |
CN (1) | CN100507866C (ja) |
WO (1) | WO2006100747A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5035299B2 (ja) * | 2009-06-15 | 2012-09-26 | 株式会社日立製作所 | マルチコアプロセッサ制御方法、その計算機システム、及び管理計算機のプログラム |
JP5440912B2 (ja) * | 2009-07-02 | 2014-03-12 | 日本電気株式会社 | 情報処理装置及びそのプロセッサ管理方法 |
JP5760847B2 (ja) | 2011-08-22 | 2015-08-12 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム |
KR101332815B1 (ko) * | 2012-02-29 | 2013-11-27 | 주식회사 팬택 | 휴대용 단말을 위한 재부팅 처리 장치 및 방법 |
US8977895B2 (en) * | 2012-07-18 | 2015-03-10 | International Business Machines Corporation | Multi-core diagnostics and repair using firmware and spare cores |
JP6044316B2 (ja) * | 2012-12-12 | 2016-12-14 | 株式会社デンソー | 車載電子制御装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60100231A (ja) | 1983-11-04 | 1985-06-04 | Nec Corp | 情報処理装置におけるシステム構成制御方式 |
JPH07306793A (ja) | 1994-05-16 | 1995-11-21 | Fujitsu Ltd | 計算機システムの縮退方法,及び装置 |
GB2290891B (en) * | 1994-06-29 | 1999-02-17 | Mitsubishi Electric Corp | Multiprocessor system |
JPH0887341A (ja) * | 1994-09-16 | 1996-04-02 | Fujitsu Ltd | 自動縮退立ち上げ機能を有したコンピュータシステム |
US5887146A (en) * | 1995-08-14 | 1999-03-23 | Data General Corporation | Symmetric multiprocessing computer with non-uniform memory access architecture |
US5768585A (en) * | 1995-11-21 | 1998-06-16 | Intel Corporation | System and method for synchronizing multiple processors during power-on self testing |
JP3293125B2 (ja) * | 1998-07-24 | 2002-06-17 | 日本電気株式会社 | オンチップマルチプロセッサシステムにおける初期設定・診断方式 |
US6216226B1 (en) * | 1998-10-02 | 2001-04-10 | International Business Machines Corporation | Method and system for dynamically selecting a boot process within a data processing system |
JP2001154999A (ja) | 1999-11-30 | 2001-06-08 | Hitachi Ltd | 並列計算機システム及びその立上げ処理方法 |
US7480911B2 (en) * | 2002-05-09 | 2009-01-20 | International Business Machines Corporation | Method and apparatus for dynamically allocating and deallocating processors in a logical partitioned data processing system |
US7225327B1 (en) * | 2003-04-11 | 2007-05-29 | Newisys, Inc. | Method, system, software, and processor for initializing information systems operating in headless and non-headless environments |
US7334142B2 (en) * | 2004-01-22 | 2008-02-19 | International Business Machines Corporation | Reducing power consumption in a logically partitioned data processing system with operating system call that indicates a selected processor is unneeded for a period of time |
-
2005
- 2005-03-18 EP EP05721183A patent/EP1860566A4/en not_active Withdrawn
- 2005-03-18 JP JP2007509101A patent/JP4313833B2/ja not_active Expired - Fee Related
- 2005-03-18 WO PCT/JP2005/005033 patent/WO2006100747A1/ja not_active Application Discontinuation
- 2005-03-18 CN CNB2005800489568A patent/CN100507866C/zh not_active Expired - Fee Related
-
2007
- 2007-09-18 US US11/857,008 patent/US7840853B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7840853B2 (en) | 2010-11-23 |
JP4313833B2 (ja) | 2009-08-12 |
US20080010511A1 (en) | 2008-01-10 |
EP1860566A1 (en) | 2007-11-28 |
CN100507866C (zh) | 2009-07-01 |
CN101137964A (zh) | 2008-03-05 |
EP1860566A4 (en) | 2010-07-28 |
WO2006100747A1 (ja) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4887150B2 (ja) | コプロセッサを監視及びリセットするための方法及び装置 | |
US7949904B2 (en) | System and method for hardware error reporting and recovery | |
JP4313833B2 (ja) | サービスプロセッサを用いたcpu縮退システム及び縮退方法 | |
US11526411B2 (en) | System and method for improving detection and capture of a host system catastrophic failure | |
US7865782B2 (en) | I/O device fault processing method for use in virtual computer system | |
US8219851B2 (en) | System RAS protection for UMA style memory | |
US20200218599A1 (en) | Methods and systems for smart memory data integrity checking | |
US20100057966A1 (en) | Notifying Asynchronous Events To A Host Of A Data Storage System And Apparatus For The Same | |
US20140122421A1 (en) | Information processing apparatus, information processing method and computer-readable storage medium | |
US7318171B2 (en) | Policy-based response to system errors occurring during OS runtime | |
JP2010086364A (ja) | 情報処理装置、動作状態監視装置および方法 | |
US11953976B2 (en) | Detecting and recovering from fatal storage errors | |
US10379931B2 (en) | Computer system | |
WO2023109880A1 (zh) | 一种业务恢复方法、数据处理单元及相关设备 | |
KR20180066073A (ko) | 컴퓨팅 디바이스에서 운영 시스템 독립적 에러 제어를 제공하는 시스템 및 방법 | |
JP2010186242A (ja) | 計算機システム | |
US7627789B2 (en) | Polymorphic management of embedded devices using web interfaces | |
US10768940B2 (en) | Restoring a processing unit that has become hung during execution of an option ROM | |
US8726102B2 (en) | System and method for handling system failure | |
KR100913799B1 (ko) | 서비스 프로세서를 이용한 cpu 축퇴 시스템 및 축퇴방법 | |
CN111581058A (zh) | 故障管理方法、装置、设备及计算机可读存储介质 | |
US20180335994A1 (en) | Image forming apparatus, information processing method, storage medium storing program | |
JP2007265157A (ja) | I/o装置の障害検出システム、及び、方法 | |
JP2018147510A (ja) | サーバ装置およびサーバシステム | |
JP5970846B2 (ja) | 計算機システム及び計算機システムの制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090515 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |