WO2006100747A1 - サービスプロセッサを用いたcpu縮退システム及び縮退方法 - Google Patents

サービスプロセッサを用いたcpu縮退システム及び縮退方法 Download PDF

Info

Publication number
WO2006100747A1
WO2006100747A1 PCT/JP2005/005033 JP2005005033W WO2006100747A1 WO 2006100747 A1 WO2006100747 A1 WO 2006100747A1 JP 2005005033 W JP2005005033 W JP 2005005033W WO 2006100747 A1 WO2006100747 A1 WO 2006100747A1
Authority
WO
WIPO (PCT)
Prior art keywords
cpu
service processor
error
microprogram
degeneration
Prior art date
Application number
PCT/JP2005/005033
Other languages
English (en)
French (fr)
Inventor
Hidenori Higashi
Akihiro Yamazaki
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP05721183A priority Critical patent/EP1860566A4/en
Priority to JP2007509101A priority patent/JP4313833B2/ja
Priority to CNB2005800489568A priority patent/CN100507866C/zh
Priority to PCT/JP2005/005033 priority patent/WO2006100747A1/ja
Publication of WO2006100747A1 publication Critical patent/WO2006100747A1/ja
Priority to US11/857,008 priority patent/US7840853B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures

Definitions

  • the present invention relates to a CPU degeneration system and a degeneration method using a service processor that detects a CPU with a sign of unstable operation before operation and does not incorporate it into the system.
  • FIG. 1 is a schematic diagram showing a configuration of a CPU degeneration system using a service processor for realizing conventional CPU degeneration.
  • the micro program 11 shown in FIG. 1 functions as a module for diagnosing the units constituting the system when the system is reset when the system is turned on or rebooted / reset.
  • the microprogram 11 shown in FIG. 1 is executed by the CPU on the operating system side, that is, the CPU (A) 10 in FIG. Note that the CPU (A) 10 on the operation system side is depicted as a single CPU in the figure. Actually, the CPU on the operation system side is composed of multiple CPUs! No way! /.
  • the microprogram 11 shown in Fig. 1 has an operational system CPU (A) 10, memory (Memory) 12, and I as shown by arrows (2), (3), and (4) in Fig. 1. Initializes and diagnoses system configuration units such as / O Unit (I / O Unit) 13 and exchanges information with the service processor.
  • FIG. 6 is a schematic diagram showing a processing sequence for explaining the operation of a CPU degeneration system using a conventional service processor between servers.
  • the numbers in the sequence chart shown in FIG. 2 correspond to the numbers in the configuration diagram of the CPU degeneration system using the conventional service processor shown in FIG.
  • the operation of the CPU degeneration system using the service processor is described.
  • system power-on is performed on the service processor side (Al).
  • system CPU10 operation check ((1) in Fig. 1) is performed (A2). If the operating system side CPU 10 is in a state where at least basic operations can be performed using its own hard resource, the CPU control is passed to the microprogram 11 (A4). If it is determined to be NG (No Good), the CPU halt processing is performed by the service processor, and control is not passed to the microprogram 11! / ⁇ (A3).
  • the microprogram 11 to which control is passed from the service processor 20 starts the initial setting and diagnosis of the system configuration unit, and first performs CPU diagnosis processing ((2) in FIG. 1) (A5).
  • the service processor 20 constantly monitors the error occurrence status of the system CPU 10 and notifies the system CPU of the error occurrence status just before the microprogram shifts to the next control. (A6). From the time when the Micro Program 11 performs the initial setting Z diagnosis (arrows (2), (3), (4) in Fig. 1) of the units constituting the system to after the OS is started When the service processor CPU (B) 20 recognizes the occurrence of a CPU hardware error (arrow (5) in Fig.
  • Patent Document 1 Japanese Patent Laid-Open No. 08-087341
  • the present invention recognizes a CPU having a sign of unstable operation by a microprogram, determines a CPU to be degraded, and does not incorporate it into an operation system before starting an OS.
  • the purpose is to provide a CPU degeneration system and degeneration method using the service processor.
  • the present invention relates to error CPU information acquired by the service processor (which cannot be directly recognized by the microprogram) immediately before the end of the microprogram. Based on the CPU information acquired by the microprogram and the acquired error CPU information, the service processor is requested to degenerate the CPU with a sign of unstable operation, and the service processor operates unstablely before the OS starts. It is characterized by executing CPU degeneration with a sign of failure.
  • FIG. 1 is a schematic diagram showing a configuration of a CPU degeneration system using a service processor for realizing conventional CPU degeneration.
  • FIG. 2 is a schematic diagram showing a processing sequence for explaining the operation of a CPU degeneration system using a conventional service processor among a micro program, a system CPU, and a service processor.
  • FIG. 3 is a schematic diagram showing a configuration of a CPU degeneration system using a service processor for realizing CPU degeneration according to the present invention.
  • FIG. 4 is a schematic diagram showing a processing sequence for explaining the operation of a CPU degeneration system using a service processor of the present invention among a micro program, a system CPU, and a service processor.
  • FIG. 3 is a schematic diagram showing a configuration of a CPU degeneration system using a service processor for realizing CPU degeneration according to the present invention.
  • the micro program 11 shown in Fig. 3 functions as a module that diagnoses the units that make up the system, triggered by a system reset such as when the system is turned on or rebooted / reset.
  • the microprogram 11 shown in FIG. 3 is executed by the CPU on the operation system side, that is, the CPU (A) 10 in FIG. Note that the CPU (A) 10 on the operation system side is depicted as a single CPU in the figure. Actually, the CPU on the operation system side is composed of multiple CPUs! No way! /. [0015] When the CPU control on the operation system side is transferred to the micro program 11 shown in Fig.
  • the service processor side indicated by arrow (1) is after the CPU operation check is performed.
  • the CPU on the operating system side is in a state where it can perform at least basic operations using its own hardware resources.
  • the service processor CPU (B) 20 executes the CPU stop process. Therefore, control is not passed to the microprogram 11.
  • the microprogram 11 shown in Fig. 3 has the operation system CPU (A) 10, memory (Memory) 12, and I as shown by arrows (2), (3), and (4) in Fig. 1. Initializes and diagnoses system configuration units such as / O Unit (I / O Unit) 13 and exchanges information with the service processor.
  • FIG. 4 is a schematic diagram showing a processing sequence for explaining the operation of the CPU degeneration system using the service processor of the present invention among the micro program, the system CPU, and the service processor.
  • the numbers in the sequence chart shown in FIG. 4 correspond to the numbers in the configuration diagram of the CPU degeneration system using the service processor of the present invention shown in FIG.
  • the operation of the CPU degeneration system using this service processor is explained. As shown in Fig. 4, first, system power-on is performed on the service processor side (Bl). Next, the system CPU10 operation check ((1) in Fig. 3) is performed (B2).
  • the operation system side CPU 10 is in a state where at least basic operations can be performed using its own hardware resources, the CPU control is passed to the microprogram 11 (B4) by the CPU operation check on the 1S operation system side. If it is determined as NG (No Good), CPU stop processing is performed and control is not passed to the microphone port program 11 (B3).
  • NG No Good
  • the microprogram 11 to which control is transferred from the service processor 20 starts initial setting and diagnosis of the system configuration unit, and first performs CPU diagnosis processing ((2) in FIG. 3) (B5).
  • the service processor 20 constantly monitors the error occurrence status of the system CPU 10 and notifies the system CPU of the error occurrence status only when the microprogram shifts to the next control (B6). That is, the microprogram (Micro Program) 11 is the initial setting of the units that make up the system.
  • the micro program generates a CPU error and a one-door error during the initial setting / diagnosis of the units that make up the system ((2), (3), (4) in Fig. 3).
  • the service processor CPU (B) 20 constantly monitors and recognizes the occurrence status ((5) and (B6) in Fig. 3), and the error CPU information on the system side (this will be described later) immediately before the microprogram ends.
  • “Error Info” 21 is created ([Error Info] in FIG. 3) ((6) in FIG. 3) (B10). Therefore, “Error Info” 21 constitutes an error CPU information storage unit.
  • Microprogram 11 requests the service processor 20 to notify the CPU that the error has occurred immediately before the end of the microprogram ((7) in FIG. 3 (B11), and service processor 20 has an error.
  • the CPU is notified to the microprogram 11 based on “Error Info” 21 ((8) in FIG. 3) (B12).
  • the microprogram 11 determines the contents of the CPU in which the error has occurred, determines the CPU to request the service processor 20 to degenerate, and requests that CPU to degenerate (see (3 in Fig. 3)). 9)) (B13).
  • CPU resources are necessary as resources for initial setting / diagnosis processing of the microprogram. Therefore, CPU degeneration with a sign of unstable operation is performed immediately before the end of the microprogram.
  • the service processor 20 Is performed (B 14).
  • the microprogram cannot be directly recognized, and by acquiring the error CPU information on the service processor side, it is possible to predict an unstable operation before starting the OS. Since a certain CPU can be degenerated, it is possible to improve the robustness of the operation system and to reduce the maintenance cost when a failure occurs after operation.
  • the error CPU information on the system side will be explained.
  • the error CPU information belongs to the instruction synchronous error (Synchronous Error), and the memory UE (Uncorrectable Error) during instruction fetch
  • IAEQnstruction Access Error DAE (Data Access Error) seen by UEs when accessing Load / Store to the cache, errors that interfere with instruction execution, and not IAE or DAE, such as programs High error level such as I_UGE (Instruction Urgent Error) seen by UEs in registers (PC (Program Counter Register), CCR (Condition Codes Register, etc.)) that can be seen from, and instruction asynchronous error (Asynchronous Error) RE (Restrainable Error), that is, errors that do not have a detrimental effect on the currently running program, e.g. fixed by hardware
  • the power that includes a low error level such as CE (correctable error) In the present invention, it was judged to be a “CPU with a sign of unstable operation” related to the high or low error level. In some cases, by requesting the CPU to degenerate the service processor, it is possible to improve the robustness of the operation system and to reduce the maintenance work time when a failure occurs after operation.
  • a low error level such as CE (correctable error)
  • CE corrected error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 OS起動前に不安定な動作をする予兆のあるCPUの縮退を実行できるようにするために、サービスプロセッサが取得しているエラーCPU情報(マイクロプログラムでは直接認識することができない)を、マイクロプログラムの終了直前にサービスプロセッサからマイクロプログラムが取得し、取得したエラーCPU情報に基づいてサービスプロセッサに不安定な動作をする予兆のあるCPUの縮退を依頼し、サービスプロセッサはOS起動前に不安定な動作をする予兆のあるCPUの縮退を実行する。

Description

明 細 書
サービスプロセッサを用いた CPU縮退システム及び縮退方法
技術分野
[0001] 本発明は、運用前に不安定な動作をする予兆のある CPUを検出してシステムに組 み込まな 、ようにするサービスプロセッサを用いた CPU縮退システム及び縮退方法 に関する。
背景技術
[0002] 図 1は、従来の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退 システムの構成を示す概略図である。図 1のマイクロプログラム(Micro Program) 11は 、システムの電源投入やリブート/リセット時などのシステムリセットを契機に、システム を構成するユニットの診断をおこなうモジュールとして機能するようにされて 、る。図 1 に示したマイクロプログラム 11は、運用システム側の CPU、すなわち図 1の CPU (A) 10によって実行される。なお、運用システム側の CPU (A) 10は図上では 1つの CP Uのように描かれている力 実際は複数の CPUによって運用システム側の CPUが構 成されて!/、ることは!、うまでもな!/、。
[0003] 図 1に示したマイクロプログラム(Micro Program) 11に運用システム側の CPU制御 が渡るときには、矢印 (1)で示すサービスプロセッサ側による CPUの動作チェックがな された後であるために、運用システム側の CPUが自ハードウェアリソースを使って少 なくとも基本的な動作ができる状態にある。サービスプロセッサ CPU (B) 20による運 用システム側の CPUの動作チェックによって NG (No Good)と判断された運用システ ム側の CPUについては、サービスプロセッサ CPU (B) 20が CPU停止処理を実行す るため、マイクロプログラム 11に制御が渡らな 、ようになって 、る。
[0004] 図 1に示したマイクロプログラム 11は図 1の矢印 (2)、(3)、(4)で示すように、運用シス テムの CPU(A)10、メモリ (Memory) 12、そして I/Oユニット (I/O Unit) 13といったシス テム構成ユニットの初期設定および診断をおこな 、、サービスプロセッサ側と情報を やりとりする。
[0005] 図 2はマイクロプログラム(Micro Program)、システム CPUおよびサービスプロセッ サ間における従来のサービスプロセッサを用いた CPU縮退システムの動作を説明す る処理シーケンスを示す概略図である。図 2に示したシーケンスチャート中の番号は 、図 1に示した従来のサービスプロセッサを用いた CPU縮退システムの構成図にお ける番号に対応させているので、図 1および図 2を用いて従来のサービスプロセッサ を用いた CPU縮退システムの動作を説明する。図 2に示すようにまず、サービスプロ セッサ側においてシステムパワーオンを行なう(Al)。ついでシステム CPU10の動作 チェック(図 1の (1))を行なう(A2)。ここで運用システム側の CPU10が自ハードゥエ ァリソースを使って少なくとも基本的な動作ができる状態にある場合には、 CPU制御 をマイクロプログラム 11に渡す (A4)力 運用システム側の CPUの動作チェックによ つて NG (No Good)と判断された場合には、サービスプロセッサによって CPU停止処 理が行なわれて、マイクロプログラム 11には制御が渡らな!/ヽ (A3)。
サービスプロセッサ 20から制御が渡されたマイクロプログラム 11は、システム構成ュ ニットの初期設定および診断を開始し、まず CPU診断処理 (図 1の (2))をおこなう (A 5)。システム構成ユニットの初期設定および診断中、サービスプロセッサ 20は、シス テム CPU10のエラーの発生状況を常時監視するとともにマイクロプログラムが次の 制御に移行する直前だけ、エラー発生状況をシステム側 CPUに通知する (A6)。マ イク口プログラム (Micro Program) 11がシステムを構成するユニットの初期設定 Z診断 (図 1の矢印 (2)、(3)、(4))を実行しているときから、 OS起動後にわたるまで、 CPUハ 一ドウエアエラーの発生をサービスプロセッサ CPU(B)20が認識(図 1の矢印 (5))し、 エラーの発生回数が予め設定されている閾値を超えると、「後に重大なエラーを招く 可能性がある、不安定な動作をする予兆のある CPUである」とみなして、 OSによって ウェイト状態にしていた。つまり従来では、物理的に CPUを切り離すのではなぐ対 象の CPUに対してプロセスの割り当てを行なわない状態にしてソフト的に CPUを切り 離して、次のリセットを契機にマイクロプログラム (Micro Program) 11が縮退を実行し ていた。そして、マイクロプログラム 11による診断の結果、 OKであれば正常 CPUで プログラム処理を継続するようにして診断処理を終了する (A8)。一方、マイクロプロ グラムによる CPU診断処理の結果、システム側 CPU自身で NGの状況を呈すれば、 マイクロプログラム 11自身よつて当該 CPUを縮退するようにし (A7)、 CPU縮退した 場合でも残された正常 CPUでプログラム処理の継続が可能であれば処理継続して マイクロプログラム 11による診断処理を終了する (A8)。つまり、システム力も不安定 な動作をする予兆のある CPUに対してプロセスの割り当てを行なわない状態にして いるが、それは既に OS (システム)が起動された後であり、そのような CPUを切り離す ためには、次にマイクロプログラムが動作するリブートなどのタイミングであった。(特 許文献 1参照)
特許文献 1:特開平 08-087341号公報
発明の開示
[0007] このように従来のサービスプロセッサを用いた CPU縮退システムは、不安定な動作 をする予兆のある CPUを OS起動後に認識して、次のシステムリセットを契機に CPU 縮退を実行して 、たので、 OS起動前に不安定な動作をする予兆のある CPUの縮退 を実行することができな 、と 、う課題があった。
[0008] ところでコンピュータ分野においては CPUの生産過程によって生ずる品質のばら つきは不可避である。この品質のばらつきにより、不安定な動作をする予兆のある CP uの特定と、不安定動作がどのレベルかの認識、そして、システムの運用前にこれら を構成ユニットから切り離すことによるシステムの安定運用は重要な課題である。
[0009] 運用前に不安定な動作をする予兆のある CPUを認識 '縮退してシステム構成ュ- ットに組み込まないことは、運用システムにおける堅牢性の向上、運用後に故障が起 こったときの故障保守作業時間 ·保守にかかるコストの節減のためには重要なことで ある。しかし、それらをノヽードウエア機能により実現した場合、実装すべきハードウェア の増大によるシステムのコストアップおよびシステムのサイズの増大が課題克服の阻 害要因となっていた。
[0010] 上記課題を解決するために本発明は、マイクロプログラムによって不安定な動作を する予兆のある CPUを認識し縮退すべき CPUを決定し、 OS起動前に運用システム に組み入れな 、ようにしたサービスプロセッサを用いた CPU縮退システム及び縮退 方法を提供することを目的とする。
[0011] 本発明は、サービスプロセッサが取得しているエラー CPU情報(マイクロプログラム では直接認識することができない)を、マイクロプログラムの終了直前にサービスプロ セッサ力 マイクロプログラムが取得し、取得したエラー CPU情報に基づ 、てサービ スプロセッサに不安定な動作をする予兆のある CPUの縮退を依頼し、サービスプロ セッサは OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することを 特徴とする。
[0012] 本発明によれば、 OS起動前に不安定な動作をする予兆のある CPUの縮退を実行 することで、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故 障保守作
業時間 ·保守に力かるコストの節減を図ることができる。
図面の簡単な説明
[0013] [図 1]従来の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退シス テムの構成を示す概略図である。
[図 2]マイクロプログラム(Micro Program)、システム CPUおよびサービスプロセッサ間 における従来のサービスプロセッサを用いた CPU縮退システムの動作を説明する処 理シーケンスを示す概略図である。
[図 3]本発明の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退シ ステムの構成を示す概略図である。
[図 4]マイクロプログラム(Micro Program)、システム CPUおよびサービスプロセッサ間 における本発明のサービスプロセッサを用いた CPU縮退システムの動作を説明する 処理シーケンスを示す概略図である。 発明を実施するための最良の形態
[0014] 図 3は、本発明の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮 退システムの構成を示す概略図である。図 3のマイクロプログラム(Micro Program) 11 は、システムの電源投入やリブート/リセット時などのシステムリセットを契機に、システ ムを構成するユニットの診断をおこなうモジュールとして機能するようにされて 、る。図 3に示したマイクロプログラム 11は、運用システム側の CPU、すなわち図 3の CPU (A ) 10によって実行される。なお、運用システム側の CPU (A) 10は図上では 1つの CP Uのように描かれている力 実際は複数の CPUによって運用システム側の CPUが構 成されて!/、ることは!、うまでもな!/、。 [0015] 図 3に示したマイクロプログラム(Micro Program) 11に運用システム側の CPU制御 が渡るときには、矢印 (1)で示すサービスプロセッサ側による CPUの動作チェックがな された後であるために、運用システム側の CPUが自ハードウェアリソースを使って少 なくとも基本的な動作ができる状態にある。サービスプロセッサ CPU (B) 20による運 用システム側の CPUの動作チェックによって NG (No Good)と判断された運用システ ム側の CPUについては、サービスプロセッサ CPU (B) 20が CPU停止処理を実行す るため、マイクロプログラム 11に制御が渡らな 、ようになって 、る。
[0016] 図 3に示したマイクロプログラム 11は図 1の矢印 (2)、(3)、(4)で示すように、運用シス テムの CPU(A)10、メモリ (Memory) 12、そして I/Oユニット (I/O Unit) 13といったシス テム構成ユニットの初期設定および診断をおこな 、、サービスプロセッサ側と情報を やりとりする。
[0017] 図 4はマイクロプログラム(Micro Program)、システム CPUおよびサービスプロセッ サ間における本発明のサービスプロセッサを用いた CPU縮退システムの動作を説明 する処理シーケンスを示す概略図である。図 4に示したシーケンスチャート中の番号 は、図 3に示した本発明のサービスプロセッサを用いた CPU縮退システムの構成図 における番号に対応させているので、図 3および図 4を用いて本発明のサービスプロ セッサを用いた CPU縮退システムの動作を説明する。図 4に示すようにまず、サービ スプロセッサ側においてシステムパワーオンを行なう(Bl)。ついでシステム CPU10 の動作チェック(図 3の (1))を行なう(B2)。ここで運用システム側の CPU10が自ハー ドウエアリソースを使って少なくとも基本的な動作ができる状態にある場合には、 CPU 制御をマイクロプログラム 11に渡す (B4) 1S 運用システム側の CPUの動作チェック によって NG (No Good)と判断された場合には、 CPU停止処理が行なわれて、マイク 口プログラム 11には制御が渡らな ヽ(B3)。
[0018] サービスプロセッサ 20から制御が渡されたマイクロプログラム 11は、システム構成ュ ニットの初期設定および診断を開始しまず CPU診断処理 (図 3の (2))をおこなう(B5 )。 CPU診断処理中、サービスプロセッサ 20は、システム CPU10のエラーの発生状 況を常時監視するとともにマイクロプログラムが次の制御に移行する時だけエラー発 生状況をシステム側 CPUに通知する(B6)。すなわち、マイクロプログラム (Micro Program) 11がシステムを構成するユニットの初期設定 Z診断(図 3の矢印 (2)、(3)、 ( 4))を実行中における CPUハードウェアエラーの発生をサービスプロセッサ CPU(B) 20が認識(図 3の矢印 (5))し、エラーの発生回数が予め設定されて 、る閾値を超える と、「後に重大なエラーを招く可能性がある、不安定な動作をする予兆のある CPUで ある」とみなして、サービスプロセッサ 20に CPU縮退をするよう依頼する(B13)。そし て、マイクロプログラム 11による診断の結果、 OKであれば正常 CPUでプログラム処 理を継続する(B9)。一方、マイクロプログラムによる CPU診断処理の結果、システム 側 CPU自身で NG (No Good)の状況を呈すれば、サービスプロセッサ 20に CPU縮 退をするよう依頼する(B7)。サービスプロセッサ 20はマイクロプログラム 11に依頼さ れた CPU縮退を実行 (B8)し、残された正常 CPUでプログラム処理の継続が可能で あれば処理継続する(B9)。
[0019] ところでマイクロプログラム (Micro Program)は、システムを構成するユニットの初期 設定/診断 (図 3の (2)、(3)、(4))を実行中における CPUノ、一ドウ アエラーの発生を サービスプロセッサ CPU(B)20が常時監視してその発生状況を認識(図 3の (5)) (B6 )し、マイクロプログラムの終了する直前までにシステム側のエラー CPU情報 (これに ついては後述する)を蓄積し「Error Info」21を作成(図 3の [Error Info])する(図 3の (6 )) (B10)。したがって「Error Info」21は、エラー CPU情報蓄積部を構成していること になる。
[0020] マイクロプログラム 11は、マイクロプログラムの終了直前にサービスプロセッサ 20に 対してエラーが起きた CPUの通知を依頼し(図 3の (7)) (B11)、サービスプロセッサ 2 0はエラーが起きた CPUを「Error Info」 21に基づ!/、てマイクロプログラム 11に通知す る(図 3の (8)) (B12)。
[0021] マイクロプログラム 11はエラーが起きた CPUの内容を判断して、サービスプロセッ サ 20に縮退依頼をする CPUを決定し、その CPUをサービスプロセッサ 20に対して 縮退依頼する(図 3の (9)) (B13)。本発明ではマイクロプログラムの初期設定/診断 処理のリソースとして CPU資源は必要であるため、不安定な動作をする予兆のある C PUの縮退をマイクロプログラムの終了直前にて行なうことにしている。
[0022] マイクロプログラム 11からの縮退依頼を受けて、サービスプロセッサ 20は当該 CPU の縮退を実行する(B 14)。
なお、マイクロプログラムの動作中(システム構成ユニットの初期設定/診断中)に、 CPUノヽードウエアエラーの発生がな力つた場合は、通常通り、マイクロプログラムによ る初期設定/診断処理を終了する。
[0023] このように本発明によれば、マイクロプログラムが直接認識することができな 、エラ 一 CPU情報を、サービスプロセッサ側力 取得することにより、 OS起動前に不安定 な動作をする予兆のある CPUの縮退が実行可能となるので、運用システムにおける 堅牢性の向上、運用後に故障が起こったときの故障保守作業時間 '保守にかかるコ ストの節減を図ることができる。
[0024] システム側のエラー CPU情報について説明すると、エラー CPU情報には、命令同 期エラー (Synchronous Error)に属し、命令フェッチ中のメモリ UE(Uncorrectable Error)
等に見られる IAEQnstruction Access Error),キャッシュに Load/Storeアクセスしてい るときの UE等に見られる DAE (Data Access Error),命令実行を妨害するようなエラー で、上記 IAEや DAEでない、例えばプログラムから見えるレジスタ (PC(Program Counter Register), CCR(Condition Codes Register)など)内の UE等に見られる I_UGE(Instruction Urgent Error)のようにエラーレベルの高いもの、また、命令非同期 エラー(Asynchronous Error)に属し RE(Restrainable Error)すなわち現在実行中のプ ログラムに有害な影響を与えないエラー、例えば、ハードによって修正される
CE(correctable error)のようにエラーレベルが低いもの、が含まれる力 本願発明に おいては、エラーレベルの高低に関係なぐ「不安定な動作をする予兆のある CPU」 であると判断された場合にはサービスプロセッサに CPU縮退依頼を出すことにより、 運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作業 時間 '保守に力かるコストの節減を図ることができる。
産業上の利用可能性
[0025] 不安定な動作をする予兆のある CPUの検出 ·そのレベルの認識/縮退を行なうノ、 一ドウエア機能を、コスト面などの理由によって完全には実装できないようなコンビュ ータシステムにおいて、マイクロプログラムによってそれらの機能を実装することにより 、不安定動作をする予兆のある CPUの検出'そのレベルの認識機能を持つ安価か つ高品質なコンピュータシステムを構築することができる。

Claims

請求の範囲
[1] 運用システムの CPUチェックを行ない、前記 CPUが自ハードウェアリソースによる 基本的動作能力を有すると判断したときマイクロプログラムに CPU制御を渡すサービ スプロセッサと、システムリセットを契機に前記運用システムの CPUを含むシステム構 成ユニットの診断を行なうマイクロプログラムを備え、前記マイクロプログラムは、マイク 口プログラムによる診断の終了直前までのエラー CPU情報を前記サービスプロセッ サから取得し、前記エラー CPU情報に基づ 、て前記サービスプロセッサに不安定な 動作をする予兆のある CPUの縮退を依頼することを特徴とするサービスプロセッサを 用いた CPU縮退システム。
[2] 前記サービスプロセッサは、前記運用システムの CPUのエラー発生状況を監視し、 前記マイクロプログラムによる診断処理の終了直前まで前記エラー発生状況をストア するエラー CPU情報蓄積部を有することを特徴とする請求項 1記載のサービスプロ セッサを用いた CPU縮退システム。
[3] 前記サービスプロセッサは、前記マイクロプログラム力もエラー CPU情報の送付依 頼を受けたとき前記エラー CPU情報蓄積部にストアされたエラー CPU情報を前記マ イク口プログラムに通知することを特徴とする請求項 2記載のサービスプロセッサを用 V、た CPU縮退システム。
[4] 前記マイクロプラグラムは、前記サービスプロセッサ力も通知されたエラー CPU情 報に基づ 、て縮退すべき CPUを決定し、前記サービスプロセッサに前記 CPUの縮 退依頼を行な 、、依頼を受けた前記サービスプロセッサが前記 CPUの縮退を実行 することを特徴とする請求項 3記載のサービスプロセッサを用いた CPU縮退システム
[5] サービスプロセッサが取得して 、る CPU情報 (マイクロプログラムでは直接認識す ることができないエラー)を、マイクロプログラムの終了直前にサービスプロセッサから マイクロプログラムが取得し、取得したエラー CPU情報に基づ 、て前記サービスプロ セッサに不安定な動作をする予兆のある CPUの縮退を依頼し、前記サービスプロセ ッサは OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することを特 徴とするサービスプロセッサを用いた CPU縮退方法。 マイクロプログラムがシステムを構成するユニットの初期設定または診断を実行中に おける CPUハードウェアエラーの発生をサービスプロセッサが認識するステップと、 システム側のエラー CPU情報を作成するステップと、
前記サービスプロセッサに対してエラーが起きた CPU情報の通知をマイクロプログ ラムの終了直前に依頼し、前記サービスプロセッサは前記依頼を受けてエラーが起 きた CPU情報を前記マイクロプログラムに通知するステップと、
前記マイクロプログラムは通知されたエラー CPU情報の内容を判断し前記サービス プロセッサに縮退依頼をする CPUを決定し前記サービスプロセッサに対し縮退を依 頼するステップと、
前記マイクロプログラム力もの縮退依頼を受けて、前記サービスプロセッサは当該 c
P
Uの縮退を実行するステップ、を含んで成るサービスプロセッサを用いた CPU縮退 方法。
PCT/JP2005/005033 2005-03-18 2005-03-18 サービスプロセッサを用いたcpu縮退システム及び縮退方法 WO2006100747A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP05721183A EP1860566A4 (en) 2005-03-18 2005-03-18 CPU SUPPRESSION SYSTEM AND CPU SUPPRESSION METHOD WITH A SERVICE PROCESSOR
JP2007509101A JP4313833B2 (ja) 2005-03-18 2005-03-18 サービスプロセッサを用いたcpu縮退システム及び縮退方法
CNB2005800489568A CN100507866C (zh) 2005-03-18 2005-03-18 使用服务处理器的cpu退缩系统和cpu退缩方法
PCT/JP2005/005033 WO2006100747A1 (ja) 2005-03-18 2005-03-18 サービスプロセッサを用いたcpu縮退システム及び縮退方法
US11/857,008 US7840853B2 (en) 2005-03-18 2007-09-18 CPU suppression system and CPU suppression method using service processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/005033 WO2006100747A1 (ja) 2005-03-18 2005-03-18 サービスプロセッサを用いたcpu縮退システム及び縮退方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/857,008 Continuation US7840853B2 (en) 2005-03-18 2007-09-18 CPU suppression system and CPU suppression method using service processor

Publications (1)

Publication Number Publication Date
WO2006100747A1 true WO2006100747A1 (ja) 2006-09-28

Family

ID=37023444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/005033 WO2006100747A1 (ja) 2005-03-18 2005-03-18 サービスプロセッサを用いたcpu縮退システム及び縮退方法

Country Status (5)

Country Link
US (1) US7840853B2 (ja)
EP (1) EP1860566A4 (ja)
JP (1) JP4313833B2 (ja)
CN (1) CN100507866C (ja)
WO (1) WO2006100747A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205696A (ja) * 2009-06-15 2009-09-10 Hitachi Ltd マルチコアプロセッサ計算機の制御方法
JP2011013953A (ja) * 2009-07-02 2011-01-20 Nec Corp 情報処理装置及びそのプロセッサ管理方法
JP2013045154A (ja) * 2011-08-22 2013-03-04 Nec Corp 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101332815B1 (ko) * 2012-02-29 2013-11-27 주식회사 팬택 휴대용 단말을 위한 재부팅 처리 장치 및 방법
US8977895B2 (en) * 2012-07-18 2015-03-10 International Business Machines Corporation Multi-core diagnostics and repair using firmware and spare cores
JP6044316B2 (ja) * 2012-12-12 2016-12-14 株式会社デンソー 車載電子制御装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816534A (ja) * 1994-06-29 1996-01-19 Mitsubishi Electric Corp マルチプロセッサシステム
JPH0887341A (ja) * 1994-09-16 1996-04-02 Fujitsu Ltd 自動縮退立ち上げ機能を有したコンピュータシステム
JP2000040069A (ja) * 1998-07-24 2000-02-08 Nec Corp オンチップマルチプロセッサシステムにおける初期設定・診断方式

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60100231A (ja) 1983-11-04 1985-06-04 Nec Corp 情報処理装置におけるシステム構成制御方式
JPH07306793A (ja) 1994-05-16 1995-11-21 Fujitsu Ltd 計算機システムの縮退方法,及び装置
US5887146A (en) * 1995-08-14 1999-03-23 Data General Corporation Symmetric multiprocessing computer with non-uniform memory access architecture
US5768585A (en) * 1995-11-21 1998-06-16 Intel Corporation System and method for synchronizing multiple processors during power-on self testing
US6216226B1 (en) * 1998-10-02 2001-04-10 International Business Machines Corporation Method and system for dynamically selecting a boot process within a data processing system
JP2001154999A (ja) 1999-11-30 2001-06-08 Hitachi Ltd 並列計算機システム及びその立上げ処理方法
US7480911B2 (en) * 2002-05-09 2009-01-20 International Business Machines Corporation Method and apparatus for dynamically allocating and deallocating processors in a logical partitioned data processing system
US7225327B1 (en) * 2003-04-11 2007-05-29 Newisys, Inc. Method, system, software, and processor for initializing information systems operating in headless and non-headless environments
US7334142B2 (en) * 2004-01-22 2008-02-19 International Business Machines Corporation Reducing power consumption in a logically partitioned data processing system with operating system call that indicates a selected processor is unneeded for a period of time

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816534A (ja) * 1994-06-29 1996-01-19 Mitsubishi Electric Corp マルチプロセッサシステム
JPH0887341A (ja) * 1994-09-16 1996-04-02 Fujitsu Ltd 自動縮退立ち上げ機能を有したコンピュータシステム
JP2000040069A (ja) * 1998-07-24 2000-02-08 Nec Corp オンチップマルチプロセッサシステムにおける初期設定・診断方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1860566A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205696A (ja) * 2009-06-15 2009-09-10 Hitachi Ltd マルチコアプロセッサ計算機の制御方法
JP2011013953A (ja) * 2009-07-02 2011-01-20 Nec Corp 情報処理装置及びそのプロセッサ管理方法
JP2013045154A (ja) * 2011-08-22 2013-03-04 Nec Corp 情報処理装置、情報処理システム、情報処理装置の異常兆候検出方法、及び異常兆候検出プログラム
US9256486B2 (en) 2011-08-22 2016-02-09 Nec Corporation Information processing apparatus detecting sign of abnormality, fault tolerant information processing system, method for detecting sign of abnormality in information processing apparatus and recording medium

Also Published As

Publication number Publication date
JPWO2006100747A1 (ja) 2008-08-28
EP1860566A4 (en) 2010-07-28
CN101137964A (zh) 2008-03-05
EP1860566A1 (en) 2007-11-28
US7840853B2 (en) 2010-11-23
CN100507866C (zh) 2009-07-01
JP4313833B2 (ja) 2009-08-12
US20080010511A1 (en) 2008-01-10

Similar Documents

Publication Publication Date Title
EP1668509B1 (en) Method and apparatus for monitoring and resetting a co-processor
JP4870047B2 (ja) エラーハンドリング及びファームウェア更新を調停するための方法及びシステム
US7865782B2 (en) I/O device fault processing method for use in virtual computer system
US7953831B2 (en) Method for setting up failure recovery environment
US20070011507A1 (en) System and method for remote system support
JP2003323306A (ja) 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム
WO2006100747A1 (ja) サービスプロセッサを用いたcpu縮退システム及び縮退方法
US10896087B2 (en) System for configurable error handling
US10379931B2 (en) Computer system
CN115237644B (zh) 系统故障处理方法、中央运算单元以及车辆
WO2023109880A1 (zh) 一种业务恢复方法、数据处理单元及相关设备
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
US7627789B2 (en) Polymorphic management of embedded devices using web interfaces
US10768940B2 (en) Restoring a processing unit that has become hung during execution of an option ROM
KR100913799B1 (ko) 서비스 프로세서를 이용한 cpu 축퇴 시스템 및 축퇴방법
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
CA2498656A1 (en) Method for synchronizing events, particularly for processors of fault-tolerant systems
US11620199B1 (en) Method and system for detection of post routine deviation for a network device
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법
CN116483612A (zh) 内存故障处理方法、装置、计算机设备和存储介质
CN116627702A (zh) 虚拟机的宕机重启方法及装置
US20160034365A1 (en) Information processing system, information processing apparatus, redundancy providing method, and program
JP2008033598A (ja) 動的置き換えシステム、動的置き換え方法およびプログラム
JP2006178552A (ja) 仮想計算機システム
JP2006133823A (ja) コンピュータシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007509101

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005721183

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580048956.8

Country of ref document: CN

Ref document number: 1020077020230

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 11857008

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWW Wipo information: withdrawn in national office

Ref document number: RU

WWP Wipo information: published in national office

Ref document number: 2005721183

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11857008

Country of ref document: US