WO2006100747A1

WO2006100747A1 - サービスプロセッサを用いたcpu縮退システム及び縮退方法

Info

Publication number: WO2006100747A1
Application number: PCT/JP2005/005033
Authority: WO
Inventors: Hidenori Higashi; Akihiro Yamazaki
Original assignee: Fujitsu Limited
Priority date: 2005-03-18
Filing date: 2005-03-18
Publication date: 2006-09-28
Also published as: JPWO2006100747A1; EP1860566A4; CN101137964A; EP1860566A1; US7840853B2; CN100507866C; JP4313833B2; US20080010511A1

Abstract

　ＯＳ起動前に不安定な動作をする予兆のあるＣＰＵの縮退を実行できるようにするために、サービスプロセッサが取得しているエラーＣＰＵ情報（マイクロプログラムでは直接認識することができない）を、マイクロプログラムの終了直前にサービスプロセッサからマイクロプログラムが取得し、取得したエラーＣＰＵ情報に基づいてサービスプロセッサに不安定な動作をする予兆のあるＣＰＵの縮退を依頼し、サービスプロセッサはＯＳ起動前に不安定な動作をする予兆のあるＣＰＵの縮退を実行する。

Description

明細書

サービスプロセッサを用いた CPU縮退システム及び縮退方法

技術分野

[0001] 本発明は、運用前に不安定な動作をする予兆のある CPUを検出してシステムに組み込まな、ようにするサービスプロセッサを用いた CPU縮退システム及び縮退方法に関する。

背景技術

[0002] 図 1は、従来の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退システムの構成を示す概略図である。図 1のマイクロプログラム（Micro Program) 11は、システムの電源投入やリブート/リセット時などのシステムリセットを契機に、システムを構成するユニットの診断をおこなうモジュールとして機能するようにされて、る。図 1 に示したマイクロプログラム 11は、運用システム側の CPU、すなわち図 1の CPU (A) 10によって実行される。なお、運用システム側の CPU (A) 10は図上では 1つの CP Uのように描かれている力実際は複数の CPUによって運用システム側の CPUが構成されて!/、ることは!、うまでもな!/、。

[0003] 図 1に示したマイクロプログラム（Micro Program) 11に運用システム側の CPU制御が渡るときには、矢印 (1)で示すサービスプロセッサ側による CPUの動作チェックがなされた後であるために、運用システム側の CPUが自ハードウェアリソースを使って少なくとも基本的な動作ができる状態にある。サービスプロセッサ CPU (B) 20による運用システム側の CPUの動作チェックによって NG (No Good)と判断された運用システム側の CPUについては、サービスプロセッサ CPU (B) 20が CPU停止処理を実行するため、マイクロプログラム 11に制御が渡らな、ようになって、る。

[0004] 図 1に示したマイクロプログラム 11は図 1の矢印 (2)、（3)、（4)で示すように、運用システムの CPU(A)10、メモリ (Memory) 12、そして I/Oユニット (I/O Unit) 13といったシステム構成ユニットの初期設定および診断をおこな、、サービスプロセッサ側と情報をやりとりする。

[0005] 図 2はマイクロプログラム（Micro Program)、システム CPUおよびサービスプロセッサ間における従来のサービスプロセッサを用いた CPU縮退システムの動作を説明する処理シーケンスを示す概略図である。図 2に示したシーケンスチャート中の番号は、図 1に示した従来のサービスプロセッサを用いた CPU縮退システムの構成図における番号に対応させているので、図 1および図 2を用いて従来のサービスプロセッサを用いた CPU縮退システムの動作を説明する。図 2に示すようにまず、サービスプロセッサ側においてシステムパワーオンを行なう（Al)。ついでシステム CPU10の動作チェック（図 1の (1))を行なう（A2)。ここで運用システム側の CPU10が自ハードゥエァリソースを使って少なくとも基本的な動作ができる状態にある場合には、 CPU制御をマイクロプログラム 11に渡す (A4)力運用システム側の CPUの動作チェックによつて NG (No Good)と判断された場合には、サービスプロセッサによって CPU停止処理が行なわれて、マイクロプログラム 11には制御が渡らな！/ヽ (A3)。

サービスプロセッサ 20から制御が渡されたマイクロプログラム 11は、システム構成ュニットの初期設定および診断を開始し、まず CPU診断処理 (図 1の (2))をおこなう (A 5)。システム構成ユニットの初期設定および診断中、サービスプロセッサ 20は、システム CPU10のエラーの発生状況を常時監視するとともにマイクロプログラムが次の制御に移行する直前だけ、エラー発生状況をシステム側 CPUに通知する (A6)。マイク口プログラム (Micro Program) 11がシステムを構成するユニットの初期設定 Z診断 (図 1の矢印 (2)、（3)、（4))を実行しているときから、 OS起動後にわたるまで、 CPUハ一ドウエアエラーの発生をサービスプロセッサ CPU(B)20が認識（図 1の矢印 (5))し、エラーの発生回数が予め設定されている閾値を超えると、「後に重大なエラーを招く可能性がある、不安定な動作をする予兆のある CPUである」とみなして、 OSによってウェイト状態にしていた。つまり従来では、物理的に CPUを切り離すのではなぐ対象の CPUに対してプロセスの割り当てを行なわない状態にしてソフト的に CPUを切り離して、次のリセットを契機にマイクロプログラム (Micro Program) 11が縮退を実行していた。そして、マイクロプログラム 11による診断の結果、 OKであれば正常 CPUでプログラム処理を継続するようにして診断処理を終了する (A8)。一方、マイクロプログラムによる CPU診断処理の結果、システム側 CPU自身で NGの状況を呈すれば、マイクロプログラム 11自身よつて当該 CPUを縮退するようにし (A7)、 CPU縮退した場合でも残された正常 CPUでプログラム処理の継続が可能であれば処理継続してマイクロプログラム 11による診断処理を終了する (A8)。つまり、システム力も不安定な動作をする予兆のある CPUに対してプロセスの割り当てを行なわない状態にしているが、それは既に OS (システム）が起動された後であり、そのような CPUを切り離すためには、次にマイクロプログラムが動作するリブートなどのタイミングであった。（特許文献 1参照）

特許文献 1：特開平 08-087341号公報

発明の開示

[0007] このように従来のサービスプロセッサを用いた CPU縮退システムは、不安定な動作をする予兆のある CPUを OS起動後に認識して、次のシステムリセットを契機に CPU 縮退を実行して、たので、 OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することができな、と、う課題があった。

[0008] ところでコンピュータ分野においては CPUの生産過程によって生ずる品質のばらつきは不可避である。この品質のばらつきにより、不安定な動作をする予兆のある CP uの特定と、不安定動作がどのレベルかの認識、そして、システムの運用前にこれらを構成ユニットから切り離すことによるシステムの安定運用は重要な課題である。

[0009] 運用前に不安定な動作をする予兆のある CPUを認識 '縮退してシステム構成ュ- ットに組み込まないことは、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作業時間 ·保守にかかるコストの節減のためには重要なことである。しかし、それらをノヽードウエア機能により実現した場合、実装すべきハードウェアの増大によるシステムのコストアップおよびシステムのサイズの増大が課題克服の阻害要因となっていた。

[0010] 上記課題を解決するために本発明は、マイクロプログラムによって不安定な動作をする予兆のある CPUを認識し縮退すべき CPUを決定し、 OS起動前に運用システムに組み入れな、ようにしたサービスプロセッサを用いた CPU縮退システム及び縮退方法を提供することを目的とする。

[0011] 本発明は、サービスプロセッサが取得しているエラー CPU情報（マイクロプログラムでは直接認識することができない）を、マイクロプログラムの終了直前にサービスプロセッサ力マイクロプログラムが取得し、取得したエラー CPU情報に基づ、てサービスプロセッサに不安定な動作をする予兆のある CPUの縮退を依頼し、サービスプロセッサは OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することを特徴とする。

[0012] 本発明によれば、 OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することで、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作

業時間 ·保守に力かるコストの節減を図ることができる。

図面の簡単な説明

[0013] [図 1]従来の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退システムの構成を示す概略図である。

[図 2]マイクロプログラム（Micro Program)、システム CPUおよびサービスプロセッサ間における従来のサービスプロセッサを用いた CPU縮退システムの動作を説明する処理シーケンスを示す概略図である。

[図 3]本発明の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退システムの構成を示す概略図である。

[図 4]マイクロプログラム（Micro Program)、システム CPUおよびサービスプロセッサ間における本発明のサービスプロセッサを用いた CPU縮退システムの動作を説明する処理シーケンスを示す概略図である。発明を実施するための最良の形態

[0014] 図 3は、本発明の CPU縮退を実現するためのサービスプロセッサを用いた CPU縮退システムの構成を示す概略図である。図 3のマイクロプログラム（Micro Program) 11 は、システムの電源投入やリブート/リセット時などのシステムリセットを契機に、システムを構成するユニットの診断をおこなうモジュールとして機能するようにされて、る。図 3に示したマイクロプログラム 11は、運用システム側の CPU、すなわち図 3の CPU (A ) 10によって実行される。なお、運用システム側の CPU (A) 10は図上では 1つの CP Uのように描かれている力実際は複数の CPUによって運用システム側の CPUが構成されて!/、ることは!、うまでもな!/、。 [0015] 図 3に示したマイクロプログラム（Micro Program) 11に運用システム側の CPU制御が渡るときには、矢印 (1)で示すサービスプロセッサ側による CPUの動作チェックがなされた後であるために、運用システム側の CPUが自ハードウェアリソースを使って少なくとも基本的な動作ができる状態にある。サービスプロセッサ CPU (B) 20による運用システム側の CPUの動作チェックによって NG (No Good)と判断された運用システム側の CPUについては、サービスプロセッサ CPU (B) 20が CPU停止処理を実行するため、マイクロプログラム 11に制御が渡らな、ようになって、る。

[0016] 図 3に示したマイクロプログラム 11は図 1の矢印 (2)、（3)、（4)で示すように、運用システムの CPU(A)10、メモリ (Memory) 12、そして I/Oユニット (I/O Unit) 13といったシステム構成ユニットの初期設定および診断をおこな、、サービスプロセッサ側と情報をやりとりする。

[0017] 図 4はマイクロプログラム（Micro Program)、システム CPUおよびサービスプロセッサ間における本発明のサービスプロセッサを用いた CPU縮退システムの動作を説明する処理シーケンスを示す概略図である。図 4に示したシーケンスチャート中の番号は、図 3に示した本発明のサービスプロセッサを用いた CPU縮退システムの構成図における番号に対応させているので、図 3および図 4を用いて本発明のサービスプロセッサを用いた CPU縮退システムの動作を説明する。図 4に示すようにまず、サービスプロセッサ側においてシステムパワーオンを行なう（Bl)。ついでシステム CPU10 の動作チェック（図 3の (1))を行なう（B2)。ここで運用システム側の CPU10が自ハードウエアリソースを使って少なくとも基本的な動作ができる状態にある場合には、 CPU 制御をマイクロプログラム 11に渡す (B4) 1S 運用システム側の CPUの動作チェックによって NG (No Good)と判断された場合には、 CPU停止処理が行なわれて、マイク口プログラム 11には制御が渡らなヽ（B3)。

[0018] サービスプロセッサ 20から制御が渡されたマイクロプログラム 11は、システム構成ュニットの初期設定および診断を開始しまず CPU診断処理 (図 3の (2))をおこなう（B5 )。 CPU診断処理中、サービスプロセッサ 20は、システム CPU10のエラーの発生状況を常時監視するとともにマイクロプログラムが次の制御に移行する時だけエラー発生状況をシステム側 CPUに通知する（B6)。すなわち、マイクロプログラム (Micro Program) 11がシステムを構成するユニットの初期設定 Z診断（図 3の矢印 (2)、（3)、 ( 4))を実行中における CPUハードウェアエラーの発生をサービスプロセッサ CPU(B) 20が認識（図 3の矢印 (5))し、エラーの発生回数が予め設定されて、る閾値を超えると、「後に重大なエラーを招く可能性がある、不安定な動作をする予兆のある CPUである」とみなして、サービスプロセッサ 20に CPU縮退をするよう依頼する（B13)。そして、マイクロプログラム 11による診断の結果、 OKであれば正常 CPUでプログラム処理を継続する（B9)。一方、マイクロプログラムによる CPU診断処理の結果、システム側 CPU自身で NG (No Good)の状況を呈すれば、サービスプロセッサ 20に CPU縮退をするよう依頼する（B7)。サービスプロセッサ 20はマイクロプログラム 11に依頼された CPU縮退を実行 (B8)し、残された正常 CPUでプログラム処理の継続が可能であれば処理継続する（B9)。

[0019] ところでマイクロプログラム (Micro Program)は、システムを構成するユニットの初期設定/診断 (図 3の (2)、（3)、（4))を実行中における CPUノ、一ドウアエラーの発生をサービスプロセッサ CPU(B)20が常時監視してその発生状況を認識（図 3の (5)) (B6 )し、マイクロプログラムの終了する直前までにシステム側のエラー CPU情報 (これについては後述する）を蓄積し「Error Info」21を作成（図 3の [Error Info])する（図 3の (6 )) (B10)。したがって「Error Info」21は、エラー CPU情報蓄積部を構成していることになる。

[0020] マイクロプログラム 11は、マイクロプログラムの終了直前にサービスプロセッサ 20に対してエラーが起きた CPUの通知を依頼し（図 3の (7)) (B11)、サービスプロセッサ 2 0はエラーが起きた CPUを「Error Info」 21に基づ!/、てマイクロプログラム 11に通知する（図 3の (8)) (B12)。

[0021] マイクロプログラム 11はエラーが起きた CPUの内容を判断して、サービスプロセッサ 20に縮退依頼をする CPUを決定し、その CPUをサービスプロセッサ 20に対して縮退依頼する（図 3の (9)) (B13)。本発明ではマイクロプログラムの初期設定/診断処理のリソースとして CPU資源は必要であるため、不安定な動作をする予兆のある C PUの縮退をマイクロプログラムの終了直前にて行なうことにしている。

[0022] マイクロプログラム 11からの縮退依頼を受けて、サービスプロセッサ 20は当該 CPU の縮退を実行する（B 14)。

なお、マイクロプログラムの動作中（システム構成ユニットの初期設定/診断中）に、 CPUノヽードウエアエラーの発生がな力つた場合は、通常通り、マイクロプログラムによる初期設定/診断処理を終了する。

[0023] このように本発明によれば、マイクロプログラムが直接認識することができな、エラ一 CPU情報を、サービスプロセッサ側力取得することにより、 OS起動前に不安定な動作をする予兆のある CPUの縮退が実行可能となるので、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作業時間 '保守にかかるコストの節減を図ることができる。

[0024] システム側のエラー CPU情報について説明すると、エラー CPU情報には、命令同期エラー (Synchronous Error)に属し、命令フェッチ中のメモリ UE(Uncorrectable Error)

等に見られる IAEQnstruction Access Error),キャッシュに Load/Storeアクセスしているときの UE等に見られる DAE (Data Access Error),命令実行を妨害するようなエラーで、上記 IAEや DAEでない、例えばプログラムから見えるレジスタ (PC(Program Counter Register), CCR(Condition Codes Register)など）内の UE等に見られる I_UGE(Instruction Urgent Error)のようにエラーレベルの高いもの、また、命令非同期エラー（Asynchronous Error)に属し RE(Restrainable Error)すなわち現在実行中のプログラムに有害な影響を与えないエラー、例えば、ハードによって修正される

CE(correctable error)のようにエラーレベルが低いもの、が含まれる力本願発明においては、エラーレベルの高低に関係なぐ「不安定な動作をする予兆のある CPU」であると判断された場合にはサービスプロセッサに CPU縮退依頼を出すことにより、運用システムにおける堅牢性の向上、運用後に故障が起こったときの故障保守作業時間 '保守に力かるコストの節減を図ることができる。

産業上の利用可能性

[0025] 不安定な動作をする予兆のある CPUの検出 ·そのレベルの認識/縮退を行なうノ、一ドウエア機能を、コスト面などの理由によって完全には実装できないようなコンビュータシステムにおいて、マイクロプログラムによってそれらの機能を実装することにより、不安定動作をする予兆のある CPUの検出'そのレベルの認識機能を持つ安価かつ高品質なコンピュータシステムを構築することができる。

Claims

請求の範囲

[1] 運用システムの CPUチェックを行ない、前記 CPUが自ハードウェアリソースによる基本的動作能力を有すると判断したときマイクロプログラムに CPU制御を渡すサービスプロセッサと、システムリセットを契機に前記運用システムの CPUを含むシステム構成ユニットの診断を行なうマイクロプログラムを備え、前記マイクロプログラムは、マイク口プログラムによる診断の終了直前までのエラー CPU情報を前記サービスプロセッサから取得し、前記エラー CPU情報に基づ、て前記サービスプロセッサに不安定な動作をする予兆のある CPUの縮退を依頼することを特徴とするサービスプロセッサを用いた CPU縮退システム。

[2] 前記サービスプロセッサは、前記運用システムの CPUのエラー発生状況を監視し、前記マイクロプログラムによる診断処理の終了直前まで前記エラー発生状況をストアするエラー CPU情報蓄積部を有することを特徴とする請求項 1記載のサービスプロセッサを用いた CPU縮退システム。

[3] 前記サービスプロセッサは、前記マイクロプログラム力もエラー CPU情報の送付依頼を受けたとき前記エラー CPU情報蓄積部にストアされたエラー CPU情報を前記マイク口プログラムに通知することを特徴とする請求項 2記載のサービスプロセッサを用 V、た CPU縮退システム。

[4] 前記マイクロプラグラムは、前記サービスプロセッサ力も通知されたエラー CPU情報に基づ、て縮退すべき CPUを決定し、前記サービスプロセッサに前記 CPUの縮退依頼を行な、、依頼を受けた前記サービスプロセッサが前記 CPUの縮退を実行することを特徴とする請求項 3記載のサービスプロセッサを用いた CPU縮退システム

[5] サービスプロセッサが取得して、る CPU情報 (マイクロプログラムでは直接認識することができないエラー）を、マイクロプログラムの終了直前にサービスプロセッサからマイクロプログラムが取得し、取得したエラー CPU情報に基づ、て前記サービスプロセッサに不安定な動作をする予兆のある CPUの縮退を依頼し、前記サービスプロセッサは OS起動前に不安定な動作をする予兆のある CPUの縮退を実行することを特徴とするサービスプロセッサを用いた CPU縮退方法。マイクロプログラムがシステムを構成するユニットの初期設定または診断を実行中における CPUハードウェアエラーの発生をサービスプロセッサが認識するステップと、システム側のエラー CPU情報を作成するステップと、

前記サービスプロセッサに対してエラーが起きた CPU情報の通知をマイクロプログラムの終了直前に依頼し、前記サービスプロセッサは前記依頼を受けてエラーが起きた CPU情報を前記マイクロプログラムに通知するステップと、

前記マイクロプログラムは通知されたエラー CPU情報の内容を判断し前記サービスプロセッサに縮退依頼をする CPUを決定し前記サービスプロセッサに対し縮退を依頼するステップと、

前記マイクロプログラム力もの縮退依頼を受けて、前記サービスプロセッサは当該 c

P

Uの縮退を実行するステップ、を含んで成るサービスプロセッサを用いた CPU縮退方法。