WO2016031049A1

WO2016031049A1 - 計算機システム及び計算機の制御方法

Info

Publication number: WO2016031049A1
Application number: PCT/JP2014/072742
Authority: WO
Inventors: 直也服部; 貴之今田; 俊臣森木
Original assignee: 株式会社日立製作所
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2016-03-03

Abstract

　プロセッサとメモリとを備えた計算機で、前記メモリに格納したシステムソフトウェアで前記計算機を制御し、前記プロセッサは、複数のサブモジュールから構成されたキャッシュと、前記サブモジュール毎に使用の可否を設定するＱｏＳ制御ビットマップと、前記キャッシュの障害を検出して前記システムソフトウェアに伝達するキャッシュ障害検出部と、を含み、前記システムソフトウェアは、前記キャッシュ障害検出部が前記キャッシュの障害を検出すると、前記ＱｏＳ制御ビットマップを更新して前記障害が発生したサブモジュールを特定するキャッシュ障害処理部を含む。

Description

計算機システム及び計算機の制御方法

　本発明は、計算機を制御するシステムソフトウェアが、プロセッサのキャッシュメモリで障害の発生したサブモジュールを特定する技術に関する。

　近年、ＣＰＵの製造プロセスの微細化やＣＰＵに搭載されるキャッシュメモリ（以下、キャッシュとする）容量の増加に伴って、キャッシュの障害が発生し易くなっている。キャッシュは複数のサブモジュール（Ｗａｙ）から成り、キャッシュに格納されるデータはＥＣＣ（Error-Correcting Code）で保護されている。ＥＣＣによって、例えば、１ｂｉｔの故障（または障害）が発生してもデータを訂正できるので、計算機システムの稼働を継続できる。

　しかし、複数ｂｉｔが壊れてしまい訂正できなくなったサブモジュールを使い続ければ、計算機システムのダウンを招く。従って、訂正可能な故障の段階でキャッシュのサブモジュールを縮退すべきである。

　本技術分野の背景技術として、特許文献１が知られている。特許文献１には、キャッシュモジュールに異常がないか検査し、異常が検出された場合にはキャッシュモジュールを無効化する技術が公開されている。

　また、特許文献２には、「キャッシュメモリの処理能力性能の低下を抑えつつ、重大な障害に発展する潜在的な要因（例えば、訂正可能なエラーなど）を予め排除することによりコンピュータシステム内の信頼性を維持することを課題とする。この縮退制御装置はまず、例えば、ウェイごとにエラー回数を計数するために備えたエラーカウンタをアップする。そして、エラーカウンタが予め定めた所定の上限回数を超えている場合には、この縮退制御装置は、その上限回数に到達する契機となったエラーを発生させたキャッシュライン（例えば、Ｗａｙ：ｎ，Ｉｎｄｅｘ：ｍ）について、キャッシュタグに縮退フラグ（キャッシュラインが縮退であることを示す縮退情報）を書き込む。」と記載されている。この様な技術はハイエンドのＣＰＵで採用されている。

　サーバ用途で広く使われているIntel社のｘ８６　ＣＰＵは、キャッシュ障害の発生をＯＳやハイパバイザなどのシステムソフトウェアに知らせる機能を有している(例えば、非特許文献１: §15.3.2 Error-Reporting Register Banks)。しかしながら、非特許文献１の技術では、キャッシュを構成するどのサブモジュールが壊れたのかを通知するものではない。そのため、システムソフトウェアによる能動的なキャッシュの縮退は困難であった。

　キャッシュの制御に関してIntel社は、特定のプログラムがキャッシュを占拠して他のプログラムが遅くなる事態を避ける機能として、キャッシュのＱｏＳ機能を定義している（例えば、非特許文献１:§17.15 CACHE QUALITY-OF-SERVICE (QOS) ENFORCEMENT）。本機能では、キャッシュのサブモジュールの番号リストを作成して所定のレジスタにサブモジュールの番号をセットすると、キャッシュミス時に置換されるサブモジュールを制限できる。この機能により、優先度の低いプログラムの実行中に、少数のサブモジュールだけをセットすることで、優先度の高いプログラムのデータがキャッシュから追い出されるのを防ぐことができる。

米国特許第５８０５６０６号明細書国際公開第ＷＯ２００７／０９７０２７号公報

Intel　64 and IA-32 Architecture Software Developer’s Manual February 2014, Volume3B: System Programming Guide, Part 2, §15.3.2 Error-Reporting Register Banks, CHAPTER 15 MACHINE-CHECK ARCHITECTURE (15.3 MACHINE-CHECK MSRS, 15.3.2 Error-Reporting Register Banks)及び§17.15 CACHE QUALITY-OF-SERVICE (QOS) ENFORCEMENT、(CHAPTER 17 DEBUG, BRANCH PROFILE, TSC, AND QUALITY OF SERVICE, 17.15 CACHE QUALITY-OF-SERVICE (QOS) ENFORCEMENT).

　しかしながら、上記特許文献１の技術は、ＣＰＵの価格帯によらず実施可能であるが、キャッシュに障害が発生するとキャッシュを全て無効化するため、顕著な性能低下が生じてしまうという問題があった。

　一方、上記特許文献２の技術は、キャッシュに障害が発生した場合でも性能の低下を抑制できるが、キャッシュのウェイごとにエラー回数を計数するエラーカウンタ等の回路を設ける必要があり製造コストが増大する。このため、特許文献２を適用可能なＣＰＵは製造コストの増大が許容されるハイエンドＣＰＵに限定されてしまう、という問題があった。

　以上を踏まえて本発明では、製造コストを抑制した安価なＣＰＵを搭載する計算機で、キャッシュを構成するサブモジュールが故障した場合に、性能を維持しつつ計算機を安定して稼働させることを目的とする。

　本発明は、プロセッサとメモリとを備えた計算機で、前記メモリに格納したシステムソフトウェアで前記計算機を制御する計算機システムであって、前記プロセッサは、複数のサブモジュールから構成されたキャッシュと、前記サブモジュール毎に使用の可否を設定するＱｏＳ制御ビットマップと、前記キャッシュの障害を検出して前記システムソフトウェアに伝達するキャッシュ障害検出部と、を含み、前記システムソフトウェアは、前記キャッシュ障害検出部が前記キャッシュの障害を検出すると、前記ＱｏＳ制御ビットマップを更新して前記障害が発生したサブモジュールを特定するキャッシュ障害処理部を含む。

　本発明によれば、製造コストを抑制した安価なプロセッサを搭載する計算機で、キャッシュを構成するサブモジュールが故障した場合にも、性能を維持しつつ計算機を安定して稼働させることが可能となる。

本発明の第１の実施例を示し、計算機の一例を示すブロック図である。本発明の第１の実施例を示し、計算機の機能の一例を示すブロック図である。本発明の第１の実施例を示し、ハイパバイザが管理するメモリマップである。本発明の第１の実施例を示し、キャッシュのサブモジュールの一例を示す図である。本発明の第１の実施例を示し、検査結果表の一例を示す図である。本発明の第１の実施例を示し、ＱｏＳ制御ビットマップの一例を示す図である。本発明の第１の実施例を示し、障害レジスタの一例を示す図である。本発明の第１の実施例を示し、ハイパバイザのキャッシュ障害処理部で行われる処理の一例を示すフローチャートである。本発明の第１の実施例を示し、ハイパバイザのキャッシュ障害処理部で行われるサブモジュール検査の一例を示すフローチャートである。本発明の第１の実施例を示し、ＣＰＵで行われるキャッシュの処理の一例を示すフローチャートである。本発明の第１の実施例を示し、ハイパバイザで行われるＵＩ制御部の処理の一例を示すフローチャートである。本発明の第２の実施例を示し、計算機の一例を示すブロック図である。本発明の第２の実施例を示し、計算機の機能の一例を示すブロック図である。本発明の第２の実施例を示し、ＯＳが管理するメモリマップである。本発明の第２の実施例を示し、キャッシュ障害処理部で行われるサブモジュール検査の一例を示すフローチャートである。

　以下、本発明の実施形態について添付図面を用いて説明する。

　図１は、本発明の計算機システムの構成の一例を示すブロック図である。物理計算機１０は、複数のＣＰＵ７０－１～７０－ｎを有し、これらのＣＰＵ７０－１～７０－ｎはインターコネクト５１を介してチップセット５０やメモリ９０に接続される。なお、図中ＣＰＵ７０－１～７０－ｎの総称をＣＰＵ７０で表す。

　チップセット５０には、ＰＣＩｅｘｐｒｅｓｓ等を介してＩ／Ｏデバイスや入出力装置を備えたコンソール１３０が接続される。Ｉ／Ｏデバイスとしては、ＬＡＮ（またはネットワーク）１４１に接続されるＮＩＣ（Network Interface Card）１４０や、ＳＡＮ（Storage　Area　Network）１５１を介してストレージ装置１２５等に接続されるＨＢＡ(Host Bus Adapter)１５１などで構成される。

　ＣＰＵ７０はインターコネクト５１を介してメモリ９０にアクセスする。またＣＰＵ７０はチップセット５０を介してＮＩＣ１４０やＨＢＡ１５０等のＩ／Ｏデバイスにアクセスして所定の処理を行う。

　メモリ９０には、システムソフトウェアとしてのハイパバイザ（Ｈｙｐｅｒｖｉｓｏｒ）２０がロードされ、ＣＰＵ７０によって実行されることで、物理計算機１０の計算機資源を複数の仮想計算機３０－１、３０－２～３０－ｎへ割り当てることができる。なお、各仮想計算機３０－１、３０－２～３０－ｎではそれぞれＯＳ４０－１～４０－ｎが実行される。なお、以下では、仮想計算機の総称を符号３０で表し、各ＯＳの総称を符号４０で表す。なお、他の構成要素の符号も同様であり、「－ｎ」で個々を識別し、「－」のない符号で総称を示す。

　各ＯＳ４０－１～４０－ｎは、それぞれアプリケーション６０－１～６０－ｎ、６１－１～６１－ｎを実行する。なお、本実施例では、計算機資源を１以上の仮想計算機に割り当てる仮想化部としてハイパバイザ２０を用いる例を示したが、これに限定されるものではなく、ＶＭＭ（Virtual Machine Monitor）などを用いることができる。

　図２は、計算機システムの要部の機能を示すブロック図である。次に、物理計算機１０上で動作するソフトウェアの主要部と、制御対象となるハードウェア要素について、図２を参照しながら詳述する。

　ＣＰＵ７０は、加減乗除などの演算処理を実行する演算部７９と、メモリ９０から読み込んだデータや命令の複製を一時的に格納するキャッシュメモリ（以下、キャッシュ）７１を含む。なお、ＣＰＵ７０は、複数の演算部７９を含むマルチコアのプロセッサで構成されてもよい。

　キャッシュ７１は、ダイレクトマップ方式（メモリアドレスによってデータ格納位置が一意に定まるシンプルな方式）で動作するサブモジュール７２－１～７２－Ｍを複数含み、キャッシュ７１全体としてはセットアソシアティブ方式（各メモリアドレスのデータを格納する位置（エイリアス）の候補が複数存在する方式）で機能する。すなわち、Ｍ個のサブモジュールをウェイ数＝Ｍで使用するＭウェイセットアソシエイティブを採用する例を示す。

　また、キャッシュ７１は、障害（例えば、ＥＣＣエラー）を検出するキャッシュ障害検出部７５と、各サブモジュール７２の利用を選択的に制限するＱｏＳ制御ビットマップ７７を更に含む。キャッシュ障害検出部７５は、検出した障害の情報を格納する障害レジスタ７６を含む。キャッシュ障害検出部７５は、例えば、上記非特許文献１の§15.3.2 Error-Reporting Register Banksで開示されるように、キャッシュ７１で障害が発生したことをシステムソフトウェアに通知する機能を含む。

　ＱｏＳ制御ビットマップ７７は、上記非特許文献１の§17.15 CACHE QUALITY-OF-SERVICE (QOS) ENFORCEMENTで開示されるキャッシュ７１のＱｏＳ機能を制御するビットマップである。キャッシュのＱｏＳ制御については上述のように、キャッシュ７１のサブモジュール７２－１～７２－Ｍの番号（位置）を指定し、当該番号に対応するビットマップに使用の可否を示す値を設定することで、キャッシュミス時にデータが置換されるサブモジュール７２－１～７２－Ｍを特定することができる。

　すなわち、ハイパバイザ２０は、ＱｏＳ制御ビットマップ７７（図６の７７－１～７７－Ｍ）の番号に対応するサブモジュール７２－１～７２－Ｍのそれぞれについて利用するか否かを設定することができる。

　物理計算機１０上では、仮想計算機３０を生成するハイパバイザ２０がシステムソフトウェアとして稼働する。仮想計算機３０上では、ＯＳ４０が稼働する。ＯＳ４０は更にアプリケーション６０、６１を稼働させる。

　ハイパバイザ２０は、キャッシュ７１で検出された障害に対処するキャッシュ障害処理部１００と、コンソール１３０を制御するＵＩ制御部３００を含む。キャッシュ障害処理部１００は、ＵＩ制御部３００にキャッシュ障害の発生を知らせる障害通知部１１０と、障害が起きたサブモジュールを特定するキャッシュ検査部１２０と、検査結果を保持する検査結果表５００と、障害が起きたサブモジュール７２を隔離するキャッシュ障害隔離部２００を含む。

　なお、ＱｏＳ制御ビットマップ７７は、アクセスするサブモジュール７２を選択するビットマスクやレジスタで構成してもよい。

　キャッシュ障害処理部１００、ＵＩ制御部３００の各機能部はプログラムとしてメモリ９０にロードされる。ＣＰＵ７０は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、ＣＰＵ７０は、キャッシュ障害処理プログラムに従って処理することでキャッシュ障害処理部１００として機能する。他のプログラムについても同様である。さらに、ＣＰＵ７０は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

　ハイパバイザ２０の各機能を実現するプログラム、テーブル等の情報は、ストレージ装置１２５や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

　＜発明の概要＞
　本発明の概要は次のとおりである。キャッシュ７１に障害が発生するとキャッシュ障害検出部７５が障害レジスタ７６の障害フラグ７６１に“１”をセットし、障害が発生したキャッシュラインに対応するアドレスを障害アドレスに格納する。

　ハイパバイザ２０のキャッシュ障害処理部１００は、所定の周期で各ＣＰＵ７０の障害レジスタ７６をポーリングすることでキャッシュ７１の障害発生を検出する。キャッシュ障害処理部１００は、キャッシュ７１の障害が発生したＣＰＵ７０に対して、キャッシュ検査部１２０による検査を実施する。キャッシュ検査部１２０は、検査対象のＣＰＵ７０について、まず、キャッシュ７１の全てのサブモジュール７２－１～７２－Ｍをフラッシュする。なお、キャッシュ検査部１２０が、フラッシュするサブモジュール７２は検査結果表５００で正常（使用可能）なサブモジュール７２だけとしても良い。

　そして、キャッシュ検査部１２０は、ひとつのサブモジュール７２－ｉ（ただし、ｉ＝１～Ｍ）のみを使用可能となるようにＱｏＳ制御ビットマップ７７を設定（または更新）する。すなわち、キャッシュ検査部１２０は、ＱｏＳ制御ビットマップ７７のうち、サブモジュール７２－ｉのみを使用可に設定し、他のサブモジュール７２を使用不可に設定する。

　次に、キャッシュ検査部１２０は、障害レジスタ７６の障害アドレス７６２に対応するメモリ９０上のアドレスに対してアクセスする。このアクセスは、例えば、データの読み込むまたは書き込みである。なお、キャッシュ検査部１２０は、サブモジュール７２－１～７２－Ｍのうち、検査結果表５００で正常（使用可能）なサブモジュール７２についてのみ検査を行うようにしてもよい。

　キャッシュ検査部１２０は、読み書きした後にキャッシュ障害検出部７５が障害を検知すれば、当該サブモジュール７２－ｉが異常のあるサブモジュール７２であると特定する。そして、キャッシュ検査部１２０は、検査結果表５００に当該特定されたサブモジュール７２－ｉが“異常”であることを書き込む。なお、キャッシュ障害検出部７５から障害の発生が通知されない場合には、キャッシュ検査部１２０は当該サブモジュール７２－ｉが正常であることを書き込む。

　キャッシュ検査部１２０は、ひとつのＣＰＵ７０の全ての（または使用可能な）サブモジュール（ｉ＝１～Ｍ）について上記検査を順次行って検査結果表５００を更新する。

　キャッシュ障害隔離部２００は、検査結果表５００で“異常”となっているサブモジュール７２を使用不可（使用禁止）に設定してキャッシュ７１の縮退を実行する。障害通知部１１０は、キャッシュ７１のサブモジュール７２－ｉに障害が発生して検査が完了したことをＵＩ制御部３００へ通知する。ＵＩ制御部３００は、キャッシュ７１のサブモジュール７２－ｉに障害が発生して検査が完了した通知をコンソール１３０へ送信する。

　図３は、ハイパバイザ２０が管理するメモリ９０のマップの一例である。ハイパバイザ２０は、メモリ９０上に自身を配置する領域と、仮想計算機３０－１～３０－ｎが使用する領域を割り当てる。ハイパバイザ２０は、前述のようにキャッシュ障害処理部１００、ＵＩ制御部３００を自身の領域に含む。

　例えば、図３のように、ハイパバイザ２０は、自身を配置する領域としてアドレスＡＤ０～ＡＤ１を固定的に割り当てて、キャッシュ障害処理部１００等の各モジュールを配置する。また、ハイパバイザ２０は、仮想計算機３０－１にアドレスＡＤ２～ＡＤ３を割り当て、仮想計算機３０－ｎにアドレスＡＤ４～ＡＤ５を動的に割り当てる。

各ＯＳ４０は、各仮想計算機３０の領域内で自身を配置する領域と、アプリケーション６０が使用する領域を割り当てる。

　＜構成要素＞
　以下、本発明の計算機システムで用いるサブモジュールやテーブル、レジスタ等の各構成要素について以下に説明する。

　図４は、サブモジュール７２の一例を示す図である。キャッシュ７１を構成するサブモジュール７２は、複数のキャッシュライン（１～ｎ）から構成され、各キャッシュラインはメモリ９０のデータの部分的な複製を保持する。

　メモリ９０の部分的な複製を管理するために各キャッシュラインは、部分的な複製の対象となるメモリアドレスをメモリアドレス７２１に保持する。また部分的に複製したデータをデータ７２２に保持する。なお、メモリアドレス７２１とデータ７２２はＥＣＣによって保護される。

　図５は、サブモジュール７２の検査結果を保持する検査結果表５００の一例を示す図である。検査結果表５００は、ハイパバイザ２０が管理するＣＰＵ７０－１～７０－ｎのキャッシュ７１を構成するサブモジュール７２－１～７２－Ｍの検査結果を保持する情報である。後述するように、キャッシュ障害処理部１００のキャッシュ検査部１２０が、サブモジュール７２の検査を行って、検査結果表５００を設定する。

　検査結果表５００は、ＣＰＵ番号５０１と、サブモジュール番号５０２と、検査結果５０３からひとつのレコードが構成される。ＣＰＵ番号５０１はキャッシュ７１を搭載するＣＰＵ７０－１～７０－ｎを特定する番号（またが識別子）であり、サブモジュール番号５０２は、ＣＰＵ７０内のサブモジュール７２－１～７２－Ｍを特定する番号（または識別子）である。

　ＣＰＵ番号５０１とサブモジュール番号５０２の組み合わせが、物理計算機１０内でＣＰＵ７０とサブモジュール７２を特定する。検査結果５０３は、キャッシュ検査部１２０による検査結果が格納される。検査結果が異常だった場合のみ“異常”を示す値が格納される。検査結果が正常であれば“正常”を示す値が格納される。

　なお、図示の検査結果表５００では、キャッシュ検査部１２０による検査結果が正常の場合には“正常”を示す値を検査結果５０３に設定したが、正常の場合は検査結果５０３に値を設定せず、異常の場合にのみ検査結果５０３に値を設定するようにしても良い。

　図６は、各サブモジュール７２の利用を選択的に制限するＱｏＳ制御ビットマップ７７の一例を示す図である。ＱｏＳ制御ビットマップ７７は、サブモジュール７２－１～７２－Ｍに対応する使用可否フラグ７７－１～７７－Ｍから構成される。

　使用可否フラグ７７－１～７７－Ｍの値が“０”であれば対応するサブモジュール７２は使用不可であることを示す。使用不可とは、当該サブモジュール７２に対して、データの参照／更新／フラッシュ（現在保持しているデータをメモリ９０に書き戻す操作）は許可されるが、データの使用（フラッシュ後に別のメモリアドレスのデータを格納する操作）は禁止される。一方、使用可否フラグ７７－１～７７－Ｍの値が“１”であれば対応するサブモジュール７２は使用可能であり、当該サブモジュール７２に対して全ての操作が許可される。

　図７は、キャッシュ障害検出部７５が検出した障害の情報を保持する障害レジスタ７６の一例を示す図である。障害レジスタ７６は、障害フラグ６１０と、障害アドレス６２０を含む。

　ＣＰＵ７０のキャッシュ障害検出部７５は、キャッシュ７１の障害を検出すると、障害フラグ６１０に“１”（障害あり）を書き込む。また、キャッシュ障害検出部７５は、障害アドレス６２０に、障害が検出されたサブモジュール７２のキャッシュラインが保持していたデータのメモリアドレス（図４の７２１）を格納する。

　＜キャッシュの制御＞
　図８は、キャッシュ障害処理部１００で行われる処理の一例を示すフローチャートである。この処理はハイパバイザ２０が起動した後などの所定のタイミングで開始される。

　キャッシュ障害処理部１００は、所定の周期でＣＰＵ７０－１～７０－ｎの障害レジスタ７６から障害フラグ７６１の値をそれぞれ読み込む（Ｓ１０００）。キャッシュ障害処理部１００は、障害フラグ７６１の値が“１”であるか否かに基づいて、キャッシュ７１に障害が発生したか否かを判定する（Ｓ１０１０）。障害フラグ７６１の値が“１”であれば、キャッシュ７１に障害（キャッシュ障害）が発生したと判定してステップ１０２０へ進む。一方、障害フラグ７６１の値が“０”であれば、キャッシュ障害処理部１００はキャッシュ７１が正常と判定してステップＳ１０９０へ進む。

　キャッシュ障害が発生しているステップＳ１０２０では、障害処理を開始する。障害処理に於いてキャッシュ障害処理部１００は、計算機システムの安全を確保するために全ての仮想計算機３０を一時的に停止させる（Ｓ１０２０）。

　続いて、キャッシュ障害処理部１００は、キャッシュ障害が発生したＣＰＵ７０の障害レジスタ７６の障害フラグ６１０に“０”を書き込んで内容をクリアする。これにより、キャッシュ障害処理部１００は、同じメモリアドレスに対する次のキャッシュ障害を検出することが可能な状態になる（Ｓ１０３０）。

　続いて、キャッシュ障害処理部１００は、キャッシュ障害が発生したＣＰＵ７０で、キャッシュ７１を構成する全てのサブモジュール７２について検査を行う（Ｓ１０４０）。サブモジュール７２の検査については、図１０で詳述する。

　その後、キャッシュ障害処理部１００は、キャッシュ障害隔離部２００を呼び出して、検査結果表５００を参照させる。キャッシュ障害隔離部２００は、キャッシュ障害の発生したＣＰＵ７０が、正常なサブモジュール７２だけを使うようにＱｏＳ制御ビットマップ７７の設定を変更する（Ｓ１０５０）。すなわち、キャッシュ障害隔離部２００は、当該ＣＰＵ７０でキャッシュ障害を検出したサブモジュール７２の番号に対応するＱｏＳ制御ビットマップ７７の値を“０”に設定して使用不可とする。この際、キャッシュ障害隔離部２００は、正常なサブモジュール７２を全て使うように設定しても構わないし、プログラム毎のキャッシュ７１のＱｏＳを考慮してサブモジュール７２の使用を制限しても構わない。

　次に、キャッシュ障害処理部１００は、ＵＩ制御部３００にキャッシュ７１の検査が完了したことを通知する（Ｓ１０６０）。そして、キャッシュ障害処理部１００は、全ての仮想計算機３０を再開する（Ｓ１０７０）。

　キャッシュ障害処理部１００は、一定時間（例えば、１秒）スリープしてから（Ｓ１０９０）、上記ステップＳ１０００に戻って、再度障害レジスタ７６の値を読み込む。

　なお、上記ステップＳ１０１０の判定は、ＣＰＵ７０－１～７０－ｎの順に行えば良い。また、複数のＣＰＵ７０でキャッシュ障害が発生した場合には、キャッシュ障害が発生した全てのＣＰＵ７０について上記ステップＳ１０２０～Ｓ１０８０の処理を実行すれば良い。

　図９は、サブモジュール７２の検査の一例を示すフローチャートである。この処理は、上記図８のステップＳ１０４０でキャッシュ検査部１２０によって行われる。

　キャッシュ検査部１２０は、キャッシュ障害が発生したＣＰＵ７０の各サブモジュール７２－ｉ（ただし、ｉ＝１～Ｍ）について、ステップＳ１１００からＳ１１９０の処理を繰り返す。

　キャッシュ検査部１２０は、まず、キャッシュ障害が発生したＣＰＵ７０の障害レジスタ７６の障害アドレス６２０に格納されていたアドレスを指定してキャッシュフラッシュ命令を実行する（Ｓ１１１０）。すなわち、障害が発生したサブモジュール７２のキャッシュラインが保持していたデータのメモリ９０上のアドレスをキャッシュ検査部１２０が取得し、当該メモリアドレスについてキャッシュフラッシュを当該ＣＰＵ７０に指令する。この処理により、どのサブモジュール７２も障害アドレス６２０に格納されていたアドレスの部分複製を保持していない状態が確立できる。

　続いて、キャッシュ検査部１２０は、ＱｏＳ制御ビットマップ７７の使用可否フラグ７７－１～７７－Ｍのうちのひとつを検査対象のサブモジュール７２－ｉとし、当該サブモジュール７２の使用可否フラグ７７－ｉの値を“１”に設定し、他の使用可否フラグ７７を“０”に設定する。これにより、検査対象のキャッシュ７１でサブモジュール７２－ｉだけが使用可能な状態が確立される（Ｓ１１２０）。なお、本実施例１では、ｉ＝１から順にｉ＝Ｍまで増加させるものとする。

　キャッシュ検査部１２０は、障害アドレス６２０に格納されていたメモリアドレスに対して読み書きを実行し、検査中のサブモジュール７２－ｉに、障害アドレス６２０に対応するメモリ９０の部分的な複製を保持させる（Ｓ１１３０）。なお、読み書きの操作は、１回に限定されるものではなく、複数回繰り返してもよい。また、読み書きの操作は、読み出し及び書き込みのうち少なくとも一方を行えば良い。

　次に、キャッシュ検査部１２０は、障害アドレス６２０に対する読み書きの実行後、障害レジスタ７６の障害フラグ７６１を読み込む（Ｓ１１４０）。サブモジュール７２に異常がある場合は、上記ステップＳ１１３０の読み書きの操作によって、ＣＰＵ７０のキャッシュ障害検出部７５が新たなキャッシュ障害を検出する。

　次に、キャッシュ検査部１２０は、障害レジスタ７６の障害フラグ７６１の値が“１”であるか否かを判定する（Ｓ１１５０）。障害フラグ７６１の値が“１”であれば、新たなキャッシュ障害が発生したと判定してステップＳ１１６０に進み、そうでない場合にはステップＳ１１８０へ進む。

　キャッシュ７１のフラッシュ後に新たなキャッシュ障害が発生していた場合、キャッシュ検査部１２０は、当該サブモジュール７２－ｉに対応する検査結果表５００に、“異常”を示す値を格納する（Ｓ１１６０）。そして、キャッシュ検査部１２０は、ＣＰＵ７０の障害レジスタ７６の障害フラグ６１０を“０”に設定してクリアする（Ｓ１１７０）。

　一方、キャッシュ障害が発生していない場合、キャッシュ検査部１２０は、当該サブモジュール７２－ｉに対応する検査結果表５００に、“正常”を示す値を格納する（Ｓ１１８０）。

　以上の処理を各サブモジュール７２－１～７２－Ｍについて繰り返す（Ｓ１１９０）ことで、キャッシュ障害処理部１００は障害が発生した異常なサブモジュール７２を特定することができる。キャッシュ障害処理部１００は、検査結果表５００に特定したモジュール７２を記録し、ＱｏＳ制御ビットマップ７７で障害のあるサブモジュール７２を使用禁止に設定してキャッシュ７１の縮退を行うことができる。

　本発明では、障害レジスタ７６の障害フラグ７６１が“１”となったＣＰＵ７０で、ＱｏＳ制御ビットマップ７７の使用可否フラグ７７－１～７７－Ｍのうちのひとつのみを使用可として、サブモジュール７２－１～７２－Ｍを順次検査することで、ハイパバイザ２０のキャッシュ検査部１２０は障害が発生したサブモジュール７２を特定することができる。そして、障害の発生を特定したサブモジュール７２を検査結果表５００に記録して、ＱｏＳ制御ビットマップ７７で使用禁止とすることで、再度障害が発生するのを回避できる。

　これにより、前記特許文献２のようにキャッシュのウェイごとにエラー回数を計数する特別な回路などを用いることなく、製造コストを抑制した安価なＣＰＵ７０を搭載する物理計算機１０で、キャッシュ７１を構成するサブモジュール７２が故障しても、性能を維持しながら計算機を安定させて稼働を継続させることが可能となる。

　なお、本実施例１では、キャッシュ障害時にキャッシュ検査部１２０による全サブモジュール７２の検査を行う例を示したが、所定のタイミング（例えば、アイドル時や低負荷時）で図９の処理を実行し、キャッシュ７１のサブモジュール７２についてスクラビングを行うようにしてもよい。

　ここで、スクラビングは、使用されていないサブモジュール７２やキャッシュラインについて障害の有無を検出し、障害があれば所定の処理（キャッシュ障害隔離部２００など）を実行する。ＣＰＵ７０のキャッシュ障害検出部７５は、使用されたサブモジュール７２及びキャッシュラインについて障害の有無を検出することができる。しかしながらキャッシュ障害検出部７５では、使用されていないサブモジュール７２及びキャッシュラインについては障害を検出することができない。

　そこで、図９に示したキャッシュ検査部１２０を定期的に実行することにより、障害のあるサブモジュール７２を特定して、検査結果表５００に記録することでキャッシュ７１から除外しておくことができる。

　図１０は、キャッシュ７１で行われる処理の一例を示すフローチャートである。この処理は、演算部７９がメモリ９０の読み書きを行う命令を行う度に実行される。

　キャッシュ７１は、演算部７９からの要求を待って処理を開始し（Ｓ１２００）、演算部７９から指定されたメモリアドレスがキャッシュ７１に保持されているか否かを判定する（Ｓ１２１０）。指定されたメモリアドレスがキャッシュ７１に保持されていればステップＳ１２５０へ進む。

　一方、指定されたメモリアドレスがキャッシュ７１に保持されていなければ、キャッシュ７１は、ＱｏＳ制御ビットマップ７７を参照して使用可否フラグ７７－１～７７－Ｍが“１”（使用可）に設定されているサブモジュール７２を１つ選択する（Ｓ１２２０）。

　そして、キャッシュ７１は、選択したサブモジュール７２内のキャッシュラインに格納されていたデータ７３０をメモリ９０に書き戻すフラッシュ処理を実行する（Ｓ１２３０）。次に、キャッシュ７１は、指定されたメモリアドレスをメモリ９０から読んで、フラッシュが済んだサブモジュール７２の当該キャッシュラインに格納する（Ｓ１２４０）。このとき、キャッシュ７１はキャッシュラインに格納するデータに基づいてＥＣＣを演算して付加する。

　続いてキャッシュ７１は、指定されたメモリアドレスが格納されたサブモジュール７２内のキャッシュラインが保持しているＥＣＣを参照し（Ｓ１２５０）、当該ＥＣＣに基づいてキャッシュラインに保持したデータの異常の有無を判定する（Ｓ１２６０）。キャッシュラインに格納されたデータとＥＣＣが整合しなければ、キャッシュ７１は異常ありと判定しステップＳ１２７０へ進む。キャッシュラインに格納されたデータとＥＣＣが整合すれば、キャッシュ７１は正常と判定しステップＳ１２８０へ進む。

　ステップＳ１２７０では、キャッシュ障害検出部７５が、障害レジスタ７６の障害フラグ７６１に“１”（障害有り）を設定する。また、キャッシュ障害検出部７５は、障害アドレス６２０に障害が検出されたキャッシュラインが保持していたメモリアドレス７２１を格納する。更に、キャッシュ７１は、可能であればキャッシュラインの情報をＥＣＣで訂正する。

　その後キャッシュ７１は、指定されたメモリアドレスが格納されたキャッシュラインを操作し、データ７２２の変更があった場合（ＷＲＩＴＥ）には更にＥＣＣを再計算する（Ｓ１２８０）。以上の処理が終了すると、ステップＳ１２００へ戻って次の命令を待ち受ける。

　以上の処理によって、キャッシュ７１はＱｏＳ制御ビットマップ７７で使用可能なサブモジュール７２に指定されたメモリアドレスのデータを、キャッシュライン単位で格納する。そして、キャッシュ７１は、キャッシュラインに付加されたＥＣＣに基づいて異常の検出を行う。キャッシュラインに異常があれば、キャッシュ障害検出部７５が、障害レジスタ７６の障害フラグ７６１と障害アドレス６２０に障害が検出された情報を格納する。

　図１１は、ＵＩ制御部３００で行われる処理の一例を示すフローチャートである。ＵＩ制御部３００は、他のモジュール（キャッシュ障害処理部１００等）からの通知を待って処理を開始する（Ｓ１４００）。

　ＵＩ制御部３００は、検査結果表５００を参照して異常なサブモジュール７２を全て取得する（Ｓ１４１０）。そして、異常が発生したサブモジュール７２（及びＣＰＵ７０）をコンソール１３０に表示し、キャッシュ７１の縮退の発生をシステム管理者等に通知して（Ｓ１４２０）、部品交換などの行動を促す。

　以上のように、本発明の実施例１によれば、ハイパバイザ２０のキャッシュ障害処理部１００が各ＣＰＵ７０の障害レジスタ７６を定期的に参照することで、サブモジュール７２の異常を検出する。そして、障害を検知した場合には、キャッシュ障害処理部１００は、ＱｏＳ制御ビットマップ７７のうちのひとつのみを使用可として、サブモジュール７２－１～７２－Ｍを順次検査することで、ハイパバイザ２０のキャッシュ検査部１２０で障害が発生したサブモジュール７２を特定する。そして、キャッシュ障害処理部１００のキャッシュ障害隔離部２００は、特定されたサブモジュール７２をＱｏＳ制御ビットマップ７７で使用禁止に設定しておくことで、再度障害が発生するのを回避できる。

　これにより、前記従来例の特許文献２のように特別な回路を用いることなく、安価なＣＰＵ７０を用いて物理計算機１０を構成することができ、さらに、キャッシュ７１を構成するサブモジュール７２が故障しても、残りのサブモジュール７２を使用して性能を維持しながら物理計算機１０を安定して稼働させることが可能となる。

　また、本発明によれば、ハイパバイザ２０を稼働させた状態でサブモジュール７２－１～７２－Ｍの検査を行って、異常がある場合にはキャッシュ７１の縮退を行うことができるので、仮想計算機３０及びアプリケーション６０、６１の信頼性を確保できる。

　本実施例２では、メモリアドレスとサブモジュール７２内のキャッシュラインの番号との対応関係が開示されているＣＰＵ７０を前提として、システムソフトウェアとして動作するＯＳ４０がキャッシュ障害に対処する例を示す。

　図１２は、実施例２における物理計算機１０の構成図の一例である。前記実施例１の図１と同一の構成要素には同一の符号を付し、重複する説明は省略する。

　メモリ９０には、ＯＳ４０がロードされ、メモリ９０の一部をアプリケーション６０－１～６０－ｎに割り当てる。ＯＳ４０上ではアプリケーション６０－１～６０－ｎが実行される。その他の構成については前記実施例１と同様である。

　図１３は、物理計算機１０上で稼働するソフトウェアの主要部と、制御対象となるハードウェア要素の一例を示すブロック図である。なお、前記実施例１の図２と同一の符号を付され、同一の機能を有する構成要素について説明を省略する。

　物理計算機１０上では、アプリケーション６０－１～６０－ｎを稼働させるＯＳ４０がシステムソフトウェアとして稼働する。

　ＯＳ４０は、キャッシュ７１で検出された障害に対処するキャッシュ障害処理部１００と、コンソール１３０を制御するＵＩ制御部３００を含む。その他の構成は、前記実施例１の図２と同様である。

　ＣＰＵ７０は、メモリ９０のメモリアドレスとサブモジュール７２内のキャッシュラインの番号との対応関係を予め有している点が、前記実施例１と異なる。その他の点については、前記実施例１と同様である。

　図１４は、ＯＳ４０が管理するメモリ９０の一例を示すマップである。前記実施例１の図３と同一の符号を付され、同一の機能を有する構成要素については説明を省略する。

　ＯＳ４０は、メモリ９０上に自身を配置する領域と、アプリケーション６０が使用する領域を割り当てる。ＯＳ４０は、前述のようにキャッシュ障害処理部１００、ＵＩ制御部３００を自身の領域内に含む。

　例えば図１４のように、ＯＳ４０は、自身にアドレスＡＤ０～ＡＤ１を固定的に割り当てて各モジュール（キャッシュ障害処理部１００、ＵＩ制御部３００）を配置し、アプリケーション６０－１にアドレスＡＤ２～ＡＤ３を、アプリケーション６０－ｎにアドレスＡＤ４～ＡＤ５を動的に割り当てる。

　図１５は、ＯＳ４０のキャッシュ障害処理部１００のキャッシュ検査部１２０で行われるサブモジュール７２の検査の一例を示すフローチャートである。

　なお、ＯＳ４０のキャッシュ障害処理部１００は、前記実施例１のハイパバイザ２０と同様に図８、図１１の処理を行う。本実施例２では、ＯＳ４０のキャッシュ障害処理部１００が全てのアプリケーション６０－１～６０－ｎを一時的に停止させている間に、サブモジュール７２－１～７２－Ｍの検査を行う。

　キャッシュ検査部１２０は、各サブモジュール７２－１～７２－Ｍについて、Ｓ１１００からＳ１１８０の処理を繰り返す。なお、図１５の処理は、前記実施例１の図９のフローチャートから、ステップＳ１１１０を削除し、ステップＳ１１３０をステップＳ１５００に置き換えたものであり、その他の処理は図９と同様である。

　キャッシュ検査部１２０は、ＱｏＳ制御ビットマップ７７の使用可否フラグ７７－１～７７－Ｍを１つだけセットして、検査対象のサブモジュール７２－ｉだけが使用可能な状態を確立させる（Ｓ１１２０）。

　続いてキャッシュ検査部１２０は、障害レジスタ７６の障害アドレス６２０に格納されていたアドレスと同一キャッシュラインに格納されるメモリアドレスを、Ｎ（Ｎ＞サブモジュール数）箇所選択して読み書きの操作を実行する（Ｓ１５００）。すなわち、障害レジスタ７６の障害アドレス７６２に格納されていたメモリアドレスと、当該メモリアドレスのエイリアスの関係にあるアドレスについてキャッシュ７１の読み書きを複数回行う。

　ここで、ＣＰＵ７０は、メモリアドレスとサブモジュール７２内のキャッシュラインとの対応関係が既知であるので、キャッシュ検査部１２０は、障害ラインが保持していたメモリアドレス（障害アドレス７６２）と、キャッシュラインの番号が一致するメモリアドレスをＮ箇所選択することができる。

　前記実施例１のキャッシュフラッシュに代わって、障害アドレス７６２に格納されていたメモリアドレスとエイリアスの関係にあるアドレスについてサブモジュール７２の数を超える複数のアクセス（読み書き）をそれぞれ行うことで、サブモジュール７２－ｉに異常がある場合は、ＣＰＵ７０のキャッシュ障害検出部７５が新たなキャッシュ障害を検出して障害レジスタ７６の障害フラグ７６１を“１”に設定することができる。

　キャッシュ検査部１２０は、障害レジスタ７６の障害フラグ７６１の値を読み込み（Ｓ１１４０）、新たなキャッシュ障害が生じたか否かを判定する（Ｓ１１５０）。

　新たなキャッシュ障害が発生していた場合は、検査結果表５００に、検査中のサブモジュール７２が“異常”を示す値を記録し（Ｓ１１６０）、障害レジスタ７６の障害フラグ６１０を“０”に設定してクリアする（Ｓ１１７０）。一方、新たなキャッシュ障害がない場合は、キャッシュ検査部１２０が検査結果表５００に、検査中のサブモジュール７２が“正常”を示す値を記録（Ｓ１１８０）する。

　以上の処理を各サブモジュール７２－１～７２－Ｍについて繰り返すことで、計算機システムが稼働中であっても、異常が発生したサブモジュール７２を特定できる。また、本実施例２では、障害が発生したサブモジュール７２のキャッシュラインが保持していたメモリアドレスとライン番号が一致するメモリアドレスをＮ個選択して読み書きの操作を行うことで、異常が発生したサブモジュール７２を特定することができる。そして特定されたサブモジュール７２は、前記実施例１と同様に、キャッシュ障害隔離部２００がＱｏＳ制御ビットマップ７７で当該サブモジュール７２を使用不可に設定する。これにより、再度同じサブモジュール７２で障害が発生するのを回避する。

　本実施例２も前記実施例１と同様に、安価なＣＰＵ７０を用いて物理計算機１０を構成することができ、さらに、キャッシュ７１を構成するサブモジュール７２が故障しても、性能を維持しながら物理計算機１０を安定して稼働させることが可能となる。

　また、本実施例２も前記実施例１と同様に、ＯＳ４０を稼働させた状態でサブモジュール７２－１～７２－Ｍの検査を行って、異常がある場合にはキャッシュ７１の縮退を行うことができるので、アプリケーション６０の信頼性を確保できる。

　なお、上記実施例１、２では、システムソフトウェアが所定の周期で障害レジスタ７６を読み込んでキャッシュ７１の障害を検出する例を示したが、これに限定されるものではない。例えば、キャッシュ７１に障害が発生したときにＣＰＵ７０がシステムソフトウェアに割り込みをかける場合では、割り込みを契機としてキャッシュ障害処理部１００の処理を開始しても良い。

　また、本発明のキャッシュ７１は、ＬＬＣ（Ｌａｓｔ　Ｌｅｖｅｌ　Ｃａｃｈｅ）やＬ３（Ｌｅｖｅｌ　３）キャッシュを構成することができる。また、本発明のキャッシュ７１をＬ２キャッシュやＬ１キャッシュに用いてもよい。

　また、上記実施例１、２では、ＣＰＵ７０で演算処理を行う例を示したが、ヘテロジニアスのプロセッサを採用しても良い。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

　また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

Claims

　プロセッサとメモリとを備えた計算機で、前記メモリに格納したシステムソフトウェアで前記計算機を制御する計算機システムであって、
　前記プロセッサは、
　複数のサブモジュールから構成されたキャッシュと、
　前記サブモジュール毎に使用の可否を設定するＱｏＳ制御ビットマップと、
　前記キャッシュの障害を検出して前記システムソフトウェアに伝達するキャッシュ障害検出部と、を含み、
　前記システムソフトウェアは、
　前記キャッシュ障害検出部が前記キャッシュの障害を検出すると、前記ＱｏＳ制御ビットマップを更新して前記障害が発生したサブモジュールを特定するキャッシュ障害処理部を含むことを特徴とする計算機システム。
　請求項１に記載の計算機システムであって、
　前記キャッシュ障害検出部は、
　前記キャッシュの障害の有無と、障害検出時に前記キャッシュで保持していたメモリアドレスと、を格納する障害レジスタをさらに含み、
　前記キャッシュ障害処理部は、
　前記キャッシュの障害を検出したときには、前記障害が発生した前記キャッシュのサブモジュールを検査して、障害が発生したサブモジュールを特定するキャッシュ検査部を含み、
　前記キャッシュ検査部は、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更してから、前記メモリアドレスへのアクセスを実行し、前記障害が発生したサブモジュールを特定することを特徴とする計算機システム。
　請求項２に記載の計算機システムであって、
　前記キャッシュ検査部は、
　前記障害レジスタの前記キャッシュの障害の有無をクリアしてから、前記障害レジスタが格納していた前記メモリアドレスで前記キャッシュをフラッシュし、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更してから、前記メモリアドレスへのアクセスを実行し、
　前記障害レジスタを読み込んで、再度キャッシュの障害が有りとなった前記サブモジュールを、前記障害が発生したサブモジュールとして特定することを特徴とする計算機システム。
　請求項２に記載の計算機システムであって、
　前記プロセッサは、
　前記メモリのアドレスと前記サブモジュール内のキャッシュラインの番号との対応関係を予め有し、
　前記キャッシュ検査部は、
　前記障害レジスタの前記キャッシュの障害の有無をクリアしてから、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更してから、前記障害レジスタが格納していた前記メモリアドレスとキャッシュラインの番号が一致する複数のメモリアドレスへのアクセスをそれぞれ実行し、
　前記障害レジスタを読み込んで、再度キャッシュの障害が有りとなった前記サブモジュールを、前記障害が発生したサブモジュールとして特定することを特徴とする計算機システム。
　請求項２に記載の計算機システムであって、
　前記キャッシュ障害処理部は、
　前記キャッシュ検査部が特定した前記障害の発生したサブモジュールに対応する前記ＱｏＳ制御ビットマップを使用不可に設定するキャッシュ障害隔離部をさらに含むことを特徴とする計算機システム。
　プロセッサとメモリとを備えた計算機で、前記メモリに格納したシステムソフトウェアで前記計算機を制御する計算機の制御方法であって、
　前記プロセッサは、複数のサブモジュールから構成されたキャッシュと、前記サブモジュール毎に使用の可否を設定するＱｏＳ制御ビットマップと、を含み、
　前記プロセッサが、前記キャッシュの障害を検出して前記システムソフトウェアに伝達する第１のステップと、
　前記システムソフトウェアが、前記キャッシュの障害を検出すると、前記ＱｏＳ制御ビットマップを更新して、前記障害が発生したサブモジュールを特定する第２のステップと、
を含むことを特徴とする計算機の制御方法。
　請求項６に記載の計算機の制御方法であって、
　前記プロセッサは、前記キャッシュの障害の有無と、障害検出時に前記キャッシュで保持していたメモリアドレスと、を格納する障害レジスタをさらに含み、
　前記第２のステップは、
　前記キャッシュの障害を検出したときには、前記障害が発生した前記キャッシュのサブモジュールを検査して、障害が発生したサブモジュールを特定する第３のステップを含み、
　前記第３のステップは、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更するステップと、
　前記メモリアドレスへのアクセスを実行し、前記障害が発生したサブモジュールを特定するステップと、
を含むことを特徴とする計算機の制御方法。
　請求項７に記載の計算機の制御方法であって、
　前記第３のステップは、
　前記障害レジスタの前記キャッシュの障害の有無をクリアするステップと、
　前記障害レジスタが格納していた前記メモリアドレスで前記キャッシュをフラッシュするステップと、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更するステップと、
　前記メモリアドレスへのアクセスを実行するステップと、
　前記障害レジスタを読み込んで、再度キャッシュの障害が有りとなった前記サブモジュールを、前記障害が発生したサブモジュールとして特定するステップと、
を含むことを特徴とする計算機の制御方法。
　請求項７に記載の計算機の制御方法であって、
　前記プロセッサは、
　前記メモリのアドレスと前記サブモジュール内のキャッシュラインの番号との対応関係を予め有し、
　前記第３のステップは、
　前記障害レジスタの前記キャッシュの障害の有無をクリアするステップと、
　前記複数のサブモジュールのうちの１つを順次選択して前記ＱｏＳ制御ビットマップを使用可に変更し、他のサブモジュールを使用不可に変更するステップと、
　前記障害レジスタが格納していた前記メモリアドレスとキャッシュラインの番号が一致する複数のメモリアドレスへのアクセスをそれぞれ実行するステップと、
　前記障害レジスタを読み込んで、再度キャッシュの障害が有りとなった前記サブモジュールを、前記障害が発生したサブモジュールとして特定するステップと、
を含むことを特徴とする計算機の制御方法。
　請求項７に記載の計算機の制御方法であって、
　前記システムソフトウェアが、前記第３のステップで特定した前記障害が発生したサブモジュールに対応する前記ＱｏＳ制御ビットマップを使用不可に設定する第４のステップをさらに含むことを特徴とする計算機の制御方法。