WO2016075813A1

WO2016075813A1 - 計算機システム、及びその制御方法

Info

Publication number: WO2016075813A1
Application number: PCT/JP2014/080193
Authority: WO
Inventors: 優志神谷; 康央笹島; 哲生平光
Original assignee: 株式会社日立製作所
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2016-05-19

Abstract

　計算機システムは、複数のPCIデバイスと、複数のＣＰＵと、ベクタ番号と当該複数のＰＣＩデバイスと当該複数のＣＰＵとの対応関係をしめす情報を管理し、当該情報に基づいて、当該複数のＰＣＩデバイスと当該複数のＣＰＵの通信を制御するデバイスドライバを備える。そして、デバイスドライバは、ＯＳ起動時に、現用系のＣＰＵとＰＣＩデバイスの組み合わせに対して第１のベクタ番号を割り当て、第１のベクタ番号に基づき、待機系のＣＰＵとＰＣＩデバイスの組み合わせに対して第２のベクタ番号を割り当てる。このようにすることにより、ＣＰＵに接続されたＰＣＩデバイスをシステム装置のシステムダウンを伴うことなく、保守交換を行うまでシステムとして動作を継続させる（図４参照）。

Description

計算機システム、及びその制御方法

　本発明は、計算機システム、及びその制御方法に関し、例えば、ＰＣＩデバイスの管理のための技術に関するものである。

　ＰＣＩ－Ｅｘｐｒｅｓｓ規格に対応した拡張デバイスはサーバ機器において高密度サーバからタワー型の廉価サーバ機器まで、現行のほとんど全ての機器においてサポートしている。しかしＰＣＩデバイスが物理的故障を起こした場合、一般にシステムダウンを伴う保守交換が発生する。例えば、複数のＣＰＵと複数のＰＣＩデバイスを備えるシステムにおいて、正常に動作しているＣＰＵに異常が発生した場合、当該ＣＰＵに接続していたＰＣＩデバイスを、もう一方のＣＰＵでシステム装置の再起動を伴わずに継続して使用することができず、必ずＯＳのシャットダウン、部品交換、ＯＳ起動というプロセスを踏むこととなり、ＰＣＩデバイスの使用継続には時間を要する。

　このような不都合を解決するために、例えば特許文献１では、バスに接続されたあるデバイスに障害が発生した場合、専用のリセット回路を設け、他のデバイスを一旦リセットし、障害用モードにて他のデバイスを再起動するようにしている。このようにすることにより、障害が発生したデバイスを電気的に切り離し、デバイスの継続動作を実現させることができる。

特開２００７－２４９５０５公報

　しかしながら、特許文献１では、各デバイスやサーバに専用動作モード（障害用モード）を予め設定し、障害発生時に専用動作モードで動作させなければならない。つまり、専用のリセット回路を各デバイスに設けなければならない。従って、システムのコストが過大となるという課題が特許文献１の技術には存在する。

　本発明はこのような状況に鑑みてなされたものであり、デバイスに特殊な動作モードを設けることなくシステム障害発生から復旧までの間のダウンタイムを抑えるための技術を提供するものである。

　上記課題を解決するために、本発明による計算機システムは、複数のＰＣＩデバイスと、少なくともＯＳと複数のＰＣＩデバイスのドライバを実行する複数のＣＰＵと、当該複数のＰＣＩデバイスの割り込みベクタを設定するための仮想メモリ領域を提供する少なくとも１つのメモリと、を有する。そして、複数のＣＰＵのそれぞれは、複数のＰＣＩデバイスと複数のＣＰＵとの対応関係と、複数のＰＣＩデバイスに割り当てられた割り込みベクタと、を管理する。このような計算機システムでは、複数のＣＰＵのそれぞれに対して、複数のＰＣＩデバイスの全ての割り込みベクタがメモリ内に設定されている。

　本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される請求の範囲の様態により達成され実現される。

　本明細書の記述は典型的な例示に過ぎず、本発明の請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

　本発明によれば、デバイスに特殊な動作モードを設けることなくシステム障害発生から復旧までの間のダウンタイムを抑えることができるようになる。

本発明による計算機システムの主要部分の概略構成を示す図である。ＯＳ起動時における割り込みベクタの割り当て処理を説明するためのシーケンス図である。従来技術による、ＰＣＩデバイスへの割込みベクタの割り当てを説明するための図である。本発明の実施形態による、ＰＣＩデバイスへの割込みベクタの割り当て（待機系を持つ冗長構成）を説明するための図である。ＣＰＵ１が故障した時におけるＰＣＩデバイスへのリソース割り当ての状態を示す図である（異常系）。システムに異常発生していない場合のデータの流れを説明するための図である。システムに異常発生し、待機系にて動作している場合のデータの流れを説明するための図である。

　本発明は、ＣＰＵに障害が発生した際にＣＰＵと接続されたＰＣＩデバイスの経路を切り替えることにより、ＰＣＩデバイスの継続稼動を実現する技術に関するものである。このため、本発明は、上述のように、一次的には、デバイスに特殊な動作モードを設けることなくシステム障害発生から復旧までの間のダウンタイムを抑えるための技術を提供するものである。また、本発明は、二次的には、一般にＳＭＰ（Symmetric Mutli Processing）構成の、複数のＣＰＵコアで物理メモリを共有する方式で構成されるシステムのうち、複数のＣＰＵソケットを備えた計算機システムにおいて、１つのＣＰＵが故障した際に、当該ＣＰＵに接続されているＰＣＩデバイスを別のＣＰＵにシステムダウンを伴う事なく動的に割り当てを変更するものである。

　以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

　本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

　更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

　＜システム構成＞
　図１は、本発明の実施形態による計算機システムの全体構成を示す図である。

　複数のＣＰＵ（図１では、説明の便宜のためＣＰＵ１_１０及びＣＰＵ２_１１の２つのみが示されているが２つに限定されるものではない）と、それぞれのＣＰＵに対応し、バス１０２又は１０３を介して接続されるメモリモジュール１００及び１０１と、ＣＰＵ１_１０に接続される少なくとも１つのＰＣＩデバイス（ＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１が示されているが、２つに限定されるものではない）と、ＣＰＵ２_１１に接続される少なくとも１つのＰＣＩデバイス（ＰＣＩデバイス３_２２及びＰＣＩデバイス４_２３が示されているが、２つに限定されるものではない）と、バスを介してＣＰＵ１_１０及びＣＰＵ２_１１と接続されるブリッジチップ１２と、システムの状態を通知する機能を有するＳＶＰ（Service Processor）チップ１０４と、を含んでいる。

　ＣＰＵ１_１０及びＣＰＵ２_１１は、正常稼動時においてはいずれも通常のマルチプロセッサとして機能し、待機状態とはならない。そのため、計算機システム１では、正常稼動時においては両方のＣＰＵが使用されるようになっている。

　ブリッジチップ１２は、キーボードやマウス、ディスプレイ装置といった外部との入出力インタフェースを制御する。

　通常時、ＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１は、ＣＰＵ１_１０によって動作が制御される。同様に、ＰＣＩデバイス３_２２及びＰＣＩデバイス４_２３は、ＣＰＵ２_１１によって動作が制御される。従って、ＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１はＣＰＵ１_１０の専用デバイス、ＰＣＩデバイス３_２２及びＰＣＩデバイス４_２３はＣＰＵ２_１１の専用デバイスということができる。

なお、本発明の実施形態で想定するのは、一般的なＳＭＴ（Simultaneous Multi Thread）を採用したシステムであるが、本発明の思想は必ずしもそれに限定されるものではない。

　一般的なマルチプロセッサシステムに対応したＯＳでは、入出力装置やＵＳＢといった外付けの拡張機能は、１つのＣＰＵに割り込みベクタを設定する。そのため、本実施形態においては、ＣＰＵ１_１０に割り込みベクタが割り当てられているのが一般的である。しかし、ＰＣＩデバイスと同様に、冗長性を持たせるため、拡張機能もＣＰＵ２_１１にも接続している。

　ブリッジチップ１２は、小型のマイクロチップであり、自ら各デバイスを制御できる。そのため、ブリッジチップ１２は、ＣＰＵ１_１０が故障した場合には、ＣＰＵ２_１１を使用するように自ら制御することができる。

　また、入出力インタフェースやＵＳＢなどは、ＰＣＩデバイスと異なり、一度ＯＳから切り離されてしまっても、若干のダウンタイムは発生するものの、再度ＯＳに割り当てる事は、ブリッジチップの回路規模にもよるが、比較的容易である。そのため、本発明においては以降、ＰＣＩデバイスの切り替えに関して記載し、入出力デバイスやＵＳＢといった拡張機能に関しては記載の対象としないこととする。

　なお、当該計算機システム１において、ＯＳは、ストレージやＨＤＤからメモリモジュール１００及び１０１にそれぞれ読み込まれ、それぞれのＣＰＵによって実行される。また、各ＰＣＩデバイスのドライバも、メモリモジュール１００及び１０１から読みだされ、それぞれのＣＰＵによって実行され、担当のＣＰＵによって各ＰＣＩデバイスが制御される。

　＜ＰＣＩドライバ側の処理とＯＳ側の処理＞
　図２は、ＰＣＩデバイスに冗長性を持たせるために実行されるＰＣＩドライバ側の処理とＯＳ側の処理のシーケンスを説明するための図である。計算機システム１では、現用系として通常稼動時に使用するリソースと、待機系として障害発生時に使用するリソースを分け、ＰＣＩドライバ及びＯＳがそれぞれを個別に管理している。なお、以下においては、ＯＳ或いはＰＣＩデバイスドライバを動作主体として各シーケンスについて説明するが、ＯＳ及びドライバはＣＰＵ１_１０及びＣＰＵ２_１１によって実行されるため、ＣＰＵを動作主体として捉えても良い。

（i）シーケンス２０１
　まず、ＣＰＵ１_１０及びＣＰＵ２_１１（以下、図２の説明では、単に「ＣＰＵ」と記す）によって実行されるＯＳは、ＯＳの初期化中に、ＣＰＵによって実行されるＰＣＩドライバに対して、ＰＣＩのリンク速度の情報を通知する。通知されるＰＣＩのリンク速度は、例えば、１×、２×、４×、８×、１６×、３２×、・・・等である。

（ii）シーケンス２０２
　ＰＣＩのリンク速度の情報を受け取ったドライバは、ＯＳによって通知されたリンク速度に基づいて、各ＰＣＩデバイスを正常に動作させるために必要なリンク速度を確認し、決定する。そして、ドライバは、ＯＳに対して決定したリンク速度を通知する。

（iii）シーケンス２０３
　ＯＳは、ドライバからリンク速度の通知を受け、当該リンク速度に応じて使用できるリソース（ＣＰＵのリソース量：ＰＣＩデバイスが使える割り込みベクタの数）をドライバに通知する。

（iv）シーケンス２０４
　ドライバは、ＯＳに対して各ＰＣＩデバイスが必要とするリソースを確保できるかＯＳ側へ確認を取る。より具体的には、ドライバは、ＰＣＩデバイスの仕様（シーケンス２０２で決定したリンク速度）に応じて割り込みベクタを割り当ててくれるようにＯＳに対して要求する。

　通常、ＰＣＩデバイスにおいてはデバイス毎に確保するリソースが予め決まっており、ドライバによって確保するリソースの数を制御するのが一般的である。そのため、リソースが通常稼動に必要な容量より小さい場合、デバイスを使用不可としてＯＳに通知するドライバもあれば、リソースが通常使用する容量より少なくても、使用不可にするような例外処理を入れず、正常稼動させようとするドライバも存在する。（ドライバの実装に依存する）よって、リソースが十分確保できない場合の処理は、ドライバの実装に依存し、各々異なる。

　図２の処理例では、ドライバは、現用系のＣＰＵ１_１０が動作させるＯＳに対してＰＣＩデバイスが必要とする本来のリソース数の分だけリソースを確保できるか確認を取る。なお、当該シーケンスの処理は、ＰＣＩデバイスの冗長化に関係なく発生する処理であり、本発明特有の処理ではない。また、現用系ＣＰＵ１_１０が通常稼動するために必要なリソースを確保できない場合はエラー処理として、ＰＣＩデバイスをどのように扱うかデバイスドライバで制御する点も本発明特有の処理ではない。

　なお、本実施形態において、当該シーケンスにおけるベクタ割り当て要求は、現用系（ＣＰＵ１_１０）の割り込みベクタを割り当てるためのものであり、待機系については現用系のベクタ設定が完了してから設定される。

（v）シーケンス２０５
　ＯＳは、ドライバに対して、要求されたベクタ数を割り当てることができるメモリ領域（仮想メモリ領域）をドライバに通知する。

（vi）シーケンス２０６
　ドライバは、ベクタ割り当て可能領域の通知をＯＳから受け、対象のＰＣＩデバイスについて現用系のためのリソースを割り当て、そのメモリ領域の情報をＯＳに通知する。

（vii）シーケンス２０７
　ＯＳは、メモリ領域の情報をドライバから受け、現用系の割り込みベクタを設定する。

（viii）シーケンス２０８
　ドライバは、対象のＰＣＩデバイスを通常使用するためのリソースを確保できた場合、その倍数のリソースを確保できるか再度ＯＳに問い合わせる。つまり、現用系のために割り当てられた割り込みベクタ数が待機系のためにも確保できるかＯＳに問い合わせる。

（ix）シーケンス２０９
　ＯＳは、ドライバからの要求に応じて、ベクタ割り当て可能領域（仮想メモリ領域）を確認し、ドライバに当該可能領域を通知する。

（x）シーケンス２１０
　ドライバは、ＯＳから通知されたベクタ割り当て可能領域の情報に基づいて、現用系のＰＣＩデバイスに割り当てた割り込みベクタと同数の割り込みベクタ数を待機系のＰＣＩデバイスに設定可能か判断する。設定可能な場合（シーケンス２１０でＹｅｓの場合）、処理はシーケンス２１１に移行する。設定不可能な場合（シーケンス２１０でＮｏの場合）、処理はシーケンス２１２に移行する。

（xi）シーケンス２１１
　ＯＳは、待機系のＰＣＩデバイスに対して割り込みベクタを設定し、ドライバに対して待機系のＰＣＩデバイスとして割り込みに使用するベクタ番号を通知する。

（xii）シーケンス２１２
　ドライバは、現用系及び待機系のベクタ割り当てについて再検討するため、既に設定された現用系のＰＣＩデバイスに対する割り込みベクタの設定を取り消す。

　待機系のＰＣＩデバイスが正常稼動するために必要な割り込みベクタがＯＳから十分に供給されない場合、現用系に故障が発生した場合、ＰＣＩデバイスが正常に使用できない状態となる。そのため、現用系に割り当てるリソースは確保できても待機系に割り当てるリソースが不十分である場合には、ベクタ割り当て方式の再検討を行う必要がある。

　シーケンス２１２の処理後、処理はシーケンス２０２に移行する。シーケンス２０２では、ドライバは、各ＰＣＩデバイスを動作させるために必要なリンク速度であって、今まで検討した速度（例えば８×）よりも遅い速度の異なるリンク速度（例えば４×）を決定する。そして、ドライバは、ＯＳに対して決定したリンク速度を通知する。以後、上述のように、現用系及び待機系の両方に同数の割り込みベクタが設定できるまで、シーケンス２０３～２１２の処理が繰り返される。

　以上のように、本発明の実施形態では、現用及び待機系のＰＣＩデバイスには同数の割り込みベクタが割り当てられる。ただし、各ＰＣＩデバイスに割り当てられる割り込みベクタ数は、本来（従来の方式によって）割り当てられる割り込みベクタ数の半分となる。

　ところで、通常、システム設計に当たっては、各ＰＣＩデバイスのデバイスドライバがＯＳに要求するリソースを確保できる前提でシステム設計を行う。よって、本システム設計の基本に則れば、ＰＣＩデバイスが通常動作するために必要とする半分のリソースは確実に確保可能である。通常使用する倍数のリソースを確保できるのであれば、現用系および待機系で何らかの不具合が発生することはない。

　本発明者は、通常の半分のリソースでも当該デバイスの使用を継続可能な技術に関して技術的価値を見出しているが、実際の運用の際には、通常の半分のリソースであってもＰＣＩデバイスの機能を十分満足できるかどうかを検証する必要がある。

　上述のように、本発明の実施形態においては現用系および待機系について、同数のベクタ割り込みを基本としている。これは、機構が最も単純であり、制御機構の実装上、開発コストや機構の実装にかかるコストを考慮したためである。ただし、必ずしも現用系と待機系で同数のベクタ割り込みを使用しなくても良い。

　また、ＰＣＩデバイスによっては、当該ＰＣＩデバイスの性能を引き出すのに本来必要なリソース以上にリソースを確保するデバイスも存在する。例えば、ＳＣＳＩデバイス接続用ＰＣＩカードやシリアル入出力対応ＰＣＩカードなど、レガシデバイスに対応させるための拡張ＰＣＩカードなどが代表的である。このようなデバイスの場合、ＰＣＩ　Ｅｘｐｒｅｓｓの帯域自体が規格上最小のｘ１でも帯域過多であり、デバイスが割り込みを上げる数も非常に少ないにも拘らず、使用する割り込みベクタを余分に確保しているデバイスも存在する。このような場合、現用系および待機系に対して割り込みベクタ自体を予め少なく割り当てるように、ドライバの割り込みベクタ確保要求に対し、ＯＳ上の設定で割り当てるベクタ数を削減し、リソースを他のＰＣＩデバイスのために空けるといった工夫が考えられる。

　以上のように、本発明では、ＰＣＩデバイスが通常確保するリソースの倍数を確保できる余裕がある場合は問題ない。一方、正常系および待機系のＰＣＩデバイスに割り当てる事が可能な割り込みベクタのリソース数が通常より少ない場合には、ＰＣＩデバイスが正常動作するか否かを十分検証する必要がある。

　しかし、十分なリソースが確保できず、ＰＣＩデバイスを正常稼動させることができない場合でも、ＯＳから下位の物理レイヤーに対してハードウェア異常が発生している事を通知することは既存技術を用いれば可能である。

　そこで、ＯＳが割り当て可能なリソースの上限を超えるようなリソースが必要となる場合は、ユーザー側に本機能を使用しないよう、ＳＶＰ１０４のログに出力するなどし、ユーザーへの配慮を図る。また、ＰＣＩデバイスの冗長化機能を使用したとき（本実施形態）には、リソース不足で正常稼動できない旨、ＳＶＰ等を利用してユーザーに対して注意が喚起される。このため、ユーザーは、リソース不足の場合はＰＣＩデバイス自体が起動できず、ＰＣＩカードを増設しようとする時点においてＰＣＩデバイスの冗長構成が組めないことが分かる。よって、ユーザーは、システムの本運用に入る前に制約事項に気付くことができる。

　＜従来の割り込みベクタの設定＞
　図３は、従来技術によってドライバがＰＣＩデバイスに対してどの割り込みベクタ番号を使用するか決定し、割り当てた後の状態を示す図である。

　ＰＣＩデバイス１_２０は、本来、割り込みベクタを４個必要とするデバイスであるとする。そのため、通常であれば、割り込みベクタは４個設定される。

　従って、図３では、ＰＣＩデバイス１_２０用に仮想メモリアドレス０ｘ００００から０ｘ０００３を、ＰＣＩデバイス２_２１用に仮想メモリアドレス０ｘ０００４から０ｘ０００７をＣＰＵ１_１０に割り当てている。一方、ＣＰＵ１_１０にはＰＣＩデバイス３およびＰＣＩデバイス４用の仮想メモリアドレスは割り当てない。同様に、ＰＣＩデバイス３_２２用に仮想メモリアドレス０ｘ０００８から０ｘ０００Ｂを、ＰＣＩデバイス４_２３用に仮想メモリアドレス０ｘ０００Ｃから０ｘ０００ＦをＣＰＵ２_１１に割り当てている。このように、従来技術に依る場合には、各ＰＣＩデバイスは１つのＣＰＵと１対１で対応し、ＣＰＵが故障した場合の冗長性は無い。

　＜本発明による割り込みベクタの設定＞
　図４は、本発明の実施形態によってドライバがＰＣＩデバイスに対してどの割り込みベクタ番号を使用するかを決定し、割り当てた後の状態を示す図である。本発明の実施形態では、システム装置が故障した場合にも継続的な動作ができるよう、ＣＰＵ１_１０がＰＣＩデバイス１_２０のために使用するリソースの数を半分にしたうえで、ＣＰＵ２_１１がＰＣＩデバイス１_２０を制御できるよう、割り込みベクタを割り当てる。

　具体的には、ＣＰＵ１_１０は、ＰＣＩデバイス１_２０用に仮想メモリアドレス０ｘ００００～０ｘ０００１を、ＰＣＩデバイス２_２１用に仮想メモリアドレス０ｘ０００３～０００４を、ＰＣＩデバイス３_２２用に仮想メモリアドレス０ｘ０００８と０ｘ０００９を、ＰＣＩデバイス４_２３用に仮想メモリアドレス０ｘ０００Ｃと０ｘ０００ｄを割り当てている。このうち、システム装置が正常に稼動しており、いずれのＣＰＵにも異常がない時、ＣＰＵ１_１０はＣＰＵ２_１１側の管理下にあるＰＣＩデバイス３_２２及びＰＣＩデバイス４_２３にはアクセスしない。

　また、ＣＰＵ２_１１は、ＰＣＩデバイス１_２０を制御するために０ｘ０００２～０ｘ０００３を、ＰＣＩデバイス２_２１を制御するために０ｘ０００６～０ｘ０００７を、ＰＣＩデバイス３_２２を制御するために０ｘ０００Ａ～０ｘ０００Ｂを、ＰＣＩデバイス４_２３を制御するために０ｘ０００Ｅ～０ｘ０００Ｆをそれぞれ確保している。このうち、正常に稼動している状態で制御するＰＣＩデバイスはＰＣＩデバイス３_２２とＰＣＩデバイス４_２３のみである。

　このように、あらかじめＯＳ起動時にドライバが双方のＣＰＵからＰＣＩデバイスにアクセスできるよう、固定的に割り込みベクタを割り振っておく。

　この場合に考慮（許容）すべき点としては、ＰＣＩデバイスに割り当てられるリソースが確実に減少することである。割り込みベクタは、ＰＣＩデバイスがＣＰＵと通信する際にＣＰＵに対して割込みを発生させ、割込みを発生させたＰＣＩデバイス専用にＣＰＵのリソースを確保し、データ通信を行うためにある。そのため、一般的に割り込みベクタの数が多い方が、ＰＣＩデバイスがＣＰＵリソースを占有できる時間が長くなり、ＰＣＩデバイスの性能面において有利となる。

　しかしながら、本発明を適用する場合には、各ＰＣＩデバイスに設定される割り込みベクタ数は従来の半分となるため、従来よりも性能は劣化する。従って、本発明を適用する場合には、対象のＰＣＩデバイスが本来どれだけリソースを必要とするのかを把握するが、少ないリソースでＰＣＩデバイスを制御することによる性能面の劣化は考慮しない（許容しなければならない）。このため、ユーザーは、割り込みベクタ数が減ってもＰＣＩデバイスとしての機能を損なうことのないよう、割り込みベクタ数減少により性能低下以外の正常動作を保障できないＰＣＩデバイスについては本発明の適用対象外とする必要がある。また、ＰＣＩ－Ｅｘｐｒｅｓｓ切り替えスイッチを使用し、本発明による冗長化ができない場合には、ユーザーは、ＯＳ起動前に、ＰＣＩスロット単位でＰＣＩの冗長化構成を組まないように設定できるよう、ＥＦＩ／ＢＭＣなどを使用して機能を実装する必要がある。

　図４では、リソースを割り当てるとき、通常稼動時に使用できるリソースが半分になる。しかし、リソースを半分にしておけば、既存のシステムからドライバ周りの実装を大幅に変更することなく、ＰＣＩデバイスが動作可能となる。一方、システムが許す範囲内において、最大限のリソースを確保できるよう、システム全体の構成に応じて割り当てリソースを調整する仕組みをＥＦＩ／ＢＭＣ側で実装し、性能劣化を最小限に抑える工夫も考えられる。

　図５は、計算機システム１において、ＣＰＵ１_１０が故障して使用不可となり、ＣＰＵ１_１０が管理していたＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１がいずれもＣＰＵ２_１１に割り当てられている様子を示している。図５からも分かるように、ＯＳ起動時において、予めＰＣＩデバイス１_２０用に０ｘ０００２～０ｘ０００３と、ＰＣＩデバイス２_２１用に０ｘ０００６～０ｘ０００７を確保しているため、当該割り込みベクタを使用してＣＰＵ２_１１が直接ＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１をコントロールできるようになる。

　以上のように、本実施形態では、ＣＰＵ１_１０及びＣＰＵ２_１１のそれぞれは、ＰＣＩデバイス１_２０乃至４_２３とＣＰＵ１_１０及び２_１１との対応関係と、ＰＣＩデバイス１_２０乃至４_２３に割り当てられた割り込みベクタと、を管理している。

　＜本発明を適用した場合の接続関係＞
　図６は、ＣＰＵとＰＣＩデバイスとの接続関係を示す図である。図７は、ＣＰＵ１_１０が故障した場合のＣＰＵとＰＣＩデバイスとの接続関係を示す図である。ここでは、ＣＰＵ１_１０、ＣＰＵ２_１１、ＰＣＩデバイス１_２０～ＰＣＩデバイス４_２３、ＳＷ１_５５、ＳＷ２_５６に特化してその接続関係が示されている。

　図６において、通常時は、ＳＷ１_５５は、ＣＰＵ１_１０とＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１のみを結ぶ経路を提供し、ＳＷ１_５５とＳＷ２_５６を跨いでＰＣＩデバイス１_２０やＰＣＩデバイス２_２１をＣＰＵ２_１１が制御できないようにしている。同様に、通常時は、ＳＷ２_５６も、ＣＰＵ２_１１とＰＣＩデバイス３_２２及びＰＣＩデバイス４_２３を結ぶ経路を提供し、ＰＣＩデバイス３_２２やＰＣＩデバイス４_２３をＣＰＵ１_１０が制御することはできないようにしている。

　一方、図７に示すように、ＣＰＵ１_１０が故障した場合、ＳＷ１_５５は、ＳＷ１_５５とＣＰＵ１_１０とを結ぶ経路を遮断し、ＳＷ１_５５とＳＷ２_５６との間の経路へ切り替える。ＳＷ２_５６は、ＳＷ１_５５と接続する経路５２を閉塞していたが、経路５２を開放する。よって、ＣＰＵ２は、異常発生前のＰＣＩデバイス３_２２とＰＣＩデバイス４_２３とを結ぶ経路とは別に、ＣＰＵ１_１０が制御していたＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１も制御可能になる。このとき、ＰＣＩ　Ｅｘｐｒｅｓｓスイッチは、ＰＣＩ　Ｅｘｐｒｅｓｓのクロックと同期して経路を切り替える事により、ＣＰＵ１_１０に故障が発生した場合においても、シームレスな切り替えを可能とする。このように、本実施形態ではＰＣＩデバイスが利用可能なリソースが減少するものの、ＰＣＩデバイス１_２０～４_２３はＣＰＵ１_１０が故障してもそのまま継続稼動可能となっている。

　既存（従来）の方式では、ＣＰＵ１_１０が故障した場合、何ら仕組みを設けていないので、ＣＰＵ１_１０及びＣＰＵ１_１０に接続されているＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１は即時にシステムダウンに至る。ＣＰＵやＰＣＩデバイスに障害が発生した場合に当該障害が発生したデバイスは使用できないが、別のデバイスは継続動作可能とされるシステムが以前から存在する。このようなシステムにおいては、故障したＣＰＵやＰＣＩデバイスを使用するために、システムのシャットダウン後、デバイスの入れ替えを実施する必要がある。この仕組みを実現するには、システムのＣＰＵの故障を検知し、デバイスの切り離し（閉塞）処理をＢｌａｄｅなどのシステム全体で実装することになる（例えば、ＥＦＩやＢＭＣにより実装される）。

　これに対し、本発明の実施形態では、図６及び７に示されるように、ＳＷ１_５５とＳＷ２_５６とを結ぶ経路５２は正常時には閉塞しているが、ＳＷ１_は、ＣＰＵ１_１０の障害の発生とともに、ＰＣＩデバイス１_２０及びＰＣＩデバイス２_２１の経路５１を経路５２経由でＣＰＵ２_１１と接続する。このため、ＰＣＩデバイスが利用可能なリソースが減少するものの、ＰＣＩデバイス１_２０～ＰＣＩデバイス４_２３は、ＣＰＵ１_１０が故障してもそのまま継続稼動可能となる。

　＜まとめ＞
（i）本発明の実施形態では、計算機システムにおいて、各ＣＰＵには、通常時に制御される少なくとも１つのＰＣＩデバイスが専用デバイスとして接続されており、複数のＣＰＵのそれぞれは、専用デバイスを含む複数のＰＣＩデバイスの全ての割り込みベクタを仮想メモリ領域に設定している。なお、複数のＰＣＩデバイスのそれぞれについては同数の割り込みベクタを設定することが望ましい。このようにＰＣＩの経路を冗長化することにより、ＰＣＩデバイスに直接接続されているＣＰＵが故障しても、システムはそのまま継続動作が可能となる。また、ＣＰＵ（現用系ＣＰＵ）に異常が発生しても、別のＣＰＵ（待機系ＣＰＵ）が、あらかじめ設定されていたベクタ番号を用いて、異常の発生したＣＰＵに接続されているＰＣＩデバイスに、ＯＳ再起動を伴わずに直接アクセスできる。したがって、ＣＰＵに接続されたＰＣＩデバイスをシステムのシステムダウンを伴うことなく、保守交換を行うまでシステムとして動作を継続させる。そのため、ＰＣＩ　Ｅｘｐｒｅｓｓのバスを多重化し、ＣＰＵに異常が発生しても、他のＣＰＵにＰＣＩデバイスの処理をシームレスに移行させる事を可能にする。例えば、高い信頼性を要求するシステムにおいて、あるＣＰＵが故障した際に、システムを停止させることなく、継続動作が可能となることは非常に有益である。そのため、ＣＰＵの故障判明後、できる限り早い段階で保守交換は必要となるが、故障によるダウンタイムを回避でき、保守交換は計画的に実施することが可能である。従って、本発明は高い信頼性を要求するシステムに対して十分に実用的に適用可能である。

　また、計算機システムにシステムの状態を監視するＳＶＰを設けるようにしても良い。この場合、複数のＣＰＵのそれぞれは、割り込みベクタを設定する際にリソース不足を検知したときにはＳＶＰにリソース不足であることを通知する。このようにすることにより、ＳＶＰのログにはリソース不足であったことが記録され、システムを管理する上で有益な情報を取得することが可能となる。

　割り込みベクタを設定する際に、待機系のＣＰＵに対して十分な数のベクタ番号を割り当てるリソースがない場合には、ＰＣＩリンク速度を下げて（例えば、８×→４×）再度割り込みベクタを現用系ＣＰＵ及び待機系ＣＰＵに設定する処理を実行する。このようにすることにより、ＰＣＩデバイスの性能とシステム故障時における動作担保との両立を図りながら割り込みベクタを割り当てることが可能となる。

（ii）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

　また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

　さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

　最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがある。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

　さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

１０　ＣＰＵ１
１１　ＣＰＵ２
１２　ブリッジチップ
２０　ＰＣＩデバイス１
２１　ＰＣＩデバイス２
２２　ＰＣＩデバイス３
２３　ＰＣＩデバイス４
１００　メモリモジュール
１０１　メモリモジュール
１０２　バス
１０３　バス
１０４　ＳＶＰチップ

Claims

　複数のＰＣＩデバイスと、少なくともＯＳと前記複数のＰＣＩデバイスのドライバを実行する複数のＣＰＵと、当該複数のＰＣＩデバイスの割り込みベクタを設定するための仮想メモリ領域を提供する少なくとも１つのメモリと、ＣＰＵ間の経路を開閉するための複数のスイッチと、を有し、
　各ＣＰＵには、通常時に制御される少なくとも１つのＰＣＩデバイスが専用デバイスとして接続されており、
　前記複数のＣＰＵのそれぞれは、前記専用デバイスを含む前記複数のＰＣＩデバイスの全ての前記割り込みベクタを前記仮想メモリ領域に設定する、
ことを特徴とする計算機システム。
　請求項１において、
　前記複数のＣＰＵのそれぞれは、前記複数のＰＣＩデバイスのそれぞれについて同数の割り込みベクタを設定することを特徴とする計算機システム。
　請求項１において、
　前記複数のスイッチは、何れかのＣＰＵが使用不可となった場合に、当該使用不可となったＣＰＵに接続された前記専用デバイスの制御を当該使用不可となったＣＰＵとは別のＣＰＵに実行させるための経路を提供することを特徴とする計算機システム。
　請求項１において、
　さらに、計算機システムの状態を監視するＳＶＰを有し、
　前記複数のＣＰＵのそれぞれは、前記割り込みベクタを設定する際にリソース不足を検知したときには前記ＳＶＰにリソース不足であることを通知することを特徴とする計算機システム。
　複数のＰＣＩデバイスと、少なくともＯＳと前記複数のＰＣＩデバイスのドライバを実行する複数のＣＰＵと、当該複数のＰＣＩデバイスの割り込みベクタを設定するための仮想メモリ領域を提供する少なくとも１つのメモリと、を有し、
　前記複数のＣＰＵのそれぞれは、前記複数のＰＣＩデバイスと前記複数のＣＰＵとの対応関係と、前記複数のＰＣＩデバイスに割り当てられた割り込みベクタと、を管理し、
　前記複数のＣＰＵのそれぞれに対して、前記複数のＰＣＩデバイスの全ての前記割り込みベクタが前記メモリ内に設定されている、
ことを特徴とする計算機システム。
　計算機システムの制御方法であって、
　前記計算機システムは、複数のＰＣＩデバイスと、少なくともＯＳと前記複数のＰＣＩデバイスのドライバを実行する複数のＣＰＵと、当該複数のＰＣＩデバイスの割り込みベクタを設定するための仮想メモリ領域を提供する少なくとも１つのメモリと、を有し、
　前記制御方法は、
　　前記複数のＣＰＵのそれぞれが、前記ドライバを用いて前記ＰＣＩデバイスのリンク速度を決定するステップと、
　　前記複数のＣＰＵのそれぞれが、前記ドライバを用いて前記リンク速度に応じて前記複数のＰＣＩデバイスの割り込みベクタの割り当てを前記ＯＳに要求するステップと、
　　前記複数のＣＰＵのそれぞれが、前記ＯＳからの割り当て可能領域の通知を受け、前記ドライバを用いて、前記複数のＣＰＵのそれぞれに対して前記複数のＰＣＩデバイスの全ての前記割り込みベクタを前記仮想メモリ領域内に設定可能か否か判断するステップと、
　　前記複数のＣＰＵのそれぞれが、前記判断するステップで設定可能であると判断され場合に、前記複数のＣＰＵのそれぞれに対して前記複数のＰＣＩデバイスの全ての前記割り込みベクタを前記仮想メモリ領域内に設定するステップと、
を有することを特徴とする制御方法。
　請求項６において、
　前記複数のＣＰＵのそれぞれは、前記複数のＰＣＩデバイスのそれぞれについて同数の割り込みベクタを設定することを特徴とする制御方法。
　請求項７において、
　前記設定可能か否か判断するステップにおいて、前記複数のＣＰＵのそれぞれは、前記複数のＰＣＩデバイスのそれぞれについて同数の割り込みベクタを設定することが可能か否か判断し、
　前記同数の割り込みベクタの設定が可能ではないと判断された場合、前記複数のＣＰＵのそれぞれは、前記リンク速度を決定するステップを再度実行し、前回設定したリンク速度よりも低速のリンク速度を決定し、前記ＯＳに要求するステップ、前記設定可能か否か判断するステップ、及び前記設定するステップを繰り返し実行することを特徴とする制御方法。
　請求項６において、
　前記割り込みベクタ設定後は、前記複数のＣＰＵのそれぞれは、前記複数のＰＣＩデバイスと前記複数のＣＰＵとの対応関係と、前記複数のＰＣＩデバイスに割り当てられた割り込みベクタと、を管理することを特徴とする制御方法。
　請求項６において、
　前記複数のＰＣＩデバイスに関しては、ＣＰＵが使用不可となる状況以外の状況である通常時に制御を担当するＣＰＵが予め決められており、
　前記計算機システムは、前記複数のＣＰＵ間の経路を開閉するための複数のスイッチを有し、
　前記制御方法は、さらに、
　　前記複数のＣＰＵの何れかが使用不可となったとき、当該使用不可となったＣＰＵ以外の正常に稼働する少なくとも１つのＣＰＵが、前記使用不可となったＣＰＵによって制御されていたＰＣＩデバイスの制御を担当するように、前記複数のスイッチによる経路の開閉の制御するステップを有することを特徴とする制御方法。
　請求項６において、
　さらに、計算機システムの状態を監視するＳＶＰを有し、
　前記制御方法は、さらに、
　　前記複数のＣＰＵのそれぞれが、前記割り込みベクタを設定する際にリソース不足を検知したときには前記ＳＶＰにリソース不足であることを通知するステップを有することを特徴とする制御方法。