JPWO2008111137A1 - 情報処理装置及びドメイン動的再構成処理方法 - Google Patents

情報処理装置及びドメイン動的再構成処理方法 Download PDF

Info

Publication number
JPWO2008111137A1
JPWO2008111137A1 JP2009503780A JP2009503780A JPWO2008111137A1 JP WO2008111137 A1 JPWO2008111137 A1 JP WO2008111137A1 JP 2009503780 A JP2009503780 A JP 2009503780A JP 2009503780 A JP2009503780 A JP 2009503780A JP WO2008111137 A1 JPWO2008111137 A1 JP WO2008111137A1
Authority
JP
Japan
Prior art keywords
processing
dynamic reconfiguration
domain
domain dynamic
service processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009503780A
Other languages
English (en)
Inventor
靖彦 内田
靖彦 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008111137A1 publication Critical patent/JPWO2008111137A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

複数のシステムボードからなるドメイン100、101と一対のサービスプロセッサ2、3とを備える情報処理装置1において、ドメイン動的再構成処理を行う稼動系のサービスプロセッサ2がドメイン動的再構成処理を実行中に故障したときに、待機系のサービスプロセッサ3が稼動系に切り替わって、該実行中のドメイン動的再構成処理を引き継いで実行する。

Description

本発明は、情報処理装置及びドメイン動的再構成方法に関し、特に、ドメイン動的再構成処理中にサービスプロセッサが故障等した場合においても、該ドメイン動的再構成処理を継続実行する情報処理装置及びドメイン動的再構成処理方法に関する。
複数のオペレーティングシステムが動作可能である大規模コンピュータにおいては、オペレーティングシステムが稼動したまま、部品の分離・結合・交換を可能とすることが必要である。すなわち、どの部品が故障してもシステムが動作を継続できる必要がある。システムが稼動したまま部品交換等を行えるようにするためには、どのような状況でもドメイン動的再構成(DR:Dynamic Reconfiguration )処理を実行完了することができる必要がある。
まず、ドメイン動的再構成処理について以下に説明する。システム上にあるCPU、メモリ、I/O装置で構成された部品の集合をシステムボード(SB)と呼ぶ。1台以上のシステムボードの集合で、オペレーティングシステム(OS)が稼動できるものをドメインと呼ぶ。そして、ドメインでオペレーティングシステム(OS)が稼動している状態で、ドメインを構成するシステムボード(SB)を増減(SBのドメインへの組み込み及びSBのドメインからの切り離し)させて、ドメイン構成を再構成させることをドメイン動的再構成処理と呼ぶ。ドメイン動的再構成処理は、システムに内蔵されたサービスプロセッサで実行可能である。
なお、下記の特許文献1は、二重化構成によりシステム制御装置の停止で計算機システムの停止を引き起こさないようにしたシステム制御装置に関して記載している。
特開平8−272753号公報
図10は、ドメイン動的再構成処理を行う従来のシステム(情報処理装置)を示す図である。図10中において、情報処理装置10は、ドメイン動的再構成処理を行うサービスプロセッサ11と、ドメイン100、101とを備える。なお、SB200−3は、ドメイン100、101のいずれにも組み込まれていないSBである。ドメイン100は、SB200−1、SB200−2を備え、ドメイン101はSB200−4、SB200−5を備える。
ドメイン100、101の各々で、それぞれ一つのオペレーティングシステム(OS)が動作可能である。サービスプロセッサ11は、初期設定、ドメインの電源投入、電源切断を行う機能、故障した部品を交換する機能、OSが稼動中でもドメイン動的再構成処理を行う機能を備える。なお、サービスプロセッサ11が実行する各ドメインについての動的再構成処理は、SBを単位に行われる。
ユーザ端末30は、ユーザの操作入力に従って、サービスプロセッサ11と例えばLANインタフェース31で接続されたサービスプロセッサに対して、ドメイン動的再構成処理を指示する。例えば、サービスプロセッサは、ユーザ端末30からの指示を受けて、ドメイン100にSB200−3を組み込むことを内容とするドメイン動的再構成処理を行う。
ここで、例えば部品(CPU、メモリ、I/O)の交換をする際には、サービスプロセッサ11がドメイン動的再構成処理を行うことによって、一度該交換する部品からなるSBをドメイン構成から外し、OSに影響を与えない状態にしてから該部品の交換を行う。その結果、部品を交換する際のOSの稼動を維持することができる。
しかし、図10に示す従来のシステムは、サービスプロセッサが1台しかなく、ドメイン動的再構成処理を行うサービスプロセッサを冗長化していないため、サービスプロセッサ11が故障したり、異常が発生したりすると、ドメイン動的再構成処理及び部品交換作業を一切行えなくなる。従って、一旦、OSも含め、システム全体の電源を落としてから、サービスプロセッサ11を復旧する必要があるが、該サービスプロセッサ11の復旧後は、故障前に該サービスプロセッサ11が実行中であったドメイン動的再構成処理を継続できないという問題がある。
例えば、図10に示すように、SB200−3をドメイン100に組み込むことを内容とするドメイン動的再構成処理の途中でサービスプロセッサ11に故障が発生すると、該サービスプロセッサ11の復旧後も該ドメイン動的再構成処理を継続することができない。
本発明は、ドメイン動的再構成処理中にサービスプロセッサが故障等した場合においても、該メイン動的再構成処理を継続実行する情報処理装置の提供を目的とする。
また、本発明は、ドメイン動的再構成処理中にサービスプロセッサが故障等した場合においても、該メイン動的再構成処理を継続実行するドメイン動的再構成処理方法の提供を目的とする。
本発明の情報処理装置は、複数のシステムボードからなるドメインと一対のサービスプロセッサとを備える情報処理装置であって、前記一対のサービスプロセッサの一方が前記ドメインについてのドメイン動的再構成処理を実行中に故障したときに、該一対のサービスプロセッサの他方が該実行中のドメイン動的再構成処理を引き継いで実行する。
好ましくは、本発明の情報処理装置において、前記一対のサービスプロセッサの各々が、ドメイン動的再構成処理の処理状況が記憶される記憶手段と、前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照しつつ、ドメイン動的再構成処理を実行するドメイン動的再構成処理実行手段と、ドメイン動的再構成処理の処理状況を、他方のサービスプロセッサが実行するドメイン動的再構成処理の処理状況と同期させて前記記憶手段に記憶する処理状況同期処理手段とを備える。
好ましくは、本発明の情報処理装置において、前記一対のサービスプロセッサの一方が稼動状態である稼動系であり、他方が前記稼動系が稼動状態である間は待機状態である待機系であり、前記一対のサービスプロセッサの各々が、自サービスプロセッサが待機系であって、稼動系がドメイン動的再構成処理を実行中に故障したときに、自サービスプロセッサを待機系から稼動系に切り替える稼動系・待機系切替手段を備え、該稼動系に切り替わったサービスプロセッサが備える前記ドメイン動的再構成処理実行手段が、前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照して、前記故障した稼動系が実行中であったドメイン動的再構成処理を引き継いで実行する。
好ましくは、本発明の情報処理装置において、前記処理状況同期処理手段が、ドメイン動的再構成処理の処理状況を構成する処理が開始又は完了する毎に、他方のサービスプロセッサが実行するドメイン動的再構成処理の処理状況と同期させて前記記憶手段に記憶する。
好ましくは、本発明の情報処理装置において、前記ドメイン動的再構成処理が、前記ドメインから前記複数のシステムボードのいずれかを切り離す処理又は前記ドメインに前記複数のシステムボードとは異なる他のシステムボードを組み込む処理である。
また、本発明のドメイン動的再構成処理方法は、複数のシステムボードからなるドメインと一対のサービスプロセッサとを備える情報処理装置におけるドメイン動的再構成処理方法であって、前記一対のサービスプロセッサの一方が前記ドメインについてのドメイン動的再構成処理を実行中に故障したときに、該一対のサービスプロセッサの他方が該実行中のドメイン動的再構成処理を引き継いで実行する。
好ましくは、本発明のドメイン動的再構成処理方法において、前記一対のサービスプロセッサの一方が稼動状態である稼動系であり、他方が前記稼動系が稼動状態である間は待機状態である待機系であり、前記稼動系が、自サービスプロセッサが実行するドメイン動的再構成処理の処理状況を記憶手段に記憶し、前記待機系が、前記稼動系によって記憶されたドメイン動的再構成処理の処理状況を、前記稼動系が備える記憶手段内に記憶されたドメイン動的再構成処理の処理状況が更新される度に自サービスプロセッサ内の記憶手段に記憶する。
好ましくは、本発明のドメイン動的再構成処理方法において、前記待機系が、前記稼動系がドメイン動的再構成処理を実行中に故障したときに、自サービスプロセッサを待機系から稼動系に切り替え、該稼動系に切り替わったサービスプロセッサが、自サービスプロセッサ内の前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照して、前記故障した稼動系が実行中であったドメイン動的再構成処理を引き継いで実行する。
好ましくは、本発明のドメイン動的再構成処理方法において、前記稼動系が、自サービスプロセッサが実行するドメイン動的再構成処理の処理状況を、該ドメイン動的再構成処理を構成する処理が開始又は完了する毎に自サービスプロセッサが備える記憶手段に記憶する。
好ましくは、本発明のドメイン動的再構成処理方法において、前記ドメイン動的再構成処理が、前記ドメインから前記複数のシステムボードのいずれかを切り離す処理又は前記ドメインに前記複数のシステムボードとは異なる他のシステムボードを組み込む処理である。
本発明の情報処理装置及びドメイン動的再構成処理方法によれば、情報処理装置が備える一対のサービスプロセッサのうちの一方がドメイン動的再構成処理を実行中に故障したときに、他方が該実行中のドメイン動的再構成処理を引き継いで実行することができる。従って、本発明によれば、システムボードの交換、故障等したサービスプロセッサの交換をOSが稼動した状態で実施することが可能となる。その結果、システム全体の運用時間を大幅に向上することが可能となる。
本発明の原理説明図である。 本発明のシステム構成の一例を示す図である。 本発明の情報処理装置が備えるサービスプロセッサの構成の一例を示す図である。 サービスプロセッサの冗長化構成を説明する図である。 本発明の情報処理装置における、稼動系と待機系との切替処理を説明する図である。 ドメイン動的再構成処理フローの例を示す図である。 ドメイン動的再構成処理の処理状況の登録処理フローの一例を示す図である。 処理状況DBを同期させる処理を示すフローチャートである。 稼動系と待機系との切替処理フローの一例を示す図である。 ドメイン動的再構成処理を行う従来のシステムを示す図である。
符号の説明
1、10 情報処理装置
2、3、11 サービスプロセッサ
30 ユーザ端末
31、301 LANインタフェース
100、101 ドメイン
200−1、200−2、200−3、200−4、200−5 SB
20 処理状況DB
21 ドメイン動的再構成処理受付部
22 ドメイン動的再構成処理実行部
23 処理状況登録部
24 処理状況送受信部
25 稼動系・待機系切替部
300 メンテナンスバス
図1は、本発明の原理説明図である。図1に示すように、本発明の情報処理装置1は、サービスプロセッサ2と、該サービスプロセッサ2と同様の構成を有するサービスプロセッサ3とを備える。図1中、100はドメインである。サービスプロセッサ3は、サービスプロセッサ2が稼動状態である間は待機状態である。本発明の情報処理装置1は、このように、一対のサービスプロセッサ2、3を備えてサービスプロセッサを冗長化することによって、一台のサービスプロセッサが故障しても、待機している別のサービスプロセッサがドメイン動的再構成処理を引き継ぐことができるようにする。
また、図1に示すように、本発明の情報処理装置1においては、一対のサービスプロセッサ2、3で、ドメイン動的再構成処理の処理状況とドメインの構成情報とを共有化する。ドメインの構成情報とは、例えばどのSBがどのドメインに組み込まれているかを示す情報である。また、ドメイン動的再構成処理の処理状況とドメインの構成情報との共有化とは、サービスプロセッサ2、3がそれぞれ備える処理状況DB20に登録されているドメイン動的再構成処理の処理状況とドメインの構成情報が同期していること(同じ内容であること)をいう。これによって、ドメイン動的再構成処理の引き継ぎに必要な、ドメイン動的再構成処理の処理状況の登録や読み出しが可能となる。
また、図1に示す本発明の情報処理装置1においては、ドメイン動的再構成処理を複数の処理(例えば、A処理〜C処理)に分けて実行し、各処理の開始、完了が判断できるように、各処理毎に処理状況を処理状況DB20に登録(記憶)する。例えば、図1中に示すように、サービスプロセッサ2は、該ドメイン動的再構成処理を構成するA処理の実行の開始・完了を処理状況DB20に登録し、該A処理の次の処理であるB処理の開始を処理状況DB20に登録する。
ドメイン動的再構成処理を構成する各処理毎に処理状況を処理状況DB20に登録することによって、サービスプロセッサ2が実行しているドメイン動的再構成処理が中断されても、待機しているサービスプロセッサ3が該処理状況DB20を参照することによって、ドメイン動的再構成処理の処理進捗状況を把握し、中断された処理を再開することができる。
例えば、図1に示すように、サービスプロセッサ2がB処理を開始した後に故障し、該B処理が中断された場合、待機しているサービスプロセッサ3は、以下のようにしてドメイン動的再構成処理の引き継ぎを行う。すなわち、サービスプロセッサ3は、処理状況DB20を読み出して、B処理の開始が登録されていることを認識し、該B処理を継続実行する。サービスプロセッサ3は、B処理の実行を完了すると、該B処理の完了を処理状況DB20に登録する。次に、サービスプロセッサ3は、C処理を開始し、該C処理の開始及び完了を処理状況DB20に登録して、ドメイン動的再構成処理を完了する。
本発明の情報処理装置1によれば、1台のサービスプロセッサが故障しても、別のサービスプロセッサがドメイン動的再構成処理を引き継いで実行し、該ドメイン動的再構成処理を完了することができる。
図2は、本発明のシステム構成の一例を示す図である。図2に示すように、本発明の情報処理装置1は、ドメイン動的再構成処理を行う一対のサービスプロセッサ2、3と、ドメイン100、101とを備える。なお、SB200−3は、ドメイン100、101のいずれにも組み込まれていないSBである。ドメイン100は、SB200−1、SB200−2を備え、ドメイン101はSB200−4、SB200−5を備える。
ドメイン100、101の各々で、それぞれ一つのオペレーティングシステム(OS)が動作可能である。サービスプロセッサ2、3は、初期設定、ドメインの電源投入、電源切断を行う機能、故障した部品を交換する機能、OSが稼動中でもドメイン動的再構成処理を行う機能を持っている。なお、サービスプロセッサ2、3が実行する各ドメインについての動的再構成処理は、SBを単位に行われる。
サービスプロセッサ2、3は、自装置を稼動状態又は待機状態に切り替える機能を有している。稼動状態にあるサービスプロセッサを稼動系、待機状態にあるサービスプロセッサを待機系とすると、稼動系が稼動状態である間は、待機系は待機状態であって、ユーザ端末30からの指示を受け付けない。また、稼動系が故障した場合、待機系が稼動系に切り替って、故障した稼動系が実行していた処理を引き継ぎ、故障した稼動系は待機系に切り替わる。
ユーザ端末30は、ユーザの操作入力に従って、サービスプロセッサ2、3とLANインタフェース31で接続されたサービスプロセッサに対してドメイン動的再構成処理を指示する。例えば、サービスプロセッサは、ユーザ端末30からの指示を受けて、ドメイン100にSB200−3を組み込むことを内容とするドメイン動的再構成処理を行う。
サービスプロセッサ2、3と各SBとは、メンテナンスバス(Maintenance-bus )300で接続されている。サービスプロセッサ2、3は、該メンテナンスバス300を通じて、各SBを制御し、また、情報処理装置1が備える図示を省略するOSに対して指示する。上記各SBの制御は、例えば、各SBの電源投入や電源切断等を示し、上記OSに対する指示は、例えば、あるSBのドメインへの組み込みや切り離しをOSに対して指示することをいう。
また、サービスプロセッサ2、3は、LANインタフェース301で接続されており、相互に通信することが可能である。例えば、ドメイン動的再構成処理を実行中のサービスプロセッサ(稼動系)は、LANインタフェース301を通じて、該ドメイン動的再構成処理の処理状況を、待機しているサービスプロセッサ(待機系)に通信する。また、待機系は、該LANインタフェース301を通じて稼動系の稼動状態を監視し、稼動系が故障した場合には、自サービスプロセッサを稼動系に切り替えるとともに、該LANインタフェース301を通じて、該稼動系に対して待機系に切り替わるよう指示する。
また、サービスプロセッサ2、3は、それぞれ、ドメイン動的再構成処理を構成する処理毎に、該ドメイン動的再構成処理の処理状況を記憶する処理状況DB20を備える。
図3は、本発明の情報処理装置が備えるサービスプロセッサの構成の一例を示す図である。この例では、サービスプロセッサ2を例にとって説明する。サービスプロセッサ3の構成は、サービスプロセッサ2の構成と同様であるので、説明を省略する。サービスプロセッサ2は、処理状況DB20、ドメイン動的再構成処理受付部21、ドメイン動的再構成処理実行部22、処理状況登録部23、処理状況送受信部24、稼動系・待機系切替部25を備える。処理状況DB20には、ドメイン動的再構成処理の処理状況が登録される。ドメイン動的再構成処理受付部21は、ユーザ端末30から要求されたドメイン動的再構成処理を受け付ける。
ドメイン動的再構成処理実行部22は、後述する処理状況DB20に記憶されたドメイン動的再構成処理の処理状況を参照しつつ、ドメイン動的再構成処理を実行する。ドメイン動的再構成処理実行部22は、後述する稼動系・待機系切替部25から、故障した稼動系が実行していたドメイン動的再構成処理を引き継いで実行するよう指示を受けると、処理状況DB20に登録されている処理状況を参照して、該故障した稼動系が実行していたドメイン動的再構成処理を引き継いで実行する。
処理状況登録部23は、ドメイン動的再構成処理実行部22によるドメイン動的再構成処理の処理状況を処理状況DB20に登録(記憶)する。また、処理状況登録部23は、後述する処理状況送受信部24が情報処理装置1が備える他のサービスプロセッサ(前述した図2に示す例では、サービスプロセッサ3)から受信した、該他のサービスプロセッサが実行したドメイン動的再構成処理の処理状況を処理状況DB20に登録する。
処理状況送受信部24は、ドメイン動的再構成処理の処理状況を情報処理装置1が備える他のサービスプロセッサに送信して、該他のサービスプロセッサが備える処理状況DB20内に登録させる。また、処理状況送受信部24は、該他のサービスプロセッサから送信されたドメイン動的再構成処理の処理状況を受信する。受信された処理状況は、前述した処理状況登録部23によって処理状況DB20に登録される。これによって、自サービスプロセッサと他のサービスプロセッサとがそれぞれ備える処理状況DB20に登録されている情報が同期する。
すなわち、処理状況登録部23及び処理状況送受信部24は、ドメイン動的再構成処理の処理状況を、他方のサービスプロセッサが実行するドメイン動的再構成処理の処理状況と同期させて前記記憶手段に登録する処理状況同期処理手段である。
稼動系・待機系切替部25は、サービスプロセッサ2及び他のサービスプロセッサを稼動系又は待機系に切り替える。具体的には、サービスプロセッサ2が稼動系であるときに、該サービスプロセッサ2が故障等すると、稼動系・待機系切替部25は、自サービスプロセッサ(サービスプロセッサ2)を稼動系に切り替える。また、自サービスプロセッサが待機系である場合、稼動系・待機系切替部25は、前述した図2に示すLANインタフェース301を介して稼動系の稼動状態を監視し、稼動系が故障した場合には、自サービスプロセッサを稼動系に切り替えて、ドメイン動的再構成処理実行部22に対して上記故障した稼動系が実行していたドメイン動的再構成処理を引き継いで実行するよう指示する。
図4は、サービスプロセッサの冗長化構成を説明する図である。図4に示すように、情報処理装置1は一対のサービスプロセッサ2、3を備えることによって、サービスプロセッサを冗長化している。各サービスプロセッサは、自サービスプロセッサが稼動系である場合、ユーザ装置30からのドメイン動的再構成処理の要求を受け付け、メンテナンスバス300を通じて、SB200−1(200−2)、OSに対して制御指示や通信を行う。また、LANインタフェース301を通じてサービスプロセッサ2、3が備える処理状況DB20が同期する。なお、情報処理装置1においては、メンテナンスバス300も冗長化されている。
図5は、本発明の情報処理装置における、稼動系と待機系との切替処理を説明する図である。図5(A)に示すように、稼動系(サービスプロセッサ2)がユーザ端末30からドメイン動的再構成処理の要求を受け付けて該ドメイン動的再構成処理を行っている間は、待機系(サービスプロセッサ3)はユーザ端末30からの処理要求を許否する。また、稼動系が待機系に対して処理状況を送信して、該待機系の処理状況DB20に該処理状況を登録させることにより、稼動系と待機系との間で処理状況DB20の同期が図られる。
ここで、図5(A)に示す稼動系に故障が発生すると、図5(B)に示すように、故障が発生した稼動系は待機系に切り替わる。該切り替わった待機系は、ユーザ端末30からの処理要求を許否する。一方、図5(B)に示すように、図5(A)では待機系であったサービスプロセッサが該故障した稼動系に代わって稼動系となる。該稼動系となったサービスプロセッサは、自装置内の処理状況DB20を参照して、上記故障した稼動系が実行していたドメイン動的再構成処理を引き継いで実行する。また、該稼動系となったサービスプロセッサは、ユーザ端末30から新たなドメイン動的再構成処理の要求を受け付けて実行する。図5(A)を参照して説明したのと同様に、稼動系と待機系との間で処理状況DB20の同期が図られる。
図6は、ドメイン動的再構成処理フローの例を示す図である。ドメイン動的再構成処理には、ドメインにSBを組み込む処理と、SBをドメインから切り離す処理という2つの種類の処理がある。
図6(A)は、ドメインにSBを組み込む処理を示すフローチャートである。まず、サービスプロセッサ2のドメイン動的再構成処理実行部22は、ユーザ端末30からドメインと該ドメインに組み込むSBの指定を受けると、処理状況DB20に登録されたドメインの構成情報から該指定されたSBの情報を読み出す(ステップS1)。ステップS1においては、ドメイン動的再構成処理実行部22は、さらに、ユーザ端末から指定された情報をドメインの構成情報として処理状況DB20に登録する。
次に、ドメイン動的再構成処理実行部22は、ハードウェア診断を実施する(ステップS2)。具体的には、ドメイン動的再構成処理実行部22は、組み込み対象となるSB内の部品(CPU、メモリ、I/O)に故障がないかを診断する。
ドメイン動的再構成処理実行部22は、初期化処理を行う(ステップS3)。初期化処理とは、SBをドメインに組み込むためのハードウェア設定処理である。そして、OSの組み込みを行う(ステップS3)。具体的には、ドメイン動的再構成処理実行部22は、OSにSBを認識させる。
図6(B)は、SBをドメインから切り離す処理を示すフローチャートである。まず、ドメイン動的再構成処理実行部22は、OSからSBを切り離し(ステップS11)、該SBをドメイン構成から削除する。
次に、ドメイン動的再構成処理実行部22は、切り離されたSBの電源を切断し、停止させる(ステップS12)。そして、ドメイン動的再構成処理実行部22は、切り離されたSBの情報を処理状況DB20に反映させて、処理状況DB20内のドメインの構成情報を変更する(ステップS13)。
図7は、ドメイン動的再構成処理の処理状況の登録処理フローの一例を示す図である。なお、図7中の処理Aは、ドメイン動的再構成処理を構成する細分化された処理の一つである。まず、処理状況登録部23が、処理Aを開始する前に、処理Aの開始を示す情報を処理状況DB20に登録する(ステップS21)。次に、処理状況送受信部24が、待機系に対して処理状況DB20に登録された情報を送信して、該待機系の処理状況DB20に反映(登録)させることによって、自サービスプロセッサと待機系との間で処理状況DB20を同期させる(ステップS22)。
次に、ドメイン動的再構成処理実行部22が、処理Aを実行する(ステップS23)。そして、処理状況登録部23が、処理Aの実行完了後、処理Aの実行完了を示す情報を処理状況DB20に登録する(ステップS24)。そして、処理状況送受信部24が、待機系に対して処理状況DB20に登録された情報を送信して、該待機系の処理状況DB20に反映(登録)させることによって、自サービスプロセッサと待機系との間で処理状況DB20を同期させる(ステップS25)。
図8は、図7のステップS22、S25を参照して説明した処理状況DBを同期させる処理を示すフローチャートである。図8(A)は、稼動系の動作処理を示し、図8(B)は待機系の動作処理を示す。稼動系のサービスプロセッサがドメイン動的再構成処理を実行する際には、図8(A)に示すように、稼動系の処理状況登録部23は、処理状況DB20をロックして排他制御を行い(ステップS31)、処理状況DB20からドメイン動的再構成処理の処理状況を読み出し(ステップS32)、読み出した処理状況を図示を省略するバッファにコピーする(ステップS33)。
次に、処理状況登録部23は、バッファデータを更新する(ステップS34)。例えば、処理状況登録部23は、現在の処理状況(例えば、処理Aの開始又は完了)で上記読み出されてバッファにコピーされた処理状況を更新する。そして、処理状況登録部23は、処理状況DB20内の処理状況を上記更新されたバッファデータで更新する(ステップS35)。処理状況送受信部24は、待機系に処理状況DB20に登録されている情報を送信する(ステップS36)。
図8(B)に示すように、待機系は、稼動系から送信された処理状況DB20に登録されている情報を受信し(ステップS41)、図示を省略するバッファにコピーする(ステップS42)。そして、待機系の処理状況送受信部24が、稼動系に対して処理状況DB20の更新完了を通知し(ステップS43)、稼動系の処理状況登録部23が、上記ステップS42においてバッファにコピーされた情報で自サービスプロセッサ内の処理状況DB20を更新する(ステップS44)。
一方、上記ステップS43における待機系の処理状況送受信部24からの通知を、稼動系が受信すると(ステップS37)、稼動系の処理状況登録部23が、処理状況DB20をアンロックして(ステップS38)、処理を終了する。
図9は、稼動系と待機系との切替処理フローの一例を示す図である。図9(A)は稼動系の動作処理を示し、図9(B)は待機系の動作処理を示す。稼動系がドメイン動的再構成処理を実行している間(ステップS51)、待機系は定期的に稼動系の稼動状態を監視する(ステップS52)。稼動系が故障すると(ステップS53)、待機系が稼動系の故障を検知して(ステップS54)、稼動系に対してリブート要求を行う(ステップS55)。リブート要求は、稼動系に対して再立ち上げを行って待機系に切り替わるよう指示する要求である。
稼動系は、待機系からリブート要求を受け(ステップS56)、リブート処理を行う(ステップS57)。なお、稼動系は、リブート処理を行うことができない場合は、自サービスプロセッサの稼動を停止させる。上記ステップS57の処理の後、稼動系は待機系として立ち上がる(ステップS58)。
待機系は、上記ステップS55において稼動系に対してリブート要求を行った後、自サービスプロセッサを稼動系に切り替えることによって稼動系に昇格する(ステップS59)。そして、自サービスプロセッサの処理状況DB20に登録された情報を読み出して、上記故障した稼動系が実行中であったドメイン動的再構成処理を引き継いで実行する(ステップS61)。
上記ステップS61においては、昇格した稼動系は、処理状況DB20内に処理状況が登録されていない場合には、処理を引き継がない。また、例えば、処理状況DB20に処理Aの開始が登録されていた場合には、昇格した稼動系は、処理Aの開始前か、実行途中に中断されたと判断して、処理Aを最初から実行し直す。
また、例えば、処理状況DB20に処理Aの完了が登録されていた場合には、昇格した稼動系は、処理Aの実行は完了し、該処理Aの次の処理に移行する前に中断されたと判断し、処理Aの次の処理を実行する。
本発明の情報処理装置及びドメイン動的再構成処理方法によれば、情報処理装置が備える一対のサービスプロセッサのうちの一方がドメイン動的再構成処理を実行中に故障したときに、他方が該実行中のドメイン動的再構成処理を引き継いで実行することができる。従って、本発明によれば、システムボードの交換、故障等したサービスプロセッサの交換をOSが稼動した状態で実施することが可能となる。その結果、システム全体の運用時間を大幅に向上することが可能となる。

Claims (10)

  1. 複数のシステムボードからなるドメインと一対のサービスプロセッサとを備える情報処理装置であって、
    前記一対のサービスプロセッサの一方が前記ドメインについてのドメイン動的再構成処理を実行中に故障したときに、該一対のサービスプロセッサの他方が該実行中のドメイン動的再構成処理を引き継いで実行する
    ことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記一対のサービスプロセッサの各々が、
    ドメイン動的再構成処理の処理状況が記憶される記憶手段と、
    前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照しつつ、ドメイン動的再構成処理を実行するドメイン動的再構成処理実行手段と、
    ドメイン動的再構成処理の処理状況を、他方のサービスプロセッサが実行するドメイン動的再構成処理の処理状況と同期させて前記記憶手段に記憶する処理状況同期処理手段とを備える
    ことを特徴とする情報処理装置。
  3. 請求項2に記載の情報処理装置において、
    前記一対のサービスプロセッサの一方が稼動状態である稼動系であり、他方が前記稼動系が稼動状態である間は待機状態である待機系であり、
    前記一対のサービスプロセッサの各々が、
    自サービスプロセッサが待機系であって、稼動系がドメイン動的再構成処理を実行中に故障したときに、自サービスプロセッサを待機系から稼動系に切り替える稼動系・待機系切替手段を備え、
    該稼動系に切り替わったサービスプロセッサが備える前記ドメイン動的再構成処理実行手段が、前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照して、前記故障した稼動系が実行中であったドメイン動的再構成処理を引き継いで実行する
    ことを特徴とする情報処理装置。
  4. 請求項2に記載の情報処理装置において、
    前記処理状況同期処理手段が、ドメイン動的再構成処理の処理状況を構成する処理が開始又は完了する毎に、他方のサービスプロセッサが実行するドメイン動的再構成処理の処理状況と同期させて前記記憶手段に記憶する
    ことを特徴とする情報処理装置。
  5. 請求項1に記載の情報処理装置において、
    前記ドメイン動的再構成処理が、前記ドメインから前記複数のシステムボードのいずれかを切り離す処理又は前記ドメインに前記複数のシステムボードとは異なる他のシステムボードを組み込む処理である
    ことを特徴とする情報処理装置。
  6. 複数のシステムボードからなるドメインと一対のサービスプロセッサとを備える情報処理装置におけるドメイン動的再構成処理方法であって、
    前記一対のサービスプロセッサの一方が前記ドメインについてのドメイン動的再構成処理を実行中に故障したときに、該一対のサービスプロセッサの他方が該実行中のドメイン動的再構成処理を引き継いで実行する
    ことを特徴とするドメイン動的再構成処理方法。
  7. 請求項6に記載のドメイン動的再構成処理方法において、
    前記一対のサービスプロセッサの一方が稼動状態である稼動系であり、他方が前記稼動系が稼動状態である間は待機状態である待機系であり、
    前記稼動系が、自サービスプロセッサが実行するドメイン動的再構成処理の処理状況を記憶手段に記憶し、
    前記待機系が、前記稼動系によって記憶されたドメイン動的再構成処理の処理状況を、前記稼動系が備える記憶手段内に記憶されたドメイン動的再構成処理の処理状況が更新される度に自サービスプロセッサ内の記憶手段に記憶する
    ことを特徴とするドメイン動的再構成処理方法。
  8. 請求項7に記載のドメイン動的再構成処理方法において、
    前記待機系が、前記稼動系がドメイン動的再構成処理を実行中に故障したときに、自サービスプロセッサを待機系から稼動系に切り替え、
    該稼動系に切り替わったサービスプロセッサが、自サービスプロセッサ内の前記記憶手段に記憶されたドメイン動的再構成処理の処理状況を参照して、前記故障した稼動系が実行中であったドメイン動的再構成処理を引き継いで実行する
    ことを特徴とするドメイン動的再構成処理方法。
  9. 請求項7に記載のドメイン動的再構成処理方法において、
    前記稼動系が、自サービスプロセッサが実行するドメイン動的再構成処理の処理状況を、該ドメイン動的再構成処理を構成する処理が開始又は完了する毎に自サービスプロセッサが備える記憶手段に記憶する
    ことを特徴とするドメイン動的再構成処理方法。
  10. 請求項5に記載のドメイン動的再構成処理方法において、
    前記ドメイン動的再構成処理が、前記ドメインから前記複数のシステムボードのいずれかを切り離す処理又は前記ドメインに前記複数のシステムボードとは異なる他のシステムボードを組み込む処理である
    ことを特徴とするドメイン動的再構成処理方法。
JP2009503780A 2007-03-09 2007-03-09 情報処理装置及びドメイン動的再構成処理方法 Withdrawn JPWO2008111137A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/054648 WO2008111137A1 (ja) 2007-03-09 2007-03-09 情報処理装置及びドメイン動的再構成処理方法

Publications (1)

Publication Number Publication Date
JPWO2008111137A1 true JPWO2008111137A1 (ja) 2010-06-24

Family

ID=39759088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009503780A Withdrawn JPWO2008111137A1 (ja) 2007-03-09 2007-03-09 情報処理装置及びドメイン動的再構成処理方法

Country Status (4)

Country Link
US (1) US20100011241A1 (ja)
EP (1) EP2136296A4 (ja)
JP (1) JPWO2008111137A1 (ja)
WO (1) WO2008111137A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10069688B2 (en) 2016-03-07 2018-09-04 International Business Machines Corporation Dynamically assigning, by functional domain, separate pairs of servers to primary and backup service processor modes within a grouping of servers

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683657A (ja) * 1992-08-27 1994-03-25 Hitachi Ltd サービスプロセッサの切り換え方式
JP3266956B2 (ja) * 1993-01-06 2002-03-18 富士通株式会社 システム記憶装置
JP3611894B2 (ja) 1995-03-30 2005-01-19 富士通株式会社 二重化構成をもつシステム制御装置
US6151684A (en) * 1997-03-28 2000-11-21 Tandem Computers Incorporated High availability access to input/output devices in a distributed system
JP2001134546A (ja) * 1999-11-05 2001-05-18 Nec Corp マルチプロセッサシステムの障害処理方法
US6912569B1 (en) * 2001-04-30 2005-06-28 Sun Microsystems, Inc. Method and apparatus for migration of managed application state for a Java based application
US6898728B2 (en) * 2001-09-25 2005-05-24 Sun Microsystems, Inc. System domain targeted, configurable interconnection
US6934880B2 (en) * 2001-11-21 2005-08-23 Exanet, Inc. Functional fail-over apparatus and method of operation thereof
US7024551B2 (en) * 2003-01-07 2006-04-04 Sun Microsystems, Inc. Method and apparatus for updating boot code using a system controller
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
US7573811B2 (en) * 2005-03-28 2009-08-11 Alcatel-Lucent Usa Inc. Network transparent OSPF-TE failover
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US7523344B2 (en) * 2006-05-08 2009-04-21 Sun Microsystems, Inc. Method and apparatus for facilitating process migration
US20080126854A1 (en) * 2006-09-27 2008-05-29 Anderson Gary D Redundant service processor failover protocol
JP6064570B2 (ja) * 2012-12-10 2017-01-25 Jsr株式会社 表示素子用感放射線性樹脂組成物、硬化膜、硬化膜の製造方法、半導体素子および表示素子

Also Published As

Publication number Publication date
US20100011241A1 (en) 2010-01-14
EP2136296A1 (en) 2009-12-23
WO2008111137A1 (ja) 2008-09-18
EP2136296A4 (en) 2010-09-22

Similar Documents

Publication Publication Date Title
CN101594383B (zh) 一种双控制器存储系统的服务和控制器状态监控方法
CN110874261B (zh) 可用性系统、方法和存储有程序的存储介质
WO2014067330A1 (zh) 一种分布式通信设备软件升级方法及系统
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
JP7099272B2 (ja) 情報処理装置、ネットワークシステム及びチーミングプログラム
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
WO2010100757A1 (ja) 演算処理システム、再同期方法、およびファームプログラム
JP5445572B2 (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP2004355446A (ja) クラスタシステム及びその制御方法
JP2010003022A (ja) ファイル更新方法
JP5293141B2 (ja) 冗長システム
JPWO2008111137A1 (ja) 情報処理装置及びドメイン動的再構成処理方法
US8499130B2 (en) Information processing apparatus, information processing method, and recording medium that records history information control program
JPH08185330A (ja) 冗長コンピュータシステム切り替え方法
JP2002136000A (ja) 無停電電源システム
JP5299283B2 (ja) 情報処理装置及び情報処理システム並びにそれらの制御方法
JP2020205121A (ja) フォールトトレラントシステム、サーバ、それらの運用方法、及びプログラム
JP2006268278A (ja) 遠隔保守コンピュータ保守システム
JP2000066913A (ja) 任意プロセッサのプログラム・データ無中断更新システム
JP2010152742A (ja) 通信制御装置
WO2011032375A1 (zh) 一种自适应数据备份系统及其方法
KR101401006B1 (ko) 고가용성 시스템에서 소프트웨어 업데이트를 수행하기 위한 방법 및 장치

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110218