WO2007122666A1 - フォルトトレラントシステム - Google Patents

フォルトトレラントシステム Download PDF

Info

Publication number
WO2007122666A1
WO2007122666A1 PCT/JP2006/306024 JP2006306024W WO2007122666A1 WO 2007122666 A1 WO2007122666 A1 WO 2007122666A1 JP 2006306024 W JP2006306024 W JP 2006306024W WO 2007122666 A1 WO2007122666 A1 WO 2007122666A1
Authority
WO
WIPO (PCT)
Prior art keywords
computer
recovery
recovery data
storage device
operating system
Prior art date
Application number
PCT/JP2006/306024
Other languages
English (en)
French (fr)
Inventor
Hiroaki Otsuka
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2006/306024 priority Critical patent/WO2007122666A1/ja
Publication of WO2007122666A1 publication Critical patent/WO2007122666A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

 フォルトトレラントシステムを構成する計算機相互間で、一方の計算機の外部記憶装置を復旧させるためのバックアップ機能及びバックアップデータを他方の計算機に保持させる。これにより、一方の計算機に搭載される外部記憶装置の異常が発生した場合、この外部記憶装置の修理後、この計算機の最初の起動時に他方の計算機から自動的にバックアップデータを取り出し、その外部記憶装置の内容を復元することはできる。

Description

技術分野
[0001] 本発明は、複数の計算機が結合された、ソフトウェアによるフォルトトレラントシステ ムの自動復旧に関する。
背景技術
[0002] 近年の情報処理サービス ·システムは、高級化、高機能化が進んでいる。そのような システムの高級化、高機能化に伴って、信頼度の面力 システムバスの 2重化、メモリ の 2重化、システムの 2重化等により障害への耐性を向上させるフォルトトレラントシス テムの構築が重要となってきた (例えば、特許文献 1、特許文献 2、特許文献 3。 ) 0
[0003] 現在、ソフトウェアによる複数の計算機を結合したフォルトトレラントシステムでは、各 計算機の外部記憶装置に保存されているソフトウェアを、各計算機のメモリにロードし て実行することで、フォルトトレラントシステム環境の実現を行って 、る。
[0004] 図 1は、従来におけるソフトウェアにより実現されるフォルトトレラントシステムにおけ る監視機能の実現例を示す。計算機 1の構成要素には添え字" a"を付与し、計算機 2の構成要素には添え字" b"を付与して表す。
[0005] 同図において、フォルトトレラントシステム 7は、計算機 計算機 2から構成されてい る。そして、ソフトウェアにより仮想的にフォルトトレラントシステム 10が構築されている (図中の破線で囲まれた部分)。複数の計算機の集合体とみた場合には、フォルトト レラントシステム 7として表し、これらの計算機によりソフトウェアにより仮想的に実現さ れるフォルトトレラントシステムを仮想フォルトトレラントシステム 10として表す。
[0006] 計算機 1, 2はそれぞれ、 CPU (中央演算装置) 3— 1, 3— 2、メモリ 4—1, 4— 2、 HDD (ノヽードディスクドライブ) 5— 1, 5— 2、 NIC (ネットワークインターフェースカー ド) 6— 1, 6— 2から構成される。メモリ 4—1, 4— 2は、論理的に 2つのメモリ領域に分 けたものである。
[0007] 上記のように、計算機 1, 2には、 CPU,メモリ、 HDDがそれぞれ 2つずつ設置され ている。 各計算機の一方の CPU3— 2a, 3— 2b、メモリ 4— 2a, 4— 2b、 HDD5— 2a, 5— 2b、 NIC6- 2a, 6— 2bは、仮想フォルトトレラントシステム 10下で運用系のシステム (業務処理を行うシステム)を稼動させるために用いられる構成要素である。
[0008] 各計算機の他方の CPU3— la, 3— lb、メモリ 4 la, 4— lb、 HDD5— la, 5— lb、 NIC6- la, 6— lbは、非運用系(制御系)のシステムを稼動させるために用い られる構成要素である。
[0009] 仮想フォルトトレラントシステム 10は、計算機 1, 2のそれぞれの運用系側の構成要 素である、 CPU3- 2a, 3 - 2b,メモリ 4— 2a, 4— 2b、 HDD5— 2a, 5— 2b、 NIC6 - 2a, 6— 2bを用いることにより構築されている。
[0010] 仮想フォルトトレラントシステム 10は、計算機 1, 2の CPU3— 2a, 3— 2bで稼動す る第 1の OS (オペレーティングシステム)により実現されている。計算機 1について言 えば、 CPU3— 2aが非運用系側の HDD5— laに格納されている第 1の OSを読み 出して、メモリ 4— 2aに展開している。計算機 2についても同様に、 CPU3— 2bが非 運用系側の HDD5— lbに格納されている第 1の OSを読み出して、メモリ 4— 2bに展 開している。これにより、計算機 1, 2間でフォルトトレラントシステム 10が仮想的に実 現され、この仮想フォルトトレラントシステム 10上で運用系システムのアプリケーション ソフトウェアが起動して 、る。
[0011] したがって、計算機 1, 2間では、 NIC6- 2a, 6— 2bを介して、運用系のデータの 送受信がなされ、仮想フォルトトレラントシステム 10の同期処理により、メモリ 4— 2a, 4 - 2b及び HDD5— 2a, 5— 2bのミラー化が行われて!/、る。
[0012] このようにして、仮想的に構築したフォルトトレラントシステム 10上で運用系システム のアプリケーションソフトウェアを稼動させることにより、運用系システムの信頼性を向 上させている。
[0013] また、計算機 1, 2の非運用系の CPU3— la, 3— lbではそれぞれ、第 2の OSが起 動している。この第 2の OSは、各計算機 1, 2における、データの入出力、ハードゥエ ァ等の制御を行うための OSである。この第 2の OSにより各計算機の物理的な面での 制御が行われることにより、第 1の OSにより仮想フォルトトレラントシステム 10の環境 の構築が可能となっている。 [0014] また、計算機 1, 2の非運用系の HDD5— la, 5— lbにはそれぞれ、第 1の OS、第 2の OS、システムパラメータ、その他のアプリケーションソフトが格納されている。
[0015] このようなフォルトトレラントシステム 7では、いずれかの計算機の運用系の HDD5
- la, 5— lbに障害が起こってその計算機を復旧させる場合、その HDDを交換す れば、仮想フォルトトレラントシステム 10の同期処理により、他方の HDDのデータに 基づいて、ミラー化が行われ、双方の HDDの内容が同一にある。このように、仮想フ オルトトレラントシステム 10内の構成要素で障害が発生しても、自動で、容易に、障害 前の状態に復旧させることができる。
[0016] し力しながら、仮想フォルトトレラントシステム 10の外側の環境で障害が発生した場 合、すなわち、いずれかの計算機の非運用系の HDD5— la, 5— lbに障害が起こ つてその計算機を復旧させる場合、単に HDDの交換だけでは済まず、そのフォルト トレラントシステム環境を再構築する必要がある。
[0017] なぜなら、故障した HDDにフォルトトレラントシステムを実現させる第 1の OSが格納 されており、交換直後の HDDにはその第 1の OSが入っていないため、第 1の OSを 交換後の HDDにインストールして、フォルトトレラントシステムの環境の再構築を行う 必要がある。このフォルトトレラントシステム環境の再構築は、従来人手で行っていた
[0018] このように、ソフトウェアによる 2つの計算機を結合したフォルトトレラントシステムに おいて、一方の計算機の記憶媒体に異常が発生した場合の復旧作業では、手動に よる操作が必要になり、手間の力かる作業が発生していた。
特許文献 1:特開平 8— 137709号公報
特許文献 2:特開 2004 - 94433号公報
特許文献 3 :特開平 4— 038515号公報
発明の開示
[0019] 本発明は、ソフトウェアによるフォルトトレラントシステムが構築された環境の基盤と なる制御系システムに障害が発生した場合に要する操作を簡素化することを目的と する。
本発明にかかる外部の計算機と相互にネットワークを介して通信することにより、ソ フトウェアによるフォルトトレラントシステムが構築可能な計算機は、前記計算機の起 動処理を制御する起動制御手段と、前記起動制御手段による起動処理に基づ 、て 、前記フォルトトレラントシステムを復旧させるための復旧データを送信するように前 記外部の計算機に要求する要求情報を送信する要求手段と、前記要求情報に対応 して前記外部計算機から送信された前記復旧データを受信する復旧データ受信手 段と、前記復旧データ受信手段により受信した前記復旧データを記憶装置に格納し て、前記フォルトトレラントシステムを制御する環境を再構築する再構築手段と、を備 えることを特徴とする。
[0020] このように構成することにより、ソフトウェアによるフォルトトレラントシステムの自動復 旧を実現することができる。
前記計算機は、さらに、前記復旧データが格納されている復旧データ格納手段と、 前記外部の計算機からの前記要求情報を受信した場合、前記復旧データを該外部 の計算機に送信する復旧データ送信手段と、を備えることを特徴とする。
[0021] このように構成することにより、相手方の復旧データを送信することができる。
前記計算機において、前記復旧データには、前記要求情報を送信した前記計算 機の入出力を含む制御を行う制御系オペレーティングシステムプログラム、及び仮想 的な前記フォルトトレラントシステムを実現する運用系オペレーティングシステムプロ グラムが含まれることを特徴とする。
[0022] このように構成することにより、復旧データとして相手方の制御系 OSと運用系 OSを 送信することができる。
前記計算機において、前記起動制御手段は、優先順に従って、所定の媒体から前 記制御系オペレーティングシステムプログラムを起動させ、前記要求手段は、前記起 動制御手段により前記優先順に従って前記ネットワーク経由で前記計算機を起動さ せる場合、前記要求情報を前記外部の計算機に送信することを特徴とする。
[0023] このように構成することにより、ブート順にしたがって制御系 OSを起動させた場合、 交換した記憶装置にはその制御系 OSがインストールされていないから、前記ネットヮ ーク経由で前記計算機を起動させることになる。
[0024] 前記計算機において、前記再構築手段は、前記記憶装置に前記復旧データを格 納後、前記起動制御手段により再起動させることを特徴とする。
このように構成することにより、ブート順にしたがって、制御系 OSがインストールされ た記憶装置力 この制御系 OSを起動させることができる。
[0025] 前記計算機において、前記起動制御手段は、前記再構築手段に基づいて、前記 記憶装置力 前記復旧データに含まれる制御系オペレーティングシステムプログラム を起動させた場合、該制御系オペレーティングシステムプログラムに基づいて、該記 憶装置に格納された前記復旧データに含まれる運用系オペレーティングシステムプ ログラムが起動することを特徴とする。
[0026] このように構成することにより、フォルトトレラントシステムを再構築することができる。
前記計算機は、さらに、当該計算機自身の制御系オペレーティングシステムプログ ラム及び運用系オペレーティングシステムプログラムを前記外部の計算機より取得し て、前記復旧データ格納手段に格納する復旧データ取得手段を備えることを特徴と する。
[0027] このように構成することにより、相手方の制御系 OSと運用系 OSとを自分の方の記 憶装置にバックアップしておくことができる。
本発明にかかる外部の計算機と相互にネットワークを介して通信することにより、ソ フトウェアによるフォルトトレラントシステムが構築可能な計算機に復旧処理を実行さ せる復旧処理プログラムは、前記計算機の起動を制御する起動制御処理と、前記起 動制御処理による起動に基づいて、前記フォルトトレラントシステムを復旧させるため の復旧データを送信するように前記外部の計算機に要求する要求情報を送信する 要求処理と、前記要求情報に対応して前記外部計算機力 送信された前記復旧デ ータを受信する復旧データ受信処理と、前記復旧データ受信処理により受信した前 記復旧データを第 1の記憶装置に格納して、前記フォルトトレラントシステムを制御す る環境を再構築する再構築処理と、を計算機に実行させることを特徴とする。
[0028] このように構成することにより、ソフトウェアによるフォルトトレラントシステムの自動復 旧を実現することができる。
前記復旧処理プログラムは、さらに、前記外部の計算機からの前記要求情報を受 信した場合、第 2の記憶装置より前記復旧データを取得して、該復旧データを該外 部の計算機に送信する復旧データ送信処理と、を計算機に実行させることを特徴と する。
[0029] このように構成することにより、相手方の復旧データを送信することができる。
前記復旧処理プログラムにおいて、前記復旧データには、前記要求情報を送信し た前記計算機の入出力を含む制御を行う制御系オペレーティングシステムプロダラ ム、及び仮想的な前記フォルトトレラントシステムを実現する運用系オペレーティング システムプログラムが含まれることを特徴とする。
[0030] このように構成することにより、復旧データとして相手方の制御系 OSと運用系 OSを 送信することができる。
前記復旧処理プログラムにおいて、前記起動制御処理では、優先順に従って、所 定の媒体力 前記制御系オペレーティングシステムプログラムを起動させ、前記要求 処理では、前記起動制御処理により前記優先順に従って前記ネットワーク経由で前 記計算機を起動させる場合、前記要求情報を前記外部の計算機に送信することを特 徴とする。
[0031] このように構成することにより、ブート順にしたがって制御系 OSを起動させた場合、 交換した記憶装置にはその制御系 OSがインストールされていないから、前記ネットヮ ーク経由で前記計算機を起動させることになる。
[0032] 前記復旧処理プログラムにおいて、前記再構築処理では、前記第 1の記憶装置に 前記復旧データを格納後、前記起動制御処理により前記計算機を再起動させること を特徴とする。
[0033] このように構成することにより、ブート順にしたがって、制御系 OSがインストールされ た記憶装置力 この制御系 OSを起動させることができる。
前記復旧処理プログラムにおいて、前記起動制御処理は、前記再構築処理に基づ いて、前記第 1の記憶装置から前記復旧データに含まれる制御系オペレーティング システムプログラムを起動させた場合、該制御系オペレーティングシステムプログラム に基づいて、該第 1の記憶装置に格納された前記復旧データに含まれる運用系オペ レーティングシステムプログラムが起動することを特徴とする。
[0034] このように構成することにより、フォルトトレラントシステムを再構築することができる。 前記復旧処理プログラムは、さらに、当該計算機自身の制御系オペレーティングシ ステムプログラム及び運用系オペレーティングシステムプログラムを前記外部の計算 機より取得して、前記第 2の記憶装置に格納する復旧データ取得処理を計算機に実 行させることを特徴とする。
[0035] このように構成することにより、相手方の制御系 OSと運用系 OSとを自分の方の記 憶装置にバックアップしておくことができる。
本発明にかかる外部の計算機と相互にネットワークを介して通信することにより、ソ フトウエアによるフォルトトレラントシステムが構築可能な計算機の復旧処理を行う復 旧処理方法は、前記計算機を起動させ、前記フォルトトレラントシステムを復旧させる ために、前記計算機の入出力を含む制御を行う制御系オペレーティングシステムプ ログラム及び仮想的な前記フォルトトレラントシステムを実現する運用系オペレーティ ングシステムプログラムが含まれる復旧データを送信するように前記外部の計算機に 要求する要求情報を送信し、前記要求情報に対応して前記外部計算機から送信さ れた前記復旧データを受信し、前記受信した前記復旧データを第 1の記憶装置に格 納して、前記フォルトトレラントシステムを制御する環境を再構築する、ことを行うことを 特徴とする。
[0036] このように構成することにより、ソフトウェアによるフォルトトレラントシステムの自動復 旧を実現することができる。
前記復旧処理方法は、さらに、前記外部の計算機からの前記要求情報を受信した 場合、第 2の記憶装置より前記復旧データを取得して、該復旧データを該外部の計 算機に送信する、ことを行うことを特徴とする。
[0037] このように構成することにより、相手方の復旧データを送信することができる。
前記復旧処理方法において、前記計算機を起動させる場合には、優先順に従って 、所定の媒体力 前記制御系オペレーティングシステムプログラムを起動させ、前記 要求情報を送信する場合には、前記優先順に従って前記ネットワーク経由で前記計 算機を起動させて、前記要求情報を前記外部の計算機に送信することを特徴とする
[0038] このように構成することにより、ブート順にしたがって制御系 OSを起動させた場合、 交換した記憶装置にはその制御系 OSがインストールされていないから、前記ネットヮ ーク経由で前記計算機を起動させることになる。
[0039] 前記復旧処理方法において、前記再構築する場合には、前記第 1の記憶装置に 前記復旧データを格納後、前記計算機を再起動させることを特徴とする。
このように構成することにより、ブート順にしたがって、制御系 OSがインストールされ た記憶装置力 この制御系 OSを起動させることができる。
[0040] 前記再起動において、前記第 1の記憶装置から前記制御系オペレーティングシス テムプログラムを起動させた場合、該制御系オペレーティングシステムプログラムに基 づいて、該第 1の記憶装置に格納された前記復旧データに含まれる運用系オペレー ティングシステムプログラムを起動させることを特徴とする。
[0041] このように構成することにより、フォルトトレラントシステムを再構築することができる。
前記復旧処理方法は、さらに、当該計算機自身の前記制御系オペレーティングシ ステムプログラム及び前記運用系オペレーティングシステムプログラムを前記外部の 計算機より取得して、前記第 2の記憶装置に格納することを特徴とする。
[0042] このように構成することにより、相手方の制御系 OSと運用系 OSとを自分の方の記 憶装置にバックアップしておくことができる。
図面の簡単な説明
[0043] [図 1]従来におけるフォルトトレラントシステムにおける監視機能の実現例を示す。
[図 2]本発明にかかるフォルトトレラントシステムの自動復旧システムの実施形態概要 を示す。
[図 3]本発明に力かるフォルトトレラントシステムの自動復旧フローの一実施形態の概 要を示す。
[図 4]本発明の実施形態におけるフォルトトレラントシステムのハードウェア構成の概 要を示す。
[図 5A]本発明の実施形態における自動復旧の状態遷移図(その 1)である。
[図 5B]本発明の実施形態における自動復旧の状態遷移図(その 2)である。
[図 5C]本発明の実施形態における自動復旧の状態遷移図(その 3)である。
発明を実施するための最良の形態 [0044] 図 2は、本発明にカゝかるフォルトトレラントシステムの自動復旧システムの実施形態 概要を示す。以下では、第 1の計算機(1)の構成要素には添え字" a"を付与し、第 2 の計算機 (2)の構成要素には添え字" b"を付与して表す。第 1及び第 2の計算機 11 はそれぞれ、運用系 12の構成要素と、制御系 13の構成要素とを備えている。
[0045] 運用システム 12では、業務処理オペレーティングシステム(業務処理 OS)により仮 想フォルトトレラントシステム 10が構築され、仮想フォルトトレラントシステム 10上で業 務用のソフトウェアが稼動している。
[0046] 制御システム 13は、制御系の処理を行うための IZO処理オペレーティングシステ ム (ΙΖΟ処理 OS) 13により、仮想フォルトトレラントシステム 10を動作させる基盤とな る環境を制御するものである。
[0047] 第 1及び第 2の計算機 11の制御システム 13はそれぞれ、起動制御手段 14、復旧 データ要求手段 15、復旧データ送信手段 16、復旧データ格納手段 17、復旧データ 受信 18、再構築手段 19、復旧データ取得手段 20を備えている。
[0048] 復旧データ格納手段 17には、外部の計算機を復旧させるのに必要な復旧データ が格納されている。復旧データには、外部の計算機の IZO処理 OS及び業務処理 O Sのバックアップデータが含まれて!/、る。
[0049] 起動制御手段 14は、所定の起動情報に基づいて、起動処理を行う。すなわち、予 め不揮発性記憶装置に記憶されているファームウェアを読み出すことにより、予め設 定したブート順にしたがってブートディスク、ネットワーク等から IZO処理 OSを起動さ せる。
[0050] 復旧データ要求手段 15は、起動制御手段 14による起動処理に基づいて、前記復 旧データを送信するように要求する旨の要求情報を送信する。すなわち、起動制御 手段 14により、所定の記憶装置に IZO処理 OSがないと判断された場合には、復旧 データ要求手段 15は、外部の計算機に要求情報を送信する。
[0051] 復旧データ送信手段 16は、外部の計算機力もその要求情報を受け取った場合、 復旧データ格納手段 17から復旧データを取り出して、その復旧データを送信する。 復旧データ受信 18は、要求情報に応答して外部の計算機力も送信された復旧デ ータを受信する。 [0052] 再構築手段 19は、復旧データ受信手段 18により受信した復旧データを記憶装置 に格納して、仮想フォルトトレラントシステム 10を制御する環境を再構築する。前記再 構築手段 19は、記憶装置に復旧データを格納した後、起動制御手段 14により再起 動させる。起動制御手段 14は、ブート順にしたがって、再起動処理を行うと、今度は 、その記憶装置に IZO処理 OSが格納されているから、その記憶装置から IZO処理 OSを起動させる。 IZO処理 OSが起動すると、 IZO処理 OSの制御により業務処理 OSも起動して、仮想フォルトトレラントシステム 10による同期処理が開始される。
[0053] 復旧データ取得手段 20は、外部の計算機より IZO処理 OS及び業務処理 OSを取 得して、復旧データ格納手段に格納する。
例えば、第 1の計算機側で障害が発生して、第 1の計算機の制御システムの記憶 媒体を新しい記憶媒体に交換したと仮定する。なお、交換直後の記憶媒体には IZ
O処理用 OSも業務処理 OSもインストールされて!/、な!/、。
[0054] まず、計算機 1の電源を投入すると、起動制御手段 14aは、予め設定されたブート 順に従い、起動処理を行う。しかし、ブートディスクとして設定された交換直後の記憶 媒体には IZO処理用 OSがインストールされていないため、第 1の計算機自身で起 動させることはできない。その場合、復旧データ要求手段 15aは、復旧データを第 2 の計算機に要求する。
[0055] 第 2の計算機側では、その要求情報を受信すると、復旧データ送信手段 15bは、復 旧データ格納手段 16bに格納されている復旧データを第 1の計算機に配信する。 第 1の計算機側では、復旧データ受信手段 17aにより、その送信された復旧データ が受信される。そして、再構築手段 18aは、その復旧データに基づいて、第 1の計算 機のフォルトトレラントシステム 10の制御する環境の再構築を行う。
[0056] 図 3は、本発明に力かるフォルトトレラントシステム 7の自動復旧フローの一実施形 態の概要を示す。一方の計算機 1の外部記憶装置の障害発生時 (ステップ 1。以下、 ステップを「S」と称する)には、他の計算機 2がその異常を検知して、その計算機 1を 切り離す (S2)。メンテナンス担当者は、その障害の発生した計算機 1の外部記憶装 置を修理する(S3)。
[0057] その外部記憶装置を修理した後、計算機 1の電源を投入する (S4)。制御系 OSは 本来その外部記憶装置にインストールされている力 修理のために交換されたので、 計算機 1は外部記憶装置より制御系 OSを起動させることはできない。このとき、計算 機 1のファームフェアにおいて、再起動(ブート)する順序を、例えば、外部記憶装置( HDD)、フレキシブルディスク(FD)、 LAN (Local Area Network)の順に設定し ておく。そうすると、外部記憶装置には制御系 OSがインストールされておらず、フレキ シブルディスクも挿入されていないことから、計算機 1のファームウェアは、 LAN経由 での再起動を行う処理に移行する。
[0058] そうすると、計算機 1のファームウェアは、 LAN経由での再起動を行い、他の計算 機 2に対して、バックアップデータを配信するように要求する(S5)。
他の計算機 2は、計算機 1からのバックアップデータ配信要求を検知して (S5)、計 算機 1にバックアップデータを配信する(S6)。
[0059] そのバックアップデータを受信した計算機 1は、そのバックアップデータに基づいて 、データの復元を行い、フォルトトレラントシステムの制御環境を再構築する。制御環 境の再構築後、計算機 1は再起動を行う(S7)。計算機 1は、それまで LAN経由で起 動していた力 この再起動により、自身の外部記憶装置より制御系 OSを起動させるこ とがでさる。
[0060] S7の制御系 OSの再起動に伴い、計算機 1の業務処理系(運用系)の OSも起動す る。そうすると、計算機 1, 2間でのフォルトトレラントシステムが正常に機能し、仮想フ オルトトレラントシステム 10のソフトウェアが有効に機能して、同期処理が開始され、 業務処理系(運用系)のデータ等の整合性を復旧させる(S8)。こうして、復旧が完了 する(S9)。このように、本発明に力かるフォルトトレラントシステム 7は、 自動復旧を実 現させている。
[0061] それでは、以下に本発明の実施形態について詳述する。
図 4は、本発明の実施形態におけるフォルトトレラントシステムのハードウェア構成の 概要を示す。以下では、計算機 1の構成要素には添え字" a"を付与し、計算機 2の構 成要素には添え字" b"を付与して表す。また、以下では、運用系の OSを「業務処理 osjと称し、制御系の osを「iZo (入力 Ζ出力)処理用 os」と称する。
[0062] 計算機 1 (または 2)には、 CPU22、主記憶装置 25、計算機通信用カード 28、補助 記憶装置コントローラ 29、補助記憶装置 30、業務処理 OS用通信カード 32が設置さ れている。
[0063] CPU22は、 IZO処理 OS用 CPU23と、業務処理 OS用 CPU 24から構成される。 I ZO処理 OS用 CPU23と業務処理 OS用 CPU24とは、物理的もしくは論理的に別 個の CPUである。
[0064] IZO処理 OS用 CPU23aは、計算機 1 (21a)のデータの入出力及びハードウェア の制御を行う。 IZO処理 OS用 CPU23bは、計算機 2 (21b)のデータの入出力及び ハードウェアの制御を行う。
[0065] 業務処理 OS用 CPU24a,24bは、仮想フォルトトレラントシステムのソフトウェアを実 行させるための CPUである。業務処理 OS用 CPU24a,24bは、計算機通信用カード 28間のリンクを介して、仮想フォルトトレラントシステムの同期処理が行われている。
[0066] 主記憶装置 25は、 IZO処理 OS用メモリ領域 26と、業務処理 OS用メモリ領域 27 から構成されている。
IZO処理 OS用メモリ領域 26は、 IZO処理 OS用 CPU23が IZO処理 OSを展開 して実行したり、及び同期通信処理を行ったりするのに必要なメモリ領域である。
[0067] 業務処理 OS用メモリ領域 27は、業務処理 OS用 CPU24が業務処理 OSを展開し て実行し、仮想フォルトトレラントシステムとして使用されるメモリ領域である。業務処 理 OS用メモリ領域 27a, 27bは、計算機通信用カード 28間のリンクを介して、ミラー化 が行われている。
[0068] なお、 IZO処理 OS用メモリ領域 26と、業務処理 OS用メモリ領域 27とは、本実施 形態では、論理的に分割した 2つのメモリ領域であるが、これに限定されず、物理的 に分離した 2個の主記憶装置であってもよ 、。
[0069] 補助記憶装置 30は、 IZO処理 OS用メモリ領域 31と、バックアップ用メモリ領域 32 と、業務処理 OS用メモリ領域 33から構成されている。 IZO処理 OS用メモリ領域 31 は、補助記憶装置内の IZO処理 OS用のメモリ領域である。 IZO処理 OS用メモリ領 域 31には、少なくとも IZO処理 OS及び業務処理 OSのソフトウェアが格納されてい る。
[0070] 業務処理 OS用メモリ領域 33は、補助記憶装置内の業務処理 OS用のメモリ領域で ある。業務処理 OS用メモリ領域 33は、仮想フォルトトレラントシステム上で稼動する 業務アプリケーションデータが格納される。
[0071] バックアップ用メモリ領域 32は、相手方の計算機を復旧させるのに必要なデータ( 相手方の IZO処理 OS、相手方の計算機の業務処理 OS等)が格納されている領域 である。すなわち、ノックアップ用メモリ領域 32aには、 IZO処理 OS用メモリ領域 31 bの内容が格納されており、ノ ックアップ用メモリ領域 32bには、 IZO処理 OS用メモ リ領域 3 laの内容が格納されている。ノ ックアップは、所定のプログラムにより、定期 的に行ってもよいし、手動で行ってもよい。
[0072] なお、 IZO処理 OS用メモリ領域 31と、ノ ックアップ用メモリ領域 32と、業務処理 O S用メモリ領域 33とは、本実施形態では、論理的に分割した 3つのメモリ領域である 力 これに限定されず、物理的に分離した複数の補助記憶装置カゝら構成されていて ちょい。
[0073] 補助記憶装置コントローラ 29は、補助記憶装置 30の動作を制御するためのもので ある。不揮発性メモリ 35には、ファームウェアが格納されている。
計算機通信用カード 28は、計算機 1 (21a)と計算機 2 (21b)間の同期通信用イン ターフェースカードである。計算機 1及び計算機 2の業務処理 OS用 CPU24間の処 理結果の比較のために用いられたり、業務処理 OS用メモリ領域 27及び補助記憶装 置の記憶域の複製 (ミラー化)に用いられたりする。計算機通信用カード 28は、各計 算機に複数備えられ、複数のリンクが行われて、冗長化されている。
[0074] 業務処理 OS用通信カード 34は、業務処理 OSにより実現される仮想フォルトトレラ ントシステム上で稼動する業務アプリケーションデータの送受するための通信インタ 一フェースである。業務処理 OS用通信カード 34は、仮想フォルトトレラントシステム 上で稼動する業務アプリケーションにより構築された業務システムの LANに接続され ている。
[0075] なお、通常の業務システムでは、運用上例えば計算機 1が使用され、計算機 2は待 機状態 ( 、わゆるホットスタンバイ状態)である。
次に、計算機に障害が発生した場合の自動復旧について説明する。以下では、計 算機 1に障害が発生した場合を一例に説明する。なお、計算機 1の復旧データ (バッ クアップデータ)は予め計算機 2の補助記憶装置 30bのバックアップ用メモリ領域 32 に格納されている。復旧データは、少なくとも、 I/O処理 OSと業務処理 OSが含まれ る。
[0076] 図 5A、図 5B、図 5Cは、本発明の実施形態における自動復旧の状態遷移図である 。最初は、計算機 1, 2とも正常に稼動し、同期動作をしている。ここでは、計算機 1, 2の I/O処理 OS用 CPU23a,23bは、計算機通信用カード 28a,28b間のリンクを介 して、相互に相手が生存しているかを確認するためのパケットを送信する処理を行つ ている。
[0077] そして、その送信元の計算機の I/O処理 OS用 CPU23a,23bは、その生存確認 パケットに対応する応答パケットを受信した場合には相手方の計算機が生存している と判断し、応答パケットを受信できな力つた場合には相手方の計算機がダウンして ヽ ると判断する。
[0078] その後、計算機 1に障害が発生し (S11)、計算機 1を停止させる(12)。計算機 2は 、継続的に動作している(S11)が、計算機 1が停止すると、上述のプロセスにより、そ の計算機 1の異常状態を検知する (S 12)。
[0079] 計算機 1は、メンテナンス担当者により修理される(S13)。本実施形態では、計算 機 1の補助記憶装置 30aが交換される。交換直後の補助記憶装置 30aは、 I/O処 理 OSと業務処理 OS等が格納されて ヽな ヽ。
[0080] その修理終了後、計算機 1の電源が投入されて、計算機 1を起動させる(S14)。 C PU23aは、不揮発性メモリ 35aよりファームウェアを読み出す。そのファームウェアは 、予め設定された再起動順にしたがって、再起動 (ブート)を行う。ブートする順序は、 ファームフェアに予め設定させている。ここでは、再起動させる優先順として、補助記 憶装置 30、 LANの順とする。図 5の例では、補助記憶装置 30aから IZO処理 OSを 起動させることはできないので、計算機 1のファームウェアは、 LAN経由での再起動 を行う処理に移行する。
[0081] 計算機 1は、復旧データの配信待ち状態となる(S15)。ここでは、計算機 1のファー ムゥ アが、計算機 2に対して、復旧データを配信するように要求する (計算機通信用 カード 28a, 28b間のリンクを介して、配信要求パケットを送信する。 ) o [0082] 計算機 2の IZO処理 OS用 CPU23bは、その配信要求パケットを受信すると、計算 機通信用カード 28a,28b間のリンクを介して、ノ ックアップ用メモリ領域 32bに格納さ れて ヽる復旧データを計算機 1に送信する。
[0083] 計算機 1のファームウェアは、その復旧データを受信して(S 17)、その復旧データ を補助記憶装置 30aに格納し、所定のメモリ領域に展開する(S18)。これにより、デ ータの復旧作業が完了し、仮想フォルトトレラントシステム 10の制御環境が再構築さ れる(S19)。
[0084] その後、計算機 1の再起動が行われる(S20)。ここでは、 CPU23aは、不揮発性メ モリ 35aよりファームウェアを読み出す。そのファームウェアは、予め設定された起動 順に従い、まず、補助記憶装置 30aからの再起動を試みる。この場合、補助記憶装 置 30aに既に IZO処理 OSが格納されているので、 IZO処理 OS用 CPU23aは、補 助記憶装置 30aから IZO処理 OSを読み出して、 IZO処理 OSを起動させる。
[0085] 次に、 IZO処理 OSの制御により、業務処理 OS用 CPU24aは補助記憶装置 30a カゝら業務処理 OSを読み出して、業務処理 OSを起動させる。そして、業務処理 OS用 CPU24aは、仮想フォルトトレラントシステム 10による同期処理を開始する(S21)。
[0086] S21では、計算機 1が正常に動作を開始するので、計算機 1の IZO処理 OS用 CP U23aは計算機 2に対して生存確認パケットを送信する。一方、計算機 2の IZO処理 OS用 CPU23bも計算機 1に対して生存確認パケットを送信する。すると、計算機 1か ら応答パケットが返信されるので、計算機 2の IZO処理 OS用 CPU23bは計算機 1が 正常に動作していると判断する。そうすると、業務処理 OS用 CPU24a,24bの制御に 基づいて、計算機 1,2間で仮想フォルトトレラントシステム 10による同期処理が有効 に開始される(S 22)。
[0087] そうすると、同期処理により、主記憶装置 25a,25bの業務処理 OS用メモリ領域 27a ,27b,及び補助記憶装置 30a,30bの業務処理 OS用メモリ領域 27a,27bのデータの ミラー化が完了したら(S23)、通常の計算機 1,2間で仮想フォルトトレラントシステム 1 0による同期処理に戻る(S24)。
[0088] 本発明の実施形態によれば、フォルトトレラントシステムを構成する計算機相互間で 、一方の計算機の外部記憶装置を復旧させるためのバックアップ機能及びバックアツ プデータを他方の計算機に保持させる。これにより、一方の計算機に搭載される外部 記憶装置の異常が発生した場合、この外部記憶装置の修理後、この計算機の最初 の起動時に他方の計算機から自動的にバックアップデータを取り出し、その外部記 憶装置の内容を復元することはできる。
本発明を用いることにより、ソフトウェアによる複数の計算機を結合したフォルトトレラ ントシステムの復旧作業が自動化されるので、容易な運用が実現できる。
なお、本発明は、以上に述べた実施の形態に限定されるものではなぐ本発明の要 旨を逸脱しな 、範囲内で種々の構成または形状を取ることができる。

Claims

請求の範囲
[1] 外部の計算機と相互にネットワークを介して通信することにより、ソフトウェアによるフ オルトトレラントシステムが構築可能な計算機であって、
前記計算機の起動処理を制御する起動制御手段と、
前記起動制御手段による起動処理に基づ 、て、前記フォルトトレラントシステムを復 旧させるための復旧データを送信するように前記外部の計算機に要求する要求情報 を送信する要求手段と、
前記要求情報に対応して前記外部計算機力 送信された前記復旧データを受信 する復旧データ受信手段と、
前記復旧データ受信手段により受信した前記復旧データを記憶装置に格納して、 前記フォルトトレラントシステムを制御する環境を再構築する再構築手段と、
を備えることを特徴とする計算機。
[2] 前記計算機は、さらに、
前記復旧データが格納されている復旧データ格納手段と、
前記外部の計算機からの前記要求情報を受信した場合、前記復旧データを該外 部の計算機に送信する復旧データ送信手段と、
を備えることを特徴とする請求項 1に記載の計算機。
[3] 前記復旧データには、前記要求情報を送信した前記計算機の入出力を含む制御 を行う制御系オペレーティングシステムプログラム、及び仮想的な前記フォルトトレラ ントシステムを実現する運用系オペレーティングシステムプログラムが含まれる ことを特徴とする請求項 1に記載の計算機。
[4] 前記起動制御手段は、優先順に従って、所定の媒体から前記制御系オペレーティ ングシステムプログラムを起動させ、
前記要求手段は、前記起動制御手段により前記優先順に従って前記ネットワーク 経由で前記計算機を起動させる場合、前記要求情報を前記外部の計算機に送信す る
ことを特徴とする請求項 3に記載の計算機。
[5] 前記再構築手段は、前記記憶装置に前記復旧データを格納後、前記起動制御手 段により再起動させる
ことを特徴とする請求項 1に記載の計算機。
[6] 前記起動制御手段は、前記再構築手段に基づいて、前記記憶装置から前記復旧 データに含まれる制御系オペレーティングシステムプログラムを起動させた場合、該 制御系オペレーティングシステムプログラムに基づ 、て、該記憶装置に格納された前 記復旧データに含まれる運用系オペレーティングシステムプログラムが起動する ことを特徴とする請求項 5に記載の計算機。
[7] 前記計算機は、さらに、
当該計算機自身の制御系オペレーティングシステムプログラム及び運用系ォペレ 一ティングシステムプログラムを前記外部の計算機より取得して、前記復旧データ格 納手段に格納する復旧データ取得手段
を備えることを特徴とする請求項 2に記載の計算機。
[8] 外部の計算機と相互にネットワークを介して通信することにより、ソフトウェアによるフ オルトトレラントシステムが構築可能な計算機に復旧処理を実行させる復旧処理プロ グラムであって、
前記計算機の起動を制御する起動制御処理と、
前記起動制御処理による起動に基づいて、前記フォルトトレラントシステムを復旧さ せるための復旧データを送信するように前記外部の計算機に要求する要求情報を送 信する要求処理と、
前記要求情報に対応して前記外部計算機力 送信された前記復旧データを受信 する復旧データ受信処理と、
前記復旧データ受信処理により受信した前記復旧データを第 1の記憶装置に格納 して、前記フォルトトレラントシステムを制御する環境を再構築する再構築処理と、 を計算機に実行させる復旧処理プログラム。
[9] 前記復旧処理プログラムは、さらに、
前記外部の計算機からの前記要求情報を受信した場合、第 2の記憶装置より前記 復旧データを取得して、該復旧データを該外部の計算機に送信する復旧データ送 信処理と、 を計算機に実行させる請求項 8に記載の復旧処理プログラム。
[10] 前記復旧データには、前記要求情報を送信した前記計算機の入出力を含む制御 を行う制御系オペレーティングシステムプログラム、及び仮想的な前記フォルトトレラ ントシステムを実現する運用系オペレーティングシステムプログラムが含まれる ことを特徴とする請求項 8に記載の復旧処理プログラム。
[11] 前記起動制御処理では、優先順に従って、所定の媒体から前記制御系オペレーテ イングシステムプログラムを起動させ、
前記要求処理では、前記起動制御処理により前記優先順に従って前記ネットヮー ク経由で前記計算機を起動させる場合、前記要求情報を前記外部の計算機に送信 する
ことを特徴とする請求項 10に記載の復旧処理プログラム。
[12] 前記再構築処理では、前記第 1の記憶装置に前記復旧データを格納後、前記起 動制御処理により前記計算機を再起動させる
ことを特徴とする請求項 8に記載の復旧処理プログラム。
[13] 前記起動制御処理は、前記再構築処理に基づいて、前記第 1の記憶装置から前 記復旧データに含まれる制御系オペレーティングシステムプログラムを起動させた場 合、該制御系オペレーティングシステムプログラムに基づいて、該第 1の記憶装置に 格納された前記復旧データに含まれる運用系オペレーティングシステムプログラムが 起動する
ことを特徴とする請求項 12に記載の復旧処理プログラム。
[14] 前記復旧処理プログラムは、さらに、
当該計算機自身の制御系オペレーティングシステムプログラム及び運用系ォペレ 一ティングシステムプログラムを前記外部の計算機より取得して、前記第 2の記憶装 置に格納する復旧データ取得処理
を計算機に実行させる請求項 9に記載の復旧処理プログラム。
[15] 外部の計算機と相互にネットワークを介して通信することにより、ソフトウェアによるフ オルトトレラントシステムが構築可能な計算機の復旧処理を行う復旧処理方法であつ て、 前記計算機を起動させ、
前記フォルトトレラントシステムを復旧させるために、前記計算機の入出力を含む制 御を行う制御系オペレーティングシステムプログラム及び仮想的な前記フォルトトレラ ントシステムを実現する運用系オペレーティングシステムプログラムが含まれる復旧デ ータを送信するように前記外部の計算機に要求する要求情報を送信し、
前記要求情報に対応して前記外部計算機力 送信された前記復旧データを受信 し、
前記受信した前記復旧データを第 1の記憶装置に格納して、前記フォルトトレラント システムを制御する環境を再構築する、
ことを行う復旧処理方法。
[16] 前記復旧処理方法は、さらに、
前記外部の計算機からの前記要求情報を受信した場合、第 2の記憶装置より前記 復旧データを取得して、該復旧データを該外部の計算機に送信する、
ことを行う請求項 15に記載の復旧処理方法。
[17] 前記計算機を起動させる場合には、優先順に従って、所定の媒体から前記制御系 オペレーティングシステムプログラムを起動させ、 前記要求情報を送信する場合には、前記優先順に従って前記ネットワーク経由で 前記計算機を起動させて、前記要求情報を前記外部の計算機に送信する
ことを特徴とする請求項 15に記載の復旧処理方法。
[18] 前記再構築する場合には、前記第 1の記憶装置に前記復旧データを格納後、前記 計算機を再起動させる
ことを特徴とする請求項 15に記載の復旧処理方法。
[19] 前記再起動において、前記第 1の記憶装置から前記制御系オペレーティングシス テムプログラムを起動させた場合、該制御系オペレーティングシステムプログラムに基 づいて、該第 1の記憶装置に格納された前記復旧データに含まれる運用系オペレー ティングシステムプログラムを起動させる
ことを特徴とする請求項 18に記載の復旧処理方法。
[20] 前記復旧処理方法は、さらに、 当該計算機自身の前記制御系オペレーティングシステムプログラム及び前記運用 系オペレーティングシステムプログラムを前記外部の計算機より取得して、前記第 2の 記憶装置に格納する
ことを特徴とする請求項 15に記載の復旧処理方法。
PCT/JP2006/306024 2006-03-24 2006-03-24 フォルトトレラントシステム WO2007122666A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/306024 WO2007122666A1 (ja) 2006-03-24 2006-03-24 フォルトトレラントシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/306024 WO2007122666A1 (ja) 2006-03-24 2006-03-24 フォルトトレラントシステム

Publications (1)

Publication Number Publication Date
WO2007122666A1 true WO2007122666A1 (ja) 2007-11-01

Family

ID=38624598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/306024 WO2007122666A1 (ja) 2006-03-24 2006-03-24 フォルトトレラントシステム

Country Status (1)

Country Link
WO (1) WO2007122666A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266205A (ja) * 2008-02-22 2009-11-12 Huawei Technologies Co Ltd マルチ制御装置システムを修復する方法と装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03179543A (ja) * 1989-12-08 1991-08-05 Nec Corp データ等価方法および計算機システム
JPH0546270A (ja) * 1991-08-14 1993-02-26 Shinko Seisakusho Co Ltd コンピユータの起動方法
JP2003099146A (ja) * 2001-09-20 2003-04-04 Fujitsu Ltd 計算機システムの起動制御方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03179543A (ja) * 1989-12-08 1991-08-05 Nec Corp データ等価方法および計算機システム
JPH0546270A (ja) * 1991-08-14 1993-02-26 Shinko Seisakusho Co Ltd コンピユータの起動方法
JP2003099146A (ja) * 2001-09-20 2003-04-04 Fujitsu Ltd 計算機システムの起動制御方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266205A (ja) * 2008-02-22 2009-11-12 Huawei Technologies Co Ltd マルチ制御装置システムを修復する方法と装置

Similar Documents

Publication Publication Date Title
US9798632B2 (en) Providing boot data in a cluster network environment
EP1397744B1 (en) Recovery computer for a plurality of networked computers
US8707290B2 (en) Firmware update in an information handling system employing redundant management modules
US7287186B2 (en) Shared nothing virtual cluster
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US8375363B2 (en) Mechanism to change firmware in a high availability single processor system
JP5013324B2 (ja) コンピュータ装置及びそのbiosアップデート方法
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
JP2011253408A (ja) サーバシステム及びそのbios復旧方法
JP5773166B2 (ja) 計算機の制御方法、計算機及び計算機システム
JP2012190175A (ja) フォールトトレラントシステム、サーバ、フォールトトレラント化方法およびプログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
CN113438111A (zh) 基于Raft分布式恢复RabbitMQ网络分区的方法及应用
US7437445B1 (en) System and methods for host naming in a managed information environment
JP5683088B2 (ja) 復旧システム、復旧方法及びバックアップ制御システム
WO2007122666A1 (ja) フォルトトレラントシステム
US9158666B2 (en) Computer system and computer system information storage method
WO2020241032A1 (ja) フォールトトレラントシステム、サーバ、フォールトトレラントシステムの運用方法、サーバの運用方法、及びサーバの運用方法のプログラム
JP4112191B2 (ja) 分散サーバシステム、障害復旧方法、障害復旧プログラムおよび記録媒体
JP2000066913A (ja) 任意プロセッサのプログラム・データ無中断更新システム
JP6364773B2 (ja) 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
CN111427721B (zh) 异常恢复方法及装置
JP6954693B2 (ja) フォールトトレラントシステム、サーバ、それらの運用方法、及びプログラム
JP6822706B1 (ja) クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム
CN117827544B (zh) 热备份系统、方法、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 06729972

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06729972

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP