TWI439856B - 具故障備援以管理共享資源之方法與多電腦系統 - Google Patents

具故障備援以管理共享資源之方法與多電腦系統 Download PDF

Info

Publication number
TWI439856B
TWI439856B TW99121630A TW99121630A TWI439856B TW I439856 B TWI439856 B TW I439856B TW 99121630 A TW99121630 A TW 99121630A TW 99121630 A TW99121630 A TW 99121630A TW I439856 B TWI439856 B TW I439856B
Authority
TW
Taiwan
Prior art keywords
computer system
computer
priority
management controller
shared resource
Prior art date
Application number
TW99121630A
Other languages
English (en)
Other versions
TW201201013A (en
Inventor
Teresa Yt Hsu
Kenji Cc Chen
Stanley Ys Lee
Allen Hj Wu
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Priority to TW99121630A priority Critical patent/TWI439856B/zh
Priority to US13/168,355 priority patent/US9081614B2/en
Publication of TW201201013A publication Critical patent/TW201201013A/zh
Application granted granted Critical
Publication of TWI439856B publication Critical patent/TWI439856B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/06Network architectures or network communication protocols for network security for supporting key management in a packet data network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Description

具故障備援以管理共享資源之方法與多電腦系統
本發明係關於在於提供一種多電腦系統用之故障備援(failover)之技術,尤其是供機架式伺服器用之故障備援以管理共享資源之方法與機架式伺服器系統。
在現今網際網路盛行的環境下,大量使用如伺服器的網路電腦系統,其係藉由伺服器管理的方式達成對資料與訊息的收集及管理。
在商用伺服器設置(settings)中,多電腦機殼有時被安置(mounted)於一垂直機架式結構中,即所謂的機架式(rack mount or shelf)伺服器系統,其一般可透過一網路,而供遠端存取。多數機架式結構包含多個水平槽或抽屜(slots or drawers)供接收多電腦機殼,因而建立該多電腦機殼之一堆疊式佈置。每一電腦機殼包含一電腦系統,因此當一機架式伺服器系統包含多個電腦系統時,若每一電腦系統皆擁有一分離的鍵盤、監視器及滑鼠,則是不切實際的。因此,在機架式伺服器系統之多個電腦系統中會使用一KVM(Keyboard,Video and Mouse)開關以共享一組鍵盤、監視器及滑鼠。
此外為節省成本,每一電腦系統可共享相同資源,例如電源、風扇等等。每一電腦系統一般也皆提供一系統管理控制器(System Management Controller),例如MaximTM 公司的VSC452基板管理控制器(Baseboard Management Controller,BMC)或是ServerEnginesTM 公司的SE-SM4210-P01基板管理控制器等。基板管理控制器係一特定微控制器,一般內建於許多電腦系統,尤其是伺服器系統中的主機板上,供管理硬體及韌體,例如監控電腦系統內之感測器,如溫度、冷卻風扇速度、供電狀態、作業系統狀態等參數,且能透過網路送出一警示至一系統管理者,假如任何受監控之參數超出預設限制時。
既然,多個主機板將共享單一資源,因此有一決定目前由哪一系統管理控制器負責監視及記述(monitoring and reporting)該共享資源之需求。目前,存在之解決方案之一是提供一內建於該機架內之機箱(chassis)中之額外系統管理控制器,供管理該共享資源。但此方案需求額外之成本給該額外系統管理控制器,此類似於刀鋒伺服器中之進階管理模組(Advanced Management Module,AMM)。另一解決方案是僅給予一特定系統管理控制器存取或管理該共享資源之權限,而其他者則無,如目前IBM iDataplexTM 系統使用的技術。然而,此等方案皆無提供故障備援的能力。
因此,若存在一能提供故障備援的能力,且比現存伺服器系統上已知方案之軟硬體成本為低且簡易的方案,將是有利的。
因此,本發明之一目的,在於提供一種多電腦系統用故障備援(failover)之技術,尤其是供機架式伺服器系統用之故障備援以管理共享資源之方法與多電腦系統。依本發明之實施例,其主要是提供一機制以於不同主機板上之不同系統管理控制器間進行交握式(handshaking)通訊,而選擇何者負責監視該共享資源。該機制也能於該已選擇之系統管理控制器發生故障時,再選擇另一系統管理控制器。既然監視該共享資源之系統管理控制器可由主機板上已存之系統管理控制器中選擇,因此不再有前述習知額外系統管理控制器之需求。
因此,依本發明之實施例,其能提供於已插入之各主機板上之不同的系統管理控制器中選擇何者負責監視該共享資源。且也能於該已選擇之系統管理控制器發生故障時,再選擇另一系統管理控制器。這將保證只要存在一已插入之主機板中具有一工作中(functioning)之系統管理控制器,則總是有一系統管理控制器可負責監視該共享資源。
依本發明之一例示之實施例,一方面提供一種供多電腦系統用之故障備援以管理共享資源之方法。該方法包含步驟如下:讀取已插入該多電腦系統內之一電腦系統中之一優先權偵測訊號,該優先權偵測訊號代表該電腦系統之優先權;讀取該電腦系統之主機板偵測訊號,以獲得目前已插入該多電腦系統中所有電腦系統之插入狀態;依該優先權偵測訊號及主機板偵測訊號,判定是否該電腦系統有最高優先權;及因應該電腦系統具有最高優先權,輸出一與該電腦系統相關之特定輸出訊號供其他電腦系統識別,而將該共享資源已被接管之訊息通知其他電腦系統,並監控該共享資源。
本發明另一方面提供一種供多電腦系統用之故障備援以管理共享資源之方法。該方法包含步驟如下:讀取已插入該多電腦系統內之一電腦系統中之一優先權偵測訊號,該優先權偵測訊號代表該電腦系統之優先權;讀取該電腦系統之主機板偵測訊號,以獲得目前已插入該多電腦系統中所有電腦系統之插入狀態;因應該具有最高優先權之電腦系統發生故障,而不再送出與該電腦系統相關之一特定輸出訊號,則依該優先權偵測訊號及主機板偵測訊號,判定是否該電腦系統有最高優先權;及其中,該與電腦系統相關之特定輸出訊號係供其他電腦系統識別,而將該共享資源已被釋放之訊息通知其他電腦系統,該被釋放之共享資源因而將供目前已插入該多電腦系統內之其他工作中之電腦系統中具最高優先權者接管。
本發明另一方面也揭示一種提供故障備援以管理共享資源之多電腦系統。該多電腦系統包含:複數個電腦系統;及一多工器,用來控制該共享資源;其中,每一電腦系統包含:一主機板;該主機板包含:一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組故障備援模組之指令;一連接到該匯流排系統之處理單元,其中該處理單元執行該組指令以執行前述之方法,並將經由該多工器之選擇控制該共享資源。
以下詳細說明本發明實施例。揭露的實施例只是用來解說,因為熟悉此技藝人士應明白其中有許多修改及變化。參考圖式時,相同號碼代表所有圖式中相同的部分。
本說明書中「一具體實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明本實施為裝置、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上,以供手持式裝置或其他電腦設備讀取以達成本發明所述之部分或全部之功能。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。程式碼可以獨立軟體套件的形式完整的於使用者的手持式裝置上執行或部分於使用者的手持式裝置上執行,或部分於使用者之手持式裝置而部分於其他設備,或者全部於遠端電腦或伺服器上執行。在後面的情況,遠端電腦可以任何形式的網路連接至使用者的電腦,包括區域網路(LAN)或廣域網路(WAN),或者也可利用外部電腦來做連結(例如利用網際網路服務提供者來連接至網際網路)。
於以下本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供手持式裝置、通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
在圖式中顯示依據本發明各種實施例的系統、裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以同時執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可藉由基於特殊目的硬體的系統來實施,或者藉由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
圖1係顯示本發明實施例之多電腦系統用之故障備援的硬體架構示意圖。依本發明實施例,該多電腦系統係一機架式伺服器系統。每一電腦系統至少包含一主機板;該主機板至少包含一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組指令;及一連接到該匯流排系統之處理單元以執行該組指令。依本發明實施例,該處理單元係一主機板上之系統管理控制器。如圖所示,該硬體架構包含一連接用來控制共享資源140(如前述之電源、風扇等等)之控制輸入端的多工器130。該多工器130之輸入為來自每一電腦系統之主機板上系統管理控制器110之用來控制該共享資源之控制輸出端。因此,該多工器130係由機架內每一主機板上系統管理控制器110所共用,而可內建於該機架內之中央隔板(mid-plane)(未顯示)。該中央隔板是一允許透過連接器(未顯示)與該機架內其他電腦系統共享該機架資源之整合介面。需說明的是,系統管理控制器亦可實施為獨立的控制器。
每一電腦系統之主機板上之系統管理控制器具有通用輸入/輸出(General Purpose I/O,GPIO)可作為機架式伺服器上每一主機板之間交握式通訊的通道。每一系統管理控制器包含兩組GPIO,分別為優先權偵測GPIO 114及主機板偵測GPIO 116。當一電腦系統插入機架中之一位置,而透過機架內中央隔板之連接器與該機架相連結,以共享該機架資源時,該機架可依位置而給予優先權偵測GPIO 114一唯一位置碼,且藉由主機板偵測GPIO 116將該電腦系統之插入狀態通知該機架中所有其他電腦系統。例如,該機架系統最多可容納8個電腦系統,依本發明實施例則該優先權偵測GPIO 114僅需3位元(23 =8)之位置碼,而該主機板偵測GPIO 116則需8位元。依本發明實施例,每一主機板上之系統管理控制器因而可依主機板插入機架中之位置而被給予不同之優先權。且該機架內所有電腦系統皆能由讀取主機板偵測GPIO 116之訊號,而獲知目前已插入該機架中所有電腦系統之插入狀態。目前已插入該機架內所有電腦系統也將同時記錄該插入狀態。
該電腦系統可依所收到之關於已插入機架中所有電腦系統之插入狀態的主機板偵測GPIO 116訊號及代表其位於機架中位置之唯一位置碼的優先權偵測GPIO 114訊號,而判定其自身在目前已插入之主機板上之所有系統管理控制器中是否具有最高優先權。系統管理控制器之優先權偵測GPIO 114及主機板偵測GPIO 116因而可分別用來指示該主機板插入該機架系統中哪一個位置及其他哪些主機板已被插入一多電腦系統之機架中。因此,每一系統管理控制器藉由讀取其優先權偵測GPIO 114及主機板偵測GPIO 116之訊號,而判斷是否該系統管理控制器在目前已插入之主機板上之所有系統管理控制器中具有最高優先權。
每一電腦系統在該機架系統中之優先權,並不限於此處揭示之依位置而定。在該機架系統中每一電腦系統事實上也可視需求而依其它因素被給予不同之優先權,例如除位置因素外,也可加入考量Ethernet連結是否為作用中(active)。或者,在該機架系統中每一電腦系統也可依插入之先後次序而被給予不同之優先權。
該硬體架構另包含一每一主機板上系統管理控制器共用之主動偵測GPIO 118,供主動偵測是否目前控制共享資源之系統管理控制器仍在正常作用(或工作)中。任一有不同優先權之系統管理控制器於獲得權限以控制共享資源時,將於主動偵測GPIO 118上送出一與該系統管理控制器相關之特定輸出頻率訊號,藉由該共用之主動偵測GPIO 118,以通知其他具有較低優先權之系統管理控制器該共享資源已被接管。不同主機板之系統管理控制器具有不同的特定輸出頻率訊號,供其他系統管理控制器識別(identify)是哪一個系統管理控制器在接管共享資源140。
圖2顯示本發明實施例之內建於圖1之每一系統管理控制器中之故障備援模組的方法流程圖。首先,每一主機板上系統管理控制器讀取該系統管理控制器之優先權偵測GPIO 114之訊號(步驟210),及讀取系統管理控制器之主機板偵測GPIO 116之訊號(步驟220)。在步驟230,系統管理控制器檢查本身是否在目前已插入之主機板上之所有系統管理控制器中具有最高優先權。
若該系統管理控制器不具有最高優先權,則檢查系統管理控制器之主動偵測GPIO 118是否有其他系統管理控制器提供一特定的輸出頻率訊號,以判定是否有其他有較高優先權之系統管理控制器在監控該共享資源140(步驟232)。若沒有偵測到任何頻率訊號,則得回到步驟230重新判定優先權。若該共享資源140已被接管,則進一步檢查該系統管理控制器之主機板偵測GPIO之訊號是否有改變,以判定是否有新插入之主機板因而有新加入之系統管理控制器(步驟234)。若有,則得回到步驟230重新判定優先權。
在步驟230,具有最高優先權之系統管理控制器將接管共享資源140。此時,該系統管理控制器將送出一多工器選擇訊號112,以設定該多工器130而允許該系統管理控制器能控制共享資源140(步驟240);同時該系統管理控制器將監控共享資源,並且於主動偵測GPIO 118上送出一與該系統管理控制器相關之特定的輸出頻率訊號,以通知其他具有較低優先權之系統管理控制器該共享資源已被接管(步驟250)。該特定的輸出頻率訊號將被識別係該系統管理控制器接管該共享資源140,且同時被記錄在目前已插入該機架內所有電腦系統中。
接著,該系統管理控制器將可藉由檢查該共享資源140是否能正常回應(即,仍能被正常控制),而判斷是否被具更高優先權之系統管理控制器接管共享資源140(步驟260)。若共享資源無法正常回應,則該系統管理控制器將停止監控該共享資源140,且停止於主動偵測GPIO 118端上送出特定的輸出頻率訊號(步驟280),以釋放該共享資源140供其他系統管理控制器中具最高優先權者接管。之後,該故障備援模組回到步驟232,以檢查是否該系統管理控制器之主動偵測GPIO有其他系統管理控制器提供一特定的頻率訊號,而判定是否該共享資源140已被接管。進而如前述,若該共享資源140已被接管,則可檢查該系統管理控制器之主機板偵測GPIO之訊號是否有改變,以判定是否有新加入之系統管理控制器(步驟234)。
回到步驟260,若該共享資源可正常回應,則進一步檢查主機板偵測GPIO之訊號是否有改變,且該系統管理控制器是否不再具有最高優先權(步驟270)。若並無任何改變,則回到步驟250,繼續監控共享資源且送出一特定的輸出頻率訊號。否則,該系統管理控制器停止監控共享資源,且停止於主動偵測GPIO 118端上送出特定的輸出頻率訊號(步驟280)。
依本發明之實施例,當一新主機板插入系統中或由系統中移除時,藉由監控主機板偵測GPIO,所有主機板皆可知道此改變。每一主機板上之系統管理控制器內之故障備援模組將檢查系統管理控制器本身在目前已插入之主機板上之所有系統管理控制器中是否具有最高優先權。具有最高優先權之 系統管理控制器因此將接管共享資源,而其他者將在待命狀態,且等到該接管共享資源之系統管理控制器發生故障或有任何主機板插入/移除發生。
當具有最高優先權之系統管理控制器在工作中(functioning),而其他系統管理控制器透過監視主動偵測GPIO 118以判定該具有最高優先權之系統管理控制器是否仍在工作中(步驟232)。一旦該具有最高優先權之系統管理控制器發生故障,則將不再送出與該系統管理控制器相關之一特定頻率訊號。其他一直監視該各自之主動偵測GPIO 118的系統管理控制器,將依該唯一之特定頻率訊號識別該系統管理控制器,而知道該系統管理控制器發生故障,共享資源140已被釋放。其他系統管理控制器因而可於步驟230中,重新判定優先權,使目前已插入之主機板上之所有其他工作中之系統管理控制器中具有最高優先權之系統管理控制器,接管該共享資源140,且送出該接管之系統管理控制器相關的特定輸出頻率訊號,以通知其他具有較低優先權之系統管理控制器該共享資源已被接管。
如前述,由於不同主機板之系統管理控制器具有不同的特定輸出頻率訊號,故當一系統管理控制器接管該共享資源140時,其輸出之該特定的輸出頻率訊號將被識別,且同時被記錄在目前已插入該機架內所有電腦系統中。故當已插入機架系統之主機板上之該接管共享資源140的系統管理控制器發生故障時,其可被識別且同時也被記錄在目前已插入該機架內所有電腦系統中。因此,每一系統管理控制器內之故障 備援模組不會因該先前接管共享資源140之故障的系統管理控制器仍插在該機架內,而未改變該插入狀態下,無法進行優先權之重新判定,以選擇目前已插入之主機板上之所有其他工作中之系統管理控制器中具有最高優先權之系統管理控制器。依本發明之實施例,並不限於此處揭示之以不同特定輸出頻率訊號指派給不同的系統管理控制器供識別。任何可供識別之訊號型式皆可用來提供給不同的系統管理控制器。
因此如前述,依本發明之實施例,其能提供於已插入之各主機板上之不同的系統管理控制器中選擇何者負責監視該共享資源。且也能於該已選擇之系統管理控制器發生故障時,再選擇另一系統管理控制器。這將保證只要有一已插入主機板有一工作中(functioning)之系統管理控制器,則總是有一系統管理控制器負責監控該共享資源。
依本發明之實施例,任何主機板插入/移除發生,具有最高優先權之系統管理控制器發生故障,或先前具有最高優先權之系統管理控制器故障被排除而重新加入該系統中等不同改變,皆可藉由本發明之故障備援模組負責處理。因此本發明之實施例揭示了依簡易之設計而完成多電腦系統用之故障備援之技術,其中僅對硬體做了低成本之些微改變,即僅需要一多工器及一些通用輸入/輸出(GPIOs);軟體方面也僅是於每一系統管理控制器中之內建一簡易之故障備援模組,以於系統管理控制器之間進行一簡易之交握式通訊。
藉由以上具體實施例之詳述,希望能夠更加清楚地說明 本發明之特徵與精神。前述各實施例之說明並非意圖對本發明之範疇加以限制。前述各實施例之各種改變及均等性的安排皆在本發明所應受到保護的範疇之內。事實上,雖然本發明實施例所揭示的故障備援方式係只要有更高優先權之系統管理控制器加入本發明之多電腦系統中,便由其接管共享資源。然而在其它實施例中,亦可以其他備援方式實施。例如,備援方式可設計為當目前接管共享資源之系統管理控制器故障後,才進行優先權之重新判定,以選擇目前已插入之主機板上之所有其他工作中之系統管理控制器中具有最高優先權之系統管理控制器,來接管共享資源,即於步驟230前加入一判定是否目前接管共享資源之系統管理控制器故障之步驟。因此,本發明所涵蓋之範圍應根據如後所述之各請求項,並配合詳細說明作最寬廣的解釋,並涵蓋所有可能均等的改變以及具均等性的安排。
110‧‧‧系統管理控制器
112‧‧‧多工器選擇訊號
114‧‧‧優先權偵測GPIO
116‧‧‧主機板偵測GPIO
118‧‧‧主動偵測GPIO
130‧‧‧多工器
140‧‧‧共享資源
為使本發明及優點能更明瞭,本發明說明將伴隨下述相關圖式來說明:圖1係顯示本發明實施例之多電腦系統用之故障備援的硬體架構示意圖。
圖2顯示本發明實施例之內建於圖1之每一系統管理控制器中之故障備援模組的方法流程圖。
110‧‧‧系統管理控制器
112‧‧‧多工器選擇訊號
114‧‧‧優先權偵測GPIO
116‧‧‧主機板偵測GPIO
118‧‧‧主動偵測GPIO
130‧‧‧多工器
140‧‧‧共享資源

Claims (12)

  1. 一種供多電腦系統用之故障備援以管理共享資源之方法,包含:讀取已插入該多電腦系統內之一電腦系統中之一優先權偵測訊號,該優先權偵測訊號代表該電腦系統之優先權;讀取該電腦系統之主機板偵測訊號,以獲得目前已插入該多電腦系統中所有電腦系統之插入狀態;依該優先權偵測訊號及主機板偵測訊號,判定是否該電腦系統有最高優先權;及因應該電腦系統具有最高優先權,輸出一與該電腦系統相關之特定輸出訊號供其他電腦系統識別,而將該共享資源已被接管之訊息通知其他電腦系統,並監控該共享資源;其中該插入該多電腦系統內之每一電腦系統皆包含一系統管理控制器,且該特定輸出訊號、該優先權偵測訊號及該主機板偵測訊號皆由該電腦系統中之該系統管理控制器所提供;其中該特定輸出訊號係一與該系統管理控制器相關之特定輸出頻率訊號,且進一步包含:因應該電腦系統不具有最高優先權,檢查是否存在一特定的輸出頻率訊號,以判定是否有其他系統管理控制器在監控該共享資源;若不存在該特定的輸出頻率訊號,則重新判定優先權,使目前已插入該多電腦系統內之所有工作中之電腦系統內之系統管理控制器中具有最高優先權之系統管理控制器,接管該共享資源。
  2. 一種供多電腦系統用之故障備援以管理共享資源之方法,包含:讀取已插入該多電腦系統內之一電腦系統中之一優先權偵測訊號,該優先權偵測訊號代表該電腦系統之優先權;讀取該電腦系統之主機板偵測訊號,以獲得目前已插入該多電腦系統中所有電腦系統之插入狀態;依該優先權偵測訊號及主機板偵測訊號,判定是否該電腦系統有最高優先權;及因應該電腦系統具有最高優先權,輸出一與該電腦系統相關之特定輸出訊號供其他電腦系統識別,而將該共享資源已被接管之訊息通知其他電腦系統,並監控該共享資源,且進一步包含:檢查該共享資源是否能正常回應,以判斷是否被具更高優先權之系統管理控制器接管共享資源;因應該共享資源無法正常回應,則該系統管理控制器將停止監控該共享資源,且停止送出特定的輸出頻率訊號,以釋放該共享資源供其他系統管理控制器中具最高優先權者接管。
  3. 如請求項第1至2項中任一項所述之方法,其中該共享資源包含該多電腦系統內之電源或風扇。
  4. 如請求項第1至2項中任一項所述之方法,其中該優先權係依插入該多電腦系統內之位置而決定,或依插入之先後次序而決定。
  5. 一種供多電腦系統用之故障備援以管理共享資源之方法,包含:讀取已插入該多電腦系統內之一電腦系統中之一優先權偵測訊號,該優先權偵測訊號代表該電腦系統之優先權;讀取該電腦系統之主機板偵測訊號,以獲得目前已插入該多電腦系統中所有電腦系統之插入狀態;因應另一具有最高優先權之電腦系統發生故障,而不再送出與該另一電腦系統相關之一特定輸出訊號,則依該優先權偵測訊號及主機板偵測訊號,判定是否該電腦系統有最高優先權;及其中,該與電腦系統相關之特定輸出訊號係供其他電腦系統識別,而將該共享資源已被釋放之訊息通知其他電腦系統,該被釋放之共享資源因而將供目前已插入該多電腦系統內之其他工作中之電腦系統中具最高優先權者接管。
  6. 如請求項第5項所述之方法,其中該插入該多電腦系統內之每一電腦系統皆包含一系統管理控制器,且該特定輸出訊號、該優先權偵測訊號及該主機板偵測訊號皆由該電腦系統中之該系統管理控制器所提供。
  7. 如請求項第6項所述之方法,其中該特定輸出訊號係一與該系統管理控制器相關之特定輸出頻率訊號。
  8. 如請求項第7項所述之方法,其進一步包含:因應該電腦系統不具有最高優先權,檢查是否存在一特定的輸出頻率訊號,以判定是否有其他系統管理控制器在監 控該共享資源;若不存在該特定的輸出頻率訊號,則重新判定優先權,使目前已插入該多電腦系統內之所有工作中之電腦系統內之系統管理控制器中具有最高優先權之系統管理控制器,接管該共享資源。
  9. 如請求項第5至7項中任一項所述之方法,其中該共享資源包含該多電腦系統內之電源或風扇。
  10. 如請求項第5至7項中任一項所述之方法,其中該優先權係依插入該多電腦系統內之位置而決定,或依插入之先後次序而決定。
  11. 一種多電腦系統,其提供故障備援以管理共享資源,包含:複數個電腦系統;及一多工器,用來控制該共享資源;其中,每一電腦系統包含:一主機板;該主機板包含:一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組故障備援模組之指令;一連接到該匯流排系統之處理單元,其中該處理單元執行該組指令,以執行如申請專利範圍第1至10項中任一項所述之方法,並將經由該多工器之選擇控制該共享資源。
  12. 如申請專利範圍第11項所述之多電腦系統,其中該處理單元可為一內建該故障備援模組之系統管理控制器,其中申請專利範圍第1至10項中之該優先權偵測訊號、主機板偵測訊號及特定輸出訊號可利用系統管理控制器上之通用輸入/輸出作為該多電腦系統上複數個電腦系統之間交握式通訊的通道。
TW99121630A 2010-06-30 2010-06-30 具故障備援以管理共享資源之方法與多電腦系統 TWI439856B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW99121630A TWI439856B (zh) 2010-06-30 2010-06-30 具故障備援以管理共享資源之方法與多電腦系統
US13/168,355 US9081614B2 (en) 2010-06-30 2011-06-24 Managing shared resources in a multi-computer system with failover support

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99121630A TWI439856B (zh) 2010-06-30 2010-06-30 具故障備援以管理共享資源之方法與多電腦系統

Publications (2)

Publication Number Publication Date
TW201201013A TW201201013A (en) 2012-01-01
TWI439856B true TWI439856B (zh) 2014-06-01

Family

ID=45400579

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99121630A TWI439856B (zh) 2010-06-30 2010-06-30 具故障備援以管理共享資源之方法與多電腦系統

Country Status (2)

Country Link
US (1) US9081614B2 (zh)
TW (1) TWI439856B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5891890B2 (ja) * 2012-03-26 2016-03-23 富士通株式会社 ストレージシステム、ストレージ装置およびデータ復元方法
KR20150142505A (ko) 2014-06-12 2015-12-22 주식회사 엘지화학 글리세린 탈수 반응용 촉매, 이의 제조 방법 및 상기 촉매를 이용하여 글로세린으로부터 아크롤레인을 제조하는 방법
US9853938B2 (en) * 2014-09-08 2017-12-26 Quanta Computer Inc. Automatic generation of server network topology
US9684562B2 (en) 2015-07-21 2017-06-20 International Business Machines Corporation Automatic serial starting of resource groups on failover based on the prediction of aggregate resource usage

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6748447B1 (en) * 2000-04-07 2004-06-08 Network Appliance, Inc. Method and apparatus for scalable distribution of information in a distributed network
US6823472B1 (en) 2000-05-11 2004-11-23 Lsi Logic Corporation Shared resource manager for multiprocessor computer system
US6871300B1 (en) 2001-05-04 2005-03-22 Rlx Technologies, Inc. Embedded server chassis hardware master system and method
US7058703B2 (en) 2002-03-08 2006-06-06 Intel Corporation System management controller (SMC) negotiation protocol for determining the operational mode of SMCs
US6948008B2 (en) 2002-03-12 2005-09-20 Intel Corporation System with redundant central management controllers
TWM242781U (en) * 2002-11-25 2004-09-01 Quanta Comp Inc Blade server management system with auxiliary management structure
US7103064B2 (en) * 2003-01-21 2006-09-05 Nextio Inc. Method and apparatus for shared I/O in a load/store fabric
US7612903B2 (en) * 2003-09-08 2009-11-03 Castelle Line utilization in integrated document delivery method and apparatus
TWI220823B (en) 2003-09-09 2004-09-01 Inventec Corp Redundant management control arbitration system
US7698487B2 (en) 2004-06-30 2010-04-13 Intel Corporation Share resources and increase reliability in a server environment
TWM270514U (en) 2004-12-27 2005-07-11 Quanta Comp Inc Blade server system
US8248922B2 (en) * 2004-12-30 2012-08-21 Alcatel Lucent System and method for avoiding duplication of MAC addresses in a stack
US20060156041A1 (en) * 2005-01-07 2006-07-13 Lee Zaretsky System and method for power management of plural information handling systems
JP4555140B2 (ja) * 2005-04-22 2010-09-29 株式会社日立製作所 複合型計算機装置およびその管理方法
US7307837B2 (en) 2005-08-23 2007-12-11 International Business Machines Corporation Method and apparatus for enforcing of power control in a blade center chassis
TW200723017A (en) 2005-12-14 2007-06-16 Inventec Corp Master chassis automatic selection system and method thereof
US20070174429A1 (en) * 2006-01-24 2007-07-26 Citrix Systems, Inc. Methods and servers for establishing a connection between a client system and a virtual machine hosting a requested computing environment
US7624116B2 (en) 2006-03-23 2009-11-24 Dell Products L.P. System and method for managing objects according to the common information model
CN101520739A (zh) 2008-02-26 2009-09-02 国际商业机器公司 构建基于存储管理计划规范的设备的模拟器的方法和装置
US7849178B2 (en) * 2008-04-11 2010-12-07 International Business Machines Corporation Grid computing implementation
US20090271569A1 (en) 2008-04-28 2009-10-29 Kannan Shivkumar Partitioned management data cache
RU2507703C2 (ru) * 2008-05-21 2014-02-20 Телефонактиеболагет Л М Эрикссон (Пабл) Объединение ресурсов в сервере центра коммутации с кластером с электронными платами
CN101594376B (zh) 2008-05-26 2012-07-25 国际商业机器公司 向cimom注册cim提供器的方法和相应的装置
JP4922255B2 (ja) * 2008-06-30 2012-04-25 株式会社日立製作所 情報処理システムおよびそのシステムにおける省電力制御方法
US8387059B2 (en) * 2008-07-02 2013-02-26 International Business Machines Corporation Black-box performance control for high-volume throughput-centric systems
JP5259725B2 (ja) * 2008-10-31 2013-08-07 株式会社日立製作所 計算機システム
US8156356B2 (en) * 2009-01-15 2012-04-10 Dell Products L.P. Dynamic power management for internal information handling system links
US8607076B2 (en) * 2009-06-26 2013-12-10 Seagate Technology Llc Circuit apparatus with memory and power control responsive to circuit-based deterioration characteristics
US8578375B2 (en) * 2009-12-23 2013-11-05 International Business Machines Corporation Virtual machine administration for data center resource managers
US20110231602A1 (en) * 2010-03-19 2011-09-22 Harold Woods Non-disruptive disk ownership change in distributed storage systems
US8959376B2 (en) * 2010-06-23 2015-02-17 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Sharing power between two or more power sharing servers

Also Published As

Publication number Publication date
US20120005348A1 (en) 2012-01-05
TW201201013A (en) 2012-01-01
US9081614B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
TWI567540B (zh) 動態管理電力供應的方法、系統
US8948000B2 (en) Switch fabric management
US8874955B2 (en) Reducing impact of a switch failure in a switch fabric via switch cards
US8656003B2 (en) Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed
US10127095B2 (en) Seamless automatic recovery of a switch device
TW201743222A (zh) 遠端多電腦切換技術之儲存裝置、系統及方法
US20140122753A1 (en) Electronic Device, Management Method Thereof, and Rack Serving System
CN107179804B (zh) 机柜装置
JP2013073289A (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
TWI439856B (zh) 具故障備援以管理共享資源之方法與多電腦系統
US8099634B2 (en) Autonomic component service state management for a multiple function component
JP2010086532A (ja) 単一共用電力ドメインの動的負荷に基づく電力損失の検出及び通知方法、システム、およびプログラム
US9990467B2 (en) Electronic system with health monitoring mechanism and method of operation thereof
US8819484B2 (en) Dynamically reconfiguring a primary processor identity within a multi-processor socket server
US20220019561A1 (en) Event-based generation of context-aware telemetry reports
JP2007018034A (ja) 制御装置及び制御方法
US10795846B1 (en) Scalable NVMe storage management over system management bus
US10613950B2 (en) CMC failover for two-stick canisters in rack design
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
US9405629B2 (en) Information processing system, method for controlling information processing system, and storage medium
JP2018136882A (ja) 情報処理装置、情報処理システム及び情報処理装置制御方法
US8775695B2 (en) Specific identification information management device, information processing device, and specific identification information setting method
JP5561790B2 (ja) ハードウェア障害被疑特定装置、ハードウェア障害被疑特定方法、及びプログラム
JP2006235665A (ja) コマンドテスタ
JP6127039B2 (ja) クラスタシステムにおけるクラスタ処理の方法及び装置、及びシステム