TW201635142A - 多台伺服器之容錯之方法及系統 - Google Patents

多台伺服器之容錯之方法及系統 Download PDF

Info

Publication number
TW201635142A
TW201635142A TW104108745A TW104108745A TW201635142A TW 201635142 A TW201635142 A TW 201635142A TW 104108745 A TW104108745 A TW 104108745A TW 104108745 A TW104108745 A TW 104108745A TW 201635142 A TW201635142 A TW 201635142A
Authority
TW
Taiwan
Prior art keywords
server
virtual machine
monitored
voltage
hardware
Prior art date
Application number
TW104108745A
Other languages
English (en)
Other versions
TWI529624B (zh
Inventor
Wei-Jen Wang
De-Ron Liang
Ching-Hwa Lee
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW104108745A priority Critical patent/TWI529624B/zh
Priority to US15/073,744 priority patent/US20160277271A1/en
Application granted granted Critical
Publication of TWI529624B publication Critical patent/TWI529624B/zh
Publication of TW201635142A publication Critical patent/TW201635142A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/20Arrangements for monitoring or testing data switching networks the monitoring system or the monitored elements being virtualised, abstracted or software-defined entities, e.g. SDN or NFV

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)

Abstract

一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其各個硬體之電壓;由一機櫃管理器接收每一伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料;由該監控伺服器判斷所監控之伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力;若所監控之伺服器之刀鋒伺服器之操作狀態為故障或硬體之電壓無供應電力,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。

Description

多台伺服器之容錯之方法及系統
本發明有關於電腦之技術領域,特別有關於一種多台伺服器之容錯之方法及系統。
圖1為習知VMware電腦叢集之系統方塊圖。在圖1中,VMware(虛擬機器開發商)的高可用性(high availability)會將要保護如伺服器的主機(host)組成叢集(cluster),並且在叢集中所有的主機進行選舉選出一個主要主機(master host)10,一個主機連接越多的資料儲存裝置(datastore)12、14越容易被選為主要主機10,資料儲存裝置12、14是一個虛擬機器映像檔的儲存位置,儲存位置可以是虛擬機器檔案系統(Virtual Machine File System)、網路連接儲存設備檔案目錄或本地端的儲存設備檔案目錄,每一個叢集中只有一個主要主機10,而其它的主機是從屬主機(slave host)16,所有從屬主機16會傳送一連結信號給主要主機10,而且也會送連結信號給兩個(可設定數量)其所連接資料儲存裝置12、14。
如果主要主機10不能連結上從屬主機16,主要主機10會詢問從屬主機16,要是從屬主機16不回應該詢問,主要主機10改成檢查資料儲存裝置12、14是否有收到該從屬主機16的連結信號,若主要主機10發現全部資料儲存裝置12、14都沒收到從屬主機16的連結信號,則認定該從屬主機16發生錯誤,而在別的主機上進行虛 擬機器的重新啟動;若主要主機10發現資料儲存裝置12、14收到從屬主機16的連結信號,則認定是網路分區(network partitions)而不進行復原程序,此時VMware減少部分高可用性功能(degradation)。
習知VMware電腦叢集之系統中如伺服器之主機執行使用者的虛擬機器,在主機上發生錯誤後,對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等需要耗費較多時間,而使系統的容錯效能不佳。
有鑒於上述問題,本發明之目的係提供一種多台伺服器之容錯之方法及系統,在其中一伺服器上發生錯誤後,對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等可節省大量時間,並提高系統的容錯效能,同時兼具伺服器硬體之預警偵測及伺服器回復的功能。
本發明之第一態樣係一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該第一伺服器包括:一第一電壓感測器,感測該第一伺服器之各個硬體之電壓;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料,判斷所監控之該第二伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力,送出一備援命令至該第一虛擬機器管理器以使其 啟動一備援虛擬機器;該第二伺服器包括:一第二電壓感測器,感測該第二伺服器之各個硬體之電壓;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料,判斷所監控之該第一伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料,並傳送其資料至該第一伺服器或該第二伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
本發明之第二樣係一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該第一伺服器包括:一第一看門狗計時器,從一計時值開始倒數,倒數結束時發出一計時結束信號;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;一第一看門狗更新器,在經歷一重置時間後發出一重置信號至該第一看門狗計時器,以更新該第一看門狗計時器從該計時值開 始倒數;以及一第一監控器,接收由該第一伺服器監控之該第二伺服器傳送之該計時結束信號,根據該計時結束信號送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括:一第二看門狗計時器,根據該計時值開始倒數,倒數結束時發出該計時結束信號;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;一第二看門狗更新器,在經歷該重置時間後發出該重置信號至該第二看門狗計時器,以更新該第二看門狗計時器從該計時值開始倒數;以及一第二監控器,接收由該第二伺服器監控之該第一伺服器傳送之該計時結束信號,根據該計時結束信號送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之該計時結束信號,並傳送該計時結束信號至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
本發明之第三態樣係一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該一第一伺服器包括:一第一電壓感測器,感測該第一伺服器之各個硬體之電壓;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的 操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳送之硬體之電壓之資料,判斷所監控之該第二伺服器之硬體之電壓是否到達一危險門檻值,送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括:一第二電壓感測器,感測該第二伺服器之各個硬體之電壓;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之其硬體之電壓之資料,判斷所監控之該第一伺服器之硬體之電壓是否到達一危險門檻值,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之硬體之電壓之資料,並傳送其資料至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
本發明之第四態樣係一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該第一伺服器包括:一第一溫度感測器,感測該第一伺服器之溫度;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳 送之溫度之資料,判斷所監控之該第二伺服器之溫度是否到達一危險門檻值,送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括:一第二溫度感測器,感測該第二伺服器之溫度;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之溫度之資料,判斷所監控之該第一伺服器之溫度是否到達一危險門檻值,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之溫度之資料,並傳送其資料至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
本發明之第五態樣係一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其各個硬體之電壓;由一機櫃管理器接收每一伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料;由該監控伺服器判斷所監控之伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力;若所監控之伺服器之刀鋒伺服器之操作狀態為故障或硬體之 電壓無供應電力,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
本發明之第六態樣係一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器之一看門狗計時器從一計時值開始倒數;由每一伺服器在經歷一重置時間後發出一重置信號至相應之該看門狗計時器,以更新相應之該看門狗計時器從該計時值開始倒數;當該看門狗計時器倒數結束時由該看門狗計時器發出一計時結束信號至一機櫃管理器;若一監控伺服器接收該機櫃管理器中所監控之伺服器之該看門狗計時器發出之該計時結束信號,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
本發明之第七態樣係一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其各個硬體之電壓;由一機櫃管理器接收每一伺服器之硬體之電壓之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其硬體之電壓之資料;由該監控伺服器判斷所監控之伺服器之硬體之電壓是否到達一危險門檻值;若所監控之伺服器之硬體之電壓到達該危險門檻值,則由該監控伺服器啟動一備援虛擬機器;以及 由該機櫃管理器重新啟動故障之伺服器。
本發明之第八態樣係一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其溫度;由一機櫃管理器接收每一伺服器之溫度之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其溫度之資料;由該監控伺服器判斷所監控之伺服器之溫度是否到達一危險門檻值;若所監控之伺服器之溫度到達該危險門檻值,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
10‧‧‧主要主機
12‧‧‧資料儲存裝置
14‧‧‧資料儲存裝置
16‧‧‧從屬主機
20‧‧‧伺服器
22‧‧‧刀鋒伺服器
24‧‧‧電壓感測器
26‧‧‧溫度感測器
28‧‧‧IMPC
30‧‧‧看門狗計時器
32‧‧‧虛擬機器管理器
34‧‧‧虛擬機器
36‧‧‧IPMI模組
38‧‧‧監控器
40‧‧‧偵錯函式庫
42‧‧‧看門狗更新器
50‧‧‧伺服器
52‧‧‧刀鋒伺服器
54‧‧‧電壓感測器
56‧‧‧溫度感測器
58‧‧‧IMPC
60‧‧‧看門狗計時器
62‧‧‧虛擬機器管理器
64‧‧‧虛擬機器
66‧‧‧IPMI模組
68‧‧‧監控器
70‧‧‧偵錯函式庫
72‧‧‧看門狗更新器
80‧‧‧機櫃管理器
82‧‧‧虛擬機器映像檔資料庫
圖1為習知VMware電腦叢集之系統方塊圖;圖2為本發明之多台伺服器之容錯系統之方塊圖;以及圖3為本發明之多台伺服器之容錯方法之流程圖。
為使熟習本發明所屬技術領域之一般技藝者能更進一步了解本發明,下文特列舉本發明之較佳實施例,並配合所附圖式,詳細說明本發明的構成內容及所欲達成之功效。
統一整合在ATCA(Advanced Telecommunications Computing Architecture)工業電腦會發生錯誤的類型、描述錯誤類型的種類、根據不同方式偵測到的錯誤、並對應不同的回復策略。其 中先進復原處理器(Advanced recovery handler)是處理複雜的錯誤需要對應的回復策略,容錯系統無法針對所有錯誤復原,若有相對應的回復策略則能藉由此方法套用。容錯系統會嘗試去重新啟動在伺服器中之刀鋒伺服器,並設置回復時間逾時及重新啟動次數,若超出回復的限制則會回報給伺服器,其因何種錯誤類型而不能運作。
虛擬化技術(Virtualization Technology)被廣泛的運用,使實體伺服器可以邏輯上切割成數台虛擬機器來提供不同類型的服務。然而虛擬化技術卻會因各種原因的錯誤而造成服務中斷,例如實體機器的故障會影響執行於其上的虛擬機器,導致虛擬機器的可用性下降,連帶影響使用者使用該虛擬機器上的服務。
雖然在一般電腦架構下所能偵測的錯誤及方式有限,但若在支援IPMI(Intelligent Platform Management Interface,智慧平台管理介面)硬體的ATCA工業電腦架構下,可以利用IPMI快速偵測硬體的現狀並快速解決問題。
整合ATCA工業電腦與虛擬機器管理器之虛擬化技術以提出一個對稱型的容錯系統。容錯系統藉由ATCA硬體加速偵測伺服器錯誤的能力,快速的將偵測到的錯誤分類且尋找出對應的回復機制。然後,容錯系統會將發生錯誤的伺服器上的虛擬機器在備援伺服器上相應之虛擬機器予以回復,以減輕單點(伺服器)故障對虛擬機器的影響。
圖2為本發明之多台伺服器之容錯系統之方塊圖。在圖2中,容錯系統包括伺服器20、50、機櫃管理器80及虛擬機器映像檔資料庫82。其中,伺服器20與伺服器50彼此互相監控。
伺服器20包括刀鋒伺服器22、電壓感測器24、溫度感測器26、IPMC(Intelligent Platform Management Controller,智慧平台管理控制器)28、看門狗計時器30、虛擬機器管理器32、虛擬機器34、IPMI模組36、監控器38、偵錯函式庫40及看門狗更新器42。
伺服器50包括刀鋒伺服器52、電壓感測器54、溫度感測器56、IPMC 58、看門狗計時器60、虛擬機器管理器62、虛擬機器64、IPMI模組66、監控器68、偵錯函式庫70及看門狗更新器72。
本實施例以兩台伺服器來說明容錯系統及方法,但並非用以侷限本發明之應用,任何數量之伺服器皆適用於本發明之容錯系統及方法。
本實施例之容錯系統的核心為監控器38、68,監控器38、68整合虛擬機器管理器32、62及IPMI模組36、66的功能,監控器38、68讀取偵錯函式庫40、70中之資料。監控器38、68之設置係監控伺服器20、50及高可用性的虛擬機器34、64,並負責監測與執行回復的工作。
伺服器20、50分別裝有監控器38、68並且互相監控對方伺服器20、50及虛擬機器34、64的運作。舉例說明,伺服器20之監控器38執行偵測伺服器50之狀態與啟動伺服器20之備援虛擬機器。在硬體方面,伺服器20之IPMC 28會取得包括看門狗計時器30之計時結束信號、電壓感應器24感測之電壓、溫度感測器26感測之溫度及刀鋒伺服器22之FRU(Field Replaceable Unit,現場可更換單元)狀態,並透過IPMB(Intelligent Platform Management Bus,智慧平台管理匯流排)接收機櫃管理器80所傳送之伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56 感測之溫度等資料,而伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56感測之溫度等資料經由IPMC 28及IPMI模組36傳送至偵錯函式庫40,將監控器38從機櫃管理器80接收伺服器50之刀鋒伺服器52之FRU狀態及從偵錯函式庫40中讀取伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56感測之溫度等資料,監控器38依據前述之資料判斷出伺服器50發生錯誤的類型,以產生對應之回復錯誤的策略。
監控器38監控伺服器50而在其發生錯誤時,監控器38送出一備援命令至虛擬機器管理器32,由虛擬機器管理器32啟動一備援虛擬機器,並由機櫃管理器80重新啟動發生錯誤的伺服器50。
其中,伺服器20至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料,而備援虛擬機器所執行的功能與發生錯誤的伺服器之虛擬機器所執行的功能相同。
同樣地,伺服器50實施上述之操作,且監控器68監控伺服器20而在其發生錯誤時,相同於上述之操作,由虛擬機器管理器62啟動一備援虛擬機器,並由機櫃管理器80重新啟動發生錯誤的伺服器20。
容錯系統使用三種偵測方式來判斷伺服器20、50的健康狀況,分別是熱插拔檢查(Hot swap check)、感測器檢查(Sensor check)及看門狗計時器檢查(Watchdog timer check)。
使用熱插拔檢查方式以監測伺服器20、50的硬體啟動狀態,例如ATCA工業電腦上的刀鋒伺服器擁有自己的FRU狀態,監控器38、68從機櫃管理器80取得監控伺服器20、50中刀鋒伺服器 的FRU狀態,熱插拔檢查會確認這些刀鋒伺服器的FRU狀態,FRU狀態代表著目前刀鋒伺服器之硬體的運作狀態,熱插拔檢查的目的在於防止因硬體狀況(如機箱供電不足或部分硬體故障)而造成無法啟動刀鋒伺服器的情況。
感測器檢查係監測伺服器20、50之硬體的溫度及電壓,伺服器20、50上的電壓感應器24、54及溫度感測器26、56會依刀鋒伺服器之硬體設計而有不同數量。感應器檢查係針對刀鋒伺服器上各硬體元件之測量狀態,包含CPU、主機板、網路卡及電源模組。
容錯系統根據各感應器的感測值與其門檻值做為影響硬體效能的評估。若超出設定的門檻值將會實施預防硬體發生錯誤,而依感應器感測的類型做出回復及錯誤回報。
看門狗計時器檢查係監測伺服器20、50的系統運作,看門狗計時器檢查為使用ATCA工業電腦中的看門狗計時器。看門狗計時器是一種電腦硬體的計時裝置,若因伺服器當機(如作業系統當機)或未定時的清除看門狗計時器的內含計時值,這時看門狗計時器就會對容錯系統發出重設、重新開機或關閉的信號,使當機得伺服器被重新啟動。
看門狗計時器30、60可以透過IPMI模組36、66查看目前的計時值,如查詢現在的倒數的秒數,距離上次重置的時間。藉由此方式亦可得知刀鋒伺服器的狀態,如目前刀鋒伺服器正在BIOS(Basic Input Output System,基本輸入輸出系統)階段或是已經進入作業系統階段。
看門狗計時器30、60根據一計時值開始倒數,倒數結 束時看門狗計時器30、60會發出一計時結束信號。看門狗更新器42、72在經歷一重置時間後發出一重置信號至看門狗計時器30、60,以更新看門狗計時器30、60從該計時值開始倒數。其中,監控器38、68可設定看門狗更新器42、72之重置時間。
伺服器無預警關機是因為伺服器無電力供應運作,失去機箱供應電力而無法運作伺服器。熱插拔檢查及感測器檢查係偵測刀鋒伺服器在無電力供應及其FRU狀態離開M4狀態(刀鋒伺服器正常操作狀態)的情況,伺服器20、50連同虛擬機器34、64視為停止運作。原本位於發生錯誤的伺服器上的虛擬機器在作為監控之伺服器的監控器偵測到錯誤後,在監控之伺服器上啟動備援虛擬機器,並且由機櫃管理器80重新啟動發生錯誤的伺服器,並重新檢查發生錯誤的伺服器回歸正常運作。
伺服器20、50因作業系統錯誤導致所有服務及虛擬機器34、64無法運作,或因程式執行變死結或是記憶體被竄改導致作業系統無法回應,使得伺服器20、50呈現啟動狀態卻無法操作,也因此看門狗計時器30、60將不再被看門狗更新器42、72重置計時值,監控器38、68將視作業系統為無法正常運作之情況,容錯系統將重新啟動備援虛擬機器於作為監控之伺服器,並重新啟動發生錯誤的伺服器。
基於伺服器20、50的溫度感應器26、56所感測之溫度來判斷其運作溫度超過危險門檻值而可能造成硬體損壞,為了預防系統因過載導致硬體嚴重損害前,容錯系統將備援虛擬機器在作為監控之伺服器上重新啟動,並重新啟動發生錯誤的伺服器。若電壓感應器24、54所偵測到電壓超過危險門檻值,為了預防系統因電壓 異常造成損害前,容錯系統將備援虛擬機器在作為監控之伺服器上重新啟動,並關閉發生錯誤的伺服器而列為發生硬體問題伺服器。
圖3為本發明之多台伺服器之容錯方法之流程圖。在說明圖3之流程步驟時參考圖2之組件。
在圖3中,容錯系統以熱插拔檢查及感測器檢查之方式偵測伺服器無預警關機之情況(步驟S90),偵測該情況之步驟詳細描述如下。
伺服器20、50之電壓感應器24、54分別感測伺服器20、50之各個硬體的電壓。IPMC 28、58會取得電壓感應器24、54感測之各個硬體的電壓及刀鋒伺服器22、52之FRU狀態。由機櫃管理器80經由IPMB從IPMC 28、58接收電壓感應器24、54感測之各個硬體的電壓及刀鋒伺服器22、52之FRU狀態。
在本實施例中,伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料,亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料,IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料至偵錯函式庫40(或偵錯函式庫70)。
由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料,以判斷 所監控之伺服器50(或伺服器20)之刀鋒伺服器52(刀鋒伺服器22)之操作狀態是否故障或硬體之電壓是否無供應電力。
若所監控之伺服器50(或伺服器20)無預警關機是因為伺服器50(或伺服器20)無電力供應運作,或失去機箱供應電力而無法運作伺服器50(或伺服器20),熱插拔檢查及感測器檢查之方式係偵測出刀鋒伺服器52(或刀鋒伺服器22)在無電力供應及其FRU狀態離開M4狀態(刀鋒伺服器正常操作狀態)的情況,伺服器50(或伺服器20)連同虛擬機器64(或虛擬機器34)被視為停止運作。
原本位於發生錯誤的伺服器50(或伺服器20)上的虛擬機器64(或虛擬機器34)在作為監控之伺服器20(或伺服器50)的監控器38(或監控器68)或偵測到錯誤後,在監控之伺服器20(或伺服器50)上啟動備援虛擬機器,並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20),並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。
其中,伺服器20(或伺服器50)至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料,而備援虛擬機器所執行的功能與發生錯誤的伺服器50(或伺服器20)所執行的虛擬機器的功能相同。
在圖3中,容錯系統以看門狗計時器檢查之方式偵測伺服器之作業系統內部錯誤導致服務無回應之情況(步驟S92),偵測該情況之步驟詳細描述如下。
由伺服器20、50之看門狗計時器30、60從一計時值開始倒數。由伺服器20、50之看門狗更新器42、72在經歷一重置時間後發出一重置信號至看門狗計時器30、60,以更新看門狗計時器 30、60從該計時值開始倒數。
當看門狗計時器30、60倒數結束時發出一計時結束信號至IMPC28、58,機櫃管理器80經由IPMB接收由IMPC28、58傳送之計時結束信號。
在本實施例中,伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)經由IPMB讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號,亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號,IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號體之電壓之資料至監控器38(或監控器68)。
由伺服器20之監控器38(或伺服器50之監控器68)根據伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)是否發出計時結束信號來判斷所監控之伺服器50(或伺服器20)之伺服器之作業系統內部錯誤導致服務無回應之情況。
伺服器50(或伺服器20)因作業系統錯誤導致所有服務及虛擬機器64(或虛擬機器34)無法運作,或因程式執行變死結或是記憶體被竄改而導致作業系統無法回應,使得伺服器50(或伺服器20)呈現啟動狀態卻無法操作,也因此看門狗計時器60(或看門狗計時器30)將不再被看門狗更新器72(或看門狗更新器42)重置計時值,監控器38(或監控器68)將視伺服器50(或伺服器20)之作業系統為無法正常運作之情況,監控器38(或監控器68)送出一備援命令至 虛擬機器管理器32(或虛擬機器管理器62),以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器,並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20),並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。
其中,伺服器20(或伺服器50)至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料,而備援虛擬機器所執行的功能與發生錯誤的伺服器50(或伺服器20)所執行的虛擬機器的功能相同。
在圖3中,容錯系統以感測器檢查之方式偵測伺服器之溫度感測器之感測之溫度到達危險門檻值之情況(步驟S94),偵測該情況之步驟詳細描述如下。
伺服器20、50之溫度感應器26、56分別感測伺服器20、50之各個硬體的溫度。IPMC 28、58會取得溫度感應器26、56感測之各個硬體的溫度。由機櫃管理器80經由IPMB從IPMC 28、58接收溫度感應器26、56感測之各個硬體的溫度。
在本實施例中,伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之溫度之資料,亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之溫度之資料,IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之硬體之溫度之資料至偵錯函式庫40(或偵錯函式庫70)。
由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之硬體之 溫度之資料,基於伺服器50(或伺服器20)的溫度感應器56(或溫度感應器26)所感測之溫度,由監控器38(或監控器68)判斷伺服器50(或伺服器20)的運作溫度使否超過危險門檻值而可能造成伺服器50(或伺服器20)的硬體損壞。
為了預防伺服器50(或伺服器20)因過載導致其硬體嚴重損害前,若監控器38(或監控器68)判斷所監控之伺服器50(或伺服器20)之溫度到達危險門檻值,則監控器38(或監控器68)送出一備援命令至虛擬機器管理器32(或虛擬機器管理器62),以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器,並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20),並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。
其中,伺服器20(或伺服器50)至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料,而備援虛擬機器所執行的功能與發生錯誤的伺服器50(或伺服器20)所執行的虛擬機器的功能相同。
在圖3中,容錯系統以感測器檢查之方式偵測伺服器之電壓感測器所感測之電壓到達危險門檻值之情況(步驟S96),偵測該情況之步驟詳細描述如下。
伺服器20、50之電壓感應器24、54分別感測伺服器20、50之各個硬體的電壓。IPMC 28、58會取得電壓感應器24、54感測之各個硬體的電壓。由機櫃管理器80經由IPMB從IPMC 28、58接收電壓感應器24、54感測之各個硬體的電壓。
在本實施例中,伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控 之伺服器50(或伺服器20)之硬體之電壓之資料,亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之電壓之資料,IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之硬體之電壓之資料至偵錯函式庫40(或偵錯函式庫70)。
由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之硬體之電壓之資料,以判斷所監控之伺服器50(或伺服器20)之電壓是否到達危險門檻值。
若電壓感應器24、54所偵測到電壓超過危險門檻值,為了預防伺服器50(或伺服器20)因電壓異常造成損害前,則監控器38(或監控器68)送出一備援命令至虛擬機器管理器32(或虛擬機器管理器62),以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器,並關閉發生錯誤的伺服器50(或伺服器20)而列為發生硬體問題伺服器。
其中,伺服器20(或伺服器50)至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料,而備援虛擬機器所執行的功能與發生錯誤的伺服器50(或伺服器20)所執行的虛擬機器的功能相同。
本發明係提供一種多台伺服器之容錯之方法及系統,其優點係在其中一伺服器上發生錯誤後,對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等可節省大量時間,並提高系統的容錯效能,同時兼具伺服器硬體之預警偵測及伺服器回復的功能。
雖然本發明已參照較佳具體例及舉例性附圖敘述如上,惟其應不被視為係限制性者。熟悉本技藝者對其形態及具體例之內容做各種修改、省略及變化,均不離開本發明之申請專利範圍之所主張範圍。
20‧‧‧伺服器
22‧‧‧刀鋒伺服器
24‧‧‧電壓感測器
26‧‧‧溫度感測器
28‧‧‧IMPC
30‧‧‧看門狗計時器
32‧‧‧虛擬機器管理器
34‧‧‧虛擬機器
36‧‧‧IPMI模組
38‧‧‧監控器
40‧‧‧偵錯函式庫
42‧‧‧看門狗更新器
50‧‧‧伺服器
52‧‧‧刀鋒伺服器
54‧‧‧電壓感測器
56‧‧‧溫度感測器
58‧‧‧IMPC
60‧‧‧看門狗計時器
62‧‧‧虛擬機器管理器
64‧‧‧虛擬機器
66‧‧‧IPMI模組
68‧‧‧監控器
70‧‧‧偵錯函式庫
72‧‧‧看門狗更新器
80‧‧‧機櫃管理器
82‧‧‧虛擬機器映像檔資料庫

Claims (17)

  1. 一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器伺服器彼此互相監控,其中,該第一伺服器包括:一第一電壓感測器,感測該第一伺服器之各個硬體之電壓;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料,判斷所監控之該第二伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力,送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括:一第二電壓感測器,感測該第二伺服器之各個硬體之電壓;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料,判斷所監控之該第一伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料,並傳送其資料至該第一伺服器或 該第二伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
  2. 如申請專利範圍第1項之系統,進一步包括:該第一伺服器包括:一第一智慧平台管理控制器,接收刀鋒伺服器之操作狀態及該第一電壓感測器感測之電壓之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;一第一智慧平台管理介面模組,接收該第一智慧平台管理控制器傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;一第一偵錯函式庫,儲存由該第一智慧平台管理介面模組所傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;以及該第一監控器,讀取在該第一偵錯函式庫中之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;該第二伺服器包括:一第二智慧平台管理控制器,接收刀鋒伺服器之操作狀態及該第二電壓感測器感測之電壓之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料;一第二智慧平台管理介面模組,接收該第二智慧平台管理控制器傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料; 一第二偵錯函式庫,儲存由該第二智慧平台管理介面模組所傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料;以及該第二監控器,讀取在該第二偵錯函式庫中之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料。
  3. 如申請專利範圍第1項之系統,進一步包括:一虛擬機器映像檔資料庫,儲存該第一伺服器及該第二伺服器之虛擬機器之執行資料,由該第一伺服器或該第二伺服器讀取相應該備援虛擬機器之虛擬機器之執行資料。
  4. 一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該第一伺服器包括:一第一看門狗計時器,從一計時值開始倒數,倒數結束時發出一計時結束信號;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;一第一看門狗更新器,在經歷一重置時間後發出一重置信號至該第一看門狗計時器,以更新該第一看門狗計時器從該計時值開始倒數;以及一第一監控器,接收由該第一伺服器監控之該第二伺服器傳送之該計時結束信號,根據該計時結束信號送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括: 一第二看門狗計時器,根據該計時值開始倒數,倒數結束時發出該計時結束信號;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;一第二看門狗更新器,在經歷該重置時間後發出該重置信號至該第二看門狗計時器,以更新該第二看門狗計時器從該計時值開始倒數;以及一第二監控器,接收由該第二伺服器監控之該第一伺服器傳送之該計時結束信號,根據該計時結束信號送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之該計時結束信號,並傳送該計時結束信號至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
  5. 如申請專利範圍第4項之系統,進一步包括:該第一伺服器包括:一第一智慧平台管理控制器,接收該第一看門狗計時器發出之該計時結束信號,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第一伺服器監控之該第二伺服器之該計時結束信號;一第一智慧平台管理介面模組,接收該第一智慧平台管理控制器傳送之由該第一伺服器監控之該第二伺服器之該計時結束信號;以及該第一監控器,接收該第一智慧平台管理介面模組傳送之由該第一伺服器監控之該第二伺服器之該計時結束信號;該第二伺服器包括: 一第二智慧平台管理控制器,接收該第二看門狗計時器發出之該計時結束信號,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第二伺服器監控之該第一伺服器之該計時結束信號;一第二智慧平台管理介面模組,接收該第二智慧平台管理控制器傳送之由該第二伺服器監控之該第一伺服器之該計時結束信號;以及該第二監控器,接收該第二伺服器監控傳送之由該第二伺服器監控之該第一伺服器之該計時結束信號。
  6. 如申請專利範圍第4項之系統,進一步包括:一虛擬機器映像檔資料庫,儲存該第一伺服器及該第二伺服器之虛擬機器之執行資料,由該第一伺服器或該第二伺服器讀取相應該備援虛擬機器之虛擬機器之執行資料。
  7. 一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該一第一伺服器包括:一第一電壓感測器,感測該第一伺服器之各個硬體之電壓;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳送之硬體之電壓之資料,判斷所監控之該第二伺服器之硬體之電壓是否到達一危險門檻值,送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括: 一第二電壓感測器,感測該第二伺服器之各個硬體之電壓;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之其硬體之電壓之資料,判斷所監控之該第一伺服器之硬體之電壓是否到達一危險門檻值,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之硬體之電壓之資料,並傳送其資料至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
  8. 如申請專利範圍第7項之系統,進一步包括:該第一伺服器包括:一第一智慧平台管理控制器,接收該第一電壓感測器感測之電壓之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;一第一智慧平台管理介面模組,接收該第一智慧平台管理控制器傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;一第一偵錯函式庫,儲存由該第一智慧平台管理介面模組所傳送之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;以及該第一監控器,讀取在該第一偵錯函式庫中之由該第一伺服器監控之該第二伺服器之硬體之電壓之資料;該第二伺服器包括: 一第二智慧平台管理控制器,接收該第二電壓感測器感測之電壓之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料;一第二智慧平台管理介面模組,接收該第二智慧平台管理控制器傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料;一第二偵錯函式庫,儲存由該第二智慧平台管理介面模組所傳送之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料;以及該第二監控器,讀取在該第二偵錯函式庫中之由該第二伺服器監控之該第一伺服器之硬體之電壓之資料。
  9. 如申請專利範圍第7項之系統,進一步包括:一虛擬機器映像檔資料庫,儲存該第一伺服器及該第二伺服器之虛擬機器之執行資料,由該第一伺服器或該第二伺服器讀取相應該備援虛擬機器之虛擬機器之執行資料。
  10. 一種多台伺服器之容錯之系統,該系統包括一第一伺服器、一第二伺服器及一機櫃管理器,該第一伺服器與該第二伺服器彼此互相監控,其中,該第一伺服器包括:一第一溫度感測器,感測該第一伺服器之溫度;一第一虛擬機器管理器,管理該第一伺服器中之虛擬機器的操作;以及一第一監控器,讀取由該第一伺服器監控之該第二伺服器傳送之溫度之資料,判斷所監控之該第二伺服器之溫度是否到達一危險 門檻值,送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器;該第二伺服器包括:一第二溫度感測器,感測該第二伺服器之溫度;一第二虛擬機器管理器,管理該第二伺服器中之虛擬機器的操作;以及一第二監控器,讀取由該第二伺服器監控之該第一伺服器傳送之溫度之資料,判斷所監控之該第一伺服器之溫度是否到達一危險門檻值,送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器;以及該機櫃管理器,接收該第一伺服器及該第二伺服器之溫度之資料,並傳送其資料至該第一伺服器或該第二伺服器之伺服器,重新啟動發生故障之該第一伺服器或該第二伺服器。
  11. 如申請專利範圍第10項之系統,進一步包括:該第一伺服器包括:一第一智慧平台管理控制器,接收該第一溫度感測器感測之溫度之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第一伺服器監控之該第二伺服器之溫度之資料;一第一智慧平台管理介面模組,接收該第一智慧平台管理控制器傳送之由該第一伺服器監控之該第二伺服器之溫度之資料;一第一偵錯函式庫,儲存由該第一智慧平台管理介面模組所傳送之由該第一伺服器監控之該第二伺服器之溫度之資料;以及該第一監控器,讀取在該第一偵錯函式庫中之由該第一伺服器監控之該第二伺服器之溫度之資料; 該第二伺服器包括:一第二智慧平台管理控制器,接收該第二電壓感測器感測之溫度之資料,並傳送至該機櫃管理器,及接收該機櫃管理器傳送之由該第二伺服器監控之該第一伺服器之溫度之資料;一第二智慧平台管理介面模組,接收該第二智慧平台管理控制器傳送之由該第二伺服器監控之該第一伺服器之溫度之資料;一第二偵錯函式庫,儲存由該第二智慧平台管理介面模組所傳送之由該第二伺服器監控之該第一伺服器之溫度之資料;以及該第二監控器,讀取在該第二偵錯函式庫中之由該第二伺服器監控之該第一伺服器之溫度之資料。
  12. 如申請專利範圍第10項之系統,進一步包括:一虛擬機器映像檔資料庫,儲存該第一伺服器及該第二伺服器之虛擬機器之執行資料,由該第一伺服器或該第二伺服器讀取相應該備援虛擬機器之虛擬機器之執行資料。
  13. 一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其各個硬體之電壓;由一機櫃管理器接收每一伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料,由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料;由該監控伺服器判斷所監控之伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力,若所監控之伺服器之刀鋒伺服器之操作狀態為故障或硬體之電壓無供應電力,則由該監控伺服器啟動一備援虛擬機器;以及 由該機櫃管理器重新啟動故障之伺服器。
  14. 一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器之一看門狗計時器從一計時值開始倒數;由每一伺服器在經歷一重置時間後發出一重置信號至相應之該看門狗計時器,以更新相應之該看門狗計時器從該計時值開始倒數;當該看門狗計時器倒數結束時由該看門狗計時器發出一計時結束信號至一機櫃管理器;若一監控伺服器接收該機櫃管理器中所監控之伺服器之該看門狗計時器發出之該計時結束信號,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
  15. 一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其各個硬體之電壓;由一機櫃管理器接收每一伺服器之硬體之電壓之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其硬體之電壓之資料;由該監控伺服器判斷所監控之伺服器之硬體之電壓是否到達一危險門檻值;若所監控之伺服器之硬體之電壓到達該危險門檻值,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
  16. 一種多台伺服器之容錯之方法,該方法包括下列步驟:由每一伺服器感測其溫度; 由一機櫃管理器接收每一伺服器之溫度之資料;由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其溫度之資料;由該監控伺服器判斷所監控之伺服器之溫度是否到達一危險門檻值;若所監控之伺服器之溫度到達該危險門檻值,則由該監控伺服器啟動一備援虛擬機器;以及由該機櫃管理器重新啟動故障之伺服器。
  17. 如申請專利範圍第13至16項中任一項之方法,其中,在由該監控伺服器啟動該備援虛擬機器之步驟中包括:由該監控伺服器至一虛擬機器映像檔資料庫讀取相應該備援虛擬機器之虛擬機器之執行資料。
TW104108745A 2015-03-19 2015-03-19 Method and system of fault tolerance for multiple servers TWI529624B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104108745A TWI529624B (zh) 2015-03-19 2015-03-19 Method and system of fault tolerance for multiple servers
US15/073,744 US20160277271A1 (en) 2015-03-19 2016-03-18 Fault tolerant method and system for multiple servers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104108745A TWI529624B (zh) 2015-03-19 2015-03-19 Method and system of fault tolerance for multiple servers

Publications (2)

Publication Number Publication Date
TWI529624B TWI529624B (zh) 2016-04-11
TW201635142A true TW201635142A (zh) 2016-10-01

Family

ID=56361448

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104108745A TWI529624B (zh) 2015-03-19 2015-03-19 Method and system of fault tolerance for multiple servers

Country Status (2)

Country Link
US (1) US20160277271A1 (zh)
TW (1) TWI529624B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI760398B (zh) * 2017-12-13 2022-04-11 英業達股份有限公司 伺服器系統

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109565448B (zh) * 2016-06-16 2022-09-09 瑞典爱立信有限公司 用于解决链路故障的方法、介质、计算单元和系统
US10270678B2 (en) * 2016-08-30 2019-04-23 SK Hynix Inc. System including master device and slave device, and operation method of the system
CN107066480B (zh) 2016-12-20 2020-08-11 创新先进技术有限公司 主备数据库的管理方法、系统及其设备
CN107171849B (zh) * 2017-05-31 2020-03-31 郑州云海信息技术有限公司 一种虚拟机集群的故障监控方法及装置
CN109992466B (zh) * 2017-12-29 2022-09-16 迈普通信技术股份有限公司 虚拟机故障检测方法、装置、计算机可读存储介质及电子设备
CN110471800B (zh) * 2018-05-11 2023-06-06 佛山市顺德区顺达电脑厂有限公司 服务器及自动检修基板管理控制器的方法
US10860442B2 (en) * 2018-06-01 2020-12-08 Datto, Inc. Systems, methods and computer readable media for business continuity and disaster recovery (BCDR)
TWI764342B (zh) * 2020-10-27 2022-05-11 英業達股份有限公司 啟動狀態偵測系統及其方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7233877B2 (en) * 2003-08-29 2007-06-19 Sun Microsystems, Inc. System health monitoring
US8250382B2 (en) * 2007-08-22 2012-08-21 International Business Machines Corporation Power control of servers using advanced configuration and power interface (ACPI) states
WO2009108943A2 (en) * 2008-02-29 2009-09-03 Doyenz Incorporated Automation for virtualized it environments
CN101938368A (zh) * 2009-06-30 2011-01-05 国际商业机器公司 刀片服务器系统中的虚拟机管理器和虚拟机处理方法
JPWO2012053110A1 (ja) * 2010-10-22 2014-02-24 富士通株式会社 障害監視装置、障害監視方法及びプログラム
US20120215904A1 (en) * 2011-02-22 2012-08-23 Bank Of America Corporation Backup System Monitor
WO2013094006A1 (ja) * 2011-12-19 2013-06-27 富士通株式会社 プログラム、情報処理装置および方法
US10693955B2 (en) * 2013-12-14 2020-06-23 Netapp, Inc. Techniques for SAN storage cluster synchronous disaster recovery
US9842033B2 (en) * 2014-11-12 2017-12-12 Netapp, Inc. Storage cluster failure detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI760398B (zh) * 2017-12-13 2022-04-11 英業達股份有限公司 伺服器系統

Also Published As

Publication number Publication date
TWI529624B (zh) 2016-04-11
US20160277271A1 (en) 2016-09-22

Similar Documents

Publication Publication Date Title
TWI529624B (zh) Method and system of fault tolerance for multiple servers
CN105589776B (zh) 一种故障定位方法及服务器
US7337243B2 (en) Redundant system management controllers
CN108780412B (zh) 计算系统中的存储器备份管理
JP4345334B2 (ja) 耐障害計算機システム、プログラム並列実行方法およびプログラム
AU2020285262B2 (en) Error recovery method and apparatus
US20020152425A1 (en) Distributed restart in a multiple processor system
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
EP2518627B1 (en) Partial fault processing method in computer system
KR20000011835A (ko) 네트워크의분산애플리케이션에대한고장검출및소정의복제스타일로복구하는방법및장치
US7434102B2 (en) High density compute center resilient booting
CN115617550A (zh) 处理设备、控制单元、电子设备、方法和计算机程序
KR100928187B1 (ko) 듀얼 프로세서 제어 장치의 고장 안전 구조
WO2015188619A1 (zh) 物理主机故障检测方法、装置及虚机管理方法、系统
Wang et al. Virtual machines of high availability using hardware-assisted failure detection
JP2015106226A (ja) 二重化システム
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
US20230216607A1 (en) Systems and methods to initiate device recovery
JPWO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
US11042443B2 (en) Fault tolerant computer systems and methods establishing consensus for which processing system should be the prime string
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
US20170308469A1 (en) Resource Processing Method and Device for Multi-controller System
US7676682B2 (en) Lightweight management and high availability controller
JP2016009499A (ja) 相互接続を管理する方法およびシステム
CN112256494A (zh) 一种存储故障节点业务切换方法、系统、终端及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees