TW201635142A

TW201635142A - 多台伺服器之容錯之方法及系統

Info

Publication number: TW201635142A
Application number: TW104108745A
Authority: TW
Inventors: Wei-Jen Wang; De-Ron Liang; Ching-Hwa Lee
Original assignee: Univ Nat Central
Priority date: 2015-03-19
Filing date: 2015-03-19
Publication date: 2016-10-01
Also published as: TWI529624B; US20160277271A1

Abstract

一種多台伺服器之容錯之方法，該方法包括下列步驟：由每一伺服器感測其各個硬體之電壓；由一機櫃管理器接收每一伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料；由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料；由該監控伺服器判斷所監控之伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力；若所監控之伺服器之刀鋒伺服器之操作狀態為故障或硬體之電壓無供應電力，則由該監控伺服器啟動一備援虛擬機器；以及由該機櫃管理器重新啟動故障之伺服器。

Description

多台伺服器之容錯之方法及系統

本發明有關於電腦之技術領域，特別有關於一種多台伺服器之容錯之方法及系統。

圖1為習知VMware電腦叢集之系統方塊圖。在圖1中，VMware(虛擬機器開發商)的高可用性(high availability)會將要保護如伺服器的主機(host)組成叢集(cluster)，並且在叢集中所有的主機進行選舉選出一個主要主機(master host)10，一個主機連接越多的資料儲存裝置(datastore)12、14越容易被選為主要主機10，資料儲存裝置12、14是一個虛擬機器映像檔的儲存位置，儲存位置可以是虛擬機器檔案系統(Virtual Machine File System)、網路連接儲存設備檔案目錄或本地端的儲存設備檔案目錄，每一個叢集中只有一個主要主機10，而其它的主機是從屬主機(slave host)16，所有從屬主機16會傳送一連結信號給主要主機10，而且也會送連結信號給兩個(可設定數量)其所連接資料儲存裝置12、14。

如果主要主機10不能連結上從屬主機16，主要主機10會詢問從屬主機16，要是從屬主機16不回應該詢問，主要主機10改成檢查資料儲存裝置12、14是否有收到該從屬主機16的連結信號，若主要主機10發現全部資料儲存裝置12、14都沒收到從屬主機16的連結信號，則認定該從屬主機16發生錯誤，而在別的主機上進行虛擬機器的重新啟動；若主要主機10發現資料儲存裝置12、14收到從屬主機16的連結信號，則認定是網路分區(network partitions)而不進行復原程序，此時VMware減少部分高可用性功能(degradation)。

習知VMware電腦叢集之系統中如伺服器之主機執行使用者的虛擬機器，在主機上發生錯誤後，對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等需要耗費較多時間，而使系統的容錯效能不佳。

有鑒於上述問題，本發明之目的係提供一種多台伺服器之容錯之方法及系統，在其中一伺服器上發生錯誤後，對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等可節省大量時間，並提高系統的容錯效能，同時兼具伺服器硬體之預警偵測及伺服器回復的功能。

本發明之第一態樣係一種多台伺服器之容錯之系統，該系統包括一第一伺服器、一第二伺服器及一機櫃管理器，該第一伺服器與該第二伺服器彼此互相監控，其中，該第一伺服器包括：一第一電壓感測器，感測該第一伺服器之各個硬體之電壓；一第一虛擬機器管理器，管理該第一伺服器中之虛擬機器的操作；以及一第一監控器，讀取由該第一伺服器監控之該第二伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料，判斷所監控之該第二伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力，送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器；該第二伺服器包括：一第二電壓感測器，感測該第二伺服器之各個硬體之電壓；一第二虛擬機器管理器，管理該第二伺服器中之虛擬機器的操作；以及一第二監控器，讀取由該第二伺服器監控之該第一伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料，判斷所監控之該第一伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力，送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器；以及該機櫃管理器，接收該第一伺服器及該第二伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料，並傳送其資料至該第一伺服器或該第二伺服器，重新啟動發生故障之該第一伺服器或該第二伺服器。

本發明之第二樣係一種多台伺服器之容錯之系統，該系統包括一第一伺服器、一第二伺服器及一機櫃管理器，該第一伺服器與該第二伺服器彼此互相監控，其中，該第一伺服器包括：一第一看門狗計時器，從一計時值開始倒數，倒數結束時發出一計時結束信號；一第一虛擬機器管理器，管理該第一伺服器中之虛擬機器的操作；一第一看門狗更新器，在經歷一重置時間後發出一重置信號至該第一看門狗計時器，以更新該第一看門狗計時器從該計時值開始倒數；以及一第一監控器，接收由該第一伺服器監控之該第二伺服器傳送之該計時結束信號，根據該計時結束信號送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器；該第二伺服器包括：一第二看門狗計時器，根據該計時值開始倒數，倒數結束時發出該計時結束信號；一第二虛擬機器管理器，管理該第二伺服器中之虛擬機器的操作；一第二看門狗更新器，在經歷該重置時間後發出該重置信號至該第二看門狗計時器，以更新該第二看門狗計時器從該計時值開始倒數；以及一第二監控器，接收由該第二伺服器監控之該第一伺服器傳送之該計時結束信號，根據該計時結束信號送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器；以及該機櫃管理器，接收該第一伺服器及該第二伺服器之該計時結束信號，並傳送該計時結束信號至該第一伺服器或該第二伺服器之伺服器，重新啟動發生故障之該第一伺服器或該第二伺服器。

本發明之第三態樣係一種多台伺服器之容錯之系統，該系統包括一第一伺服器、一第二伺服器及一機櫃管理器，該第一伺服器與該第二伺服器彼此互相監控，其中，該一第一伺服器包括：一第一電壓感測器，感測該第一伺服器之各個硬體之電壓；一第一虛擬機器管理器，管理該第一伺服器中之虛擬機器的操作；以及一第一監控器，讀取由該第一伺服器監控之該第二伺服器傳送之硬體之電壓之資料，判斷所監控之該第二伺服器之硬體之電壓是否到達一危險門檻值，送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器；該第二伺服器包括：一第二電壓感測器，感測該第二伺服器之各個硬體之電壓；一第二虛擬機器管理器，管理該第二伺服器中之虛擬機器的操作；以及一第二監控器，讀取由該第二伺服器監控之該第一伺服器傳送之其硬體之電壓之資料，判斷所監控之該第一伺服器之硬體之電壓是否到達一危險門檻值，送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器；以及該機櫃管理器，接收該第一伺服器及該第二伺服器之硬體之電壓之資料，並傳送其資料至該第一伺服器或該第二伺服器之伺服器，重新啟動發生故障之該第一伺服器或該第二伺服器。

本發明之第四態樣係一種多台伺服器之容錯之系統，該系統包括一第一伺服器、一第二伺服器及一機櫃管理器，該第一伺服器與該第二伺服器彼此互相監控，其中，該第一伺服器包括：一第一溫度感測器，感測該第一伺服器之溫度；一第一虛擬機器管理器，管理該第一伺服器中之虛擬機器的操作；以及一第一監控器，讀取由該第一伺服器監控之該第二伺服器傳送之溫度之資料，判斷所監控之該第二伺服器之溫度是否到達一危險門檻值，送出一備援命令至該第一虛擬機器管理器以使其啟動一備援虛擬機器；該第二伺服器包括：一第二溫度感測器，感測該第二伺服器之溫度；一第二虛擬機器管理器，管理該第二伺服器中之虛擬機器的操作；以及一第二監控器，讀取由該第二伺服器監控之該第一伺服器傳送之溫度之資料，判斷所監控之該第一伺服器之溫度是否到達一危險門檻值，送出該備援命令至該第二虛擬機器管理器以使其啟動該備援虛擬機器；以及該機櫃管理器，接收該第一伺服器及該第二伺服器之溫度之資料，並傳送其資料至該第一伺服器或該第二伺服器之伺服器，重新啟動發生故障之該第一伺服器或該第二伺服器。

本發明之第五態樣係一種多台伺服器之容錯之方法，該方法包括下列步驟：由每一伺服器感測其各個硬體之電壓；由一機櫃管理器接收每一伺服器之刀鋒伺服器之操作狀態及硬體之電壓之資料；由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其刀鋒伺服器之操作狀態及其硬體之電壓之資料；由該監控伺服器判斷所監控之伺服器之刀鋒伺服器之操作狀態是否故障或硬體之電壓是否無供應電力；若所監控之伺服器之刀鋒伺服器之操作狀態為故障或硬體之電壓無供應電力，則由該監控伺服器啟動一備援虛擬機器；以及由該機櫃管理器重新啟動故障之伺服器。

本發明之第六態樣係一種多台伺服器之容錯之方法，該方法包括下列步驟：由每一伺服器之一看門狗計時器從一計時值開始倒數；由每一伺服器在經歷一重置時間後發出一重置信號至相應之該看門狗計時器，以更新相應之該看門狗計時器從該計時值開始倒數；當該看門狗計時器倒數結束時由該看門狗計時器發出一計時結束信號至一機櫃管理器；若一監控伺服器接收該機櫃管理器中所監控之伺服器之該看門狗計時器發出之該計時結束信號，則由該監控伺服器啟動一備援虛擬機器；以及由該機櫃管理器重新啟動故障之伺服器。

本發明之第七態樣係一種多台伺服器之容錯之方法，該方法包括下列步驟：由每一伺服器感測其各個硬體之電壓；由一機櫃管理器接收每一伺服器之硬體之電壓之資料；由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其硬體之電壓之資料；由該監控伺服器判斷所監控之伺服器之硬體之電壓是否到達一危險門檻值；若所監控之伺服器之硬體之電壓到達該危險門檻值，則由該監控伺服器啟動一備援虛擬機器；以及由該機櫃管理器重新啟動故障之伺服器。

本發明之第八態樣係一種多台伺服器之容錯之方法，該方法包括下列步驟：由每一伺服器感測其溫度；由一機櫃管理器接收每一伺服器之溫度之資料；由一監控伺服器讀取該機櫃管理器中受監控之伺服器傳送之其溫度之資料；由該監控伺服器判斷所監控之伺服器之溫度是否到達一危險門檻值；若所監控之伺服器之溫度到達該危險門檻值，則由該監控伺服器啟動一備援虛擬機器；以及由該機櫃管理器重新啟動故障之伺服器。

10‧‧‧主要主機

12‧‧‧資料儲存裝置

14‧‧‧資料儲存裝置

16‧‧‧從屬主機

20‧‧‧伺服器

22‧‧‧刀鋒伺服器

24‧‧‧電壓感測器

26‧‧‧溫度感測器

28‧‧‧IMPC

30‧‧‧看門狗計時器

32‧‧‧虛擬機器管理器

34‧‧‧虛擬機器

36‧‧‧IPMI模組

38‧‧‧監控器

40‧‧‧偵錯函式庫

42‧‧‧看門狗更新器

50‧‧‧伺服器

52‧‧‧刀鋒伺服器

54‧‧‧電壓感測器

56‧‧‧溫度感測器

58‧‧‧IMPC

60‧‧‧看門狗計時器

62‧‧‧虛擬機器管理器

64‧‧‧虛擬機器

66‧‧‧IPMI模組

68‧‧‧監控器

70‧‧‧偵錯函式庫

72‧‧‧看門狗更新器

80‧‧‧機櫃管理器

82‧‧‧虛擬機器映像檔資料庫

圖1為習知VMware電腦叢集之系統方塊圖；圖2為本發明之多台伺服器之容錯系統之方塊圖；以及圖3為本發明之多台伺服器之容錯方法之流程圖。

為使熟習本發明所屬技術領域之一般技藝者能更進一步了解本發明，下文特列舉本發明之較佳實施例，並配合所附圖式，詳細說明本發明的構成內容及所欲達成之功效。

統一整合在ATCA(Advanced Telecommunications Computing Architecture)工業電腦會發生錯誤的類型、描述錯誤類型的種類、根據不同方式偵測到的錯誤、並對應不同的回復策略。其中先進復原處理器(Advanced recovery handler)是處理複雜的錯誤需要對應的回復策略，容錯系統無法針對所有錯誤復原，若有相對應的回復策略則能藉由此方法套用。容錯系統會嘗試去重新啟動在伺服器中之刀鋒伺服器，並設置回復時間逾時及重新啟動次數，若超出回復的限制則會回報給伺服器，其因何種錯誤類型而不能運作。

虛擬化技術(Virtualization Technology)被廣泛的運用，使實體伺服器可以邏輯上切割成數台虛擬機器來提供不同類型的服務。然而虛擬化技術卻會因各種原因的錯誤而造成服務中斷，例如實體機器的故障會影響執行於其上的虛擬機器，導致虛擬機器的可用性下降，連帶影響使用者使用該虛擬機器上的服務。

雖然在一般電腦架構下所能偵測的錯誤及方式有限，但若在支援IPMI(Intelligent Platform Management Interface，智慧平台管理介面)硬體的ATCA工業電腦架構下，可以利用IPMI快速偵測硬體的現狀並快速解決問題。

整合ATCA工業電腦與虛擬機器管理器之虛擬化技術以提出一個對稱型的容錯系統。容錯系統藉由ATCA硬體加速偵測伺服器錯誤的能力，快速的將偵測到的錯誤分類且尋找出對應的回復機制。然後，容錯系統會將發生錯誤的伺服器上的虛擬機器在備援伺服器上相應之虛擬機器予以回復，以減輕單點(伺服器)故障對虛擬機器的影響。

圖2為本發明之多台伺服器之容錯系統之方塊圖。在圖2中，容錯系統包括伺服器20、50、機櫃管理器80及虛擬機器映像檔資料庫82。其中，伺服器20與伺服器50彼此互相監控。

伺服器20包括刀鋒伺服器22、電壓感測器24、溫度感測器26、IPMC(Intelligent Platform Management Controller，智慧平台管理控制器)28、看門狗計時器30、虛擬機器管理器32、虛擬機器34、IPMI模組36、監控器38、偵錯函式庫40及看門狗更新器42。

伺服器50包括刀鋒伺服器52、電壓感測器54、溫度感測器56、IPMC 58、看門狗計時器60、虛擬機器管理器62、虛擬機器64、IPMI模組66、監控器68、偵錯函式庫70及看門狗更新器72。

本實施例以兩台伺服器來說明容錯系統及方法，但並非用以侷限本發明之應用，任何數量之伺服器皆適用於本發明之容錯系統及方法。

本實施例之容錯系統的核心為監控器38、68，監控器38、68整合虛擬機器管理器32、62及IPMI模組36、66的功能，監控器38、68讀取偵錯函式庫40、70中之資料。監控器38、68之設置係監控伺服器20、50及高可用性的虛擬機器34、64，並負責監測與執行回復的工作。

伺服器20、50分別裝有監控器38、68並且互相監控對方伺服器20、50及虛擬機器34、64的運作。舉例說明，伺服器20之監控器38執行偵測伺服器50之狀態與啟動伺服器20之備援虛擬機器。在硬體方面，伺服器20之IPMC 28會取得包括看門狗計時器30之計時結束信號、電壓感應器24感測之電壓、溫度感測器26感測之溫度及刀鋒伺服器22之FRU(Field Replaceable Unit，現場可更換單元)狀態，並透過IPMB(Intelligent Platform Management Bus，智慧平台管理匯流排)接收機櫃管理器80所傳送之伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56 感測之溫度等資料，而伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56感測之溫度等資料經由IPMC 28及IPMI模組36傳送至偵錯函式庫40，將監控器38從機櫃管理器80接收伺服器50之刀鋒伺服器52之FRU狀態及從偵錯函式庫40中讀取伺服器50之看門狗計時器60之計時結束信號、電壓感應器54感測之電壓、溫度感測器56感測之溫度等資料，監控器38依據前述之資料判斷出伺服器50發生錯誤的類型，以產生對應之回復錯誤的策略。

監控器38監控伺服器50而在其發生錯誤時，監控器38送出一備援命令至虛擬機器管理器32，由虛擬機器管理器32啟動一備援虛擬機器，並由機櫃管理器80重新啟動發生錯誤的伺服器50。

其中，伺服器20至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料，而備援虛擬機器所執行的功能與發生錯誤的伺服器之虛擬機器所執行的功能相同。

同樣地，伺服器50實施上述之操作，且監控器68監控伺服器20而在其發生錯誤時，相同於上述之操作，由虛擬機器管理器62啟動一備援虛擬機器，並由機櫃管理器80重新啟動發生錯誤的伺服器20。

容錯系統使用三種偵測方式來判斷伺服器20、50的健康狀況，分別是熱插拔檢查(Hot swap check)、感測器檢查(Sensor check)及看門狗計時器檢查(Watchdog timer check)。

使用熱插拔檢查方式以監測伺服器20、50的硬體啟動狀態，例如ATCA工業電腦上的刀鋒伺服器擁有自己的FRU狀態，監控器38、68從機櫃管理器80取得監控伺服器20、50中刀鋒伺服器的FRU狀態，熱插拔檢查會確認這些刀鋒伺服器的FRU狀態，FRU狀態代表著目前刀鋒伺服器之硬體的運作狀態，熱插拔檢查的目的在於防止因硬體狀況(如機箱供電不足或部分硬體故障)而造成無法啟動刀鋒伺服器的情況。

感測器檢查係監測伺服器20、50之硬體的溫度及電壓，伺服器20、50上的電壓感應器24、54及溫度感測器26、56會依刀鋒伺服器之硬體設計而有不同數量。感應器檢查係針對刀鋒伺服器上各硬體元件之測量狀態，包含CPU、主機板、網路卡及電源模組。

容錯系統根據各感應器的感測值與其門檻值做為影響硬體效能的評估。若超出設定的門檻值將會實施預防硬體發生錯誤，而依感應器感測的類型做出回復及錯誤回報。

看門狗計時器檢查係監測伺服器20、50的系統運作，看門狗計時器檢查為使用ATCA工業電腦中的看門狗計時器。看門狗計時器是一種電腦硬體的計時裝置，若因伺服器當機(如作業系統當機)或未定時的清除看門狗計時器的內含計時值，這時看門狗計時器就會對容錯系統發出重設、重新開機或關閉的信號，使當機得伺服器被重新啟動。

看門狗計時器30、60可以透過IPMI模組36、66查看目前的計時值，如查詢現在的倒數的秒數，距離上次重置的時間。藉由此方式亦可得知刀鋒伺服器的狀態，如目前刀鋒伺服器正在BIOS(Basic Input Output System，基本輸入輸出系統)階段或是已經進入作業系統階段。

看門狗計時器30、60根據一計時值開始倒數，倒數結束時看門狗計時器30、60會發出一計時結束信號。看門狗更新器42、72在經歷一重置時間後發出一重置信號至看門狗計時器30、60，以更新看門狗計時器30、60從該計時值開始倒數。其中，監控器38、68可設定看門狗更新器42、72之重置時間。

伺服器無預警關機是因為伺服器無電力供應運作，失去機箱供應電力而無法運作伺服器。熱插拔檢查及感測器檢查係偵測刀鋒伺服器在無電力供應及其FRU狀態離開M4狀態(刀鋒伺服器正常操作狀態)的情況，伺服器20、50連同虛擬機器34、64視為停止運作。原本位於發生錯誤的伺服器上的虛擬機器在作為監控之伺服器的監控器偵測到錯誤後，在監控之伺服器上啟動備援虛擬機器，並且由機櫃管理器80重新啟動發生錯誤的伺服器，並重新檢查發生錯誤的伺服器回歸正常運作。

伺服器20、50因作業系統錯誤導致所有服務及虛擬機器34、64無法運作，或因程式執行變死結或是記憶體被竄改導致作業系統無法回應，使得伺服器20、50呈現啟動狀態卻無法操作，也因此看門狗計時器30、60將不再被看門狗更新器42、72重置計時值，監控器38、68將視作業系統為無法正常運作之情況，容錯系統將重新啟動備援虛擬機器於作為監控之伺服器，並重新啟動發生錯誤的伺服器。

基於伺服器20、50的溫度感應器26、56所感測之溫度來判斷其運作溫度超過危險門檻值而可能造成硬體損壞，為了預防系統因過載導致硬體嚴重損害前，容錯系統將備援虛擬機器在作為監控之伺服器上重新啟動，並重新啟動發生錯誤的伺服器。若電壓感應器24、54所偵測到電壓超過危險門檻值，為了預防系統因電壓異常造成損害前，容錯系統將備援虛擬機器在作為監控之伺服器上重新啟動，並關閉發生錯誤的伺服器而列為發生硬體問題伺服器。

圖3為本發明之多台伺服器之容錯方法之流程圖。在說明圖3之流程步驟時參考圖2之組件。

在圖3中，容錯系統以熱插拔檢查及感測器檢查之方式偵測伺服器無預警關機之情況(步驟S90)，偵測該情況之步驟詳細描述如下。

伺服器20、50之電壓感應器24、54分別感測伺服器20、50之各個硬體的電壓。IPMC 28、58會取得電壓感應器24、54感測之各個硬體的電壓及刀鋒伺服器22、52之FRU狀態。由機櫃管理器80經由IPMB從IPMC 28、58接收電壓感應器24、54感測之各個硬體的電壓及刀鋒伺服器22、52之FRU狀態。

在本實施例中，伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料，亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料，IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料至偵錯函式庫40(或偵錯函式庫70)。

由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之刀鋒伺服器52(或刀鋒伺服器22)之操作狀態及硬體之電壓之資料，以判斷所監控之伺服器50(或伺服器20)之刀鋒伺服器52(刀鋒伺服器22)之操作狀態是否故障或硬體之電壓是否無供應電力。

若所監控之伺服器50(或伺服器20)無預警關機是因為伺服器50(或伺服器20)無電力供應運作，或失去機箱供應電力而無法運作伺服器50(或伺服器20)，熱插拔檢查及感測器檢查之方式係偵測出刀鋒伺服器52(或刀鋒伺服器22)在無電力供應及其FRU狀態離開M4狀態(刀鋒伺服器正常操作狀態)的情況，伺服器50(或伺服器20)連同虛擬機器64(或虛擬機器34)被視為停止運作。

原本位於發生錯誤的伺服器50(或伺服器20)上的虛擬機器64(或虛擬機器34)在作為監控之伺服器20(或伺服器50)的監控器38(或監控器68)或偵測到錯誤後，在監控之伺服器20(或伺服器50)上啟動備援虛擬機器，並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20)，並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。

其中，伺服器20(或伺服器50)至虛擬機器映像檔資料庫82讀取相應之備援虛擬機器之執行資料，而備援虛擬機器所執行的功能與發生錯誤的伺服器50(或伺服器20)所執行的虛擬機器的功能相同。

在圖3中，容錯系統以看門狗計時器檢查之方式偵測伺服器之作業系統內部錯誤導致服務無回應之情況(步驟S92)，偵測該情況之步驟詳細描述如下。

由伺服器20、50之看門狗計時器30、60從一計時值開始倒數。由伺服器20、50之看門狗更新器42、72在經歷一重置時間後發出一重置信號至看門狗計時器30、60，以更新看門狗計時器 30、60從該計時值開始倒數。

當看門狗計時器30、60倒數結束時發出一計時結束信號至IMPC28、58，機櫃管理器80經由IPMB接收由IMPC28、58傳送之計時結束信號。

在本實施例中，伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)經由IPMB讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號，亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號，IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)之計時結束信號體之電壓之資料至監控器38(或監控器68)。

由伺服器20之監控器38(或伺服器50之監控器68)根據伺服器50(或伺服器20)之看門狗計時器60(或看門狗計時器30)是否發出計時結束信號來判斷所監控之伺服器50(或伺服器20)之伺服器之作業系統內部錯誤導致服務無回應之情況。

伺服器50(或伺服器20)因作業系統錯誤導致所有服務及虛擬機器64(或虛擬機器34)無法運作，或因程式執行變死結或是記憶體被竄改而導致作業系統無法回應，使得伺服器50(或伺服器20)呈現啟動狀態卻無法操作，也因此看門狗計時器60(或看門狗計時器30)將不再被看門狗更新器72(或看門狗更新器42)重置計時值，監控器38(或監控器68)將視伺服器50(或伺服器20)之作業系統為無法正常運作之情況，監控器38(或監控器68)送出一備援命令至虛擬機器管理器32(或虛擬機器管理器62)，以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器，並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20)，並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。

在圖3中，容錯系統以感測器檢查之方式偵測伺服器之溫度感測器之感測之溫度到達危險門檻值之情況(步驟S94)，偵測該情況之步驟詳細描述如下。

伺服器20、50之溫度感應器26、56分別感測伺服器20、50之各個硬體的溫度。IPMC 28、58會取得溫度感應器26、56感測之各個硬體的溫度。由機櫃管理器80經由IPMB從IPMC 28、58接收溫度感應器26、56感測之各個硬體的溫度。

在本實施例中，伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之溫度之資料，亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之溫度之資料，IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之硬體之溫度之資料至偵錯函式庫40(或偵錯函式庫70)。

由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之硬體之溫度之資料，基於伺服器50(或伺服器20)的溫度感應器56(或溫度感應器26)所感測之溫度，由監控器38(或監控器68)判斷伺服器50(或伺服器20)的運作溫度使否超過危險門檻值而可能造成伺服器50(或伺服器20)的硬體損壞。

為了預防伺服器50(或伺服器20)因過載導致其硬體嚴重損害前，若監控器38(或監控器68)判斷所監控之伺服器50(或伺服器20)之溫度到達危險門檻值，則監控器38(或監控器68)送出一備援命令至虛擬機器管理器32(或虛擬機器管理器62)，以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器，並且由機櫃管理器80重新啟動發生錯誤的伺服器50(或伺服器20)，並重新檢查發生錯誤的伺服器50(或伺服器20)回歸正常運作。

在圖3中，容錯系統以感測器檢查之方式偵測伺服器之電壓感測器所感測之電壓到達危險門檻值之情況(步驟S96)，偵測該情況之步驟詳細描述如下。

伺服器20、50之電壓感應器24、54分別感測伺服器20、50之各個硬體的電壓。IPMC 28、58會取得電壓感應器24、54感測之各個硬體的電壓。由機櫃管理器80經由IPMB從IPMC 28、58接收電壓感應器24、54感測之各個硬體的電壓。

在本實施例中，伺服器20與伺服器50之彼此互相監控。作為監控之伺服器20(或伺服器50)讀取機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之電壓之資料，亦即IPMC 28(或IPMC 58)經由IPMB接收機櫃管理器80中受監控之伺服器50(或伺服器20)之硬體之電壓之資料，IPMC 28(或IPMC 58)經由IPMI模組36(或IPMI模組66)傳送伺服器50(或伺服器20)之硬體之電壓之資料至偵錯函式庫40(或偵錯函式庫70)。

由伺服器20之監控器38(或伺服器50之監控器68)從偵錯函式庫40(或偵錯函式庫70)讀取伺服器50(或伺服器20)之硬體之電壓之資料，以判斷所監控之伺服器50(或伺服器20)之電壓是否到達危險門檻值。

若電壓感應器24、54所偵測到電壓超過危險門檻值，為了預防伺服器50(或伺服器20)因電壓異常造成損害前，則監控器38(或監控器68)送出一備援命令至虛擬機器管理器32(或虛擬機器管理器62)，以使虛擬機器管理器32(或虛擬機器管理器62)啟動一備援虛擬機器，並關閉發生錯誤的伺服器50(或伺服器20)而列為發生硬體問題伺服器。

本發明係提供一種多台伺服器之容錯之方法及系統，其優點係在其中一伺服器上發生錯誤後，對於偵測錯誤、回復虛擬機器、以及重新啟動錯誤的機器直到回復正常運作等可節省大量時間，並提高系統的容錯效能，同時兼具伺服器硬體之預警偵測及伺服器回復的功能。

雖然本發明已參照較佳具體例及舉例性附圖敘述如上，惟其應不被視為係限制性者。熟悉本技藝者對其形態及具體例之內容做各種修改、省略及變化，均不離開本發明之申請專利範圍之所主張範圍。