TW201328247A

TW201328247A - 系統錯誤處理方法與使用其之伺服器系統

Info

Publication number: TW201328247A
Application number: TW100147790A
Authority: TW
Inventors: Ying-Chih Lu
Original assignee: Inventec Corp
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2013-07-01
Also published as: TWI469573B

Abstract

一種系統錯誤處理方法，適於具有多個節點的伺服器系統。此系統錯誤處理方法包下列步驟。偵測多個節點其中之一的異常狀態，而據以產生中斷事件。執行第一處理程式處理中斷事件，以產生處理指令。依據處理指令，檢測中斷事件的次數是否達到臨界值。當檢測中斷事件達到臨界值時，產生錯誤節點的通知訊息。執行第二處理程式處理通知訊息，產生錯誤訊號，並儲存通知訊息。依據錯誤訊號，隔離錯誤節點，並將錯誤節點之執行中的多個虛擬機器移動至前述多個節點，以取代錯誤節點。

Description

系統錯誤處理方法與使用其之伺服器系統

一種系統錯誤處理技術，特別有關於一種系統錯誤處理方法與使用其之伺服器系統。

隨著科技的發展，透過網際網路能夠使得世界各地的電腦進行連結。一台電腦透過網路連線便能夠與另一台電腦進行資料的交換、存取等動作。在客戶端與伺服器系統架構上，客戶端與伺服器便是透過網路來進行溝通。

一般來說，伺服器系統可配置有多個節點，且每一個節點同時運行多個虛擬機器(Virtual Machine,VM)，藉以提供給每一使用者獨立的運作環境。並且，每個節點可視為各自獨立的計算機，亦即各節點具有記憶體、儲存空間、運算能力與網路連結功能。因此，各節點可以運行獨自的作業系統，且各節點之間也可以透過網路交換器(Switch)進行溝通與資料傳輸。

然而，在伺服器系統運行後，會使用快照(Snapshot)方式於每一個檢查點(checkpoint)儲存虛擬機器的影像，以便於節點發生錯誤可利用檢查點所儲存之虛擬機器的影像，使節點回復(Recovery)至錯誤發生前的狀態。也就是說，當某一節點發生錯誤時，此節點之虛擬機器只能藉由取得最近之時間點所儲存之虛擬機器的影像以進行回復。但是，由於每一個檢查點之間會有時間間隔，因此當某一節點發生錯誤時，錯誤產生的時間點與最近之檢查點之間的資料將無法回復，而降低伺服器系統的可用性。

鑒於以上的問題，本揭露在於提供一種系統錯誤處理方法與使用其之伺服器系統，藉以在伺服器系統之某一節點產生錯誤時，仍可正常運作且不會遺失資料，以使伺服器系統具有高可用性(high availability,HA)。

本揭露之一種系統錯誤處理方法，適於一伺服器系統，此伺服器系統具有多個節點，例如為提供基礎設施即服務(Infrastructure as a Service,IaaS)之貨櫃式(Container)資料中心(Data Center)。此系統錯誤處理方法包括下列步驟。偵測前述多個節點其中之一的異常狀態，而據以產生中斷事件。執行第一處理程式處理中斷事件，以產生處理指令。依據處理指令，檢測中斷事件的次數是否達到臨界值。當檢測中斷事件的次數達到臨界值時，產生錯誤節點的通知訊息。執行第二處理程式處理通知訊息，以產生錯誤訊號，並儲存通知訊息。依據錯誤訊號，隔離錯誤節點，並將錯誤節點之執行中的多個虛擬機器移動至前數多個節點，以取代錯誤節點。

在一實施例中，前述異常狀態包括中央處理器異常、記憶體異常、電源供應器異常與匯流排異常、電壓異常、電流異常、濕度異常與溫度異常其中之一。

在一實施例中，前述系統錯誤處理方法更包括顯示錯誤訊息。

在一實施例中，前述在檢測中斷事件是否達到該臨界值的步驟更包括當檢測中斷事件未達到臨界值時，將中斷事件行次數累加，並回到偵測多個節點其中之一的異常狀態的步驟。

在一實施例中，前述中斷事件為系統管理中斷事件、第一處理程式為系統管理中斷處理程式、處理指令為處理指令為處理指令為智慧平台管理介面指令、第二處理程式為SNMP trap處理程式。

本揭露之一種伺服器系統，包括多個節點、偵測單元、第一處理單元、控制單元、第二處理單元與第三處理單元。偵測單元耦接前述節點，偵測前述節點其中之一的異常狀態，而據以產生中斷事件。第一處理單元耦接偵測單元，用以執行第一處理程式處理中斷事件，以產生處理指令。控制單元耦接第一處理單元，用以依據處理指令，檢測中斷事件的次數是否達到臨界值，且當檢測中斷事件的次數達到臨界值時，產生錯誤節點的通知訊息。第二處理單元耦接控制單元，執行第二處理程式處理通知訊息，以產生錯誤訊號，並儲存通知訊息。第三處理單元耦接第二處理單元，用以依據錯誤訊號，隔離錯誤節點，並將錯誤節點之執行中的多個虛擬機器移動至前述節點，以取代錯誤節點。

在一實施例中，前述伺服器系統更包括顯示單元。此顯示單元耦接第二處理單元，用以接收並顯示錯誤訊息。

在一實施例中，前述當檢測中斷事件未達到臨界值時，控制單元將中斷事件行次數累加，並重複接收中斷事件，直到檢測中斷事件達到臨界值為止。

本揭露之一種系統錯誤處理方法與使用其之伺服器系統，藉由偵測伺服器系統內之節點其中之一產生異常狀態，而產生中斷事件，並依據此判斷中斷事件發生的次數是否達到臨界值。若中斷事件的次數達到臨界值時，表示中斷事件所對應的節點即將產生錯誤，以產生通知訊息。接著，依據通知訊息前述的錯誤節點進行隔離，且此錯誤節點上執行的虛擬機器移動至其他健康的節點，進而取代錯誤節點。如此一來，使得伺服器系統可正常運作且不會遺失資料，且伺服器系統可以達到高可用性。

有關本揭露的特徵與實作，茲配合圖式作最佳實施例詳細說明如下。

請參考「第1圖」所示，其係為本揭露之伺服器系統的方塊圖。本實施例之伺服器系統例如運行一雲端作業系統(Cloud Operation System,Cloud OS)，且例如為提供基礎設施即服務(Infrastructure as a Service,IaaS)服務之貨櫃式(Container)資料中心(Data Center)。伺服器系統100包括多個節點110_1~110_N、偵測單元120、處理單元130、140、150與控制單元160，其中N為大於1的正整數。

在本實施例中，節點110_1~110_N各自配置有中央處理器、記憶體、電源供應器、匯流排等元件，如此節點110_1~110_N可視為獨立運作的電腦系統，且各節點110_1~110_N之間以網路進行資料傳輸與溝通，以共同運行為伺服器系統100。

偵測單元120耦接節點110_1~110_N，用以偵測節點110_1~110_N其中之一的異常狀態，而據以產生中斷事件。在本實施例中，前述異常狀態包括中央處理器異常、記憶體異常、電源供應器異常、匯流排異常、電壓異常、電流異常、濕度異常與溫度異常其中之一，中斷事件例如為系統管理中斷(System management interrupt,SMI)事件。

前述異常狀態發生的原因例如為某節點內某元件的電流或電壓達到此元件所能正常運作的邊緣、伺服器系統100內的環境溫度過高或濕度過重而可能造成其內部元件無法正常運作、或是元件錯誤發生而使得其節點當機等。

處理單元130耦接偵測單元120，用以執行第一處理程式處理該中斷事件，以產生處理指令。其中，第一處理程式例如是系統管理中斷處理程式(SMI handler)，處理指令例如是智慧平台管理介面(Intelligent Platform Management Interface)指令。詳細地說，當中斷事件觸發系統管理中斷硬體介面時，則會產生系統管理中斷訊號。而處理單元130接收此系統管理中斷訊號後，將進入系統管理模式(System Management Mode,SMM)，並在系統管理模式下，執行由基本輸入輸出系統(Basic Input Output System,BIOS)準備好之處理程式以處理中斷事件。

從系統角度來看，基本輸入輸出系統會經由系統管理中斷訊號而收到中斷事件的通知。在中斷事件發生時，中央處理器收到系統管理中斷訊號，此時中央處理器進入系統管理模式以將控制權由作業系統轉交至基本輸入輸出系統。接著，基本輸入輸出系統將會負責完成所請求的動作，即是基本輸入輸出系統將執行處理程式以處理中斷事件。

控制單元160耦接處理單元130，用以依據處理指令，檢測中斷事件的次數是否達到臨界值，且當檢測中斷事件的次數達到臨界值時，產生錯誤節點的通知訊息。其中，控制單元160可為基板管理控制器(Baseboard Management Controller,BMC)，且當控制單元160接收到前述的處理指令時，會將中斷事件例如儲存於一非揮發性隨機存取記憶體(Non-Volatile Random Access Memory,NARAM)，以記錄中斷事件發生的次數。接著，控制單元160會依據處理指令，檢測中斷事件的次數是否達到臨界值。

當中斷事件的次數達到臨界值時，則控制單元160會產生錯誤節點的通知訊息。其中，前述通知訊息例如為SNMP trap。前述中斷事件的次數達到臨界值，表示中斷事件所對應的節點即將發生錯誤或當機。

另一方面，當中斷事件的次數未達到臨界值時，則控制單元160會對中斷事件進行累加，並繼續檢測中斷事件的產生，直到檢測到中斷事件發生的次數達到臨界值為止。在本實施例中，前述非揮發性隨機存取記憶體的初始值設定為0。而當中斷事件產生且中斷事件的次數未達到臨界值時，控制單元160會將中斷事件的次數進行累加，例如每次加1的方式，記錄於非揮發性記憶體中。

舉例來說，將中斷事件的次數存放至變數c[i]，其中i表示第i個中斷事件。當第i個中斷事件產生時，則將變數c[i]加1後，再存放至變數c[i]，亦即c[i]=c[i]+1。在每一次中斷事件的次數累加完成後，控制單元160則等待中斷事件再次發生，以持續檢測中斷事件的次數是否達到臨界值，直到檢測中斷事件的次數超過臨界值為止，而產生錯誤節點的通知訊息。

處理單元140耦接控制單元160，用以執行第二處理程式處理該通知訊息，以產生錯誤訊號，並儲存通知訊息。其中，第二處理程式為SNMP trap處理程式。舉例來說，處理單元140處理通知訊息，以產生中斷事件所對應之節點(例如節點110_1)相關的資訊，例如節點的位址(IP Address)、節點位於貨櫃(Container)內之位址、節點錯誤之原因、節點錯誤之排除、節點錯誤之描述，並且將通知訊息例如記錄於資料庫(Database)。

處理單元150耦接處理單元140與節點110_1~110_N，用以依據錯誤訊號，隔離錯誤節點，並將錯誤節點之執行中的多個虛擬機器移動至節點，以取代錯誤節點。在本實施例中，處理單元150接收到錯誤訊號後，會藉由錯誤訊號內的資訊得知中斷事件所對應之錯誤節點(例如節點110_1)的位址，以將此錯誤節點阻隔於雲端作業系統外。接著，將此錯誤節點上執行中的多個虛擬機器利用動態移動(Live Migration)的方式移動至此錯誤節點以外的其他節點(例如節點110_2~110_N)，以取代此錯誤節點，而使得伺服器系統100仍可正常運作。

如此一來，可在某節點(例如節點101_1)被判定為錯誤節點時，將此節點上執行的虛擬機器移動至其他的健康節點(Health Nodes)上，以利伺服器系統100可正常運作。接著，在虛擬機器移動完成後，則將此錯誤節點關機。由於動態移動虛擬機器即可在非常短的時間(例如毫秒(ms))完成，使得虛擬機器的資料在移轉過程中完全不會遺失，因此可讓使用者在毫無感覺且毫無資料遺失下順利完成，進而使得伺服器系統具有高可用性。

另外，伺服器系統100更包括顯示單元170。顯示單元170耦接處理單元140，用以接收並顯示錯誤訊息。並且，顯示單元170可為發光二極體等顯示元件，並且使用者可藉由發光二極體的發光而得知伺服器系統100內某個節點產生錯誤，再透過圖形使用者介面顯示錯誤節點的資訊。如此一來，使用者便可得知哪個節點發生錯誤，並可立即做出對應的處理，進而增加伺服器系統100的使用便利性。

藉由上述實施例的說明，可以歸納出一種系統錯誤處理方法。請參考「第2圖」所示，其係為本揭露之系統錯誤處理方法的流程圖。本實施例之系統錯誤處理方法適於一伺服器系統，且此伺服器系統具有多個節點。在步驟S202中，偵測多個節點其中之一的異常狀態，而據以產生中斷事件。在步驟S204中，執行第一處理程式處理中斷事件，以產生處理指令。在步驟S206中，依據處理指令，檢測中斷事件的次數是否達到臨界值。

當檢測中斷事件的次數達到臨界值時，則進入步驟S208，產生錯誤節點的通知訊息。另一方面，當檢測中斷事件的次數未達到臨界值時，則回到步驟S202，再次偵測多個節點其中之一的異常狀態，而據以產生中斷事件，並重複執行步驟S204~S206，直到於步驟S206中，檢測中斷事件的次數達到臨界值進入步驟S208為止。

在步驟S210中，執行第二處理程式處理通知訊息，以產生錯誤訊號，並儲存通知訊息。在步驟S212中，依據錯誤訊號，隔離錯誤節點，並將錯誤節點之執行中的多個虛擬機器移動至多個節點，以取代錯誤節點。在步驟S214中，顯示錯誤訊息。

在本實施例中，前述異常狀態包括中央處理器異常、記憶體異常、電源供應器異常與匯流排異常、電壓異常、電流異常、濕度異常與溫度異常其中之一。另外，前述中斷事件為系統管理中斷事件、第一處理程式為系統管理中斷處理程式、處理指令為處理指令為處理指令為智慧平台管理介面指令、第二處理程式為SNMP trap處理程式。

本揭露之實施例的系統錯誤處理方法與使用其之伺服器系統，藉由偵測伺服器系統內之多個節點其中之一產生異常狀態，而產生中斷事件，並依據此判斷中斷事件發生的次數是否達到臨界值。若中斷事件的次數達到臨界值時，表示中斷事件所對應的節點即將產生錯誤，以產生通知訊息。接著，依據通知訊息對前述的錯誤節點進行隔離，且此錯誤節點上執行的虛擬機器動態移動至其他健康的節點，進而取代錯誤節點。使得伺服器系統可正常運作且不會遺失資料，且伺服器系統可以達到高可用性。

另外，還可藉由顯示單元顯示伺服器系統內有節點發生錯誤，且使用者可藉由使用者介面讀取資料庫中有關此錯誤節點的相關資料，進而對伺服器系統進行處理與維護。如此一來，亦可增加使用的便利性。

雖然本揭露以前述之較佳實施例揭露如上，然其並非用以限定本揭露，任何熟習相像技藝者，在不脫離本揭露之精神和範圍內，當可作些許之更動與潤飾，因此本揭露之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。

100．．．伺服器系統

110_1~110_N．．．節點

120．．．偵測單元

130、140、150．．．處理單元

160．．．控制單元

170．．．顯示單元

第1圖係為本揭露之伺服器系統的方塊圖。

第2圖係為本揭露之系統錯誤處理方法的流程圖。

Claims

一種系統錯誤處理方法，適於一伺服器系統，該伺服器系統具有多個節點，該系統錯誤處理方法包括：偵測該些節點其中之一的一異常狀態，而據以產生一中斷事件；執行一第一處理程式處理該中斷事件，以產生一處理指令；依據該處理指令，檢測該中斷事件的次數是否達到一臨界值；當檢測該中斷事件的次數達到該臨界值時，產生一錯誤節點的一通知訊息；執行一第二處理程式處理該通知訊息，以產生一錯誤訊號，並儲存該通知訊息；以及依據該錯誤訊號，隔離該錯誤節點，並將該錯誤節點之執行中的多個虛擬機器移動至該些節點，以取代該錯誤節點。
如申請專利範圍第1項所述之系統錯誤處理方法，其中該異常狀態包括中央處理器異常、記憶體異常、電源供應器異常與匯流排異常、電壓異常、電流異常、濕度異常與溫度異常其中之一。
如申請專利範圍第1項所述之系統錯誤處理方法，更包括：顯示該錯誤訊息。
如申請專利範圍第1項所述之系統錯誤處理方法，其中在檢測該中斷事件是否達到該臨界值的步驟包括：當檢測該中斷事件未達到該臨界值時，將該中斷事件行次數累加，並回到偵測該些節點其中之一的該異常狀態的步驟。
如申請專利範圍第1項所述之系統錯誤處理方法，其中該中斷事件為系統管理中斷事件、該第一處理程式為系統管理中斷處理程式、該處理指令為處理指令為處理指令為智慧平台管理介面指令、該第二處理程式為SNMP trap處理程式。
一種伺服器系統，包括：多個節點；一偵測單元，耦接該些節點，用以偵測該些節點其中之一的一異常狀態，而據以產生一中斷事件；一第一處理單元，耦接該偵測單元，用以執行一第一處理程式處理該中斷事件，以產生一處理指令；一控制單元，耦接該第一處理單元，用以依據該處理指令，檢測該中斷事件的次數是否達到一臨界值，且當檢測該中斷事件的次數達到該臨界值時，產生一錯誤節點的一通知訊息；一第二處理單元，耦接該控制單元，用以執行一第二處理程式處理該通知訊息，以產生一錯誤訊號，並儲存該通知訊息；以及一第三處理單元，耦接該第二處理單元與該些節點，用以依據該錯誤訊號，隔離該錯誤節點，並將該錯誤節點之執行中的多個虛擬機器移動至該些節點，以取代該錯誤節點。
如申請專利範圍第6項所述之伺服器系統，其中該異常狀態包括中央處理器異常、記憶體異常、電源供應器異常與匯流排異常、電壓異常、電流異常、濕度異常與溫度異常其中之一。
如申請專利範圍第6項所述之伺服器系統，更包括：一顯示單元，耦接該第二處理單元，用以接收並顯示該錯誤訊息。
如申請專利範圍第6項所述之伺服器系統，其中當檢測該中斷事件未達到該臨界值時，該控制單元將該中斷事件行次數累加，並重複接收該中斷事件，直到檢測該中斷事件達到該臨界值為止。
如申請專利範圍第6項所述之伺服器系統，其中該中斷事件為系統管理中斷事件、該第一處理程式為系統管理中斷處理程式、該處理指令為處理指令為處理指令為智慧平台管理介面指令、該第二處理程式為SNMP trap處理程式。