TWI680369B

TWI680369B - 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統

Info

Publication number: TWI680369B
Application number: TW108103022A
Authority: TW
Inventors: 錢威宇; Wei-Yu Chien
Original assignee: 廣達電腦股份有限公司; Quanta Computer Inc.
Priority date: 2018-08-13
Filing date: 2019-01-28
Publication date: 2019-12-21
Also published as: JP2020027615A; TW202009705A; US10761926B2; US20200050510A1; JP6828096B2; EP3620922A1; CN110825578A

Abstract

一種用於自動管理發生在所提供的資料中心系統中之錯誤事件的方法和系統。該方法包括收集與硬體錯誤事件相對應的硬體錯誤事件分析。硬體錯誤事件分析被組織成用於遭受硬體錯誤事件的伺服器裝置的報告。該方法還包括處理從伺服器裝置的報告接收的統計資料。該方法還包括依據已評估的統計資料執行硬體恢復。

Description

用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統

本揭露是有關於一種自動管理系統及其方法，特別是有關於用於管理發生於資料中心的錯誤事件之自動管理系統及其方法。

為了滿足基於資訊經濟之日益增長的需求，資料中心和資訊技術網路持續擴展到全球。這種擴展已經採用各種形式，包括將地理上不同的計算資源連接在一起的廣泛分佈之計算機網路，以及為各種應用提供電源、冷卻和計算基礎設施的資料中心。

典型的資料中心包含許多需要電源、冷卻和與外部通信設施連接的設備機架。在現代資料中心和網路機房中，在這些設施中所使用的計算設備密度的增加為其相關的電力系統帶來壓力。由於該計算設備在運行中產生熱，因此這些設施的冷卻系統也增加使用上的負荷。

因此，需要有效的資料中心運作和管理工具。管理資料中心的大多數傳統方法取決於先前的操作記錄。在典型的資料中心操作和管理工具中，資料中心的錯誤是手動管理。在這種情況下，很難預測錯誤事件的發生。此外，對於先前未發生的新型錯誤事件也難以進行主動評估和預測。

以下是一個或多個實施例的簡要概述，以便提供對本技術的基本理解。該概述不是本技術的所有預期實施例的廣泛概要。其既不旨在標識所有示例的關鍵或重要元素，也不旨在描繪本技術的任何或所有方面的範圍。其唯一目的是以簡化形式呈現一個或多個示例的一些概念，作為稍後呈現的更詳細描述的序言。

一種方法及系統，用以自動管理發生於資料中心系統的錯誤事件。該方法包括：收集與硬體錯誤事件對應的硬體錯誤事件分析。其中該硬體錯誤事件分析被組織成一報告，並且該報告用於受到該硬體錯誤事件影響的一伺服器裝置。該方法還包括：處理用於該伺服器裝置的該報告中的統計資料。該方法更包括：根據該已處理的統計資料執行硬體恢復。

於本揭示文件的一些實施例中，收集硬體錯誤事件分析包括在伺服器裝置的一基板管理控制器韌體內儲存硬體錯誤事件偵測系統。該方法還包括：識別該硬體錯誤事件的一來源，並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果。於本揭示文件的一些實施例中，該硬體錯誤事件的該來源由一基本輸入輸出系統(BIOS)服務程序所決定。該方法還包括：識別該硬體錯誤事件。於本揭示文件的一些實施例中，識別該硬體錯誤事件包括至少識別以下其中之一：錯誤位置、錯誤類別、錯誤類型及/或錯誤嚴重性。該方法還包括：接收一硬體錯誤事件識別的一基板管理控制器產生的一通知。於本揭示文件的一些實施例中，其中該報告包括一硬體錯誤事件報告及一裝置報告。於本揭示文件的一些實施例中，接收與語言無關的開放資料格式，該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。該方法還包括：在該報告的一分析部分中對該資料進行一集中趨勢分析。

於一些實施例中，該集中趨勢分析包括：分析一操作系統及與該硬體錯誤事件相關的軟體服務之風險；分析該伺服器裝置的保護之方向；以及預測該硬體錯誤事件的趨勢和該硬體錯誤事件的影響。在一些實施例中，該方法還包括：測量該硬體錯誤事件並透過一預測性分析的過程產生風險評估，以建立該硬體錯誤事件的診斷憑證。於本揭示文件的一些實施例中，執行該硬體恢復包括檢查該伺服器裝置的一恢復策略。該方法還包括：安排恢復機制。在一些實施例中，該恢復機制依據恢復策略用於立即性恢復或延遲恢復。此流程還包括監控該硬體錯誤事件，用以搜尋伺服器裝置的任何性能缺點。

一種系統，用以自動管理發生於資料中心系統的硬體錯誤事件。該系統包括機架伺服器，其中每個該機架伺服器包括伺服器裝置。該系統還包括資料中心管理系統，其中資料中心管理系統連接伺服器裝置。資料中心管理系統用於收集與該硬體錯誤事件對應的硬體錯誤事件分析。該硬體錯誤事件分析被組織成一報告，該報告用於受到該硬體錯誤事件影響的伺服器裝置。資料中心管理系統還被設置處理從該伺服器裝置的該報告所接收的統計資料；以及根據該已評估的統計資料執行硬體恢復。

本揭示文件的附加特徵和優點將在隨後的描述中闡述，並且部分地將從描述中顯而易見，或者可以通過實踐本文公開的原理來學習。借助於所附請求項中特別指出的儀器和組合，可以實現和獲得本公開的特徵和優點。根據以下描述和所附請求項，本公開的這些和其他特徵將變得完全顯而易見，或者可以通過實踐本文闡述的原理來學習。

參考附圖描述本發明，其中在所有附圖中使用相同的附圖標記來表示相似或等同的元件。附圖未按比例繪製，並且它們僅用於說明本發明。下面參考用於說明的示例應用來描述本發明的若干方面。應該理解，闡述許多具體細節、關係和方法以提供對本發明的完全理解。然而，相關領域的普通技術人員將容易認識到，可以在沒有一個或多個具體細節的情況下或者利用其他方法來實踐本發明。在其他情況下，未詳細示出公知的結構或操作以避免模糊本發明。本發明不受所示出的動作或事件的排序的限制，因為一些動作可以以不同的順序發生和/或與其他動作或事件同時發生。此外，並非所有示出的動作或事件都是實現根據本發明的方法所必需的。

如上所述，在典型的資料中心操作和管理工具中，資料中心的錯誤是手動管理。在這種情況下，很難預測錯誤事件的發生。此外，對於先前未發生的新型態錯誤事件也難以進行主動衡量和預測。本揭示文件提供一種用於自動管理在資料中心中發生的錯誤事件的系統和相應之方法。所公開的系統和方法可以執行伺服器硬體錯誤分析並提供恢復機制。恢復機製可以被配置為減少伺服器停機時間，並減輕受硬體錯誤事件影響的任何軟件而無需更換。恢復機制還可以安排診斷伺服器硬體錯誤事件的根本原因，而無需製造商的維修或恢復。

第1圖說明一傳統的資料中心系統100。資料中心系統100可以包括數千個機架伺服器102。資料中心系統100還可以包括現場管理員104，現場管理員104被配置為監視從機架伺服器102接收的錯誤。具體地，管理員104可以透過資料中心管理系統113的使用者界面(User Interface)從眾多電子組件接收錯誤。其中電子組件儲存在機架伺服器102內。電子組件可包括伺服器裝置。一示例性伺服器裝置110顯示於此。與伺服器裝置110相關聯的錯誤可以包括儲存錯誤11、中央處理單元(CPU)錯誤13、記憶體(Memory)錯誤14、電源供應錯誤12或輸入/輸出錯誤15。這些錯誤僅用於示例說明，並且不用於代表是詳盡的錯誤列表。在一些情況下，在來自機架伺服器102的管理員104的一連續報告中可能產生數千個硬體錯誤。

資料中心系統100還可以包括位於遠程位置的客戶108。客戶108可以透過網路106連線至機架伺服器102。網路106可以是區域網路(Local Area Network, LAN)或廣域網路(Wide-area Network, WAN)，其被配置為將客戶108連接到機架伺服器102。在許多情況下，有缺陷的硬體（例如，伺服器裝置110）可以直接影響機架伺服器102的性能。結果，客戶108所體驗的機架服務器102之性能直接受到影響。因此，管理員104的任務是盡可能快速地解決機架伺服器102中的硬體錯誤事件。在管理員104不能服務或修復伺服器裝置110中的硬體錯誤事件的情況下，伺服器裝置110被發送到製造商112以進行修理或更換。為了此實施例之目的，製造商112遠離機架伺服器102和管理員104。製造商112對伺服器裝置110的服務通常可能需要數天、數週或數月。因此，僅使用管理員來解決硬體錯誤事件的傳統方法並不是理想的解決方案。

傳統上，資料中心管理系統113可以在驗證階段檢測98％的硬體錯誤事件，並通過改進硬體和韌體設計來消除錯誤。剩餘1％的硬體錯誤事件是硬體老化的結果。因此，這種類型的硬體錯誤事件通常是不可預測的並且難以檢測。硬體錯誤事件可透過資料中心管理系統113強大的可靠性(Reliability)、可用性(Availability)和可服務性(Serviceability)（RAS）之特性來進行檢測和報告。資料中心管理系統113的可靠性特徵能夠避免、檢測和恢復硬體錯誤事件。資料中心管理系統113的可用性特徵被配置為減輕硬體錯誤事件並減少任何相關軟體的停機時間。當問題出現時，資料中心管理系統113的可服務性特徵被配置用於診斷系統。

伺服器的剩餘1％的硬體錯誤事件是不可預測的。實際上，這些硬體錯誤事件通常是新的並且未被發現。因此，硬體設計人員從未執行模擬來說明這些硬體錯誤事件。這些無法預期的硬體錯誤事件可能使伺服器裝置110當機，或者破壞相關操作系統的完整性。最後，硬體錯誤事件可能需要大量停機時間並嚴重影響客戶108，其中沒有現有方法來執行疑難排除分析恢復。

第2圖說明一示例性資料中心系統200。資料中心系統200可以向管理員提供一可用的報告，並預測資料中心中的錯誤和可行的恢復機制。這樣可以使管理員能夠緩解與伺服器相關的任何問題，減少伺服器停機時間並維護伺服器的服務。資料中心系統200可以包括數千個機架伺服器202。資料中心系統200還可以包括現場管理員204，現場管理員204被配置為監視從機架伺服器202接收的錯誤。具體地，管理員204可以透過資料中心管理系統213的使用者界面(User Interface)從眾多電子組件接收錯誤。其中電子組件儲存在機架伺服器202內。電子組件可包括伺服器裝置。一示例性伺服器裝置210顯示於此。伺服器裝置210還可包含計算伺服器(Compute Server)、儲存伺服器(Storage Server)或網路交換伺服器(Network Switch Server)。與伺服器裝置210的硬體錯誤事件相關聯的錯誤可以包括儲存錯誤21、中央處理單元錯誤23、記憶體錯誤24、電源供應錯誤22或輸入/輸出錯誤25。這些錯誤僅用於示例說明，並且不用於代表是詳盡的錯誤列表。在一些情況下，在來自機架伺服器202的管理員204的一連續報告中可能產生數千個硬體錯誤。

資料中心系統200還可以包括位於遠程位置的客戶208。客戶208可以通過網路206連線至機架伺服器202。網路206可以是區域網路(Local Area Network, LAN)或廣域網路(Wide-area Network, WAN)，其被配置為將客戶208連接到機架伺服器202。在管理員204無法服務或修復伺服器裝置210的硬體錯誤事件的情況下，IT工程師212可以服務於伺服器裝置210。

第3圖描述自動管理發生於資料中心系統200的錯誤事件的過程300之流程圖。以下請同時參照第2圖中的資料中心系統200之組件以詳述過程300。過程300開始於步驟301，其中資料中心管理系統213收集硬體錯誤事件分析。在步驟302，資料中心管理系統213處理和評估與硬體錯誤事件分析相關聯的統計資料。這將在第4圖、第5A圖及第5B圖中詳細討論。最後，在步驟303，資料中心管理系統213執行硬體恢復。這將在第6圖中詳細討論。

第4圖描述用於處理和評估統計資料的過程400之流程圖。以下請同時參閱第2圖的資料中心系統200以詳細說明過程400。過程400從步驟401開始，其中硬體錯誤事件檢測系統儲存於基板管理控制器(Baseboard Management Controller,BMC)韌體內。機架伺服器202內的每個伺服器裝置(例如伺服器裝置210)可以安裝基板管理控制器韌體。基板管理控制器韌體可以被配置用以連接於資料中心管理系統213。在其他實施例中，硬體錯誤事件檢測系統可以被安裝在統一可延伸韌體介面(United Extensible Firmware Interface,UEFI)、基本輸入/輸出系統(BIOS)、機架管理器(Rack manager,RM)軟體或資料中心管理系統213本身。

在步驟402中，可以識別硬體錯誤事件的來源。硬體錯誤事件可能是可校正或不可校正的硬體錯誤之結果。硬體無法校正的錯誤可以分為兩類：軟體可恢復錯誤或災難性錯誤(Catastrophic Error)。軟體可恢復錯誤表示伺服器裝置210中的至少有一些資料已毀損。因此，該資料不能被恢復。然而，當發生此類型錯誤時，操作系統仍然是有效工作，並且可以在不重置系統以及不干擾正在進行的其他流程之情況下恢復軟體。相反地，災難性錯誤表示處理器無法執行微指令(Micro-instructions)。災難性錯誤還需要重置系統並且會干擾正在進行的其他流程。儘管它們需要系統重置，這些錯誤還是被歸類為可校正的錯誤。相對之下，可校正的錯誤是指錯誤資料可以通過諸如循環冗餘校驗（Cyclic Redundancy Check, CRC）的硬體機制來修復。在一些實施例中，可校正的錯誤不需要系統重置。

在一些實施例中，基本輸入輸出系統(BIOS)服務程序可以識別硬體錯誤事件。在一些實施例中，基本輸入輸出系統服務程序可以實施系統管理中斷（System Management Interrupt, SMI）信號觸發。在步驟403，可以確定硬體錯誤事件的識別(Identification)。錯誤觸發可以通過硬體信號來實施，例如：SMI，SCI，NMI，SMBus、警報或CATERR中斷。例如，可以記錄錯誤的位置，類別，錯誤類型，嚴重性，並將識別結果記錄並轉發到基板管理控制器的永久儲存器(Permanent Storage)中。在一些實施例中，可以通過諸如系統管理匯流排（System Management Bus, SMBus），平台環境控制介面（Platform Environment Control Interface, PECI）或聯合測試工作群組（Joint Test Action Group, JTAG）的現有介面來確定硬體錯誤事件的識別。這些匯流排或介面中的每一個提供硬體組件和基板管理控制器之間的通信機制。在步驟404，基板管理控制器可以通知UEFI，BIOS，RM軟體或資料中心管理系統213。

第5A圖及第5B圖描述用於處理和評估統計資料的過程500之流程圖。以下請同時參閱第2圖的資料中心系統200以詳細說明以下過程500。硬體錯誤事件可能包含大量不同的資料。為了評估與硬體錯誤事件相關聯的資料，資料中心管理系統213被配置為從多個位置收集資料，處理資料並依據該資料啟動伺服器裝置210的處理和恢復階段。過程500在步驟502開始，其中可以收集硬體錯誤事件資料及其相關資料。硬體錯誤事件資料可被組織成用於每個伺服器的報告550。如第5A圖及第5B圖所示，單獨的報告550可以用於計算伺服器、儲存伺服器或網路交換伺服器(Network Switch Server)。每個伺服器裝置的報告550可以包括硬體錯誤事件報告551和裝置報告552。裝置報告552可以包括與伺服器裝置210有關的各種資料。例如，裝置報告552可以包括伺服器裝置210的韌體版本555、伺服器裝置210的平台配置556、伺服器裝置210的客製化設置554、以及伺服器裝置210的使用模型553。本領域之普通技術人員將理解裝置報告552中的該資料之列表僅提供作為示例，並不意味著是全面性的。該過程500進行到步驟503，其中收集並集中來自裝置報告552的相關信息。用於計算伺服器、儲存伺服器或網路交換伺服器的報告550之示例，如以下表1所示：

Data collection \ Product	Compute server	Storage server	Network switch server
Error format	.Category (CPU, Memory, Bus, IO	Category (storage controller, storage	Category (Switch controller, switch
peripheral, thermal, power supply) .Time (Year, month, day, hour, minute, second) .Type (POST, runtime)	manager board, storage backplane, storage drive, thermal, power supply) .Time (Year, month, day, hour, minute, second)	manager board, thermal, power supply) .Time (Year, month, day, hour, minute, second) .Type (POST, runtime)
.Severity (Correctable, uncorrectable	.Type (POST, runtime)	.Severity (Correctable, uncorrectable
non-fatal, uncorrectable fatal)	.Severity (Correctable, uncorrectable	non-fatal, uncorrectable fatal)
.Location (Socket, channel, riser, slot, bus, device, function) .Identity (GPGPU, FPGA, x86, ARM)	non-fatal, uncorrectable fatal) .Location (Socket, channel, slot, bus, device, function)	.Location (Port) .Identity (protocol, size, discard, alignment error)
	.Identity (SSD storage, hard disk, NVMe,)
Firmware version	.UEFI BIOS image (CPU microcode, silicon reference code, 3 ^rdroot of trust UEFI driver)	.UEFI BIOS image (CPU microcode, silicon reference code, 3 ^rdroot of trust UEFI driver) (option)	.UEFI BIOS image (CPU microcode, silicon reference code, 3 ^rdroot of trust UEFI driver) (option)
.BMC image	.Boot code (option)	.Boot code (option)
.CPLD image	.BMC image	.BMC image
.Voltage regular image	.CPLD image	.CPLD image
.3 ^rdparity UEFI driver	.Voltage regular image	.Voltage regular image
	.Backplane image	.Switch manager board image
	.Storage manager board image
Configuration	.Quantity (CPU, memory, IO adaptor card, storage, FAN, power supply)	.Quantity (storage, FAN, power supply) .Serial number and asset tag (storage	.Quantity (Switch controller, FAN, power supply)
.Serial number and asset tag (CPU, memory, IO adaptor card, storage, FAN, power supply)	controller, storage, FAN, power supply) .Topology of storage server architecture (hierarchical & connection)	.Serial number and asset tag (FAN, power supply) .Topology of switch server architecture
.Topology of compute server architecture (hierarchical & connection)		(hierarchical & connection)
Custom	.UEFI BIOS	.UEFI BIOS (option)	.UEFI BIOS (option)
setting	.BMC .3 ^rdparity UEFI driver (RAID function)	.Boot code (option) .BMC	.Boot code (option) .BMC
	.Storage Partition (aggregate & disaggregate)	.Partition of network domain
Usage	.Operating system (Windows, VMware, Linux)	.Operating system (Windows, VMware, Linux)	.Operating system (Windows, VMware, Linux)
.Virtualization

表1.

如表1所示，每個伺服器裝置210的衡量指標(Specific metrics)可被提供。在表1中，伺服器裝置210可以包括計算伺服器，儲存伺服器或網路交換伺服器。每個伺服器裝置210的示例性衡量指標可以包括資料收集(Data Collection)和產品錯誤格式(Product Error Format)。這可以包括錯誤的類別、時間、類型、嚴重性、位置和特徵(identity)。例如，計算伺服器的CPU記憶體中可能有錯誤。CPU記憶體錯誤的時間、類型、嚴重性、位置和特徵可在這裡被提供。每個伺服器裝置210的其他衡量指標可以包括韌體版本、配置、客製化設置和使用信息。

伺服器裝置210可以具有基板管理控制器。用於伺服器裝置210的基板管理控制器可以用於儲存硬體錯誤事件及收集其相關的原始資料。伺服器裝置210的基板管理控制器還可以傳送與語言無關的開放資料格式，該格式使用人類可讀的文字來表達資料物件，以便於管理員204進行使用管理。

報告550中的統計資料可被用於建立每種伺服器類型的資料之統計評估。該統計評估可以包括一評估特徵561和一分析特徵562。在步驟504，資料中心管理系統213可以調用評估特徵561中的資料之統計評估。評估特徵561可以包括與硬體錯誤事件相關聯的實體(Entity)、硬體錯誤事件的嚴重性、以及與硬體錯誤事件關聯的層(layer)和關係資料。評估特徵561還可以包括硬體錯誤分類。硬體錯誤事件可以分為冗餘(redundant)、方向、可恢復或緊急。最後，評估特徵561可以包括硬體錯誤事件數量、硬體錯誤事件的嚴重性、硬體錯誤事件的位置、硬體錯誤事件的類別、平台配置、客製化設置、使用模型和硬體錯誤事件的時間標記(Timestamp)。本領域普通技術人員應該理解評估特徵561可以具有許多屬性，並且這裡列出的屬性是出於示例性目的而不是詳細全面性的列舉。

在步驟505，資料中心管理系統213對分析特徵562中的資料執行集中趨勢分析(Central Tendency Analysis)。集中趨勢分析特別用於不可校正的錯誤（非致命的）。雖然軟體重啟或硬體重新處理可以恢復非致命的不可校正錯誤，但它可能會影響伺服器的性能。集中趨勢分析包括識別不可校正錯誤的位置，並確定連接裝置的數量。集中趨勢分析還包括從硬體組件識別錯誤報告，以及識別是否可以將事務重新改到可替換的裝置。此時，可以列出配置為替換錯誤硬體的所有冗餘組件。確定是否可以將軟體服務遷移到可替換的虛擬機器(Virtual machine)。檢查錯誤歷史、比率和使用模型。此外，確定硬體錯誤事件的錯誤類型、已列出之硬體錯誤事件的數量以及來自該硬體錯誤事件的影響。資料中心管理系統213可以分析操作系統的風險，以及與硬體錯誤事件相關聯的軟體服務之風險。資料中心管理系統213還可以分析伺服器裝置210的保護方向。資料中心管理系統213還可以預測錯誤事件的趨勢和硬體錯誤事件的影響。資料中心管理系統213可以利用其相關資料處理統計硬體錯誤事件資料，以便理解不同形態的硬體錯誤事件資料。此外，資料中心管理系統213被配置為衡量硬體錯誤事件，並通過一預測分析過程以建立風險評估。

在步驟504及步驟505期間，依據資料中心管理系統213的評估，資料中心管理系統213可以在步驟506建立硬體錯誤事件的診斷憑證(Certificate of Diagnosis)。示例性診斷憑證由以下表2所提供：表2.

如表2所示，診斷憑證可以包括軟體服務，其中軟體服務包括理解、視覺化和預測性的分析組件。理解組件可以確定硬體錯誤事件的根本原因。在一些實施例中，硬體錯誤事件的根本原因可包括硬體錯誤事件的實體、硬體錯誤事件的嚴重性、硬體錯誤事件的來源、硬體錯誤事件的情境以及硬體錯誤事件的關係。理解組件還可以包括硬體錯誤事件的屬性組件。屬性組件可以包括硬體錯誤事件組件的冗餘部分、硬體錯誤事件的方向、硬體錯誤事件的可恢復過程以及硬體錯誤事件的緊急性。診斷憑證中還提供這些指標的描述。

視覺化組件可以提供硬體錯誤事件的數量指標(Quantity metrics)。數量指標可以包括硬體錯誤事件嚴重性的數量、硬體錯誤事件的數量、硬體錯誤事件位置的數量、硬體產品的數量、每個硬體錯誤事件的硬體錯誤事件配置之數量、每個硬體錯誤事件的軟體配置之數量、以及硬體錯誤事件的比率和間隔。診斷憑證中還提供這些指標的描述。由於簡單的硬體錯誤事件無法指出真正的根本原因，因此計算具有相關條件的錯誤歷史的數量。確定可能導致每個組件之間錯誤的相關原因。識別錯誤是否來自特定平台配置、組件、韌體版本或者使用模式。

預測性的分析組件可以執行一風險評估分析。該風險評估分析可以包括硬體錯誤事件的趨勢、保護方向、操作系統的風險、硬體錯誤事件的問題以及硬體的痛苦。診斷憑證中還提供這些指標的描述。

第6圖描述用於恢復硬體的過程600之流程圖。以下請同時參閱第2圖的資料中心系統200以詳細說明以下過程600。在挖掘和分析數千個硬體錯誤事件資料之後，資料中心管理系統213被配置為確定校正組件。例如，雲端服務恢復是否可行、以及硬體錯誤事件的當前危險。此外，資料中心管理系統213能夠使用預測性分析來預測任何潛在風險，以便減輕硬體錯誤事件對軟體性能的影響。在一些實施例中，伺服器裝置210上的主機板之硬體設計可以具有用於主要組件的備用電路(Redundant Circuit)。因此，伺服器210的主機板可以提供備用實體(Spare Entity)，備用實體允許伺服器將一個故障組件的操作移動到正常組件。如果發生不可避免的硬體錯誤事件，可選擇性的電路可以減少伺服器使用的範圍。

過程600由步驟601開始，其中資料中心管理系統213檢查遭受硬體錯誤事件影響的伺服器裝置210之恢復策略。恢復策略可以特定於硬體錯誤事件的類型。以下所提供之表3，其具有示例性硬體錯誤事件及其恢復方法：表3.

如表3所示，該報告包括硬體錯誤事件的位置、硬體錯誤事件類型，恢復方法以及與硬體錯誤事件關聯的軟體。資料中心管理系統213從伺服器裝置210接收硬體錯誤事件報告，並啟動統計資料的處理和評估。過程600進行到步驟602，其中確定是否應該立即實施恢復機制。如果確定不應立即實施恢復機制，則過程600前進到步驟603。在步驟603中，資料中心管理系統213調度恢復過程的停機時間，並列出恢復過程中所需的硬體和軟體替換。然後，過程600進行到步驟604和605，其中資料中心管理系統213向資料中心服務工程師通知所安排的停機時間。可以為設計團隊安排學習課程。技術性的反饋可以改善未來的平台硬體設計，增加必要的保護電路，並調整故障排除的軟體演算法。

如果確定應立即實施恢復機制，則過程600前進到步驟606。在步驟606中，資料中心管理系統213為伺服器裝置650建立恢復策略651。現場管理員204（如圖2所示）可以建立單獨的恢復策略651，並執行它以減輕來自硬體錯誤事件對雲端服務和性能的影響。第6圖顯示出示例性的恢復策略651。然後，過程600前進到步驟607，其中監視硬體錯誤事件以搜尋伺服器裝置650的性能的任何附加趨勢或缺陷。

雖然有關於一個或多個實施方式已經說明和描述本揭示文件，但是在閱讀和理解本說明書和附圖後，本領域的普通技術人員將會想到等同的改變和修改。另外，雖然本揭示文件的特定技術特徵可能已經被若干實施中之一公開，但是這樣的技術特徵可以與其他實施例的一個或多個其他技術特徵組合，對於任何給定的或特定的應用。

本文使用的術語僅用於描述特定實施例，而不旨在限制本發明。如本文所使用的，除非上下文另外明確指出，否則單數形式「一」、「一個」和「該」也包含複數形式。此外，就術語「包括」、「包含」、「具有」或其他變化用法被用於詳細描述和/或請求項，這些術語旨在以類似於術語「包含」的方式具有相同意思。

除非有其他定義，否則這裡使用的所有術語（包括技術和科學術語）可被具有本領域的通常知識者所理解的相同的含義。此外，諸如通用字典中定義的術語應該被解釋為具有與其在相關領域的上下文中的含義相一致的意思，並且不會被理解為理想化或過度正式的意義，除非在此明確地如此定義。

100‧‧‧傳統的資料中心系統

102‧‧‧機架伺服器

104‧‧‧現場管理員

106‧‧‧網路

108‧‧‧客戶

110‧‧‧伺服器裝置

112‧‧‧製造商

113‧‧‧資料中心管理系統

11‧‧‧儲存錯誤

12‧‧‧電源錯誤

13‧‧‧中央處理單元錯誤

14‧‧‧記憶體錯誤

15‧‧‧輸入/輸出錯誤

200‧‧‧資料中心系統

202‧‧‧機架伺服器

204‧‧‧現場管理員

206‧‧‧網路

208‧‧‧客戶

210‧‧‧伺服器裝置

212‧‧‧IT 工程師

213‧‧‧資料中心管理系統

21‧‧‧儲存錯誤

22‧‧‧電源供應錯誤

23‧‧‧中央處理單元錯誤

24‧‧‧記憶體錯誤

25‧‧‧輸入/輸出錯誤

300‧‧‧方法

301~303‧‧‧步驟

400‧‧‧方法

410~452‧‧‧步驟

500‧‧‧方法

502~562‧‧‧步驟

600‧‧‧方法

601~651‧‧‧步驟

為了描述可以獲得上述公開內容及其優點和特徵的方式，將通過參考附圖中示出的特定示例來呈現上述原理的更具體的描述。這些附圖僅描繪本公開的示例方面，因此不應被視為對其範圍的限制。通過使用以下附圖、附加的特徵和細節來描述和解釋這些原理。

第1圖說明一傳統的資料中心系統100。第2圖根據本揭示文件之一實施例，說明一示例性資料中心系統200。第3圖根據本揭示文件之一實施例，描述自動管理發生於資料中心系統200的錯誤事件的過程300之流程圖。第4圖根據本揭示文件之一實施例，描述用於處理和評估統計資料的過程400之流程圖。第5A圖及第5B圖根據本揭示文件之一實施例，描述用於處理和評估統計資料的過程500之流程圖。第6圖根據本揭示文件之一實施例，描述用於恢復硬體的過程600之流程圖。

Claims

一種用以自動管理發生於資料中心系統的硬體錯誤事件的方法，該方法包括：收集與該硬體錯誤事件對應的硬體錯誤事件分析，其中該硬體錯誤事件分析被組織成一報告，該報告用於受到該硬體錯誤事件影響的一伺服器裝置；處理用於該伺服器裝置的該報告中的統計資料；以及根據該已處理的統計資料執行硬體恢復。
如申請專利範圍第1項所述之方法，其中收集硬體錯誤事件分析包括在該伺服器裝置的一基板管理控制器韌體內儲存一硬體錯誤事件偵測過程；其中該報告包括一硬體錯誤事件報告及一裝置報告。
如申請專利範圍第1項所述之方法，更包括：識別該硬體錯誤事件的一來源，並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果，其中該硬體錯誤事件的該來源由一基本輸入輸出系統服務程序所決定；識別該硬體錯誤事件，其中識別該硬體錯誤事件包括至少識別以下其中之一：錯誤位置、錯誤類別、錯誤類型及錯誤嚴重性；接收來自一硬體錯誤事件識別的一基板管理控制器的通知；以及接收一與語言無關的開放資料格式，該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。
如申請專利範圍第1項所述之方法，更包括：在該報告的一分析部分中對該資料進行一集中趨勢分析，其中該集中趨勢分析包括：分析一操作系統及與該硬體錯誤事件相關的一軟體服務之風險，分析該伺服器裝置的保護之一方向；以及預測該硬體錯誤事件的趨勢和該硬體錯誤事件的影響。
如申請專利範圍第1項所述之方法，更包括：衡量該硬體錯誤事件並透過一預測性分析的過程產生一風險評估，以建立該硬體錯誤事件的一診斷憑證。
如申請專利範圍第1項所述之方法，其中執行該硬體恢復包括檢查該伺服器裝置的一恢復策略，並安排一恢復機制，其中該恢復機制依據該恢復策略用於立即性恢復或延遲恢復；以及監控該硬體錯誤事件，用以搜尋該伺服器裝置的任何性能缺點。
一種用以自動管理發生於資料中心系統的硬體錯誤事件的系統，該系統包括：複數個機架伺服器，其中每個該等機架伺服器包括一伺服器裝置；以及一資料中心管理系統，其中該資料中心管理系統連接該伺服器裝置，並用以：收集與該硬體錯誤事件對應的硬體錯誤事件分析，其中該硬體錯誤事件分析被組織成一報告，該報告用於受到該硬體錯誤事件影響的一伺服器裝置；處理用於該伺服器裝置的該報告中的統計資料；以及根據該已評估的統計資料執行硬體恢復。
如申請專利範圍第7項所述之系統，收集該硬體錯誤事件分析包括：在該伺服器裝置的一基板管理控制器韌體內儲存一硬體錯誤事件偵測系統；以及其中該報告包括：一硬體錯誤事件報告及一裝置報告。
如申請專利範圍第7項所述之系統，其中該資料中心管理系統更被設置用於識別該硬體錯誤事件的一來源，並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果。
如申請專利範圍第7項所述之系統，其中該資料中心管理系統更被設置用於識別該硬體錯誤事件，其中識別該硬體錯誤事件包括至少識別以下其中之一：錯誤位置、錯誤類別、錯誤類型及錯誤嚴重性；其中該資料中心管理系統更被設置用於接收一硬體錯誤事件識別的一基板管理控制器的一通知；以及其中該資料中心管理系統更被設置用於接收一與語言無關的開放資料格式，其中該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。