TWI680369B - 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統 - Google Patents

用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統 Download PDF

Info

Publication number
TWI680369B
TWI680369B TW108103022A TW108103022A TWI680369B TW I680369 B TWI680369 B TW I680369B TW 108103022 A TW108103022 A TW 108103022A TW 108103022 A TW108103022 A TW 108103022A TW I680369 B TWI680369 B TW I680369B
Authority
TW
Taiwan
Prior art keywords
hardware error
error event
hardware
report
server device
Prior art date
Application number
TW108103022A
Other languages
English (en)
Other versions
TW202009705A (zh
Inventor
錢威宇
Wei-Yu Chien
Original Assignee
廣達電腦股份有限公司
Quanta Computer Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 廣達電腦股份有限公司, Quanta Computer Inc. filed Critical 廣達電腦股份有限公司
Application granted granted Critical
Publication of TWI680369B publication Critical patent/TWI680369B/zh
Publication of TW202009705A publication Critical patent/TW202009705A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1428Reconfiguring to eliminate the error with loss of hardware functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

一種用於自動管理發生在所提供的資料中心系統中之錯誤事 件的方法和系統。該方法包括收集與硬體錯誤事件相對應的硬體錯誤事件分析。硬體錯誤事件分析被組織成用於遭受硬體錯誤事件的伺服器裝置的報告。該方法還包括處理從伺服器裝置的報告接收的統計資料。該方法還包括依據已評估的統計資料執行硬體恢復。

Description

用以自動管理發生於資料中心系統的硬體錯誤事件 的方法及其系統
本揭露是有關於一種自動管理系統及其方法,特別是有關於用於管理發生於資料中心的錯誤事件之自動管理系統及其方法。
為了滿足基於資訊經濟之日益增長的需求,資料中心和資訊技術網路持續擴展到全球。這種擴展已經採用各種形式,包括將地理上不同的計算資源連接在一起的廣泛分佈之計算機網路,以及為各種應用提供電源、冷卻和計算基礎設施的資料中心。
典型的資料中心包含許多需要電源、冷卻和與外部通信設施連接的設備機架。在現代資料中心和網路機房中,在這些設施中所使用的計算設備密度的增加為其相關的電力系統帶來壓力。由於該計算設備在運行中產生熱,因此這些設施的冷卻系統也增加使用上的負荷。
因此,需要有效的資料中心運作和管理工具。管理資料中心的大多數傳統方法取決於先前的操作記錄。在典型的資料中心操作和管理工具中,資料中心的錯誤是手動管理。在這種情況下,很難預測錯誤事件的發生。此外,對於先前未發生的新型錯誤事件也難以進行主動評估和預測。
以下是一個或多個實施例的簡要概述,以便提供對本技術的基本理解。 該概述不是本技術的所有預期實施例的廣泛概要。 其既不旨在標識所有示例的關鍵或重要元素,也不旨在描繪本技術的任何或所有方面的範圍。 其唯一目的是以簡化形式呈現一個或多個示例的一些概念,作為稍後呈現的更詳細描述的序言。
一種方法及系統,用以自動管理發生於資料中心系統的錯誤事件。該方法包括:收集與硬體錯誤事件對應的硬體錯誤事件分析。其中該硬體錯誤事件分析被組織成一報告,並且該報告用於受到該硬體錯誤事件影響的一伺服器裝置。該方法還包括:處理用於該伺服器裝置的該報告中的統計資料。該方法更包括:根據該已處理的統計資料執行硬體恢復。
於本揭示文件的一些實施例中,收集硬體錯誤事件分析包括在伺服器裝置的一基板管理控制器韌體內儲存硬體錯誤事件偵測系統。該方法還包括:識別該硬體錯誤事件的一來源,並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果。於本揭示文件的一些實施例中,該硬體錯誤事件的該來源由一基本輸入輸出系統(BIOS)服務程序所決定。該方法還包括:識別該硬體錯誤事件。於本揭示文件的一些實施例中,識別該硬體錯誤事件包括至少識別以下其中之一:錯誤位置、錯誤類別、錯誤類型及/或錯誤嚴重性。該方法還包括:接收一硬體錯誤事件識別的一基板管理控制器產生的一通知。於本揭示文件的一些實施例中,其中該報告包括一硬體錯誤事件報告及一裝置報告。於本揭示文件的一些實施例中,接收與語言無關的開放資料格式,該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。該方法還包括:在該報告的一分析部分中對該資料進行一集中趨勢分析。
於一些實施例中,該集中趨勢分析包括:分析一操作系統及與該硬體錯誤事件相關的軟體服務之風險;分析該伺服器裝置的保護之方向;以及預測該硬體錯誤事件的趨勢和該硬體錯誤事件的影響。在一些實施例中,該方法還包括:測量該硬體錯誤事件並透過一預測性分析的過程產生風險評估,以建立該硬體錯誤事件的診斷憑證。於本揭示文件的一些實施例中,執行該硬體恢復包括檢查該伺服器裝置的一恢復策略。該方法還包括:安排恢復機制。在一些實施例中,該恢復機制依據恢復策略用於立即性恢復或延遲恢復。此流程還包括監控該硬體錯誤事件,用以搜尋伺服器裝置的任何性能缺點。
一種系統,用以自動管理發生於資料中心系統的硬體錯誤事件。該系統包括機架伺服器,其中每個該機架伺服器包括伺服器裝置。該系統還包括資料中心管理系統,其中資料中心管理系統連接伺服器裝置。資料中心管理系統用於收集與該硬體錯誤事件對應的硬體錯誤事件分析。該硬體錯誤事件分析被組織成一報告,該報告用於受到該硬體錯誤事件影響的伺服器裝置。資料中心管理系統還被設置處理從該伺服器裝置的該報告所接收的統計資料;以及根據該已評估的統計資料執行硬體恢復。
本揭示文件的附加特徵和優點將在隨後的描述中闡述,並且部分地將從描述中顯而易見,或者可以通過實踐本文公開的原理來學習。借助於所附請求項中特別指出的儀器和組合,可以實現和獲得本公開的特徵和優點。根據以下描述和所附請求項,本公開的這些和其他特徵將變得完全顯而易見,或者可以通過實踐本文闡述的原理來學習。
參考附圖描述本發明,其中在所有附圖中使用相同的附圖標記來表示相似或等同的元件。附圖未按比例繪製,並且它們僅用於說明本發明。下面參考用於說明的示例應用來描述本發明的若干方面。應該理解,闡述許多具體細節、關係和方法以提供對本發明的完全理解。然而,相關領域的普通技術人員將容易認識到,可以在沒有一個或多個具體細節的情況下或者利用其他方法來實踐本發明。在其他情況下,未詳細示出公知的結構或操作以避免模糊本發明。本發明不受所示出的動作或事件的排序的限制,因為一些動作可以以不同的順序發生和/或與其他動作或事件同時發生。此外,並非所有示出的動作或事件都是實現根據本發明的方法所必需的。
如上所述,在典型的資料中心操作和管理工具中,資料中心的錯誤是手動管理。在這種情況下,很難預測錯誤事件的發生。此外,對於先前未發生的新型態錯誤事件也難以進行主動衡量和預測。本揭示文件提供一種用於自動管理在資料中心中發生的錯誤事件的系統和相應之方法。所公開的系統和方法可以執行伺服器硬體錯誤分析並提供恢復機制。恢復機製可以被配置為減少伺服器停機時間,並減輕受硬體錯誤事件影響的任何軟件而無需更換。恢復機制還可以安排診斷伺服器硬體錯誤事件的根本原因,而無需製造商的維修或恢復。
第1圖說明一傳統的資料中心系統100。資料中心系統100可以包括數千個機架伺服器102。資料中心系統100還可以包括現場管理員104,現場管理員104被配置為監視從機架伺服器102接收的錯誤。具體地,管理員104可以透過資料中心管理系統113的使用者界面(User Interface)從眾多電子組件接收錯誤。其中電子組件儲存在機架伺服器102內。電子組件可包括伺服器裝置。一示例性伺服器裝置110顯示於此。與伺服器裝置110相關聯的錯誤可以包括儲存錯誤11、中央處理單元(CPU)錯誤13、記憶體(Memory)錯誤14、電源供應錯誤12或輸入/輸出錯誤15。這些錯誤僅用於示例說明,並且不用於代表是詳盡的錯誤列表。在一些情況下,在來自機架伺服器102的管理員104的一連續報告中可能產生數千個硬體錯誤。
資料中心系統100還可以包括位於遠程位置的客戶108。客戶108可以透過網路106連線至機架伺服器102。網路106可以是區域網路(Local Area Network, LAN)或廣域網路(Wide-area Network, WAN),其被配置為將客戶108連接到機架伺服器102。在許多情況下,有缺陷的硬體(例如,伺服器裝置110)可以直接影響機架伺服器102的性能。結果,客戶108所體驗的機架服務器102之性能直接受到影響。因此,管理員104的任務是盡可能快速地解決機架伺服器102中的硬體錯誤事件。在管理員104不能服務或修復伺服器裝置110中的硬體錯誤事件的情況下,伺服器裝置110被發送到製造商112以進行修理或更換。為了此實施例之目的,製造商112遠離機架伺服器102和管理員104。製造商112對伺服器裝置110的服務通常可能需要數天、數週或數月。因此,僅使用管理員來解決硬體錯誤事件的傳統方法並不是理想的解決方案。
傳統上,資料中心管理系統113可以在驗證階段檢測98%的硬體錯誤事件,並通過改進硬體和韌體設計來消除錯誤。剩餘1%的硬體錯誤事件是硬體老化的結果。因此,這種類型的硬體錯誤事件通常是不可預測的並且難以檢測。硬體錯誤事件可透過資料中心管理系統113強大的可靠性(Reliability)、可用性(Availability)和可服務性(Serviceability)(RAS)之特性來進行檢測和報告。資料中心管理系統113的可靠性特徵能夠避免、檢測和恢復硬體錯誤事件。資料中心管理系統113的可用性特徵被配置為減輕硬體錯誤事件並減少任何相關軟體的停機時間。當問題出現時,資料中心管理系統113的可服務性特徵被配置用於診斷系統。
伺服器的剩餘1%的硬體錯誤事件是不可預測的。實際上,這些硬體錯誤事件通常是新的並且未被發現。因此,硬體設計人員從未執行模擬來說明這些硬體錯誤事件。這些無法預期的硬體錯誤事件可能使伺服器裝置110當機,或者破壞相關操作系統的完整性。最後,硬體錯誤事件可能需要大量停機時間並嚴重影響客戶108,其中沒有現有方法來執行疑難排除分析恢復。
第2圖說明一示例性資料中心系統200。資料中心系統200可以向管理員提供一可用的報告,並預測資料中心中的錯誤和可行的恢復機制。這樣可以使管理員能夠緩解與伺服器相關的任何問題,減少伺服器停機時間並維護伺服器的服務。資料中心系統200可以包括數千個機架伺服器202。資料中心系統200還可以包括現場管理員204,現場管理員204被配置為監視從機架伺服器202接收的錯誤。具體地,管理員204可以透過資料中心管理系統213的使用者界面(User Interface)從眾多電子組件接收錯誤。其中電子組件儲存在機架伺服器202內。電子組件可包括伺服器裝置。一示例性伺服器裝置210顯示於此。伺服器裝置210還可包含計算伺服器(Compute Server)、儲存伺服器(Storage Server)或網路交換伺服器(Network Switch Server)。與伺服器裝置210的硬體錯誤事件相關聯的錯誤可以包括儲存錯誤21、中央處理單元錯誤23、記憶體錯誤24、電源供應錯誤22或輸入/輸出錯誤25。這些錯誤僅用於示例說明,並且不用於代表是詳盡的錯誤列表。在一些情況下,在來自機架伺服器202的管理員204的一連續報告中可能產生數千個硬體錯誤。
資料中心系統200還可以包括位於遠程位置的客戶208。客戶208可以通過網路206連線至機架伺服器202。網路206可以是區域網路(Local Area Network, LAN)或廣域網路(Wide-area Network, WAN),其被配置為將客戶208連接到機架伺服器202。在管理員204無法服務或修復伺服器裝置210的硬體錯誤事件的情況下,IT工程師212可以服務於伺服器裝置210。
第3圖描述自動管理發生於資料中心系統200的錯誤事件的過程300之流程圖。以下請同時參照第2圖中的資料中心系統200之組件以詳述過程300。過程300開始於步驟301,其中資料中心管理系統213收集硬體錯誤事件分析。在步驟302,資料中心管理系統213處理和評估與硬體錯誤事件分析相關聯的統計資料。這將在第4圖、第5A圖及第5B圖中詳細討論。最後,在步驟303,資料中心管理系統213執行硬體恢復。這將在第6圖中詳細討論。
第4圖描述用於處理和評估統計資料的過程400之流程圖。以下請同時參閱第2圖的資料中心系統200以詳細說明過程400。過程400從步驟401開始,其中硬體錯誤事件檢測系統儲存於基板管理控制器(Baseboard Management Controller,BMC)韌體內。機架伺服器202內的每個伺服器裝置(例如伺服器裝置210)可以安裝基板管理控制器韌體。基板管理控制器韌體可以被配置用以連接於資料中心管理系統213。在其他實施例中,硬體錯誤事件檢測系統可以被安裝在統一可延伸韌體介面(United Extensible Firmware Interface,UEFI)、基本輸入/輸出系統(BIOS)、機架管理器(Rack manager,RM)軟體或資料中心管理系統213本身。
在步驟402中,可以識別硬體錯誤事件的來源。硬體錯誤事件可能是可校正或不可校正的硬體錯誤之結果。硬體無法校正的錯誤可以分為兩類:軟體可恢復錯誤或災難性錯誤(Catastrophic Error)。軟體可恢復錯誤表示伺服器裝置210中的至少有一些資料已毀損。因此,該資料不能被恢復。然而,當發生此類型錯誤時,操作系統仍然是有效工作,並且可以在不重置系統以及不干擾正在進行的其他流程之情況下恢復軟體。相反地,災難性錯誤表示處理器無法執行微指令(Micro-instructions)。災難性錯誤還需要重置系統並且會干擾正在進行的其他流程。儘管它們需要系統重置,這些錯誤還是被歸類為可校正的錯誤。相對之下,可校正的錯誤是指錯誤資料可以通過諸如循環冗餘校驗(Cyclic Redundancy Check, CRC)的硬體機制來修復。在一些實施例中,可校正的錯誤不需要系統重置。
在一些實施例中,基本輸入輸出系統(BIOS)服務程序可以識別硬體錯誤事件。在一些實施例中,基本輸入輸出系統服務程序可以實施系統管理中斷(System Management Interrupt, SMI)信號觸發。在步驟403,可以確定硬體錯誤事件的識別(Identification)。錯誤觸發可以通過硬體信號來實施,例如:SMI,SCI,NMI,SMBus、警報或CATERR中斷。例如,可以記錄錯誤的位置,類別,錯誤類型,嚴重性,並將識別結果記錄並轉發到基板管理控制器的永久儲存器(Permanent Storage)中。在一些實施例中,可以通過諸如系統管理匯流排(System Management Bus, SMBus),平台環境控制介面(Platform Environment Control Interface, PECI)或聯合測試工作群組(Joint Test Action Group, JTAG)的現有介面來確定硬體錯誤事件的識別。這些匯流排或介面中的每一個提供硬體組件和基板管理控制器之間的通信機制。在步驟404,基板管理控制器可以通知UEFI,BIOS,RM軟體或資料中心管理系統213。
第5A圖及第5B圖描述用於處理和評估統計資料的過程500之流程圖。以下請同時參閱第2圖的資料中心系統200以詳細說明以下過程500。硬體錯誤事件可能包含大量不同的資料。為了評估與硬體錯誤事件相關聯的資料,資料中心管理系統213被配置為從多個位置收集資料,處理資料並依據該資料啟動伺服器裝置210的處理和恢復階段。過程500在步驟502開始,其中可以收集硬體錯誤事件資料及其相關資料。硬體錯誤事件資料可被組織成用於每個伺服器的報告550。如第5A圖及第5B圖所示,單獨的報告550可以用於計算伺服器、儲存伺服器或網路交換伺服器(Network Switch Server)。每個伺服器裝置的報告550可以包括硬體錯誤事件報告551和裝置報告552。裝置報告552可以包括與伺服器裝置210有關的各種資料。例如,裝置報告552可以包括伺服器裝置210的韌體版本555、伺服器裝置210的平台配置556、伺服器裝置210的客製化設置554、以及伺服器裝置210的使用模型553。本領域之普通技術人員將理解裝置報告552中的該資料之列表僅提供作為示例,並不意味著是全面性的。 該過程500進行到步驟503,其中收集並集中來自裝置報告552的相關信息。用於計算伺服器、儲存伺服器或網路交換伺服器的報告550之示例,如以下表1所示:
Data collection \ Product Compute server Storage server Network switch server
Error format .Category (CPU, Memory, Bus, IO Category (storage controller, storage Category (Switch controller, switch
peripheral, thermal, power supply) .Time (Year, month, day, hour, minute, second) .Type (POST, runtime) manager board, storage backplane, storage drive, thermal, power supply) .Time (Year, month, day, hour, minute, second) manager board, thermal, power supply) .Time (Year, month, day, hour, minute, second) .Type (POST, runtime)
.Severity (Correctable, uncorrectable .Type (POST, runtime) .Severity (Correctable, uncorrectable
non-fatal, uncorrectable fatal) .Severity (Correctable, uncorrectable non-fatal, uncorrectable fatal)
.Location (Socket, channel, riser, slot, bus, device, function) .Identity (GPGPU, FPGA, x86, ARM) non-fatal, uncorrectable fatal) .Location (Socket, channel, slot, bus, device, function) .Location (Port) .Identity (protocol, size, discard, alignment error)
.Identity (SSD storage, hard disk, NVMe,)
Firmware version .UEFI BIOS image (CPU microcode, silicon reference code, 3 rdroot of trust UEFI driver) .UEFI BIOS image (CPU microcode, silicon reference code, 3 rdroot of trust UEFI driver) (option) .UEFI BIOS image (CPU microcode, silicon reference code, 3 rdroot of trust UEFI driver) (option)
.BMC image .Boot code (option) .Boot code (option)
.CPLD image .BMC image .BMC image
.Voltage regular image .CPLD image .CPLD image
.3 rdparity UEFI driver .Voltage regular image .Voltage regular image
.Backplane image .Switch manager board image
.Storage manager board image
Configuration .Quantity (CPU, memory, IO adaptor card, storage, FAN, power supply) .Quantity (storage, FAN, power supply) .Serial number and asset tag (storage .Quantity (Switch controller, FAN, power supply)
.Serial number and asset tag (CPU, memory, IO adaptor card, storage, FAN, power supply) controller, storage, FAN, power supply) .Topology of storage server architecture (hierarchical & connection) .Serial number and asset tag (FAN, power supply) .Topology of switch server architecture
.Topology of compute server architecture (hierarchical & connection) (hierarchical & connection)
Custom .UEFI BIOS .UEFI BIOS (option) .UEFI BIOS (option)
setting .BMC .3 rdparity UEFI driver (RAID function) .Boot code (option) .BMC .Boot code (option) .BMC
.Storage Partition (aggregate & disaggregate) .Partition of network domain
Usage .Operating system (Windows, VMware, Linux) .Operating system (Windows, VMware, Linux) .Operating system (Windows, VMware, Linux)
.Virtualization
表1.
如表1所示,每個伺服器裝置210的衡量指標(Specific metrics)可被提供。在表1中,伺服器裝置210可以包括計算伺服器,儲存伺服器或網路交換伺服器。每個伺服器裝置210的示例性衡量指標可以包括資料收集(Data Collection)和產品錯誤格式(Product Error Format)。這可以包括錯誤的類別、時間、類型、嚴重性、位置和特徵(identity)。例如,計算伺服器的CPU記憶體中可能有錯誤。CPU記憶體錯誤的時間、類型、嚴重性、位置和特徵可在這裡被提供。每個伺服器裝置210的其他衡量指標可以包括韌體版本、配置、客製化設置和使用信息。
伺服器裝置210可以具有基板管理控制器。用於伺服器裝置210的基板管理控制器可以用於儲存硬體錯誤事件及收集其相關的原始資料。伺服器裝置210的基板管理控制器還可以傳送與語言無關的開放資料格式,該格式使用人類可讀的文字來表達資料物件,以便於管理員204進行使用管理。
報告550中的統計資料可被用於建立每種伺服器類型的資料之統計評估。該統計評估可以包括一評估特徵561和一分析特徵562。在步驟504,資料中心管理系統213可以調用評估特徵561中的資料之統計評估。評估特徵561可以包括與硬體錯誤事件相關聯的實體(Entity)、硬體錯誤事件的嚴重性、以及與硬體錯誤事件關聯的層(layer)和關係資料。評估特徵561還可以包括硬體錯誤分類。硬體錯誤事件可以分為冗餘(redundant)、方向、可恢復或緊急。最後,評估特徵561可以包括硬體錯誤事件數量、硬體錯誤事件的嚴重性、硬體錯誤事件的位置、硬體錯誤事件的類別、平台配置、客製化設置、使用模型和硬體錯誤事件的時間標記(Timestamp)。本領域普通技術人員應該理解評估特徵561可以具有許多屬性,並且這裡列出的屬性是出於示例性目的而不是詳細全面性的列舉。
在步驟505,資料中心管理系統213對分析特徵562中的資料執行集中趨勢分析(Central Tendency Analysis)。集中趨勢分析特別用於不可校正的錯誤(非致命的)。雖然軟體重啟或硬體重新處理可以恢復非致命的不可校正錯誤,但它可能會影響伺服器的性能。集中趨勢分析包括識別不可校正錯誤的位置,並確定連接裝置的數量。集中趨勢分析還包括從硬體組件識別錯誤報告,以及識別是否可以將事務重新改到可替換的裝置。 此時,可以列出配置為替換錯誤硬體的所有冗餘組件。確定是否可以將軟體服務遷移到可替換的虛擬機器(Virtual machine)。檢查錯誤歷史、比率和使用模型。此外,確定硬體錯誤事件的錯誤類型、已列出之硬體錯誤事件的數量以及來自該硬體錯誤事件的影響。資料中心管理系統213可以分析操作系統的風險,以及與硬體錯誤事件相關聯的軟體服務之風險。資料中心管理系統213還可以分析伺服器裝置210的保護方向。資料中心管理系統213還可以預測錯誤事件的趨勢和硬體錯誤事件的影響。資料中心管理系統213可以利用其相關資料處理統計硬體錯誤事件資料,以便理解不同形態的硬體錯誤事件資料。此外,資料中心管理系統213被配置為衡量硬體錯誤事件,並通過一預測分析過程以建立風險評估。
在步驟504及步驟505期間,依據資料中心管理系統213的評估,資料中心管理系統213可以在步驟506建立硬體錯誤事件的診斷憑證(Certificate of Diagnosis)。示例性診斷憑證由以下表2所提供: 表2.
如表2所示,診斷憑證可以包括軟體服務,其中軟體服務包括理解、視覺化和預測性的分析組件。理解組件可以確定硬體錯誤事件的根本原因。在一些實施例中,硬體錯誤事件的根本原因可包括硬體錯誤事件的實體、硬體錯誤事件的嚴重性、硬體錯誤事件的來源、硬體錯誤事件的情境以及硬體錯誤事件的關係。理解組件還可以包括硬體錯誤事件的屬性組件。屬性組件可以包括硬體錯誤事件組件的冗餘部分、硬體錯誤事件的方向、硬體錯誤事件的可恢復過程以及硬體錯誤事件的緊急性。診斷憑證中還提供這些指標的描述。
視覺化組件可以提供硬體錯誤事件的數量指標(Quantity metrics)。數量指標可以包括硬體錯誤事件嚴重性的數量、硬體錯誤事件的數量、硬體錯誤事件位置的數量、硬體產品的數量、每個硬體錯誤事件的硬體錯誤事件配置之數量、每個硬體錯誤事件的軟體配置之數量、以及硬體錯誤事件的比率和間隔。診斷憑證中還提供這些指標的描述。由於簡單的硬體錯誤事件無法指出真正的根本原因,因此計算具有相關條件的錯誤歷史的數量。確定可能導致每個組件之間錯誤的相關原因。識別錯誤是否來自特定平台配置、組件、韌體版本或者使用模式。
預測性的分析組件可以執行一風險評估分析。 該風險評估分析可以包括硬體錯誤事件的趨勢、保護方向、操作系統的風險、硬體錯誤事件的問題以及硬體的痛苦。診斷憑證中還提供這些指標的描述。
第6圖描述用於恢復硬體的過程600之流程圖。 以下請同時參閱第2圖的資料中心系統200以詳細說明以下過程600。在挖掘和分析數千個硬體錯誤事件資料之後,資料中心管理系統213被配置為確定校正組件。例如,雲端服務恢復是否可行、以及硬體錯誤事件的當前危險。此外,資料中心管理系統213能夠使用預測性分析來預測任何潛在風險,以便減輕硬體錯誤事件對軟體性能的影響。在一些實施例中,伺服器裝置210上的主機板之硬體設計可以具有用於主要組件的備用電路(Redundant Circuit)。因此,伺服器210的主機板可以提供備用實體(Spare Entity),備用實體允許伺服器將一個故障組件的操作移動到正常組件。如果發生不可避免的硬體錯誤事件,可選擇性的電路可以減少伺服器使用的範圍。
過程600由步驟601開始,其中資料中心管理系統213檢查遭受硬體錯誤事件影響的伺服器裝置210之恢復策略。恢復策略可以特定於硬體錯誤事件的類型。以下所提供之表3,其具有示例性硬體錯誤事件及其恢復方法: 表3.
如表3所示,該報告包括硬體錯誤事件的位置、硬體錯誤事件類型,恢復方法以及與硬體錯誤事件關聯的軟體。資料中心管理系統213從伺服器裝置210接收硬體錯誤事件報告,並啟動統計資料的處理和評估。過程600進行到步驟602,其中確定是否應該立即實施恢復機制。如果確定不應立即實施恢復機制,則過程600前進到步驟603。在步驟603中,資料中心管理系統213調度恢復過程的停機時間,並列出恢復過程中所需的硬體和軟體替換。然後,過程600進行到步驟604和605,其中資料中心管理系統213向資料中心服務工程師通知所安排的停機時間。可以為設計團隊安排學習課程。技術性的反饋可以改善未來的平台硬體設計,增加必要的保護電路,並調整故障排除的軟體演算法。
如果確定應立即實施恢復機制,則過程600前進到步驟606。在步驟606中,資料中心管理系統213為伺服器裝置650建立恢復策略651。現場管理員204(如圖2所示)可以建立單獨的恢復策略651,並執行它以減輕來自硬體錯誤事件對雲端服務和性能的影響。第6圖顯示出示例性的恢復策略651。然後,過程600前進到步驟607,其中監視硬體錯誤事件以搜尋伺服器裝置650的性能的任何附加趨勢或缺陷。
雖然有關於一個或多個實施方式已經說明和描述本揭示文件,但是在閱讀和理解本說明書和附圖後,本領域的普通技術人員將會想到等同的改變和修改。另外,雖然本揭示文件的特定技術特徵可能已經被若干實施中之一公開,但是這樣的技術特徵可以與其他實施例的一個或多個其他技術特徵組合,對於任何給定的或特定的應用。
本文使用的術語僅用於描述特定實施例,而不旨在限制本發明。如本文所使用的,除非上下文另外明確指出,否則單數形式「一」、「一個」和「該」也包含複數形式。此外,就術語「包括」 、「包含」 、「具有」或其他變化用法被用於詳細描述和/或請求項,這些術語旨在以類似於術語「包含」的方式具有相同意思。
除非有其他定義,否則這裡使用的所有術語(包括技術和科學術語)可被具有本領域的通常知識者所理解的相同的含義。此外,諸如通用字典中定義的術語應該被解釋為具有與其在相關領域的上下文中的含義相一致的意思,並且不會被理解為理想化或過度正式的意義,除非在此明確地如此定義。
100‧‧‧傳統的資料中心系統
102‧‧‧機架伺服器
104‧‧‧現場管理員
106‧‧‧網路
108‧‧‧客戶
110‧‧‧伺服器裝置
112‧‧‧製造商
113‧‧‧資料中心管理系統
11‧‧‧儲存錯誤
12‧‧‧電源錯誤
13‧‧‧中央處理單元錯誤
14‧‧‧記憶體錯誤
15‧‧‧輸入/輸出錯誤
200‧‧‧資料中心系統
202‧‧‧機架伺服器
204‧‧‧現場管理員
206‧‧‧網路
208‧‧‧客戶
210‧‧‧伺服器裝置
212‧‧‧IT 工程師
213‧‧‧資料中心管理系統
21‧‧‧儲存錯誤
22‧‧‧電源供應錯誤
23‧‧‧中央處理單元錯誤
24‧‧‧記憶體錯誤
25‧‧‧輸入/輸出錯誤
300‧‧‧方法
301~303‧‧‧步驟
400‧‧‧方法
410~452‧‧‧步驟
500‧‧‧方法
502~562‧‧‧步驟
600‧‧‧方法
601~651‧‧‧步驟
為了描述可以獲得上述公開內容及其優點和特徵的方式,將通過參考附圖中示出的特定示例來呈現上述原理的更具體的描述。這些附圖僅描繪本公開的示例方面,因此不應被視為對其範圍的限制。通過使用以下附圖、附加的特徵和細節來描述和解釋這些原理。
第1圖說明一傳統的資料中心系統100。 第2圖根據本揭示文件之一實施例,說明一示例性資料中心系統200。 第3圖根據本揭示文件之一實施例,描述自動管理發生於資料中心系統200的錯誤事件的過程300之流程圖。 第4圖根據本揭示文件之一實施例,描述用於處理和評估統計資料的過程400之流程圖。 第5A圖及第5B圖根據本揭示文件之一實施例,描述用於處理和評估統計資料的過程500之流程圖。 第6圖根據本揭示文件之一實施例,描述用於恢復硬體的過程600之流程圖。

Claims (10)

  1. 一種用以自動管理發生於資料中心系統的硬體錯誤事件的方法,該方法包括: 收集與該硬體錯誤事件對應的硬體錯誤事件分析,其中該硬體錯誤事件分析被組織成一報告,該報告用於受到該硬體錯誤事件影響的一伺服器裝置; 處理用於該伺服器裝置的該報告中的統計資料;以及 根據該已處理的統計資料執行硬體恢復。
  2. 如申請專利範圍第1項所述之方法,其中收集硬體錯誤事件分析包括在該伺服器裝置的一基板管理控制器韌體內儲存一硬體錯誤事件偵測過程;其中該報告包括一硬體錯誤事件報告及一裝置報告。
  3. 如申請專利範圍第1項所述之方法,更包括:識別該硬體錯誤事件的一來源,並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果,其中該硬體錯誤事件的該來源由一基本輸入輸出系統服務程序所決定; 識別該硬體錯誤事件,其中識別該硬體錯誤事件包括至少識別以下其中之一:錯誤位置、錯誤類別、錯誤類型及錯誤嚴重性; 接收來自一硬體錯誤事件識別的一基板管理控制器的通知;以及 接收一與語言無關的開放資料格式,該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。
  4. 如申請專利範圍第1項所述之方法,更包括:在該報告的一分析部分中對該資料進行一集中趨勢分析,其中該集中趨勢分析包括: 分析一操作系統及與該硬體錯誤事件相關的一軟體服務之風險, 分析該伺服器裝置的保護之一方向;以及 預測該硬體錯誤事件的趨勢和該硬體錯誤事件的影響。
  5. 如申請專利範圍第1項所述之方法,更包括:衡量該硬體錯誤事件並透過一預測性分析的過程產生一風險評估,以建立該硬體錯誤事件的一診斷憑證。
  6. 如申請專利範圍第1項所述之方法,其中執行該硬體恢復包括檢查該伺服器裝置的一恢復策略,並安排一恢復機制,其中該恢復機制依據該恢復策略用於立即性恢復或延遲恢復;以及 監控該硬體錯誤事件,用以搜尋該伺服器裝置的任何性能缺點。
  7. 一種用以自動管理發生於資料中心系統的硬體錯誤事件的系統,該系統包括: 複數個機架伺服器,其中每個該等機架伺服器包括一伺服器裝置;以及 一資料中心管理系統,其中該資料中心管理系統連接該伺服器裝置,並用以: 收集與該硬體錯誤事件對應的硬體錯誤事件分析,其中該硬體錯誤事件分析被組織成一報告,該報告用於受到該硬體錯誤事件影響的一伺服器裝置; 處理用於該伺服器裝置的該報告中的統計資料;以及根據該已評估的統計資料執行硬體恢復。
  8. 如申請專利範圍第7項所述之系統,收集該硬體錯誤事件分析包括:在該伺服器裝置的一基板管理控制器韌體內儲存一硬體錯誤事件偵測系統;以及其中該報告包括:一硬體錯誤事件報告及一裝置報告。
  9. 如申請專利範圍第7項所述之系統,其中該資料中心管理系統更被設置用於識別該硬體錯誤事件的一來源,並確定該硬體錯誤事件是否為一可校正錯誤或不可校正的錯誤之一結果。
  10. 如申請專利範圍第7項所述之系統,其中該資料中心管理系統更被設置用於識別該硬體錯誤事件,其中識別該硬體錯誤事件包括至少識別以下其中之一:錯誤位置、錯誤類別、錯誤類型及錯誤嚴重性;其中該資料中心管理系統更被設置用於接收一硬體錯誤事件識別的一基板管理控制器的一通知;以及其中該資料中心管理系統更被設置用於接收一與語言無關的開放資料格式,其中該開放資料格式使用人類可讀的文字來表達該報告中的資料物件。
TW108103022A 2018-08-13 2019-01-28 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統 TWI680369B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/101,749 2018-08-13
US16/101,749 US10761926B2 (en) 2018-08-13 2018-08-13 Server hardware fault analysis and recovery

Publications (2)

Publication Number Publication Date
TWI680369B true TWI680369B (zh) 2019-12-21
TW202009705A TW202009705A (zh) 2020-03-01

Family

ID=67211531

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108103022A TWI680369B (zh) 2018-08-13 2019-01-28 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統

Country Status (5)

Country Link
US (1) US10761926B2 (zh)
EP (1) EP3620922A1 (zh)
JP (1) JP6828096B2 (zh)
CN (1) CN110825578A (zh)
TW (1) TWI680369B (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10761743B1 (en) 2017-07-17 2020-09-01 EMC IP Holding Company LLC Establishing data reliability groups within a geographically distributed data storage environment
US10880040B1 (en) 2017-10-23 2020-12-29 EMC IP Holding Company LLC Scale-out distributed erasure coding
US10382554B1 (en) 2018-01-04 2019-08-13 Emc Corporation Handling deletes with distributed erasure coding
US10579297B2 (en) 2018-04-27 2020-03-03 EMC IP Holding Company LLC Scaling-in for geographically diverse storage
US10936196B2 (en) 2018-06-15 2021-03-02 EMC IP Holding Company LLC Data convolution for geographically diverse storage
US11023130B2 (en) 2018-06-15 2021-06-01 EMC IP Holding Company LLC Deleting data in a geographically diverse storage construct
US11436203B2 (en) 2018-11-02 2022-09-06 EMC IP Holding Company LLC Scaling out geographically diverse storage
CN109491826B (zh) * 2018-11-27 2021-02-12 英业达科技有限公司 远程硬件诊断系统与诊断方法
US10901635B2 (en) 2018-12-04 2021-01-26 EMC IP Holding Company LLC Mapped redundant array of independent nodes for data storage with high performance using logical columns of the nodes with different widths and different positioning patterns
US11119683B2 (en) 2018-12-20 2021-09-14 EMC IP Holding Company LLC Logical compaction of a degraded chunk in a geographically diverse data storage system
US10931777B2 (en) 2018-12-20 2021-02-23 EMC IP Holding Company LLC Network efficient geographically diverse data storage system employing degraded chunks
US10892782B2 (en) 2018-12-21 2021-01-12 EMC IP Holding Company LLC Flexible system and method for combining erasure-coded protection sets
US11023331B2 (en) 2019-01-04 2021-06-01 EMC IP Holding Company LLC Fast recovery of data in a geographically distributed storage environment
US10942827B2 (en) 2019-01-22 2021-03-09 EMC IP Holding Company LLC Replication of data in a geographically distributed storage environment
US10942825B2 (en) * 2019-01-29 2021-03-09 EMC IP Holding Company LLC Mitigating real node failure in a mapped redundant array of independent nodes
US10936239B2 (en) 2019-01-29 2021-03-02 EMC IP Holding Company LLC Cluster contraction of a mapped redundant array of independent nodes
US10866766B2 (en) 2019-01-29 2020-12-15 EMC IP Holding Company LLC Affinity sensitive data convolution for data storage systems
US10846003B2 (en) 2019-01-29 2020-11-24 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage
US10754722B1 (en) * 2019-03-22 2020-08-25 Aic Inc. Method for remotely clearing abnormal status of racks applied in data center
US10944826B2 (en) 2019-04-03 2021-03-09 EMC IP Holding Company LLC Selective instantiation of a storage service for a mapped redundant array of independent nodes
US11029865B2 (en) 2019-04-03 2021-06-08 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a mapped redundant array of independent nodes
US11121727B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Adaptive data storing for data storage systems employing erasure coding
US11113146B2 (en) 2019-04-30 2021-09-07 EMC IP Holding Company LLC Chunk segment recovery via hierarchical erasure coding in a geographically diverse data storage system
US11119686B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Preservation of data during scaling of a geographically diverse data storage system
US11748004B2 (en) 2019-05-03 2023-09-05 EMC IP Holding Company LLC Data replication using active and passive data storage modes
JP7358800B2 (ja) * 2019-06-27 2023-10-11 京セラドキュメントソリューションズ株式会社 電子機器及びその制御プログラム
US11209996B2 (en) 2019-07-15 2021-12-28 EMC IP Holding Company LLC Mapped cluster stretching for increasing workload in a data storage system
US11023145B2 (en) 2019-07-30 2021-06-01 EMC IP Holding Company LLC Hybrid mapped clusters for data storage
US11449399B2 (en) 2019-07-30 2022-09-20 EMC IP Holding Company LLC Mitigating real node failure of a doubly mapped redundant array of independent nodes
US11228322B2 (en) 2019-09-13 2022-01-18 EMC IP Holding Company LLC Rebalancing in a geographically diverse storage system employing erasure coding
US11449248B2 (en) 2019-09-26 2022-09-20 EMC IP Holding Company LLC Mapped redundant array of independent data storage regions
US11119690B2 (en) 2019-10-31 2021-09-14 EMC IP Holding Company LLC Consolidation of protection sets in a geographically diverse data storage environment
US11288139B2 (en) 2019-10-31 2022-03-29 EMC IP Holding Company LLC Two-step recovery employing erasure coding in a geographically diverse data storage system
US11435910B2 (en) 2019-10-31 2022-09-06 EMC IP Holding Company LLC Heterogeneous mapped redundant array of independent nodes for data storage
US11435957B2 (en) 2019-11-27 2022-09-06 EMC IP Holding Company LLC Selective instantiation of a storage service for a doubly mapped redundant array of independent nodes
US11144220B2 (en) 2019-12-24 2021-10-12 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a doubly mapped redundant array of independent nodes
US11231860B2 (en) 2020-01-17 2022-01-25 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage with high performance
US11507308B2 (en) 2020-03-30 2022-11-22 EMC IP Holding Company LLC Disk access event control for mapped nodes supported by a real cluster storage system
CN113626275B (zh) * 2020-05-07 2024-07-16 捷普科技(上海)有限公司 资讯的建立方法及分析方法
US11288229B2 (en) 2020-05-29 2022-03-29 EMC IP Holding Company LLC Verifiable intra-cluster migration for a chunk storage system
CN111767181B (zh) * 2020-06-29 2021-11-02 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理系统
US11893644B2 (en) 2020-10-15 2024-02-06 State Farm Mutual Automobile Insurance Company Intelligent user interface monitoring and alert
US11836032B2 (en) 2020-10-15 2023-12-05 State Farm Mutual Automobile Insurance Company Error monitoring and prevention in computing systems based on determined trends and routing a data stream over a second network having less latency
US11693983B2 (en) 2020-10-28 2023-07-04 EMC IP Holding Company LLC Data protection via commutative erasure coding in a geographically diverse data storage system
US11847141B2 (en) 2021-01-19 2023-12-19 EMC IP Holding Company LLC Mapped redundant array of independent nodes employing mapped reliability groups for data storage
US11625174B2 (en) 2021-01-20 2023-04-11 EMC IP Holding Company LLC Parity allocation for a virtual redundant array of independent disks
CN112799917B (zh) * 2021-02-08 2024-01-23 联想(北京)有限公司 一种数据处理方法、装置及设备
CN113238916A (zh) * 2021-05-14 2021-08-10 山东英信计算机技术有限公司 一种服务器资产管理方法、bmc、管理后台、终端
US11449234B1 (en) 2021-05-28 2022-09-20 EMC IP Holding Company LLC Efficient data access operations via a mapping layer instance for a doubly mapped redundant array of independent nodes
US11354191B1 (en) 2021-05-28 2022-06-07 EMC IP Holding Company LLC Erasure coding in a large geographically diverse data storage system
CN113392052B (zh) * 2021-06-11 2023-07-18 深圳市同泰怡信息技术有限公司 一种基于四路服务器的bios系统、方法及计算机可读存储介质
US20210397530A1 (en) * 2021-06-25 2021-12-23 Intel Corporation Methods and apparatus to transmit central processing unit performance information to an operating system
US11841773B2 (en) * 2021-09-14 2023-12-12 Dell Products L.P. Persistence of learned profiles
CN114003416B (zh) * 2021-09-23 2024-01-12 苏州浪潮智能科技有限公司 内存错误动态处理方法、系统、终端及存储介质
TWI815310B (zh) * 2022-02-16 2023-09-11 玉山商業銀行股份有限公司 主動式資料庫風險偵測系統與運作方法
US11886283B2 (en) 2022-03-30 2024-01-30 International Business Machines Corporation Automatic node crash detection and remediation in distributed computing systems
CN115562913B (zh) * 2022-04-21 2023-11-14 荣耀终端有限公司 一种硬件状态分析方法、装置及系统
CN117675505A (zh) * 2022-09-08 2024-03-08 华为技术有限公司 事件处理方法、装置及系统
CN116048865B (zh) * 2023-02-21 2024-06-07 海南电网有限责任公司信息通信分公司 一种自动化运维下故障消除核证自动化查证方法
US12009660B1 (en) * 2023-07-11 2024-06-11 T-Mobile Usa, Inc. Predicting space, power, and cooling capacity of a facility to optimize energy usage
CN118277226B (zh) * 2024-06-04 2024-10-01 深圳市星王电子有限公司 一种平板电脑故障监测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004841A1 (en) * 2006-06-30 2008-01-03 Hitachi, Ltd. Computer system and method for controlling computer system
TW201235840A (en) * 2011-02-28 2012-09-01 Intel Corp Error management across hardware and software layers
TW201417536A (zh) * 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統
TW201730763A (zh) * 2016-02-24 2017-09-01 廣達電腦股份有限公司 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3572928B2 (ja) * 1998-03-18 2004-10-06 富士通株式会社 バックアップ機能付オンラインデータベース情報処理システム
US6516429B1 (en) * 1999-11-04 2003-02-04 International Business Machines Corporation Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
JP2004259044A (ja) * 2003-02-26 2004-09-16 Hitachi Ltd 情報処理装置の管理方法およびシステム
US7536370B2 (en) 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
US20090259890A1 (en) * 2008-04-14 2009-10-15 Turin Networks Method & apparatus for hardware fault management
US8332690B1 (en) 2008-06-27 2012-12-11 Symantec Corporation Method and apparatus for managing failures in a datacenter
JP5583052B2 (ja) * 2011-02-25 2014-09-03 株式会社日立製作所 故障予測・対策方法及びクライアントサーバシステム
US20140122930A1 (en) * 2012-10-25 2014-05-01 International Business Machines Corporation Performing diagnostic tests in a data center
JP6217086B2 (ja) * 2013-01-28 2017-10-25 日本電気株式会社 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
US10496495B2 (en) * 2014-04-30 2019-12-03 Hewlett Packard Enterprise Development Lp On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
US9965367B2 (en) 2014-12-17 2018-05-08 Quanta Computer Inc. Automatic hardware recovery system
JP6219865B2 (ja) * 2015-02-19 2017-10-25 ファナック株式会社 制御装置の故障予測システム
US10599504B1 (en) * 2015-06-22 2020-03-24 Amazon Technologies, Inc. Dynamic adjustment of refresh rate
CN107077408A (zh) 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004841A1 (en) * 2006-06-30 2008-01-03 Hitachi, Ltd. Computer system and method for controlling computer system
TW201235840A (en) * 2011-02-28 2012-09-01 Intel Corp Error management across hardware and software layers
TW201417536A (zh) * 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統
TW201730763A (zh) * 2016-02-24 2017-09-01 廣達電腦股份有限公司 硬體修復方法、硬體修復系統以及計算機可讀取儲存裝置

Also Published As

Publication number Publication date
JP2020027615A (ja) 2020-02-20
TW202009705A (zh) 2020-03-01
US10761926B2 (en) 2020-09-01
US20200050510A1 (en) 2020-02-13
JP6828096B2 (ja) 2021-02-10
EP3620922A1 (en) 2020-03-11
CN110825578A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
TWI680369B (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
Wang et al. What can we learn from four years of data center hardware failures?
US8839032B2 (en) Managing errors in a data processing system
Di Martino et al. Lessons learned from the analysis of system failures at petascale: The case of blue waters
TWI317868B (en) System and method to detect errors and predict potential failures
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
US9262253B2 (en) Middlebox reliability
Tang et al. Assessment of the effect of memory page retirement on system RAS against hardware faults
US8108724B2 (en) Field replaceable unit failure determination
US9292402B2 (en) Autonomous service management
US12086639B2 (en) Server management system capable of supporting multiple vendors
US20180321719A1 (en) Thermal excursion detection in datacenter components
Li et al. Going through the life cycle of faults in clouds: Guidelines on fault handling
Di Martino et al. Measuring the resiliency of extreme-scale computing environments
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP2013206046A (ja) 情報処理装置、起動時診断方法、及びプログラム
US20110154114A1 (en) Field replaceable unit acquittal policy
US20080168313A1 (en) Memory error monitor
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health
US11714701B2 (en) Troubleshooting for a distributed storage system by cluster wide correlation analysis
US11797368B2 (en) Attributing errors to input/output peripheral drivers
US20170046662A1 (en) Warrantied component cost optimization
KR100862407B1 (ko) 에러를 검출하고 잠재적 고장을 예상하는 시스템 및 방법
KR20230073469A (ko) 장애 대응이 가능한 서버 관리 시스템