TW201415214A - 企業裝置用強韌硬體故障管理系統、方法及架構 - Google Patents

企業裝置用強韌硬體故障管理系統、方法及架構 Download PDF

Info

Publication number
TW201415214A
TW201415214A TW102131830A TW102131830A TW201415214A TW 201415214 A TW201415214 A TW 201415214A TW 102131830 A TW102131830 A TW 102131830A TW 102131830 A TW102131830 A TW 102131830A TW 201415214 A TW201415214 A TW 201415214A
Authority
TW
Taiwan
Prior art keywords
error
hardware
rules
rule
enterprise
Prior art date
Application number
TW102131830A
Other languages
English (en)
Other versions
TWI608344B (zh
Inventor
Suhas Shivanna
Valentin Anders
Sunil Malhotra
Omkar S Prabhakar
Original Assignee
Hewlett Packard Development Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co filed Critical Hewlett Packard Development Co
Publication of TW201415214A publication Critical patent/TW201415214A/zh
Application granted granted Critical
Publication of TWI608344B publication Critical patent/TWI608344B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種用以提供企業裝置用強韌硬體故障管理之強韌硬體故障管理系統、方法以及架構被揭示。於一範例中,於需要強韌硬體故障管理的企業裝置之各者中的硬體裝置以及關聯之硬體模組被識別。進一步地,關聯各硬體模組之錯誤結構被決定並且唯一的識別符被指定至被決定的錯誤結構。更進一步地,該等錯誤結構被模式化於一集中貯藏處中。此外,規則被關聯於各模式化錯誤結構以供檢測硬體故障。此外,各模式化錯誤結構之規則使用關聯的規則識別符而被儲存於該集中貯藏處中。

Description

企業裝置用強韌硬體故障管理系統、方法及架構
本發明係有關於企業裝置用強韌硬體故障管理系統、方法及架構。
發明背景
於今日之網路企業系統中,商業可靠度、可利用性、以及服務能力(RAS)特點是任何任務緊要伺服器的品質證明。一般,RAS特點藉由強韌故障管理解決辦法被達成。此等故障管理解決辦法是主要地在改進網路企業系統中之企業裝置的可利用性以及服務能力。
但是,大多數現有的故障管理解決辦法不能不需要軟體以及韌體更新而動態地更新用以檢測新的失效症狀之企業裝置。此等更新頻繁地需要服務或系統停工期。目前,分析規則於不同的文書文件、試算表或使用一規畫性語言被獲得。進一步地,沒有管理分析規則之標準方式,因各企業裝置對於一硬體構件界定其獨有之分析規則以及事件通知資料。此外,獲得分析規則之非標準方法可能導致誤解,導致不完整以及不正確之分析。當企業裝置容積 增加時,任何失效症狀之錯誤分析或非必要事件通知可能對可利用性、顧客經驗以及支援成本具有巨大的衝擊。藉由在硬體構件中之固定格新以及製造技術中之提升,依據過去經驗之分析規則可能不是適用於新的企業裝置並且需要依據新檢測的失效樣型之固定的精細改進。
更進一步地,對於各類別之企業裝置,現有的故障管理程式碼基礎是不同的,而使得其實際上不易於管理以及利用被嵌進於程式碼中之硬體分析規則以及事件。藉由現有的硬體設計,對於企業裝置之任何更新,可能導致在顧客位置需要新版本的程式碼以及複數個軟體與韌體升級。這可能意外地增加支援成本以及減低之總顧客經驗(TCE)。
依據本發明之一實施例,係特地提出一種用以提供企業裝置用強韌硬體故障管理之方法,該方法包括下列步驟:識別該等企業裝置之各者中的硬體裝置以及關聯的硬體模組;決定關聯各硬體模組之錯誤結構且指定唯一的識別符至該等被決定的錯誤結構;模式化該等錯誤結構於一集中貯藏處中;關聯規則與各模式化錯誤結構以供檢測硬體故障;以及使用關聯的規則識別符而儲存各模式化錯誤結構之規則於該集中貯藏處中。
100‧‧‧強韌硬體故障管理系統
102‧‧‧企業裝置
104‧‧‧資料中心
106‧‧‧網際網路/企業內部網路
108‧‧‧管理處理器
110‧‧‧記憶體
112‧‧‧強韌硬體故障管理模組
114‧‧‧遠端支援界面
116‧‧‧事件產生模組
118‧‧‧規則資料貯藏處界面
120‧‧‧規則基礎硬體錯誤分析引擎
122‧‧‧平臺特定規則貯藏處
124‧‧‧錯誤記錄管理器模組
126‧‧‧平臺特定韌體提取層
128‧‧‧遠端支援模組
130‧‧‧使用者界面
132‧‧‧集中貯藏處
134‧‧‧規則管理模組
200‧‧‧企業裝置之強韌硬體故障管理系統方塊圖
202‧‧‧企業裝置
204‧‧‧管理處理器
206‧‧‧記憶體
208‧‧‧操作系統(OS)
210‧‧‧核心
300‧‧‧企業裝置用強韌硬體故障管理之方法
302-320‧‧‧企業裝置用強韌硬體故障管理方法之步驟
本發明範例將接著將參考附圖詳細地被說明,於其中: 圖1是圖解地說明對於企業裝置之強韌硬體故障管理系統的範例之方塊圖;圖2是圖解地說明對於企業裝置之強韌硬體故障管理系統的另一範例之方塊圖;以及圖3是圖解地說明用以提供企業裝置,例如,那些被展示於圖1以及2中者,之強韌硬體故障管理之方法範例的流程圖。
此處說明之圖形僅是用於圖解說明之目的並且不欲以任何方式限制本揭示之範疇。
較佳實施例之詳細說明
一種企業裝置用之強韌硬體故障管理系統、方法以及架構被揭示。於下面本主題範例之詳細說明中,將參考至形成其部份的附圖,並且其中展示本主題可被實施之圖解說明特定範例。這些範例將詳細地被說明以使得那些熟習本技術者能夠實施本主題,並且應了解其他範例也可被採用以及可被改變而不脫離本主題之範疇。下面的詳細說明因此是,不被視為限定意義,並且本主題之範疇是利用附加申請專利範圍被界定。
用詞“規則”、“分析規則”以及“硬體分析規則”可於全部文件中交替地被使用。
第1圖是圖解地說明用於一企業裝置102之強韌硬體故障管理系統方塊圖100的範例。企業裝置範例包含一伺服器、一儲存裝置、一網路裝置以及其類似者。如於圖1 之展示,該強韌硬體故障管理系統包含企業裝置102、一資料中心104以及一網際網路/企業內部網路106。進一步地,該企業裝置102包含一管理處理器108。更進一步地,該管理處理器108包含記憶體110。此外,該記憶體110包含一強韌硬體故障管理模組112。此外,該強韌硬體故障管理模組112包含一遠端支援界面114、一事件產生模組116、一規則資料貯藏處界面118、一規則基礎硬體錯誤分析引擎120、一平臺特定規則貯藏處122、一錯誤記錄管理器模組124、以及一平臺特定韌體提取層126。同時,該資料中心104也包含一遠端支援模組128、一使用者界面130、一集中貯藏處132以及一規則管理模組134。
進一步地,企業裝置102經由網際網路/企業內部網路106被連接到資料中心104。更進一步地,平臺特定韌體提取層126被耦合至該錯誤記錄管理器模組124。此外,該錯誤記錄管理器模組124被耦合至規則基礎硬體錯誤分析引擎120。此外,該規則基礎硬體錯誤分析引擎120被耦合至平臺特定規則貯藏處122以及事件產生模組116。同時,該事件產生模組116也被耦合至遠端支援界面114。進一步地,該遠端支援界面114被耦合至規則資料貯藏處界面118。更進一步地,該規則資料貯藏處界面118被耦合至平臺特定規則貯藏處122。此外,該遠端支援模組128被耦合至該使用者界面130。此外,該使用者界面130被耦合至該規則管理模組134以及該集中貯藏處132。同時,該規則管理模組134也被耦合至集中貯藏處132。
於操作中,規則管理模組134識別企業裝置102中之硬體裝置以及關聯的硬體模組。進一步地,規則管理模組134,藉由包含硬體控制與狀態暫存器以及其他關於資訊之唯一型式數值,而決定關聯各硬體模組之錯誤結構並且指定唯一的識別符至該等被決定的錯誤結構。更進一步地,該規則管理模組134模式化該等錯誤結構於該集中貯藏處132中。此外,該規則管理模組134關聯規則與各模式化錯誤結構以供檢測硬體故障。此外,該規則管理模組134使用關聯的規則識別符而儲存各模式化錯誤結構之規則於該集中貯藏處132中。於一範例中,該集中貯藏處132儲存硬體分析規則以及該等關聯事件,並且依據在企業裝置102被釋出之後所被觀察的一失效樣型,而支援該等硬體分析規則之動態更新。
同時於操作中,在連接至該集中貯藏處132之時,強韌硬體故障管理模組112也藉由自集中貯藏處132得到模式化錯誤結構之規則,而動態地更新/儲存於該平臺特定規則貯藏處122中各模式化錯誤結構之規則。於一範例中,可應用於企業裝置102之規則使用遠端支援界面114被下載。另外地,一顧客或支援工程師可在管理處理器108上進行一命令以自一被指定之儲存區域而下載具有新的控制狀態暫存器(CSR)/模式特定暫存器(MSR)設定之規則。進一步地,規則資料貯藏處界面118支援被鑑定之應用以及使用者以動態地更新平臺特定規則貯藏處122中之規則以及事件,而不需要一韌體更新。
進一步地於操作中,在關聯該硬體模組之一硬體錯誤發生時,該強韌硬體故障管理模組112接收一個二進制或平臺特定格式之關聯一硬體模組的一錯誤結構。尤其是,當該硬體錯誤發生時,該平臺特定韌體提取層126接收該二進制或平臺特定格式之錯誤結構,並且讀取這些記錄且將之傳送至錯誤記錄管理器模組124。此外,強韌硬體故障管理模組112將二進制或平臺特定格式之錯誤結構予以解碼至一標準格式。尤其是,該錯誤記錄管理器模組124將二進制或平臺特定格式之錯誤結構予以解碼至該標準格式並且指定一唯一型式數值至被解碼的錯誤結構。於一製作範例中,錯誤記錄管理器模組124將二進制或平臺特定格式之錯誤結構予以解碼至一‘名稱/數值’組對一般資料結構,其中該‘名稱’欄包含關聯該硬體裝置之一CSR/MSR名稱以及該‘數值’欄包含CSR之目前數值。當轉換二進制或平臺特定格式之錯誤結構至標準格式時,錯誤記錄管理器模組124可選擇以增加另外的資訊,例如,關於該等硬體裝置之一序列碼、一部件碼以及其類似者,至錯誤結構。進一步地,錯誤記錄管理器模組124傳送被解碼的錯誤結構至規則基礎硬體錯誤分析引擎120。
此外,強韌硬體故障管理模組112比較該被解碼的錯誤結構型式數值與被儲存在平臺特定規則貯藏處122中之模式化錯誤結構的規則。於一製作範例中,該規則基礎硬體錯誤分析引擎120自平臺特定規則貯藏處122取得可應用於所接收的錯誤結構之規則,並且觸發分析操作。例 如,規則基礎硬體錯誤分析引擎120比較被解碼的錯誤結構型式數值與取得的規則。規則基礎硬體錯誤分析引擎120使用被儲存在一內部錯誤資料庫中之歷史錯誤,而支援臨限、抑制以及樣型匹配。這平臺無關、輕量型以及輕便型之規則基礎硬體錯誤分析引擎120允許解決構件之重新使用,因而引動跨越複數個企業裝置之一標準化故障管理解決辦法。同時,強韌硬體故障管理模組112也產生一錯誤事件及/或警報,並且當找到一匹配或依據該比較結果時,則啟動於該等規則中被界定的一個或多個動作。尤其是,事件產生模組116產生錯誤事件及/或警報並且當找到該匹配或依據該比較結果時,則啟動於該等規則中被界定的該等一個或多個動作。
接著參看至圖2,其是用於一企業裝置202之強韌硬體故障管理系統的方塊圖200之另一範例。如於圖2之展示,強韌硬體故障管理系統包含企業裝置202、資料中心104以及網際網路/企業內部網路106。進一步地,該企業裝置202包含一管理處理器204以及記憶體206。更進一步地,該記憶體206包含一操作系統(OS)208。此外,該操作系統208包含一核心210。此外,該核心210包含強韌硬體故障管理模組112。同時,該強韌硬體故障管理模組112也包含遠端支援界面114、事件產生模組116、規則資料貯藏處界面118、規則基礎硬體錯誤分析引擎120、平臺特定規則貯藏處122、錯誤記錄管理器模組124、以及平臺特定韌體提取層126。進一步地,資料中心104包含遠端支援模組128、使 用者界面130、集中貯藏處132以及規則管理模組134。
同時,企業裝置202也經由網際網路/企業內部網路106被連接到資料中心104。進一步地,管理處理器204被耦合至記憶體206。更進一步地,平臺特定韌體提取層126被耦合至錯誤記錄管理器模組124。此外,錯誤記錄管理器模組124被耦合至規則基礎硬體錯誤分析引擎120。此外,該規則基礎硬體錯誤分析引擎120被耦合至平臺特定規則貯藏處122以及事件產生模組116。同時,該事件產生模組116也被耦合至遠端支援界面114。進一步地,該遠端支援界面114被耦合至規則資料貯藏處界面118。更進一步地,該規則資料貯藏處界面118被耦合至平臺特定規則貯藏處122。此外,該遠端支援模組128被耦合至使用者界面130。此外,該使用者界面130被耦合至規則管理模組134以及集中貯藏處132。同時,該規則管理模組134也被耦合至該集中貯藏處132。
於操作中,規則管理模組134識別於需要該強韌硬體故障管理之企業裝置202中的硬體裝置以及關聯的硬體模組。進一步地,該規則管理模組134藉由包含硬體控制與狀態暫存器以及其他相關資訊之唯一型式數值,而決定關聯各硬體模組之錯誤結構,並且指定唯一的識別符至被決定的錯誤結構。更進一步地,規則管理模組134將錯誤結構予以模式化於集中貯藏處132中。此外,規則管理模組134關聯規則與各模式化錯誤結構以供檢測硬體故障。此外,規則管理模組134使用關聯的規則識別符而將各模式化錯 誤結構之規則儲存於集中貯藏處132中。
進一步地,在連接至集中貯藏處132時,強韌硬體故障管理模組112藉由自該集中貯藏處132得到模式化錯誤結構之規則,而動態地更新/儲存各模式化錯誤結構之規則於平臺特定規則貯藏處122中。於一範例中,可應用於企業裝置202之規則使用遠端支援界面114被下載。另外地,一顧客或支援工程師可在OS 208上進行一命令以自一指定之儲存區域而下載具有新的CSR/MSR設定之硬體分析規則。進一步地,規則資料貯藏處界面118支援被鑑定的應用以及使用者以動態地更新於平臺特定規則貯藏處122中之規則以及事件,而不需要一韌體更新。
更進一步地,在關聯硬體模組之一硬體錯誤發生時,強韌硬體故障管理模組112接收一個二進制或平臺特定格式之關聯一硬體模組的錯誤結構。此外,強韌硬體故障管理模組112自二進制或平臺特定格式之錯誤結構予以解碼至一標準格式並且指定一唯一型式數值至被解碼的錯誤結構。此外,強韌硬體故障管理模組112比較被解碼的錯誤結構型式數值與被儲存在平臺特定規則貯藏處122中之模式化錯誤結構的規則。同時,當找到匹配或依據比較結果,強韌硬體故障管理模組112也產生錯誤事件及/或警報並且啟動於該等規則中被界定的一個或多個動作。這可參考圖1而更詳細地被說明。
接著參看至圖3,其是圖解地說明用以提供企業裝置,例如,那些被展示於圖1以及2中者,所用之強韌硬 體故障管理的方法之流程圖300的範例。在方塊302,需要強韌硬體故障管理的企業裝置之各者中的硬體裝置以及關聯的硬體模組被識別。企業裝置範例包含一伺服器、一儲存裝置、一網路裝置以及其類似者。例如,該硬體裝置包含一處理器、記憶體、一晶片組、一主機匯流排轉接器(HBA)以及其類似者。硬體模組範例包含一快取、一記憶體控制器、一動態隨機存取記憶體(DRAM)、一靜態隨機存取記憶體(SRAM)以及其類似者。在方塊304,關聯各個硬體模組而具有唯一型式數值之錯誤結構被決定並且唯一識別符被指定至所決定的錯誤結構。在方塊306,錯誤結構被模式化於一集中貯藏處中。在方塊308,規則被關聯於各模式化之錯誤結構以供檢測硬體故障。例如,一規則被展示在下面:<Error Structure Type=MEMORY_ERROR, Platform ID=ABCD”> Rule ID=1, RULE CONDITION {MEMORY_ERROR.errstatus <OPERATOR>‘VALUE’WITH THRESHOLD=10, THRESHOLD_WINDOW=1440 (in minutes), SUPRESSION_WINDOW=1440 (in minutes) ON DEVICE_ID=MEMORY_ERROR.PhysicalLocation }ACTION {generate_event(1440);platform_specific_action(Action UUID)}
於這範例中,對於記憶體_錯誤(MEMORY_ERROR)型式之一錯誤結構(雙線記憶體模組(DIMM)錯誤)的規則被界定以及對於由序列“ABCD”被識別之一平臺型式藉被界定。<運算器(OPERATOR)>採用數值,例如,EQUAL、BITAND、BITOR等等,並且規則之 條件部份包含複數個欄:<運算器>:數值建構。THRESHOLD_WINDOW與SUPRESSION_WINDOW數值被施加至利用DEVICE_ID識別之企業裝置。在進行時間,DEVICE_ID識別分析規則被施加在其上之企業裝置實例(例如,企業裝置之實際位置)。該動作是使用一唯一動作UUID以產生一支援事件以及採取平臺特定自我恢複動作(例如,失效構件之撤銷)。
例如,硬體故障之分析是依據支援從屬規則之使用的一規則語言並且允許組合從屬規則成為一單一規則且進一步允許聚集錯誤結構之分析。進一步地,該規則語言獲得CSR/MSR欄之外,也可一起獲得可應用的運算器(AND、OR等等)、平臺特定識別符、臨限值以及用於硬體錯誤之分析、自我恢複以及其類似者所需的平臺特定自我恢複動作。規則語言可藉由增加作用如同功能識別符的新關鍵詞而容易地被延伸。從語法上分析規則的一規則基礎硬體錯誤分析引擎(例如,圖1以及2之規則基礎硬體錯誤分析引擎120)使用該等功能識別符而尋找被暫存之可插拔模組,並且呼用適當的處理裝置。這使得該硬體分析規則語言可擴張並且可依據平臺需要被訂做。在方塊310,各模式化錯誤結構之規則使用關聯的規則識別符而被儲存在集中貯藏處中。例如,各規則使用一唯一識別符被識別並且被儲存在集中貯藏處中之各錯誤結構使用一唯一識別符被識別。
在方塊312,在連接至集中貯藏處時,各模式化 錯誤結構之規則藉由自該集中貯藏處得到模式化錯誤結構之規則,而動態地被更新/被儲存在關聯存在於企業裝置之各者中的一平臺特定規則貯藏處中。在方塊314,在關聯該硬體模組之一硬體錯誤發生時,一個二進制或平臺特定格式之關聯一硬體模組的一錯誤結構被接收。在方塊316,該二進制或平臺特定格式之錯誤結構被解碼至一標準格式並且一唯一型式數值被指定至該被解碼的錯誤結構。這可參考圖1而更詳細地被說明。在方塊318,被解碼的錯誤結構型式數值被比較於被儲存在平臺特定規則貯藏處中的模式化錯誤結構之規則。在方塊320,一錯誤事件及/或警報被產生並且當找到一匹配或依據該比較結果時,於規則中被界定的一個或多個動作被啟動。
於一範例中,包括具有指令在其上之一非暫態電腦可讀取儲存媒體的一物件,其中當該等指令利用一電腦平臺被執行時,導致上述方法之執行。上述方法可以是實施一組指令之一機器可讀取媒體的形式,當該等指令利用一機器被執行時,導致該機器進行此處所揭示之任何方法。應了解,此處討論之各種範例可以不是相同範例,並且可被群聚成為未明確地於此處被揭示之各種其他範例中。
此外,應了解,於此處被揭示之各種操作、處理程序、以及方法可以一機器可讀取媒體及/或可相容於一電腦系統之一機器可存取媒體被實施,並且可以任何順序被進行(例如,包含使用用以達成各種操作之構件)。因此,說 明以及圖形是將被視為圖解說明之用而不是限定意義。
於各種範例中,於圖1-3中說明之系統以及方法提出一種用以提供企業裝置用之強韌硬體故障管理使用規則的技術。該技術協助管理以及控制跨越不同企業裝置之規則。該技術同時也協助對於共用之硬體構件的錯誤分析演算法上之標準化。進一步地,規則語言協助簡化目前故障管理解決辦法,並且輕便型以及可控制之一般分析引擎協助跨越複數個企業裝置之解決構件的再使用。更進一步地,規則之動態更新協助增加/修改故障管理能力而不需任何韌體升級。
雖然某些製造方法、設備、以及物件已於此處被說明,這專利之涵蓋範疇是不受限定於此。相對地,這專利涵蓋任何字面地或在等效原理下之相當地落在附加申請專利範圍之範疇內的所有製造方法、設備、以及物件。
300‧‧‧企業裝置用強韌硬體故障管理之方法
302-320‧‧‧企業裝置用強韌硬體故障管理方法之步驟

Claims (15)

  1. 一種用以提供企業裝置用強韌硬體故障管理之方法,該方法包括下列步驟:識別該等企業裝置之各者中的硬體裝置以及關聯的硬體模組;決定關聯各硬體模組之錯誤結構且指定唯一的識別符至該等被決定的錯誤結構;模式化該等錯誤結構於一集中貯藏處中;關聯規則與各模式化錯誤結構以供檢測硬體故障;以及使用關聯的規則識別符而儲存各模式化錯誤結構之規則於該集中貯藏處中。
  2. 如請求項1之方法,進一步包括:在連接至該集中貯藏處之時,藉由自該集中貯藏處得到該等模式化錯誤結構之規則,而動態地更新/儲存各模式化錯誤結構之規則於存在於該等企業裝置之各者中的一關聯平臺特定規則貯藏處中。
  3. 如請求項2之方法,進一步包括下列步驟:在關聯該硬體模組之一硬體錯誤發生時,接收一個二進制或平臺特定格式之關聯一硬體模組的一錯誤結構;將該二進制或平臺特定格式之錯誤結構予以解碼至一標準格式並且指定一唯一型式數值至被解碼的錯 誤結構;比較該被解碼的錯誤結構型式數值與被儲存於該平臺特定規則貯藏處中之該等模式化錯誤結構之規則;以及依據該比較結果,產生一錯誤事件及/或警報並且啟始於該等規則中被界定的一個或多個動作。
  4. 如請求項1之方法,其中該等企業裝置是選自包含一伺服器、一儲存裝置以及一網路裝置之群組。
  5. 如請求項1之方法,其中該硬體裝置是選自包含一處理器、記憶體、一晶片組以及一主機匯流排轉接器(HBA)之群組。
  6. 如請求項1之方法,其中該硬體模組是選自包含一快取、一記憶體控制器、一動態隨機存取記憶體(DRAM)、以及一靜態隨機存取記憶體(SRAM)之群組。
  7. 如請求項1之方法,其中硬體故障之分析是依據支援從屬規則之使用的一規則語言並且允許組合從屬規則成為一單一規則且進一步允許聚集的錯誤結構之分析。
  8. 如請求項7之方法,其中該規則語言允許獲得控制狀態暫存器(CSR)/模式特定暫存器(MSR)欄之外,也可一起獲得可應用的運算器(AND、OR等)、平臺特定識別符、臨限數值以及用於一硬體錯誤之分析以及自我恢複所需的平臺特定自我恢複動作。
  9. 一種強韌硬體故障管理系統,其包括:一資料中心,其包括一集中貯藏處以及一規則管理 模組;一網際網路/企業內部網路;以及一企業裝置,其經由該網際網路/企業內部網路被耦合至該資料中心,其中該企業裝置包括:一管理處理器;以及記憶體,其被耦合至該管理處理器,其中該記憶體包括含有一核心之一操作系統(OS),其中該核心以及管理處理器之一者包含一強韌硬體故障管理模組,其中該規則管理模組識別於該企業裝置中之硬體裝置以及聯結的硬體模組,其中該規則管理模組決定關聯各硬體模組之錯誤結構且指定唯一的識別符至該等被決定的錯誤結構,其中該規則管理模組模式化該等錯誤結構於集中貯藏處中,其中該規則管理模組關聯規則與各模式化錯誤結構以供檢測硬體故障,並且其中該規則管理模組使用關聯的規則識別符而儲存各模式化錯誤結構之規則於該集中貯藏處中。
  10. 如請求項9之系統,其中在連接至該集中貯藏處時,該強韌硬體故障管理模組藉由自該集中貯藏處得到該等模式化錯誤結構規則,而動態地更新/儲存各模式化錯誤結構之規則於存在於該企業裝置中之一關聯平臺特定規則貯藏處中。
  11. 如請求項10之系統,其中該強韌硬體故障管理模組進一步被組態以進行下列步驟: 在關聯該硬體模組之一硬體錯誤發生時,接收一個二進制或平臺特定格式之關聯一硬體模組的一錯誤結構;將該二進制或平臺特定格式之錯誤結構予以解碼至一標準格式並且指定一唯一型式數值至被解碼的錯誤結構;比較該被解碼的錯誤結構型式數值與被儲存在該平臺特定規則貯藏處中之該等模式化錯誤結構之規則;以及依據該比較結果,產生一錯誤事件及/或警報並且啟始於該等規則中被界定的一個或多個動作。
  12. 如請求項9之系統,其中該企業裝置是選自包含一伺服器、一儲存裝置以及一網路裝置之群組。
  13. 一種具有指令用於企業裝置用強韌硬體故障管理之非暫態電腦可讀取儲存媒體,當該等指令利用一電腦裝置被執行時,導致該電腦裝置進行下列步驟:識別該等企業裝置之各者中的硬體裝置以及關聯的硬體模組;決定關聯各硬體模組之錯誤結構且指定唯一的識別符至該等被決定的錯誤結構;模式化該等錯誤結構於一集中貯藏處中;關聯規則與各模式化錯誤結構以供檢測硬體故障;以及使用關聯的規則識別符而儲存各模式化錯誤結構 之規則於該集中貯藏處中。
  14. 如請求項13之非暫態電腦可讀取儲存媒體,其進一步包括:在連接至該集中貯藏處之時,藉由自該集中貯藏處得到該等模式化錯誤結構之規則,而動態地更新/儲存各模式化錯誤結構之規則於存在於該等企業裝置之各者中的一關聯平臺特定規則貯藏處中。
  15. 如請求項14之非暫態電腦可讀取儲存媒體,其進一步包括下列步驟:在關聯該硬體模組之一硬體錯誤發生時,接收一個二進制或平臺特定格式之關聯一硬體模組的一錯誤結構;將該二進制或平臺特定格式之錯誤結構予以解碼至一標準格式並且指定一唯一型式數值至被解碼的錯誤結構;比較該被解碼的錯誤結構型式數值與被儲存於該平臺特定規則貯藏處中之該等模式化錯誤結構之規則;以及依據該比較結果,產生一錯誤事件及/或警報並且啟始於規則中被界定的一個或多個動作。
TW102131830A 2012-10-08 2013-09-04 企業裝置用強韌硬體故障管理系統、方法及架構 TWI608344B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/059161 WO2014058409A1 (en) 2012-10-08 2012-10-08 Robust hardware fault management system, method and framework for enterprise devices

Publications (2)

Publication Number Publication Date
TW201415214A true TW201415214A (zh) 2014-04-16
TWI608344B TWI608344B (zh) 2017-12-11

Family

ID=50477724

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102131830A TWI608344B (zh) 2012-10-08 2013-09-04 企業裝置用強韌硬體故障管理系統、方法及架構

Country Status (5)

Country Link
US (1) US9594619B2 (zh)
EP (1) EP2904493A4 (zh)
CN (1) CN104718533B (zh)
TW (1) TWI608344B (zh)
WO (1) WO2014058409A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697063B2 (en) * 2013-05-15 2017-07-04 Amazon Technologies, Inc. Allocating data based on hardware faults
EP3044641B1 (en) * 2013-09-13 2019-08-28 Siemens Aktiengesellschaft Restricting communications in industrial control
WO2016081002A1 (en) * 2014-11-20 2016-05-26 Hewlett Packard Enterprise Development Lp Query a hardware component for an analysis rule
US10162698B2 (en) * 2016-03-25 2018-12-25 Dropbox, Inc. System and method for automated issue remediation for information technology infrastructure
US10331507B2 (en) * 2016-12-21 2019-06-25 Mastercard International Incorporated Systems and methods for real time computer fault evaluation
US10402204B1 (en) * 2017-04-25 2019-09-03 American Megatrends International, Llc Multi-platform firmware support
US10379996B2 (en) * 2017-07-05 2019-08-13 Juniper Networks, Inc. Software analytics platform
CN109245910B (zh) * 2017-07-10 2023-03-24 中兴通讯股份有限公司 识别故障类型的方法及装置
US10713224B2 (en) 2017-11-15 2020-07-14 Bank Of America Corporation Implementing a continuity plan generated using solution data modeling based on predicted future event simulation testing
US10496460B2 (en) * 2017-11-15 2019-12-03 Bank Of America Corporation System for technology anomaly detection, triage and response using solution data modeling
US10749791B2 (en) 2017-11-15 2020-08-18 Bank Of America Corporation System for rerouting electronic data transmissions based on generated solution data models
US10452466B1 (en) * 2017-11-29 2019-10-22 Architecture Technology Corporation Automated system maintenance capabilities for a computing system
US10936984B2 (en) 2018-05-08 2021-03-02 Bank Of America Corporation System for mitigating exposure associated with identified impacts of technological system changes based on solution data modelling
US11023835B2 (en) 2018-05-08 2021-06-01 Bank Of America Corporation System for decommissioning information technology assets using solution data modelling
US10977283B2 (en) 2018-05-08 2021-04-13 Bank Of America Corporation System for mitigating intentional and unintentional exposure using solution data modelling
US10970406B2 (en) 2018-05-08 2021-04-06 Bank Of America Corporation System for mitigating exposure associated with identified unmanaged devices in a network using solution data modelling

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4642782A (en) * 1984-07-31 1987-02-10 Westinghouse Electric Corp. Rule based diagnostic system with dynamic alteration capability
CN85106154A (zh) * 1985-08-15 1987-03-04 西屋电气公司 具有动态变换能力基于规则的诊断系统
US6006016A (en) 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
DE19953877A1 (de) 1999-11-09 2001-05-23 Siemens Ag Verfahren und Kommunikationssystem zum Verwalten eines Kommunikationsnetzes
US6883120B1 (en) 1999-12-03 2005-04-19 Network Appliance, Inc. Computer assisted automatic error detection and diagnosis of file servers
US8036104B2 (en) 2002-07-15 2011-10-11 Qualcomm Incorporated Methods and apparatus for improving resiliency of communication networks
US7231550B1 (en) * 2003-10-31 2007-06-12 Sun Microsystems, Inc. Event protocol and resource naming scheme
KR100621094B1 (ko) 2003-12-05 2006-09-08 삼성전자주식회사 컴퓨터 관리 장치 및 방법
US20050283498A1 (en) 2004-06-22 2005-12-22 Taiwan Semiconductor Manufacturing Company, Ltd. System and method to build, retrieve and track information in a knowledge database for trouble shooting purposes
WO2006136789A2 (en) * 2005-06-20 2006-12-28 Future Route Limited Analytical system for discovery and generation of rules to predict and detect anomalies in data and financial fraud
US7516128B2 (en) * 2006-11-14 2009-04-07 International Business Machines Corporation Method for cleansing sequence-based data at query time
US7757124B1 (en) * 2007-07-16 2010-07-13 Oracle America, Inc. Method and system for automatic correlation of asynchronous errors and stimuli
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
DK2109323T3 (da) 2008-04-08 2011-02-14 Tieto Oyj Dynamisk fejlanalyse for et centralt forvaltet netværkselement i et telekommunikationssystem
JP4609544B2 (ja) * 2008-07-30 2011-01-12 ソニー株式会社 情報処理装置、情報処理システムおよび情報処理方法
US20100138728A1 (en) * 2008-12-03 2010-06-03 Electronics And Telecommunications Research Institute Apparatus for supporting dynamic change of event rule under sca and method thereof
US7992044B2 (en) * 2008-12-05 2011-08-02 Oracle America, Inc. Method and system for platform independent fault management
US8464143B2 (en) 2009-01-12 2013-06-11 Board Of Regents Of The Nevada System Of Higher Education Error detection method
US8462619B2 (en) 2009-12-10 2013-06-11 At&T Intellectual Property I, L.P. Systems and methods for providing fault detection and management
US8479286B2 (en) * 2009-12-15 2013-07-02 Mcafee, Inc. Systems and methods for behavioral sandboxing
US20120239981A1 (en) * 2011-03-15 2012-09-20 International Business Machines Corporation Method To Detect Firmware / Software Errors For Hardware Monitoring
US8892419B2 (en) * 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US9069737B1 (en) * 2013-07-15 2015-06-30 Amazon Technologies, Inc. Machine learning based instance remediation
US10360523B2 (en) * 2013-11-18 2019-07-23 Nuwafin Holdings Ltd System and method for executing business services and enhancing business performance through a business process modeling notation
US9317354B2 (en) * 2014-01-31 2016-04-19 International Business Machines Corporation Dynamically determining an external systems management application to report system errors

Also Published As

Publication number Publication date
US20150293800A1 (en) 2015-10-15
EP2904493A4 (en) 2016-06-22
CN104718533A (zh) 2015-06-17
WO2014058409A1 (en) 2014-04-17
TWI608344B (zh) 2017-12-11
CN104718533B (zh) 2017-07-21
US9594619B2 (en) 2017-03-14
EP2904493A1 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
TWI608344B (zh) 企業裝置用強韌硬體故障管理系統、方法及架構
US7506336B1 (en) System and methods for version compatibility checking
CN106603281A (zh) 配置文件管理方法及系统
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
US7721158B2 (en) Customization conflict detection and resolution
US9183106B2 (en) System and method for the automated generation of events within a server environment
US8640096B2 (en) Configuration of componentized software applications
US20140201573A1 (en) Defect analysis system for error impact reduction
US7624309B2 (en) Automated client recovery and service ticketing
US10992559B2 (en) Diagnostic and recovery signals for disconnected applications in hosted service environment
JP2018045403A (ja) 異常検知システム及び異常検知方法
CA2960270A1 (en) Conditional validation rules
US10536329B2 (en) Assisted configuration of data center infrastructure
CN111679989A (zh) 接口健壮性测试方法、装置、电子设备及存储介质
WO2020224065A1 (zh) 一种fru信息生成方法、系统及相关装置
US20070016393A1 (en) Model-based propagation of attributes
CN108377198B (zh) 一种基于云平台的节点配置统一批量维护方法
JP2006344061A (ja) シナリオ適用支援方法、管理サーバおよび管理プログラム
CN111124095B (zh) 一种升级电源固件时电源运行状态检测方法及相关装置
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
US20200210389A1 (en) Profile-driven data validation
US11579930B2 (en) Resource determination based on resource definition data
US20220374528A1 (en) Evaluation apparatus, evaluation system, evaluation method, and program
US11841838B1 (en) Data schema compacting operation when performing a data schema mapping operation
US12007960B2 (en) Methods make web and business application data access agnostic to schema variations and migrations

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees