TWI337707B - System and method for logging recoverable errors - Google Patents

System and method for logging recoverable errors Download PDF

Info

Publication number
TWI337707B
TWI337707B TW095137693A TW95137693A TWI337707B TW I337707 B TWI337707 B TW I337707B TW 095137693 A TW095137693 A TW 095137693A TW 95137693 A TW95137693 A TW 95137693A TW I337707 B TWI337707 B TW I337707B
Authority
TW
Taiwan
Prior art keywords
error
recoverability
management controller
chipset
memory
Prior art date
Application number
TW095137693A
Other languages
English (en)
Other versions
TW200805056A (en
Inventor
Saurabh Gupta
Akkiah Maddukuri
Bi-Chong Wang
Original Assignee
Dell Products Lp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products Lp filed Critical Dell Products Lp
Publication of TW200805056A publication Critical patent/TW200805056A/zh
Application granted granted Critical
Publication of TWI337707B publication Critical patent/TWI337707B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

1337707 九、發明說明: I:發明所屬之技術領域3 發明領域 本揭示内容係有關於電腦系統與資訊處理系統,且更 5 特別的是,有關用於登錄可回復性錯誤之系統及方法。 C先前技術:! 發明背景 隨著資訊的價值及用途持續增加,個人及企業就會尋 找其他的方式來處理及儲存資訊。資訊處理系統為使用者 10 可採用的選項之一。資訊處理系統通常會處理、編譯、儲 存、及/或通訊用於企業、個人或其他目的的資訊或資料, 藉此使得使用者可利用資訊的價值。由於技術及資訊處理 上的需要及要求會隨著使用者或應用系統的不同而有所不 同,資訊處理系統所處理的資訊類型;處理資訊的方法; 15 用於處理、儲存、或通訊資訊的方法;被處理、儲存、或 通訊的資訊量;資訊處理、儲存、或通訊的速度與效率, 都會跟著不同。資訊處理系統的差異使得資訊處理系統可 為通用型或被組態成可用於特定的使用者或特定用途,例 如金融交易處理、航空訂位、企業資料儲存、或全球通訊。 20 此外,資訊處理系統可包含或包含各種可被組態成可處 理、儲存、及溝通資訊的硬體與軟體組件且可包含一或更 多電腦系統、資料儲存系統、以及網路系統。 伺服器系統在正常的系統操作期間可能會有可回復或 可矯正的錯誤。例如,當與伺服器系統耦合的記憶單元 5 1337707 (memory unit)失效時,可能會出現這種可回復性錯誤。為 了增加系統可靠性,常會把伺服器系統設計成在出現可回 復或可矯正的錯誤時可擷取及登錄。由於可回復性錯誤常 為有急迫性之記憶體失效的警告訊號,擷取及登錄的處理 5 可賦予伺服器-系統使用者在整個系統當機之前有機會可 更換不良的記憶單元。伺服器系統常經由邊帶訊號 (sideband signal)產生系統管理中斷(SMI)來路由待登錄的 錯誤。該SMI係通過邊帶行進到CPU,然後由CPU凍結進行 中之伺服器系統的處理。SMI所造成的行程暫停會使得常駐 10 於伺服器系統的基本輸出入系統(BIOS)可使用SMI處理常 式(handler)登錄可回復性錯誤於其出現時。一旦基本輸出入 系統登錄錯誤後,該等SMI結束,而且該伺服器系統可恢復 執行任何被中斷的行程。管理系統管理軟體與平台硬體之 界面的基板管理控制器(baseboard management controller, 15 BMC))係處理由基本輸出入系統收到的錯誤登錄指令(error logging command)且實際寫入於彼之非揮發性記憶體。在整 個通知處理(notification process)期間,常駐於伺服器系統 的作業系統(OS)不會察覺該錯誤以及後續的錯誤登錄。 不過,有些伺服器系統不包含邊帶訊號性能。所有的 2〇 通訊必須通過主傳輸鏈路(main transport link)。由於可回復 性錯誤均為可矯正,以致伺服器系統在可回復性錯誤出現 時不會產生通知。因此,可用伺服器系統BIOS或晶片組來 進行定期掃描(例如,周期性的SMI)而將這些伺服器系統設 計成可報告可回復性錯誤。同樣,該等伺服器系統可要求 6 1337707 伺服器-系統os能定期掃描系統。例如,os可定期掃描系 統且登錄任何在機器檢查狀態暫存器中已被俄測的可回復 性錯誤。典型的OS約每-分鐘掃描—次。不過,使用词服 器-系統OS來定期掃描系統有其缺點。例如,大部份的硬體 5錯誤均與特定的系統有關。不過,通常作業系統OS並不了 解系統的特定架構。〇s經常無法區別那一個組件出錯而不 尋求系統Bios的協助,因而會阻塞兩方的資源。伺服器系 統使用者常需要比由〇s所登錄之一般錯誤多些的特殊性, 特別是在該系統若為高階伺服器系統時。此外,os常會把 10錯誤登錄於機器檢查狀態暫存器内,然而它不儲存關於錯 誤源的資訊,因此不允許系統或使用者隨後判定該錯誤源 的位置。雖然有些os版本每次掃描可保存多達10個可回復 性錯誤的日誌,然而一旦超過OS通常不再登錄可回復性錯 誤’從而阻止使用者循著時間查看錯誤以判定問題來源。 15 【發明内容】 發明概要 根據本揭示内容,揭示一種用於登錄一資訊處理系統 中之可回復性錯誤的方法及系統。該系統包含:一中央處 理單元’―與該中央處理單元耦合的晶片組,以及至少— 20與該晶片組耦合及關連的晶片組記憶單元。該系統也包含 一基板管理控制器,以及一包含一基本輸出入系統的記情 單元。 Μ 系統管理中斷(SMI)被周期性地叫用(invoke)。掃指錯 誤狀態暫存器以檢測是否已發生可回復性錯誤。如果可回 7 復性錯誤被檢測到’該系統登錄該可回復性錯誤於—與兮 基板管理控制器關連的非揮發性記憶單元。該系統會登錄 表示該可回復性錯誤之來源的資訊以及該來源之位置的資 訊。如果沒有檢測到可回復性錯誤’該系統傳送表示沒有 出現可回復性錯誤的訊息。 揭示於本文的系統及方法由於允許資訊處理系統判斷 可回復性錯誤的來源和來源的位置而有其優點,即使兮次 訊處理系統沒有能力經由邊帶送出訊號。該基板管理控制 器或該基本輸出入系統會識別及登錄可回復性錯誤的來 源,而不是0S。由於允許根據資訊處理系統操作期間的事 件或資訊處理系統操作時的變化來動態調整SM1的周期 性,揭示於本文的系統及方法也深具優點。該周期掃描 (periodic scan)可比〇5的可回復性錯誤掃描速率快。 圖式簡單說明 由以下 '纟。合附圖的說明可更加完整地瞭解本發明的具 體實施例及其優點,®中類似的元剌相同的元件符號表 0 第為示範主機板之示範架構的方塊圖; 第2圖的流程圖係圖示一種在系統進行周期掃描時用 於改變頻率的示範方法;以及 第圖為示範主機板之示範架構的方塊圖。 【實施冷式】 較佳實施例之祥細說明 就本揭示内交 令的目的而§,資訊處理系統可包含能操 作以計算、分類、處理、偯 、、接收、擷取、產生、切換、 儲存、顯不'表明、檢測、 .. ^ .. 。己錄、再現、處理、或使用任 何形式之貢訊、情報、或資 貝枓用於企業、科學、控制、或 其他目的的任何工具或數種工呈 .Λ . 八的集合。例如,資訊處理 糸統可為個人電腦 '網路健在世里 、置、或任何其他適當的裝 置且大小、形狀、效能、功能、及價格可不同。該資訊處 理糸統:包含隨機存取記憶體(RAM)—或更多個諸如中 央處理單元(CPU)之類的處理資,.馬+、 处里貝/原或硬體或軟體控制邏 10 輯、R0M、及/或其他_的_糾記《。該資訊處理 系統的附加組件可包含—錢多_碟驅顏、-或更多 個用於與外部裝置通訊的網路埠口、収各種輸入及輸出 (I/O)裝置(例如,鍵盤、滑I及視訊顯示器)。該資訊處理 系統也可包含-或更多個可操作以在各種硬體組件之間傳 送訊息的匯流排。 15 第1圖係圖示-供資訊處理系統(例如,伺服器系統)使 用之主機板100的架構。圖示於第1圖的架構僅供示範而且 它也只是多種可能主機板架構之中的一種。如第1圖所示, 主機板100可包含一微處理器(微處理器)110。微處理器110 可用作該主機板的CPU。微處理器11〇可經由處理器匯流排 20 (processor bus) 120而連接至通稱“北橋”的晶片(第1圖中係 以130標示)。北橋130通常控制CPU與資訊處理系統的其他 組件(例如,記憶單元)之間的通訊。因此,一或更多個記憶 單元與一記憶體控制器(兩者係以140表示)可與北橋130耦 合。第1圖中通稱“南橋”的晶片150也可與北橋130耦合。對 9 1337707 於主機板的服務,南橋150所執行的服務通常比北橋130所 執行的慢些,例如電源管理和週邊元件界面(PCI)匯流排的 操作。南橋150經由低接腳數量架構(Low Pin Count,LPC) 匯流排160可與包含BIOS 170的記憶單元耦合。該BIOS有 5 時被稱作“韌體”。北橋130與南橋150有時一起被稱作主機 板100的“晶片組”。不過,主機板100若包含其他或附加的 晶片’這些組件也可成為晶片組的一部份。 基板管理控制器180也可與LPC匯流排160耦合,如第1 圖底部所示。一控制器與一或更多個記憶單元(以符號190 10 表示)係與基板管理控制器180耦合。記憶單元或數個190為 非揮發性記憶單元較佳。雖然第1圖沒有繪出電源供應器, 基板管理控制器180可具有自己的電源供應器。如本揭示内 容先前所述,基板管理控制器18〇通常會管理系統管理軟體 與平台硬體之間的界面。資訊處理系統内建的不同感測器 15 可向基板管理控制器180報告與資訊處理系統的狀態及可 操作性有關的參數,例如溫度、冷卻風扇的速度、以及各 種電壓。如果基板管理控制器180檢測到任何監控參數與所 欲預定極限有差異時,它可送出警報給使用者或系統管理 員。因此’基板管理控制器18〇可耦合至許多硬體組件和網 20 路(未圖示於第1圖)以監控這些參數且在必要時啟動警報。 第1圖主機板1〇〇的架構不包含邊帶訊號的性能於微處 理器110、南橋150之間。所有訊息的行進必須通過主傳輸 鏈路,且加入主機板1〇〇的資訊處理系統無法依靠邊帶訊號 用以報告可回復性錯誤。此外,由於可回復性錯誤為可回 10 復,此一資訊處理系統一般不會通知使用者已發生此類的 錯誤,除非它周期性地輪詢(poll)錯誤。因此,可將加入主 機板100的資訊處理系統設計成可用能進行周期掃描(例 如,周期SMI)的BIOS 170來報告可回復性錯誤。同樣,可 將加入主機板1 〇〇的資訊處理系統設計成可依靠駐留的〇s 藉此資訊處理系統可叫用周期掃描。然而,這些方法並不 是沒有缺點,如本揭示内容先前所述。例如,〇S通常無法 識別那一個組件是可回復性錯誤的來源,因為〇S套裝軟體 是一般通用的且不包含0S所駐留之特定系統的架構地圖。 此外’ 0S會將可回復性錯誤登錄於機器檢查狀態暫存器(可 能無法定位造成錯誤的組件),然後清除該機器檢查狀態暫 存器。 加入主機板100的資訊處理系統反而可依靠基板管理 控制器180來叫用周期軟SMI (periodic soft SMI),而不是單 獨依靠0S或BIOS 170來管理周期掃描。亦即,一旦資訊處 理系統啟動及執行後,基板管理控制器丨8〇在經過一段預定 時間後可叫用軟SMI。可使基板管理控制器180、主機板1〇〇 上之晶片組之間的中斷請求線195變成可用以便叫用軟 SMI。通用輸入輸出(GI>I〇)埠口(第1圖未圖示)可組態成使 得BIOS 170與基板管理控制器18〇可通訊。當基板管理控制 器180叫用軟SMI時,]3I〇s n〇會藉由讀取,例如,晶片組 的狀態暫存器、記憶體狀態暫存器、及/或微處理器110的 狀態暫存器來尋找可回復性錯誤 <=如果BIOS 170在該(等) 狀態暫存器中找不到錯誤,BIOS 170會轉告沒有錯誤給基 板管理控制器180。如果BIOS 170找到錯誤,BIOS 170會轉 告該錯誤給基板管理控制器180且清除包含該錯誤的狀態 暫存器。BIOS 170也可經由基板管理控制器丨8〇來登錄錯誤 於記憶單元190中,通常為非揮發性系統事件日誌。由於 BIOS 170為主機板100的架構所熟悉,BI〇s丨7〇在曰誌中可 識別可回復性錯誤的來源位置。 可將基板管理控制器180叫用軟SMI的周期預定成任 何製造商或使用者想要的周期。例如,如本揭示内容先前 所述,有些OS版本會每一分鐘執行系統之機器檢查狀態暫 存器的周期掃描。因此,可將基板管理控制器18〇叫用軟SMI 的周期設定成小於1分鐘使得BIOS 170會比執行掃描之常 駐os還頻繁地檢查狀態暫存器,從而可減少在別〇5 17〇檢 測到錯誤之前機器檢查狀態暫存器之中的錯誤會被〇§清除 的風險。基板管理控制器180甚至可足夠頻繁地叫用軟SMI 以防止OS檢測出任何錯誤。不過,軟SMi之間的周期應夠 長以避免不必要地阻塞BIOS 170與基板管理控制器18〇,因 而使系統的效能降級。 替換地’基板管理控制器18〇在學習Bi〇s 17〇的錯誤狀 態後可自適應地改變軟SMI的頻率。第2圖的流程圖係圖解 說明一種可能方法可用來自適應地改變軟SMI的頻率。如流 程圖中方塊200所示,基板管理控制器丨8〇首先可叫用軟 SMI。然後,BIOS 170可檢查該(等)適當的機器檢查狀態暫 存器,如流程圖中方塊210所示。Bi〇s 170會判斷錯誤是否 已定位,如方塊220所示。如果Bl〇s 170檢測不到任何錯 1337707 誤,BIOS 170會送出表示沒有檢測到錯誤的單位元訊息給 基板管理控制器180,如方塊230所示。如流程圖的方塊240 所示,基板管理控制器180接著可降低叫用軟SMI的頻率。 反之’如果BIOS 170檢測到錯誤,BIOS 170接下來會判斷 5 該錯誤是否為可回復。如果BIOS Π0檢測到一或更多個可 回復性錯誤,如方塊260所示,BIOS 170會轉告該事實給基 板管理控制器180,基板管理控制器180可能增加叫用軟SMI 的頻率,如方塊270所示。不過,如果BIOS 170檢測到不可 回復性錯誤,它會轉告該事實給基板管理控制器180。在這 10 點時,可重設整個系統,且把軟SMI的頻率重設回到例如内 定值,如方塊290所示。 可用系統計時器控制軟SMI的產生。錯誤的頻率通常 會逐步增加或減少,因此不需急劇改變軟SMI的頻率以獲得 正確的系統錯誤狀態。不過,對於自適應改變軟SMI頻率的 15系統而言,使用者或製造商應設定基板管理控制器180可叫 用任何SMI的最大及最小頻率預設值。 第3圖係圖示一供資訊處理系統(例如,伺服器系統)使 用之主機板300的替代架構。圖示於第3圖的架構係與圖示 於第1圖的類似。因此,兩圖中類似的元件用相同的元件符 20 號表示。不過’在主機板300中,基板管理控制器180與晶 片組(或者只是北橋130)的耦合可經由互連間匯流排 (Inter-Interconnect bus ’ I2C匯流排)310,如第3圖所示。主 機板300也可設計成允許記憶單元140的狀態暫存器可被晶 片組映像(shadow)或追蹤(track)。特別是,主機板3〇〇可被 13 1337707 設計成允許北橋130能映像記憶單元140的狀態暫存器於它 自己的狀態暫存器内。因此,基板管理控制器180可經由pc 匯流排310來掃描北橋130的狀態暫存器且判斷記憶單元 140是否已出現任何可回復性錯誤。如果基板管理控制器 5 180檢測到可回復性記憶體錯誤,它可叫用軟SMI以命令 BIOS 170登錄該可回復性錯誤。不過,如果基板管理控制 器180沒有檢測到可回復性記憶體錯誤,它不會干擾BIOS 170的操作。因此,可減少BIOS 170的負載,因為它只需要 處理先前被基板管理控制器180檢測到的實際錯誤。在某些 10 系統中,基板管理控制器180可登錄可回復性錯誤。不過, 就許多系統而言,BIOS 170仍為用來登錄可回復性錯誤的 效率較高之選擇,因為典型BIOS中已實作一演算法可判定 錯誤的原因和與此錯誤有關的組件之位置。因此,如果基 板管理控制器180通知BIOS 170它藉由產生軟SMI已經檢 15 測到錯誤,BIOS 170可判定錯誤的原因且登錄此項資訊。 可預定基板管理控制器180掃描北橋130中之機器檢查狀態 的頻率。替換地,可自適應地改變頻率,如本揭示内容先 前所述。例如,如檢測到單位元錯誤則可增加頻率或者是 如果沒有檢測到錯誤則可減少頻率。 20 儘管本揭示内容已描述了一種系統及方法,其係可包 含用BIOS 170及/或基板管理控制器180自適應地改變周期 掃描之間的時間間隔以因應檢測到的錯誤,然而其他的因 素也可用來調整掃描的頻率。例如,進行掃描之組件(BIOS Π0或基板管理控制器180)所經受的負荷可影響掃描的周 14 1337707 期性。例如,如果執行掃描的組件負載太多其他的工作’ 則可減少掃描的頻率以降低該組件的負荷。雖然已詳述了 本揭示内容,然而對它仍可做出各種改變、取代、及修改 而不脫離以下附上之申請專利範圍所界定的本發明精神與 5 範疇。 【圖式簡單説明3 第1圖為一示範主機板之示範架構的方塊圖;
第2圖的流程圖係圖示一種在系統進行周期掃描時用 於改變頻率的示範方法;以及 10 第3圖為一示範主機板之示範架構的方塊圖。 【主要元件符號說明】
100.. .主機板 110…微處理器 120.. .處理器匯流排 130.. .北橋 H0...記憶體控制器 150··.南橋 160…低接腳數量架構匯流排
170.. . BIOS 180.. .基板管理控制器 190…記憶單元 195.. .中斷請求線 200、210、220、230、240、250、 260、270、280、290、300 ...步驟 15

Claims (1)

  1. 息08,31. g~^137693 號申請 申請專利範圍:|f杯加|日修正本 種用於登錄資訊^ i里系統中之可^復性錯誤的方 法,該系統具有一晶片組、一中央處裡單元以及—基板 管理控制H(BMC),但其不具有連接該基板管理控制器 至該處理器之邊帶訊號性能,該方法包含以下步驟: 使用該基板管理控制器以透過一請求線傳送一中 斷至該晶片組,而周期性地叫用一系統管理中斷(SM1); 掃描一狀態暫存器以檢測是否已發生—可回復性 錯誤; 如果檢測出一可回復性錯誤,則登錄一可回復性錯 誤,其中該登錄一可回復性錯誤的步驟係包含:登錄表 示該可回復性錯誤之來源和該來源之位置的資訊於一 基板‘理控制器相關聯的非揮發性記憶體單元 内;以及 如果沒有檢測到可回復性錯誤,則傳送一表示沒有 可回復性錯誤出現的訊息。 如申請專利範ϋ第1項之用於登錄可回復性錯誤之方 法,其中該掃描一狀態暫存器以檢測是否已發生一可回 復ϋ錯誤的步驟係包含以下的步驟:使用—儲存於該資 凡處理系統之一記憶體單元内的基本輸出入系統(BIOS) 掃描一狀態暫存器。 如申请專利範®第丨項之用於登錄可回復性錯誤之方 /去其中έ亥掃描-狀態暫存器以檢測是否已發生-可回 Μ錯誤的步驟係包含以下的步驟:使用該基板管理控 1337707 制器掃描一狀態暫存器。 4. 如申請專利範圍第1項之用於登錄可回復性錯誤之方 法,其中該掃描一狀態暫存器以檢測是否已發生一可回 復性錯誤的步驟係包含以下的步驟:掃描一與一中央處 5 理單元關連的處理器狀態暫存器。 5. 如申請專利範圍第1項之用於登錄可回復性錯誤之方 法,其中該掃描一狀態暫存器以檢測是否已發生一可回 復性錯誤的步驟係包含以下的步驟:掃描一與一晶片組 關連的晶片組狀態暫存器。 10 6.如申請專利範圍第1項之用於登錄可回復性錯誤之方 法,其中該掃描一狀態暫存器以檢測是否已發生一可回 復性錯誤的步驟係包含以下的步驟:掃描一與耦合於一 晶片組之至少一記憶體單元關連的記憶體狀態暫存器。 7. 如申請專利範圍第1項之用於登錄可回復性錯誤之方 15 法,其更包含:記載與一晶片組關連之至少一記憶體單 > 元於操作期間所引起的可回復性錯誤於一記憶體單元 狀態暫存器内,且在一晶片組狀態暫存器中追蹤該記憶 體單元狀態暫存器所記載的任何可回復性錯誤。 8. 如申請專利範圍第7項之用於登錄可回復性錯誤之方 20 法,其中該掃描一狀態暫存器以檢測是否已發生一可回 復性錯誤的步驟係包含以下的步驟:掃描該晶片組狀態 暫存器以檢測是否已發生一可回復性錯誤。 9. 如申請專利範圍第1項之用於登錄可回復性錯誤之方 法,其更包含:基於該資訊處理系統於操作時之一事件 17 1337707 改變多久周期性地叫用一次該SMI的頻率。 10. 如申請專利範圍第9項之用於登錄可回復性錯誤之方 法,其中該基於該資訊處理系統於操作時之一事件改變 多久周期性地叫用一次該SMI的頻率的步驟係包含:基 5 於是否已檢測到一可回復性錯誤來改變多久周期性地 叫用一次該SMI的頻率。 11. 如申請專利範圍第1項之用於登錄可回復性錯誤之方 法,其更包含:基於該資訊處理系統的操作變化來改變 多久周期性地叫用一次該SMI的頻率。 10 12.如申請專利範圍第11項之用於登錄可回復性錯誤之方 法,其中該基於該資訊處理系統的操作變化來改變多久 周期性地叫用一次該SMI的頻率的步驟係包含:基於一 儲存於該資訊處理系統内之基本輸入輸出系統的工作 量變化來改變多久周期性地叫用一次該SMI的頻率。 15 13. —種用於登錄可回復性錯誤的系統,其係包含: > 一中央處理單元; 一與該中央處理單元耦合的晶片組; 至少一與該晶片組耦合及關連的晶片組記憶體單 元; 20 至少一韌體記憶體單元,其係包含一基本輸出入系 統(BIOS),其中該至少一韌體記憶體單元係與該至少一 晶片組耗合,以及 一基板管理控制器(BMC),其係耦合於該晶片組和 該至少一韌體記憶體單元,其中該系統不具有連接該基 18 133.7707 板管理控制器至該中央處理單元之邊帶訊號性能,且其 中該基板管理控制器可叫用一中斷,該中斷係要求該基 本輸出入系統檢查可回復性錯誤且登錄任何已檢測到 之可回復性錯誤,該中斷係透過耦合該基板管理控制器 5 至該晶片組之一中斷請求線傳送; 至少一基板管理控制器記憶體單元,其係與該基板 管理控制器耦合及關連,其中該至少一基板管理控制器 記憶體單元可儲存已檢測到之可回復性錯誤的日誌。 14. 如申請專利範圍第13項之用於登錄可回復性錯誤之系 10 統,其更包含一與該至少一晶片組記憶體單元關連的記 憶體狀態暫存器,其中該基本輸出入系統可檢查該記憶 體狀態暫存器以便做可回復性錯誤的檢查。 15. 如申請專利範圍第13項之用於登錄可回復性錯誤之系 統,其更包含一與該中央處理單元關連的處理器狀態暫 15 存器,其中該基本輸出入系統可檢查該處理器狀態暫存 > 器以便做可回復性錯誤的檢查。 16. 如申請專利範圍第13項之用於登錄可回復性錯誤之系 統,其更包含一與該晶片組關連的晶片組狀態暫存器, 其中該基本輸出入系統可檢查該晶片組狀態暫存器以 20 便做可回復性錯誤的檢查。 17. —種用於登錄可回復性錯誤的系統,其係包含: 一中央處理單元; 一與該中央處理單元耦合的晶片組; 至少一與該晶片組耦合及關連的晶片組記憶體單 19 1337707 5
    20 元,其中該至少一晶片組記憶體單元係與一記憶體狀態 暫存器相關連; 一與該晶片組關連的晶片組狀態暫存器,其中該晶 片組狀態暫存器可追蹤該記憶體狀態暫存器的内容; 至少一韌體記憶體單元,其係包含一基本輸出入系 統(BIOS),其中該至少一韌體記憶體單元係與該至少一 晶片組輛合, 一基板管理控制器(BMC),其係耦合於該晶片組和 該至少一韌體記憶體單元,其中該基板管理控制器係藉 由一中斷請求線與該至少一晶片組耦合,並可叫用經由 該中斷請求線傳送至該晶片組之一中斷、在該晶片組狀 態暫存器中做可回復性錯誤的檢查、以及要求該基本輸 出入系統登錄任何已檢測到的可回復性錯誤;以及 至少一基板管理控制器記憶體單元,其係與該基板 管理控制器耦合及關連,其中該至少一基板管理控制器 記憶體單元可儲存已檢測到之可回復性錯誤的日誌,並 且其中該系統不具有連接該基板管理控制器至該中央 處理單元之邊帶訊號性能。 18.如申請專利範圍第17項之用於登錄可回復性錯誤之系 統,其更包含一使該基板管理控制器耦合於該晶片組的 互連體間匯流排。 20
TW095137693A 2005-10-14 2006-10-13 System and method for logging recoverable errors TWI337707B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/250,603 US20070088988A1 (en) 2005-10-14 2005-10-14 System and method for logging recoverable errors

Publications (2)

Publication Number Publication Date
TW200805056A TW200805056A (en) 2008-01-16
TWI337707B true TWI337707B (en) 2011-02-21

Family

ID=37491397

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095137693A TWI337707B (en) 2005-10-14 2006-10-13 System and method for logging recoverable errors

Country Status (11)

Country Link
US (1) US20070088988A1 (zh)
JP (1) JP2007109238A (zh)
CN (1) CN100440157C (zh)
AU (1) AU2006228051A1 (zh)
DE (1) DE102006048115B4 (zh)
FR (1) FR2892210A1 (zh)
GB (1) GB2431262B (zh)
HK (1) HK1104631A1 (zh)
IT (1) ITTO20060737A1 (zh)
SG (1) SG131870A1 (zh)
TW (1) TWI337707B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI654518B (zh) 2016-04-11 2019-03-21 神雲科技股份有限公司 錯誤狀態儲存方法及伺服器

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
JP2009121832A (ja) * 2007-11-12 2009-06-04 Sysmex Corp 分析装置、分析システム及びコンピュータプログラム
CN101446915B (zh) * 2007-11-27 2012-01-11 中国长城计算机深圳股份有限公司 一种bios级日志的记录方法及装置
JP4571996B2 (ja) * 2008-07-29 2010-10-27 富士通株式会社 情報処理装置及び処理方法
US8122176B2 (en) * 2009-01-29 2012-02-21 Dell Products L.P. System and method for logging system management interrupts
JP5093259B2 (ja) 2010-02-10 2012-12-12 日本電気株式会社 Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム
JP5459549B2 (ja) * 2010-03-31 2014-04-02 日本電気株式会社 コンピュータシステム及びその余剰コアを用いた通信エミュレート方法
TWI529525B (zh) * 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
CN102375775B (zh) * 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
CN102446146B (zh) * 2010-10-13 2015-04-22 淮南圣丹网络工程技术有限公司 服务器及其避免总线冲突的方法
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467434A (zh) * 2010-11-10 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置状态信号的方法
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
JP5532143B2 (ja) * 2010-11-12 2014-06-25 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
CN102541787A (zh) * 2010-12-15 2012-07-04 鸿富锦精密工业(深圳)有限公司 串口切换使用系统及方法
CN102567177B (zh) * 2010-12-25 2014-12-10 鸿富锦精密工业(深圳)有限公司 计算机系统错误侦测系统及方法
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
US9342393B2 (en) * 2011-12-30 2016-05-17 Intel Corporation Early fabric error forwarding
CN102681931A (zh) * 2012-05-15 2012-09-19 天津市天元新泰科技发展有限公司 一种日志和异常探针的实现方法
CN103455455A (zh) * 2012-05-30 2013-12-18 鸿富锦精密工业(深圳)有限公司 串口切换系统、服务器及串口切换方法
TW201405303A (zh) * 2012-07-30 2014-02-01 Hon Hai Prec Ind Co Ltd 底板管理控制器監控系統及方法
CN103577298A (zh) * 2012-07-31 2014-02-12 鸿富锦精密工业(深圳)有限公司 基板管理控制器监控系统及方法
US9804917B2 (en) 2012-09-25 2017-10-31 Hewlett Packard Enterprise Development Lp Notification of address range including non-correctable error
KR101733903B1 (ko) * 2013-03-07 2017-05-08 인텔 코포레이션 피어 모니터에서 신뢰성, 이용 가능성 및 서비스 가능성(ras) 흐름들을 지원하기 위한 메커니즘
CN104219105A (zh) * 2013-05-31 2014-12-17 英业达科技有限公司 错误通报装置及方法
CN104424042A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
CN104424041A (zh) * 2013-08-23 2015-03-18 鸿富锦精密工业(深圳)有限公司 错误处理系统和方法
US9425953B2 (en) 2013-10-09 2016-08-23 Intel Corporation Generating multiple secure hashes from a single data buffer
US9389942B2 (en) 2013-10-18 2016-07-12 Intel Corporation Determine when an error log was created
CN107357671A (zh) 2014-06-24 2017-11-17 华为技术有限公司 一种故障处理方法、相关装置及计算机
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
FR3040523B1 (fr) * 2015-08-28 2018-07-13 Continental Automotive France Procede de detection d'une erreur non corrigible dans une memoire non volatile d'un microcontroleur
CN105183600A (zh) * 2015-09-09 2015-12-23 浪潮电子信息产业股份有限公司 一种远程定位硬盘故障的装置和方法
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
US9875165B2 (en) * 2015-11-24 2018-01-23 Quanta Computer Inc. Communication bus with baseboard management controller
JP6504610B2 (ja) * 2016-05-18 2019-04-24 Necプラットフォームズ株式会社 処理装置、方法及びプログラム
US10223187B2 (en) * 2016-12-08 2019-03-05 Intel Corporation Instruction and logic to expose error domain topology to facilitate failure isolation in a processor
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
JP7081344B2 (ja) * 2018-07-02 2022-06-07 富士通株式会社 監視装置,監視制御方法および情報処理装置
CN111221677B (zh) * 2018-11-27 2023-06-09 环达电脑(上海)有限公司 侦错备份方法与服务器
CN110377469B (zh) * 2019-07-12 2022-11-18 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
US11403162B2 (en) * 2019-10-17 2022-08-02 Dell Products L.P. System and method for transferring diagnostic data via a framebuffer
EP3859526A1 (en) * 2020-01-30 2021-08-04 Hewlett-Packard Development Company, L.P. Error information storage
US11132314B2 (en) * 2020-02-24 2021-09-28 Dell Products L.P. System and method to reduce host interrupts for non-critical errors
CN111488288A (zh) * 2020-04-17 2020-08-04 苏州浪潮智能科技有限公司 一种测试bmc acd稳定性的方法、装置、终端及存储介质
CN112906009A (zh) * 2021-03-09 2021-06-04 南昌华勤电子科技有限公司 工作日志生成方法、计算设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US5267246A (en) * 1988-06-30 1993-11-30 International Business Machines Corporation Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
US4996688A (en) * 1988-09-19 1991-02-26 Unisys Corporation Fault capture/fault injection system
JPH0355640A (ja) * 1989-07-25 1991-03-11 Nec Corp 周辺制御装置の障害解析情報採取方式
US5287363A (en) * 1991-07-01 1994-02-15 Disk Technician Corporation System for locating and anticipating data storage media failures
EP0666530A3 (en) * 1994-02-02 1996-08-28 Advanced Micro Devices Inc Periodic system management interrupt source and power management system using it.
US5600785A (en) * 1994-09-09 1997-02-04 Compaq Computer Corporation Computer system with error handling before reset
EP1000395B1 (en) * 1997-07-28 2004-12-01 Intergraph Hardware Technologies Company Apparatus and method for memory error detection and error reporting
US6119248A (en) * 1998-01-26 2000-09-12 Dell Usa L.P. Operating system notification of correctable error in computer information
US6189117B1 (en) * 1998-08-18 2001-02-13 International Business Machines Corporation Error handling between a processor and a system managed by the processor
US7689875B2 (en) * 2002-04-25 2010-03-30 Microsoft Corporation Watchdog timer using a high precision event timer
US7389454B2 (en) * 2002-07-31 2008-06-17 Broadcom Corporation Error detection in user input device using general purpose input-output
US7107493B2 (en) * 2003-01-21 2006-09-12 Hewlett-Packard Development Company, L.P. System and method for testing for memory errors in a computer system
US7299331B2 (en) * 2003-01-21 2007-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adding main memory in computer systems operating with mirrored main memory
US7010630B2 (en) * 2003-06-30 2006-03-07 International Business Machines Corporation Communicating to system management in a data processing system
US7076708B2 (en) * 2003-09-25 2006-07-11 International Business Machines Corporation Method and apparatus for diagnosis and behavior modification of an embedded microcontroller
US7213176B2 (en) * 2003-12-10 2007-05-01 Electronic Data Systems Corporation Adaptive log file scanning utility
US7321990B2 (en) * 2003-12-30 2008-01-22 Intel Corporation System software to self-migrate from a faulty memory location to a safe memory location
JP2006178557A (ja) * 2004-12-21 2006-07-06 Nec Corp コンピュータシステム及びエラー処理方法
US7350007B2 (en) * 2005-04-05 2008-03-25 Hewlett-Packard Development Company, L.P. Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI654518B (zh) 2016-04-11 2019-03-21 神雲科技股份有限公司 錯誤狀態儲存方法及伺服器

Also Published As

Publication number Publication date
ITTO20060737A1 (it) 2007-04-15
IE20060744A1 (en) 2007-06-13
CN100440157C (zh) 2008-12-03
GB2431262A (en) 2007-04-18
TW200805056A (en) 2008-01-16
US20070088988A1 (en) 2007-04-19
JP2007109238A (ja) 2007-04-26
HK1104631A1 (en) 2008-01-18
CN1949182A (zh) 2007-04-18
FR2892210A1 (fr) 2007-04-20
GB0620260D0 (en) 2006-11-22
GB2431262B (en) 2008-10-22
DE102006048115B4 (de) 2019-07-04
SG131870A1 (en) 2007-05-28
AU2006228051A1 (en) 2007-05-03
DE102006048115A1 (de) 2007-06-06

Similar Documents

Publication Publication Date Title
TWI337707B (en) System and method for logging recoverable errors
US7685476B2 (en) Early notification of error via software interrupt and shared memory write
US7949904B2 (en) System and method for hardware error reporting and recovery
US9495233B2 (en) Error framework for a microprocesor and system
US7716520B2 (en) Multi-CPU computer and method of restarting system
US7702971B2 (en) System and method for predictive failure detection
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US9021317B2 (en) Reporting and processing computer operation failure alerts
US20030079007A1 (en) Redundant source event log
US6912670B2 (en) Processor internal error handling in an SMP server
US20090292953A1 (en) Modifying connection records
US10089162B2 (en) Method for maintaining file system of computer system
EP3360044B1 (en) System and method for providing operating system independent error control in a computing device
US10515682B2 (en) System and method for memory fault resiliency in a server using multi-channel dynamic random access memory
US10635554B2 (en) System and method for BIOS to ensure UCNA errors are available for correlation
US7529952B2 (en) Processing method and system for resetting system power state after recovering power supply to computer platform
US8726102B2 (en) System and method for handling system failure
US6904546B2 (en) System and method for interface isolation and operating system notification during bus errors
US11126486B2 (en) Prediction of power shutdown and outage incidents
US20120023379A1 (en) Storage device, storage system, and control method
US20060242471A1 (en) Monitoring error-handler vector in architected memory
JP2005135063A (ja) 情報処理装置及び情報処理装置の時計異常検出プログラム
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法
CN117687822A (zh) 一种内存故障的处理方法、装置、终端设备、介质和产品
JP2019168928A (ja) 緊急性判定装置、緊急性判定方法および緊急性判定プログラム