TW202040361A - 伺服器及錯誤事件紀錄登載功能的控制方法 - Google Patents

伺服器及錯誤事件紀錄登載功能的控制方法 Download PDF

Info

Publication number
TW202040361A
TW202040361A TW108114420A TW108114420A TW202040361A TW 202040361 A TW202040361 A TW 202040361A TW 108114420 A TW108114420 A TW 108114420A TW 108114420 A TW108114420 A TW 108114420A TW 202040361 A TW202040361 A TW 202040361A
Authority
TW
Taiwan
Prior art keywords
error event
error
event information
system module
update
Prior art date
Application number
TW108114420A
Other languages
English (en)
Other versions
TWI709039B (zh
Inventor
陳瑞光
王傳傑
Original Assignee
神雲科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 神雲科技股份有限公司 filed Critical 神雲科技股份有限公司
Priority to TW108114420A priority Critical patent/TWI709039B/zh
Priority to US16/850,899 priority patent/US11182233B2/en
Application granted granted Critical
Publication of TW202040361A publication Critical patent/TW202040361A/zh
Publication of TWI709039B publication Critical patent/TWI709039B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種限制錯誤事件紀錄登載次數的方法由一伺服器執行,該伺服器包含揮發性記憶體模組、系統模組,及基板管理控制器,當該系統模組偵測到錯誤事件時,該系統模組對應產生錯誤通知信號,若該錯誤事件屬於可修正類型,該系統模組判斷該錯誤通知信號對應的錯誤事件資訊的發生次數是否不大於對應的預設次數,若是,該系統模組將該錯誤事件資訊作為更新事件資訊,若否,該系統模組判斷該錯誤事件資訊與上次的更新事件資訊對應的發生時間間距是否超過預設時間,若是,該系統模組將該錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器。

Description

伺服器及錯誤事件紀錄登載功能的控制方法
本發明是有關於一種電子數位資料處理的方法與伺服器,特別是指一種用於錯誤監控與紀錄登載的方法與伺服器。
現有伺服器的具有糾錯功能的記憶體運作時所發生的錯誤事件主要可分為二種類型:可更正錯誤(correctable error)與不可更正錯誤(un-correctable error),現有伺服器更正錯誤的機制是藉由採用具有錯誤更正碼技術的記憶體(ECC memory: Error-correcting code memory)來實現錯誤事件的更正,錯誤更正碼可用來檢測伺服器常見的內部資料毀損,此外,當伺服器的中央處理器偵測到此類記憶體發生錯誤事件時會觸發系統管理中斷(SMI: System Managment Interrupt)機制,並在判斷其為可修正錯誤時,會將該次錯誤事件的錯誤事件資訊作為更新是建資訊(例如:發生時間,錯誤內容…等)傳送給基板管理控制器,以供其以錯誤日誌(error log)的形式做記錄,即中央處理器觸發系統管理中斷機制後,寫入系統事件紀錄(System event log)到基板管理控制器,以供使用者得知伺服器目前有穩定度疑慮之記憶體。
然而,若同一記憶體在短時間內頻繁重複地發生同一錯誤事件時,則由於中央處理器將跟著重複執行相關處理,進而使基板管理控制器被大量的系統事件紀錄占用,因而有以下缺點:
一、短時間內重複大量的系統事件紀錄的登載會影響伺服器整體的運作。
二、重複大量的系統事件紀錄的登載會占用基板管理控制器儲存系統事件紀錄所需的空間。
三、當中央處理器觸發系統管理中斷以進行錯誤事件處理的時間越長時,則其在作業系統處理的執行緒(thread)則越容易發生錯誤事件。
因此,本發明的一目的,即在提供一種可在影響系統運作較少的情況下,以較有效率的方式對錯誤事件紀錄登載的錯誤事件紀錄登載功能的控制方法。
於是,本發明錯誤事件紀錄登載功能的控制方法,由一伺服器執行,該伺服器包含一揮發性記憶體模組、一電連接該揮發性記憶體模組的系統模組,及一電連接該系統模組的基板管理控制器,該錯誤事件紀錄登載功能的控制方法包含一步驟(P)、一步驟(A)、一步驟(B),及一步驟(E)。
該步驟(P)為當該系統模組偵測到該揮發性記憶體模組發生一錯誤事件時,該系統模組對應產生一錯誤通知信號,該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一。
該步驟(A)為當該錯誤事件屬於該可修正類型時,該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數,若判斷結果為是,則接著進行以下一步驟(B),若判斷結果為否則接著進行以下一步驟(E)。
該步驟(B)為該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器,並由該基板管理控制器進行登載。
該步驟(E)為該系統模組更進一步的判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間,若否,則回到該步驟(P)。
又,本發明的另一目的,即在提供一種在影響系統運作較少的情況下,以較有效率的方式對錯誤事件紀錄登載的伺服器。
於是,本發明伺服器,包含一揮發性記憶體模組、一系統模組,及一基板管理控制器。
當該揮發性記憶體發生一錯誤事件時,該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一。
該系統模組電連接該揮發性記憶體模組,並在偵測到該揮發性記憶體模組發生該錯誤事件時,對應產生一錯誤通知信號。
該基板管理控制器電連接該系統模組。
當該系統模組判斷該錯誤事件屬於該可修正類型時,該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數。
若是,則該系統模組將該以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器,並由該基板管理控制器進行登載,若否,則該系統模組更進一步判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間,若是,則該系統晶片將以該錯誤事件資訊更新的更新事件資訊傳送到該基板管理控制器。
本發明的功效在於:該系統模組在偵測到該揮發性記憶體發生該錯誤事件,且其為可修正類型時,該系統模組藉由判斷其對應的發生次數及其在本次與先前被傳送到該基板管理控制器的該更新事件資訊所對應的錯誤事件的發生時間的時間間距,並根據該預設次數與該預設時間以決定是否將該錯誤事件對應的該錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器進行登載,以減少登載次數而節省基板管理控制器的可用資源,進而降低對於伺服器整體運作效能的影響,並避免整體運作中斷。
參閱圖1,本發明伺服器包含一非揮發性記憶體模組2、一硬碟模組3、一揮發性記憶體模組4、一系統模組5,及一基板管理控制器6。
該非揮發記憶體模組2儲存一基本輸入輸出系統映像檔(BIOS Image: Image of Basic Input Output System)。
該硬碟模組3儲存一作業系統(OS:Operating System)。
該揮發性記憶體模組4包括多個記憶體單元41,當該系統模組5偵測到該等記憶體單元41其中之一發生一錯誤事件時,由該系統模組5產生對應的錯誤通知信號,且該錯誤事件的種類屬於可修正類型與不可修正類型二者其中之一,在本實施例中,該等記憶體單元41的類型為雙線記憶體模組(Dual  In-line  Memory  Module;DIMM),關於系統模組5產生對應錯誤通知信號的具體做法將詳細說明如下。
該系統模組5包括一平台路徑控制器51(PCH:Platform Controller Hub),及一中央處理器52(CPU:Central Processing Unit),且該系統模組可以以該平台路徑控制器51及該中央處理器52整合而成的一系統單晶片(SoC, System on chip),也可以以該中央處理器52搭配該平台路徑控制器51來實施。
該平台路徑控制器51電連接該非揮發性記憶體模組2與該硬碟模組3。
該中央處理器52具有一中央控制單元521,及多個記憶體控制單元522,該中央控制單元521電連接該平台路徑控制器51,並經由該平台路徑控制器51讀取而執行儲存於該非揮發性記憶體模組2的該基本輸入輸出系統映像檔,及儲存於該硬碟模組3的該作業系統二者其中之一,每一記憶體控制單元522電連接該中央控制單元521,並各自電連接每一記憶體單元41,每一記憶體控制單元522於每次各自對每一記憶體單元41進行資料存取過程中,會檢查對應的記憶體單元41以偵測是否有錯誤事件發生,且該等記憶體控制單元522分別根據對應的該記憶體單元41發生的錯誤事件對應產生並傳送對應的錯誤通知信號(此錯誤通知信號可伴隨一中斷信號被一併傳送)至該中央控制單元521。
配合圖1並參閱圖2,該基板管理控制器6電連接該平台路徑控制器51,當該中央控制單元6接收該錯誤通知信號時,該中央控制單元6根據該錯誤通知信號判斷該錯誤事件的類型,並決定是否將該錯誤事件的錯誤事件資訊經由該平台路徑控制器51傳送至該基板管理控制器6供該基板管理控制器6登載儲存。
進一步說明,該中央控制單元521在決定是否將該錯誤事件傳送到該基板管理控制器6之前,會先選擇性地決定是否先記錄該錯誤事件的錯誤事件資訊,其實際做法如下述:當該等記憶體控制單元522其中之一偵測到錯誤事件發生時,會產生並傳送錯誤事件通知給中央控制單元521,以使該中央控制單元521決定是否在該等記憶體單元41的其中之一者對應的一紀錄區紀錄該錯誤事件的錯誤事件資訊以作為更新事件資訊,包括:中央控制單元本身的編號(實作上中央控制單元的數量可以為一個或多個)、所偵測到的錯誤事件對應的記憶體控制單元的編號、該揮發性記憶體模組4的通道編號,及該錯誤事件發生的時間點,至於決定是否記錄上述的錯誤事件資訊,是取決於該中央控制單元先判斷錯誤事件的種類,更具體的做法將詳細說明於後。
參閱圖3,該伺服器執行一種錯誤事件紀錄登載功能的控制方法,該錯誤事件紀錄登載功能的控制方法包含一設定事件記錄次數上限的步驟(G)、一觸發中斷機制的步驟(P)、一判斷錯誤次數的步驟(A)、一登載錯誤事件的步驟(B)、一判斷更新完成次數的步驟(C)、一登載暫停記錄的步驟(D)、一判斷錯誤事件發生時間的步驟(E),及一重置記錄次數的步驟(F)。
需先說明的是,該伺服器執行該錯誤紀錄登載功能的控制方法時,主要可分三大階段:
一、暫存錯誤:只要有發生錯誤事件,該系統模組5的中央控制單元521就先將錯誤事件的錯誤事件資訊暫存於該暫存器523。
二、錯誤由該中央控制單元521紀錄於紀錄區:該中央控制單元521在記錄暫存的錯誤事件資訊之前,須先決定是否記錄當下發生的錯誤事件之錯誤事件資訊以作為一更新事件資訊(由於該中央控制單元521僅會將對應發生次數不大於一預設次數的錯誤事件資訊記錄於記錄區,當對應的發生次數大於該預設次數的錯誤事件發生時,該中央控制單元521會判定不用紀錄)。
三、將紀錄區的錯誤事件登載到該基板管理控制器6:只要該中央控制單元521有更新紀錄區的更新事件資訊,就要連動的進行將更新事件資訊登載到該基板管理控制器6。
此外,在該中央處理器52每次將暫存器的錯誤事件資訊紀錄於紀錄區以作為更新事件資訊並累加記錄對應的發生次數,且於紀錄完成後,該中央處理器52可選擇性的再次以紀錄區更新後的該更新事件資訊對應的發生次數比對預設次數,當更新後的該更新事件資訊對應的發生次數等於預設次數時,則該中央處理器52傳送錯誤事件發生次數已滿通知至該基板管理控制器6以供其以日誌形式儲存。
以下接著說明該伺服器執行該錯誤事件紀錄登載功能的控制方法的詳細流程。
該設定事件記錄次數上限的步驟(G)為該中央控制單元521設定對應於每一記憶體單元41在各自發生該錯誤事件時,對應產生該錯誤通知信號所指示的該錯誤事件資訊發生的該預設次數,以作為根據該錯誤通知信號紀錄對應的該錯誤事件資訊的紀錄次數的次數限制,該預設次數也就是該中央控制單元521於每次記錄錯誤事件資訊於記錄區的過程中一併累加記錄對應的發生次數之次數上限。例如該預設次數為3次。
需再說明的是,該設定事件記錄次數上限的步驟(G)的另一種具體做法為該中央控制單元521直接根據基本輸入輸出系統程式的預設值,在執行基本輸入輸出系統程式時,載入預設值並將其儲存於該系統模組5的該等記憶體控制單元522的暫存器,在實做上,是由使用者由本地端(Local)直接透過輸入裝置並藉由基本輸入輸出系統的選單來修改,或是從遠端(Remote)透過網路連接到伺服器,並藉由控制該中央控制單元521來修改儲存於記憶體控制單元522的暫存器所儲存的設定。
該觸發中斷機制的步驟(P)為該揮發性記憶體模組4對應的其中一記憶體控制單元522偵測到一記憶體單元41的一錯誤事件,該記憶體控制單元522據以對應產生一錯誤通知信號,並以具有系統管理中斷(SMI: System Managment Interrupt)機制的方式來傳送所產生的該錯誤通知信號至該中央控制單元521。
該判斷錯誤次數的步驟(A)為當該錯誤事件屬於該可修正類型時,該中央控制單元521比對該錯誤通知信號所指示的當下的一錯誤事件所對應的發生次數是否不大於對應的該預設次數,例如該預設次數為3次。需再進一步說明的是,在將當下的該錯誤事件之錯誤事件資訊記錄於記錄區之前,先比對預設次數與先前已紀錄於記錄區的該更新事件資訊對應的發生次數,若先前已紀錄於記錄區的該更新事件資訊對應的發生次數小於該預設次數時,即使該中央處理器52將當下的該錯誤事件之錯誤事件資訊記錄到記錄區,以作為更新後的更新事件資訊,並累加記錄更新後的更新事件資訊對應的發生次數,也不會造成更新後的發生次數超過該預設次數,也就是說,若先前已紀錄於記錄區的該更新事件資訊對應的發生次數小於該預設次數時,即使該中央處理器52將當下的錯誤事件資訊記錄於紀錄區,仍符合該中央處理器52將對應發生次數小於等於該預設次數的當下的錯誤事件之錯誤事件資訊記錄於記錄區的原則,因此,該中央控制單元521可以藉由比對該更新事件資訊對應的發生次數是否小於該預設次數的方式來判定該錯誤通知信號所指示的當下的一錯誤事件所對應的發生次數是否大於對應的該預設次數,也就是說,在將當下的該錯誤事件之錯誤事件資訊記錄於記錄區之前,該中央控制單元521比對預設次數與先前已紀錄於記錄區的該更新事件資訊對應的發生次數,當該中央控制單元521判定該更新事件資訊對應的發生次數小於該預設次數,則表示當下發生的該錯誤事件所對應的發生次數不大於該預設次數,反之,當該中央控制單元521判定該更新事件資訊對應的發生次數不小於該預設次數,則等同於判定當下發生的該錯誤事件所對應的發生次數大於該預設次數,其中,該錯誤事件所對應的發生次數,指的是可修正類型的錯誤事件的發生次數,以下接著說明更詳細的做法。
參閱圖4,進一步地說明該判斷錯誤次數的步驟(A)的詳細做法,包括一判斷錯誤事件種類的子步驟(A0)、一暫存錯誤事件資訊的子步驟(A1),及一判斷錯誤次數的子步驟(A2)。
該判斷錯誤種類的子步驟(A0)為當該記憶體控制單元522偵測到該等記憶體單元41其中之一發生錯誤事件時,該記憶體控制單元522對應產生並傳送該錯誤通知信號至該中央控制單元521,該中央控制單元521判斷該錯誤通知信號所指的錯誤事件的類型是否屬於可修正類型。
需再進一步說明的是,該記憶體控制單元522據以對應產生一錯誤通知信號,並以觸發系統管理中斷(SMI: System Managment Interrupt)機制的方式來傳送所產生的該錯誤通知信號至該中央控制單元521,當該中央控制單元521是在執行該基本輸入輸出系統映像檔與該作業系統二者其中之一的執行狀態下接收到以具有系統管理中斷機制傳送的該錯誤通知信號時,則該中央控制單元521先中斷正在執行的執行狀態,並接著在執行該基本輸入輸出系統映像檔的環境中判斷該錯誤通知信號的種類並進行後續處理。此外,當判斷該錯誤為不可修正類型時,則中央控制單元521直接將該錯誤通知信號所指的該錯誤事件的錯誤事件資訊傳送至該基板管理控制器6以供登載日誌。
該暫存錯誤事件資訊的子步驟(A1)為若該判斷錯誤種類的子步驟(A0)的判斷結果為是,則該中央控制單元521將本次發生的關於該錯誤通知信號的該錯誤事件的錯誤事件資訊暫存於該中央處理器52的一暫存器(Register)523,以進行後續步驟。需再說明的是,暫存器523所儲存的錯誤事件資訊包括錯誤內容、發生時間…等,而錯誤事件資訊本身不包含對應的發生次數資訊。
該判斷錯誤次數的子步驟(A2)為在將本次發生的錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前,先判斷該紀錄區先前所記錄的更新事件資訊對應的發生次數是否小於該預設次數,若判斷結果為是,表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數,則該中央控制單元521將本次發生的該錯誤事件之錯誤事件資訊更新記錄於該記錄區,以作為更新的更新事件資訊,並以累加一的方式來累加記錄更新後的該更新事件資訊所對應的發生次數,(即把先前記錄的該更新事件資訊對應的發生次數累加1)並進入該登載錯誤事件的步驟(B),若判斷結果為否,亦即在將該錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前,該紀錄區先前所記錄的該更新事件資訊對應的發生次數大於等於該預設次數,例如:例如先前記錄的該更新事件資訊的發生次數為3次,等於該預設次數3次,也就是說本次發生且尚未被記錄於記錄區的該錯誤事件所對應的發生次數為大於等於3的數值,則進入該判斷錯誤發生時間的步驟(E)。
該登載錯誤事件的步驟(B)為該中央控制單元521將關於該記憶體單元41發生該錯誤事件的錯誤事件資訊的一更新事件資訊記錄至該基板管理控制器6以作為更新事件資訊的部份內容。該中央控制單元521將該次更新儲存於紀錄區的該更新事件資訊包括對應的該錯誤事件的錯誤內容、發生時間,及累加後的發生次數傳送至該基板管理控制器6以供其以日誌形式登載儲存。需再說明的是,該基板管理控制器6登載儲存日誌時是儲存在內部的記憶體或其外部與自身電性連接的外掛的記憶體。
該判斷更新完成次數的步驟(C)為該中央控制單元521判斷該紀錄區所更新的紀錄關於已更新的該更新事件資訊對應的發生次數是否已達該預設次數,若判斷結果為否,則回到該觸發中斷機制的步驟(P),舉例來說,該中央處理器52的該中央控制單元521更新儲存本次發生的該錯誤事件於該紀錄區以作為該更新事件資訊後,再判斷已被更新的該更新事件資訊對應的發生次數例如為2次(尚未更新記錄前發生次數為1次,連同本次更新記錄的該錯誤事件,則更新後的該更新事件資訊對應的發生次數為1+1次),即,記錄於該記錄區的該更新事件資訊對應的發生次數尚未達到該預設次數,則回到該觸發中斷機制的步驟(P)。
該登載暫停記錄的步驟(D)為若該判斷更新完成次數的步驟(C)的判斷結果為是(例如:該中央控制單元521判斷該紀錄區所紀錄關於包含本次發生的該錯誤事件的發生總次數為3次),則該中央控制單元521發送一錯誤事件發生次數已滿通知,使該基板管理控制器6登載一錯誤事件發生次數已達該預設次數之日誌,以指示出該錯誤事件的發生次數已達該預設次數限制,並暫停記錄/登載錯誤事件所對應的更新事件資訊,接著回該觸發中斷機制的步驟(P)。需再說明的是,該判斷更新完成次數的步驟(C)與該登載暫停記錄的步驟(D)主要讓使用者藉由遠端電腦或是本地端電腦與基板管理控制器6連線以讀取該基板管理控制器6登載的錯誤事件對應的更新事件資料時,可以確切的知道哪個時間點開始暫停紀錄/登載更新事件資訊。若不執行該判斷更新完成次數的步驟(C)與該登載暫停記錄的步驟(D),則是從該登載錯誤事件的步驟(B)結束後直接回到該觸發中斷機制的步驟(P)。
該判斷錯誤發生時間的步驟(E)為,該中央控制單元521更進一步地判斷儲存於該暫存器的該錯誤事件的發生時間與先前更新記錄於記錄區的該更新事件資訊所對應的發生時間兩者之時間差,並判斷該時間差是否超過一預設時間,若判斷結果為否,則回到該觸發中斷機制的步驟(P),例如:假設該預設時間為10分鐘,在將本次發生的該錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前,該記錄區所記錄的該更新事件資訊對應的錯誤事件的發生時間,也就是記錄於該記錄區且對應該發生次數等於該預設次數對應的該錯誤事件對應的發生時間,以此為一預設期間的起始時間,例如該起始時間為1點整,其中,該預設期間是由該起始時間起算經該預設時間後結束,而本次發生的該錯誤事件的時間為1點08分,表示本次發生的該錯誤事件的發生時間距該記錄區所記錄的該更新事件資訊對應的錯誤事件的發生時間的時間差小於該預設時間10分鐘,即,該錯誤事件發生在該預設期間內重複發生,接著回到該觸發中斷機制的步驟(P),藉此,該中央控制單元521於該預設期間內對應同一個記憶體單元522的該錯誤事件再發生時,暫時停止將關於該記憶體單元522發生該錯誤事件的錯誤事件資訊(錯誤內容、發生時間)重複的記錄至該紀錄區以及重複的登載至該基板管理控制器6,以使該中央控制單元521避免因多次重覆記錄同種類的該錯誤發生的相關資訊而造成其處理負擔,以至於影響處理效能,進而減少伺服器進入當機狀態的機會,並降低該基板管理控制器6儲存空間的浪費。
該重置記錄次數的步驟(F)為若該判斷錯誤發生時間的步驟(E)的判斷結果為是,則中央控制單元521將等記憶體單元41的該紀錄區作為更新事件紀錄所對應的發生次數重置為零,也就是歸零,並進入該判斷錯誤次數的子步驟(A2)再進入該登載錯誤事件的步驟(B)或是在完成步驟(F)後直接進入該登載錯誤事件的步驟(B),並接著執行後續步驟,例如:本次發生的該錯誤事件的發生時間為1點11分,表示一錯誤事件的發生時間距該起始時間的時間差大於該預設時間10分鐘,則該中央控制單元521將關於該錯誤事件的發生次數重置為零,進入該登載錯誤事件的步驟(B),並接著執行後續步驟。
綜上所述,上述實施例主要是藉由該中央控制單元經由該等記憶體控制單元設定相關於該等記憶體單元的錯誤事件記錄次數限制的預設次數,並在偵測到該等記憶體單元其中之一發生錯誤事件,且判斷其類型為可修正類型時,該中央控制單元暫存該錯誤事件資訊,接著該中央控制單元判斷該錯誤事件的發生次數是否尚未超過預設的紀錄次數限制,若未超過,該中央控制單元將該錯誤事件的相關資訊登載到該基板管理控制器,若該中央控制單元暫存的該錯誤事件的發生次數超過該預設次數,則該中央控制單元暫停傳送該錯誤事件作為更新事件資訊的錯誤事件資訊至該基板管理控制器作登載,以避免基板管理控制器重覆處理登載相同事件而造成運作負擔,此外,若該中央控制單元判斷該錯誤事件的發生次數已超過預設次數,則該中央控制單元更進一步的判斷該錯誤事件的該次發生時間與一預設期間之一起始時間的時間差是否已超過一預設時間,若是,則該中央控制單元該錯誤事件的錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器以進行後續登載處理,以確保該錯誤事件在不浪費系統資源下可更有效率的被記錄,因而本發明有以下優點:一、當短時間由於錯誤事件發生大量的系統事件紀錄時,不會影響整體運作效能,二、基板管理控制器的儲存空間不會被大量重複的同一系統事件紀錄所占據,三、中央處理器不會因為錯誤事件而有中斷其在作業系統處理的執行緒之疑慮,故確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
2:非揮發性記憶體模組 3:硬碟模組 4:揮發性記憶體模組 41:記憶體單元 5:系統模組 51:平台路徑控制器 52:中央處理器 521:中央控制單元 522:記憶體控制單元 523:暫存器 6:基板管理控制器 (G):設定事件記錄次數上限的步驟 (P):觸發中斷機制的步驟 (A):判斷錯誤次數的步驟 (A0):判斷錯誤事件種類的子步驟 (A1):暫存錯誤事件資訊的子步驟 (A2):判斷錯誤次數的子步驟 (B):登載錯誤事件的步驟 (C):判斷更新完成次數的步驟 (D):登載暫停記錄的步驟 (E):判斷錯誤事件發生時間的步驟 (F):重置記錄次數的步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是一方塊圖,說明本發明伺服器的一實施例; 圖2是一方塊圖,輔助說明該實施例的一揮發性記憶體模組; 圖3是一流程圖,說明該實施例執行的一錯誤事件紀錄登載功能的控制方法;及 圖4是一流程圖,輔助說明該實施例執行的詳細步驟。
(G):設定事件記錄次數上限的步驟
(P):觸發中斷機制的步驟
(A):判斷錯誤次數的步驟
(A0):判斷錯誤事件種類的子步驟
(A1):暫存錯誤事件資訊的子步驟
(A2):判斷錯誤次數的子步驟
(B):登載錯誤事件的步驟
(C):判斷更新完成次數的步驟
(D):登載暫停記錄的步驟
(E):判斷錯誤事件發生時間的步驟
(F):重置記錄次數的步驟

Claims (10)

  1. 一種錯誤事件紀錄登載功能的控制方法,由一伺服器執行,該伺服器包含一揮發性記憶體模組、一電連接該揮發性記憶體模組的系統模組,及一電連接該系統模組的基板管理控制器,該錯誤紀錄登載功能的控制方法包含: (P)當該系統模組偵測到該揮發性記憶體模組發生一錯誤事件時,該系統模組對應產生一錯誤通知信號,該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一; (A)當該錯誤事件屬於該可修正類型時,該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數,若判斷結果為是,則接著進行步驟(B),若判斷結果為否則接著進行步驟(E); (B)該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器,並由該基板管理控制器進行登載;及 (E)該系統模組更進一步的判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間,若否,則回到該步驟(P)。
  2. 如請求項1所述的錯誤事件紀錄登載功能的控制方法,其中,該步驟(A)包括以下子步驟: (A0)該系統模組根據該揮發性記憶體模組對應產生的該錯誤通知信號判斷該錯誤事件是否屬於該可修正類型, (A1)若該子步驟(A0)的判斷結果為是,則該系統模組暫存該揮發性記憶體模組發生的該錯誤事件資訊,及 (A2)該系統模組判斷先前所記錄的更新事件資訊對應的發生次數是否小於該預設次數,若判斷結果為是,表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數,則記錄本次發生的該錯誤事件之錯誤事件資訊以更新該更新事件資訊。
  3. 如請求項2所述的錯誤事件紀錄登載功能的控制方法,在該步驟(B)之後,還包含一步驟(C):該系統模組判斷記錄的該更新事件資訊對應的發生次數是否已達該預設次數,若否,則回到該步驟(P)。
  4. 如請求項3所述的錯誤事件紀錄登載功能的控制方法,在該步驟(C)之後,還包含一步驟(D):若該步驟(C)的判斷結果為是,則該系統模組發送一錯誤事件發生次數已滿通知,使該基板管理控制器登載一錯誤事件發生次數已達該預設次數之日誌,以指示出該錯誤事件的發生次數已達該預設次數限制,並暫停登載錯誤事件所對應的更新事件資訊,接著回到該步驟(P)。
  5. 如請求項2所述的錯誤事件紀錄登載功能的控制方法,還包含一步驟(F):若該步驟(E)的判斷結果是,則該系統模組將該更新事件資訊對應的發生次數歸零,並進到該步驟(A2)。
  6. 一種伺服器,包含: 一揮發性記憶體模組,當發生一錯誤事件時,該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一; 一系統模組,電連接該揮發性記憶體模組,並在偵測到該揮發性記憶體模組發生該錯誤事件時,對應產生一錯誤通知信號;及 一基板管理控制器,電連接該系統模組, 當該系統模組判斷該錯誤事件屬於該可修正類型,該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數, 若是,則該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器,並由該基板管理控制器進行登載,若否,則該系統模組更進一步判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間,若是,則該系統模組將以該錯誤事件資訊更新的更新事件資訊傳送到該基板管理控制器。
  7. 如請求項6所述的伺服器,其中,該系統模組根據該揮發性記憶體模組對應產生的該錯誤通知信號判斷該錯誤事件是否屬於該可修正類型,若是,則該系統模組暫存該揮發性記憶體模組發生的該錯誤事件資訊,該系統模組接著判斷上次被傳送到該基板管理控制器的更新事件資訊對應的發生次數是否小於該預設次數,若判斷結果為是,表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數,則記錄本次發生的該錯誤事件之錯誤事件資訊,以更新該更新事件資訊,並累加記錄該更新事件資訊對應的發生次數。
  8. 如請求項7所述的伺服器,其中,該系統模組判斷該更新事件資訊對應的次數是否已達該預設次數,若否,則該系統模組接著在偵測到該揮發性記憶體模組在該錯誤事件發生時,對應產生該錯誤通知信號。
  9. 如請求項8所述的伺服器,其中,若該系統模組判斷該基板管理控制器記錄的該錯誤事件資訊對應的次數已達該預設次數,則該系統模組發送一錯誤事件發生次數已滿通知,使該基板管理控制器登載一錯誤事件發生次數已達該預設次數之日誌,以指示出該錯誤事件的發生次數已達該預設次數限制,並暫停登載錯誤事件所對應的更新事件資訊,接著在偵測到該揮發性記憶體模組在該錯誤事件發生時,對應產生該錯誤通知信號。
  10. 如請求項6所述的伺服器,其中,若該系統模組判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距超過該預設時間,則該系統模組將該更新事件資訊所對應的發生次數歸零,且該系統模組接著記錄本次發生的該錯誤事件之錯誤事件資訊以更新該更新事件資訊,並將以本次發生的該錯誤事件之錯誤事件資訊更新後的該更新事件資訊傳送到該基板管理控制器。
TW108114420A 2019-04-25 2019-04-25 伺服器及錯誤事件紀錄登載功能的控制方法 TWI709039B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108114420A TWI709039B (zh) 2019-04-25 2019-04-25 伺服器及錯誤事件紀錄登載功能的控制方法
US16/850,899 US11182233B2 (en) 2019-04-25 2020-04-16 Method for event log management of memory errors and server computer utilizing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108114420A TWI709039B (zh) 2019-04-25 2019-04-25 伺服器及錯誤事件紀錄登載功能的控制方法

Publications (2)

Publication Number Publication Date
TW202040361A true TW202040361A (zh) 2020-11-01
TWI709039B TWI709039B (zh) 2020-11-01

Family

ID=72917018

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108114420A TWI709039B (zh) 2019-04-25 2019-04-25 伺服器及錯誤事件紀錄登載功能的控制方法

Country Status (2)

Country Link
US (1) US11182233B2 (zh)
TW (1) TWI709039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099980A (zh) * 2019-06-17 2020-12-18 环达电脑(上海)有限公司 服务器及错误事件记录登载功能的控制方法
KR20220059729A (ko) * 2020-11-03 2022-05-10 삼성전자주식회사 메모리 모듈 및 메모리 모듈의 동작방법
CN112948160B (zh) * 2021-02-26 2023-02-28 山东英信计算机技术有限公司 一种内存ecc问题的定位修复方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020124214A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and system for eliminating duplicate reported errors in a logically partitioned multiprocessing system
US7120717B2 (en) * 2004-02-13 2006-10-10 Hewlett-Packard Development Company, L.P. Method and apparatus for controlling interrupt storms
DE602007007893D1 (de) * 2006-02-16 2010-09-02 British Telecomm Alarmverwaltungssystem
US7945841B2 (en) * 2006-12-06 2011-05-17 Intel Corporation System and method for continuous logging of correctable errors without rebooting
TWI344082B (en) * 2007-05-16 2011-06-21 Inventec Corp Method for diagnosing system abnormality
US7617074B2 (en) * 2007-07-06 2009-11-10 Microsoft Corporation Suppressing repeated events and storing diagnostic information
TWI469573B (zh) * 2011-12-21 2015-01-11 Inventec Corp 系統錯誤處理方法與使用其之伺服器系統
US20170091013A1 (en) * 2015-09-28 2017-03-30 Netapp, Inc. Pcie error reporting and throttling
US10078543B2 (en) * 2016-05-27 2018-09-18 Oracle International Corporation Correctable error filtering for input/output subsystem
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
GB201704931D0 (en) * 2017-03-28 2017-05-10 Indigovision Ltd Monitoring devices and methods for IP surveillance networks
US10318455B2 (en) * 2017-07-19 2019-06-11 Dell Products, Lp System and method to correlate corrected machine check error storm events to specific machine check banks
US10599505B1 (en) * 2017-11-20 2020-03-24 Amazon Technologies, Inc. Event handling system with escalation suppression
TWI685751B (zh) * 2018-04-10 2020-02-21 神雲科技股份有限公司 伺服器裝置的錯誤報告功能的控制方法

Also Published As

Publication number Publication date
US11182233B2 (en) 2021-11-23
US20200341831A1 (en) 2020-10-29
TWI709039B (zh) 2020-11-01

Similar Documents

Publication Publication Date Title
US9495233B2 (en) Error framework for a microprocesor and system
WO2021135272A1 (zh) 一种内存异常的处理方法、系统、电子设备及存储介质
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
TWI709039B (zh) 伺服器及錯誤事件紀錄登載功能的控制方法
US8661306B2 (en) Baseboard management controller and memory error detection method of computing device utilized thereby
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US20140068350A1 (en) Self-checking system and method using same
TW201730764A (zh) 用來於一儲存系統中進行資料擦洗管理之方法與裝置
US20170277441A1 (en) Performance-aware and reliability-aware data placement for n-level heterogeneous memory systems
US11422828B2 (en) Interleaved host reset and next re-initialization operations
WO2024016855A1 (zh) 一种确定内存故障修复方式的方法、装置及存储介质
US20190026202A1 (en) System and Method for BIOS to Ensure UCNA Errors are Available for Correlation
JP2013109722A (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
TWI777628B (zh) 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
US11593209B2 (en) Targeted repair of hardware components in a computing device
JP2548475B2 (ja) アレイディスク装置のデータ復元量制御方法
US9176806B2 (en) Computer and memory inspection method
CN112099980A (zh) 服务器及错误事件记录登载功能的控制方法
JP6379841B2 (ja) 情報処理装置、試験方法および試験制御プログラム
TWI832188B (zh) 電腦系統以及在電腦系統中執行的方法
CN114518972B (zh) 内存错误处理方法、装置、内存控制器及处理器
JPH05165577A (ja) アレイディスク装置のバックグラウンド処理実行方法
TWI781452B (zh) 監控及復原異質性元件的系統及方法
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法
TW202145239A (zh) 固態硬碟之錯誤分析方法及應用其之電腦

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees