TW202040361A

TW202040361A - 伺服器及錯誤事件紀錄登載功能的控制方法

Info

Publication number: TW202040361A
Application number: TW108114420A
Authority: TW
Inventors: 陳瑞光; 王傳傑
Original assignee: 神雲科技股份有限公司
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-11-01
Also published as: US11182233B2; US20200341831A1; TWI709039B

Abstract

一種限制錯誤事件紀錄登載次數的方法由一伺服器執行，該伺服器包含揮發性記憶體模組、系統模組，及基板管理控制器，當該系統模組偵測到錯誤事件時，該系統模組對應產生錯誤通知信號，若該錯誤事件屬於可修正類型，該系統模組判斷該錯誤通知信號對應的錯誤事件資訊的發生次數是否不大於對應的預設次數，若是，該系統模組將該錯誤事件資訊作為更新事件資訊，若否，該系統模組判斷該錯誤事件資訊與上次的更新事件資訊對應的發生時間間距是否超過預設時間，若是，該系統模組將該錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器。

Description

伺服器及錯誤事件紀錄登載功能的控制方法

本發明是有關於一種電子數位資料處理的方法與伺服器，特別是指一種用於錯誤監控與紀錄登載的方法與伺服器。

現有伺服器的具有糾錯功能的記憶體運作時所發生的錯誤事件主要可分為二種類型：可更正錯誤（correctable error）與不可更正錯誤（un-correctable error），現有伺服器更正錯誤的機制是藉由採用具有錯誤更正碼技術的記憶體（ECC memory: Error-correcting code memory）來實現錯誤事件的更正，錯誤更正碼可用來檢測伺服器常見的內部資料毀損，此外，當伺服器的中央處理器偵測到此類記憶體發生錯誤事件時會觸發系統管理中斷（SMI: System Managment Interrupt）機制，並在判斷其為可修正錯誤時，會將該次錯誤事件的錯誤事件資訊作為更新是建資訊（例如：發生時間，錯誤內容…等）傳送給基板管理控制器，以供其以錯誤日誌（error log）的形式做記錄，即中央處理器觸發系統管理中斷機制後，寫入系統事件紀錄（System event log）到基板管理控制器，以供使用者得知伺服器目前有穩定度疑慮之記憶體。

然而，若同一記憶體在短時間內頻繁重複地發生同一錯誤事件時，則由於中央處理器將跟著重複執行相關處理，進而使基板管理控制器被大量的系統事件紀錄占用，因而有以下缺點：

一、短時間內重複大量的系統事件紀錄的登載會影響伺服器整體的運作。

二、重複大量的系統事件紀錄的登載會占用基板管理控制器儲存系統事件紀錄所需的空間。

三、當中央處理器觸發系統管理中斷以進行錯誤事件處理的時間越長時，則其在作業系統處理的執行緒（thread）則越容易發生錯誤事件。

因此，本發明的一目的，即在提供一種可在影響系統運作較少的情況下，以較有效率的方式對錯誤事件紀錄登載的錯誤事件紀錄登載功能的控制方法。

於是，本發明錯誤事件紀錄登載功能的控制方法，由一伺服器執行，該伺服器包含一揮發性記憶體模組、一電連接該揮發性記憶體模組的系統模組，及一電連接該系統模組的基板管理控制器，該錯誤事件紀錄登載功能的控制方法包含一步驟（P）、一步驟（A）、一步驟（B），及一步驟（E）。

該步驟（P）為當該系統模組偵測到該揮發性記憶體模組發生一錯誤事件時，該系統模組對應產生一錯誤通知信號，該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一。

該步驟（A）為當該錯誤事件屬於該可修正類型時，該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數，若判斷結果為是，則接著進行以下一步驟（B），若判斷結果為否則接著進行以下一步驟（E）。

該步驟（B）為該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器，並由該基板管理控制器進行登載。

該步驟（E）為該系統模組更進一步的判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間，若否，則回到該步驟（P）。

又，本發明的另一目的，即在提供一種在影響系統運作較少的情況下，以較有效率的方式對錯誤事件紀錄登載的伺服器。

於是，本發明伺服器，包含一揮發性記憶體模組、一系統模組，及一基板管理控制器。

當該揮發性記憶體發生一錯誤事件時，該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一。

該系統模組電連接該揮發性記憶體模組，並在偵測到該揮發性記憶體模組發生該錯誤事件時，對應產生一錯誤通知信號。

該基板管理控制器電連接該系統模組。

當該系統模組判斷該錯誤事件屬於該可修正類型時，該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數。

若是，則該系統模組將該以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器，並由該基板管理控制器進行登載，若否，則該系統模組更進一步判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間，若是，則該系統晶片將以該錯誤事件資訊更新的更新事件資訊傳送到該基板管理控制器。

本發明的功效在於：該系統模組在偵測到該揮發性記憶體發生該錯誤事件，且其為可修正類型時，該系統模組藉由判斷其對應的發生次數及其在本次與先前被傳送到該基板管理控制器的該更新事件資訊所對應的錯誤事件的發生時間的時間間距，並根據該預設次數與該預設時間以決定是否將該錯誤事件對應的該錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器進行登載，以減少登載次數而節省基板管理控制器的可用資源，進而降低對於伺服器整體運作效能的影響，並避免整體運作中斷。

參閱圖1，本發明伺服器包含一非揮發性記憶體模組2、一硬碟模組3、一揮發性記憶體模組4、一系統模組5，及一基板管理控制器6。

該非揮發記憶體模組2儲存一基本輸入輸出系統映像檔（BIOS Image: Image of Basic Input Output System）。

該硬碟模組3儲存一作業系統（OS:Operating System）。

該揮發性記憶體模組4包括多個記憶體單元41，當該系統模組5偵測到該等記憶體單元41其中之一發生一錯誤事件時，由該系統模組5產生對應的錯誤通知信號，且該錯誤事件的種類屬於可修正類型與不可修正類型二者其中之一，在本實施例中，該等記憶體單元41的類型為雙線記憶體模組（Dual In-line Memory Module；DIMM），關於系統模組5產生對應錯誤通知信號的具體做法將詳細說明如下。

該系統模組5包括一平台路徑控制器51（PCH:Platform Controller Hub），及一中央處理器52（CPU:Central Processing Unit），且該系統模組可以以該平台路徑控制器51及該中央處理器52整合而成的一系統單晶片(SoC, System on chip)，也可以以該中央處理器52搭配該平台路徑控制器51來實施。

該平台路徑控制器51電連接該非揮發性記憶體模組2與該硬碟模組3。

該中央處理器52具有一中央控制單元521，及多個記憶體控制單元522，該中央控制單元521電連接該平台路徑控制器51，並經由該平台路徑控制器51讀取而執行儲存於該非揮發性記憶體模組2的該基本輸入輸出系統映像檔，及儲存於該硬碟模組3的該作業系統二者其中之一，每一記憶體控制單元522電連接該中央控制單元521，並各自電連接每一記憶體單元41，每一記憶體控制單元522於每次各自對每一記憶體單元41進行資料存取過程中，會檢查對應的記憶體單元41以偵測是否有錯誤事件發生，且該等記憶體控制單元522分別根據對應的該記憶體單元41發生的錯誤事件對應產生並傳送對應的錯誤通知信號(此錯誤通知信號可伴隨一中斷信號被一併傳送)至該中央控制單元521。

配合圖1並參閱圖2，該基板管理控制器6電連接該平台路徑控制器51，當該中央控制單元6接收該錯誤通知信號時，該中央控制單元6根據該錯誤通知信號判斷該錯誤事件的類型，並決定是否將該錯誤事件的錯誤事件資訊經由該平台路徑控制器51傳送至該基板管理控制器6供該基板管理控制器6登載儲存。

進一步說明，該中央控制單元521在決定是否將該錯誤事件傳送到該基板管理控制器6之前，會先選擇性地決定是否先記錄該錯誤事件的錯誤事件資訊，其實際做法如下述：當該等記憶體控制單元522其中之一偵測到錯誤事件發生時，會產生並傳送錯誤事件通知給中央控制單元521，以使該中央控制單元521決定是否在該等記憶體單元41的其中之一者對應的一紀錄區紀錄該錯誤事件的錯誤事件資訊以作為更新事件資訊，包括：中央控制單元本身的編號（實作上中央控制單元的數量可以為一個或多個）、所偵測到的錯誤事件對應的記憶體控制單元的編號、該揮發性記憶體模組4的通道編號，及該錯誤事件發生的時間點，至於決定是否記錄上述的錯誤事件資訊，是取決於該中央控制單元先判斷錯誤事件的種類，更具體的做法將詳細說明於後。

參閱圖3，該伺服器執行一種錯誤事件紀錄登載功能的控制方法，該錯誤事件紀錄登載功能的控制方法包含一設定事件記錄次數上限的步驟（G）、一觸發中斷機制的步驟（P）、一判斷錯誤次數的步驟（A）、一登載錯誤事件的步驟（B）、一判斷更新完成次數的步驟（C）、一登載暫停記錄的步驟（D）、一判斷錯誤事件發生時間的步驟（E），及一重置記錄次數的步驟（F）。

需先說明的是，該伺服器執行該錯誤紀錄登載功能的控制方法時，主要可分三大階段：

一、暫存錯誤：只要有發生錯誤事件，該系統模組5的中央控制單元521就先將錯誤事件的錯誤事件資訊暫存於該暫存器523。

二、錯誤由該中央控制單元521紀錄於紀錄區：該中央控制單元521在記錄暫存的錯誤事件資訊之前，須先決定是否記錄當下發生的錯誤事件之錯誤事件資訊以作為一更新事件資訊（由於該中央控制單元521僅會將對應發生次數不大於一預設次數的錯誤事件資訊記錄於記錄區，當對應的發生次數大於該預設次數的錯誤事件發生時，該中央控制單元521會判定不用紀錄）。

三、將紀錄區的錯誤事件登載到該基板管理控制器6：只要該中央控制單元521有更新紀錄區的更新事件資訊，就要連動的進行將更新事件資訊登載到該基板管理控制器6。

此外，在該中央處理器52每次將暫存器的錯誤事件資訊紀錄於紀錄區以作為更新事件資訊並累加記錄對應的發生次數，且於紀錄完成後，該中央處理器52可選擇性的再次以紀錄區更新後的該更新事件資訊對應的發生次數比對預設次數，當更新後的該更新事件資訊對應的發生次數等於預設次數時，則該中央處理器52傳送錯誤事件發生次數已滿通知至該基板管理控制器6以供其以日誌形式儲存。

以下接著說明該伺服器執行該錯誤事件紀錄登載功能的控制方法的詳細流程。

該設定事件記錄次數上限的步驟（G）為該中央控制單元521設定對應於每一記憶體單元41在各自發生該錯誤事件時，對應產生該錯誤通知信號所指示的該錯誤事件資訊發生的該預設次數，以作為根據該錯誤通知信號紀錄對應的該錯誤事件資訊的紀錄次數的次數限制，該預設次數也就是該中央控制單元521於每次記錄錯誤事件資訊於記錄區的過程中一併累加記錄對應的發生次數之次數上限。例如該預設次數為3次。

需再說明的是，該設定事件記錄次數上限的步驟（G）的另一種具體做法為該中央控制單元521直接根據基本輸入輸出系統程式的預設值，在執行基本輸入輸出系統程式時，載入預設值並將其儲存於該系統模組5的該等記憶體控制單元522的暫存器，在實做上，是由使用者由本地端（Local）直接透過輸入裝置並藉由基本輸入輸出系統的選單來修改，或是從遠端（Remote）透過網路連接到伺服器，並藉由控制該中央控制單元521來修改儲存於記憶體控制單元522的暫存器所儲存的設定。

該觸發中斷機制的步驟（P）為該揮發性記憶體模組4對應的其中一記憶體控制單元522偵測到一記憶體單元41的一錯誤事件，該記憶體控制單元522據以對應產生一錯誤通知信號，並以具有系統管理中斷（SMI: System Managment Interrupt）機制的方式來傳送所產生的該錯誤通知信號至該中央控制單元521。

該判斷錯誤次數的步驟（A）為當該錯誤事件屬於該可修正類型時，該中央控制單元521比對該錯誤通知信號所指示的當下的一錯誤事件所對應的發生次數是否不大於對應的該預設次數，例如該預設次數為3次。需再進一步說明的是，在將當下的該錯誤事件之錯誤事件資訊記錄於記錄區之前，先比對預設次數與先前已紀錄於記錄區的該更新事件資訊對應的發生次數，若先前已紀錄於記錄區的該更新事件資訊對應的發生次數小於該預設次數時，即使該中央處理器52將當下的該錯誤事件之錯誤事件資訊記錄到記錄區，以作為更新後的更新事件資訊，並累加記錄更新後的更新事件資訊對應的發生次數，也不會造成更新後的發生次數超過該預設次數，也就是說，若先前已紀錄於記錄區的該更新事件資訊對應的發生次數小於該預設次數時，即使該中央處理器52將當下的錯誤事件資訊記錄於紀錄區，仍符合該中央處理器52將對應發生次數小於等於該預設次數的當下的錯誤事件之錯誤事件資訊記錄於記錄區的原則，因此，該中央控制單元521可以藉由比對該更新事件資訊對應的發生次數是否小於該預設次數的方式來判定該錯誤通知信號所指示的當下的一錯誤事件所對應的發生次數是否大於對應的該預設次數，也就是說，在將當下的該錯誤事件之錯誤事件資訊記錄於記錄區之前，該中央控制單元521比對預設次數與先前已紀錄於記錄區的該更新事件資訊對應的發生次數，當該中央控制單元521判定該更新事件資訊對應的發生次數小於該預設次數，則表示當下發生的該錯誤事件所對應的發生次數不大於該預設次數，反之，當該中央控制單元521判定該更新事件資訊對應的發生次數不小於該預設次數，則等同於判定當下發生的該錯誤事件所對應的發生次數大於該預設次數，其中，該錯誤事件所對應的發生次數，指的是可修正類型的錯誤事件的發生次數，以下接著說明更詳細的做法。

參閱圖4，進一步地說明該判斷錯誤次數的步驟（A）的詳細做法，包括一判斷錯誤事件種類的子步驟（A0）、一暫存錯誤事件資訊的子步驟（A1），及一判斷錯誤次數的子步驟（A2）。

該判斷錯誤種類的子步驟（A0）為當該記憶體控制單元522偵測到該等記憶體單元41其中之一發生錯誤事件時，該記憶體控制單元522對應產生並傳送該錯誤通知信號至該中央控制單元521，該中央控制單元521判斷該錯誤通知信號所指的錯誤事件的類型是否屬於可修正類型。

需再進一步說明的是，該記憶體控制單元522據以對應產生一錯誤通知信號，並以觸發系統管理中斷（SMI: System Managment Interrupt）機制的方式來傳送所產生的該錯誤通知信號至該中央控制單元521，當該中央控制單元521是在執行該基本輸入輸出系統映像檔與該作業系統二者其中之一的執行狀態下接收到以具有系統管理中斷機制傳送的該錯誤通知信號時，則該中央控制單元521先中斷正在執行的執行狀態，並接著在執行該基本輸入輸出系統映像檔的環境中判斷該錯誤通知信號的種類並進行後續處理。此外，當判斷該錯誤為不可修正類型時，則中央控制單元521直接將該錯誤通知信號所指的該錯誤事件的錯誤事件資訊傳送至該基板管理控制器6以供登載日誌。

該暫存錯誤事件資訊的子步驟（A1）為若該判斷錯誤種類的子步驟（A0）的判斷結果為是，則該中央控制單元521將本次發生的關於該錯誤通知信號的該錯誤事件的錯誤事件資訊暫存於該中央處理器52的一暫存器（Register）523，以進行後續步驟。需再說明的是，暫存器523所儲存的錯誤事件資訊包括錯誤內容、發生時間…等，而錯誤事件資訊本身不包含對應的發生次數資訊。

該判斷錯誤次數的子步驟（A2）為在將本次發生的錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前，先判斷該紀錄區先前所記錄的更新事件資訊對應的發生次數是否小於該預設次數，若判斷結果為是，表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數，則該中央控制單元521將本次發生的該錯誤事件之錯誤事件資訊更新記錄於該記錄區，以作為更新的更新事件資訊，並以累加一的方式來累加記錄更新後的該更新事件資訊所對應的發生次數，（即把先前記錄的該更新事件資訊對應的發生次數累加1）並進入該登載錯誤事件的步驟（B），若判斷結果為否，亦即在將該錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前，該紀錄區先前所記錄的該更新事件資訊對應的發生次數大於等於該預設次數，例如：例如先前記錄的該更新事件資訊的發生次數為3次，等於該預設次數3次，也就是說本次發生且尚未被記錄於記錄區的該錯誤事件所對應的發生次數為大於等於3的數值，則進入該判斷錯誤發生時間的步驟（E）。

該登載錯誤事件的步驟（B）為該中央控制單元521將關於該記憶體單元41發生該錯誤事件的錯誤事件資訊的一更新事件資訊記錄至該基板管理控制器6以作為更新事件資訊的部份內容。該中央控制單元521將該次更新儲存於紀錄區的該更新事件資訊包括對應的該錯誤事件的錯誤內容、發生時間，及累加後的發生次數傳送至該基板管理控制器6以供其以日誌形式登載儲存。需再說明的是，該基板管理控制器6登載儲存日誌時是儲存在內部的記憶體或其外部與自身電性連接的外掛的記憶體。

該判斷更新完成次數的步驟（C）為該中央控制單元521判斷該紀錄區所更新的紀錄關於已更新的該更新事件資訊對應的發生次數是否已達該預設次數，若判斷結果為否，則回到該觸發中斷機制的步驟（P），舉例來說，該中央處理器52的該中央控制單元521更新儲存本次發生的該錯誤事件於該紀錄區以作為該更新事件資訊後，再判斷已被更新的該更新事件資訊對應的發生次數例如為2次（尚未更新記錄前發生次數為1次，連同本次更新記錄的該錯誤事件，則更新後的該更新事件資訊對應的發生次數為1+1次），即，記錄於該記錄區的該更新事件資訊對應的發生次數尚未達到該預設次數，則回到該觸發中斷機制的步驟（P）。

該登載暫停記錄的步驟（D）為若該判斷更新完成次數的步驟（C）的判斷結果為是（例如：該中央控制單元521判斷該紀錄區所紀錄關於包含本次發生的該錯誤事件的發生總次數為3次），則該中央控制單元521發送一錯誤事件發生次數已滿通知，使該基板管理控制器6登載一錯誤事件發生次數已達該預設次數之日誌，以指示出該錯誤事件的發生次數已達該預設次數限制，並暫停記錄/登載錯誤事件所對應的更新事件資訊，接著回該觸發中斷機制的步驟（P）。需再說明的是，該判斷更新完成次數的步驟（C）與該登載暫停記錄的步驟（D）主要讓使用者藉由遠端電腦或是本地端電腦與基板管理控制器6連線以讀取該基板管理控制器6登載的錯誤事件對應的更新事件資料時，可以確切的知道哪個時間點開始暫停紀錄/登載更新事件資訊。若不執行該判斷更新完成次數的步驟（C）與該登載暫停記錄的步驟（D），則是從該登載錯誤事件的步驟（B）結束後直接回到該觸發中斷機制的步驟（P）。

該判斷錯誤發生時間的步驟（E）為，該中央控制單元521更進一步地判斷儲存於該暫存器的該錯誤事件的發生時間與先前更新記錄於記錄區的該更新事件資訊所對應的發生時間兩者之時間差，並判斷該時間差是否超過一預設時間，若判斷結果為否，則回到該觸發中斷機制的步驟（P），例如：假設該預設時間為10分鐘，在將本次發生的該錯誤事件之錯誤事件資訊更新紀錄於該紀錄區之前，該記錄區所記錄的該更新事件資訊對應的錯誤事件的發生時間，也就是記錄於該記錄區且對應該發生次數等於該預設次數對應的該錯誤事件對應的發生時間，以此為一預設期間的起始時間，例如該起始時間為1點整，其中，該預設期間是由該起始時間起算經該預設時間後結束，而本次發生的該錯誤事件的時間為1點08分，表示本次發生的該錯誤事件的發生時間距該記錄區所記錄的該更新事件資訊對應的錯誤事件的發生時間的時間差小於該預設時間10分鐘，即，該錯誤事件發生在該預設期間內重複發生，接著回到該觸發中斷機制的步驟（P），藉此，該中央控制單元521於該預設期間內對應同一個記憶體單元522的該錯誤事件再發生時，暫時停止將關於該記憶體單元522發生該錯誤事件的錯誤事件資訊（錯誤內容、發生時間）重複的記錄至該紀錄區以及重複的登載至該基板管理控制器6，以使該中央控制單元521避免因多次重覆記錄同種類的該錯誤發生的相關資訊而造成其處理負擔，以至於影響處理效能，進而減少伺服器進入當機狀態的機會，並降低該基板管理控制器6儲存空間的浪費。

該重置記錄次數的步驟（F）為若該判斷錯誤發生時間的步驟（E）的判斷結果為是，則中央控制單元521將等記憶體單元41的該紀錄區作為更新事件紀錄所對應的發生次數重置為零，也就是歸零，並進入該判斷錯誤次數的子步驟（A2）再進入該登載錯誤事件的步驟（B）或是在完成步驟（F）後直接進入該登載錯誤事件的步驟（B），並接著執行後續步驟，例如：本次發生的該錯誤事件的發生時間為1點11分，表示一錯誤事件的發生時間距該起始時間的時間差大於該預設時間10分鐘，則該中央控制單元521將關於該錯誤事件的發生次數重置為零，進入該登載錯誤事件的步驟（B），並接著執行後續步驟。

綜上所述，上述實施例主要是藉由該中央控制單元經由該等記憶體控制單元設定相關於該等記憶體單元的錯誤事件記錄次數限制的預設次數，並在偵測到該等記憶體單元其中之一發生錯誤事件，且判斷其類型為可修正類型時，該中央控制單元暫存該錯誤事件資訊，接著該中央控制單元判斷該錯誤事件的發生次數是否尚未超過預設的紀錄次數限制，若未超過，該中央控制單元將該錯誤事件的相關資訊登載到該基板管理控制器，若該中央控制單元暫存的該錯誤事件的發生次數超過該預設次數，則該中央控制單元暫停傳送該錯誤事件作為更新事件資訊的錯誤事件資訊至該基板管理控制器作登載，以避免基板管理控制器重覆處理登載相同事件而造成運作負擔，此外，若該中央控制單元判斷該錯誤事件的發生次數已超過預設次數，則該中央控制單元更進一步的判斷該錯誤事件的該次發生時間與一預設期間之一起始時間的時間差是否已超過一預設時間，若是，則該中央控制單元該錯誤事件的錯誤事件資訊作為更新事件資訊傳送到該基板管理控制器以進行後續登載處理，以確保該錯誤事件在不浪費系統資源下可更有效率的被記錄，因而本發明有以下優點：一、當短時間由於錯誤事件發生大量的系統事件紀錄時，不會影響整體運作效能，二、基板管理控制器的儲存空間不會被大量重複的同一系統事件紀錄所占據，三、中央處理器不會因為錯誤事件而有中斷其在作業系統處理的執行緒之疑慮，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

2:非揮發性記憶體模組 3:硬碟模組 4:揮發性記憶體模組 41:記憶體單元 5:系統模組 51:平台路徑控制器 52:中央處理器 521:中央控制單元 522:記憶體控制單元 523:暫存器 6:基板管理控制器（G）:設定事件記錄次數上限的步驟（P）:觸發中斷機制的步驟（A）:判斷錯誤次數的步驟（A0）:判斷錯誤事件種類的子步驟（A1）:暫存錯誤事件資訊的子步驟（A2）:判斷錯誤次數的子步驟（B）:登載錯誤事件的步驟（C）:判斷更新完成次數的步驟（D）:登載暫停記錄的步驟（E）:判斷錯誤事件發生時間的步驟（F）:重置記錄次數的步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明本發明伺服器的一實施例；圖2是一方塊圖，輔助說明該實施例的一揮發性記憶體模組；圖3是一流程圖，說明該實施例執行的一錯誤事件紀錄登載功能的控制方法；及圖4是一流程圖，輔助說明該實施例執行的詳細步驟。

(G):設定事件記錄次數上限的步驟

(P):觸發中斷機制的步驟

(A):判斷錯誤次數的步驟

(A0):判斷錯誤事件種類的子步驟

(A1):暫存錯誤事件資訊的子步驟

(A2):判斷錯誤次數的子步驟

(B):登載錯誤事件的步驟

(C):判斷更新完成次數的步驟

(D):登載暫停記錄的步驟

(E):判斷錯誤事件發生時間的步驟

(F):重置記錄次數的步驟

Claims

一種錯誤事件紀錄登載功能的控制方法，由一伺服器執行，該伺服器包含一揮發性記憶體模組、一電連接該揮發性記憶體模組的系統模組，及一電連接該系統模組的基板管理控制器，該錯誤紀錄登載功能的控制方法包含：（P）當該系統模組偵測到該揮發性記憶體模組發生一錯誤事件時，該系統模組對應產生一錯誤通知信號，該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一；（A）當該錯誤事件屬於該可修正類型時，該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數，若判斷結果為是，則接著進行步驟（B），若判斷結果為否則接著進行步驟（E）；（B）該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器，並由該基板管理控制器進行登載；及（E）該系統模組更進一步的判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間，若否，則回到該步驟（P）。
如請求項1所述的錯誤事件紀錄登載功能的控制方法，其中，該步驟（A）包括以下子步驟：（A0）該系統模組根據該揮發性記憶體模組對應產生的該錯誤通知信號判斷該錯誤事件是否屬於該可修正類型，（A1）若該子步驟（A0）的判斷結果為是，則該系統模組暫存該揮發性記憶體模組發生的該錯誤事件資訊，及（A2）該系統模組判斷先前所記錄的更新事件資訊對應的發生次數是否小於該預設次數，若判斷結果為是，表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數，則記錄本次發生的該錯誤事件之錯誤事件資訊以更新該更新事件資訊。
如請求項2所述的錯誤事件紀錄登載功能的控制方法，在該步驟（B）之後，還包含一步驟（C）：該系統模組判斷記錄的該更新事件資訊對應的發生次數是否已達該預設次數，若否，則回到該步驟（P）。
如請求項3所述的錯誤事件紀錄登載功能的控制方法，在該步驟（C）之後，還包含一步驟（D）：若該步驟（C）的判斷結果為是，則該系統模組發送一錯誤事件發生次數已滿通知，使該基板管理控制器登載一錯誤事件發生次數已達該預設次數之日誌，以指示出該錯誤事件的發生次數已達該預設次數限制，並暫停登載錯誤事件所對應的更新事件資訊，接著回到該步驟（P）。
如請求項2所述的錯誤事件紀錄登載功能的控制方法，還包含一步驟（F）：若該步驟（E）的判斷結果是，則該系統模組將該更新事件資訊對應的發生次數歸零，並進到該步驟（A2）。
一種伺服器，包含：一揮發性記憶體模組，當發生一錯誤事件時，該錯誤事件的種類屬於一可修正類型與一不可修正類型二者其中之一；一系統模組，電連接該揮發性記憶體模組，並在偵測到該揮發性記憶體模組發生該錯誤事件時，對應產生一錯誤通知信號；及一基板管理控制器，電連接該系統模組，當該系統模組判斷該錯誤事件屬於該可修正類型，該系統模組判斷該錯誤通知信號所指示的一錯誤事件資訊對應的發生次數是否不大於對應的一預設次數，若是，則該系統模組將以該錯誤事件資訊更新的一更新事件資訊傳送到該基板管理控制器，並由該基板管理控制器進行登載，若否，則該系統模組更進一步判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距是否超過一預設時間，若是，則該系統模組將以該錯誤事件資訊更新的更新事件資訊傳送到該基板管理控制器。
如請求項6所述的伺服器，其中，該系統模組根據該揮發性記憶體模組對應產生的該錯誤通知信號判斷該錯誤事件是否屬於該可修正類型，若是，則該系統模組暫存該揮發性記憶體模組發生的該錯誤事件資訊，該系統模組接著判斷上次被傳送到該基板管理控制器的更新事件資訊對應的發生次數是否小於該預設次數，若判斷結果為是，表示該錯誤事件資訊對應的發生次數不大於對應的該預設次數，則記錄本次發生的該錯誤事件之錯誤事件資訊，以更新該更新事件資訊，並累加記錄該更新事件資訊對應的發生次數。
如請求項7所述的伺服器，其中，該系統模組判斷該更新事件資訊對應的次數是否已達該預設次數，若否，則該系統模組接著在偵測到該揮發性記憶體模組在該錯誤事件發生時，對應產生該錯誤通知信號。
如請求項8所述的伺服器，其中，若該系統模組判斷該基板管理控制器記錄的該錯誤事件資訊對應的次數已達該預設次數，則該系統模組發送一錯誤事件發生次數已滿通知，使該基板管理控制器登載一錯誤事件發生次數已達該預設次數之日誌，以指示出該錯誤事件的發生次數已達該預設次數限制，並暫停登載錯誤事件所對應的更新事件資訊，接著在偵測到該揮發性記憶體模組在該錯誤事件發生時，對應產生該錯誤通知信號。
如請求項6所述的伺服器，其中，若該系統模組判斷上次被傳送到該基板管理控制器的該更新事件資訊所對應的發生時間與該錯誤事件資訊對應的發生時間的時間間距超過該預設時間，則該系統模組將該更新事件資訊所對應的發生次數歸零，且該系統模組接著記錄本次發生的該錯誤事件之錯誤事件資訊以更新該更新事件資訊，並將以本次發生的該錯誤事件之錯誤事件資訊更新後的該更新事件資訊傳送到該基板管理控制器。