TWI823556B

TWI823556B - 記憶體異常檢測系統、主機板、電子裝置及異常檢測方法

Info

Publication number: TWI823556B
Application number: TW111134216A
Authority: TW
Inventors: 邱多; 劉君蘭
Original assignee: 新加坡商鴻運科股份有限公司
Priority date: 2022-08-31
Filing date: 2022-09-09
Publication date: 2023-11-21
Also published as: CN117667534A; US20240069786A1

Abstract

本發明提供一種記憶體異常檢測系統、主機板、電子裝置及異常檢測方法。其中，記憶體異常檢測系統包括處理器、控制模組、記憶體及監測模組，記憶體包括複數存儲單元。處理器藉由控制模組電連接至每一存儲單元。監測模組電連接至處理器、控制模組及存儲單元。監測模組用於監測每一存儲單元與控制模組，及控制模組與處理器之間產生之訊號之電平，且監測模組根據訊號之電平狀態確認是否發生異常。本申請提供之記憶體異常檢測系統，可快速確認發生異常之存儲單元，有效降低維修成本。

Description

記憶體異常檢測系統、主機板、電子裝置及異常檢測方法

本發明涉及檢測領域，尤其涉及一種記憶體異常檢測系統、主機板、電子裝置及異常檢測方法。

隨著大資料與雲計算之發展，企業、科研單位等組織對於存放裝置之容量需求越來越大。因此伺服器中記憶體之數量亦越來越多。然而，由於每一記憶體均連接至電腦主機板，如此，當記憶體出現故障時，較難快速定位到出現異常之具體某一記憶體上。

鑒於以上內容，本發明提供了一種快速確定異常之記憶體異常檢測系統、主機板、電子裝置及異常檢測方法。

本申請第一方面提供一種記憶體異常檢測系統，包括處理器、控制模組、記憶體及監測模組，記憶體包括複數存儲單元。處理器藉由控制模組電連接至每一存儲單元。監測模組電連接至處理器、控制模組及存儲單元。監測模組用於監測每一存儲單元與控制模組，及控制模組與處理器之間產生之訊號之電平，且監測模組根據訊號之電平狀態確認是否發生異常。

本申請第二方面提供一種主機板，包括如上任一項所述之記憶體異常檢測系統。

本申請第三方面提供一種電子裝置，包括如上任一項所述之記憶體異常檢測系統。

本申請第四方面提供一種異常檢測方法，應用於記憶體異常檢測系統，所述記憶體異常檢測系統包括處理器、監測模組及複數存儲單元。異常檢測方法包括如下步驟：獲取各存儲單元與監測模組，及監測模組與處理器之間產生之第一訊號、第二訊號、第三訊號及第四訊號；檢測第一訊號、第二訊號、第三訊號及第四訊號之電平狀態；根據檢測結果確認處理器或存儲單元是否發生異常。

與習知技術相比，上述記憶體異常檢測系統有利於快速確定記憶體異常，成本更低，操作方法更便捷。

100:記憶體異常檢測系統

10:處理器

20:控制模組

30:記憶體

31:存儲單元

40:監測模組

50:BMC

200:用戶端

300:電子裝置

圖1為本申請一實施例提供之記憶體異常檢測系統之結構框圖。

圖2為圖1所示記憶體異常檢測系統之訊號流程圖。

圖3為本申請一實施例提供之異常檢測方法之流程示意圖。

需要說明係，當一個元件被稱為“電連接”另一個元件，它可以直接於另一個元件上或者也可以存在居中之元件。當一個元件被認為係“電連接”另一個元件，它可為接觸連接，例如，可為導線連接之方式，也可為非接觸式連接，例如，可為非接觸式耦合之方式。

除非另有定義，本文所使用之所有之技術和科學術語與屬於本發明之技術領域之技術人員通常理解之含義相同。本文中於本發明之說明書中所使用之術語只為描述具體之實施例之目的，非旨在限制本發明。

下面結合附圖，對本發明之一些實施方式作詳細說明。於不衝突之情況下，下述之實施例及實施例中之特徵可相互組合。

隨著大資料與雲計算之發展，企業、科研單位等組織對於存放裝置之容量需求越來越大。因此伺服器中記憶體之數量亦越來越多。例如，隨著存儲技術之發展，習知之伺服器中可安裝64個雙列直插式存儲模組(Dual-Inline-Memory-Modules，DIMM)，且該DIMM可是符合DDR5電腦記憶體規格之記憶體。然而，由於每一記憶體均需連接至伺服器中之處理器，如此，當記憶體出現故障時，較難快速定位到出現異常之記憶體，需要花費大量人力與物力對記憶體進行檢測。

為解決上述之至少一問題，請參閱圖1，本申請實施例提供一種記憶體異常檢測系統100，運行於電子裝置300中。電子裝置300可包括，但不限於臺式電腦、筆記本電腦、平板電腦、個人數位助理(PDA)、智慧型電話、遊戲器具、伺服器電腦等。

於本申請實施例中，記憶體異常檢測系統100包括處理器10、控制模組20、記憶體30及監測模組40。其中，處理器10藉由控制模組20電連接至記憶體30。控制模組20用在於上電後進入相應之狀態，以與處理器10之工作狀態互相配合。處理器10藉由控制模組20與記憶體30互相確認工作狀態，進而調取記憶體30儲存之資料或控制記憶體30執行相應之操作。記憶體30包括複數存儲單元31。每一存儲單元31分別電連接至控制模組20。即於本申請實施例中，記憶體30中之複數存儲單元31並聯連接至控制模組20。處理器10藉由控制模組20電連接至每一存儲單元31。如此，處理器10可藉由控制模組20與任一存儲單元31進行工作狀態之確認。監測模組40電連接至處理器10、控制模組20及記憶體30中之每一存儲單元31，用於監測每一存儲單元31與控制模組20，及控制模組20與處理器10之間產生之訊號之電平狀態，且監測模組40根據訊號之電平狀態確認是否發生異常，並生成相應之監測日誌。

本申請提供之記憶體異常檢測系統100可集成於同一主機板(Motherboard，MB)上。當將設置有記憶體異常檢測系統100之主機板安裝於對應之電腦上時，可於控制對應之電腦實現相應之功能之同時，即時監測記憶體30。

可理解，處理器10為電子裝置300之運算與控制核心，用於解釋電腦指令以及處理電腦軟體中之資料。於本實施例中，處理器10可為中央處理器(Central Processing Unit，CPU)。

於本實施例中，控制模組20及監測模組40可集成於一複雜可程式設計邏輯器件(Complex Programmable Logic Device，CPLD)上。

可理解，記憶體30用於存放資料與程式。於本實施例中，記憶體30可是雙倍資料率同步動態隨機存取記憶體(Double Data Rate Synchronous Dynamic Random Access Memory，DDR)。示例記憶體30可是第五代雙倍資料率同步動態隨機存取記憶體DDR5。

於本申請實施例中，每一存儲單元31為一雙列直插式存儲模組(Dual-Inline-Memory-Modules，DIMM)。其中，電子裝置300上電後，控制模組20依次經歷第一狀態(例如ST_IDLE狀態)、第二狀態(例如ST_DDRIO狀態)、第三狀態(例如ST_LINK狀態)及第四狀態(例如ST_FAULT狀態)。於本申請實施例中，第一狀態為初始狀態，第二狀態為待啟動狀態，第三狀態為連接狀態。第四狀態為故障狀態。

請一併參閱圖2，電子裝置300上電後，且控制模組20進入第三狀態時，存儲單元31輸出第一訊號至控制模組20。控制模組20接收到第一訊號後，輸出第二訊號至處理器10。如此，當處理器10接收到第二訊號時，可確認存儲單元31已正常上電，可開始工作。

處理器10接收到第二訊號後，繼而輸出第三訊號至控制模組20。控制模組20接收到第三訊號後，繼而輸出第四訊號至存儲單元31。如此，存儲單元31接收到第四訊號時，確認處理器10正常工作。如此，處理器10可對記憶體30進行資料調取或寫入等操作。

於本申請實施例中，當電子裝置300處於運行過程，即電子裝置300之控制模組20進入第三狀態後，且監測模組40監測到第一訊號、第二訊號、第三訊號及第四訊號中之任一之電平狀態為第一電平(例如低電平)時，則說明出現異常。可理解，其中，當控制模組20進入第四狀態時，則說明記憶體30發生異常。然而，當控制模組20進入除第四狀態以外之狀態時，則需結合第一訊號、第二訊號、第三訊號及第四訊號之電平狀態及控制模組20所處之狀態來判斷異常發生原因。

例如，本申請實施例藉由以下複數場景說明於不同狀態下判斷故障之方法。

第一種場景：於電子裝置300運行過程中，當監測模組40監測到第一訊號為第一電平，且控制模組20處於第四狀態時，則判斷存儲單元31發生異常。

第二種場景：於電子裝置300運行過程中，當監測模組40監測到第一訊號為第一電平時，且控制模組20處於第一狀態或第二狀態時，則判斷控制模組20發生異常。

第三種場景：於電子裝置300運行過程中，當監測模組40監測到第一訊號為第二電平(例如高電平)，第二訊號為第一電平時，且控制模組20處於第三狀態，則判斷控制模組20出現異常。

第四種場景：於電子裝置300運行過程中，當監測模組40監測到第一訊號及第二訊號均為第二電平，第三訊號為第一電平時，且控制模組20處於第三狀態，則判斷處理器10出現異常；當控制模組20處於第三狀態，且監測模組40監測到第一訊號、第二訊號及第三訊號均為第二電平，且第四訊號為第一電平時，則判斷控制模組20出現異常。

可理解，於本申請實施例中，可藉由監測模組40監測對應之訊號(例如第一訊號、第二訊號、第三訊號及第四訊號)是否為第一電平，即確認對應之訊號是否產生下降沿，以及控制模組20所處之狀態從而確認對應之電子部件(例如處理器10，存儲單元31)或者是相關線路是否發生異常。

請再次參閱圖1，於一些實施例中，記憶體異常檢測系統100還包括基板管理控制器(Baseboard Management Controller，BMC)50。監測模組40上還設置有複數暫存器(圖未示)，以記錄對應之存儲單元31之第一訊號、第二訊號、第三訊號及第四訊號之電平狀態。於本申請實施例中，當監測模組40檢測到第一訊號、第二訊號、第三訊號或第四訊號中之任一訊號為第一電平時，監測模組40對相應之暫存器賦值。監測模組40上之複數暫存器藉由雙向二線制同步串列匯流排(Inter-Integrated Circuit，I2C)電連接至BMC50，以將複數暫存器上之值輸出至BMC50，以記錄第一訊號、第二訊號、第三訊號及第四訊號之電平狀態。如此，BMC50可生成相應之檢測日誌。

於本申請實施例中，BMC50還藉由USB介面電連接至使用者端200，例如另一台電腦。如此，技術人員可藉由使用者端200查看相關日誌，以確定電子裝置300工作過程中發生異常之部件。進一步地，當電子裝置300於工作過程中確認記憶體發生異常，技術人員可藉由使用者端200查看日誌，以確定對應之發生異常之存儲單元31，有效降低維修之人工成本及時間成本。

於本申請實施例中，每一存儲單元31還設置有對應之編號。且每一存儲單元31對應之暫存器輸出之資料包括所述編號。如此，監測模組40可藉由暫存器輸出包括對應存儲單元31之編號及對應訊號之電平狀態之資料，以協助確認電子裝置300中發生異常之存儲單元31，從而有效降低檢測維修時之時間成本及人工成本。

可理解，本申請不對監測模組40之具體類型進行限制，例如於其他實施例中，監測模組40還可為現場可程式閘陣列(Field Programmable Gate Array，FPGA)、單片機或其他可程式控制器。

可理解，本申請提供之記憶體異常檢測系統100，藉由設置監測模組40，以記錄電子裝置300工作過程中產生之第一訊號、第二訊號、第三訊號及第四訊號之電平狀態，從而藉由分析電平狀態，確認於電子裝置300工作過程中發生異常之部件。本申請提供之記憶體異常檢測系統100操作便捷，可有效降低維修成本。

請繼續參閱圖3，本申請一實施例還提供一種異常檢測方法，應用於圖1所示之記憶體異常檢測系統100，以檢測電子裝置300中之記憶體是否發生異常狀況。其中，記憶體異常檢測系統包括依次電連接之處理器10、監測模組40及複數存儲單元31。異常檢測方法包括如下步驟：

步驟S1：獲取電子裝置300工作過程中各存儲單元31與控制模組20，及控制模組20與處理器10之間產生之第一訊號、第二訊號、第三訊號及第四訊號。

可理解，第一訊號、第二訊號、第三訊號及第四訊號之間之具體流向，請參閱上述有關內容，於此不再贅述。

步驟S2：檢測第一訊號、第二訊號、第三訊號及第四訊號之電平狀態。

步驟S3：根據上述各訊號之電平狀態確認是否發生異常。

可理解，於步驟S3中，電平狀態包括第一電平及第二電平。於本申請實施例中，第一電平指低電平，第二電平指高電平。

其中，於電子裝置300運行過程中，當監測模組40監測到第一訊號為第一電平，且控制模組20處於第四狀態時，則可判斷存儲單元31發生異常。

於電子裝置300運行過程中，當監測模組40監測到第一訊號為第一電平時，且控制模組20處於第一狀態或第二狀態時，則可判斷控制模組20發生異常。

於電子裝置300運行過程中，當監測模組40監測到第一訊號為第二電平，第二訊號為第一電平時，且控制模組20處於第三狀態，可判斷控制模組20出現異常。

於電子裝置300運行過程中，當監測模組40監測到第一訊號及第二訊號均為第二電平，第三訊號為第一電平時，且控制模組20處於第三狀態，可判斷處理器10出現異常；當控制模組20處於第三狀態，且監測模組40監測到第一訊號、第二訊號及第三訊號均為第二電平，且第四訊號為第一電平時，可判斷控制模組20出現異常。

可理解，上述實施例中所包含之各個模組可集成設置於一計算器設備或工具中，亦可設置成單獨之功能實體，與所述計算器設備或工具連接以向所述計算器設備或工具提供各個模組之功能。

最後應說明，以上實施例僅用以說明本發明之技術方案而非限制。本領域具有通常技藝者應當理解，可以對本發明之技術方案進行修改或等同替換，而不脫離本發明技術方案之精神和範圍。基於本發明中之實施例，本領域具有通常技藝者於沒有做出創造性勞動前提下所獲得之所有其他實施例，都將屬於本發明保護之範圍。