TW201337547A - 伺服器監控系統 - Google Patents

伺服器監控系統 Download PDF

Info

Publication number
TW201337547A
TW201337547A TW101108076A TW101108076A TW201337547A TW 201337547 A TW201337547 A TW 201337547A TW 101108076 A TW101108076 A TW 101108076A TW 101108076 A TW101108076 A TW 101108076A TW 201337547 A TW201337547 A TW 201337547A
Authority
TW
Taiwan
Prior art keywords
server
servers
monitoring system
management controller
watchdog timer
Prior art date
Application number
TW101108076A
Other languages
English (en)
Inventor
Zheng-Xin Gao
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201337547A publication Critical patent/TW201337547A/zh

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一種伺服器監控系統,包括複數個看門狗計時器、複數個地址解碼器、存儲單元及顯示單元,當一個或複數個伺服器發生當機時,與發生當機之伺服器對應之看門狗計時器輸出一溢出訊號至對應之地址解碼器,所述地址解碼器將所述溢出訊號轉換為與發生當機之伺服器對應之地址,並改變發生當機之伺服器之基板管理控制器狀態,該等未發生當機之伺服器之基板管理控制器再週期性地讀取該存儲單元內存儲之所有資料,以確定每一伺服器之基板管理控制器狀態,進而將正常工作之伺服器及發生當機之伺服器進行區分,並傳送至顯示單元進行顯示。

Description

伺服器監控系統
本發明涉及伺服器系統,尤其涉及一種伺服器監控系統。
伺服器內一般設置有基板管理控制器(baseboard management controller,BMC),用於監控整個伺服器系統之硬體健康狀況。然而,於BMC發生當機(crash)時,若伺服器內之其他硬體同時亦發生故障,則BMC無法及時記錄並回饋該伺服器內各硬體之運作狀況。如此,將會導致大量資料丟失,並對伺服器系統之維護造成很大不便。
有鑒於此,有必要提供一種可有效防止資料丟失且方便用戶維護之伺服器監控系統。
一種伺服器監控系統,用以監控複數個含有基板管理控制器之伺服器是否發生當機;該伺服器監控系統包括與所述複數個伺服器一一對應之複數個看門狗計時器、與所述複數個伺服器一一對應之地址解碼器、存儲單元及顯示單元,每一基板管理控制器分別連接至相應之地址解碼器,所述地址解碼器均連接至存儲單元,所述每一看門狗計時器之輸出端分別連接至相應之地址解碼器,當所述複數個伺服器正常工作時,所述基板管理控制器分別發送一寫本伺服器訊號至對應之地址解碼器,所述地址解碼器接收該寫本伺服器訊號,並將所述寫本伺服器訊號轉換為該存儲單元內相應之地址,使得所述複數個伺服器分別藉由相應之地址解碼器將所述伺服器之編號及相應之基板管理控制器狀態寫入至對應之地址;當一個或複數個伺服器發生當機時,與發生當機之伺服器對應之看門狗計時器輸出一溢出訊號至對應之地址解碼器,所述地址解碼器將所述溢出訊號轉換為與發生當機之伺服器對應之地址,並改變發生當機之伺服器之基板管理控制器狀態,該等未發生當機之伺服器之基板管理控制器再週期性地讀取該存儲單元內存儲之所有資料,以確定每一伺服器之基板管理控制器狀態,進而將正常工作之伺服器及發生當機之伺服器進行區分,並傳送至顯示單元進行顯示。
上述伺服器監控系統藉由將該等伺服器之基板管理控制器狀態及時輸出至顯示單元以供用戶參考,進而供用戶監控該等伺服器是否發生當機,以便於用戶及時對出現當機之伺服器進行維修,並防止資料丟失。
請參閱圖1,本發明較佳實施方式提供一種伺服器監控系統100,用以監控複數個伺服器S1-Sn是否發生當機(crash)。每一伺服器S1-Sn內分別設置有相應之基板管理控制器(baseboard management controller,BMC)及電源供應單元(power supply unit,PSU)。該伺服器監控系統100包括複數個及閘A1-An、複數個看門狗計時器(Watchdog timer)W1-Wn、複數個地址解碼器Y1-Yn、存儲單元10及顯示單元30。
每一伺服器S1-Sn之BMC均藉由I2C匯流排連接至對應之地址解碼器Y1-Yn。該地址解碼器Y1-Yn均連接至該存儲單元10。例如,伺服器S1之BMC藉由I2C匯流排連接至對應之地址解碼器Y1,並藉由該地址解碼器Y1連接至該記憶體10。每一伺服器S1-Sn之BMC還連接至相應之及閘A1-An之第一輸入端。該及閘A1-An之第二輸入端連接至對應之PSU。該及閘A1-An之輸出端分別連接至相應之看門狗計時器W1-Wn之復位端Reset。該看門狗計時器W1-Wn之啟動控制端Ctrl連接至對應之PSU。該看門狗計時器W1-Wn之輸出端Output 連接至對應之地址解碼器Y1-Yn。例如,該伺服器S1之BMC連接至及閘A1之第一輸入端。該及閘A1之第二輸入端連接至該伺服器S1之PSU。該及閘A1之輸出端連接至看門狗計時器W1之復位端Reset。該看門狗計時器W1之啟動控制端Ctrl連接至伺服器S1之PSU。該看門狗計時器W1之輸出端Output連接至對應之地址解碼器Y1。
該看門狗計時器W1-Wn之工作原理均相同,因此,於本實施例中,以該看門狗計時器W1之工作原理為例加以說明。具體地,當伺服器S1正常上電時,所述伺服器S1之PSU輸出一高電平。此時,該看門狗計時器W1之啟動控制端Ctrl因連接至該伺服器S1之PSU而獲得一高電平,該看門狗計時器W1開始計時,同時該伺服器S1之BMC開始初始化。當所述伺服器S1之BMC初始化完成後,該伺服器S1之BMC將輸出一重定訊號至相應之及閘A1之第一輸入端,而所述及閘A1之第二輸入端接收來自伺服器S1之PSU之高電平訊號。因此,該及閘A1之輸出端輸出所述重定訊號至該看門狗計時器W1之復位端Reset,以刷新該看門狗計時器 W1。
而當所述伺服器S1發生當機時,所述伺服器S1之BMC將無法輸出相應之重定訊號至該及閘A1之第一輸入端。該伺服器S1之PSU保持輸出一高電平至該及閘A1之第二輸入端。因此,所述及閘A1之輸出端輸出一低電平訊號至該看門狗計時器W1之復位端Reset。由於該伺服器S1之BMC未於該看門狗計時器W1之計時週期內發出重定訊號至該看門狗計時器W1之復位端Reset,即未於計時週期內刷新該看門狗計時器W1,進而導致該看門狗計時器W1溢出,並藉由該看門狗計時器W1之輸出端Output輸出相應之溢出訊號至該地址解碼器Y1。於本實施例中,該看門狗計時器 W1-Wn之計時週期為該伺服器S1-Sn之BMC之初始化時間之2倍。該看門狗計時器 W1-Wn之計時週期為伺服器S1-Sn之BMC發出重定訊號之時間週期之4倍。
該地址解碼器Y1-Yn用以當所述伺服器S1-Sn之BMC初始化完成後,接收來自相應之BMC發出之一寫本伺服器訊號,並將所述寫本伺服器訊號轉換為該存儲單元10內相應之地址。如此,該伺服器S1-Sn之BMC可藉由相應之地址解碼器Y1-Yn將所述伺服器S1-Sn之編號,相應之伺服器S1-Sn之BMC狀態(例如0代表伺服器之BMC工作正常,1代表伺服器之BMC發生當機)等伺服器資訊寫入至該存儲單元10內相應之地址解碼器Y1-Yn轉換後之地址。例如,當所述伺服器S1、S2之BMC分別發出一寫本伺服器訊號時,所述地址解碼器Y1、Y2分別將上述寫本伺服器訊號轉換為該存儲單元11內之相應之地址1、地址2。如此,該伺服器S1、S2之BMC可分別藉由地址解碼器Y1、Y2將所述伺服器S1、S2之編號,伺服器S1、S2之BMC狀態等伺服器資訊分別寫入至存儲單元11內之地址1、地址2。於本實施例中,每一地址解碼器Y1-Yn轉換出來之存儲單元10之地址互不重複且與該伺服器S1-Sn一一對應。
該地址解碼器Y1-Yn還用以當其中一個或複數個伺服器S1-Sn發生當機,以使得相應之看門狗計時器W1-Wn產生溢出訊號時,接收相應之溢出訊號,並將相應之溢出訊號轉換為與存放該伺服器S1-Sn資訊相同之地址,並更改出現當機之伺服器對應之BMC狀態,例如將出現當機之伺服器對應之BMC狀態設置為1,以表明該伺服器所對應之BMC發生當機。
該存儲單元10為一非易失性隨機訪問記憶體(non-volatile random access memory,NVRAM),其內存儲有各伺服器S1-Sn之編號、伺服器S1-Sn對應之BMC狀態等資訊。例如,所述存儲單元10內之地址1用以存儲伺服器S1之編號、伺服器S1之BMC狀態等資訊。所述存儲單元11內之地址n用以存儲伺服器Sn之編號、伺服器Sn之BMC狀態等資訊。
每一伺服器之BMC內均設置有固件(firm ware,FW)。該FW用以定義該伺服器S1-Sn之BMC對該BMC狀態之採樣時間。因此,未發生當機之伺服器之BMC便可根據該採樣時間週期性地向相應之地址解碼器Y1-Yn發出讀取該存儲單元10內存儲之資料之請求。該地址解碼器Y1-Yn接收到該請求後,將對該請求進行轉換,使得該等未發生當機之伺服器之BMC藉由對應之地址解碼器獲取存儲單元10內存儲之所有資料,並利用該FW內之感測器資料記錄(sensor data record,SDR)將所讀取之資料定義為threshold型之虛擬感測器之讀數。接著,該FW再對該虛擬感測器之讀數進行解碼,以確定每一伺服器S1-Sn之BMC狀態,進而將正常工作之伺服器與發生當機之伺服器進行區分,並藉由智慧型平臺管理介面工具(intelligent platform management interface tool,IPMI Tool)傳送至顯示單元30進行顯示,以提示用戶。例如,當該虛擬感測器之讀數對應該伺服器S1、S2、S3之BMC狀態為0,剩下之伺服器S4-Sn之BMC狀態為1時,則用戶可藉由顯示單元30確定該等伺服器S1-Sn中僅伺服器S1、S2、S3正常工作,其他伺服器均發生當機。
顯然,上述伺服器監控系統100可將該等伺服器S1-Sn之BMC狀態及時輸出至顯示單元30以供用戶參考,進而供用戶監控該等伺服器S1-Sn是否發生當機,以便於用戶及時對出現當機之伺服器進行維修,並防止資料丟失。
綜上所述,本發明符合發明專利要件,爰依法提出專利申請。惟,以上所述者僅為本發明之較佳實施方式,舉凡熟悉本案技藝之人士,於爰依本發明精神所作之等效修飾或變化,皆應涵蓋於以下之申請專利範圍內。
100...伺服器監控系統
S1-Sn...伺服器
BMC...基板管理控制器
PSU...電源供應單元
W1-Wn...看門狗計時器
A1-An...及閘
Y1-Yn...地址解碼器
10...存儲單元
30...顯示單元
Ctrl...啟動控制端
Reset...復位端
Output...輸出端
FW...固件
SDR...感測器資料記錄
圖1為本發明較佳實施方式之伺服器監控系統之電路圖。
100...伺服器監控系統
S1-Sn...伺服器
BMC...基板管理控制器
PSU...電源供應單元
W1-Wn...看門狗計時器
A1-An...及閘
Y1-Yn...地址解碼器
10...存儲單元
30...顯示單元
Ctrl...啟動控制端
Reset...復位端
Output...輸出端
FW...固件
SDR...感測器資料記錄

Claims (10)

  1. 一種伺服器監控系統,用以監控複數個含有基板管理控制器之伺服器是否發生當機;其改良在於︰該伺服器監控系統包括與所述複數個伺服器一一對應之複數個看門狗計時器、與所述複數個伺服器一一對應之地址解碼器、存儲單元及顯示單元,每一基板管理控制器分別連接至相應之地址解碼器,所述地址解碼器均連接至存儲單元,所述每一看門狗計時器之輸出端分別連接至相應之地址解碼器,當所述複數個伺服器正常工作時,所述基板管理控制器分別發送一寫本伺服器訊號至對應之地址解碼器,所述地址解碼器接收該寫本伺服器訊號,並將所述寫本伺服器訊號轉換為該存儲單元內相應之地址,使得所述複數個伺服器分別藉由相應之地址解碼器將所述伺服器之編號及相應之基板管理控制器狀態寫入至對應之地址;當一個或複數個伺服器發生當機時,與發生當機之伺服器對應之看門狗計時器輸出一溢出訊號至對應之地址解碼器,所述地址解碼器將所述溢出訊號轉換為與發生當機之伺服器對應之地址,並改變發生當機之伺服器之基板管理控制器狀態,該等未發生當機之伺服器之基板管理控制器再週期性地讀取該存儲單元內存儲之所有資料,以確定每一伺服器之基板管理控制器狀態,進而將正常工作之伺服器及發生當機之伺服器進行區分,並傳送至顯示單元進行顯示。
  2. 如申請專利範圍第1項所述之伺服器監控系統,其中所述複數個伺服器均包括電源供電單元,每一看門狗計時器之啟動控制端分別連接至對應之電源供應單元,當所述伺服器正常上電時,所述伺服器之電源供應單元輸出一高電平,該看門狗計時器之啟動控制端獲得所述高電平並開始計時。
  3. 如申請專利範圍第2項所述之伺服器監控系統,其中所述複數個伺服器之基板管理控制器分別連接至對應之看門狗計時器之復位端,用以當所述複數個伺服器未發生當機且初始化完成後,輸出一重定訊號至相應之看門狗計時器,以刷新該看門狗計時器。
  4. 如申請專利範圍第3項所述之伺服器監控系統,其中該看門狗計時器之計時週期為該伺服器之基板管理控制器之初始化時間之2倍。
  5. 如申請專利範圍第3項所述之伺服器監控系統,其中該看門狗計時器之計時週期為伺服器之基板管理控制器發出重定訊號之時間週期之4倍。
  6. 如申請專利範圍第3項所述之伺服器監控系統,其中當其中一個或複數個伺服器發生當機時,與所述發生當機之伺服器對應之基板管理控制器不產生所述重定訊號,使得相應之看門狗計時器溢出,並輸出所述溢出訊號。
  7. 如申請專利範圍第3項所述之伺服器監控系統,其中該伺服器監控系統還包括與所述複數個伺服器一一對應之複數個及閘,所述複數個及閘之第一輸入端分別連接至相應之基板管理控制器,用以接收所述重定訊號,所述複數個及閘之第二輸入端分別連接至對應之電源供應單元,所述複數個及閘之輸出端分別連接至與其相應之看門狗計時器之復位端。
  8. 如申請專利範圍第1項所述之伺服器監控系統,其中每一地址解碼器轉換出來之存儲單元之地址互不重複且與該複數個伺服器一一對應。
  9. 如申請專利範圍第1項所述之伺服器監控系統,其中所述複數個伺服器之基板管理控制器均設置有固件,該固件用以定義該伺服器之基板管理控制器對該基板管理控制器狀態之採樣時間,當未發生當機之伺服器之基板管理控制器根據該採樣時間週期性地向相應之地址解碼器發出讀取該存儲單元內存儲之資料之請求時,該相應之地址解碼器接收到該請求,並對該請求進行轉換,使得該未發生當機之伺服器之基板管理控制器藉由對應之地址解碼器獲取存儲單元內存儲之所有資料。
  10. 如申請專利範圍第9項所述之伺服器監控系統,其中該等未發生當機之伺服器之基板管理控制器還利用該固件內之感測器資料記錄將所讀取之資料定義為虛擬感測器之讀數,再對該虛擬感測器之讀數進行解碼,以確定每一伺服器之基板管理控制器之狀態,進而將正常工作之伺服器與發生當機之伺服器進行區分,並藉由智慧型平臺管理介面工具傳送至所述顯示單元。
TW101108076A 2012-03-02 2012-03-09 伺服器監控系統 TW201337547A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210052216.3A CN103294585B (zh) 2012-03-02 2012-03-02 服务器监控系统

Publications (1)

Publication Number Publication Date
TW201337547A true TW201337547A (zh) 2013-09-16

Family

ID=49095505

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101108076A TW201337547A (zh) 2012-03-02 2012-03-09 伺服器監控系統

Country Status (2)

Country Link
CN (1) CN103294585B (zh)
TW (1) TW201337547A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739794B (zh) * 2017-01-23 2021-09-21 香港商阿里巴巴集團服務有限公司 資料的監控方法及裝置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354103A (zh) * 2014-12-19 2016-02-24 汉柏科技有限公司 一种用户态下管理watchdog的方法
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149604A (ja) * 1992-11-11 1994-05-31 Nissan Motor Co Ltd 多重化システム
CN101686154A (zh) * 2008-09-22 2010-03-31 联想(北京)有限公司 服务器以及处理服务器信息的方法
US20100306357A1 (en) * 2009-05-27 2010-12-02 Aten International Co., Ltd. Server, computer system, and method for monitoring computer system
CN102053902A (zh) * 2009-11-10 2011-05-11 英业达股份有限公司 操作系统的监控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739794B (zh) * 2017-01-23 2021-09-21 香港商阿里巴巴集團服務有限公司 資料的監控方法及裝置

Also Published As

Publication number Publication date
CN103294585A (zh) 2013-09-11
CN103294585B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
US7913147B2 (en) Method and apparatus for scrubbing memory
TWI658464B (zh) 記憶體裝置以及記憶體模組
TWI567559B (zh) 斷電保護系統及其方法
US10002044B2 (en) Memory devices and modules
US10346345B2 (en) Core mapping
EP3803663B1 (en) Watchdog timer hierarchy
US20160055058A1 (en) Memory system architecture
US20140068350A1 (en) Self-checking system and method using same
TW201603040A (zh) 以記憶體控制器來處理資料錯誤事件之方法、設備及系統
TW201342040A (zh) 用於微處理器與系統的錯誤框架
CN105373345B (zh) 存储器设备和模块
JP2011070655A (ja) 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
TW201828071A (zh) 開關裝置及偵測積體電路匯流排之方法
TW201514708A (zh) I 2 c匯流排監控裝置
US9626241B2 (en) Watchdogable register-based I/O
TWI447670B (zh) 具有高速傳輸功能之基板管理控制器及其傳輸方法
JP2015049907A (ja) メモリをホットスワップできるマザーボード
TW201337547A (zh) 伺服器監控系統
US11275660B2 (en) Memory mirroring in an information handling system
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
JP2018128845A (ja) マルチプロセッサシステム
JP4299634B2 (ja) 情報処理装置及び情報処理装置の時計異常検出プログラム
CN202205245U (zh) 用于行车记录的看门狗电路
US20220138049A1 (en) Memory module and operating method
CN116860327A (zh) 传感器数据的获取方法及装置、存储介质及电子装置