TW201405303A - 底板管理控制器監控系統及方法 - Google Patents

底板管理控制器監控系統及方法 Download PDF

Info

Publication number
TW201405303A
TW201405303A TW101127528A TW101127528A TW201405303A TW 201405303 A TW201405303 A TW 201405303A TW 101127528 A TW101127528 A TW 101127528A TW 101127528 A TW101127528 A TW 101127528A TW 201405303 A TW201405303 A TW 201405303A
Authority
TW
Taiwan
Prior art keywords
management controller
module
monitoring
server
baseboard management
Prior art date
Application number
TW101127528A
Other languages
English (en)
Inventor
Yu-Chen Huang
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW101127528A priority Critical patent/TW201405303A/zh
Priority to US13/941,570 priority patent/US20140032978A1/en
Publication of TW201405303A publication Critical patent/TW201405303A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0763Error or fault detection not based on redundancy by bit configuration check, e.g. of formats or tags

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種底板管理控制器監控系統,該系統包括:發送模組,用於當伺服器上電之後,控制即時時鐘晶片按照用戶設定的時間間隔發送時鐘訊號給平台控制器中樞;觸發模組,用於於平台控制器中樞接收所述時鐘訊號後,觸發系統管理中斷;執行模組,用於執行監控命令,以獲取底板管理控制器的狀態值;重置模組,用於若獲取的底板管理控制器的狀態值不是正常狀態值,重新啟動伺服器;及記錄模組,用於記錄底板管理控制器出現異常的情況,並發出警報資訊給系統管理者。

Description

底板管理控制器監控系統及方法
本發明涉及一種監控系統及方法,尤其涉及一種底板管理控制器監控系統及方法。
基於伺服器對於遠端控制及系統穩定性的要求,通常均會於伺服器上建立一個底板管理控制器,以提高系統高度穩定性及實現遠端控制。然而,習知的系統架構中並沒有提供對底板管理控制器的監控機制,以致於當底板管理控制器失效無法發生作用時,系統管理者亦無法得知底板管理控制器已經失去作用。然而,失去了底板管理控制器的監控功能,作業系統將會處於不穩定的狀態,使得伺服器無法穩定的運行,甚至會造成硬體不可恢復的損壞。
鑒於以上內容,有必要提供一種底板管理控制器監控系統及方法,實現底板管理控制器的即時監控。
一種底板管理控制器監控系統,該系統包括:發送模組,用於當伺服器上電之後,控制即時時鐘晶片按照用戶設定的時間間隔發送時鐘訊號給平台控制器中樞;觸發模組,用於於平台控制器中樞接收所述時鐘訊號後,觸發系統管理中斷;執行模組,用於執行監控命令,以獲取底板管理控制器的狀態值;重置模組,用於若獲取的底板管理控制器的狀態值不是正常狀態值,重新啟動伺服器;及記錄模組,用於記錄底板管理控制器出現異常的情況,並發出警報資訊給系統管理者。
一種底板管理控制器監控方法,該方法包括:發送步驟,當伺服器上電之後,控制即時時鐘晶片按照用戶設定的時間間隔發送時鐘訊號給平台控制器中樞;觸發步驟,於平台控制器中樞接收所述時鐘訊號後,觸發系統管理中斷;執行步驟,執行監控命令,以獲取底板管理控制器的狀態值;重置步驟,若獲取的底板管理控制器的狀態值不是正常狀態值,重新啟動伺服器;及記錄步驟,記錄底板管理控制器出現異常的情況,並發出警報資訊給系統管理者。
相較於習知技術,所述底板管理控制器監控系統及方法,於伺服器上電之後即可對底板管理控制器進行即時監控,同時可以對作業系統進行監控,使得伺服器可以穩定運行。
如圖1所示,是本發明底板管理控制器監控系統較佳實施例的運行環境圖。該底板管理控制器監控系統10運行於伺服器1中,該伺服器1包括系統管理記憶體(system management RAM, SMRAM)11(以下簡稱SMRAM 11)、即時時鐘晶片(real time clock,RTC)12(以下簡稱為RTC 12)、平台控制器中樞(platform controller hub,PCH)13(以下簡稱為PCH 13)及底板管理控制器(baseboard management controller,BMC)14(以下簡稱為BMC 14)。所述SMRAM 11儲存了監控命令,該監控命令用於根據RTC 12的時鐘訊號定時獲取BMC 14的狀態值,所述底板管理控制器監控系統10根據該獲取的狀態值判斷伺服器1的作業系統是否正常,以及判斷BMC 14的狀態是否正常。
如圖2所示,是圖1中底板管理控制器監控系統10的功能模組圖。所述底板管理控制器監控系統10包括:發送模組100、觸發模組101、設置模組102、執行模組103、第一判斷模組104、第二判斷模組105、重置模組106及記錄模組107。所述模組是具有特定功能的軟體程式段,該軟體儲存於電腦可讀儲存介質或其他儲存設備,可被電腦或其他包含處理器的計算裝置執行,從而完成本發明中BMC 14的監控作業流程。
發送模組100用於當伺服器1上電之後,控制RTC 12按照用戶設定的時間間隔發送時鐘訊號給PCH 13。本實施例中,該用戶設定的時間間隔可以為1分鐘。
觸發模組101用於於PCH 13接收所述時鐘訊號之後,立刻觸發系統管理中斷(system management interrupt,SMI)。本實施例中,所述觸發模組101藉由改變PCH 13的SMI插腳的狀態來觸發系統管理中斷。
設置模組102用於於系統管理中斷被觸發之後,將伺服器1的作業系統模式設置為系統管理模式(system management mode,SMM)。
執行模組103用於執行SMRAM 11中的監控命令,以獲取BMC 14的狀態值。具體而言,該監控命令被執行時,發送獲取命令給BMC 14,並獲取BMC 14回饋的狀態值。
第一判斷模組104用於判斷SMRAM 11是否接收到BMC 14回饋的狀態值。若沒有收到BMC 14回饋的狀態值,則該第一判斷模組104判定所述伺服器1的作業系統異常。
若SMRAM 11接收到BMC 14回饋的狀態值,則第二判斷模組105用於判斷該接收到的狀態值是否為正常狀態值。例如:若BMC 14正常狀態值為0,所述第二判斷模組105查看該接收到的狀態值是否為0,若為0,則表示該BMC 14正常,接收到的狀態值為正常狀態值,並結束流程。
若接收到的BMC 14的狀態值不是正常狀態值,則重置模組106用於重新啟動伺服器1,使得BMC 14恢復到正常狀態。
記錄模組107用於記錄BMC 14出現異常的情況,並發出警報資訊給系統管理者。若BMC 14出現異常,記錄的異常的情況包括BMC 14回饋的狀態值和回饋的時間等資訊。系統管理者可根據BMC 14回饋的狀態值判斷BMC 14出現異常的原因並給予解決該異常。若作業系統出現異常,記錄模組107記錄作業系統出現異常的時間等資訊。
如圖3所示,是本發明底板管理控制器監控方法較佳實施例的作業流程圖。
步驟S30,於伺服器1上電之後,發送模組100控制RTC 12按照用戶設定的時間間隔發送時鐘訊號給PCH 13。
步驟S31,觸發模組101於PCH 13接收到所述時鐘訊號之後,立刻觸發SMI中斷。本實施例中,所述觸發模組101藉由改變PCH 13的SMI插腳的狀態來觸發系統管理中斷。
步驟S32,設置模組102將伺服器1的作業系統模式設置為系統管理模式(system management mode,SMM)。
步驟S33,執行模組103執行SMRAM 11中的監控命令,以獲取BMC 14的狀態值。具體而言,該監控命令被執行時,發送獲取命令給BMC 14,並獲取BMC 14回饋的狀態值。
步驟S34,第一判斷模組104判斷SMRAM 11是否接收到BMC 14回饋的狀態值。若SMRAM 11沒有接收到BMC 14回饋的狀態值,則執行步驟S35。若SMRAM 11接收到BMC 14回饋的狀態值,則執行步驟S36。
步驟S35,該第一判斷模組104判定所述伺服器1的作業系統異常,並直接執行步驟S38。
步驟S36,第二判斷模組105判斷該接收到的狀態值是否為正常狀態值。若接收到的狀態值為正常狀態值,則結束流程。若接收到的狀態值為不正常狀態值,則執行步驟S37。
步驟S37,重置模組106重新啟動伺服器1,使得BMC 14恢復到正常狀態。
步驟S38,記錄模組107記錄BMC 14或作業系統出現異常的情況,並發出警報資訊給系統管理者。若BMC 14出現異常,該記錄的異常的情況包括BMC 14回饋的狀態值和回饋的時間等資訊。系統管理者可根據BMC 14回饋的狀態值判斷BMC 14出現異常的原因並給予解決該異常的方法。若作業系統出現異常,記錄模組107記錄作業系統出現異常的時間等資訊。
最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照以上較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
1...伺服器
10...底板管理控制器監控系統
11...系統管理記憶體
12...即時時鐘晶片
13...平台控制器中樞
14...底板管理控制器
100...發送模組
101...觸發模組
102...設置模組
103...執行模組
104...第一判斷模組
105...第二判斷模組
106...重置模組
107...記錄模組
圖1是本發明底板管理控制器監控系統較佳實施例的運行環境圖。
圖2是圖1中底板管理控制器監控系統10的功能模組圖。
圖3是本發明底板管理控制器監控方法較佳實施例的作業流程圖。
10...底板管理控制器監控系統
100...發送模組
101...觸發模組
102...設置模組
103...執行模組
104...第一判斷模組
105...第二判斷模組
106...重置模組
107...記錄模組

Claims (8)

  1. 一種底板管理控制器監控系統,該系統包括:
    發送模組,用於當伺服器上電之後,控制即時時鐘晶片按照用戶設定的時間間隔發送時鐘訊號給平台控制器中樞;
    觸發模組,用於於平台控制器中樞接收所述時鐘訊號後,觸發系統管理中斷;
    執行模組,用於執行監控命令,以獲取底板管理控制器的狀態值;
    重置模組,用於當獲取的底板管理控制器的狀態值不是正常狀態值時,重新啟動伺服器;及
    記錄模組,用於記錄底板管理控制器出現異常的情況,並發出警報資訊給系統管理者。
  2. 如申請專利範圍第1項所述之底板管理控制器監控系統,該系統還包括設置模組,用於系統管理中斷被觸發之後,將伺服器的作業系統模式設置為系統管理模式。
  3. 如申請專利範圍第1項所述之底板管理控制器監控系統,所述系統還包括第一判斷模組,用於當沒有接收到底板管理控制器回饋的狀態值時,判定伺服器的作業系統異常。
  4. 如申請專利範圍第1項所述之底板管理控制器監控系統,所述監控命令儲存於伺服器的系統管理記憶體中。
  5. 一種底板管理控制器監控方法,該方法包括:
    發送步驟,當伺服器上電之後,控制即時時鐘晶片按照用戶設定的時間間隔發送時鐘訊號給平台控制器中樞;
    觸發步驟,於平台控制器中樞接收所述時鐘訊號後,觸發系統管理中斷;
    執行步驟,執行監控命令,以獲取底板管理控制器的狀態值;
    重置步驟,若獲取的底板管理控制器的狀態值不是正常狀態值,則重新啟動伺服器;及
    記錄步驟,記錄底板管理控制器出現異常的情況,並發出警報資訊給系統管理者。
  6. 如申請專利範圍第5項所述之底板管理控制器監控方法,該方法於觸發步驟之後還包括:設置步驟,將伺服器的作業系統模式設置為系統管理模式。
  7. 如申請專利範圍第5項所述之底板管理控制器監控方法,該方法還包括步驟:若沒有接收到底板管理控制器回饋的狀態值,則判定伺服器的作業系統異常。
  8. 如申請專利範圍第5項所述之底板管理控制器監控方法,所述監控命令儲存於伺服器的系統管理記憶體中。
TW101127528A 2012-07-30 2012-07-30 底板管理控制器監控系統及方法 TW201405303A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101127528A TW201405303A (zh) 2012-07-30 2012-07-30 底板管理控制器監控系統及方法
US13/941,570 US20140032978A1 (en) 2012-07-30 2013-07-15 Server and method of monitoring baseboard management controller

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101127528A TW201405303A (zh) 2012-07-30 2012-07-30 底板管理控制器監控系統及方法

Publications (1)

Publication Number Publication Date
TW201405303A true TW201405303A (zh) 2014-02-01

Family

ID=49996162

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101127528A TW201405303A (zh) 2012-07-30 2012-07-30 底板管理控制器監控系統及方法

Country Status (2)

Country Link
US (1) US20140032978A1 (zh)
TW (1) TW201405303A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9515907B2 (en) 2014-03-13 2016-12-06 Inventec (Pudong) Technology Corporation Monitoring method of monitoring module
TWI697766B (zh) * 2018-12-10 2020-07-01 神雲科技股份有限公司 電子裝置與電子裝置的重置方法
CN111414272A (zh) * 2019-01-04 2020-07-14 佛山市顺德区顺达电脑厂有限公司 电子装置与电子装置的重置方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3289468A4 (en) * 2015-04-30 2018-12-26 Hewlett-Packard Enterprise Development LP Peripheral device server access
CN105224436A (zh) * 2015-10-29 2016-01-06 曙光信息产业股份有限公司 一种服务器运行状态监控方法及装置
CN106992876A (zh) * 2017-03-04 2017-07-28 郑州云海信息技术有限公司 云平台日志管理方法及系统
CN107168853A (zh) * 2017-05-19 2017-09-15 郑州云海信息技术有限公司 一种服务器性能信息获取方法、系统和基板控制管理器
CN108959049B (zh) 2018-06-27 2021-12-17 郑州云海信息技术有限公司 Smm的健壮性和稳定性的测试方法、装置及存储介质
CN109408266B (zh) * 2018-10-08 2022-02-18 郑州云海信息技术有限公司 一种重启类型的确定方法和装置
CN109361525B (zh) * 2018-10-25 2021-08-13 珠海派诺科技股份有限公司 重启分布式部署多服务的方法、装置、控制终端及介质
CN111124962B (zh) * 2019-11-13 2021-06-29 苏州浪潮智能科技有限公司 一种基于服务器pch和bmc的tf卡槽复用方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742907B2 (en) * 2003-04-15 2010-06-22 Nec Laboratories America, Inc. Iterative abstraction using SAT-based BMC with proof analysis
US7523284B1 (en) * 2004-08-10 2009-04-21 American Megatrends, Inc. Method and apparatus for providing memory management within a system management mode
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US20070088816A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for monitoring the status of a bus in a server environment
US8713551B2 (en) * 2006-01-03 2014-04-29 International Business Machines Corporation Apparatus, system, and method for non-interruptively updating firmware on a redundant hardware controller
US7925815B1 (en) * 2006-06-29 2011-04-12 David Dunn Modifications to increase computer system security
JP5507830B2 (ja) * 2008-11-04 2014-05-28 ルネサスエレクトロニクス株式会社 マイクロコントローラ及び自動車制御装置
US20100306357A1 (en) * 2009-05-27 2010-12-02 Aten International Co., Ltd. Server, computer system, and method for monitoring computer system
US8117494B2 (en) * 2009-12-22 2012-02-14 Intel Corporation DMI redundancy in multiple processor computer systems
TW201217989A (en) * 2010-10-29 2012-05-01 Inventec Corp A method for obtaining a failure signal of a storage device using a Baseboard Management Controller
TWI505104B (zh) * 2010-11-03 2015-10-21 Inventec Corp 具有客製化偵測器資料記錄的基板管理控制器之控制方法
CN102467440A (zh) * 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
JP5039215B2 (ja) * 2011-02-23 2012-10-03 株式会社東芝 ノイズ低減回路、電子機器、ノイズ低減方法
CN103136083A (zh) * 2011-11-29 2013-06-05 鸿富锦精密工业(深圳)有限公司 通用串行总线的测试设备及方法
CN103810063B (zh) * 2012-11-06 2017-05-10 浙江艺迅装饰设计工程有限公司 电脑测试系统及方法
TWI510903B (zh) * 2012-11-19 2015-12-01 Wistron Corp 電腦系統及資料回復方法
JP6145211B2 (ja) * 2013-03-15 2017-06-07 アメリカン メガトレンズ インコーポレイテッド ウェブベースのキーボード、ビデオおよびマウス(kvm)リダイレクトのシステムおよび方法ならびにその適用
US9298524B2 (en) * 2013-03-22 2016-03-29 Insyde Software Corp. Virtual baseboard management controller

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9515907B2 (en) 2014-03-13 2016-12-06 Inventec (Pudong) Technology Corporation Monitoring method of monitoring module
TWI697766B (zh) * 2018-12-10 2020-07-01 神雲科技股份有限公司 電子裝置與電子裝置的重置方法
CN111414272A (zh) * 2019-01-04 2020-07-14 佛山市顺德区顺达电脑厂有限公司 电子装置与电子装置的重置方法
CN111414272B (zh) * 2019-01-04 2023-08-08 佛山市顺德区顺达电脑厂有限公司 电子装置与电子装置的重置方法

Also Published As

Publication number Publication date
US20140032978A1 (en) 2014-01-30

Similar Documents

Publication Publication Date Title
TW201405303A (zh) 底板管理控制器監控系統及方法
CN103577298A (zh) 基板管理控制器监控系统及方法
US9954727B2 (en) Automatic debug information collection
TW201415213A (zh) 故障自檢系統及方法
WO2015196365A1 (zh) 一种故障处理方法、相关装置及计算机
TW201327136A (zh) 伺服器測試系統及伺服器穩定性測試方法
US9424146B2 (en) Method, computer, and apparatus for migrating memory data
TWI509401B (zh) 電源管理的系統及其方法及非暫態電腦可讀取媒體
TWI668567B (zh) 伺服器及自動檢修基板管理控制器的方法
US10496128B2 (en) Method for obtaining timestamp and computer device using the same
TW201417536A (zh) 伺服器自動管理方法及系統
AU2014376751B2 (en) Redundant system and method for managing redundant system
TW201504804A (zh) 系統事件日誌處理系統及方法
US20140189103A1 (en) System for monitoring servers and method thereof
TW201516672A (zh) 伺服器監控系統及方法
TW201305772A (zh) 連續處理網路資料的系統及方法
TW201308072A (zh) 伺服器穩定性測試方法及系統
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
TW202223655A (zh) 可自我監視及恢復作業系統運作的電腦系統及方法
TW201428470A (zh) 自動開機系統及方法
TWI494754B (zh) 伺服器監控裝置和其操作方法
TW201416855A (zh) 系統啟動監控方法以及電子裝置
TW201324115A (zh) 電腦系統及電腦系統的開機管理方法
TWI514131B (zh) 計算機系統的啟動方法
TWM598968U (zh) 頻外的外接控制設備與系統