TWI494754B - 伺服器監控裝置和其操作方法 - Google Patents

伺服器監控裝置和其操作方法 Download PDF

Info

Publication number
TWI494754B
TWI494754B TW102142660A TW102142660A TWI494754B TW I494754 B TWI494754 B TW I494754B TW 102142660 A TW102142660 A TW 102142660A TW 102142660 A TW102142660 A TW 102142660A TW I494754 B TWI494754 B TW I494754B
Authority
TW
Taiwan
Prior art keywords
sensor data
data record
event
management controller
module
Prior art date
Application number
TW102142660A
Other languages
English (en)
Other versions
TW201520762A (zh
Inventor
Peng Hu
Alex Zhang
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to TW102142660A priority Critical patent/TWI494754B/zh
Publication of TW201520762A publication Critical patent/TW201520762A/zh
Application granted granted Critical
Publication of TWI494754B publication Critical patent/TWI494754B/zh

Links

Landscapes

  • Debugging And Monitoring (AREA)

Description

伺服器監控裝置和其操作方法
本發明係關於一種監控裝置和操作方法,尤其係關於一種伺服器監控裝置和其操作方法。
近幾年來,隨著科技和網路的快速發展,伺服器的功能愈益強大。為了保證伺服器工作的穩定性,一般採用基板管理控制器(Baseboard Management Control,BMC)來監控和管理伺服器系統的運作。
基板管理控制器在伺服器系統中是一個獨立的子系統,並不依賴於伺服器的處理器、BIOS或作業系統來工作,只要伺服器接上電源,無論伺服器處於開機、関機還是待機狀態,基板管理控制器均處於工作狀態。一般而言,基板管理控制器通過讀取設置在伺服器的傳感器讀數來即時監控伺服器的運行狀態,比如溫度、電壓等。然而,並非所有伺服器之運作狀態均能透過基板管理控制器來監控,也無法設置傳感器。因此,如何設計一個新的伺服器監控方法,能夠即時的對伺服器不正常狀態進行控管,並且進行警示通知,乃為此一業界亟待解決的問題。
本發明之一態樣係在提供一種伺服器監控方法,係用以監控一伺服器系統。首先,提供一系統管理軟體,運行於該伺服器系統之一操作系統下,該系統管理軟體於該操作系統下監控該伺服器系統之至少一系統模塊之運行狀態,生成一運行狀態數據。接著,由該系統管理軟體向該伺服器系統之一基板管理控制器傳送該運行狀態數據。基板管理控制器根據該運行狀態數據,判斷該系統模塊是否處於正常工作狀態。其中,基板管理控制器包括一傳感器數據記錄庫,該傳感器數據記錄庫提供一虛擬傳感器數據記錄,當判斷該系統模塊處於非正常工作狀態時,該基板管理控制器將該虛擬傳感器數據記錄設置為一異常狀態。該基板管理控制器根據該異常狀態,產生一事件。該基板管理控制器包括一平臺事件過濾器,該事件觸發該平臺事件過濾器發出一警示信號傳送給一遠端管理主機。
在一實施例中,該系統管理軟體通過OEM命令向該伺服器系統之一基板管理控制器傳送該運行狀態數據。
在一實施例中,在基板管理控制器接收運行狀態數據前,更包括初始化該傳感器數據記錄庫,其中初始化該傳感器數據記錄庫是將該虛擬傳感器數據記錄設置為未提供。
在一實施例中,系統模塊為網路模塊,當該系統管理軟體監控到該網路模塊發生網路斷線時,該基板管理控 制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為網路斷線事件,觸發之該警示信號為網路斷線警示信號。
在一實施例中,系統為模塊為硬碟模塊,當該系統管理軟體監控到該硬碟模塊發生故障時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為系統硬碟故障事件,觸發之該警示信號為硬碟故障警示信號。
在一實施例中,系統模塊為開關機模塊,當該系統管理軟體監控到伺服器系統被非法關機時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為非法關機事件,觸發之該警示信號為非法關機警示信號。
在一實施例中,發出警示信號傳送給一遠端管理主機更包括:發送一簡單網路管理協定(Simple Network Management Protocol,SNMP)trap信號給該遠端管理主機,或發送Email信號給該遠端管理主機。
在一實施例中,虛擬傳感器數據記錄為符合一IPMI規則的傳感器數據記錄,該OEM命令非該IPMI之一標準命令,但為根據該IPMI規則定義之命令。
綜上所述,本發明通過根據IPMI規則所定義之OEM命令由系統管理軟體向基板管理控制器傳送該運行狀態數據,讓基板管理控制器改變傳感器數據記錄庫中儲存之傳感器數據記錄來觸發一事件,使得基板管理控制器可 根據此事件,由平臺事件過濾器向遠端管理主機發出警示,達到監控之目的,在使用上相當方便。
100‧‧‧伺服器監控系統
110‧‧‧伺服器
120‧‧‧遠端管理主機
130‧‧‧錯誤通知訊息
1101‧‧‧系統模塊
1102‧‧‧系統管理軟體
1103‧‧‧基板管理控制器
1104‧‧‧傳感器數據記錄庫
201~208‧‧‧步驟
第1圖所示係為本發明伺服器監控系統之示意圖。
第2圖所示係為本發明伺服器監控方法流程圖。
以下為本發明較佳具體實施例以所附圖示加以詳細說明,下列之說明及圖示使用相同之參考數字以表示相同或類似元件,並且在重複描述相同或類似元件時則予省略。
智慧平臺管理介面(Intelligent Platform Management Interface,IPMI)為每部伺服器內監管系統的一標準介面,藉由智慧平臺管理介面可讓管理訊息在各感測器、監控電路、管理機台、管理軟體上通行且有一致性。但由於IPMI所定義的管理監控功能有限,為避免造成IPMI管理監控功能不敷使用,因此IPMI有OEM命令集的設定。所謂OEM命令集,便是在原本的IPMI管理監控功能外,由廠商利用原本的IPMI功能整合出新的功能,以達到支援不同廠商不同需求的目的。而本發明即是利用OEM命令集來根據IPMI規則定義額外之OEM命令來進行監控功能,藉以監控系統模塊之狀態,例如網路卡連接埠之狀態、硬 碟之狀態或系統是否被非法關機等。
第1圖所示係為本發明伺服器遠端監控系統架構之示意圖。伺服器監控系統100包含:伺服器110以及遠端管理主機120。須注意的是,第1圖中僅繪示一個伺服器110,然而於其他實施例中,係可因應不同之情況設置不同數目之伺服器110。本實施例之伺服器監控系統100,係可在伺服器110之系統模塊1101有異常的事件發生時,例如:網路卡連接埠不正常、硬碟出現故障或系統被非法關機時產生一錯誤通知訊息130。由於硬體設計上的限制,單靠基板管理控制器本身並沒有辦法檢測到上述這些系統狀況的改變,所以只靠基板管理控制器韌體無法實現監控功能。因此,本發明通過額外的系統管理軟體來即時監控基板管理控制器無法監控到的上述系統狀態資訊,進而發出警示信號。
在一較佳實施例中,本發明之伺服器110更包含:一系統模塊1101、一系統管理軟體(system management software)1102以及一基板管理控制器1103。基板管理控制器1103更包括一傳感器數據記錄庫1104。其中,系統管理軟體1102,係運行於伺服器110之一操作系統下。系統管理軟體1102可在此操作系統下對伺服器110系統模塊1101的運行狀態進行監控,並產生一運行狀態數據。並通過OEM命令由系統管理軟體1102向伺服器110中之一基板管理控制器1103傳送此運行狀態數據。在此實施例中,此OEM命令非IPMI原本即定義之命令,但是是根據IPMI規則定 義之額外OEM命令,因此其要求之資料與對應之反應均符合IPMI規則定義。當基板管理控制器1103收到此運行狀態數據後,可根據此運行狀態數據,判斷系統模塊1101是否處於正常工作狀態。其中,基板管理控制器1103內之傳感器數據記錄庫(Sensor Data Record,SDR)1104提供有一虛擬傳感器數據記錄,當判斷系統模塊1101處於非正常工作狀態時,基板管理控制器1103將虛擬傳感器數據記錄設置為一異常狀態。基板管理控制器1103根據此異常狀態,產生一事件(event)。此事件會觸發基板管理控制器1103之一平臺事件過濾器(Platform Event Filter;PEF)發出一警示信號傳送給一遠端管理主機120。根據本發明提供之監控方法,雖然需要在基板管理控制器1103之韌體代碼裏增加OEM命令和傳感器數據記錄(SDR),但是對系統管理軟體1102的要求比較低,只要求系統管理軟體1102採集資訊,並將所收集到之資訊通過設計好的OEM命令發送給基板管理控制器1103,而後續之程式均由基板管理控制器1103執行,因此可大幅降低系統管理軟體1102的複雜度。
其中,平臺事件過濾器係在基板管理控制器1103產生事件時,對應產生一預設行為,例如,關機、重新啟動或發送警報等。基板管理控制器1103內具有一事件過濾器表(event filter table),定義有每一事件對應之處理方式。當基板管理控制器1103接收到來自內部或者外部的一事件時,會將此事件內容與事件過濾器表中紀錄之事件內容進行比對,一旦符合某一事件內容,則會根據事件過濾器表 定義進行對應處理。例如以符合簡單網路管理協定(Simple Network Management Protocol,SNMP)之錯誤通知訊息(SNMP Trap)或Email方式,即時地通知遠端管理主機120進行錯誤分析,以針對發生錯誤的關鍵點進行除錯。由於本發明之傳感器係使用標準的傳感器型式,因此傳感器數據記錄庫1104亦為符合IPMI標準的傳感器數據記錄。換言之,傳感器數據記錄庫1104因異常狀態所產生之事件亦為符合IPMI規則定義的事件。
傳統上,基板管理控制器1103係根據伺服器110內的各種傳感器(未繪示),掌握伺服器110內各系統模塊1101的運作狀態。然而,並非所有系統模塊之運作狀態均能設置傳感器來進行監控,本發明即是提供當一系統模塊並無對應之監控傳感器時之監控方法。換言之,本發明傳感器數據記錄庫1104中之紀錄並非對應一實體傳感器的數據資訊,也就是說,傳感器數據記錄庫1104中之紀錄與伺服器系統內任一實體傳感器之數據紀錄無關,而是假設一虛擬傳感器知數據紀錄,因此本發明稱為虛擬傳感器數據記錄。而當系統管理軟體1102監測到一系統模塊1101狀態變化時,傳感器數據記錄庫1104內對應之虛擬傳感器數據記錄亦會發生變化,如果此變化滿足傳感器數據記錄庫1104裏觸發門檻值的條件,基板管理控制器1103就會產生一事件。在一實施例中,例如,若系統模塊1101為一網路模塊,觸發門檻值為網路模塊之傳輸狀態異常,例如斷線。因此,當當系統管理軟體1102監測到網路模塊之傳輸狀態 異常時,亦即處於非正常工作狀態時,基板管理控制器1103會將虛擬傳感器數據記錄設置為一異常狀態,產生之事件為網路斷線事件,觸發之警示信號為網路斷線警示信號。在另一實施例中,若系統模塊1101為一硬碟模塊,觸發門檻值為該硬碟模塊發生故障。當系統管理軟體1102監控到該硬碟模塊發生故障時,基板管理控制器1103將該虛擬傳感器數據記錄設置為異常狀態,所產生之事件為系統硬碟故障事件,觸發之該警示信號為硬碟故障警示信號。在再一實施例中,若系統模塊1101為一開關機模塊,當系統管理軟體1102監控到伺服器系統被非法關機時,基板管理控制器1103將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為非法關機事件,觸發之該警示信號為非法關機警示信號。此事件會觸發基板管理控制器1103之一平臺事件過濾器發出發出錯誤通知訊息(SNMP Trap)給遠端管理主機120。其中,SNMP Trap是一種標準的報告機制,SNMP Trap資訊裏包括了事件發生的時間,Trap類型以及一些其他資訊。
第2圖所示係為本發明伺服器遠端監控方法流程圖。首先於步驟201,基板管理控制器將傳感器數據記錄庫之虛擬傳感器數據記錄設置為未提供(NA)。亦即初始化傳感器數據記錄庫1104,將虛擬傳感器數據記錄設置為未提供,避免基板管理控制器1103誤產生一事件。接著於步驟202,基板管理控制器接收由系統管理軟體通過OEM命令傳送而來之數據。在一實施例中,系統管理軟體1102可對 系統模塊1101的運行狀態進行監控,並產生一運行狀態數據。並通過OEM命令由系統管理軟體1102向伺服器110中之一基板管理控制器1103傳送此運行狀態數據。並於步驟203,判斷系統模塊是否可正常工作。當系統模塊1101可正常工作時,於步驟204,基板管理控制器將傳感器數據記錄庫之虛擬傳感器數據記錄設置為可正常工作。反之,當系統模塊1101不能正常工作時,於步驟205,基板管理控制器將傳感器數據記錄庫之虛擬傳感器數據記錄設置為不可正常工作。並於步驟206,基板管理控制器1103產生一事件。接著於步驟207,此事件會觸發平臺事件過濾器發出警示信號。並於步驟208,經由SNMP trap傳送給遠端管理主機。在一實施例中,當傳感器數據記錄庫1104產生一事件時,基板管理控制器1103會根據此事件,由平臺事件過濾器向遠端管理主機120發出警示,如發送SNMP trap或Email等。遠端管理主機120解析SNMP trap以進行錯誤分析,即可得知系統模塊1101發生錯誤,此時即可進行即時除錯。
綜上所述,本發明藉由通過根據IPMI規則所定義之OEM命令由系統管理軟體向基板管理控制器傳送該運行狀態數據,可讓基板管理控制器根據運行狀態數據改變傳感器數據記錄庫中之虛擬傳感器數據記錄藉以觸發一事件,使得基板管理控制器可根據此事件,由平臺事件過濾器向遠端管理主機發出警示,達到遠端監控之目的。
雖然本發明已以實施方式揭露如上,然其並非用以 限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧伺服器監控系統
110‧‧‧伺服器
120‧‧‧遠端管理主機
130‧‧‧錯誤通知訊息
1101‧‧‧系統模塊
1102‧‧‧系統管理軟體
1103‧‧‧基板管理控制器
1104‧‧‧傳感器數據記錄庫

Claims (11)

  1. 一種伺服器監控方法,係用以監控一伺服器系統,至少包括:提供一系統管理軟體,運行於該伺服器系統之一操作系統下,該系統管理軟體於該操作系統下監控該伺服器系統之至少一系統模塊之運行狀態,生成一運行狀態數據;該系統管理軟體向該伺服器系統之一基板管理控制器傳送該運行狀態數據;該基板管理控制器根據該運行狀態數據,判斷該系統模塊是否處於正常工作狀態;該基板管理控制器包括一傳感器數據記錄庫,該傳感器數據記錄庫提供對應該系統模塊之一虛擬傳感器數據記錄,當判斷該系統模塊處於非正常工作狀態時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態;該基板管理控制器根據該異常狀態,產生一事件;該基板管理控制器包括一平臺事件過濾器,該事件觸發該平臺事件過濾器發出一警示信號,並傳送給一遠端管理主機。
  2. 如申請專利範圍第1項所述之方法,該系統管理軟體通過OEM命令向該基板管理控制器傳送該運行狀態數據。
  3. 如申請專利範圍第1項所述之方法,在基板管理控制器接收該運行狀態數據前,更包括初始化該傳感器數據記錄庫。
  4. 如申請專利範圍第3項所述之方法,其中初始化該傳感器數據記錄庫是將該虛擬傳感器數據記錄設置為未提供。
  5. 如申請專利範圍第1項所述之方法,其中該虛擬傳感器數據記錄與該伺服器系統內之任一實體傳感器之數據紀錄無關。
  6. 如申請專利範圍第1項所述之方法,其中該系統模塊為網路模塊,當該系統管理軟體監控到該網路模塊發生網路斷線時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為網路斷線事件,觸發之該警示信號為網路斷線警示信號。
  7. 如申請專利範圍第1項所述之方法,其中該系統為模塊為硬碟模塊,當該系統管理軟體監控到該硬碟模塊發生故障時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為系統硬碟故障事件,觸發之該警示信號為硬碟故障警示信號。
  8. 如申請專利範圍第1項所述之方法,其中該系統模塊為開關機模塊,當該系統管理軟體監控到伺服器系統被非法關機時,該基板管理控制器將該虛擬傳感器數據記錄設置為異常狀態,產生之該事件為非法關機事件,觸發之該警示信號為非法關機警示信號。
  9. 如申請專利範圍第1項所述之方法,其中發出警示信號傳送給一遠端管理主機更包括:發送一簡單網路管理協定(Simple Network Management Protocol,SNMP)trap信號給該遠端管理主機,或發送Email信號給該遠端管理主機。
  10. 如申請專利範圍第1項所述之方法,其中發出警示信號傳送給一遠端管理主機後更包括:該遠端管理主機解析該警示信號。
  11. 如申請專利範圍第1項所述之方法,其中該虛擬傳感器數據記錄為符合一IPMI規則的傳感器數據記錄,該OEM命令非該IPMI之一標準命令,但為根據該IPMI規則定義之命令。
TW102142660A 2013-11-22 2013-11-22 伺服器監控裝置和其操作方法 TWI494754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW102142660A TWI494754B (zh) 2013-11-22 2013-11-22 伺服器監控裝置和其操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102142660A TWI494754B (zh) 2013-11-22 2013-11-22 伺服器監控裝置和其操作方法

Publications (2)

Publication Number Publication Date
TW201520762A TW201520762A (zh) 2015-06-01
TWI494754B true TWI494754B (zh) 2015-08-01

Family

ID=53935007

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102142660A TWI494754B (zh) 2013-11-22 2013-11-22 伺服器監控裝置和其操作方法

Country Status (1)

Country Link
TW (1) TWI494754B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766110B (zh) * 2018-12-27 2022-05-31 联想(北京)有限公司 一种控制方法、基板管理控制器及控制系统
TWI815718B (zh) * 2022-11-01 2023-09-11 神雲科技股份有限公司 伺服器的時脈信號的監控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484084B1 (en) * 2005-12-20 2009-01-27 Netapp, Inc. Use of a baseboard management controller to facilitate installation of firmware in a processing system
CN101577698B (zh) * 2008-05-09 2013-05-08 中兴通讯股份有限公司 带外智能管理服务器系统及监控服务器和处理命令方法
CN103176759A (zh) * 2011-12-20 2013-06-26 鸿富锦精密工业(深圳)有限公司 Bios post代码显示系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484084B1 (en) * 2005-12-20 2009-01-27 Netapp, Inc. Use of a baseboard management controller to facilitate installation of firmware in a processing system
CN101577698B (zh) * 2008-05-09 2013-05-08 中兴通讯股份有限公司 带外智能管理服务器系统及监控服务器和处理命令方法
CN103176759A (zh) * 2011-12-20 2013-06-26 鸿富锦精密工业(深圳)有限公司 Bios post代码显示系统及方法

Also Published As

Publication number Publication date
TW201520762A (zh) 2015-06-01

Similar Documents

Publication Publication Date Title
CN104639380B (zh) 服务器监控方法
US10606725B2 (en) Monitor peripheral device based on imported data
US8286034B2 (en) Accurate fault status tracking of variable access sensors
WO2015196365A1 (zh) 一种故障处理方法、相关装置及计算机
TWI529624B (zh) Method and system of fault tolerance for multiple servers
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN103577298A (zh) 基板管理控制器监控系统及方法
TW201417536A (zh) 伺服器自動管理方法及系統
US20120136970A1 (en) Computer system and method for managing computer device
TW201405303A (zh) 底板管理控制器監控系統及方法
JP2015114873A (ja) 情報処理装置および監視方法
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
TW201616371A (zh) 擷取控制台訊息的系統及其方法及非暫態電腦可讀媒體
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
TW201516672A (zh) 伺服器監控系統及方法
TWI494754B (zh) 伺服器監控裝置和其操作方法
CN111625386A (zh) 一种针对系统设备上电超时的监控方法和装置
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
TW201530304A (zh) 異常狀態警示方法
CN116225812B (zh) 基板管理控制器系统运行方法、装置、设备及存储介质
JP5689783B2 (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
CN117707884A (zh) 一种监控电源管理芯片的方法、系统、设备和介质
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
CN113992501A (zh) 一种故障定位系统、方法及计算装置
JP2007028118A (ja) ノード装置の故障判断方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees