TWI414939B - 伺服器監控方法 - Google Patents

伺服器監控方法 Download PDF

Info

Publication number
TWI414939B
TWI414939B TW98135806A TW98135806A TWI414939B TW I414939 B TWI414939 B TW I414939B TW 98135806 A TW98135806 A TW 98135806A TW 98135806 A TW98135806 A TW 98135806A TW I414939 B TWI414939 B TW I414939B
Authority
TW
Taiwan
Prior art keywords
server
notification message
monitoring
host
error notification
Prior art date
Application number
TW98135806A
Other languages
English (en)
Other versions
TW201115332A (en
Inventor
Tahua Lin
Chungnan Chen
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to TW98135806A priority Critical patent/TWI414939B/zh
Publication of TW201115332A publication Critical patent/TW201115332A/zh
Application granted granted Critical
Publication of TWI414939B publication Critical patent/TWI414939B/zh

Links

Landscapes

  • Debugging And Monitoring (AREA)

Description

伺服器監控方法
本揭示內容是有關於一種監控方法,且特別是有關於一種伺服器監控方法。
在伺服器中,基板管理控制器(baseboard management controller;BMC)是一種設置於主機板上,以對系統進行控管的裝置。在開發伺服器的階段中,必需對伺服器及其上的基板管理控制器進行壓力測試。壓力測試係用以測試裝置在長時間運作的情形下,是否能正常地工作。然而,在動輒十餘小時的長時間測試下,目前的測試方式必需耗費人力進行檢查與除錯。舉例來說,如果錯誤發生於測試流程的第十小時,則前面未發生錯誤的時間都將白費。而如果檢測者在每隔兩小時檢測的情形下,錯誤卻在第一小時即發生,則無法達到立即除錯及分析的功效。
另一方面,有些基板管理控制器提供了平台事件過濾器(Platform Event Filter;PEF)的功能。平台事件過濾器是一項事件處理的功能,能在系統產生事件時藉由網路來發出警示通知。然而如果在進行測試的伺服器中,基板管理控制器並未提供這項功能,或是這項功能已經損壞,亦或網路的功能失效,則無法藉由基板管理控制器直接於伺服器發生事件時產生任何警示通知。
因此,如何設計一個新的伺服器監控方法,能夠即時的對伺服器的測試流程進行控管,並且可以在伺服器的各種不正常情形發生時,仍能進行警示通知,乃為此一業界亟待解決的問題。
因此,本揭示內容之一態樣是在提供一種伺服器監控方法,係用於伺服器監控系統,用以監控伺服器,包含下列步驟:由監控主機傳送測試訊號至伺服器;根據伺服器之回應判斷伺服器之平台事件過濾器功能是否正常;當平台事件過濾器功能不正常,起始伺服器之測試流程;根據伺服器之狀況,更新各伺服器之基板管理控制器之系統事件記錄;藉由監控主機擷取各基板管理控制器之系統事件記錄;判斷系統事件記錄是否出現異常記錄,當系統事件記錄出現異常記錄,俾產生錯誤通知訊息至遠端主機;以及根據錯誤通知訊息進一步藉由遠端主機進行錯誤分析。
根據本揭示內容之一實施例,伺服器監控方法更包含:根據系統事件記錄判斷測試流程是否結束,當測試流程結束,產生測試結束通知訊息至該遠端主機。
根據本揭示內容之另一實施例,更包含根據錯誤通知訊息終止測試流程之步驟。
根據本揭示內容之又一實施例,測試流程係為壓力測試。
根據本揭示內容之再一實施例,更包含:判斷伺服器之網路功能是否正常;當網路功能正常,監控主機係藉由網路功能擷取各基板管理控制器之系統事件記錄;當網路功能不正常,監控主機係藉由直接連線路徑擷取各基板管理控制器之系統事件記錄。
本揭示內容之另一態樣是在提供一種伺服器監控方法,係用以監控伺服器,包含下列步驟:由監控主機傳送測試訊號至伺服器;根據伺服器之回應判斷伺服器之平台事件過濾器功能是否正常;當平台事件過濾器功能正常,係判斷伺服器之網路功能是否正常;當網路功能不正常,係將平台事件過濾器功能之目標設定為監控主機,及將平台事件過濾器功能之傳輸路徑設定為伺服器及監控主機間之直接連線路徑;起始伺服器之測試流程;當伺服器之基板管理控制器偵測到系統異常,係藉由平台事件過濾器功能產生錯誤通知訊息,並藉由直接連線路徑傳送至監控主機,再藉由監控主機傳送錯誤通知訊息至遠端主機;以及根據錯誤通知訊息進一步藉由遠端主機進行錯誤分析。
根據本揭示內容之一實施例,當網路功能正常,伺服器監控方法更包含:起始伺服器之測試流程;當伺服器之基板管理控制器偵測到系統異常,係藉由平台事件過濾器功能產生錯誤通知訊息,以透過網路功能傳送錯誤通知訊息至遠端主機;以及根據錯誤通知訊息進一步藉由遠端主機進行錯誤分析。
根據本揭示內容之另一實施例,平台事件過濾器功能產生之錯誤通知訊息係包含警示方式欄位、通知位址欄位以及傳輸路徑欄位。
根據本揭示內容之又一實施例,其中網路功能係為區域網路(Local Area Network;LAN)功能。
根據本揭示內容之再一實施例,其中直接連線路徑係為序列埠(Serial Port)或I2 C介面。
應用本揭示內容之優點係在於藉由判斷伺服器的平台事件過濾器功能之網路功能是否運作正常,以因應各種伺服器的情況,決定產生錯誤通知訊息之方式,並且即時地通知遠端主機以進行分析與除錯,而輕易地達到上述之目的。
請參照第1圖,係為本揭示內容之一實施例之伺服器監控系統1之一方塊圖。伺服器監控系統1包含:伺服器10、監控主機12以及遠端主機14。須注意的是,第1圖中係繪示三個伺服器10,然而於其他實施例中,係可因應不同之情況設置不同數目之伺服器10。
本實施例之伺服器監控系統1,係可在伺服器10有異常的事件發生時,在不同的情形下經由不同的方式產生錯誤通知訊息13、17或19即時地使遠端主機14可以進行錯誤分析,甚或終止測試流程的進行,以針對測試流程中,發生錯誤的關鍵點進行除錯。
伺服器10包含:基板管理控制器100以及通訊介面(未繪示)。在開發伺服器10的階段中,必需對伺服器10及其上的基板管理控制器100進行測試流程。於一實施例中,測試流程係為壓力測試,係用以測試裝置在長時間運作的情形下,是否能正常地工作。
基板管理控制器100是一種設置於伺服器10內的主機板(未繪示)上,以對伺服器10的系統進行控管的裝置,具有使系統管理軟體與裝置硬體相溝通的作用。基板管理控制器100可以根據伺服器10內的各種偵測器(未繪示),掌握伺服器10內的各種情況,如溫度、風扇轉速、電源模式、作業系統狀態等等。
一般正常運作的基板管理控制器100提供了平台事件過濾器的功能。平台事件過濾器功能是一項事件處理的功能,能在系統產生事件時經由網路發出警示通知。然而如果在進行測試的伺服器10中,基板管理控制器100並未提供這項功能,或是這項功能已經損壞,亦或網路之功能失效,則無法藉由基板管理控制器100直接於伺服器10發生事件時產生警示通知。
請同時參照第2圖,係為本揭示內容之一實施例之伺服器監控方法之流程圖。伺服器監控方法係可應用於如第1圖繪示之伺服器監控系統1。伺服器監控方法包含下列步驟:於步驟201,由監控主機12傳送測試訊號121至伺服器10。接著於步驟202,根據伺服器10之回應(未繪示)判斷伺服器之平台事件過濾器功能是否正常。
當平台事件過濾器功能不正常時,於第1圖中,係以最左側之伺服器10為例,執行步驟203,起始伺服器之測試流程。繼續執行步驟204,根據伺服器10之狀況,更新伺服器10之基板管理控制器100之系統事件記錄11。基板管理控制器100於測試流程中,根據伺服器10在之狀況,包含上述如溫度、風扇轉速、電源模式、作業系統狀態等等的狀況,來持續更新系統事件記錄11。系統事件記錄11則以數據來對上述之狀況進行記錄。
接著於步驟205,判斷伺服器10之網路功能是否正常。當網路功能正常,係執行步驟206,藉由監控主機12經由網路功能擷取基板管理控制器100之系統事件記錄11。其中網路功能於一實施例中,係為區域網路介面。而當網路功能不正常,係執行步驟207,藉由監控主機12經由伺服器10與監控主機12間的直接連線路徑擷取基板管理控制器100之系統事件記錄11。直接連線路徑於一實施例中,係為I2 C或序列埠之通訊介面。
步驟206或207結束後,係執行步驟208,根據系統事件記錄11判斷測試流程是否結束。當測試流程已經結束,即進行步驟209,產生測試結束通知訊息15至遠端主機14。而當測試流程依然在進行,則執行步驟210,判斷系統事件記錄11是否出現異常的記錄。所謂的異常,舉例來說,可為伺服器10之溫度過高、風扇轉速未達到所設定的標準、電源供應不足或是作業系統產生錯誤等等。當系統事件記錄11未出現異常的紀錄,則將回到步驟204,以隨著測試流程繼續更新系統事件記錄11。
當系統事件記錄11出現異常的紀錄時,則將執行步驟211,產生錯誤通知訊息13至遠端主機14,遠端主機14將根據錯誤通知訊息13進一步進行錯誤分析。因此,進行測試的人員不需要隨時地在伺服器10旁邊觀察,而可以在遠端主機14遠端地且即時地得知伺服器10的狀況。於一實施例中,遠端主機14係可在接收到錯誤通知訊息13後,根據錯誤通知訊息13,傳遞指令(未繪示)而終止測試流程,避免測試流程繼續進行時,無法釐清錯誤狀況發生的原因及時間點。
因此,上述實施例中的伺服器監控方法,係可以在平台事件過濾器功能不正常的情形下,由監控主機12偵測伺服器10在測試過程中產生的錯誤,並藉由錯誤通知訊息13通知遠端主機14,俾進行錯誤分析。
於另一實施例中,當第2圖中的步驟202,根據伺服器10之回應判斷伺服器之平台事件過濾器功能是否正常之判斷結果,係顯示平台事件過濾器功能是正常的,則執行步驟A。步驟A係詳細繪示於第3圖中。
請參照第3圖,係為本揭示內容一實施例中,當平台事件過濾器功能不正常時之伺服器監控方法之流程圖。於步驟202判斷平台事件過濾器功能正常後,執行步驟301,判斷伺服器10之網路功能是否正常。當網路功能不正常,於第1圖中,係以中間之伺服器10為例,執行步驟302,將平台事件過濾器功能之目標設定為監控主機12,及將平台事件過濾器功能之傳輸路徑設定為伺服器10及監控主機12間之直接連線路徑。如上所述,直接連線路徑於一實施例中,係為I2 C或序列埠之通訊介面。
接著於步驟303,起始伺服器10之測試流程。接著於步驟304,判斷基板管理控制器100是否偵測到系統異常。當基板管理控制器100未偵測到系統異常,係重覆執行步驟304,以偵測測試流程是否具有異常。而當基板管理控制器100偵測到系統異常,係執行步驟305,藉由平台事件過濾器功能產生錯誤通知訊息17,並藉由直接連線路徑傳送至監控主機12,再藉由監控主機12傳送錯誤通知訊息17至遠端主機14,以使遠端主機14根據錯誤通知訊息17進一步藉由進行錯誤分析。
於一實施例中,平台事件過濾器功能產生之錯誤通知訊息17係包含警示方式欄位、通知位址欄位以及傳輸路徑欄位。其中警示方式欄位係表示以字串或是其他形式來產生。通知位址欄位於本實施例中則由於傳輸對象為監控主機12,而為監控主機12的位址。傳輸路徑欄位於本實施例中則為直接連線路徑。
因此,上述實施例中的伺服器監控方法,係可以在平台事件過濾器功能正常,但網路功能不正常的情形下,由伺服器10本身產生錯誤通知訊息17,並藉由監控主機12傳送至遠端主機14,俾進行錯誤分析。
而當步驟301中,判斷伺服器10之網路功能是否正常之判斷結果係顯示網路功能正常,於第1圖中,係以最右側之伺服器10為例,執行步驟306,起始伺服器之測試流程。
接著於步驟307,判斷基板管理控制器100是否偵測到系統異常。當基板管理控制器100未偵測到系統異常,係重覆執行步驟307,以偵測測試流程是否具有異常。而當基板管理控制器100偵測到系統異常,係執行步驟308,藉由平台事件過濾器功能產生錯誤通知訊息19,並藉由網路傳送至遠端主機14,而不需再經由監控主機12,以使遠端主機14根據錯誤通知訊息17進一步藉由進行錯誤分析。
於一實施例中,平台事件過濾器功能產生之錯誤通知訊息19係包含警示方式欄位、通知位址欄位以及傳輸路徑欄位。其中警示方式欄位係表示以字串或是其他形式來產生。通知位址欄位於本實施例中則由於傳輸對象為遠端主機14,而為遠端主機14的位址。傳輸路徑欄位於本實施例中則為網路。
因此,上述實施例中的伺服器監控方法,係可以在平台事件過濾器功能正常,並且網路功能亦正常的情形下,由伺服器10本身產生錯誤通知訊息19,並藉由網路傳送至遠端主機14,俾進行錯誤分析。(應瞭解到,在本實施方式中所提及的步驟,除特別敘明其順序者外,均可依實際需要調整其前後順序,甚至可同時或部分同時執行)。
由上述本揭示內容實施方式可知,應用本揭示內容之優點係在於藉由檢測基板管理控制器之系統事件記錄,判斷是否具有異常,並即時地通知遠端主機以進行分析與除錯。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本揭示內容,任何熟習此技藝者,在不脫離本揭示內容之精神和範圍內,當可作各種之更動與潤飾,因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。
1...監控系統
10...伺服器
100...基板管理控制器
11...系統事件記錄
12...監控主機
121...測試訊號
13、17、19...錯誤通知訊息
14...遠端主機
15...測試結束通知訊息
201-211...步骤
301-308...步骤
為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖係為本揭示內容之一實施例之伺服器監控系統之方塊圖
第2圖係為本揭示內容之另一實施例之伺服器監控方法之流程圖;以及
第3圖係為本揭示內容一實施例中,當平台事件過濾器功能不正常時之伺服器監控方法之流程圖。
201-211...步骤

Claims (10)

  1. 一種伺服器監控方法,係用以監控至少一伺服器,包含下列步驟:由一監控主機傳送一測試訊號至該伺服器;根據該伺服器之回應判斷該伺服器之一平台事件過濾器功能是否正常;當該平台事件過濾器功能不正常,係起始該伺服器之一測試流程;根據該等伺服器之狀況,更新各該等伺服器之一基板管理控制器之一系統事件記錄;藉由該監控主機擷取各該等基板管理控制器之該系統事件記錄;判斷該系統事件記錄是否出現異常紀錄,當該系統事件記錄出現異常紀錄,俾產生一錯誤通知訊息至一遠端主機;以及根據該錯誤通知訊息進一步藉由該遠端主機進行一錯誤分析。
  2. 如請求項1所述之伺服器監控方法,更包含:根據該系統事件記錄判斷該測試流程是否結束,當該測試流程結束,產生一測試結束通知訊息至該遠端主機。
  3. 如請求項1所述之伺服器監控方法,更包含:根據該錯誤通知訊息終止該測試流程。
  4. 如請求項1所述之伺服器監控方法,其中該測試流程為一壓力測試。
  5. 如請求項1所述之伺服器監控方法,更包含:判斷該伺服器之一網路功能是否正常;以及當該網路功能正常,該監控主機係藉由該網路功能擷取各該等基板管理控制器之該系統事件記錄;當該網路功能不正常,該監控主機係藉由一直接連線路徑擷取各該等基板管理控制器之該系統事件記錄。
  6. 一種伺服器監控方法,係用以監控至少一伺服器,包含下列步驟:由一監控主機傳送一測試訊號至該伺服器;根據該伺服器之回應判斷該伺服器之一平台事件過濾器功能是否正常;當該平台事件過濾器功能正常,係判斷該伺服器之一網路功能是否正常;當該網路功能不正常,係將該平台事件過濾器功能之一目標設定為該監控主機,及將該平台事件過濾器功能之一傳輸路徑設定為該伺服器及該監控主機間之一直接連線路徑;起始該伺服器之一測試流程;當該伺服器之一基板管理控制器偵測到一系統異常,係藉由該平台事件過濾器功能產生一錯誤通知訊息,並藉由該直接連線路徑傳送至該監控主機,再藉由該監控主機傳送該錯誤通知訊息至一遠端主機;以及根據該錯誤通知訊息進一步藉由該遠端主機進行一錯誤分析。
  7. 如請求項6所述之伺服器監控方法,當該網路功能正常,更包含:起始該伺服器之該測試流程;當該伺服器之一基板管理控制器偵測到一系統異常,係藉由該平台事件過濾器功能產生錯誤通知訊息,以透過該網路功能傳送該錯誤通知訊息至該遠端主機;以及根據該錯誤通知訊息進一步藉由該遠端主機進行一錯誤分析。
  8. 如請求項6所述之伺服器監控方法,該平台事件過濾器功能產生之該錯誤通知訊息係包含一警示方式欄位、一通知位址欄位以及一傳輸路徑欄位。
  9. 如請求項6所述之伺服器監控方法,其中該網路功能係為一區域網路功能。
  10. 如請求項6所述之伺服器監控方法,其中該直接連線路徑係為一序列埠或一I2 C介面。
TW98135806A 2009-10-22 2009-10-22 伺服器監控方法 TWI414939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW98135806A TWI414939B (zh) 2009-10-22 2009-10-22 伺服器監控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW98135806A TWI414939B (zh) 2009-10-22 2009-10-22 伺服器監控方法

Publications (2)

Publication Number Publication Date
TW201115332A TW201115332A (en) 2011-05-01
TWI414939B true TWI414939B (zh) 2013-11-11

Family

ID=44934408

Family Applications (1)

Application Number Title Priority Date Filing Date
TW98135806A TWI414939B (zh) 2009-10-22 2009-10-22 伺服器監控方法

Country Status (1)

Country Link
TW (1) TWI414939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598158B (zh) * 2013-10-31 2018-03-02 秦皇岛市林鹰科技有限公司 系统事件处理系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI238325B (en) * 2003-10-09 2005-08-21 Quanta Comp Inc Apparatus of remote server console redirection
TWI258075B (en) * 2003-09-02 2006-07-11 Acer Inc Real time monitoring device for host and the monitoring method therefor
TW200736905A (en) * 2006-03-24 2007-10-01 Wistron Corp Remote monitoring method with event-triggered warning capability
TW200736930A (en) * 2006-03-29 2007-10-01 Mitac Int Corp Monitoring method for monitoring servers
TW200838212A (en) * 2007-03-13 2008-09-16 Inventec Corp Method for remotely monitoring system
TW200904034A (en) * 2007-07-13 2009-01-16 Chunghwa Telecom Co Ltd Centralized monitoring system and its method for integrated test equipment of measurement platform
TW200913569A (en) * 2007-09-07 2009-03-16 Inventec Corp Testing monitoring system and method
TW200922201A (en) * 2007-11-13 2009-05-16 Jr Rack Co Ltd Monitoring system of server cabinet and over-temperature monitoring device thereof
US20090187654A1 (en) * 2007-10-05 2009-07-23 Citrix Systems, Inc. Silicon Valley Systems and methods for monitoring components of a remote access server farm

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI258075B (en) * 2003-09-02 2006-07-11 Acer Inc Real time monitoring device for host and the monitoring method therefor
TWI238325B (en) * 2003-10-09 2005-08-21 Quanta Comp Inc Apparatus of remote server console redirection
TW200736905A (en) * 2006-03-24 2007-10-01 Wistron Corp Remote monitoring method with event-triggered warning capability
TW200736930A (en) * 2006-03-29 2007-10-01 Mitac Int Corp Monitoring method for monitoring servers
TW200838212A (en) * 2007-03-13 2008-09-16 Inventec Corp Method for remotely monitoring system
TW200904034A (en) * 2007-07-13 2009-01-16 Chunghwa Telecom Co Ltd Centralized monitoring system and its method for integrated test equipment of measurement platform
TW200913569A (en) * 2007-09-07 2009-03-16 Inventec Corp Testing monitoring system and method
US20090187654A1 (en) * 2007-10-05 2009-07-23 Citrix Systems, Inc. Silicon Valley Systems and methods for monitoring components of a remote access server farm
TW200922201A (en) * 2007-11-13 2009-05-16 Jr Rack Co Ltd Monitoring system of server cabinet and over-temperature monitoring device thereof

Also Published As

Publication number Publication date
TW201115332A (en) 2011-05-01

Similar Documents

Publication Publication Date Title
CN104639380B (zh) 服务器监控方法
JP4762140B2 (ja) ループオーバライド付きプロセス装置、及び方法
CN106610712B (zh) 基板管理控制器复位系统及方法
CN103577298A (zh) 基板管理控制器监控系统及方法
CN102055615A (zh) 服务器监控方法
TWI414939B (zh) 伺服器監控方法
WO2024113962A1 (zh) 漏液检测线检测方法、系统、装置、服务器及电子设备
TWI494754B (zh) 伺服器監控裝置和其操作方法
JP5623449B2 (ja) 報告書作成装置、報告書作成プログラムおよび報告書作成方法
JP6138591B2 (ja) 制御システム
CN113448799A (zh) 计算机系统和/或控制系统的鲁棒监测
CN101741654B (zh) 操作系统的监控装置与方法
CN114691408B (zh) 一种基板管理控制器故障检测装置
CN109450491B (zh) 一种可温度监控的电缆调制解调器系统及其实现方法
CN115766392A (zh) 一种服务器故障预警方法、系统、电子设备及存储介质
JP2002231595A (ja) 半導体製造装置管理システム
TWI390398B (zh) 電腦運行狀態偵測及處理方法和系統
TWI497287B (zh) Monitoring Method and Design Method of Joint Information System
JP2017138752A (ja) プラントの運転支援装置、プラント計装システムおよびプラントの運転支援方法
CN115686156A (zh) 散热控制方法、装置、通信设备及存储介质
CN117092451A (zh) 一种故障电网节点定位方法、装置、设备及存储介质
CN116668673A (zh) 一种录像机的进程监测方法、装置、电子设备及介质
CN117687876A (zh) 故障指示装置及方法
CN103810081A (zh) 异常状态警示方法
KR20070109301A (ko) 반도체 설비 파라미터 감시 시스템 및 이를 이용한 반도체설비 시스템

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees