TW201516665A - 伺服器之系統錯誤資訊偵測系統及方法 - Google Patents

伺服器之系統錯誤資訊偵測系統及方法 Download PDF

Info

Publication number
TW201516665A
TW201516665A TW102131209A TW102131209A TW201516665A TW 201516665 A TW201516665 A TW 201516665A TW 102131209 A TW102131209 A TW 102131209A TW 102131209 A TW102131209 A TW 102131209A TW 201516665 A TW201516665 A TW 201516665A
Authority
TW
Taiwan
Prior art keywords
server
error
information
system error
error information
Prior art date
Application number
TW102131209A
Other languages
English (en)
Inventor
Song Ma
Wen-Jie Zhang
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW102131209A priority Critical patent/TW201516665A/zh
Publication of TW201516665A publication Critical patent/TW201516665A/zh

Links

Abstract

一種伺服器之系統錯誤資訊偵測系統及方法,該伺服器包括BMC晶片和BIOS晶片。該方法包括:在BMC晶片中定義系統錯誤碼與系統錯誤資訊之錯誤對照關係表;開啟BMC晶片與BIOS晶片之間的LPC匯流排,並在BIOS晶片中設置用於獲取伺服器之系統啟動資訊的端口埠;當伺服器正常啟動時,藉由LPC匯流排從端口埠中獲取伺服器之系統啟動資訊並保存在系統偵測檔案中;當伺服器發生故障時,利用系統偵測檔案從錯誤對照關係表中獲取系統錯誤碼;根據所述錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊。

Description

伺服器之系統錯誤資訊偵測系統及方法
本發明涉及一種電腦錯誤偵測系統及方法,尤其涉及一種伺服器之系統錯誤資訊偵測系統及方法。
伺服器之應用在當今資訊社會應用之越來越廣泛,其性能好,安全性高,從而得到了用戶之好評。在伺服器使用過程中,不論研發人員或用戶,都會地對伺服器進行開關機、重新啟動、強制關機、斷電等許多操作。這時,伺服器就有可能因為各種各樣之故障原因而無法進入作業系統,但卻不能確定具體之故障原因,無法繼續利用伺服器喚醒工作。當這樣之情況發生時,用戶經常需要將伺服器無法啟動之各種故障原因都考慮其中,花費大量時間來對伺服器進行系統故障修復,耗費時間非常巨大,影響了需要依靠伺服器來完成之工作。
對於伺服器不能進入作業系統之常用系統故障修復方法是利用調試卡(Debug card)插在伺服器的端口埠(例如Port 80)上來獲得伺服器之故障資訊,從而對伺服器進行調試修復。然而,這種方法對於普通用戶來說很難實現,並且不能將錯誤資訊保存下來,不方便用戶隨時查看故障原因。尤其對擁有大量伺服器之資料中心(Data Center)來說,這種系統故障修復方法更加耗時,並且成本較高,難以實現。
鑒於以上內容,有必要提供一種伺服器之系統錯誤資訊偵測系統及方法,能夠準確快速簡便地找出伺服器之系統故障原因,以便儘快完成伺服器之系統故障修復。
所述伺服器之系統錯誤資訊偵測系統,該伺服器包括BMC晶片及BIOS晶片。該系統包括:設置模組,用於定義一個系統錯誤碼與系統錯誤資訊之錯誤對照關係表,將該錯誤對照關係表保存在BMC晶片之儲存器中,開啟BMC晶片與BIOS晶片之間的LPC匯流排,及在BIOS晶片中設置一個用於獲取伺服器之系統啟動資訊的端口埠;偵測模組,用於當伺服器正常啟動時,藉由LPC匯流排從所述端口埠中即時獲取伺服器之系統啟動資訊,並將系統啟動資訊保存在所述儲存器之系統偵測檔案中,當伺服器發生故障時,利用所述系統偵測檔案從保存在所述錯誤對照關係表中獲取系統錯誤碼;解析模組,用於根據所述錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊,及將解析出的系統錯誤資訊記錄在伺服器之系統日誌表中。
所述伺服器之系統錯誤資訊偵測方法,該伺服器包括BMC晶片及BIOS晶片。該方法包括步驟:定義一個系統錯誤碼與系統錯誤資訊之錯誤對照關係表,並將該錯誤對照關係表保存在BMC晶片之儲存器中;開啟BMC晶片與BIOS晶片之間的LPC匯流排,並在BIOS晶片中設置一個用於獲取伺服器之系統啟動資訊的端口埠;當伺服器正常啟動時,藉由LPC匯流排從端口埠中即時獲取伺服器之系統啟動資訊,並將系統啟動資訊保存在儲存器之系統偵測檔案中;當伺服器發生故障時,利用系統偵測檔案從保存在所述錯誤對照關係表中獲取系統錯誤碼;根據所述錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊,並將解析出的系統錯誤資訊記錄在伺服器之系統日誌表中。
相較於習知技術,當伺服器在啟動過程中發生故障時,本發明所述之系統錯誤資訊偵測系統及方法能夠藉由BMC晶片來準確快速地找出系統故障之原因,其操作簡便高效,增強了伺服器自身之查錯能力,以便儘快完成伺服器之系統故障修復。這種方法不僅適用於伺服器開發之工作人員,而且同樣適用於使用伺服器之普通用戶。
1‧‧‧伺服器
10‧‧‧BMC晶片
100‧‧‧系統錯誤資訊偵測系統
111‧‧‧設置模組
112‧‧‧偵測模組
113‧‧‧解析模組
11‧‧‧BIOS晶片
12‧‧‧LPC匯流排
110‧‧‧儲存器
120‧‧‧微處理器
2‧‧‧遠端監控設備
3‧‧‧網路
圖1係本發明伺服器之系統錯誤資訊偵測系統較佳實施例之運行環境示意圖。
圖2係本發明伺服器之系統錯誤資訊偵測方法較佳實施例之流程圖。
圖3係一個儲存在BMC晶片之儲存器中之錯誤對照關係表之示意圖。
參閱圖1所示,係本發明系統錯誤資訊偵測系統100較佳實施例之運行環境示意圖。於本實施例中,所述之系統錯誤資訊偵測系統100安裝並運行於伺服器1中,該伺服器1還包括,但不僅限於,基板管理控制器(Baseboard Management Controller,BMC晶片)10及BIOS晶片11。該BMC晶片10和BIOS晶片11藉由LPC(Low Pin Count)匯流排12相互連接。該BMC晶片10包括,但不僅限於,儲存器110及微處理器120。該伺服器1藉由網路3與遠端監控設備2相連接。所述之遠端監控設備2為一種個人電腦(PC)、工作站電腦(Workstation computer)或者其他電子裝置。該遠端監控設備2用於用戶輸入偵測伺服器1之系統運行發生錯誤時之偵測指令,及顯示伺服器1發生之系統錯誤資訊。所述之網路3可以為一種網際網路(Internet)或者企業局域網路(Intranet)。
於本實施例中,所述之儲存器110為一種內置於BMC晶片10中之Flash儲存器或者EEPROM儲存器,用於儲存偵測伺服器1之錯誤對照關係表及系統偵測檔案。該錯誤對照表定義了伺服器1發生故障時之系統錯誤碼與系統錯誤資訊之對照關係。該系統偵測檔案用於儲存伺服器1正常啟動時從伺服器1獲取之系統啟動資訊,當伺服器1發生故障時,偵測伺服器1發生故障之系統錯誤資訊。所述之微處理器120是一種微控制器或其他具備資料處理能力之處理晶片。
於本實施例中,所述之系統錯誤資訊偵測系統100包括設置模組111、偵測模組112及解析模組113。本發明所稱之功能模組係指一種能夠被微處理器120所執行並且能夠完成固定功能之一系列程式指令段,其儲存在儲存器110中。關於各功能模組111-113將在圖2之流程圖中作具體描述。
參閱圖2所示,係本發明伺服器之系統錯誤資訊偵測方法較佳實施例之流程圖。於本實施例中,當伺服器1在啟動過程中發生故障時,該方法藉由BMC晶片10來準確快速地找出伺服器1之系統故障原因,其操作簡便高效,增強了伺服器1自身之查錯能力。
步驟S21,設置模組111定義一個系統錯誤碼與系統錯誤資訊之錯誤對照關係表,並將該錯誤對照關係表保存在BMC晶片10之儲存器110中。參考圖3所示,係為一個儲存在儲存器110中之錯誤對照關係表之示意圖。該錯誤對照表定義了伺服器1發生故障時之系統錯誤碼與系統錯誤資訊之對照關係,例如定義了CPU錯誤、記憶體錯誤、硬碟錯誤、顯示卡錯誤及音效卡錯誤之系統錯誤碼,其分別為:EC00001、EC00002、EC00003、EC00004及EC00005等。
步驟S22,設置模組111開啟BMC晶片10與BIOS晶片11之間的LPC匯流排12,並在BIOS晶片11中設置一個用於獲取伺服器1之系統啟動資訊的端口埠。於本實施例中,該端口埠設置為第80號端口埠(例如Port: 80),用於當伺服器1正常啟動時,BMC晶片10透過該埠獲取伺服器1之系統啟動資訊。
步驟S23,當伺服器1正常啟動時,偵測模組112藉由LPC匯流排12從所述端口埠中即時獲取伺服器1之系統啟動資訊,並將系統啟動資訊保存在儲存器110之系統偵測檔案(Sensor file)中。於本實施例中,所述之系統偵測檔案由BMC晶片10建立,並儲存在BMC晶片10之儲存器110中。當伺服器1正常啟動時,該系統偵測檔案用於保存從伺服器1獲取之系統啟動資訊;當伺服器1發生故障時,該系統偵測檔案用於偵測伺服器1發生故障之系統錯誤資訊。
步驟S24,當伺服器發生故障時,偵測模組112利用系統偵測檔案從BMC晶片10中之錯誤對照關係表中獲取系統錯誤碼。於本實施例中,偵測模組112判斷所述系統偵測檔案中之系統啟動資訊是否被正常記錄,當伺服器1之硬體設備(例如儲存器)之啟動資訊沒有被正常記錄到系統偵測檔案中,偵測模組112即從所述錯誤對照關係表中獲取該硬體設備之系統錯誤碼(例如EC00002)。
步驟S25,解析模組113根據BMC晶片10中之錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊。參考如圖3所示,假如獲取之系統錯誤碼為EC00002,則解析模組113根據該錯誤對照關係表解析出之系統錯誤資訊為記憶體(Memory)錯誤。
步驟S26,解析模組113將解析出的系統錯誤資訊記錄在伺服器1之系統日誌表中,並將該系統錯誤資訊藉由網路3顯示在遠端監控設備2上。當得到伺服器1之系統錯誤資訊後,解析模組113將藉由網路流覽器(Web GUI)之形式直觀將伺服器1之系統錯誤資訊顯示在遠端監控設備2上,同時也會以系統日誌表(SEL)之形式將錯誤類型記錄下來,方便用戶後續藉由多種不同之途徑來查看伺服器1之系統故障原因。另,用戶也可藉由IPMI命令來讀取保存錯誤對照關係表中之系統錯誤碼來獲取伺服器1之系統故障原因。
以上所述僅為本發明之較佳實施例而已,且已達廣泛之使用功效,凡其他未脫離本發明所揭示之精神下所完成之均等轉換或修飾,均應包含於下述之申請專利範圍內。
1‧‧‧伺服器
10‧‧‧BMC晶片
100‧‧‧系統錯誤資訊偵測系統
111‧‧‧設置模組
112‧‧‧偵測模組
113‧‧‧解析模組
11‧‧‧BIOS晶片
12‧‧‧LPC匯流排
110‧‧‧儲存器
120‧‧‧微處理器
2‧‧‧遠端監控設備
3‧‧‧網路

Claims (10)

  1. 一種伺服器之系統錯誤資訊偵測系統,該伺服器包括BMC晶片及BIOS晶片,該系統錯誤資訊偵測系統包括:
    設置模組,用於定義一個系統錯誤碼與系統錯誤資訊之錯誤對照關係表,將該錯誤對照關係表保存在BMC晶片之儲存器中,開啟BMC晶片與BIOS晶片之間的LPC匯流排,及在BIOS晶片中設置一個用於獲取伺服器之系統啟動資訊的端口埠;
    偵測模組,用於當伺服器正常啟動時,藉由LPC匯流排從所述端口埠中即時獲取伺服器之系統啟動資訊,並將系統啟動資訊保存在所述儲存器之系統偵測檔案中,當伺服器發生故障時,利用所述系統偵測檔案從保存在所述錯誤對照關係表中獲取系統錯誤碼;及
    解析模組,用於根據所述錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊,及將解析出的系統錯誤資訊記錄在伺服器之系統日誌表中。
  2. 如申請專利範圍第1項所述之系統錯誤資訊偵測系統,其中,所述之解析模組還用於將伺服器之系統錯誤資訊藉由網路顯示在遠端監控設備上。
  3. 如申請專利範圍第1項所述之系統錯誤資訊偵測系統,其中,所述之系統偵測檔案由BMC晶片建立,並儲存在BMC晶片之儲存器中。
  4. 如申請專利範圍第1項所述之系統錯誤資訊偵測系統,當伺服器正常啟動時,所述之系統偵測檔案用於保存從伺服器獲取之系統啟動資訊,當伺服器發生故障時,所述之系統偵測檔案用於偵測伺服器發生故障之系統錯誤資訊。
  5. 如申請專利範圍第1項所述之系統錯誤資訊偵測系統,其中,所述之從錯誤對照關係表中獲取系統錯誤碼之步驟包括:
    判斷所述系統偵測檔案中之系統啟動資訊是否被正常記錄;及
    當伺服器之硬體設備之系統啟動資訊沒有被正常記錄到系統偵測檔案中時,從所述錯誤對照關係表中獲取該硬體設備對應之系統錯誤碼。
  6. 一種伺服器之系統錯誤資訊偵測方法,該伺服器包括BMC晶片及BIOS晶片,該方法包括步驟:
    定義一個系統錯誤碼與系統錯誤資訊之錯誤對照關係表,並將該錯誤對照關係表保存在BMC晶片之儲存器中;
    開啟BMC晶片與BIOS晶片之間的LPC匯流排,並在BIOS晶片中設置一個用於獲取伺服器之系統啟動資訊的端口埠;
    當伺服器正常啟動時,藉由LPC匯流排從所述端口埠中即時獲取伺服器之系統啟動資訊,並將系統啟動資訊保存在所述儲存器之系統偵測檔案中;
    當伺服器發生故障時,利用所述系統偵測檔案從保存在所述錯誤對照關係表中獲取系統錯誤碼;及
    根據所述錯誤對照關係表解析出獲取之系統錯誤碼對應之系統錯誤資訊,及將解析出的系統錯誤資訊記錄在伺服器之系統日誌表中。
  7. 如申請專利範圍第6項所述之系統錯誤資訊偵測方法,該方法還包括步驟:將伺服器之系統錯誤資訊藉由網路顯示在遠端監控設備上。
  8. 如申請專利範圍第6項所述之系統錯誤資訊偵測方法,其中,所述之系統偵測檔案由BMC晶片建立,並儲存在BMC晶片之儲存器中。
  9. 如申請專利範圍第6項所述之系統錯誤資訊偵測方法,當伺服器正常啟動時,所述之系統偵測檔案用於保存從伺服器獲取之系統啟動資訊,當伺服器發生故障時,所述之系統偵測檔案用於偵測伺服器發生故障之系統錯誤資訊。
  10. 如申請專利範圍第6項所述之系統錯誤資訊偵測方法,其中,所述之從錯誤對照關係表中獲取系統錯誤碼之步驟包括:
    判斷所述系統偵測檔案中之系統啟動資訊是否被正常記錄;及
    當伺服器之硬體設備之系統啟動資訊沒有被正常記錄到系統偵測檔案中時,從所述錯誤對照關係表中獲取該硬體設備對應之系統錯誤碼。
TW102131209A 2013-08-30 2013-08-30 伺服器之系統錯誤資訊偵測系統及方法 TW201516665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW102131209A TW201516665A (zh) 2013-08-30 2013-08-30 伺服器之系統錯誤資訊偵測系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102131209A TW201516665A (zh) 2013-08-30 2013-08-30 伺服器之系統錯誤資訊偵測系統及方法

Publications (1)

Publication Number Publication Date
TW201516665A true TW201516665A (zh) 2015-05-01

Family

ID=53720326

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102131209A TW201516665A (zh) 2013-08-30 2013-08-30 伺服器之系統錯誤資訊偵測系統及方法

Country Status (1)

Country Link
TW (1) TW201516665A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912432A (zh) * 2016-04-05 2016-08-31 浪潮电子信息产业股份有限公司 一种服务器故障检测方法、装置及系统
TWI587128B (zh) * 2016-05-11 2017-06-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料自動提供方法
TWI611289B (zh) * 2015-10-23 2018-01-11 神雲科技股份有限公司 伺服器及其偵錯方法
CN111651321A (zh) * 2020-05-26 2020-09-11 深圳市同泰怡信息技术有限公司 系统事件记录解析的方法、装置、存储介质和计算机设备
TWI739603B (zh) * 2020-09-18 2021-09-11 英業達股份有限公司 對伺服器測試時的監控與問題分析系統及其方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI611289B (zh) * 2015-10-23 2018-01-11 神雲科技股份有限公司 伺服器及其偵錯方法
CN105912432A (zh) * 2016-04-05 2016-08-31 浪潮电子信息产业股份有限公司 一种服务器故障检测方法、装置及系统
TWI587128B (zh) * 2016-05-11 2017-06-11 神雲科技股份有限公司 用於電腦裝置的錯誤狀態資料自動提供方法
US10498592B2 (en) 2016-05-11 2019-12-03 Mitac Computing Technology Corporation Method and baseboard management control system for automatically providing error status data
CN111651321A (zh) * 2020-05-26 2020-09-11 深圳市同泰怡信息技术有限公司 系统事件记录解析的方法、装置、存储介质和计算机设备
TWI739603B (zh) * 2020-09-18 2021-09-11 英業達股份有限公司 對伺服器測試時的監控與問題分析系統及其方法

Similar Documents

Publication Publication Date Title
US9569325B2 (en) Method and system for automated test and result comparison
EP3121726B1 (en) Fault processing method, related device and computer
CN104424084A (zh) 服务器的系统错误信息侦测系统及方法
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
US20110276829A1 (en) Client server and method for monitoring function tests thereof
US10296434B2 (en) Bus hang detection and find out
TW201500935A (zh) 機櫃伺服器基板管理控制器開關機控制系統及方法
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
TW201327136A (zh) 伺服器測試系統及伺服器穩定性測試方法
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
TW201417536A (zh) 伺服器自動管理方法及系統
JPWO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
TW201423385A (zh) 電腦測試系統及方法
US8726088B2 (en) Method for processing booting errors
US20150149753A1 (en) Server and inspecting method thereof
CN107590017B (zh) 一种电子设备的检测方法和装置
TW201500919A (zh) 基板管理控制器遠端調試系統及方法
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
CN110187922B (zh) 设置并验证bios参数的方法、装置、设备及存储介质
JP6238221B2 (ja) ソフトウェアの実行を監視する装置、方法およびプログラム
US20140379162A1 (en) Server system and monitoring method
US20220345360A1 (en) Fault Locating Method, Apparatus And System Based On I2C Communication
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
TW201500911A (zh) 除錯裝置及除錯方法
TWI469576B (zh) 用戶端伺服器及對其功能測試全程監測的方法