TW201712543A - 伺服器故障檢測裝置及方法 - Google Patents

伺服器故障檢測裝置及方法 Download PDF

Info

Publication number
TW201712543A
TW201712543A TW104131968A TW104131968A TW201712543A TW 201712543 A TW201712543 A TW 201712543A TW 104131968 A TW104131968 A TW 104131968A TW 104131968 A TW104131968 A TW 104131968A TW 201712543 A TW201712543 A TW 201712543A
Authority
TW
Taiwan
Prior art keywords
fault
server
management controller
baseboard management
output system
Prior art date
Application number
TW104131968A
Other languages
English (en)
Inventor
黃育成
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Priority to TW104131968A priority Critical patent/TW201712543A/zh
Priority to US14/922,934 priority patent/US20170091017A1/en
Publication of TW201712543A publication Critical patent/TW201712543A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Stored Programmes (AREA)

Abstract

一種伺服器故障檢測裝置,包括一基板管理控制器。該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。本發明還提供一種伺服器故障檢測方法。

Description

伺服器故障檢測裝置及方法
本發明涉及一種伺服器故障檢測裝置,還涉及一種伺服器故障檢測方法。
伺服器啟動時,伺服器的中央處理器會從串列外設介面晶片中下載BIOS並將其解壓至系統記憶體,之後再執行系統初始化及自檢,自檢時讀取VBIOS初始化顯示晶片後才能點亮螢幕,在這個過程中如果某個流程出現故障,如使用者CPU頻率設定錯誤或VGA顯示晶片設定錯誤,由於螢幕尚未電量系統將無法顯示故障代碼,使用者需要較長時間確定故障原因後方能解決故障。
鑒於此,有必要提供一種可以回饋故障原因並自行修復故障的伺服器故障檢測裝置及方法。
一種伺服器故障檢測裝置,包括:
一基板管理控制器,該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。
一種伺服器故障檢測方法,包括以下步驟:
伺服器開機;
伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
該伺服器故障檢測裝置可以在BIOS遭遇故障無法點亮螢幕時協助使用者瞭解故障原因並自動嘗試修復故障。
圖1為本發明伺服器故障檢測裝置的較佳實施方式的方框圖。
圖2為本發明伺服器故障檢測方法的較佳實施方式的流程圖。
請參考圖1,本發明伺服器故障檢測裝置10應用於一伺服器100中。該伺服器故障檢測裝置10包括基板管理控制器11。該基板管理控制器11與該伺服器100的基本輸入輸出系統101相連。該基板管理控制器11用於接收伺服器100的基本輸入輸出系統101的執行狀態。該基板管理控制器11還預設有伺服器100的基本輸入輸出系統101的若干故障類型以及對應該若干故障類型的若干預設方案。當該基本輸入輸出系統101輸出第一故障訊號時,該基板管理控制器11識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。
本實施方式中,該基板管理控制器11預設有若干種該基本輸入輸出系統101的故障類型。該故障類型包括但不限於主機殼侵入故障、CPU初始化故障、CPU頻率設定故障、CPU緩存初始化故障、VBIOS初始化故障、記憶體初始化故障、記憶體容量故障、硬碟初始化故障、PCI外接設備故障、USB外接設備故障、VBIOS崩潰故障、平臺控制器初始化故障、節點管理控制器故障等。
本實施方式中,當該基板管理控制器11識別故障為主機殼侵入故障時,該基板管理控制器11調用第一預設方案,該基板管理控制器11確認該主機殼是否安裝正確,若主機殼安裝正確,該基板管理控制器11清除該主機殼侵入故障記錄以繼續開機流程。
當該基板管理控制器11識別故障為CPU初始化故障時,該基板管理控制器11依據伺服器100寄存器設定表將寄存器相關設定值填入寄存器,並輸出訊號至CPU重啟引腳控制CPU重啟。
當該基板管理控制器11識別故障為CPU頻率設定故障時,該基板管理控制器11查詢此時CPU頻率設定,若設定異常則從伺服器100的主機板CMOS ROM中讀取CPU頻率。
當該基板管理控制器11識別故障為CPU緩存初始化故障時,該基板管理控制器11查詢該伺服器100的CPU緩存設定,若設定異常則重新設定緩存。
當該基板管理控制器11識別故障為VBIOS初始化故障時,該基板管理控制器11判斷是否有獨立顯卡,若不存在獨立顯卡,則該基板管理控制器11將視頻輸出選項設定為由CPU輸出圖像,若存在獨立顯卡,則將獨立顯卡重啟。
當該基板管理控制器11識別故障為記憶體初始化故障時,讀取記憶體上的ROM獲取記憶體規格資訊,並將該規格資訊與伺服器100設定值比較,若存在差異則將伺服器100的設定值修改為獲取的記憶體規格資訊。
當該基板管理控制器11識別故障為記憶體容量故障時,該基板管理控制器11讀取記憶體上的ROM獲取記憶體規格資訊,並將該規格資訊與伺服器100設定值比較,若存在差異則將伺服器100的設定值修改為獲取的記憶體規格資訊。
當該基板管理控制器11識別故障為硬碟初始化故障時,該基板管理控制器11檢查硬碟的控制器設定。
當該基板管理控制器11識別故障為PCI外接設備故障時,掃描PCI設備並將異常PCI設備資訊輸出至該基板管理控制器11。
當該基板管理控制器11識別故障為USB外接設備故障時,掃描USB設備並將異常USB設備資訊輸出至該基板管理控制器11,將此USB設備禁用並重新初始化。
當該基板管理控制器11識別故障為VBIOS崩潰故障時,該基本輸入輸出系統101從備用的ROM中讀取VBIOS。
當該基板管理控制器11識別故障為平臺控制器故障時,基本輸入輸出系統101檢測該平臺控制器是否有回饋以判斷硬體是否正常。
當該基板管理控制器11識別故障為節點控制器故障時,該基板管理控制器11利用IPMB介面對節點控制器進行測試,若異常則該基板管理控制器11對該節點控制器進行軟體更新。
請參考圖2, 本發明伺服器故障檢測方法200的較佳實施方式包括步驟S10-S16:
S10:伺服器開機;
S12:伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
S14:該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
S16:若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
綜上所述,本發明符合發明專利要件,爰依法提出專利申請。惟,以上所述者僅為本發明之較佳實施例,舉凡熟悉本案技藝之人士,在爰依本發明精神所作之等效修飾或變化,皆應涵蓋於以下之申請專利範圍內。
100‧‧‧伺服器
10‧‧‧伺服器故障檢測裝置
11‧‧‧基板管理控制器
101‧‧‧基本輸入輸出系統
200‧‧‧伺服器故障檢測方法
100‧‧‧伺服器
10‧‧‧伺服器故障檢測裝置
11‧‧‧基板管理控制器
101‧‧‧基本輸入輸出系統
200‧‧‧伺服器故障檢測方法

Claims (5)

  1. 一種伺服器故障檢測裝置,包括:
    一基板管理控制器,該基板管理控制器與伺服器基本輸入輸出系統相連,該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。
  2. 如申請專利範圍第1項所述之伺服器故障檢測裝置,其中該第一故障類型為主機殼侵入故障。
  3. 如申請專利範圍第1項所述之伺服器故障檢測裝置,當該伺服器基本輸入輸出系統輸出第二故障訊號時,該基板管理控制器識別第二故障訊號確定故障為第二故障類型並執行對應的第二預設方案。
  4. 如申請專利範圍第1項所述之伺服器故障檢測裝置,其中該第二故障類型為CPU初始化故障。
  5. 一種伺服器故障檢測方法,包括以下步驟:
    伺服器開機;
    伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
    該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
    若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
TW104131968A 2015-09-29 2015-09-29 伺服器故障檢測裝置及方法 TW201712543A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104131968A TW201712543A (zh) 2015-09-29 2015-09-29 伺服器故障檢測裝置及方法
US14/922,934 US20170091017A1 (en) 2015-09-29 2015-10-26 Fault detecting device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104131968A TW201712543A (zh) 2015-09-29 2015-09-29 伺服器故障檢測裝置及方法

Publications (1)

Publication Number Publication Date
TW201712543A true TW201712543A (zh) 2017-04-01

Family

ID=58409470

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104131968A TW201712543A (zh) 2015-09-29 2015-09-29 伺服器故障檢測裝置及方法

Country Status (2)

Country Link
US (1) US20170091017A1 (zh)
TW (1) TW201712543A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端
CN112256467A (zh) * 2020-10-23 2021-01-22 英业达科技有限公司 错误类型判断系统及其方法
TWI750442B (zh) * 2019-01-15 2021-12-21 緯穎科技服務股份有限公司 韌體安全防護方法與使用此方法的電子系統

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832167B (zh) * 2017-11-30 2021-04-13 郑州云海信息技术有限公司 一种bmc故障导致无法开机的恢复方法及系统
CN111581058B (zh) * 2020-05-09 2024-03-19 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN112379615B (zh) * 2020-10-27 2022-05-20 许继集团有限公司 对开入回路总线收发器芯片故障进行检测的电路及方法
CN114090095B (zh) * 2022-01-19 2022-05-24 苏州浪潮智能科技有限公司 一种多路服务器中cpu的bios加载方法及相关组件

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519698B1 (en) * 1999-10-06 2003-02-11 Micron Technology, Inc. Method for saving system configuration information to shorten computer system initialization time by checking the state of a chassis intrusion detection circuit
US6640316B1 (en) * 2000-05-23 2003-10-28 Dell Products L.P. Boot recovery of simple boot BIOS
US8839040B2 (en) * 2011-12-21 2014-09-16 Inventec Corporation Computer system and detecting-alarming method thereof
TW201351133A (zh) * 2012-06-13 2013-12-16 Hon Hai Prec Ind Co Ltd 系統事件讀取方法及系統
US20140344431A1 (en) * 2013-05-16 2014-11-20 Aspeed Technology Inc. Baseboard management system architecture
CN104424044A (zh) * 2013-09-06 2015-03-18 鸿富锦精密工业(深圳)有限公司 伺服器系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI750442B (zh) * 2019-01-15 2021-12-21 緯穎科技服務股份有限公司 韌體安全防護方法與使用此方法的電子系統
US11341249B2 (en) 2019-01-15 2022-05-24 Wiwynn Corporation Firmware security guarding method and electronic system using the same
CN111949430A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端
CN112256467A (zh) * 2020-10-23 2021-01-22 英业达科技有限公司 错误类型判断系统及其方法

Also Published As

Publication number Publication date
US20170091017A1 (en) 2017-03-30

Similar Documents

Publication Publication Date Title
TW201712543A (zh) 伺服器故障檢測裝置及方法
US10423425B2 (en) System and method for runtime update of ESRT table for hot-pluggable disks
CN106598635B (zh) 基板管理控制器的恢复方法及基板管理控制器
US10031736B2 (en) Automatic system software installation on boot
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US10877845B2 (en) Apparatus and method for diagnostic use of BIOS attributes to remediate configuration issues
US20040143776A1 (en) Hot plug interfaces and failure handling
US10789141B2 (en) Information processing device and information processing method
WO2016206514A1 (zh) 启动处理方法及装置
TWI685735B (zh) 在電腦系統開機自我檢測的早期階段顯示bios訊息的方法
US9372702B2 (en) Non-disruptive code update of a single processor in a multi-processor computing system
US11797389B2 (en) System and method for recovering an operating system after an upgrade hang using a dual-flash device
CN105814541A (zh) 计算机设备及计算机设备内存启动的方法
US20180210783A1 (en) Information processing apparatus, control method of the same, and storage medium
US11550655B2 (en) System and method for monitoring and upgrading a dual-flash device
US8838952B2 (en) Information processing apparatus with secure boot capability capable of verification of configuration change
US20210365323A1 (en) System and method for recovering an operating system after a runtime hang using a dual-flash device
US20210365270A1 (en) System and method for operating system installation using a dual-flash device
CN106557392A (zh) 服务器故障检测装置及方法
JP5561791B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
TWI779682B (zh) 電腦系統、電腦伺服器及其啟動方法
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
US20200159646A1 (en) Information processing apparatus
CN113867812B (zh) 一种bmc获取链路信息的方法、系统、设备以及介质
TWI839101B (zh) 韌體的更新方法