TW201712543A - 伺服器故障檢測裝置及方法 - Google Patents
伺服器故障檢測裝置及方法 Download PDFInfo
- Publication number
- TW201712543A TW201712543A TW104131968A TW104131968A TW201712543A TW 201712543 A TW201712543 A TW 201712543A TW 104131968 A TW104131968 A TW 104131968A TW 104131968 A TW104131968 A TW 104131968A TW 201712543 A TW201712543 A TW 201712543A
- Authority
- TW
- Taiwan
- Prior art keywords
- fault
- server
- management controller
- baseboard management
- output system
- Prior art date
Links
- 238000000034 method Methods 0.000 title abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 239000000758 substrate Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2284—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Stored Programmes (AREA)
Abstract
一種伺服器故障檢測裝置,包括一基板管理控制器。該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。本發明還提供一種伺服器故障檢測方法。
Description
本發明涉及一種伺服器故障檢測裝置,還涉及一種伺服器故障檢測方法。
伺服器啟動時,伺服器的中央處理器會從串列外設介面晶片中下載BIOS並將其解壓至系統記憶體,之後再執行系統初始化及自檢,自檢時讀取VBIOS初始化顯示晶片後才能點亮螢幕,在這個過程中如果某個流程出現故障,如使用者CPU頻率設定錯誤或VGA顯示晶片設定錯誤,由於螢幕尚未電量系統將無法顯示故障代碼,使用者需要較長時間確定故障原因後方能解決故障。
鑒於此,有必要提供一種可以回饋故障原因並自行修復故障的伺服器故障檢測裝置及方法。
一種伺服器故障檢測裝置,包括:
一基板管理控制器,該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。
一種伺服器故障檢測方法,包括以下步驟:
伺服器開機;
伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
該伺服器故障檢測裝置可以在BIOS遭遇故障無法點亮螢幕時協助使用者瞭解故障原因並自動嘗試修復故障。
圖1為本發明伺服器故障檢測裝置的較佳實施方式的方框圖。
圖2為本發明伺服器故障檢測方法的較佳實施方式的流程圖。
請參考圖1,本發明伺服器故障檢測裝置10應用於一伺服器100中。該伺服器故障檢測裝置10包括基板管理控制器11。該基板管理控制器11與該伺服器100的基本輸入輸出系統101相連。該基板管理控制器11用於接收伺服器100的基本輸入輸出系統101的執行狀態。該基板管理控制器11還預設有伺服器100的基本輸入輸出系統101的若干故障類型以及對應該若干故障類型的若干預設方案。當該基本輸入輸出系統101輸出第一故障訊號時,該基板管理控制器11識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。
本實施方式中,該基板管理控制器11預設有若干種該基本輸入輸出系統101的故障類型。該故障類型包括但不限於主機殼侵入故障、CPU初始化故障、CPU頻率設定故障、CPU緩存初始化故障、VBIOS初始化故障、記憶體初始化故障、記憶體容量故障、硬碟初始化故障、PCI外接設備故障、USB外接設備故障、VBIOS崩潰故障、平臺控制器初始化故障、節點管理控制器故障等。
本實施方式中,當該基板管理控制器11識別故障為主機殼侵入故障時,該基板管理控制器11調用第一預設方案,該基板管理控制器11確認該主機殼是否安裝正確,若主機殼安裝正確,該基板管理控制器11清除該主機殼侵入故障記錄以繼續開機流程。
當該基板管理控制器11識別故障為CPU初始化故障時,該基板管理控制器11依據伺服器100寄存器設定表將寄存器相關設定值填入寄存器,並輸出訊號至CPU重啟引腳控制CPU重啟。
當該基板管理控制器11識別故障為CPU頻率設定故障時,該基板管理控制器11查詢此時CPU頻率設定,若設定異常則從伺服器100的主機板CMOS ROM中讀取CPU頻率。
當該基板管理控制器11識別故障為CPU緩存初始化故障時,該基板管理控制器11查詢該伺服器100的CPU緩存設定,若設定異常則重新設定緩存。
當該基板管理控制器11識別故障為VBIOS初始化故障時,該基板管理控制器11判斷是否有獨立顯卡,若不存在獨立顯卡,則該基板管理控制器11將視頻輸出選項設定為由CPU輸出圖像,若存在獨立顯卡,則將獨立顯卡重啟。
當該基板管理控制器11識別故障為記憶體初始化故障時,讀取記憶體上的ROM獲取記憶體規格資訊,並將該規格資訊與伺服器100設定值比較,若存在差異則將伺服器100的設定值修改為獲取的記憶體規格資訊。
當該基板管理控制器11識別故障為記憶體容量故障時,該基板管理控制器11讀取記憶體上的ROM獲取記憶體規格資訊,並將該規格資訊與伺服器100設定值比較,若存在差異則將伺服器100的設定值修改為獲取的記憶體規格資訊。
當該基板管理控制器11識別故障為硬碟初始化故障時,該基板管理控制器11檢查硬碟的控制器設定。
當該基板管理控制器11識別故障為PCI外接設備故障時,掃描PCI設備並將異常PCI設備資訊輸出至該基板管理控制器11。
當該基板管理控制器11識別故障為USB外接設備故障時,掃描USB設備並將異常USB設備資訊輸出至該基板管理控制器11,將此USB設備禁用並重新初始化。
當該基板管理控制器11識別故障為VBIOS崩潰故障時,該基本輸入輸出系統101從備用的ROM中讀取VBIOS。
當該基板管理控制器11識別故障為平臺控制器故障時,基本輸入輸出系統101檢測該平臺控制器是否有回饋以判斷硬體是否正常。
當該基板管理控制器11識別故障為節點控制器故障時,該基板管理控制器11利用IPMB介面對節點控制器進行測試,若異常則該基板管理控制器11對該節點控制器進行軟體更新。
請參考圖2, 本發明伺服器故障檢測方法200的較佳實施方式包括步驟S10-S16:
S10:伺服器開機;
S12:伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
S14:該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
S16:若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
綜上所述,本發明符合發明專利要件,爰依法提出專利申請。惟,以上所述者僅為本發明之較佳實施例,舉凡熟悉本案技藝之人士,在爰依本發明精神所作之等效修飾或變化,皆應涵蓋於以下之申請專利範圍內。
100‧‧‧伺服器
10‧‧‧伺服器故障檢測裝置
11‧‧‧基板管理控制器
101‧‧‧基本輸入輸出系統
200‧‧‧伺服器故障檢測方法
無
100‧‧‧伺服器
10‧‧‧伺服器故障檢測裝置
11‧‧‧基板管理控制器
101‧‧‧基本輸入輸出系統
200‧‧‧伺服器故障檢測方法
Claims (5)
- 一種伺服器故障檢測裝置,包括:
一基板管理控制器,該基板管理控制器與伺服器基本輸入輸出系統相連,該基板管理控制器用於接收伺服器的基本輸入輸出系統的執行狀態,該基板管理控制器還預設有伺服器基本輸入輸出系統若干故障類型以及對應該若干故障類型的若干預設方案,當該伺服器基本輸入輸出系統輸出第一故障訊號時,該基板管理控制器識別第一故障訊號確定故障為第一故障類型並執行對應的第一預設方案。 - 如申請專利範圍第1項所述之伺服器故障檢測裝置,其中該第一故障類型為主機殼侵入故障。
- 如申請專利範圍第1項所述之伺服器故障檢測裝置,當該伺服器基本輸入輸出系統輸出第二故障訊號時,該基板管理控制器識別第二故障訊號確定故障為第二故障類型並執行對應的第二預設方案。
- 如申請專利範圍第1項所述之伺服器故障檢測裝置,其中該第二故障類型為CPU初始化故障。
- 一種伺服器故障檢測方法,包括以下步驟:
伺服器開機;
伺服器基本輸入輸出系統輸出代表伺服器的基本輸入輸出系統的執行狀態的訊號至基板管理控制器;
該基板管理控制器判斷該伺服器的基本輸入輸出系統執行狀態是否異常;
若該伺服器的基本輸入輸出系統執行狀態異常,該基板管理控制器調用並執行與異常狀態對應的解決方案。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104131968A TW201712543A (zh) | 2015-09-29 | 2015-09-29 | 伺服器故障檢測裝置及方法 |
US14/922,934 US20170091017A1 (en) | 2015-09-29 | 2015-10-26 | Fault detecting device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104131968A TW201712543A (zh) | 2015-09-29 | 2015-09-29 | 伺服器故障檢測裝置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201712543A true TW201712543A (zh) | 2017-04-01 |
Family
ID=58409470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104131968A TW201712543A (zh) | 2015-09-29 | 2015-09-29 | 伺服器故障檢測裝置及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170091017A1 (zh) |
TW (1) | TW201712543A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949430A (zh) * | 2020-08-27 | 2020-11-17 | 英业达科技有限公司 | 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端 |
CN112256467A (zh) * | 2020-10-23 | 2021-01-22 | 英业达科技有限公司 | 错误类型判断系统及其方法 |
TWI750442B (zh) * | 2019-01-15 | 2021-12-21 | 緯穎科技服務股份有限公司 | 韌體安全防護方法與使用此方法的電子系統 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832167B (zh) * | 2017-11-30 | 2021-04-13 | 郑州云海信息技术有限公司 | 一种bmc故障导致无法开机的恢复方法及系统 |
CN111581058B (zh) * | 2020-05-09 | 2024-03-19 | 西安易朴通讯技术有限公司 | 故障管理方法、装置、设备及计算机可读存储介质 |
CN112379615B (zh) * | 2020-10-27 | 2022-05-20 | 许继集团有限公司 | 对开入回路总线收发器芯片故障进行检测的电路及方法 |
CN114090095B (zh) * | 2022-01-19 | 2022-05-24 | 苏州浪潮智能科技有限公司 | 一种多路服务器中cpu的bios加载方法及相关组件 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6519698B1 (en) * | 1999-10-06 | 2003-02-11 | Micron Technology, Inc. | Method for saving system configuration information to shorten computer system initialization time by checking the state of a chassis intrusion detection circuit |
US6640316B1 (en) * | 2000-05-23 | 2003-10-28 | Dell Products L.P. | Boot recovery of simple boot BIOS |
US8839040B2 (en) * | 2011-12-21 | 2014-09-16 | Inventec Corporation | Computer system and detecting-alarming method thereof |
TW201351133A (zh) * | 2012-06-13 | 2013-12-16 | Hon Hai Prec Ind Co Ltd | 系統事件讀取方法及系統 |
US20140344431A1 (en) * | 2013-05-16 | 2014-11-20 | Aspeed Technology Inc. | Baseboard management system architecture |
CN104424044A (zh) * | 2013-09-06 | 2015-03-18 | 鸿富锦精密工业(深圳)有限公司 | 伺服器系统 |
-
2015
- 2015-09-29 TW TW104131968A patent/TW201712543A/zh unknown
- 2015-10-26 US US14/922,934 patent/US20170091017A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI750442B (zh) * | 2019-01-15 | 2021-12-21 | 緯穎科技服務股份有限公司 | 韌體安全防護方法與使用此方法的電子系統 |
US11341249B2 (en) | 2019-01-15 | 2022-05-24 | Wiwynn Corporation | Firmware security guarding method and electronic system using the same |
CN111949430A (zh) * | 2020-08-27 | 2020-11-17 | 英业达科技有限公司 | 基于gpnv的基本输入输出系统错误信息记录方法、系统及终端 |
CN112256467A (zh) * | 2020-10-23 | 2021-01-22 | 英业达科技有限公司 | 错误类型判断系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US20170091017A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201712543A (zh) | 伺服器故障檢測裝置及方法 | |
US10423425B2 (en) | System and method for runtime update of ESRT table for hot-pluggable disks | |
CN106598635B (zh) | 基板管理控制器的恢复方法及基板管理控制器 | |
US10031736B2 (en) | Automatic system software installation on boot | |
CN107122321B (zh) | 硬件修复方法、硬件修复系统以及计算机可读取存储装置 | |
US10877845B2 (en) | Apparatus and method for diagnostic use of BIOS attributes to remediate configuration issues | |
US20040143776A1 (en) | Hot plug interfaces and failure handling | |
US10789141B2 (en) | Information processing device and information processing method | |
WO2016206514A1 (zh) | 启动处理方法及装置 | |
TWI685735B (zh) | 在電腦系統開機自我檢測的早期階段顯示bios訊息的方法 | |
US9372702B2 (en) | Non-disruptive code update of a single processor in a multi-processor computing system | |
US11797389B2 (en) | System and method for recovering an operating system after an upgrade hang using a dual-flash device | |
CN105814541A (zh) | 计算机设备及计算机设备内存启动的方法 | |
US20180210783A1 (en) | Information processing apparatus, control method of the same, and storage medium | |
US11550655B2 (en) | System and method for monitoring and upgrading a dual-flash device | |
US8838952B2 (en) | Information processing apparatus with secure boot capability capable of verification of configuration change | |
US20210365323A1 (en) | System and method for recovering an operating system after a runtime hang using a dual-flash device | |
US20210365270A1 (en) | System and method for operating system installation using a dual-flash device | |
CN106557392A (zh) | 服务器故障检测装置及方法 | |
JP5561791B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
TWI779682B (zh) | 電腦系統、電腦伺服器及其啟動方法 | |
TWI554876B (zh) | 節點置換處理方法與使用其之伺服器系統 | |
US20200159646A1 (en) | Information processing apparatus | |
CN113867812B (zh) | 一种bmc获取链路信息的方法、系统、设备以及介质 | |
TWI839101B (zh) | 韌體的更新方法 |