TWI700583B - 伺服方法、系統、主板及電腦可讀取儲存媒介 - Google Patents

伺服方法、系統、主板及電腦可讀取儲存媒介 Download PDF

Info

Publication number
TWI700583B
TWI700583B TW107145663A TW107145663A TWI700583B TW I700583 B TWI700583 B TW I700583B TW 107145663 A TW107145663 A TW 107145663A TW 107145663 A TW107145663 A TW 107145663A TW I700583 B TWI700583 B TW I700583B
Authority
TW
Taiwan
Prior art keywords
baseboard management
management controller
heartbeat signal
bmc
normal
Prior art date
Application number
TW107145663A
Other languages
English (en)
Other versions
TW202024916A (zh
Inventor
劉坤
李小鋼
Original Assignee
英業達股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英業達股份有限公司 filed Critical 英業達股份有限公司
Priority to TW107145663A priority Critical patent/TWI700583B/zh
Publication of TW202024916A publication Critical patent/TW202024916A/zh
Application granted granted Critical
Publication of TWI700583B publication Critical patent/TWI700583B/zh

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本發明提供一種伺服方法、系統、主板及電腦可讀取儲存媒介,所述伺服方法包括:接收一基板管理控制器輸出的心跳訊號。判斷所述心跳訊號是否正常。若正常,則判定所述基板管理控制器處於活動狀態。若異常,則重置所述基板管理控制器。本發明在基板管理控制器內部有軟體看門狗機制的前提下,提出了一種外部看門狗,用於檢測基板管理控制器的狀態,觸發基板管理控制器外部重置訊號,顯著地提升了基板管理控制器的保持在活動狀態之機率,保證了系統的穩定運行。

Description

伺服方法、系統、主板及電腦可讀取儲存媒介
本發明係關於一種硬體技術領域,涉及一種管理系統,特別是關於一種伺服方法、系統、主板及電腦可讀取儲存媒介。
BMC(Baseboard Management Controller,基板管理控制器)是伺服器server系統中用來監控各部件的管理中心。一般的BMC管理晶片基於ARM(Advanced RISC Machines)程式來實現,在實際使用中偶爾會遇到BMC不能運作的情況。因為BMC負責系統中的風扇散熱,在BMC處於非活動狀態時風扇轉速異常,進而會引起系統過熱,造成CPU降頻。另一可能是,散熱依舊是正常的,機器實際運行也是正常,因為不影響實際作業的使用而被維運人員忽略,此時一旦系統遇到故障(bug)需要分析時,由於BMC已處於非活動狀態而不能下載有效的log檔,這樣會給排除故障(debug)帶來極大的不便。
當前BMC是依靠著自身內部的看門狗(watchdog)軟體實現保持於活動狀態的,在BMC內部的看門狗(watchdog)失效的情況下便不能保證BMC 始終處於活動(active)狀態。
鑒於以上所述現有技術的缺點,本發明的目的在於提供一種伺服方法、系統、主板及電腦可讀取儲存媒介,用於解決現有技術中BMC無法持久保活的問題。
為實現上述目的及其他相關目的,本發明提供一種伺服方法,所述伺服方法包括:接收一基板管理控制器輸出的心跳訊號;判斷所述心跳訊號是否正常;若正常,則判定所述基板管理控制器處於活動狀態;若異常,則重置所述基板管理控制器。
於本發明的一實施例中,所述心跳訊號為脈衝訊號。
於本發明的一實施例中,所述判斷所述心跳訊號是否正常的一種實現過程包括:判斷所述心跳訊號的波形是否恆定不變;若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器;若否,則判定所述基板管理控制器處於活動狀態。
本發明更提供一種主板,所述主板包括:一基板管理控制器;一複雜可程式邏輯器件,與所述基板管理控制器通訊連接,用於接收所述基板管理控制器輸出的心跳訊號,並判斷所述心跳訊號是否正常;若正常,則判定所述基板管理控制器處於活動狀態;若異常,則重置所述基板管理控制器。
於本發明的一實施例中,所述心跳訊號為脈衝訊號;所述複雜可程式邏輯器件判斷所述心跳訊號的波形是否恆定不變;若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器;若否,則判定所述基板管理控制器處於活動狀態。
於本發明的一實施例中,所述主板更包括:一指示燈,與所述複雜可程式邏輯器件通訊連接,在所述基板管理控制器處於非活動狀態時點亮,所述基板管理控制器處於活動狀態時不亮。
於發明還提供一種伺服系統,所述伺服系統包括:至少一主板,各所述主板包括:一基板管理控制器和一複雜可程式邏輯器件;一RMC,與所述基板管理控制器通訊連接,用於接收所述基板管理控制器輸出的心跳訊號,並判斷所述心跳訊號是否正常;若正常,則判定所述基板管理控制器處於活動狀態;若異常,則重置所述基板管理控制器。
於本發明的一實施例中,所述心跳訊號為脈衝訊號;所述RMC判斷所述心跳訊號的波形是否恆定不變;若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器;若否,則判定所述基板管理控制器處於活動狀態。
於本發明的一實施例中,所述主板更包括一指示燈,與所述複雜可程式邏輯器件通訊連接,在所述基板管理控制器處於非活動狀態時點亮,所述基板管理控制器處於活動狀態時不亮。
本發明還提供一種電腦可讀取儲存媒介,其上儲存有電腦程式,所述電腦程式被處理器執行時實現本發明所述伺服方法的步驟。
如上所述,本發明所述的伺服方法、系統、主板及電腦可讀取儲存媒介,具有以下有益效果:
本發明在BMC內部有軟體看門狗機制的前提下,提出了一種外部看門狗,用於檢測BMC的狀態,觸發BMC外部重置訊號,極大提升了BMC的保活機率,保證了系統的穩定運行。
以下通過特定的具體實例說明本發明的實施方式,本領域技術人員可由本說明書所揭露的內容輕易地瞭解本發明的其他優點與功效。本發明還可以通過另外不同的具體實施方式加以實施或應用,本說明書中的各項細節也可以基於不同觀點與應用,在沒有背離本發明的精神下進行各種修飾或改變。需說明的是,在不衝突的情況下,以下實施例及實施例中的特徵可以相互組合。
需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發明的基本構想,遂圖式中僅顯示與本發明中有關的組件而非按照實際實施時的元件數目、形狀及尺寸繪製,其實際實施時各元件的型態、數量及比例可為一種隨意的改變,且其元件佈局型態也可能更為複雜。
請參閱圖1,本發明提供一種伺服方法,所述伺服方法包括:
S101,接收一基板管理控制器(Baseboard Management Controller,BMC)輸出的心跳訊號。所述心跳訊號用於表明BMC是否正常,因此該心跳訊號是需要不斷變化的,不能恆定不變。於本發明的一實施例中,所述心跳訊號為脈衝訊號,例如:該心跳訊號可以為10KHz的方波訊號,本發明的保護範圍不限於所述心跳訊號的頻率和脈衝類型。
S102,判斷所述心跳訊號是否正常。
S103,若正常,則判定所述基板管理控制器處於活動狀態。
S104,若異常,則重置所述基板管理控制器。於本發明的一實施例中,可以通過觸發BMC外部重置BMC Extrst訊號,使BMC被重置,代碼歸0重新運行。
於本發明的一實施例中,所述步驟S102判斷所述心跳訊號是否正常的一種實現過程參見圖2所示,包括:
S201,判斷所述心跳訊號的波形是否恆定不變。因為BMC當機的時,BMC的任意一個GPIO(General Purpose Input Output,通用輸入/輸出)口有兩種狀態,恆為高或者恆為低,所以不能以高電位或者低電位來判斷BMC是否活動。
S202,若否,則判定所述基板管理控制器處於活動狀態。
S203,若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器。
參見圖3所示,本發明實施例還提供一種主板,所述主板300包括:一基板管理控制器(BMC)310,一複雜可程式邏輯器件(Complex Programmable Logic Device,CPLD)320。所述複雜可程式邏輯器件320與所述基板管理控制器310通訊連接,用於接收所述基板管理控制器輸出的心跳訊號,並判斷所述心跳訊號的波形是否正常;若正常,則判定所述基板管理控制器處於活動狀態;若異常,則重置所述基板管理控制器。於本發明的一實施例中,可以通過觸發BMC外部重置BMC Extrst訊號,使BMC被重置,代碼歸0重新運行。
於本發明的一實施例中,所述心跳訊號用於表明BMC是否正常,因此該心跳訊號是需要不斷變化的,不能恆定不變。所述心跳訊號為脈衝訊號,例如:該心跳訊號可以為10KHz的方波訊號,本發明的保護範圍不限於所述心跳訊號的頻率和脈衝類型。
所述複雜可程式邏輯器件判斷所述心跳訊號的波形是否恆定不變。若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器;若否,則判定所述基板管理控制器處於活動狀態。因為BMC當機的時,BMC的任意一個GPIO(General Purpose Input Output,通用輸入/輸出)口有兩種狀態,恆為高或者恆為低,所以不能以高電位或者低電位來判斷BMC是否活動。
於本發明的一實施例中,所述主板300還可以包括:一指示燈(UID LED)。所述指示燈與所述複雜可程式邏輯器件320通訊連接,在所述基板管理控制器處於非活動狀態時點亮,所述基板管理控制器處於活動狀態時不亮。
所述複雜可程式設計邏輯器CPLD檢測該脈衝訊號的波形,如果檢測到正常,則認為BMC正常,BMC Extrst不觸發,UID LED 不點亮;若CPLD檢測到該脈衝訊號的波形異常,如恆高或者恆低,則CPLD認為BMC代碼偏移,觸發BMC外部的reset BMC Extrst訊號,使BMC被重置(reset),代碼歸0重新運行;同時以1Hz 頻率將UID LED閃爍來告知巡場人員此台機器BMC 異常需處理。
本發明可以通過如下方式及時將BMC 從當機狀態恢復至正常狀態:一方面,所述複雜可程式設計邏輯器CPLD 檢測到異常時,可以主動觸發BMC reset訊號使BMC重啟,BMC重新運行代碼回到正軌。另一方面,所述複雜可程式設計邏輯器CPLD檢測到異常時,可以觸發指示燈UID LED 閃爍,運維人員及時發現,以報工單維修來保證系統正常穩定的運行。
參見圖4所示,本發明實施例還提供一種伺服系統,所述伺服系統400包括:至少一主板410,RMC(Rack Management Controller,機櫃管理控制器)420。各所述主板410包括:一基板管理控制器(BMC)411,一複雜可程式邏輯器件(Complex Programmable Logic Device,CPLD)412。所述複雜可程式邏輯器件412與所述基板管理控制器411通訊連接。所述RMC 420與所述基板管理控制器411通訊連接,用於接收所述基板管理控制器411輸出的心跳訊號,並判斷所述心跳訊號的波形是否正常;若正常,則判定所述基板管理控制器411處於活動狀態;若異常,則重置所述基板管理控制器411。所述心跳訊號用於表明BMC是否正常,因此該心跳訊號是需要不斷變化的,不能恆定不變。於本發明的一實施例中,所述心跳訊號為脈衝訊號,例如:該心跳訊號可以為10KHz的方波訊號,本發明的保護範圍不限於所述心跳訊號的頻率和脈衝類型。對於機櫃類型系統,RMC可以實現檢測BMC觸發外部reset BMC Extrst訊號。
於本發明的一實施例中,所述RMC 420判斷所述心跳訊號的波形是否恆定不變;若是,則判定所述基板管理控制器處於非活動狀態,並重置所述基板管理控制器;若否,則判定所述基板管理控制器處於活動狀態。因為BMC當機的時,BMC的任意一個GPIO(General Purpose Input Output,通用輸入/輸出)口有兩種狀態,恆為高或者恆為低,所以不能以高電位或者低電位來判斷BMC是否活動。
於本發明的一實施例中,可以通過觸發BMC外部重置BMC Extrst訊號,使BMC被重置,代碼歸0重新運行。
於本發明的一實施例中,所述主板410還可以包括:一指示燈(UID LED)。所述指示燈與所述複雜可程式邏輯器件412通訊連接,在所述基板管理控制器處於非活動狀態時點亮,所述基板管理控制器處於活動狀態時不亮。
本發明可以通過如下方式及時將BMC 從當機狀態恢復至正常狀態:一方面,所述RMC檢測到異常時,可以主動觸發BMC reset訊號使BMC重啟,BMC重新運行代碼回到正軌。另一方面,所述RMC檢測到異常時,可以觸發指示燈UID LED 閃爍,運維人員及時發現,以報工單維修來保證系統正常穩定的運行。
本發明還提供一種電腦可讀取儲存媒介,其上存儲有電腦程式,該程式被處理器執行時實現本發明所述伺服方法的步驟。
本發明在BMC內部有軟體看門狗機制的前提下,提出了一種外部看門狗,用於檢測BMC的狀態,觸發BMC外部reset BMC Extrst訊號,保活BMC。所述BMC的外部看門狗可以由複雜可程式邏輯器件實現,也可以由RMC實現。在以上幾種策略作用下,BMC保活概率被極大提升,從而可系統運行提供了穩定的保障。
綜上所述,本發明有效克服了現有技術中的種種缺點而具高度產業利用價值。
上述實施例僅例示性說明本發明的原理及其功效,而非用於限制本發明。任何熟悉此技術的人士皆可在不違背本發明的精神及範疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術領域中具有通常知識者在未脫離本發明所揭示的精神與技術思想下所完成的一切等效修飾或改變,仍應由本發明的申請專利範圍所涵蓋。
300  主板 310  基板管理控制器 320  複雜可程式邏輯器件 400  伺服系統 410  主板 411  基板管理控制器 412  複雜可程式邏輯器件 420   RMC S101~S104  步驟 S201~S203  步驟
圖1係為根據本發明之一實施例所繪示的伺服方法的流程示意圖。 圖2係為根據本發明之一實施例所繪示的伺服方法的步驟S102的流程示意圖。 圖3係為根據本發明之一實施例所繪示的主板的結構示意圖。 圖4係為根據本發明之一實施例所繪示的伺服系統的結構示意圖。
S101~S104  步驟

Claims (7)

  1. 一種伺服方法,包括:接收一基板管理控制器輸出的一心跳訊號;判斷該心跳訊號是否正常;若正常,則判定該基板管理控制器處於活動(active)狀態;以及若異常,則重置該基板管理控制器,其中判斷該心跳訊號是否正常的一種實現過程包括:判斷該心跳訊號的波形是否恆定不變;若是,則判定該基板管理控制器處於非活動狀態,並重置該基板管理控制器;以及若否,則判定該基板管理控制器處於活動狀態。
  2. 如請求項1所述的伺服方法,其中該心跳訊號為一脈衝訊號。
  3. 一種主板,包括:一基板管理控制器;以及一複雜可程式邏輯器件,與該基板管理控制器通訊連接,用於接收該基板管理控制器輸出的該心跳訊號,並判斷該心跳訊號是否正常;若正常,則判定該基板管理控制器處於活動狀態;若異常,則重置該基板管理控制器,其中該心跳訊號為一脈衝訊號;該複雜可程式邏輯器件判斷該心跳訊號的波形是否恆定不變;若是,則判定該基板管理控制器處於非活動狀態,並重置該基板管理控制器;若否,則判定該基板管理控制器處於活動狀態。
  4. 如請求項3所述的主板,其中該主板更包括:一指示燈,與該複雜可程式邏輯器件通訊連接,在該基板管理控制器處於非活動狀態時點亮,該基板管理控制器處於活動狀態時不亮。
  5. 一種伺服系統,包括:至少一主板,各該主板包括一基板管理控制器和一複雜可程式邏輯器件;一RMC,與該基板管理控制器通訊連接,用於接收該基板管理控制器輸出的一心跳訊號,並判斷該心跳訊號是否正常;若正常,則判定該基板管理控制器處於活動狀態;若異常,則重置該基板管理控制器,其中該主板更包括一指示燈,與該複雜可程式邏輯器件通訊連接,在該基板管理控制器處於非活動狀態時點亮,該基板管理控制器處於活動狀態時不亮。
  6. 如請求項5所述的伺服系統,其中該心跳訊號為一脈衝訊號;該RMC判斷該心跳訊號的波形是否恆定不變;若是,則判定該基板管理控制器處於非活動狀態,並重置該基板管理控制器;若否,則判定該基板管理控制器處於活動狀態。
  7. 一種電腦可讀取儲存媒介,儲存有一電腦程式,該電腦程式被一處理器執行時實現請求項1至2任一項所述的伺服方法之步驟。
TW107145663A 2018-12-18 2018-12-18 伺服方法、系統、主板及電腦可讀取儲存媒介 TWI700583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107145663A TWI700583B (zh) 2018-12-18 2018-12-18 伺服方法、系統、主板及電腦可讀取儲存媒介

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107145663A TWI700583B (zh) 2018-12-18 2018-12-18 伺服方法、系統、主板及電腦可讀取儲存媒介

Publications (2)

Publication Number Publication Date
TW202024916A TW202024916A (zh) 2020-07-01
TWI700583B true TWI700583B (zh) 2020-08-01

Family

ID=73003398

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145663A TWI700583B (zh) 2018-12-18 2018-12-18 伺服方法、系統、主板及電腦可讀取儲存媒介

Country Status (1)

Country Link
TW (1) TWI700583B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974829A (zh) 2022-04-24 2023-10-31 富联精密电子(天津)有限公司 基板管理控制器检测系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI351600B (en) * 2008-04-22 2011-11-01 Giga Byte Tech Co Ltd Control system and management method utilizing the
CN105117317A (zh) * 2015-08-17 2015-12-02 浪潮(北京)电子信息产业有限公司 一种服务器性能监测方法和装置
CN105912438A (zh) * 2016-03-07 2016-08-31 联想(北京)有限公司 基板控制系统、电子设备及信息处理方法
TWI582585B (zh) * 2015-11-18 2017-05-11 神雲科技股份有限公司 機櫃的監控系統
TWI598729B (zh) * 2015-10-16 2017-09-11 神雲科技股份有限公司 伺服器及自動檢修基板管理控制器的方法
CN107797880A (zh) * 2017-11-29 2018-03-13 济南浪潮高新科技投资发展有限公司 一种提高服务器主板bmc可靠性的方法
TW201812596A (zh) * 2016-09-14 2018-04-01 三星電子股份有限公司 自組態基板管理控制器 (bmc)
TWI633416B (zh) * 2017-06-30 2018-08-21 神雲科技股份有限公司 伺服器風扇控制系統及其控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI351600B (en) * 2008-04-22 2011-11-01 Giga Byte Tech Co Ltd Control system and management method utilizing the
CN105117317A (zh) * 2015-08-17 2015-12-02 浪潮(北京)电子信息产业有限公司 一种服务器性能监测方法和装置
TWI598729B (zh) * 2015-10-16 2017-09-11 神雲科技股份有限公司 伺服器及自動檢修基板管理控制器的方法
TWI582585B (zh) * 2015-11-18 2017-05-11 神雲科技股份有限公司 機櫃的監控系統
CN105912438A (zh) * 2016-03-07 2016-08-31 联想(北京)有限公司 基板控制系统、电子设备及信息处理方法
TW201812596A (zh) * 2016-09-14 2018-04-01 三星電子股份有限公司 自組態基板管理控制器 (bmc)
TWI633416B (zh) * 2017-06-30 2018-08-21 神雲科技股份有限公司 伺服器風扇控制系統及其控制方法
CN107797880A (zh) * 2017-11-29 2018-03-13 济南浪潮高新科技投资发展有限公司 一种提高服务器主板bmc可靠性的方法

Also Published As

Publication number Publication date
TW202024916A (zh) 2020-07-01

Similar Documents

Publication Publication Date Title
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US11526411B2 (en) System and method for improving detection and capture of a host system catastrophic failure
JP7351933B2 (ja) エラーリカバリ方法及び装置
TWI529624B (zh) Method and system of fault tolerance for multiple servers
CN104636221A (zh) 一种计算机系统故障处理方法和装置
CN106610712B (zh) 基板管理控制器复位系统及方法
CN107111595B (zh) 用于检测早期引导错误的方法、设备及系统
JP5790723B2 (ja) クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム
TWI665549B (zh) 電源分配板、模組化機箱系統及其運作方法
US10776193B1 (en) Identifying an remediating correctable hardware errors
WO2022111048A1 (zh) 一种电源控制方法、装置、服务器及非易失性存储介质
WO2023061327A1 (zh) 核心板复位方法、装置、设备、存储介质以及程序产品
US20230366951A1 (en) Power failure monitoring device and power failure monitoring method
TWI700583B (zh) 伺服方法、系統、主板及電腦可讀取儲存媒介
JP2010186242A (ja) 計算機システム
CN107133130B (zh) 计算机运行监测方法和装置
CN117743012A (zh) 一种芯片失效的处理系统、方法、电子设备及存储介质
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
CN105912414A (zh) 一种服务器管理的方法及系统
TWI611290B (zh) 伺服器機櫃監控方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
CN114564334B (zh) 一种mrpc数据处理方法、系统及相关组件
TWI615718B (zh) 電腦系統
TWI469573B (zh) 系統錯誤處理方法與使用其之伺服器系統
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム