TW201431319A - 資料中心基板管理控制器管理系統及方法 - Google Patents

資料中心基板管理控制器管理系統及方法 Download PDF

Info

Publication number
TW201431319A
TW201431319A TW102104175A TW102104175A TW201431319A TW 201431319 A TW201431319 A TW 201431319A TW 102104175 A TW102104175 A TW 102104175A TW 102104175 A TW102104175 A TW 102104175A TW 201431319 A TW201431319 A TW 201431319A
Authority
TW
Taiwan
Prior art keywords
bmc
primary
data center
list
active
Prior art date
Application number
TW102104175A
Other languages
English (en)
Inventor
jia-qing Huang
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Publication of TW201431319A publication Critical patent/TW201431319A/zh

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本發明提供一種資料中心基板管理控制器管理系統,其可透過背板固件維護一個活動BMC列表,當主BMC沒有定期請求獲取背板溫度的命令和消息參數時,即主BMC失效,並按照預設原則從一個活動BMC列表中確定一個主BMC,從而節約了大量的網路資源。

Description

資料中心基板管理控制器管理系統及方法
本發明涉及一種資料中心基板管理控制器(Baseboard Management Controller,BMC)管理系統及方法。
隨著資料處理需求爆炸式的增長和雲技術的不斷成熟,業界出現越來越多的貨架(Rack)式的資料中心,而且Rack內配備的結點數量也越來越龐大。為了管理的需要,Rack中都會有一個BMC擔當主BMC負責管理整個Rack內所有的BMC,但是為了避免主BMC出現故障而導致對其他所有BMC失去管理的情況出現,需要提供一種失效轉移(fail over)的機制。
目前業界的做法是採取動態主BMC法,主要根據某一原則,比如說按照物理位址MAC或者節點ID排序,從中選擇最小的充當主BMC,並在所有BMC內維護一個活動BMC列表,定期對外發送特定資料包的廣播,好讓其他BMC維護它們的BMC活動列表。當一BMC發現自己的ID是活動BMC列表裏面最小的,則知道其要履行主BMC的職責。但是對與數目龐大的Rack來說,定期大量的廣播會耗費大量的網路資源。
鑒於以上內容,有必要提供一種資料中心BMC管理系統及方法,其可透過背板固件(Firmware,FW) 維護一個活動BMC列表,並按照預設原則從一個活動BMC列表中確定一個主BMC,從而節約了大量的網路資源。
一種資料中心BMC管理系統,運行於伺服器中,該系統包括:設置模組,透過設置BMC的原始設備製造商OEM命令來設置BMC請求獲取伺服器背板溫度的命令和消息參數;重置模組,重置活動BMC列表中所有BMC對應的第二標識位元,並啟動計時器;分析模組,當計時器啟動時,根據所述消息參數分析BMC發送給背板的消息,並從BMC請求獲取背板溫度的消息中獲取BMC的子位址;更新模組,根據上述BMC的子位址更新所述活動BMC列表中BMC對應的溫度值和第二標識位元;所述更新模組還用於更新已失效的主BMC對應的主標識位元及更新當前已確定為主BMC對應的主標識位元。判斷模組,判斷計時時間是否超時及當計時時間超時時根據第二標識位元和主標識位元判斷當前主BMC是否失效;確定模組,用於當前主BMC失效時根據預設原則從所述活動BMC列表中確定主BMC,並發送設置主BMC的命令給該確定的BMC,讓其執行主BMC的職能。
一種資料中心BMC管理方法,應用於伺服器中,該方法包括:設置步驟,透過設置BMC的原始設備製造商OEM命令來設置BMC請求獲取伺服器背板溫度的命令和消息參數;重置步驟,重置活動BMC列表中所有BMC對應的第二標識位元,並啟動計時器;分析步驟,當計時器啟動時,根據所述消息參數分析BMC發送給背板的消息,並從BMC請求獲取背板溫度的消息中獲取BMC的子位址;更新步驟一,根據上述BMC的子位址更新所述活動BMC列表中BMC對應的溫度值和第二標識位元;該方法還包括更新步驟二用於更新已失效的主BMC對應的主標識位元及更新當前已確定為主BMC對應的主標識位元。判斷步驟,判斷計時時間是否超時及當計時時間超時時根據第二標識位元和主標識位元判斷當前主BMC是否失效;確定步驟,用於當前主BMC失效時根據預設原則從所述活動BMC列表中確定主BMC,並發送設置主BMC的命令給該確定的BMC,讓其執行主BMC的職能。
相較於習知技術,所述資料中心BMC管理系統及方法,不需要定期大量的廣播,也不需要增加任何硬體資源和額外佔用BMC的通用輸入/輸出(General Purpose Input Output,GPIO)資源,節約了大量的網路資源。
1...伺服器
10...背板
101...溫度感測器
102...FW
11...BMC
1020...資料中心基板管理控制器管理系統
103...記憶體
104...處理器
10200...設置模組
10201...重置模組
10202...分析模組
10203...更新模組
10204...判斷模組
10205...確定模組
圖1是本發明資料中心BMC管理系統之應用環境示意圖。
圖2是本發明資料中心BMC管理系統之功能模組圖。
圖3是本發明資料中心BMC管理方法較佳實施例之流程圖。
圖4是本發明資料中心BMC管理系統之活動BMC列表圖。
如圖1所示,是本發明資料中心BMC管理系統1020的應用環境示意圖。在本實施例中,背板10中的資料中心BMC管理系統1020應用於伺服器1來負責管理整個貨架(Rack)式資料中心內所有的BMC 。資料中心BMC管理系統1020的應用需要借助於通信資料線建立BMC 11與背板10的通信來實現,所述背板10還包括溫度感測器101、固件(Firmware,FW)102、記憶體103和處理器104。
所述貨架(Rack)式資料中心是指機櫃式資料中心,該資料中心中包括多個伺服器,並用於資訊的處理。
所述BMC 11的數量可以是一個或者多個,Rack內所有BMC 11構成一個活動BMC列表,並由一個主BMC負責管理Rack內所有的BMC 11。所述主BMC是從所述活動BMC列表中按照預設原則確定的一個BMC。所述預設原則是把BMC 11唯一對應的物理位址MAC或者節點ID號按照一定的順序排列,並把物理位址MAC或者節點ID號最小的BMC確定為主BMC。
所述背板10是一個電路板,可以連接硬體如硬碟、溫度感測器101等,並監控上述硬體的運行。所述FW 102是寫入背板10的EROM或可編程唯讀記憶體(EPROM)中的程式,它是固化在積體電路內部的程式碼,負責控制和協調背板10上的積體電路的功能。所述溫度感測器101是指能感受背板10的溫度並轉換成可用輸出信號的感測器。在本實施例中,背板10的FW 102定期從背板10的溫度感測器101上讀取背板10的溫度,BMC 11定期向背板10上的FW 102發送命令獲取背板10的溫度。當在預設的時間間隔內,背板10沒有收到BMC 11請求獲取背板10溫度的消息時,背板10的FW 102能判斷出上述BMC 11已經失效。背板10的FW 102維護所述活動BMC列表,當發現當前主BMC 不能正常工作時,背板10的FW 102根據預設原則從所述活動BMC列表中選取一個BMC 11充當主BMC,背板10的FW 102發送命令通知上述主BMC ,讓其執行主BMC的職能。
在本實施例中,所述通信資料線是IPMB(Intelligent Platform Management BUS,智慧平臺管理匯流排),IPMB 是先進的電信計算平臺ATCA(Advanced Telecom Computing Architecture)的各FRU(Field Replace Unit,現場可更換單元)背板通訊的兩組冗餘I2C匯流排的總稱。所述IPMB負責BMC與背板10的通信,BMC 11發送和接收到的消息都包含著對應的子位址。在IPMB通信中,每個節點的子位址是唯一的,一個BMC對應著一個通信節點,這樣每個BMC對應著唯一的子位址。
如圖4所示,是本發明資料中心BMC管理系統1020的活動BMC列表圖,Rack內所有BMC的子位址保存在所述活動BMC列表中。所述活動BMC列表還包括所有BMC的第二標識位元和主標識位元。所述第二標識位元用於標記BMC 11是否失效。所述主標識位元用於標記該BMC是否為主BMC,若是主BMC,主標識位元為1;若不是主BMC,主標識位元為0。
在本實施例中,所述資料中心BMC管理系統1020可以被分割成一個或多個模組,所述一個或多個模組被存儲在FW 102中並被配置成由一個或多個處理器(如圖1中的處理器104)執行,以完成本發明。例如,參閱圖2所示,所述的資料中心BMC管理系統1020被分割成設置模組10200、重置模組10201、分析模組10202、更新模組10203、判斷模組10204及確定模組10205。本發明所稱的模組是完成一特定功能的程式段,比程式更適合於描述軟體在處理器104中的執行過程,關於各模組的功能將在圖3的流程圖中具體描述。
如圖3所示,是本發明資料中心BMC管理方法的較佳實施例的流程圖。
步驟S10,BMC 11和背板10上電啟動,設置模組10200透過設置BMC 11的原始設備製造商(Original Equipment Manufacturer,OEM)OEM命令來設置BMC 11定期(如每隔5秒鐘)請求獲取背板10的溫度的命令和消息參數。例如設置消息參數為123代表BMC 11請求獲取背板10的溫度。
步驟S11,設置完畢後,重置模組10201將圖4所示的活動BMC列表中的所有BMC 11對應的第二標識位元重置為0。
步驟S12,重置完畢後,啟動間隔時間為T的watchdog。所述watchdog是一個計時器電路,用於監控BMC 11請求獲取背板10溫度的時間間隔。
步驟S13,所述watchdog計時開始後,分析模組10202根據所述消息參數分析BMC 11透過IPMB 12發送給背板10的消息是否為BMC 11請求獲取背板10溫度的消息。若消息參數為123,則為BMC 11請求獲取背板10溫度,然後分析模組10202從該消息中獲取BMC 11的子位址。
步驟S14,更新模組10203根據所述BMC 11的子位址更新所述BMC 11的溫度值和所述活動BMC列表中的BMC 11的第二標識位元,將所述BMC 11對應的第二標識位元設置為1。
步驟S15,判斷模組10204根據所述watchdog的計時時間判斷是否計時超時,即判斷是否已到達間隔時間T。當沒有到達間隔時間T時,則返回執行步驟S13;若已經到達間隔時間T時,則執行步驟S16。
步驟S16,判斷模組10204判斷當前主BMC是否失效。所述判斷模組10204根據在間隔時間T內,BMC 11的第二標識位元是否為1來判斷該BMC 11是否失效。若在該間隔時間T內,主BMC 11的第二標識位元為1,則主BMC 11沒有失效;若主BMC 11的第二標識位元為0,則表示該主BMC 11已經失效。當主BMC失效時,執行步驟S17,當主BMC沒有失效時,結束該次流程。
步驟S17,確定模組10205根據預設原則從所述活動BMC列表中確定主BMC,並發送設置主BMC的命令給確定的BMC,讓其執行主BMC的職能。更新模組10203將所述已失效的主BMC對應的主標識位元更新為0及將當前主BMC對應的主標識位元更新為1。
本較佳實施例以一個間隔時間為例描述了管理Rack內所有BMC及主BMC的方法。透過迴圈執行步驟S11至S17,即可以實現即時檢測資料中心內所有BMC是否失效,及當主BMC失效時,從所述未失效的BMC中確定一個主BMC,並通知該主BMC讓其執行主BMC的職能的方法。
最後應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
1020...資料中心基板管理控制器管理系統
10200...設置模組
10201...重置模組
10202...分析模組
10203...更新模組
10204...判斷模組
10205...確定模組

Claims (10)

  1. 一種資料中心基板管理控制器管理系統,運行於伺服器中,該系統包括:
    設置模組,用於透過設置BMC的原始設備製造商OEM命令來設置BMC請求獲取伺服器背板溫度的命令和消息參數;
    重置模組,用於重置活動BMC列表中所有BMC對應的第二標識位元,並啟動計時器;
    分析模組,用於當計時器啟動時,根據所述消息參數分析BMC發送給背板的消息,並從BMC請求獲取背板溫度的消息中獲取BMC的子位址;
    更新模組,用於根據上述BMC的子位址更新所述活動BMC列表中BMC對應的溫度值和第二標識位元;
    判斷模組,用於判斷計時時間是否超時及當計時時間超時時根據第二標識位元和主標識位元判斷當前主BMC是否失效;
    確定模組,用於當前主BMC失效時根據預設原則從所述活動BMC列表中確定主BMC,並發送設置主BMC的命令給該確定的BMC,讓其執行主BMC的職能。
  2. 根據申請專利範圍第1項之資料中心基板管理控制器管理系統,所述BMC透過智慧平臺管理匯流排IPMB與背板進行通信,BMC發送和接收到的消息都包含該BMC的子位址。
  3. 根據申請專利範圍第1項之資料中心基板管理控制器管理系統,所述更新模組還用於更新已失效的主BMC對應的主標識位元及更新當前已確定為主BMC對應的主標識位元。
  4. 根據申請專利範圍第1項之資料中心基板管理控制器管理系統,所述活動BMC列表是由所有BMC的子位址、第二標識位元及主標識位元構成。
  5. 根據申請專利範圍第1項之資料中心基板管理控制器管理系統,所述預設原則是把每個BMC唯一對應的物理位址MAC或者節點ID號按照一定的順序排列,並把物理位址MAC或者節點ID號最小的BMC確定為主BMC。
  6. 一種資料中心基板管理控制器管理方法,應用於伺服器中,該方法包括:
    設置步驟,透過設置BMC的原始設備製造商OEM命令來設置BMC請求獲取伺服器背板溫度的命令和消息參數;
    重置步驟,重置活動BMC列表中所有BMC對應的第二標識位元,並啟動計時器;
    分析步驟,當計時器啟動時,根據所述消息參數分析BMC發送給背板的消息,並從BMC請求獲取背板溫度的消息中獲取BMC的子位址;
    更新步驟,根據上述BMC的子位址更新所述活動BMC列表中BMC對應的溫度值和第二標識位元;
    判斷步驟,判斷計時時間是否超時及當計時時間超時時根據第二標識位元和主標識位元判斷當前主BMC是否失效;
    確定步驟,當前主BMC失效時根據預設原則從所述活動BMC列表中確定主BMC,並發送設置主BMC的命令給該確定的BMC,讓其執行主BMC的職能。
  7. 根據申請專利範圍第6項之資料中心基板管理控制器管理方法,所述BMC透過智慧平臺管理匯流排IPMB與背板進行通信,BMC發送和接收到的消息都包含該BMC的子位址。
  8. 根據申請專利範圍第6項之資料中心基板管理控制器管理方法,所述更新模組還用於更新已失效的主BMC對應的主標識位元及更新當前已確定為主BMC對應的主標識位元。
  9. 根據申請專利範圍第6項之資料中心基板管理控制器管理方法,所述活動BMC列表是由所有BMC的子位址、第二標識位元及主標識位元構成。
  10. 根據申請專利範圍第6項之資料中心基板管理控制器管理方法,所述預設原則是把每個BMC唯一對應的物理位址MAC或者節點ID號按照一定的順序排列,並把物理位址MAC或者節點ID號最小的BMC確定為主BMC。
TW102104175A 2013-01-17 2013-02-04 資料中心基板管理控制器管理系統及方法 TW201431319A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310017039.XA CN103942129A (zh) 2013-01-17 2013-01-17 数据中心bmc管理系统及方法

Publications (1)

Publication Number Publication Date
TW201431319A true TW201431319A (zh) 2014-08-01

Family

ID=51189802

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102104175A TW201431319A (zh) 2013-01-17 2013-02-04 資料中心基板管理控制器管理系統及方法

Country Status (2)

Country Link
CN (1) CN103942129A (zh)
TW (1) TW201431319A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598329A (zh) * 2015-02-12 2015-05-06 浪潮电子信息产业股份有限公司 一种基于rmc管理的自动bmc故障解决方法
CN106776218B (zh) * 2016-12-14 2020-02-07 苏州浪潮智能科技有限公司 一种具有时间校准功能的服务器监控系统
CN109165047B (zh) * 2018-09-03 2021-10-12 英业达科技有限公司 维持图形处理器主板的正确时间的方法

Also Published As

Publication number Publication date
CN103942129A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN109347675B (zh) 服务器配置方法、装置以及电子设备
CN110865867B (zh) 应用拓扑关系发现的方法、装置和系统
US10404690B2 (en) Authentication-free configuration for service controllers
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
US10127095B2 (en) Seamless automatic recovery of a switch device
CN103324495A (zh) 数据中心服务器开机管理方法及系统
KR20140055938A (ko) 랙 및 기본 입출력 시스템을 동시에 업데이트하는 랙 방법
US8117494B2 (en) DMI redundancy in multiple processor computer systems
US10013319B2 (en) Distributed baseboard management controller for multiple devices on server boards
US9588542B2 (en) Rack server system and method for automatically managing rack configuration information
US20120011236A1 (en) Server management apparatus and server management method
WO2014067254A1 (zh) 一种检测数据库数据一致性的方法、装置及数据库系统
US20210286747A1 (en) Systems and methods for supporting inter-chassis manageability of nvme over fabrics based systems
US8943191B2 (en) Detection of an unresponsive application in a high availability system
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
TW201431319A (zh) 資料中心基板管理控制器管理系統及方法
US20140129865A1 (en) System controller, power control method, and electronic system
CN114531373A (zh) 节点状态检测方法、节点状态检测装置、设备及介质
JP2009223368A (ja) クラスタリング制御装置、制御システム、制御方法及び制御プログラム
US20190020548A1 (en) Method and apparatus for setting location information
CN113220342A (zh) 中心化配置方法、装置、电子设备及存储介质
CN107632917B (zh) 服务器系统及其温度监控方法
US8891515B2 (en) Method for node communication
CN114189305B (zh) 一种时间同步方法、装置、设备及可读存储介质
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法