TWI536767B - 伺服系統及其備援管理方法 - Google Patents

伺服系統及其備援管理方法 Download PDF

Info

Publication number
TWI536767B
TWI536767B TW102131731A TW102131731A TWI536767B TW I536767 B TWI536767 B TW I536767B TW 102131731 A TW102131731 A TW 102131731A TW 102131731 A TW102131731 A TW 102131731A TW I536767 B TWI536767 B TW I536767B
Authority
TW
Taiwan
Prior art keywords
substrate
central management
mode
management substrate
central
Prior art date
Application number
TW102131731A
Other languages
English (en)
Other versions
TW201511501A (zh
Inventor
葉俊傑
吳明昇
徐欣榮
陳威志
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW102131731A priority Critical patent/TWI536767B/zh
Priority to CN201310428350.3A priority patent/CN104424054B/zh
Priority to US14/177,243 priority patent/US20150067084A1/en
Publication of TW201511501A publication Critical patent/TW201511501A/zh
Application granted granted Critical
Publication of TWI536767B publication Critical patent/TWI536767B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Safety Devices In Control Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)

Description

伺服系統及其備援管理方法
本發明是有關於一種電子裝置,且特別是有關於一種伺服系統及其備援管理方法。
伴隨著網路技術之發展和進步,伺服器的使用範圍越來越廣,使用規模亦愈來愈大。針對分散的伺服器機箱以及大型機房的有效管理一直是一件費時費力的事情。不僅需面對為數眾多、各式各樣的伺服器機箱,還要判斷哪些機箱是否正常或者異常。
中央管理電路板(Central Management Board,CMB)是用來監控及管理整座伺服系統內的資訊。使用者更可透過中央管理電路板的網路接頭對遠端系統作監控及管理,進而減少使用者需就近對系統管理的需求。對系統或使用者而言,中央管理電路板不被允許在系統執行中失效,導致管理資訊產生失真。一旦失效發生,對使用者管理將造成極大不便,甚至將對系統造成嚴重的後果。有鑑於此,如何提供一個備援機制讓中央管理電路板失效時,適當地由另一中央管理電路板接管伺服器則成為一個相 當重要的課題。
本發明係有關於一種伺服系統及其備援管理方法。
根據本發明,提出一種伺服系統。伺服系統包括一感測器、第一中央管理基板(Central Management Board,CMB)、第二中央管理基板、伺服器及備援電路板。感測器產生感測資料備援電路板包括通訊匯流排、共享儲存裝置、儲存切換電路及備援切換模組。通訊匯流排溝通外部伺服器、第一中央管理基板及第二中央管理基板。儲存切換電路係受控於第一中央管理基板或第二中央管理基板將共享儲存裝置連接至第一中央管理基板或第二中央管理基板。第一中央管理基板或第二中央管理基板經備援切換模組輸出控制訊號以取得伺服器之系統控制權。
根據本發明,提出一種伺服系統。伺服系統包括感測器、第一中央管理基板(Central Management Board,CMB)、第二中央管理基板、伺服器及備援電路板。感測器產生感測資料。第一中央管理基板及第二中央管理基板連接感測器,當第一中央管理基板進入主動模式,且第二中央管理基板進入同步預備模式(Sync Standby Mode)時,第一中央管理基板輸出心跳(Heart Beat)訊號至第二中央管理基板,並將狀態資料同步至第二中央管理基板。第一中央管理基板係於主動模式接管伺服器,並輸出控制訊號控制伺服器。備援電路板包括通訊匯流排。通訊匯流排溝通第 一中央管理基板及第二中央管理基板。
根據本發明,提出一種伺服系統之備援管理方法。
伺服系統包括感測器、第一中央管理基板(Central Management Board,CMB)、第二中央管理基板及備援電路板。備援電路板包括通訊匯流排,通訊匯流排溝通第一中央管理基板及第二中央管理基板。備援管理方法包括:經由感測器產生感測資料;以及當第一中央管理基板進入主動模式,且第二中央管理基板進入同步預備模式(Sync Standby Mode)時,第一中央管理基板輸出心跳(Heart Beat)訊號至第二中央管理基板,並將狀態資料同步至第二中央管理基板。第一中央管理基板係於主動模式接管伺服器,並輸出控制訊號控制伺服器。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉較佳實施例,並配合所附圖式,作詳細說明如下:
1、4‧‧‧伺服系統
11、41‧‧‧第一中央管理基板
12、42‧‧‧第二中央管理基板
13、43‧‧‧伺服器
14、44‧‧‧備援電路板
15、45‧‧‧感測器
111‧‧‧第一基板管理控制器
112‧‧‧第一記憶體
121‧‧‧第二基板管理控制器
122‧‧‧第二記憶體
141、441‧‧‧通訊匯流排
142‧‧‧共享儲存裝置
143‧‧‧儲存切換電路
144‧‧‧備援切換模組
201~213、61~64‧‧‧步驟
1441‧‧‧第一開關
1442‧‧‧第二開關
1443‧‧‧邏輯閘
HB‧‧‧心跳訊號
SW1‧‧‧第一強制訊號
SW2‧‧‧第二強制訊號
M1‧‧‧主動模式
M2‧‧‧非主動模式
M3‧‧‧還原模式
S1‧‧‧同步預備模式
S2‧‧‧預備模式
S3‧‧‧錯誤移轉模式
S4‧‧‧同步錯誤移轉模式
第1圖繪示係為依照第一實施例之一種伺服系統之示意圖。
第2A圖及第2B圖繪示係為依照第一實施例之一種伺服系統之備援管理方法之流程圖。
第3圖繪示係為依照第一實施例之第一基板管理控制器111、第二基板管理控制器121、伺服器13與備援切換模組144之示意圖。
第4圖繪示係為依照第二實施例之一種伺服系統之示意圖。
第5圖繪示係為主控端及受控端之各種模式之示意圖。
第6圖繪示係為依照第二實施例之一種伺服系統之備援管理方法之流程圖。
第一實施例
請參照第1圖,第1圖繪示係為依照第一實施例之一種伺服系統之示意圖。伺服系統1包括第一中央管理基板(Central Management Board,CMB)11、第二中央管理基板12、伺服器13、備援電路板14及感測器15。伺服系統1適合與感測器15及伺服器13結合使用。備援電路板14包括通訊匯流排141、共享儲存裝置142、儲存切換電路143及備援切換模組144。通訊匯流排141溝通第一中央管理基板11及第二中央管理基板12,且通訊匯流排141例如為I2C匯流排,但不以此為限。感測器15產生感測資料。儲存切換電路143係受控於第一中央管理基板11或第二中央管理基板12將共享儲存裝置142連接至第一中央管理基板11或第二中央管理基板12。第一中央管理基板11或第二中央管理基板12經備援切換模組144輸出控制訊號以取得伺服器13之系統控制權。
控制信號例如為第一中央管理基板11或第二中央管理基板12所輸出之致能信號。致能信號經備援電路板14傳送至 伺服器13,致能信號用來開啟或關閉伺服器13的硬體。第一中央管理基板11包括第一基板管理控制器(Baseboard Management Controller,BMC)111及第一記憶體112,且第一基板管理控制器111連接第一記憶體112。第二中央管理基板12包括第二基板管理控制器121及第二記憶體122,且第二基板管理控制器121連接第二記憶體122。通訊匯流排141連接第一基板管理控制器111及第二基板管理控制器121。第一記憶體112與第二記憶體122之控制信號需要彼此同步。感測資料例如包括感測器所讀取的電壓、電流、功率、溫度、風扇速度或裝置屬性(device properties)。第一基板管理控制器111或第二基板管理控制器121例如係根據感測資料輸出控制信號。舉例來說,當感測器15感測出伺服器13之供電單元所供應之電量過大時,第一基板管理控制器111或第二基板管理控制器121便輸出控制信號控制供電電源降低供電量。需說明的是,第一記憶體112與第二記憶體122之異常的感測資料也需要彼此同步。舉例說明的是,感測器15感測伺服器13之供電單元所供應之電量無任何異常,第一基板管理控制器111或第二基板管理控制器121不進行任何之動作。相反地說,伺服器13之供電單元供電異常時,第一基板管理控制器111或第二基板管理控制器121將供電異常的紀錄透過系統事件登錄(System Event Log,SEL)。儲存於第一記憶體112或第二記憶體122。因此,異常的感測資料需要在第一記憶體112與第二記憶體122間彼此同步。
第一中央管理基板11及第二中央管理基板12於備援電路板14上的硬體設定(Hardware Strapping)可用來決定誰先取得伺服器13之系統控制權。硬體設定(Hardware Strapping)例如是指第一中央管理基板11及第二中央管理基板12於備援電路板14上的插入位址。舉例來說,第一中央管理基板11於備援電路板14上的插入位址為00,而第二中央管理基板12於備援電路板14上的插入位址為01。當插入位址越小,表示其優先權越高。所以,前述插入位址可決定第一中央管理基板11為主控伺服器13,而第二中央管理基板12為受控於伺服器13。當然,本說明書並不以於備援電路板14上的硬體設定做為第一中央管理基板11及第二中央管理取得伺服器13之系統控制權的限制。
請同時參照第1圖、第2A圖及第2B圖,第2A圖及第2B圖繪示係為依照第一實施例之一種伺服系統之備援管理方法之流程圖。首先如步驟201所示,判斷第一中央管理基板11是否啟動(Active)。若第一中央管理基板11未啟動則重複執行步驟201。相反地,若第一中央管理基板11啟動則執行步驟202。如步驟202所示,判斷第二中央管理基板12是否存在。若第二中央管理基板12不存在,則執行步驟203。如步驟203所示,儲存切換電路143將共享儲存裝置142連接至第一基板管理控制器111,且備援切換模組144將系統控制權交給第一基板管理控制器111。第一基板管理控制器111接管伺服器13後,會先同步第一記憶體112與共享儲存裝置142的控制訊號或感測資料。更仔細地說,第一基板管 理控制器111會先將控制訊號或感測資料儲存到第一記憶體112再儲存到共享儲存裝置142。
若第二中央管理基板12存在,則進一步執行步驟204。如步驟204所示,判斷第二中央管理基板12是否啟動。若第二中央管理基板12啟動則執行步驟205。如步驟205所示,第一基板管理控制器111或第二基板管理控制器121將第一記憶體112與第二記憶體122之控制訊號或感測資料彼此同步。儲存切換電路143將共享儲存裝置142連接至第一基板管理控制器111。第一基板管理控制器111接管伺服器13後,將控制訊號或感測資料儲存至共享儲存裝置142。
接著如步驟206所示,判斷第一中央管理基板11是否失效。若第一中央管理基板11未失效,則重新執行步驟202。相反地,若第一中央管理基板11失效,則執行步驟207。如步驟207所示,儲存切換電路143將共享儲存裝置142連接至第二基板管理控制器121,備援切換模組144將系統控制權交給第二基板管理控制器121,第二基板管理控制器121將控制訊號或感測資料儲存至第二記憶體122及共享儲存裝置142。接著如步驟208所示,判斷第一中央管理基板11是否恢復功能。若第一中央管理基板11恢復功能則重新執行步驟202。相反地,若第一中央管理基板11未恢復功能則重新執行步驟206。
於前述步驟204中,若第二中央管理基板12未啟動,則執行步驟209。如步驟209所示,儲存切換電路143將共享儲 存裝置142連接至第一基板管理控制器111,且備援切換模組144將系統控制權交給第一基板管理控制器111。第一基板管理控制器111將同步第一記憶體112及共享儲存裝置142之控制訊號或感測資料。
接著如步驟210所示,判斷第二中央管理基板12是否故障排除。若第二中央管理基板12之故障未排除,則重新執行步驟209。相反地,若第二中央管理基板12之故障排除而啟動,則執行步驟211。如步驟211所示,判斷第一中央管理電路板11是否失效。若第一中央管理電路板11未失效,則重新執行步驟202。相反地,若第一中央管理電路板11失效,則執行步驟212。如步驟212所示,儲存切換電路143將共享儲存裝置142連接至第二基板管理控制器121,且備援切換模組144將系統控制權交給第二基板管理控制器121。第二中央管理基板12將共享儲存裝置142之控制訊號或感測資料更新至第二記憶體122。接著如步驟213所示,判斷第一中央管理電路板11是否恢復功能。若第一中央管理電路板11未恢復功能,則重新執行步驟211。相反地,若第一中央管理電路板11恢復功能,則重新執行步驟202。
請同時參照第1圖及第3圖,第3圖繪示係為依照第一實施例之第一基板管理控制器111、第二基板管理控制器121、伺服器13與備援切換模組144之示意圖。備援切換模組144進一步包括第一開關1441、第二開關1442及邏輯閘1443。邏輯閘1443連接第一開關1441及第二開關1442且邏輯閘1443例如 為或閘(OR Gate)。當備援切換模組144欲將系統控制權交給第一基板管理控制器111時,第一基板管理控制器111輸出第一強制訊號SW1關閉(Turn Off)第一開關1441。由於第一開關1441被關閉,因此伺服器13之系統控制權由第一基板管理控制器111取得。相反地,當備援切換模組144欲將系統控制權交給第二基板管理控制器121時,第二基板管理控制器121輸出第二強制訊號SW2關閉(Turn Off)第二開關1442。由於第二開關1442被關閉,因此伺服器13之系統控制權由第二基板管理控制器121取得。
如此一來,第一中央管理基板11與第二中央管理基板12將透過備援電路板14進行彼此之控制信號及感測資料的同步。這樣的好處在於,使用者可透過備援電路板14進行第一中央管理基板11或第二中央管理基板12的備援服務。也就是說,當伺服器13的軟體或硬體功能失效時,備援電路板14將協助第一中央管理基板11或第二中央管理基板12監控溫度、電壓或風扇等硬體元件。因此,一但連第一中央管理基板11及第二中央管理基板12其中之一出現問題,使用者仍能透過備援電路板14保有遠端管理伺服器13的能力。
第二實施例
請同時參照第4圖、第5圖及第6圖,第4圖繪示係為依照第二實施例之一種伺服系統之示意圖,第5圖繪示係為主控端及受控端之各種模式之示意圖,第6圖繪示係為依照第二 實施例之一種伺服系統之備援管理方法之流程圖。伺服系統4包括第一中央管理基板41、第二中央管理基板42、伺服器43、備援電路板44及感測器45,且第一中央管理基板41係於主動模式(Active Mode)接管伺服器43。伺服系統4適合與感測器45及伺服器43結合使用。第一中央管理基板41與第二中央管理基板42使用相同的網路協定(Internet Protocol,IP)位址。備援電路板44包括通訊匯流排441,且通訊匯流排441溝通第一中央管理基板41及第二中央管理基板42。通訊匯流排441例如為I2C匯流排、RS232、印表機匯流排或通用序列匯流排(Universal Serial Bus,USB)。感測器45產生感測資料,感測器45例如為偵測伺服器43之溫度的溫度感測器、偵測伺服器43之供電電壓的電壓感測器或偵測伺服器43之風扇轉速的風扇轉速感測器,當然,感測器45不以此為限。
需先說明的是,第一中央管理基板41與第二中央管理基板42不僅互相備援,且共用相同的網路協定位址。由於第一中央管理基板41與第二中央管理基板42共用相同的網路協定位址,因此對遠端的使用者來說,第一中央管理基板41與第二中央管理基板42的狀態資料必須相同,否則將會發生錯誤。舉例來說,當故障發生時,倘若第一中央管理基板41與第二管理基板42原本的日期時間就不對應,則兩個紀錄的故障發生時間必定有問題,難以做為參考之依據。因此,在第一中央管理基板41與第二中央管理基板42共用一個網路協定位址的情況下,必 需同步狀態資料。
此外,第一中央管理基板41與第二中央管理基板42共用相同的網路協定位址,並不表示第一中央管理基板41與第二中央管理基板42都在活動。當第一中央管理基板41與第二中央管理基板42都在活動時,則第一中央管理基板41與第二中央管理基板42其中之一為真實媒體存取控制位址(Media Access Control Address,MAC),另一為虛擬媒體存取控制位址。但真實媒體存取控制位址與虛擬媒體存取控制位址相同。
首先如步驟61所示,第一中央管理基板41進入主動模式M1,且第二中央管理基板42進入同步預備模式(Sync Standby Mode)S1。當第一中央管理基板41進入主動模式M1,且第二中央管理基板42進入同步預備模式(Sync Standby Mode)S1時,第一中央管理基板41輸出心跳(Heart Beat)訊號HB至第二中央管理基板42,並將狀態資料同步至第二中央管理基板42。第一中央管理基板41係於主動模式M1接管伺服器43,並輸出控制訊號控制伺服器43
狀態資料例如為第一中央管理基板41之日期、時間、基板管理控制器之韌體、區域網路(Local Area Network,LAN)模式或網路協定(Internet Protocol,IP)參數等。當第一中央管理基板41進入主動模式M1,第一中央管理基板41為主控端(Master),而第二中央管理基板42為受控端(Slave)。第一中央管理基板41能讀取感測資料並回應使用者命令,但第二中央管理基板42則 僅能讀取感測資料而不會回應使用者命令。
當狀態資料之資料量較小,如日期、時間、區域網路(Local Area Network,LAN)模式或網路協定(Internet Protocol,IP)參數設定等,則第一中央管理基板41之基板管理控制器會將狀態資料儲存至第二中央管理基板42之暫存記憶體,第二中央管理基板42之基板管理控制器再根據第二中央管理基板42之暫存記憶體的資料進行更新以完成同步。當狀態資料之資料量較大,如基板管理控制器之韌體,第一中央管理基板41之基板管理控制器需先將狀態資料儲存至永久性的記憶裝置,再用像刷韌體的方式更新第二中央管理基板42之基板管理控制器的韌體,以完成同步。
接著如步驟62所示,第一中央管理基板41維持主動模式M1,而第二中央管理基板42由同步預備模式S1改變為預備模式(Standby Mode)S2。當第一中央管理基板41將管理資訊同步至第二中央管理基板42後,第一中央管理基板41維持主動模式M1,而第二中央管理基板42由同步預備模式S1改變為預備模式S2。當第二中央管理基板42進入預備模式S2後,第一中央管理基板41就不會再和第二中央管理基板42同步管理資訊。第一中央管理基板41會讀取感測資料並回應使用者命令,而第二中央管理基板42會讀取感測資料但不會回應使用者命令。當感測器45感測到異常狀況時,第二中央管理基板42會將其記錄於系統事件登錄。
跟著如步驟63所示,第一中央管理基板41由主動模式M1改變為非主動模式(Non-activated Mode)M2,而第二中央管理基板42由預備模式S2改變為錯誤移轉模式(Failover Mode)S3。若第一中央管理基板41失效,則不會輸出心跳訊號HB至第二中央管理基板42。當第二中央管理基板42於預備模式S2未收到心跳訊號HB,第一中央管理基板41由主動模式M1改變為非主動模式M2,而第二中央管理基板42由預備模式S2改變為錯誤移轉模式S3,第二中央管理基板42於錯誤移轉模式S3接管伺服器43。第二中央管理基板42於預備模式S2會讀取感測資料並回應使用者命令。
然後如步驟64所示,第一中央管理基板41由非主動模式M2改變為還原模式M3,而第二中央管理基板42由錯誤移轉模式S3改變為同步錯誤移轉模式(Sync Failover mode)S4。當第一中央管理基板41由失效恢復正常時,第一中央管理基板41重新輸出心跳訊號HB至第二中央管理基板42。當第二中央管理基板42於錯誤移轉模式S3收到心跳訊號HB,第一中央管理基板41由非主動模式M2改變為還原模式M3,而第二中央管理基板42由錯誤移轉模式S3改變為同步錯誤移轉模式S4。第二中央管理基板42於同步錯誤移轉模式S4將管理資訊同步至第一中央管理基板41。第一中央管理基板41於還原模式M3不會讀取感測資料及回應使用者命令,但第二中央管理基板42於同步錯誤移轉模式S4會讀取感測資料及回應使用者命令。
當第二中央管理基板42於同步錯誤移轉模式S4將管理資訊同步至第一中央管理基板41後,可以有兩種選擇。第一種選擇是讓第一中央管理基板41與第二中央管理基板42角色互換。也就是讓第一中央管理基板41由主控端改變為受控端,而第二中央管理基板42由受控端改變為主控端。
第二種選擇是讓第一中央管理基板41重新接管伺服器43。當第二中央管理基板42於同步錯誤移轉模式S4將管理資訊同步至第一中央管理基板41後,第一中央管理基板41由還原模式M3改變為主動模式M1,而第二中央管理基板42由同步錯誤移轉模式S4改變為同步預備模式S1。第一中央管理基板41能讀取感測資料並回應使用者命令,但第二中央管理基板42則僅能讀取感測資料而不會回應使用者命令。
如此一來,本實施例提供一種新穎的伺服系統4,透過第一中央管理基板41與第二中央管理基板42在共用一個IP的狀態下,進行彼此狀態資料的同步,藉此,強化第一中央管理基板41與第二中央管理基板42備援之能力,同時,確保第一中央管理基板41與第二中央管理基板42的狀態資料是一致的,進而提升遠端使用者正確管理伺服器13的能力。
綜上所述,雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者 為準。
1‧‧‧伺服系統
11‧‧‧第一中央管理基板
12‧‧‧第二中央管理基板
13‧‧‧伺服器
14‧‧‧備援電路板
15‧‧‧感測器
111‧‧‧第一基板管理控制器
112‧‧‧第一記憶體
121‧‧‧第二基板管理控制器
122‧‧‧第二記憶體
141‧‧‧通訊匯流排
142‧‧‧共享儲存裝置
143‧‧‧儲存切換電路
144‧‧‧備援切換模組
SW1‧‧‧第一強制訊號
SW2‧‧‧第二強制訊號

Claims (20)

  1. 一種伺服系統,適合與一產生一感測資料的感測器及一伺服器結合使用,且包括:一第一中央管理基板(Central Management Board,CMB);一第二中央管理基板,當該第一中央管理基板係於一主動模式接管該伺服器,該第二中央管理基板係受控該伺服器;一備援電路板,包括:一通訊匯流排,用以溝通該第一中央管理基板及該第二中央管理基板;一共享儲存裝置;一儲存切換電路,係受控於該第一中央管理基板或該第二中央管理基板將該共享儲存裝置連接至該第一中央管理基板或該第二中央管理基板;及一備援切換模組,該第一中央管理基板或該第二中央管理基板經該備援切換模組輸出一控制訊號以取得該伺服器之一系統控制權。
  2. 如申請專利範圍第1項所述之伺服系統,其中該第一中央管理基板包括一第一基板管理控制器及一第一記憶體,該第一基板管理控制器連接該第一記憶體,該第二中央管理基板包括一第二基板管理控制器及一第二記憶體,該第二基板管理控制器連接該第二記憶體,該通訊匯流排連接該第一基板管理控制器及該第二基板管理控制器。
  3. 如申請專利範圍第2項所述之伺服系統,其中該第一中央管理基板係主控該伺服器,且該第二中央管理基板係受控該伺服器。
  4. 如申請專利範圍第3項所述之伺服系統,其中當該第一中央管理基板啟動且該第二中央管理基板未啟動,該儲存切換電路將該共享儲存裝置連接至該第一基板管理控制器,該備援切換模組將該系統控制權交給該第一基板管理控制器,該第一基板管理控制器將同步該第一記憶體及該共享儲存裝置之該控制信號或該感測資料。
  5. 如申請專利範圍第4項所述之伺服系統,其中當該第二中央管理基板之故障排除且該第一中央管理電路板於啟動後失效,該儲存切換電路將該共享儲存裝置連接至該第二基板管理控制器,該備援切換模組將該系統控制權交給該第二基板管理控制器,該第二中央管理基板將該共享儲存裝置之該控制信號或該感測資料更新至該第二記憶體。
  6. 如申請專利範圍第5項所述之伺服系統,其中當該第二中央管理基板接管該伺服器後,將該控制信號或該感測資料儲存至該共享儲存裝置及該第二記憶體。
  7. 如申請專利範圍第3項所述之伺服系統,其中當該第一中央管理基板及該第二中央管理基板啟動,該第一基板管理控制器或該第二基板管理控制器將該第一記憶體與該第二記憶體之該控制信號或該感測資料彼此同步,該儲存切換電路將該共享儲存 裝置連接至該第一基板管理控制器,該第一基板管理控制器接管該伺服器後,將該控制信號或該感測資料儲存至該共享儲存裝置。
  8. 如申請專利範圍第7項所述之伺服系統,其中當該第一中央管理基板於啟動後失效,該儲存切換電路將該共享儲存裝置連接至該第二基板管理控制器,該備援切換模組將該系統控制權交給該第二基板管理控制器,該第二基板管理控制器將該控制信號或該感測資料儲存至該第二記憶體及該共享儲存裝置。
  9. 一種伺服系統,適合與一產生一感測資料的感測器及一伺服器結合使用,且包括:一第一中央管理基板(Central Management Board,CMB);一第二中央管理基板,該第一中央管理基板及該第二中央管理基板連接該感測器,當該第一中央管理基板進入一主動模式,且該第二中央管理基板進入一同步預備模式(Sync Standby Mode)時,該第一中央管理基板輸出一心跳(Heart Beat)訊號至該第二中央管理基板,並將一狀態資料同步至該第二中央管理基板,該第一中央管理基板係於該主動模式接管該伺服器,並輸出一控制訊號控制該伺服器,且該第二中央管理基板係受控該伺服器;一備援電路板,包括:一通訊匯流排,用以溝通該第一中央管理基板及該第二中央管理基板。
  10. 如申請專利範圍第9項所述之伺服系統,其中當該第一 中央管理基板將該狀態資料同步至該第二中央管理基板後,該第一中央管理基板維持該主動模式,而該第二中央管理基板由該同步預備模式改變為一預備模式。
  11. 如申請專利範圍第10項所述之伺服系統,其中當該第二中央管理基板於該預備模式未收到該心跳訊號,該第一中央管理基板由該主動模式改變為一非主動模式,而該第二中央管理基板由該預備模式改變為一錯誤移轉模式,該第二中央管理基板於該錯誤移轉模式接管該伺服器。
  12. 如申請專利範圍第11項所述之伺服系統,其中當該第二中央管理基板於該錯誤移轉模式收到該心跳訊號,該第一中央管理基板由該非主動模式改變為一還原模式,而該第二中央管理基板由該錯誤移轉模式改變為一同步錯誤移轉模式(Sync Failover mode),該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板。
  13. 如申請專利範圍第12項所述之伺服系統,其中當該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板後,該第一中央管理基板係由一主控端(Master)改變為一受控端(Slave),而該第二中央管理基板係由該受控端改變為該主控端。
  14. 如申請專利範圍第12項所述之伺服系統,其中當該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板後,該第一中央管理基板由該還原模式改變為該 主動模式,而該第二中央管理基板由該同步錯誤移轉模式改變為同步預備模式。
  15. 一種伺服系統之備援管理方法,該伺服系統包括一感測器、一第一中央管理基板(Central Management Board,CMB)、一第二中央管理基板及一備援電路板,該備援電路板包括一通訊匯流排,該通訊匯流排溝通該第一中央管理基板及該第二中央管理基板,該備援管理方法包括:經由該感測器產生一感測資料;以及當該第一中央管理基板進入一主動模式,且一第二中央管理基板進入一同步預備模式(Sync Standby Mode)時,該第一中央管理基板輸出一心跳(Heart Beat)訊號至該第二中央管理基板,並將一狀態資料同步至該第二中央管理基板,該第一中央管理基板係於該主動模式接管一伺服器,並輸出一控制訊號控制該伺服器,且該第二中央管理基板係受控該伺服器。
  16. 如申請專利範圍第15項所述之備援管理方法,其中當該第一中央管理基板將該狀態資料同步至該第二中央管理基板後,該第一中央管理基板維持該主動模式,而該第二中央管理基板由該同步預備模式改變為一預備模式(Standby Mode)。
  17. 如申請專利範圍第16項所述之備援管理方法,其中當該第二中央管理基板於該預備模式未收到該心跳訊號,該第一中央管理基板由該主動模式改變為一非主動模式(Non-activated Mode),而該第二中央管理基板由該預備模式改變為一錯誤移轉 模式(Failover Mode),該第二中央管理基板於該錯誤移轉模式接管該伺服器。
  18. 如申請專利範圍第17項所述之備援管理方法,其中當該第二中央管理基板於該錯誤移轉模式收到該心跳訊號,該第一中央管理基板由該非主動模式改變為一還原模式,而該第二中央管理基板由該錯誤移轉模式改變為一同步錯誤移轉模式(Sync Failover mode),該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板。
  19. 如申請專利範圍第18項所述之備援管理方法,其中當該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板後,該第一中央管理基板係由一主控端(Master)改變為一受控端(Slave),而該第二中央管理基板係由該受控端改變為該主控端。
  20. 如申請專利範圍第18項所述之備援管理方法,其中當該第二中央管理基板於該同步錯誤移轉模式將該狀態資料同步至該第一中央管理基板後,該第一中央管理基板由該還原模式改變為該主動模式,而該第二中央管理基板由該同步錯誤移轉模式改變為同步預備模式。
TW102131731A 2013-09-03 2013-09-03 伺服系統及其備援管理方法 TWI536767B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW102131731A TWI536767B (zh) 2013-09-03 2013-09-03 伺服系統及其備援管理方法
CN201310428350.3A CN104424054B (zh) 2013-09-03 2013-09-18 服务器系统及其备援管理方法
US14/177,243 US20150067084A1 (en) 2013-09-03 2014-02-11 Server system and redundant management method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102131731A TWI536767B (zh) 2013-09-03 2013-09-03 伺服系統及其備援管理方法

Publications (2)

Publication Number Publication Date
TW201511501A TW201511501A (zh) 2015-03-16
TWI536767B true TWI536767B (zh) 2016-06-01

Family

ID=52584808

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102131731A TWI536767B (zh) 2013-09-03 2013-09-03 伺服系統及其備援管理方法

Country Status (3)

Country Link
US (1) US20150067084A1 (zh)
CN (1) CN104424054B (zh)
TW (1) TWI536767B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
CN108028792B (zh) * 2015-09-17 2020-10-23 株式会社安川电机 工业设备通信系统、通信方法和工业设备
CN105893220A (zh) * 2016-04-01 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器监控管理的方法、装置及系统
US10334334B2 (en) * 2016-07-22 2019-06-25 Intel Corporation Storage sled and techniques for a data center
US10540232B2 (en) * 2017-09-19 2020-01-21 Hewlett Packard Enterprise Development Lp Recovery using programmable logic device
US10664429B2 (en) * 2017-12-22 2020-05-26 Dell Products, L.P. Systems and methods for managing serial attached small computer system interface (SAS) traffic with storage monitoring
CN108345477B (zh) 2018-02-28 2021-10-26 郑州云海信息技术有限公司 一种双镜像共享conf分区文件的设计方法及装置
TWI668578B (zh) * 2018-04-03 2019-08-11 神雲科技股份有限公司 具自動同步更新不同伺服器之間的相同基板管理控制器設定參數功能之伺服器機櫃系統及其自動同步方法
TWI682273B (zh) * 2018-09-13 2020-01-11 緯創資通股份有限公司 儲存裝置的電源控制方法與使用此方法的電子系統
CN110377460A (zh) * 2019-07-26 2019-10-25 苏州浪潮智能科技有限公司 一种冗余管理系统及存储服务器
CN110690998B (zh) * 2019-10-11 2021-12-21 湖南长城银河科技有限公司 一种基于bmc的主从设备管理方法
CN113708986B (zh) * 2020-05-21 2023-02-03 富联精密电子(天津)有限公司 服务器监控装置、方法及计算机可读存储介质
KR102411260B1 (ko) * 2020-11-06 2022-06-21 한국전자기술연구원 러기드 환경에서 관리 모듈간 데이터 이중화 처리 방법
KR102548709B1 (ko) * 2020-11-06 2023-06-28 한국전자기술연구원 러기드 환경에서의 엣지 서버 시스템 관리 및 제어 방법
CN113590203A (zh) * 2021-07-15 2021-11-02 上海海得控制系统股份有限公司 基板管理控制器失效处理方法及系统、存储介质及单片机
TWI795991B (zh) * 2021-11-10 2023-03-11 神雲科技股份有限公司 資料同步方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030196126A1 (en) * 2002-04-11 2003-10-16 Fung Henry T. System, method, and architecture for dynamic server power management and dynamic workload management for multi-server environment
US6948008B2 (en) * 2002-03-12 2005-09-20 Intel Corporation System with redundant central management controllers
US6931568B2 (en) * 2002-03-29 2005-08-16 International Business Machines Corporation Fail-over control in a computer system having redundant service processors
US7818387B1 (en) * 2004-02-09 2010-10-19 Oracle America, Inc. Switch
CN100385408C (zh) * 2004-09-10 2008-04-30 英业达股份有限公司 备用控管系统及其方法
US20070220301A1 (en) * 2006-02-27 2007-09-20 Dell Products L.P. Remote access control management module
US20080126854A1 (en) * 2006-09-27 2008-05-29 Anderson Gary D Redundant service processor failover protocol
US8938736B2 (en) * 2009-07-07 2015-01-20 Dell Products L.P. System and method for providing redundancy for management controller
US8661286B2 (en) * 2010-05-21 2014-02-25 Unisys Corporation QProcessor architecture in a cluster configuration
JP5634379B2 (ja) * 2011-10-27 2014-12-03 株式会社日立製作所 計算機システムおよび計算機システムの情報保存方法
US20140244000A1 (en) * 2011-10-28 2014-08-28 Nec Corporation Communication relay apparatus, operation state determination method, communication relay control board, and recording medium storing control program

Also Published As

Publication number Publication date
TW201511501A (zh) 2015-03-16
CN104424054A (zh) 2015-03-18
CN104424054B (zh) 2018-06-01
US20150067084A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
TWI536767B (zh) 伺服系統及其備援管理方法
US8707290B2 (en) Firmware update in an information handling system employing redundant management modules
JP4568764B2 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
JP4572250B2 (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JP6098778B2 (ja) 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム
US20230019075A1 (en) Electronic device including a plurality of power management integrated circuits and method of operating the same
CN111585835A (zh) 一种带外管理系统的控制方法、装置和存储介质
JP2015230720A (ja) 計算機システム
JP2006172243A (ja) フォルトトレラントコンピュータ装置およびその同期化方法
JP5445572B2 (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP2007280313A (ja) 冗長化システム
JP2009098988A (ja) フォルトトレラントコンピュータシステム
JP2012230446A (ja) プログラマブルコントローラステーション
CN112068991B (zh) 一种基于主从同步的高可靠的双管理系统
JP2010231257A (ja) 高可用性システム、高可用性システムの対障害対策方法
JPWO2015008484A1 (ja) バックアップ制御装置及びバックアップ制御方法
US11010269B2 (en) Distributed processing system and method for management of distributed processing system
JP2018116477A (ja) 情報処理装置および情報処理システム
JP2009003631A (ja) 冗長構成サーバシステム、同期処理方法、及びプログラム
JP7056057B2 (ja) 情報処理装置、情報処理方法、情報処理システム、及び、コンピュータ・プログラム
JP6056801B2 (ja) フォールトトレラントサーバ、同期化方法、及びプログラム
JP7209784B1 (ja) 冗長化システム及び冗長化方法
JP2010147803A (ja) 通信装置および通信装置起動時の運用情報復元方法
JP2005018710A (ja) 複数の電源入力部を持つ情報処理装置に対応した無停電電源装置及び情報処理システム
KR20010010293A (ko) 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법