TW201640363A - 自動硬體恢復方法及自動硬體恢復系統 - Google Patents

自動硬體恢復方法及自動硬體恢復系統 Download PDF

Info

Publication number
TW201640363A
TW201640363A TW105113858A TW105113858A TW201640363A TW 201640363 A TW201640363 A TW 201640363A TW 105113858 A TW105113858 A TW 105113858A TW 105113858 A TW105113858 A TW 105113858A TW 201640363 A TW201640363 A TW 201640363A
Authority
TW
Taiwan
Prior art keywords
peripheral component
node
fast peripheral
controller
component interconnect
Prior art date
Application number
TW105113858A
Other languages
English (en)
Other versions
TWI559148B (zh
Inventor
施青志
Original Assignee
廣達電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/708,857 external-priority patent/US9934187B2/en
Priority claimed from US15/071,474 external-priority patent/US9965367B2/en
Application filed by 廣達電腦股份有限公司 filed Critical 廣達電腦股份有限公司
Publication of TW201640363A publication Critical patent/TW201640363A/zh
Application granted granted Critical
Publication of TWI559148B publication Critical patent/TWI559148B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0024Peripheral component interconnect [PCI]

Abstract

用於自動硬體回復之系統、方法及電腦可讀儲存媒體。於一些例子中,系統可接收關聯一節點之快速週邊組件互連裝置之裝置失效之通知。系統亦可接收用以斷開快速週邊組件互連裝置與節點之間的鏈接的第一請求、及用以將替換快速週邊組件互連裝置於斷開鏈接後與此節點連接的第二請求。此系統可以接著重配置快速週邊組件互連切換結構以斷開快速週邊組件互連裝置與節點之間的鏈接,並將替換快速週邊組件互連裝置與此節點連接。

Description

自動硬體恢復方法及自動硬體恢復系統
本發明係有關於硬體恢復,具體而言,係關於自動硬體恢復系統。
電腦之效能及處理能力於近數十年來有巨大且穩定的成長。不足為奇地,計算系統,譬如伺服器,已越來越複雜,其通常配備越來越多的數量及類型的組件,譬如處理器、記憶體和附加卡。大部分專家同意此趨勢將持續至未來。
然而,隨著硬體組件之數量及複雜度成長,計算系統越來越易於遭受裝置失效。確實,裝置失效是系統管理員所面對的普遍常見的問題,尤其是在較大、較複雜的環境及架構中,譬如資料中心及解集架構(例如Rack Scale Architecture等)。不幸的是,裝置失效可以是非常具有破壞性的。例如,長時間的裝置失效可破壞計算或網路服務,且有時候甚至會導致資料遺失。
為了改正裝置之失效,系統管理員通常必須執行手動的硬體恢復過程。此硬體恢復過程可包括關閉系統或服務之電源以替換失效的系統組件。整體恢復過程可以是無 效率的,且可能導致對使用者意義重大的服務上的破壞。此外,仰賴於使用者輸入來完成恢復過程上的某些步驟會進一步延遲系統的恢復並致使對使用者來說更大的破壞。
本揭示文件之附加特徵及優點將闡述於隨後的說明內容中,且部分於說明內容將是明顯的、或可藉由在此揭露的原理之實行所習得。本揭示文件之附加特徵及優點可藉由附加的請求項中特別指出之手段或組合來理解和取得。本揭示文件之附加特徵及其他特徵將自隨後的說明內容及附加的請求項中更加完全顯現、或可由此處闡述之原理之實行所習得。
此處闡述的方法可以用以執行自動系統恢復。例如,此處闡述的方法可以於多種環境及架構中執行自動系統硬體恢復,包括解集的架構。自動系統恢復可限制或除去使用者手動輸入之需求且可大大減少使用者所經歷的例如硬體失效造成之任何破壞。此外,自動系統恢復可實施於支持快速週邊組件互連(PCIe)熱插拔、通用串列匯流排(USB)熱插拔之架構、以及不支援熱插拔程序之架構。
本揭示文件揭露用於自動硬體恢復之系統、方法、及非暫時性電腦可讀儲存媒體。於一些配置中,系統可接收關聯一節點之裝置的裝置失效之通知,此裝置譬如為快速週邊組件互連或任何類型之具有熱插拔能力之裝置。裝置失效可以是裝置之硬體及/或軟體失效。此外,此裝置包括 任何組件或擴充卡,譬如網路介面卡(NIC)、儲存裝置(例如固態硬碟)、圖形處理單元(GPU)等。
接者,系統可接收用以斷開裝置(例如PCIe裝置)與節點之間的鏈接的第一請求、及用以將替換裝置(例如PCIe替換裝置)於斷開鏈接後與此節點連接之第二請求。基於第一及第二請求,系統可接者重配置裝置切換結構(例如PCIe switch fabric)以斷開此裝置與此節點之間的鏈接,並將替換裝置與此節點連接。
100、150、200、312、314、316、318‧‧‧系統
102‧‧‧匯流排
104‧‧‧記憶體
106‧‧‧唯讀記憶體
108‧‧‧隨機存取記憶體
110、138‧‧‧控制器
112‧‧‧儲存裝置
114~118‧‧‧模組
120‧‧‧輸入裝置
122‧‧‧輸出裝置
124‧‧‧通訊介面
126‧‧‧感測器
128‧‧‧快取
130‧‧‧處理器
132‧‧‧快閃記憶體
134、162‧‧‧韌體
136‧‧‧顯示器
152‧‧‧晶片組、硬體組件
154‧‧‧橋接器
156‧‧‧介面組件
158‧‧‧通訊介面
160‧‧‧處理器、硬體組件
164‧‧‧輸出裝置、硬體組件
166‧‧‧儲存裝置
168‧‧‧記憶體、儲存裝置、硬體組件
202‧‧‧控制器
204‧‧‧根埠
206‧‧‧電源控制模組
208‧‧‧金氧半場效電晶體
210‧‧‧擴充槽
212‧‧‧按鈕
214‧‧‧保留閂
216、218‧‧‧指示燈
220、222、226、230、232、234、254、256、266‧‧‧信號
224、258‧‧‧電源故障狀況
228‧‧‧輸入
250、270‧‧‧過程
252‧‧‧硬體組成管理器
260‧‧‧注意按壓按鈕輸入(說明書無)
262‧‧‧手動操作保留閂(說明書無)
264‧‧‧保留指示燈(說明書無)
300‧‧‧架構
302‧‧‧切換結構
304‧‧‧結構控制器
306‧‧‧硬體監控系統
310‧‧‧網路裝置
322‧‧‧基本輸入/輸出系統、BIOS
324‧‧‧操作系統、OS
326‧‧‧裝置集區
328‧‧‧裝置
330‧‧‧鏈接
400、500、600‧‧‧方法
402、404、406、502、504、506、508、510、512、602、604、606、608、610、612‧‧‧步驟
為了描述使上文記述和本揭示文件之其他優點及特徵能被瞭解之方式,於上文簡短描述之原理之更詳細描述將藉由此處繪示於附加圖式之具體實施例的參考來提供。應理解圖式僅描繪本發明之示範實施例,並不用以限制發明範圍,本文原理係透過隨附之圖式的使用,以附加特性及細節來描述及解釋:第1A~1B圖繪示示例系統實施例;第2A圖繪示示例快速週邊組件互連系統支持熱插拔操作的方塊圖;第2B圖繪示於快速週邊組件互連系統中不藉由使用者輸入之熱插拔操作的示例過程的方塊圖;第2C圖繪示於快速週邊組件互連系統中不藉由使用者輸入或控制器之熱插拔操作的示例過程的方塊圖;第3A圖繪示自動硬體恢復之示例架構的示意圖; 第3B圖繪示於示例架構中用於自動恢復之熱插拔機制的示意方塊圖;第3C圖繪示於示例架構中用於自動恢復之熱調換機制的示意方塊圖;第4圖繪示用以執行自動恢復程序之示例方法;第5圖繪示用以執行熱新增程序之示例方法;以及第6圖繪示用以執行熱移除程序之示例方法。
本揭示文件之各種實施例於下文作詳細地討論。當討論特定的實施方式時,應理解其僅係用於說明之目的。在相關領域中具有通常技藝之人將了解到其他組件及配置可在不背離本發明之精神及範疇的情況下被使用。
本揭示文件揭露用於自動硬體恢復之系統、方法、及非暫時性電腦可讀儲存媒體。用於自動硬體恢復之示例系統及配置的簡短介紹描述首先於此揭露。包括例子及變化例的自動硬體恢復之詳細描述將隨後提出。應作為不同實施例來描述之此等變化例被闡述。請參閱第1A圖和第1B圖。
第1A圖和第1B圖繪示示例系統實施例。當實行本發明技術時,更多適當的實施例對於在本領域中通常技藝之人是易見的。本領域中通常技藝之人將易於理解到其他系統實施例是可行的。
第1A圖繪示系統匯流排計算系統架構(系統 100),其中系統之組件係使用匯流排102與彼此電性通信。示例系統100包括處理器130(CPU或處理器)及將各個系統組件耦接至處理器130之系統匯流排102,此等系統組件包括系統記憶體104,譬如唯讀記憶體106(ROM)及隨機存取記憶體108(RAM)。系統100可包括高速記憶體之快取,此高速記憶體直接與處理器130連接、或位於處理器130之近處、或整合作為處理器130之部分。系統100可自記憶體104及/或儲存裝置112複製資料至快取128以供處理器130來快速存取。在此方式中,快取可提供性能提升以避免處理器130於等待資料時延遲。此些或其他模組可控制或被配置來控制處理器130來執行不同操作。其他系統記憶體104同樣可供使用。記憶體104可包括多個不同類型之具有不同性能特性的記憶體。處理器130可包括任何一般目的處理器及配置以控制處理器130和特殊目的處理器的硬體模組或軟體模組,譬如儲存裝置112中的模組一114、模組二116、和模組三118,其中軟體指令係整合至實際處理器設計中。處理器130實質上可為完全自足式計算系統,包含多個核心或處理器、匯流排、記憶體控制器、快取等。多核心處理器可為對稱或非對稱。
為了致使與系統100之使用者互動,輸入裝置120可代表任何數量之輸入機制,譬如用於發言之麥克風、用於手勢或圖形輸入之觸碰感應螢幕、鍵盤、滑鼠、動作輸入、發言等。輸出裝置122亦可為本領域中技藝之人所知悉的一數量之輸出機制之一或多個。在一些例子中,多模系統 可使一使用者提供多個類型之輸入來與系統100通訊。通訊介面124一般可支配及管理使用者輸入和系統輸出。本文揭露技術在操作於任何特定硬體配置上是沒有限制的,因此基本特徵可被容易地置換以供開發出的改良式硬體或韌體配置。
儲存裝置112係非依電性記憶體且可為硬碟或其他類型之可儲存可被電腦存取之資料的電腦可讀媒體,譬如磁性卡帶、快閃記憶卡、固態記憶體裝置、數位通用磁碟、卡匣、隨機存取記憶體108(RAM)、唯讀記憶體106(ROM)、及其等之混合。
儲存裝置112可包括軟體模組114、116、118以控制處理器130。其他硬體或軟體模組是可考慮的。儲存裝置112可被連接至系統匯流排102。在一方面,執行特定功能之硬體模組可包括儲存於電腦可讀媒體之軟體組件以實現功能,此電腦可讀媒體與必要硬體組件連接,譬如處理器130、匯流排102、顯示器136等。
控制器110可為系統100上之特定微控制器或處理器,譬如BMC(基板管理控制器)。於一些情況中,控制器110可為智慧平台管理介面(IPMI)之部分。此外,於一些情況中,控制器110可內嵌在主機板或系統100之主要電路板上。控制器110可管理系統管理軟體及平台硬體之間的介面。控制器110亦可與各種系統裝置及組件(內部及/或外部)進行通訊,譬如控制器或周邊組件,此將於下文作進一步描述。
控制器110可對於通知、警示、及/或事件產生特定回應並與遠程裝置或組件(例如電子郵件訊息、網路訊息等)進行通訊、及產生用於自動硬體恢復程序之指令或命令等。管理者亦可與控制器110進行遠程通訊以初始或進行特定硬體恢復程序或操作,此將於下文作進一步描述。
於系統100上之不同類型的感測器(例如感測器126)可向控制器110報告譬如冷卻風扇轉速、電力狀態、操作系統(OS)狀態、硬體狀態等參數。控制器110亦可包括系統事件日誌控制器及/或儲存器以管理和維護控制器110接收之事件、警示、及通知。例如,控制器110或系統事件日誌控制器可接收來自一或多個裝置及組件之警示或通知,並維護此等警示或通知於系統事件日誌儲存組件中。
快閃記憶體132可以是可被系統100使用來儲存及/或資料傳輸的電子非依電性電腦儲存媒體或晶片。快閃記憶體132可被電氣抹除及/或重新編程。快閃記憶體132可包括例如抹除式可程式唯讀記憶體(EPROM)、電氣抹除式可程式唯讀記憶體(EEPROM)、ROM、NVRAM或互補式金屬氧化物半導體(CMOS)。快閃記憶體132可儲存當系統100第一次通電時由系統100執行之韌體134、及一組指定用於韌體134之配置。快閃記憶體132亦可儲存由韌體134使用之配置。
韌體134可包括基本輸入/輸出系統或其取代物或等效物,譬如可延伸韌體介面(EFI)或統一可延伸韌體介面(UEFI)。韌體134可於系統100每次被啟動時被載入及執 行作為次序程式。韌體134可基於此配置置來識別、啟始及檢測存在於系統100中的硬體。韌體134可於系統100上執行自我檢測,譬如開機自我檢測(POST)。此自我檢測可檢測譬如硬體驅動器、光學讀取裝置、冷卻裝置、記憶體模組、擴充卡等各種硬體組件之功能。韌體134可定址及分配記憶體104、唯讀記憶體106、隨機存取記憶體108及/或儲存裝置112中的區域以儲存操作系統(OS)。韌體134可載入啟動載入器及/或OS,並將系統100之控制提供給OS。
系統100之韌體134可包括定義韌體134如何控制系統100中各種硬體組件之韌體配置。韌體配置可決定系統100中各種硬體組件之啟動順序。韌體134可提供譬如UEFI之可允許不同於韌體預設配置中參數的多種不同參數設定之介面。舉例來說,一使用者(例如管理者)可使用韌體134來指定週期及匯流排速率、定義何種週邊設備係附接於系統100、設定狀態監測(例如風扇速率及CPU溫度限制)、及/或提供影響系統100之整體效能及電力使用的多種其他參數。
當韌體134以儲存於快閃記憶體132中來說明時,於本領域中具有通常知識者將容易瞭解到韌體134可儲存於其他記憶體組件中,譬若諸如記憶體104或唯讀記憶體106。然而,用於解釋的目的,韌體134係以儲存於快閃記憶體132中作為一非限制例子來說明。
系統100可包括一或多個感測器126。此一或多個感測器126可包括例如一或多個溫度感測器、熱感測器 (thermal sensor)、氧氣感測器、化學感測器、噪音感測器、熱傳感器(heat sensor)、電流感測器、電壓感測器、氣流感測器、流動感測器、紅外線感測器、熱流感測器、溫度計、高溫計等。此一或多個感測器126可例如與處理器、快取128、快閃記憶體132、通訊介面124、記憶體104、唯讀記憶體106、隨機存取記憶體108、控制器110及儲存裝置112透過匯流排102來通訊。此一或多個感測器126亦可與系統中譬如內部整合電路(I2C)、通用型輸出(GPO)等其他組件透過一或多個不同裝置來通訊。
第1B圖繪示具有晶片組架構之電腦系統150之例子,此晶片組架構可用以執行所描述的方法或操作、及產生和顯示圖形使用者介面(GUI)。電腦系統150可包括可用來實行揭露技術之電腦硬體、軟體及韌體。電腦系統150可包括處理器160、任何數量之能夠執行軟體和韌體之物理上及/或邏輯上不同的資源的表示體、以及配置來執行識別的計算的硬體。處理器160可與能控制至處理器160之輸入和自處理器160之輸出的晶片組152通訊。於此例中,晶片組152輸出資訊至譬如顯示器之輸出裝置164,並可讀取及寫入資訊至例如可包括磁性介質之儲存裝置166、及固態介質。晶片組152亦可讀取來自隨機存取記憶體168之資料及寫入資料至隨機存取記憶體168。用以與多種使用者介面組件156介接之橋接器154可被提供來介接晶片組152。此種使用者介面組件156可包括鍵盤、麥克風、觸碰偵測及處理電路、譬如滑鼠之指向裝置等。一般而言,至電腦系統150 之輸入可來自多種資源、機器生成及/或人為生成之任一者。
晶片組152亦可與一或多個可具有不同物理介面之通訊介面158介接。此種通訊介面可包括用於有線及無線區域網路、寬頻無線網路、以及個人區域網路之介面。於此揭露之用以產生、顯示及使用GUI之方法的一些應用可包括藉由處理器160分析儲存於儲存裝置166或168之資料來透過物理介面接收有序資料組或接收由機器本身產生的有序資料組。更進一步地,此機器可接收來自一使用者透過使用者介面組件156之輸入並執行適當的功能,譬如藉由使用處理器160解釋此等輸入來瀏覽功能。
此外,晶片組152亦可與韌體162通訊,韌體162可於電源開啟時被電腦系統150執行。韌體162可基於一組韌體配置來識別、啟始及檢測存在於電腦系統150中的硬體。韌體162可於電腦系統150上執行自我檢測,譬如POST。此自我檢測可檢測各種硬體組件152~168之功能。韌體162可定址及分配記憶體168中的區域以儲存OS。韌體162可載入啟動載入器及/或OS,並將電腦系統150之控制提供給OS。於一些情況中,韌體162可與硬體組件152~160及164~168進行通訊。於此,韌體162可透過晶片組152及/或一或多個組件來與硬體組件152~160及164~168進行通訊。於一些情況中,韌體162可直接與硬體組件152~160及164~168進行通訊。
可理解的是示例系統100和150可具有多於一個處理器(例如130、160)或為一群組之部分或計算裝置之 叢集互聯在一起以提供更大的處理能力。
為使解釋更清晰。於一些例子中本揭示技術可呈現為包括含有功能區塊之獨立功能區塊,功能區塊包括於軟體或是硬體和軟體組合中實施之方法的裝置、裝置組件、步驟或常規。
於一些實施例中,電腦可讀儲存裝置、媒體、及記憶體可包括含有一位元串流之有線或無線信號等。然而,當提及時,非依電性電腦可讀儲存媒體明確地排除譬如能量、載波信號、電磁波及信號本身之媒體。
根據上述例子之方法可實施為使用儲存於電腦可讀媒體或可自電腦可讀媒體取得的電腦可執行指令。此等指令可包括例如致使或配置通用目的電腦、特殊目的電腦或特殊目的處理裝置執行特定的一功能或一組功能的指令或資料。使用之電腦資源之部分可透過網路存取。電腦可執行指令可例如為二進位、譬如組合語言之中間格式指令、韌體或資源代碼。可使用來儲存指令、使用之資訊、及/或於根據所描述例子之方法期間產生之資訊的電腦可讀媒體之例子包括磁性或光學硬碟、快閃記憶體、具有非依電性記憶體之USB裝置、連網儲存裝置等。
根據此等揭示內容以實施方法的裝置可包含硬體、韌體及/或軟體,且可採取任何不同的形式因子。此等形式因子的典型例子包括膝上型電腦、智慧型手機、小尺寸個人電腦、個人數位助理、機架式裝置、獨立式裝置等。於此描述之功能亦可體現於周邊或外接卡。此種功能亦可藉由 下文進一步之例子來實施在不同晶片或執行於單一裝置之不同過程之中的電路板上。
此等指令、用以傳送此等指令之媒體、用以執行前述之計算資源、及其他用以支持此等計算資源之結構皆係用以提供於此描述之功能的手段。
第2A圖繪示支持熱插拔操作之一示例快速週邊組件互連(PCIe)系統200之方塊圖。系統200可支持熱增加及熱移除操作。系統200可包括對於系統200之用以增加及移除PCIe裝置之擴充槽210。系統200可於擴充槽210上之裝置被安裝或移除時觸發熱新增或熱移除操作,此將於下文描述。
熱新增操作
系統200可支持熱新增操作,如下文所示。當PCIe裝置被插入擴充槽210時,一存在偵測信號226可被擴充槽210發送至控制器202來指示此PCIe裝置已被插入至擴充槽210。控制器202可例如為PCIe熱插拔控制器或輸入/輸出擴展器(例如I2C切換器或擴展器)。控制器202可例如透過一匯流排或譬如SMBus(系統管理匯流排)或I2C匯流排之通訊通道來介接一或多個處理器、晶片組、周邊設備及組件。於一些配置中,控制器202可為一複雜可程式邏輯裝置(CPLD)、場效可程式閘陣列(FPGA)、電氣抹除式可程式唯讀記憶體(EEPROM)切換器、或任何I/O切換器或擴展器。控制器202可傳送控制信號220至PCIe切換器或根埠204以管理熱新增及熱移除操作。PCIe切換器或根埠204可 包括一或多個熱插拔暫存器、邏輯、及/或組件以控制、管理、及/或處理熱插拔信號(例如PCIe熱插拔信號)。
於安裝PCIe裝置時之手動操作的保留閂214之關閉可觸發手動操作保留閂信號230被傳送至控制器202。
此外,系統200可包括可被用來觸發熱新增操作之注意按鈕212。當注意按鈕212被啟動,注意按鈕按壓輸入228可被傳送至控制器202。
控制器202可傳送電源指示信號234以啟動電源指示燈218(例如電源LED)。電源指示燈218於被啟動時可指示系統200處於過渡狀態。舉例來說,電源指示燈218於啟動時可閃爍以指示過渡狀態。
控制器202可接著傳送電源信號222至電源控制模組206以供電給擴充槽210。金氧半場效電晶體208可被使用來切換或放大電源信號222。
熱插拔驅動可致使關聯於擴充槽210之匯流排的重新記數。系統200可偵測插入至擴充槽210之PCIe裝置、配置此裝置、及載入任何關聯於此裝置之驅動。
電源故障狀況224或手動操作保留閂214之開啟可轉換擴充槽210上之PCIe裝置至失能狀態。控制器202可發送注意指示信號232以啟動注意指示燈216(指示LED)來指出操作上的問題。
熱移除操作
當操作上的問題發生時,系統200可執行如下文描述的熱移除。熱移除操作可藉由啟動注意按壓按鈕212 而被請求或觸發。控制器202可接著傳遞此請求至熱插拔驅動。電源指示燈218可啟動來指示過渡狀態。擴充槽210中的PCIe裝置可被離線或斷連。舉例來說,系統200之操作系統(OS)可斷連PCIe裝置。
擴充槽210可接著被斷電。電源指示燈218亦可被斷電以指示物理上移除PCIe裝置是安全的。
使用者可開啟手動操作保留閂214來移除PCIe裝置。至擴充槽210之切換信號可被斷電。使用者可接著移除PCIe裝置,而存在偵測信號226可被傳送至控制器202以指示擴充槽210目前是無載的。
第2B圖繪示快速週邊組件互連(PCIe)系統200中無使用者輸入之熱插拔操作的示例過程250的方塊圖。在過程250中,控制器138可接收來自硬體組成管理器252之指示PCIe裝置已被插入擴充槽210的請求。控制器138可為微控制器或處理器,譬若諸如BMC。硬體組成管理器252可為網路及/或資料中心之中的模組或裝置,此資料中心維護網路及/或資料中心之中各種組成物理機器的資訊。
當控制器138接收來自硬體組成管理器252之請求時,其可接著模擬指示擴充槽中PCIe裝置存在的存在偵測信號254。控制器138亦可模擬手動操作保留閂214之關閉。此外,控制器138可接收來自控制器202之電源信號256以供電擴充槽210。
控制器138可接著藉由發送注意按壓按鈕輸入 228至控制器202以啟始熱新增操作。控制器138亦可偵測指示OS載入用於PCIe裝置之驅動的過渡狀態的電源指示信號266。熱插拔驅動可致使擴充槽210之匯流排的重新記數。系統200可接著偵測及發現增加的PCIe裝置、配置此PCIe裝置、及載入其之驅動。
電源故障狀況258或手動操作保留閂214之開啟可轉換擴充槽210上之PCIe裝置至失能狀態。控制器202可發送保留指示信號264來指示操作上的問題給控制器138。控制器138可偵測操作上的問題及啟始熱移除操作。
對於熱移除操作,控制器138可接收來自硬體組成管理者252之對於PCIe裝置之熱移除的請求。控制器138可模擬注意按壓按鈕輸入228及傳遞此輸入228至控制器202。控制器202可傳遞此請求至熱插拔驅動。控制器138可偵測指示過渡狀態的電源指示信號266。
OS可將PCIe裝置從系統200移除或斷連。控制器202亦可斷電該擴充槽210。控制器138可通知硬體組成管理器252熱移除過程已成功完成。
第2C圖繪示快速週邊組件互連(PCIe)系統200中無使用者輸入或控制器的熱插拔操作的示例過程270的方塊圖。控制器138可接收來自硬體組成管理器252之請求以執行熱新增或熱移除。控制器138可接著處理來自硬體組成管理器252之請求、如上述第2B圖所描述之模擬控制器202之行為、以及置換使用者輸入來執行熱插拔程序。
第3A圖繪示自動硬體恢復之示例架構300的示 意圖。架構300可包括系統312~318。系統312~318可為伺服器、主機、或任何計算裝置,譬如繪示於第1A圖之系統100。此外,系統312~318可存在於網路中之資料中心裡。此網路可為譬如區域網路(LAN)之私人網路、譬如網際網路之公用網路、分散式網路、譬如包括私人網路和公用網路之網路的併合網路等。
系統312~318可包括個別操作系統(OS)324、譬如基本輸入/輸出系統(BIOS)322之個別韌體、及個別控制器138。操作系統324、基本輸入/輸出系統322、及控制器138可提供系統312~318之硬體及軟體計算環境,且可管理及整合硬體組件與在個別系統312~318上運行之軟體。此外,操作系統324、基本輸入/輸出系統322及控制器138可執行各種功能、操作、及/或自動硬體恢復之任務。
舉例來說,基本輸入/輸出系統322可偵測硬體錯誤及通知控制器138,控制器138可接著轉送此等錯誤至硬體監控系統306。同樣地,控制器138可偵測系統312~318上的硬體錯誤並發送此等所偵測之錯誤的指示或日誌至硬體監控系統306,硬體監控系統306將於下文進一步描述。控制器138亦可作為代理來自基本輸入/輸出系統322及/或操作系統324發送錯誤至硬體監控系統306。此外,控制器138可提供硬體控制機制來置換人為輸入以進行熱插拔程序。
操作系統324亦可偵測硬體錯誤及通知控制器138,控制器138可接著轉送此等錯誤至硬體監控系統 306。舉例來說,若操作系統324具有可用之對於硬體監控系統306之通訊路徑以遞送錯誤通知訊息至硬體監控系統306,操作系統324亦可偵測硬體錯誤及發送此等硬體錯誤至硬體監控系統306而不必要使用控制器138作為代理來轉送至硬體監控系統306。
架構300可包括解集架構。為此,架構300可包括裝置集區326,其可包括各種用以與系統312~318通訊地耦合之裝置328。裝置集區326中之裝置328可包括任何周邊設備、輸入/輸出、及/或擴充裝置或組件,譬如PCIe裝置。舉例來說,裝置328可包括網路介面組件、固態硬碟(SSD)、圖形處理單元、擴充卡等。
裝置集區326中之裝置328之一或多個可與系統312~318通訊地耦合。舉例來說,系統312可與裝置1通訊地耦合、系統314可與裝置2通訊地耦合、系統316可與裝置3通訊地耦合、系統318可與裝置4通訊地耦合。此外,裝置集區326可包括一或多個額外設備,其等可能不與系統312~318之任一者通訊地耦合。舉例來說,裝置集區326可包括裝置5~8,裝置5~8不與系統312~318之任一者通訊地耦合。
若有必要的話,裝置328中不與系統312~318之任一者通訊地耦合之裝置(例如裝置5~8)於裝置集區326中是可用於與任何系統312~318通訊地耦合的。舉例來說,裝置5~8於裝置集區326中可用於透過自動恢復及/或自動增加操作來與系統312~318耦接,此將於下文進一步描述。 額外裝置(例如裝置5~8)可因此提供冗餘、故障安全、可擴展性、發展、升級等選項,此將於下文進一步解釋。
裝置328可與系統312~318透過切換結構302通訊地耦接。切換結構302可為匯流排結構,譬如PCIe結構。此外,切換結構302可提供系統312~318與裝置集區326中裝置328之間匯流排通訊的路由及/或切換。因此,切換結構302可提供多主機通訊及I/O分享能力。
系統312~318與裝置集區326中裝置328之間的通訊可透過切換結構302藉由匯流排鏈接330來進行路由。更進一步地,切換結構302中的路由可由結構控制器304來配置。結構控制器304可提供邏輯、指令、及/或配置以供透過切換結構302來連接裝置328至系統312~318的路由通訊。
系統312~318與結構控制器304可與硬體組成管理器252及硬體監控系統306透過網路裝置310(例如切換器或路由器)來通訊。硬體組成管理器252可為系統312~318以及一或多個特定資料中心及/或網路中的任何其他裝置或系統來維護資訊及資料,譬如硬體及配置細節。舉例來說,硬體組成管理器252可維護指示出裝置328中哪者與系統312~318中哪者通訊耦接的資料。硬體組成管理器252亦可維護指示出裝置集區326中裝置328之哪者係可與系統312~318通訊耦接的資料。
此外,硬體組成管理器252可儲存安裝、移除及/或恢復事件及程序。舉例來說,硬體組成管理器252可 維護關於任何裝置被增加或自系統312~318移除、系統312~318經歷的任何硬體錯誤、由系統312~318執行之任何恢復程序、系統312~318及/或裝置328經歷之任何硬體狀況、關聯系統312~318及裝置328之硬體狀態資訊、執行統計、配置資料、鏈接或路由資訊等資訊及統計。
硬體監控系統306可於蒐集架構300中硬體錯誤事件。舉例來說,硬體監控系統306可蒐集資料中心中的硬體錯誤或故障事件。硬體監控系統306亦可儲存及/或實施一或多個預定政策以供執行錯誤恢復。舉例來說,硬體監控系統306可實施預定政策以在系統中心或網路中當系統上(例如系統312、系統314等)有錯誤或故障被偵測到時執行自動錯誤恢復。錯誤恢復政策可以是基於關聯錯誤或故障之系統及/或裝置的狀態、架構及/或配置;切換結構302之拓樸及/或狀態;關聯網路或資料中心之配置、狀態及/或拓樸;架構300之配置或狀態;軟體環境或設定(例如OS、BIOS、BMC等);錯誤或故障之類型;匯流排或I/O標準(例如PCIe);任何錯誤恢復偏好或要求等。其他錯誤恢復政策之非限制例子將於下文作進一步描述。
第3A圖中裝置集區326僅顯示八個裝置,然更多或較少的裝置及裝置類型仍於本文被考慮。確實,於本領域具有通常知識者將容易察覺到於各種實施例或實施方式中,裝置集區326中裝置328可包括不同數量及類型的裝置。而第3A圖中之八個裝置為提供來作為清楚解釋用途的非限制例子。
此外,顯示於第3A圖中的架構300中元件之數量及類型為提供來作為清楚解釋用途的非限制例子。確實,於本領域具有通常知識者將容易察覺到,架構300可包括更多或較少系統、切換器、硬體組成管理器、硬體監控系統、切換結構、結構控制器、資料中心、裝置集區、及其他元件。此外,架構300可包括不同於第3A圖所示的元件,譬如不同切換器、管理系統、切換結構、結構控制器、資料中心、裝置集區、拓樸、配置、通訊鏈接、通訊及裝置類型或標準等。
第3B圖繪示於示例架構300中用於自動恢復之熱插拔機制的示意方塊圖。於此例中,恢復可於裝置1之故障(1)之後被執行,裝置1係與系統312通訊耦接。系統312可經由控制器138、BIOS 322或OS 324來偵測(2)裝置1之故障。控制器138或OS 324可接著發送錯誤日誌(3)至硬體監控系統306。
硬體監控系統306可接著發送恢復請求(4)至硬體組成管理器252。恢復請求可要求硬體組成管理器252執行硬體恢復程序以解決裝置1之故障。
硬體組成管理器252可接著發送一請求至控制器138以執行熱插拔移除程序(5)。控制器138可接著發送指示裝置1將被移除的一通知(6)至OS 324。此通知可透過控制熱插拔信號而被傳送,譬如控制標準PCIe熱插拔信號。OS 324可接著發送裝置移除成功信號至控制器138。裝置移除成功信號可經由熱插拔信號(例如PCIe熱插拔信號)而被傳送。於接收到裝置移除成功信號後,控制器138可發送 通知(7)給硬體組成管理器252。
硬體組成管理器252可接著發送斷接/連接請求(8)至結構控制器304。此斷接/連接請求可包括第一請求以斷開系統312與裝置1間的鏈接330、及第二請求以將裝置5連接至系統312。
結構控制器304可重組(9)切換結構302以斷開裝置1與系統312間的鏈接330,並透過鏈接330將裝置5連接至系統312。
切換結構302可通知(10)硬體組成管理器252,裝置5已被分配給系統312。硬體組成管理器252可發送插入請求(11)給控制器138。此插入請求可為執行譬如PCIe熱插拔插入程序的熱插拔裝置插入程序的請求。
控制器138可接著發送插入通知(12)給OS 324,指出裝置5已被插入或加入。控制器138可例如經由控制PCIe熱插拔信號來發送插入通知給OS 324。
裝置5可接著連接(13)至系統312。裝置5可經由鏈接330來連接至系統312。鏈接330可為匯流排通訊鏈接,譬如PCIe匯流排鏈接。
控制器138可發送通知(14)給硬體組成管理器252,指示裝置插入成功。控制器138可透過例如PCIe熱插拔信號於自OS 324接收裝置成功插入信號後發送此通知。
硬體組成管理器252可接著發送成功通知(15)給硬體監控系統306。此成功通知可指出自動硬體恢復是成功的。
第3C圖繪示於示例架構300中用於自動恢復之熱調換機制的示意方塊圖。自動恢復可於裝置1之故障(1)之後被執行,裝置1係與系統312通訊耦接。系統312可經由控制器138、BIOS 322或OS 324來偵測(2)裝置1之故障。控制器138或OS 324可接著發送錯誤日誌(3)至硬體監控系統306。
硬體監控系統306可接著發送恢復請求(4)至硬體組成管理器252。恢復請求可要求硬體組成管理器252執行硬體恢復程序以解決裝置1之故障。
硬體組成管理器252可接著發送斷接/連接請求(5)至結構控制器304。此斷接/連接請求可包括第一請求以斷開系統312與裝置1間的鏈接330、及第二請求以將裝置5連接至系統312。
結構控制器304可重組(6)切換結構302以斷開裝置1與系統312間的鏈接330,並透過鏈接330將裝置5連接至系統312。
裝置5可接著連接(7)至系統312。裝置5可經由鏈接330來連接至系統312。鏈接330可為匯流排通訊鏈接,譬如PCIe匯流排鏈接。結構控制器304可發送通知(8)至硬體處組成管理器252,指示裝置5已被分配給系統312。
硬體處組成管理器252可接著發送成功通知(9)給硬體監控系統306。成功通知可指示自動硬體恢復是成功的。
上文已揭露一些基本系統組件及概念,本揭示 文件將轉向第4~6圖所示之示例方法實施例。為了清楚起見,方法將以第3A~3C圖所示之配置來實現各種步驟的結構控制器304、系統312、控制器138、OS 324、硬體組成管理器252、及硬體監控系統306來描述。於本文概述之步驟為示例性的且可實施於任何步驟組合,包括排除、增加或調整某些步驟之組合。
第4圖繪示用以執行自動恢復程序之示例方法400。於步驟402,結構控制器304可響應關聯於一節點(例如系統312)之快速週邊組件互連(PCIe)裝置之故障被偵測,接收第一請求以斷開快速週邊組件互連裝置與節點間的鏈接。此請求可要求熱插拔移除或恢復程序,如前文所述。
結構控制器304可自硬體組成管理器252接收此第一請求。硬體組成管理器252可基於一指令來產生此第一請求來執行熱插拔裝置移除程序,此指令可由硬體組成管理器252自控制器138接收。
此外,快速週邊組件互連裝置之故障可由系統312經由控制器138、BIOS 322或OS 324來偵測。裝置故障之偵測可觸發移除程序。舉例來說,裝置故障可觸發控制器138來發送錯誤日誌給硬體監控系統306,響應此錯誤日誌之發送,硬體監控系統306可觸發一請求至硬體組成管理器252來執行自動恢復程序。
於步驟404,結構控制器可接收第二請求以將替換快速週邊組件互連裝置(例如繪示於第3A圖之裝置5~8之任一者)與節點(例如系統312)連接。此第二請求可為針對 熱插拔裝置插入或恢復程序,如前文所述。
於步驟406,結構控制器可重組快速週邊組件互連切換結構(例如切換結構302)以:斷開快速週邊組件互連裝置(例如裝置1)與節點(例如系統312)間的鏈接,並將替換快速週邊組件互連裝置(例如繪示於第3A圖之裝置5~8之任一者)與此節點連接。
替換快速週邊組件互連裝置可接著連接至此節點。此節點可接著如預期地使用該替換快速週邊組件互連裝置。若替換快速週邊組件互連裝置之故障被偵測,另一自動恢復程序可被實行以再次替換此替換快速週邊組件互連裝置。
第5圖繪示用以執行熱新增程序之示例方法500。於步驟502,控制器138可接收裝置已被增加至擴充槽的通知。控制器138可例如自硬體組成管理器252接收此通知。
於步驟504,控制器138可模擬指示擴充槽中裝置存在的存在偵測事件。
於步驟506,控制器138可模擬手動操作保留閂(例如MRL 214)之關閉。
於步驟508,控制器138可基於注意按鈕信號(例如注意按壓按鈕輸入228)來啟動熱新增。控制器138亦可偵測指示OS驅動載入之過渡態的電力鏈路轉換。
於步驟510,熱插拔驅動可致使關聯於擴充槽(例如插槽匯流排)之匯流排的重新列舉。於步驟512,裝置 被重組且關聯的驅動被載入。舉例來說,系統312可偵測或找出被熱新增之裝置,並配置此裝置及載入關聯的驅動。
後續電力故障狀況或手動操作的保留閂之開啟可轉換裝置至失能狀態。熱插拔軟體可致動注意LED(發光二極體)信號(例如使LED信號閃爍或發光)以指示控制器138可偵測之操作問題。
裝置之失能狀態可觸發熱移除程序。第6圖繪示用以執行熱移除程序之示例方法600。
於步驟602,控制器138可接收針對一裝置之熱移除的請求。使請求可例如由控制器138自硬體組成管理器252接收。於步驟604,控制器138可模擬注意按鈕輸入(例如繪示於第2A圖中的228)。注意按鈕輸入可觸發熱移除。此外,注意按鈕輸入可與欲被移除之特定裝置及/或對應的擴充槽相關聯。
於步驟606,熱插拔控制器(例如控制器202)可遞送請求至熱插拔驅動。於步驟608,控制器138可偵測指示過渡態的電力鏈路轉換。OS 324可接著藉由例如移除或斷開裝置來使欲被移除之裝置斷線。
於步驟610,關聯於此裝置之擴充槽可被斷電。於擴充槽被斷電後,控制器138亦可關閉電力鏈路信號來指示自擴充槽移除此裝置是安全的。此時,裝置可以自擴充槽被移除。
於步驟612,控制器138可通知硬體組成管理器252,熱移除程序已完成。控制器138亦可解除判定存在偵 測信號以指示擴充槽是空的。
為使解釋清晰,本揭示技術以關於快速週邊組件互連裝置來描述。然而,關於上文描述例子之方法及概念可被實施於其他類型裝置之硬體恢復。確實,本文描述之概念可被實施於任何支持熱插拔或熱交換的裝置之包括熱新增及熱移除的硬體恢復,支持熱插拔或熱交換的裝置例如為通用串列匯流排(USB)裝置。再次地,快速週邊組件互連裝置於本文作為非限制例子使用以供清楚解釋用途。
為使解釋清晰,在某些情況下,本揭示技術可呈現為以實施於軟體、或硬體與軟體之組合的方法來包括含有裝置、裝置組件、步驟或常規之功能區塊的獨立功能區塊。
於一些實施例中,電腦可讀儲存裝置、媒體及記憶體可包括含有一位元流等之有線或無線信號。然而,當提及時,非依電性電腦可讀儲存媒體明確地排除譬如能源、載波信號、電磁波及信號本身之媒體。
根據上文描述例子之方法可實施以使用儲存於電腦可讀媒體或可自電腦可讀媒體取得之電腦可執行指令。此等指令可包含例如可致使或配置通用目的電腦之指令及資料、特殊用途電腦、或特殊用途執行裝置以執行某一功能或某組功能。使用之電腦資源之部分可透過網路存取。此等電腦可執行指令可例如為二進制、譬如組合語言之中間格式指令、韌體、或資源代碼。可使用來儲存指令、使用之資訊、及/或於根據所描述例子之方法期間產生之資訊的電腦可讀媒體的例子包括磁性或光學盤碟、快閃記憶體、具有非 依電性記憶體之USB裝置、連網之儲存裝置等。
實施根據本揭示內容之方法的裝置可包含硬體、韌體及/或軟體,且可採取各種形式因子之任一者。此等形式因子之典型例子包括膝上型電腦、智慧型手機、小型個人電腦、個人數位助理等。此處描述之功能亦可實施於周邊設備或外接卡。此等功能亦可藉由進一步的例子來實施在不同晶片或執行於單一裝置之不同進程的電路板上。
此等指令、用以轉送此等指令之媒體、用以執行此等指令之計算資源、及其他用以支持此等計算資源之結構為用以提供於本文揭露內容所描述之功能的手段。
儘管各種例子及其他資訊係使用來解釋附加請求項範疇內的方面,請求項不應基於例子中的特定特徵或配置而受限,因為熟於此技者將能夠使用這些例子來推導出各式各樣的實施方式。更進一步來說,儘管標的內容可能以特定結構特徵及/或方法步驟之例子的文字描述,應理解附加請求項中定義之標的內容並不必要受限於此等描述之特徵或行為。舉例來說,此種功能可以以不同方式分配或執行於本文提出之組件以外的組件。更確切地說,所描述特徵及步驟係描述作為附加請求項範疇中系統及方法的組件的例子。
請求項用語界定一組中”至少一者”係指示此組或此組中多個部件之一者滿足此請求項。有形的電腦可讀儲存媒體、電腦可讀儲存裝置或電腦可讀記憶體裝置明確地排除譬如暫態波、能源、載波信號、電磁波及信號本身。
400‧‧‧方法
402、404、406‧‧‧步驟

Claims (10)

  1. 一種自動硬體恢復方法,包含:藉由一結構控制器接收與一節點連接的一快速週邊組件互連裝置之一裝置故障之通知;藉由該結構控制器接收一第一請求,該第一請求用以斷開該快速週邊組件互連裝置與該節點之間的一鏈接;藉由該結構控制器接收一第二請求,該第二請求用以將一替換快速週邊組件互連裝置與該節點連接;以及藉由該結構控制器重新配置一快速週邊組件互連切換結構,藉以:斷開該快速週邊組件互連裝置與該節點間的該鏈接;以及將該替換快速週邊組件互連裝置與該節點連接。
  2. 如請求項1所述之自動硬體恢復方法,進一步包含:偵測該節點上該快速週邊組件互連裝置之該裝置故障,其中該裝置故障是由一基板管理控制器、一基本輸入輸出系統及一操作系統中至少一者所偵測;基於該裝置故障,藉由該基板管理控制器接收一第三請求以執行一快速週邊組件互連裝置熱插拔裝置移除程序;藉由該基板管理控制器經由一快速週邊組件互連裝置熱插拔信號,發送該快速週邊組件互連裝置將從該節點被移除的通知至該操作系統;以及 藉由該基板管理控制器自該操作系統接收該快速週邊組件互連裝置已被移除的通知。
  3. 如請求項2所述之自動硬體恢復方法,進一步包含:藉由該基板管理控制器接收一第四請求以執行一快速週邊組件互連熱插拔裝置插入程序;響應該第四請求,藉由該基板管理控制器經由一控制快速週邊組件互連熱插拔信號,發送該替換快速週邊組件互連裝置將被連接至該節點的通知給該操作系統;以及藉由該基板管理控制器接收來自該操作系統之該替換快速週邊組件互連裝置已被連接的通知。
  4. 如請求項1所述之自動硬體恢復方法,進一步包含:藉由關聯於該節點之一基板管理控制器接收該替換快速週邊組件互連裝置已被連接至關聯於該節點之一插槽的通知;藉由該基板管理控制器模擬一存在偵測接腳或暫存器以指示該替換快速週邊組件互連裝置已被連接至關聯於該節點之該插槽;藉由該基板管理控制器模擬一手動操作保留閂之一關閉;以及基於關聯於一注意按鈕之一信號,藉由該基板管理控制器啟動一熱新增操作,該注意按鈕係配置來允許使用者 輸入對於一熱插拔操作的一請求,該信號在無使用者經由該注意按鈕來輸入該請求的情況下被觸發。
  5. 如請求項4所述之自動硬體恢復方法,進一步包含藉由該基板管理控制器來偵測指示載入於該節點上之一操作系統驅動之一過渡狀態的一電力鏈路信號。
  6. 如請求項4所述之自動硬體恢復方法,進一步包含:偵測該替換快速週邊組件互連裝置;載入關聯於該替換快速週邊組件互連裝置之一熱插拔驅動;重新列舉關聯於該節點之一插槽匯流排,該重新列舉係由該熱插拔驅動觸發;以及配置該替換快速週邊組件互連裝置。
  7. 如請求項6所述之自動硬體恢復方法,進一步包含基於一電力故障狀況或該手動操作保留閂之開啟中至少一者,將該快速週邊組件互連裝置轉換至一失能狀態。
  8. 如請求項1所述之自動硬體恢復方法,進一步包含:基於一注意按鈕之一模擬使用者啟動,藉由一基板管理控制器來獲得對於該週邊組件互連裝置之一熱移除的請求,該注意按鈕用以允許使用者輸入對於該週邊組件互連 裝置之一熱插拔操作的請求;發送該熱移除的請求至關聯於該週邊組件互連裝置之一熱插拔驅動;藉由該基板管理控制器來偵測指示關聯於該週邊組件互連裝置之一過渡狀態的一電力鏈路信號;藉由關聯於該節點之一操作系統來斷開該週邊組件互連裝置;斷電關聯於該週邊組件互連裝置之一插槽;以及產生指示物理移除該週邊組件互連裝置是安全的一電力鏈路信號狀態。
  9. 一種自動硬體恢復系統,包含:一處理器;以及一電腦可讀儲存媒體,具有儲存於其中之指令,當被該處理器執行時,致使該處理器執行之操作包含:接收一節點上之一快速週邊組件互連裝置之一裝置故障之通知;接收斷開該快速週邊組件互連裝置與該節點間的一鏈接的一第一請求;接收將一替換快速週邊組件互連裝置與該節點連接的一第二請求;以及重新配置一快速週邊組件互連切換結構以:斷開該快速週邊組件互連裝置與該節點間的該鏈接;以及將該替換快速週邊組件互連裝置與該節點 連接。
  10. 如請求項9所述之系統,該電腦可讀儲存媒體儲存額外指令,當被該處理器執行時,致使該處理器執行的進一步操作包含經由一擴充槽和一匯流排鏈路中之至少一者,將該替換快速週邊組件互連裝置與該節點連接。
TW105113858A 2015-05-11 2016-05-04 自動硬體恢復方法及自動硬體恢復系統 TWI559148B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/708,857 US9934187B2 (en) 2014-12-17 2015-05-11 Hot-pluggable computing system
US201562272815P 2015-12-30 2015-12-30
US15/071,474 US9965367B2 (en) 2014-12-17 2016-03-16 Automatic hardware recovery system

Publications (2)

Publication Number Publication Date
TW201640363A true TW201640363A (zh) 2016-11-16
TWI559148B TWI559148B (zh) 2016-11-21

Family

ID=57353089

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105113858A TWI559148B (zh) 2015-05-11 2016-05-04 自動硬體恢復方法及自動硬體恢復系統

Country Status (2)

Country Link
CN (1) CN106155970B (zh)
TW (1) TWI559148B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI632462B (zh) * 2017-01-17 2018-08-11 廣達電腦股份有限公司 開關裝置及偵測積體電路匯流排之方法
TWI670604B (zh) * 2018-03-14 2019-09-01 廣達電腦股份有限公司 多主機拓撲系統之cpld快取應用
TWI676889B (zh) * 2017-04-13 2019-11-11 美商惠普發展公司有限責任合夥企業 開機啟動資料有效性技術
TWI726502B (zh) * 2019-11-26 2021-05-01 神雲科技股份有限公司 更新韌體不需斷電的伺服器及主機板模組

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965367B2 (en) * 2014-12-17 2018-05-08 Quanta Computer Inc. Automatic hardware recovery system
TWI612424B (zh) * 2016-12-09 2018-01-21 英業達股份有限公司 交換器系統
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN111124970B (zh) * 2018-10-31 2021-11-23 杭州海康威视数字技术股份有限公司 子板热插拔方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146892B2 (en) * 2007-10-11 2015-09-29 Broadcom Corporation Method and system for improving PCI-E L1 ASPM exit latency
JP4873073B2 (ja) * 2009-12-16 2012-02-08 日本電気株式会社 情報処理装置及び情報処理装置の障害復旧方法
US8949499B2 (en) * 2010-06-24 2015-02-03 International Business Machines Corporation Using a PCI standard hot plug controller to modify the hierarchy of a distributed switch
JP5915086B2 (ja) * 2011-10-31 2016-05-11 富士通株式会社 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
WO2013101180A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Pcie device power state control
CN102662903B (zh) * 2012-03-31 2016-09-28 浪潮电子信息产业股份有限公司 一种通过cpld或fpga实现pcie设备热插拔的方法
CN103797469B (zh) * 2013-05-20 2016-08-31 华为技术有限公司 一种计算机系统、高速外围组件互联端点设备的访问方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI632462B (zh) * 2017-01-17 2018-08-11 廣達電腦股份有限公司 開關裝置及偵測積體電路匯流排之方法
US10296434B2 (en) 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
TWI676889B (zh) * 2017-04-13 2019-11-11 美商惠普發展公司有限責任合夥企業 開機啟動資料有效性技術
US11163643B2 (en) 2017-04-13 2021-11-02 Hewlett-Packard Development Company, L.P. Boot data validity
TWI670604B (zh) * 2018-03-14 2019-09-01 廣達電腦股份有限公司 多主機拓撲系統之cpld快取應用
TWI726502B (zh) * 2019-11-26 2021-05-01 神雲科技股份有限公司 更新韌體不需斷電的伺服器及主機板模組

Also Published As

Publication number Publication date
TWI559148B (zh) 2016-11-21
CN106155970A (zh) 2016-11-23
CN106155970B (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
TWI559148B (zh) 自動硬體恢復方法及自動硬體恢復系統
US9965367B2 (en) Automatic hardware recovery system
CN107479721B (zh) 远程多计算机切换技术的存储装置、系统及方法
US8948000B2 (en) Switch fabric management
TWI670604B (zh) 多主機拓撲系統之cpld快取應用
US10846159B2 (en) System and method for managing, resetting and diagnosing failures of a device management bus
TW201732622A (zh) 可擴充集中式非揮發性記憶體儲存盒、電腦實施方法以及非暫態電腦可讀取儲存裝置
US10783109B2 (en) Device management messaging protocol proxy
EP3244319B1 (en) Flexible nvme drive management solution
JP2013073289A (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
US10606784B1 (en) Software filtering of redundant sideband device management bus communications
JP2020053017A (ja) ハイブリッド電源のシステム及び方法
TWI739127B (zh) 提供系統資料之方法、系統及伺服器
JP2019062524A (ja) 相互接続されたネットワークにおけるネットワークスイッチポートのファンアウトモードを自動的に構成する方法及びシステム
US10853204B2 (en) System and method to detect and recover from inoperable device management bus
TW201729097A (zh) 機櫃裝置
TWI791913B (zh) 經由邊帶介面恢復場域可程式閘陣列韌體之系統及方法
JP6703045B2 (ja) 機器ラック及び機器ラックからの状態報告を保証する方法
US10409940B1 (en) System and method to proxy networking statistics for FPGA cards
TWI658367B (zh) 硬體資源擴充系統