TWI601013B - 交換器錯誤排除方法 - Google Patents

交換器錯誤排除方法 Download PDF

Info

Publication number
TWI601013B
TWI601013B TW105140520A TW105140520A TWI601013B TW I601013 B TWI601013 B TW I601013B TW 105140520 A TW105140520 A TW 105140520A TW 105140520 A TW105140520 A TW 105140520A TW I601013 B TWI601013 B TW I601013B
Authority
TW
Taiwan
Prior art keywords
error
switch
switches
management controller
central processor
Prior art date
Application number
TW105140520A
Other languages
English (en)
Other versions
TW201822002A (zh
Inventor
胡翔竣
羅毅倫
Original Assignee
英業達股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英業達股份有限公司 filed Critical 英業達股份有限公司
Priority to TW105140520A priority Critical patent/TWI601013B/zh
Application granted granted Critical
Publication of TWI601013B publication Critical patent/TWI601013B/zh
Publication of TW201822002A publication Critical patent/TW201822002A/zh

Links

Description

交換器錯誤排除方法
本發明係關於一種交換器錯誤排除方法,特別是以基板管理控制器來排除交換器發生錯誤的方法。
隨著網際網路服務以及雲端運算的普及,越來越多企業仰賴資料計算中心來處理和儲存大量的資料。傳統的資料計算中心包含大量的伺服器和節點,用以遠端儲存、處理或分佈大量資料。但是隨著客戶多變的需求以及多元的服務內容,伺服器也跟著不斷地演進和升級。
為了提升資料的傳輸效率,現以交換器作為伺服器主機板中資料傳輸的中介。交換器藉由PCIe(Peripheral Component Interconnect Express,快速周邊組件互連)技術,提供了高頻寬和低延遲的資料傳輸方案。然而,目前伺服器主機板中的交換器皆是由伺服器主機板中的中央處理器來進行控制和設定。當中央處理器發生停機或其他無法運作的問題時,伺服器無法自動地記錄發生的錯誤,使得伺服器管理者無法取得伺服器發生錯誤的原因,據以修正伺服器所發生的錯誤。
本發明在於提供一種交換器錯誤排除方法,藉以解決中央處理器發生停機或其他無法運作的問題時,伺服器無法自動記錄和恢復或修正錯誤的問題。
本發明所揭露的交換器錯誤排除方法,適用於伺服裝置中。伺服裝置具有多個交換器、中央處理器及基板管理控制器。交換器錯誤排除方法包括中央處理器於執行任務時,產生至少一個控制訊號至交換器。任務關聯於將來源裝置產生的訊號傳送至目的裝置。至少部分的交換器依據控制訊號,建立連接關係。於連接關係中的交換器電性連接來源裝置及目的裝置。當中央處理器或交換器於執行任務中發生錯誤時,中央處理器重置連接關係。基板管理控制器偵測發生的錯誤是否排除。當發生的錯誤未排除時,基板管理控制器記錄錯誤,重置伺服裝置,並於伺服裝置重置後,選擇性地以預設連接關係設定交換器。
根據上述本發明所揭露的交換器錯誤排除方法,藉由基板管理控制器來偵測中央處理器或交換器於執行任務中所發生的錯誤是否排除,藉以在中央處理器停機或發生其他無法運作的問題時,基板管理控制器可以取得中央處理器或交換器的狀態,記錄中央處理器或交換器發生錯誤的原因,並控制伺服器重置,以令伺服器在重置後可以排除發生錯誤的問題。當伺服器在重置後仍無法排除錯誤時,基板管理控制器可以重設交換器的連接關係,進一步地協助中央處理器排除錯誤。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
請參照圖1及圖2,圖1係根據本發明一實施例所繪示之伺服裝置的功能方塊圖,圖2係根據本發明一實施例所繪示之交換器錯誤排除方法的步驟流程圖。如圖所示,伺服裝置1具有多個交換器10、中央處理器12及基板管理控制器14,其中多個交換器10排列成三行三列的交換器陣列101,且第一行中的每一個交換器10與第二行中的每一個交換器10電性連接,第二行中的每一個交換器10與第三行中的每一個交換器10電性連接。第一行和第三行中的交換器10又分別連接伺服裝置1中的來源裝置20和目的裝置22。來源裝置20和目的裝置22例如是圖形處理器(Graphics Processing Unit, GPU)、主機(Host)、網路介面卡(Network Interface Card,NIC)、主機匯流排配接器(host bus adapter,HBA)或其他合適裝置,本實施例不予限制。
交換器陣列中的每一個交換器10分別電性連接至中央處理器12及基板管理控制器14,且中央處理器12電性連接基板管理控制器14。於一個實施例中,中央處理器12是電性連接至交換器10的控制埠(Management port),基板管理控制器14透過I²C(Inter-Integrated Circuit)或GPIO(General-purpose input/output)傳輸介面與交換器10連接,中央處理器12與基板管理控制器14以PCI Express匯流排連接,但不以此為限。圖1中的拓樸為一個示例,任何數量的交換器、中央處理器和基板管理器皆可包含在圖1的伺服裝置中。
在一個實施例中,於步驟S301中,中央處理器12在執行任務時,產生至少一個控制訊號至交換器10。於步驟S303中,至少部分的交換器10依據控制訊號建立連接關係。中央處理器12產生的控制訊號例如是傳送至要建立連接關係的交換器10,亦可以是將控制訊號傳送至每一個交換器10,本實施例不予限制。控制訊號指示交換器10選擇接收訊號的接腳和輸出訊號的接腳。換言之,中央處理器12所執行的任務關聯於將來源裝置20產生的訊號傳送至目的裝置22,因此中央處理器12依據來源裝置20和目標裝置22所連接的交換器10,產生控制訊號指示交換器10選擇接收訊號的接腳和輸出訊號的接腳,藉以建立起一個連接關係,使來源裝置20產生的訊號可以經由於連接關係中的交換器10傳送至目標裝置22。
於步驟S305中,當中央處理器12或交換器10於執行任務中發生錯誤時,中央處理器12重置連接關係。舉例來說,中央處理器12於執行任務中可能會發生停機或其他無法運作的問題,此時可視為中央處理器12於執行任務中發生錯誤,抑或是中央處理器12產生的錯誤的控制訊號,造成交換器10的連接關係錯誤,使得來源裝置20的訊號無法順利傳輸至目標裝置22,亦可視為交換器10於執行任務中發生錯誤。中央處理器12或交換器10可能會在執行任務中各別發生錯誤,亦可能是同時發生錯誤,本實施例不予限制。
於步驟S307中,基板管理控制器14偵測發生的錯誤是否排除。當發生的錯誤排除時,於步驟S309中,中央處理器12和交換器10繼續執行任務,或執行下一個任務。換言之,當中央處理器12排除停機或其他無法運作的問題,或中央處理器12重新產生控制訊號,解決交換器10連接關係的錯誤時,中央處理器12或交換器10發生的錯誤可以被回復,中央處理器12和交換器10則繼續執行任務,或執行下一個任務。
當發生的錯誤未排除時,亦即中央處理器12或交換器10發生的錯誤不可以被回復。於步驟S311中,基板管理控制器14記錄錯誤,重置伺服裝置1,並於伺服裝置1重置後,選擇性地以預設連接關係設定交換器10。於一個實施例中,基板管理控制器14經由PCI Express匯流排讀取中央處理器12的狀態,且透過I²C或GPIO讀取交換器10的狀態。基板管理控制器14以中央處理器12及交換器10的狀態作為發生錯誤的紀錄,儲存錯誤紀錄,據以在重置伺服裝置1後,仍可經由查找基板管理控制器14記錄的內容,分析判斷中央處理器12或交換器10發生的錯誤,藉以更進一步地避免後續錯誤發生。
當伺服裝置1重置後,中央處理器12或交換器10發生的錯誤仍未排除時,基板管理控制器14以預設連接關係設定交換器10。於一個實施例中,每一個交換器10具有一個接腳對應表儲存於交換器10的EEPROM (Electrically-Erasable Programmable Read-Only Memory)中,每一個接腳對應表指示交換器10接腳的預設連接關係,亦即接腳所連接的其他交換器10、來源裝置20或目標裝置22。伺服裝置1重置後,當基板管理控制器14判斷中央處理器12或交換器10發生的錯誤仍未排除時,基板管理控制器14或中央處理器12控制每一個交換器10依據其EEPROM儲存的接腳對應表,回復每一個接腳的設定值。
藉此,伺服裝置1可以在中央處理器12或交換器10發生錯誤時,由基板管理控制器14記錄錯誤,並在錯誤不可回復時,控制伺服裝置1重置,以令中央處理器12或交換器10可以繼續執行任務和執行下一個任務。
接下來,請一併參照圖1與圖3,圖3係根據本發明另一實施例所繪示之交換器錯誤排除方法的步驟流程圖。如圖所示,本實施例提供另一種交換器錯誤排除方法,適用於伺服裝置中。為了方便說明,同樣以圖1揭示的伺服器裝置1來說明,但不以此為限。
於步驟S401中,中央處理器12在執行任務時,產生至少一個控制訊號至交換器10。於步驟S403中,至少部分的交換器10依據控制訊號建立連接關係。本實施例同樣地不限制中央處理器12產生的控制訊號是傳送至要建立連接關係的交換器10中,或是傳送至每一個交換器10。中央處理器12所執行的任務關聯於將來源裝置20產生的訊號傳送至目的裝置22,因此中央處理器12依據來源裝置20和目標裝置22所連接的交換器10,產生控制訊號,使交換器10建立一個連接關係以將來源裝置20產生的訊號傳送至目標裝置22。
於步驟S405中,中央處理器12每隔一個預設時間區間,產生狀態資訊至基板管理控制器14,藉由狀態資訊告知基板管理控制器14中央處理器12執行任務的狀態。於步驟S407中,當基板管理控制器14超過預設時間區間未接收到狀態資訊時,基板管理控制器14判斷中央處理器12或交換器10於執行任務中發生錯誤。此時,於步驟S409中,中央處理器12會於一個重置時間區間中,嘗試重置交換器10的連接關係以回復發生的錯誤。
於步驟S411中,當於重置時間區間後,基板管理控制器14依據是否接收到中央處理器12產生的狀態資訊,判斷發生的錯誤是否排除。當發生的錯誤排除時,於步驟S413中,中央處理器12和交換器10繼續執行任務,或執行下一個任務,亦即中央處理器12或交換器10發生的錯誤被回復,中央處理器12和交換器10繼續執行本次任務或下一個任務。
當中央處理器12或交換器10發生的錯誤不可以被回復,亦即發生的錯誤未排除時,於步驟S415中,基板管理控制器14記錄中央處理器12及交換器10的狀態,並重置伺服裝置1。於伺服裝置1重置後,基板管理控制器14同樣地依據中央處理器12產生的狀態資訊,判斷中央處理器12或交換器10發生的錯誤是否排除,據以選擇性地以預設連接關係設定交換器10。
於再一個實施例中,請一併參照圖1與圖4,圖4係根據本發明再一實施例所繪示之交換器錯誤排除方法的步驟流程圖。圖4提供的交換器錯誤排除方法,同樣適用於任何具有交換器、中央處理器及基板管理控制器的伺服裝置中。本實施例為了方便說明,同樣以圖1揭示的伺服器裝置1來說明,但不以此為限。
於步驟S501中,中央處理器12在執行任務時,產生至少一個控制訊號至交換器10。於步驟S503中,至少部分的交換器10依據控制訊號建立連接關係,其中中央處理器12所執行的任務關聯於將來源裝置20產生的訊號傳送至目的裝置22。中央處理器12依據所執行的任務,產生控制訊號,以控制交換器10建立一個連接關係,藉以將來源裝置20產生的訊號傳送至目標裝置22。
於步驟S505中,當交換器10於執行任務中發生錯誤時,至少一個交換器10產生狀態訊號至基板管理控制器14,以告知基板管理控制器14有錯誤發生。狀態訊號例如是一個中斷(interrupt)訊號或一個錯誤(error)訊號,且由發生錯誤的交換器產生。於步驟S507中,中央處理器12會於一個重置時間區間中,嘗試重置交換器10的連接關係以回復發生的錯誤。
於步驟S509中,於重置時間區間後,基板管理控制器14依據交換器10產生狀態訊號,判斷發生的錯誤是否排除。當發生的錯誤排除時,於步驟S511中,中央處理器12和交換器10繼續執行任務,或執行下一個任務。當基板管理控制器14依據交換器10產生狀態訊號,判斷發生的錯誤未排除時,於步驟S513中,基板管理控制器14記錄中央處理器12及交換器10的狀態,並重置伺服裝置1。
於一個實施例中,請一併參照圖1與圖5,圖5係根據本發明又一實施例所繪示之交換器錯誤排除方法的步驟流程圖。圖5提供的交換器錯誤排除方法,同樣適用於任何具有交換器、中央處理器及基板管理控制器的伺服裝置中。以下實施例同樣以圖1揭示的伺服器裝置1來說明,但不以此為限。
於步驟S601中,中央處理器12在執行任務時,產生至少一個控制訊號至交換器10,並於步驟S603中,至少部分的交換器10依據控制訊號建立連接關係。於連接關係中的交換器10用以將來源裝置20產生的訊號傳送至目標裝置22。於步驟S605中,基板管理控制器14每隔一個預設時間區間輪詢(polling)交換器10。依據每一個交換器10的狀態暫存器,判斷中央處理器12或交換器10於執行任務中是否有錯誤發生。
當有錯誤發生時,於步驟S607中,中央處理器12會於一個重置時間區間中,嘗試重置交換器10的連接關係以回復發生的錯誤。於步驟S609中,於重置時間區間後,基板管理控制器14輪詢(polling)每一個交換器10,判斷發生的錯誤是否已排除。當發生的錯誤已排除時,於步驟S611中,中央處理器12和交換器10繼續執行任務,或執行下一個任務。當基板管理控制器14依據交換器10產生狀態訊號,判斷發生的錯誤未排除時,於步驟S613中,基板管理控制器14記錄中央處理器12及交換器10的狀態,並重置伺服裝置1。
綜合以上所述,本發明實施例提供一種交換器錯誤排除方法,藉由基板管理控制器依據中央處理器和交換器的狀態,判斷中央處理器和交換器是否發生錯誤,並於中央處理器無法排除錯誤時,記錄中央處理器或交換器發生錯誤的原因,並控制伺服器重置,據以讓伺服器在重置後可以排除發生錯誤的問題。當伺服器在重置後仍無法排除錯誤時,基板管理控制器可以更進一步地重設交換器的連接關係,提升協助中央處理器排除錯誤的機制。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
1‧‧‧伺服裝置
10‧‧‧交換器
101‧‧‧交換器陣列
12‧‧‧中央處理器
14‧‧‧基板管理控制器
20‧‧‧來源裝置
22‧‧‧目的裝置
S301~S311、S401~S415、S501~S513、S601~S613‧‧‧步驟
圖1係根據本發明一實施例所繪示之伺服裝置的功能方塊圖。 圖2係根據本發明一實施例所繪示之交換器錯誤排除方法的步驟流程圖。 圖3係根據本發明另一實施例所繪示之交換器錯誤排除方法的步驟流程圖。 圖4係根據本發明再一實施例所繪示之交換器錯誤排除方法的步驟流程圖。 圖5係根據本發明又一實施例所繪示之交換器錯誤排除方法的步驟流程圖。
S301~S311‧‧‧步驟

Claims (10)

  1. 一種交換器錯誤排除方法,適用於一伺服裝置中,該伺服裝置包括多個交換器、一中央處理器及一基板管理控制器,該交換器錯誤排除方法包括:該中央處理器於執行一任務時,產生至少一控制訊號至該些交換器,該任務關聯於將一來源裝置產生的訊號傳送至一目的裝置;至少部分的該些交換器依據該控制訊號,建立一連接關係,於該連接關係中的該些交換器電性連接該來源裝置及該目的裝置;當該中央處理器或該些交換器於執行該任務中發生錯誤時,該中央處理器重置該連接關係;該基板管理控制器偵測發生的錯誤是否排除;以及當發生的錯誤未排除時,該基板管理控制器記錄錯誤,重置該伺服裝置,並於該伺服裝置重置後,選擇性地以一預設連接關係設定該些交換器。
  2. 如請求項1所述之交換器錯誤排除方法,其中該中央處理器每隔一預設時間區間產生一狀態資訊至該基板管理控制器,該狀態資訊關聯於該中央處理器執行該任務的狀態,該交換器錯誤排除方法更包括當該基板管理控制器超過該預設時間區間未接收到該狀態資訊時,該基板管理控制器判斷該中央處理器或該些交換器於執行該任務中發生錯誤。
  3. 如請求項2所述之交換器錯誤排除方法,其中該中央處理器更於一重置時間區間內重置該連接關係,當該基板管理控制器於該重置時間區間後,仍未接收到該狀態資訊時,該基板管理控制器判斷發生的錯誤未排除。
  4. 如請求項1所述之交換器錯誤排除方法,其中當該些交換器於執行該任務中發生錯誤時,該些交換器其中至少一產生一狀態訊號至該基板管理控制器。
  5. 如請求項4所述之交換器錯誤排除方法,其中該中央處理器更於一重置時間區間中重置該連接關係,於該重置時間區間後,該基板管理控制器依據該狀態訊號,判斷發生的錯誤是否排除。
  6. 如請求項1所述之交換器錯誤排除方法,其中該基板管理控制器每隔一預設時間區間輪詢該些交換器,依據每一該交換器的一狀態暫存器,判斷該中央處理器或該些交換器於執行該任務中是否發生錯誤。
  7. 如請求項6所述之交換器錯誤排除方法,其中該中央處理器於一重置時間區間中重置該連接關係,於該重置時間區間後,該基板管理控制器輪詢每一該交換器的該狀態暫存器,判斷發生的錯誤是否排除。
  8. 如請求項1所述之交換器錯誤排除方法,其中當發生的錯誤未排除時,該交換器錯誤排除方法更包括該基板管理控制器讀取該中央處理器及該些交換器的狀態,以該中央處理器及該些交換器的狀態作為發生錯誤的紀錄。
  9. 如請求項1所述之交換器錯誤排除方法,其中當該伺服裝置重置後,該基板管理控制器更依據該中央處理器產生的一狀態資訊、該些交換器其中至少一產生的一狀態訊號和每一該交換器的一狀態暫存器其中至少一,判斷發生的錯誤是否排除,當發生的錯誤未排除時,以該預設連接關係設定該些交換器。
  10. 如請求項1所述之交換器錯誤排除方法,其中每一該交換器具有一接腳對應表,每一該接腳對應表指示該預設連接關係,當該伺服裝置重置後,發生的錯誤仍未排除時,每一該交換器依據該接腳對應表重設。
TW105140520A 2016-12-07 2016-12-07 交換器錯誤排除方法 TWI601013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105140520A TWI601013B (zh) 2016-12-07 2016-12-07 交換器錯誤排除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105140520A TWI601013B (zh) 2016-12-07 2016-12-07 交換器錯誤排除方法

Publications (2)

Publication Number Publication Date
TWI601013B true TWI601013B (zh) 2017-10-01
TW201822002A TW201822002A (zh) 2018-06-16

Family

ID=61010881

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105140520A TWI601013B (zh) 2016-12-07 2016-12-07 交換器錯誤排除方法

Country Status (1)

Country Link
TW (1) TWI601013B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894970B1 (en) * 2000-10-31 2005-05-17 Chiaro Networks, Ltd. Router switch fabric protection using forward error correction
US7206963B2 (en) * 2003-06-12 2007-04-17 Sun Microsystems, Inc. System and method for providing switch redundancy between two server systems
US7418633B1 (en) * 2004-05-13 2008-08-26 Symantec Operating Corporation Method and apparatus for immunizing applications on a host server from failover processing within a switch
TW201114213A (en) * 2009-08-03 2011-04-16 Airbiquity Inc Efficient error correction scheme for data transmission in a wireless in-band signaling system
TW201229748A (en) * 2011-01-10 2012-07-16 Hon Hai Prec Ind Co Ltd Server and method for controlling opening of channels
TW201347473A (zh) * 2011-12-01 2013-11-16 Intel Corp 具交換器電路之伺服器
TW201500935A (zh) * 2013-06-21 2015-01-01 Hon Hai Prec Ind Co Ltd 機櫃伺服器基板管理控制器開關機控制系統及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894970B1 (en) * 2000-10-31 2005-05-17 Chiaro Networks, Ltd. Router switch fabric protection using forward error correction
US7206963B2 (en) * 2003-06-12 2007-04-17 Sun Microsystems, Inc. System and method for providing switch redundancy between two server systems
US7418633B1 (en) * 2004-05-13 2008-08-26 Symantec Operating Corporation Method and apparatus for immunizing applications on a host server from failover processing within a switch
TW201114213A (en) * 2009-08-03 2011-04-16 Airbiquity Inc Efficient error correction scheme for data transmission in a wireless in-band signaling system
TW201229748A (en) * 2011-01-10 2012-07-16 Hon Hai Prec Ind Co Ltd Server and method for controlling opening of channels
TW201347473A (zh) * 2011-12-01 2013-11-16 Intel Corp 具交換器電路之伺服器
TW201500935A (zh) * 2013-06-21 2015-01-01 Hon Hai Prec Ind Co Ltd 機櫃伺服器基板管理控制器開關機控制系統及方法

Also Published As

Publication number Publication date
TW201822002A (zh) 2018-06-16

Similar Documents

Publication Publication Date Title
US7536584B2 (en) Fault-isolating SAS expander
EP2052326B1 (en) Fault-isolating sas expander
US10127095B2 (en) Seamless automatic recovery of a switch device
WO2021027481A1 (zh) 故障处理方法、装置、计算机设备、存储介质及存储系统
JP5370591B2 (ja) システムおよび障害処理方法
US5392424A (en) Apparatus for detecting parity errors among asynchronous digital signals
US10027532B2 (en) Storage control apparatus and storage control method
DE102017121465A1 (de) Datenprotokoll zum verwalten von peripheriegeräten
JP6662987B2 (ja) ケーブルのエラーをチェックする方法及びシステム
CN108108254B (zh) 交换器错误排除方法
CN111414268A (zh) 故障处理方法、装置及服务器
US10691562B2 (en) Management node failover for high reliability systems
JP2017129969A (ja) 診断装置、診断方法および診断プログラム
TWI679531B (zh) 熱插拔辨識方法及具有熱插拔辨識功能的伺服器
TWI601013B (zh) 交換器錯誤排除方法
CN114564334B (zh) 一种mrpc数据处理方法、系统及相关组件
JP5418670B2 (ja) バス制御装置及びバス制御方法
US20160224269A1 (en) Storage system and information processing method
US20140173365A1 (en) Semiconductor apparatus, management apparatus, and data processing apparatus
JP5651004B2 (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
US20190253337A1 (en) Method for detecting topology, compute node, and storage node
US9454452B2 (en) Information processing apparatus and method for monitoring device by use of first and second communication protocols
TWI530782B (zh) 伺服器
CN113760627B (zh) 一种采用应答机制的总线中接口调试控制方法及装置
TWI489287B (zh) 多工切換裝置及其切換方法