TWI446161B - 處理一多處理器資訊處理系統之一故障處理器的裝置及方法 - Google Patents

處理一多處理器資訊處理系統之一故障處理器的裝置及方法 Download PDF

Info

Publication number
TWI446161B
TWI446161B TW99146950A TW99146950A TWI446161B TW I446161 B TWI446161 B TW I446161B TW 99146950 A TW99146950 A TW 99146950A TW 99146950 A TW99146950 A TW 99146950A TW I446161 B TWI446161 B TW I446161B
Authority
TW
Taiwan
Prior art keywords
processor
management module
processors
coupled
input
Prior art date
Application number
TW99146950A
Other languages
English (en)
Other versions
TW201227269A (en
Inventor
Feng I Liu
Brian Liu
Tony Liu
Ian Cheng
Sor Lien
Michael Joseph Peters
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Priority to TW99146950A priority Critical patent/TWI446161B/zh
Priority to US13/309,598 priority patent/US8898517B2/en
Publication of TW201227269A publication Critical patent/TW201227269A/zh
Priority to US13/541,374 priority patent/US8892944B2/en
Application granted granted Critical
Publication of TWI446161B publication Critical patent/TWI446161B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1428Reconfiguring to eliminate the error with loss of hardware functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

處理一多處理器資訊處理系統之一故障處理器的裝置及方法
本發明係關於一種資訊處理系統。特定而言,本發明係關於一種用於處理一多處理器資訊處理系統之一故障處理器的裝置的方法及裝置。
隨著資訊處理系統中使用組件的持續改良及發展,其硬體故障之處理並恢復系統之正常動作的技術亦大幅發展。在這些技術中,有些故障可以恢復,並不會影響作業系統或用戶應用程式,有些故障則可以恢復,但或多或少可能有一些影響。
在現今多處理器資訊處理系統技術中,如果主要中央處理器故障,其餘中央處理器無論正常與否,資訊處理系統一般並無法操作。換言之,在處理器數量的大幅成長趨勢下,實際上無論使用多少中央處理器,仍存在上述技術問題。
因此,存在一需求,以達成資訊處理系統中故障中央處理器的有效處理。
根據本發明一實施例,揭示一種用於處理一多處理器資訊處理系統之一故障處理器的裝置,該多處理器資訊處理系統包含以處理器互連的兩個或更多個處理器以利於該等處理器的異動(transactions),該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器。該裝置可包括:一基板管理模組,用於偵測和接受該兩個或更多個處理器的一健康程度資訊;一多工器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中該多工器操作以在該兩個或更多個處理器間切換;以及一處理器識別控制器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中回應於該健康程度資料指示該第一個處理器為故障,該處理器識別控制器設定該第二個處理器為該預設啟動處理器且該基板管理模組使得該多工器切換至該第二個處理器。
該裝置更可包括:一輸入輸出裝置;以及一輸入輸出單元,耦合於該輸入輸出裝置及該多工器間,以利於該異動;其中該輸入輸出單元更耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器。
該裝置更可包括:一實時控制管理模組耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,用於使得該基板管理模組存取該健康程度資訊;以及一基本輸入輸出系統,用於對於該兩個或更多個處理器進行啟動。該實時控制管理模組可藉由一數位互聯分別耦合到該兩個或更多個處理器。該數位互聯可包括PECI匯流排或RAPL匯流排。
該偵測可包括:藉由該基板管理模組接收自該基本輸入輸出系統而來的開機自行檢測完成指令;以及藉由該基板管理模組,透過該數位互聯存取該健康程度資訊以確認該第一處理器為故障。
回應於該第二個處理器被設定為該預設啟動處理器,該基板管理模組可觸發一系統重設至該輸入輸出單元且該輸入輸出單元送出一處理器重設至該一第一處理器。
該裝置更可包括:第一個處理器插座,用於插置該第一個處理器;以及第二個處理器插座,用於插置該第二個處理器。該處理器識別控制器可包括一處理器插座識別控制器,用於控制該第一個處理器插座及該第二個處理器插座間的切換。
該基板管理模組可包括一基板管理控制器。該處理器互連可包括QPI匯流排。該輸入輸出單元可包括輸入輸出集線器。該輸入輸出裝置可包括一顯示裝置,一儲存裝置,及/或一鍵盤裝置。
根據本發明另一實施例,揭示一種用於處理一多處理器資訊處理系統之一故障處理器的方法,該多處理器資訊處理系統包含以處理器互連的兩個或更多個處理器以利於該等處理器的異動,該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器。該方法包括:藉由一基板管理模組以偵測和接受該兩個或更多個處理器的一健康程度資訊;提供一多工器以在該兩個或更多個處理器間進行切換,其中該多工器耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器;以及回應於該健康程度資料指示該第一個處理器為故障,藉由一處理器識別控制器設定該第二個處理器為該預設啟動處理器且藉由該基板管理模組使得該多工器切換至該第二個處理器。
根據本發明再一實施例,揭示一種多處理器資訊處理系統。該多處理器資訊處理系統包括:兩個或更多個處理器,該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器;處理器互連,互連該兩個或更多個處理器;一基板管理模組,用於偵測和接受該兩個或更多個處理器的一健康程度資訊;一多工器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中該多工器操作以在該兩個或更多個處理器間切換;以及一處理器識別控制器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中回應於該健康程度資料指示該第一個處理器為故障,該處理器識別控制器設定該第二個處理器為該預設啟動處理器且該基板管理模組使得該多工器切換至該第二個處理器。
說明書中所提及的特色、優點、或類似表達方式並不表示,可以本發明實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白,有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此,本說明書中對於特色及優點、及類似表達方式的論述與相同具體實施例有關,但亦非必要。
此外,可以任何合適的方式,在一或多個具體實施例中結合本發明所述特色、優點、及特性。相關技術者應明白,在沒有特定具體實施例之一或多個特定特色或優點的情況下,亦可實施本發明。在其他例子中應明白,特定具體實施例中的其他特色及優點可能未在本發明的所有具體實施例中出現。
參考以下說明及隨附申請專利範圍或利用如下文所提之本發明的實施方式,即可更加明瞭本發明的這些特色及優點。
本說明書中「一具體實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明可實施為電腦裝置、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。程式碼可以獨立軟體套件的形式完整的於使用者的電腦上執行或部分於使用者的電腦上執行,或部分於使用者電腦而部分於遠端電腦。
於以下本發明的相關敘述會參照依據本發明具體實施例之電腦裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
這些電腦程式指令亦可被儲存在電腦可讀取媒體上,以便指示電腦或其他可程式化資料處理裝置來進行特定的功能,而這些儲存在電腦可讀取媒體上的指令構成一製成品,其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
其次,請參照第1圖至第3圖,在圖式中顯示依據本發明各種實施例的電腦裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以同時執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可藉由基於特殊目的硬體的系統來實施,或者藉由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
此時請參第1圖,其中說明一種依據本發明建構的資訊處理系統100之一個具體實施例,本發明之資訊處理系統100可例如為一具有多核心之電腦,其具有複數之中央處理器可共同執行工作,基於資訊處理系統100所執行的功能,各種其他裝置可耦合至處理器。資訊處理系統100更具有一主機板(未示於圖中),用於提供各個組件的電氣互連及安裝。根據本發明一較佳實施例中,資訊處理系統100係以雙核心系統為例進行說明,但本發明並不以此為限,本發明亦可應用於其他的多核心系統上。如第1圖所示,資訊處理系統100可包括二個處理器或中央處理器(CPU)140A和140B。處理器典型上包括處理元件(未示於圖中)及資源(未示於圖中),處理元件典型上包括一核心、一線程單元、一處理單元及/或任何其他元件,資源典型上包括邏輯、韌體、記憶體、暫存器、及/或任何執行編碼的構件。一般而言,處理元件能夠保持一處理器的一狀態,諸如一執行狀態或架構狀態,而一部分的資源可全部或部分為某些處理元件專用,而另一部分的資源可為某些處理元件共用。另一方面,核心典型上是指位於一積體電路上之邏輯,其能夠維持一獨立的架構狀態,而每一獨立維持的架構狀態係關聯於某些專用資源。
如前述,資訊處理系統100可包括第一處理器140A和第二處理器140B。記憶體150A和150B分別透過鏈接151A和151B耦合該兩個處理器140A和140B。記憶體150A和150B包括任何記憶體裝置,諸如一隨機存取記憶體(RAM)、快取記憶體、快閃記憶體或其他記憶體裝置。鏈接151A和151B可例如為(但不限於)一隨機存取記憶體鏈接,例如一DDR3鏈接。如第1圖所示,兩個處理器140A和140B一起耦合至一多工器152,且多工器152耦合至一輸入輸出(I/O)單元160。輸入輸出單元160可例如為(但不限於)一輸入輸出集線器(I/O hub),輸入輸出集線器的功能為吾人所熟知,因此此處不再贅述。輸入輸出單元160(例如輸入輸出集線器)可透過鏈接132耦合至不同的輸入輸出裝置(I/O devices),例如顯示裝置162,儲存裝置164,鍵盤裝置166等等。在另一較佳實施例中,輸入輸出單元160可例如為一超級輸入輸出晶片(super I/O),用以控制輸入輸出裝置與處理器140A與140B間的通訊。
在一個較佳實施例中,兩個處理器140A和140B可以分別為實現了x86架構的微處理器。雖然在其他實施例中,處理器140A和140B可以分別任何類型的處理器,例如可能是相同或是不同廠牌或形式之處理器。
請注意處理器140A和140B可能為異構(heterogeneous)處理器。在一個較佳實施例中,處理器140A和140B可能不僅是實質分離的處理器,也可能不同或有不同的操作特性。在另一個較佳實施例中,處理器140A和140B可能是在一多核處理單元(multicore processing unit)中實施的異構處理器核心(heterogeneous processor cores)。
一作業系統運作於處理器140A和140B上並且使用該作業系統來協調及提供第1圖上之資訊處理系統100內各種組件。該作業系統可是一商業性質可用的作業系統。一來自程式系統的物件可結合作業系統執行並且提供來自資料處理系統內所執行的爪哇程式或應用程式對作業系統的呼叫。作業系統的指令、物件導向程式系統以及應用程式或程式係被儲存於儲存裝置164內,例如硬碟機,並且將其載入主要記憶體150A、150B以供處理器140A、140B執行。此技術領域中諳此技藝者將可瞭解該第1圖內的硬體可依據該本發明之具體實施例作出許多變化。其他內部的硬體或周邊裝置,例如快閃記憶體或光碟機以及其他類似裝置,皆可被加入或放置於第1圖上所述的硬體內。
處理器140A和140B可以一處理器互連142進行耦合,在一個較佳實施例中,一處理器互連142可包括一點對點鏈接,例如QPI(QuickPath Interconnect)匯流排或HT(HyperTransport)匯流排。然而,其他種類的互連亦可用以實施上述的處理器互連142。
在一個較佳實施例中,輸入輸出單元160可以是任何一種輸入輸出集線器,其中可包括橋接和圖形電路(未顯示),可作為處理器(140A及140B)和各種不同的輸入輸出裝置(顯示裝置162,儲存裝置164,鍵盤裝置166)間的界面。例如,輸入輸出單元160可透過鏈接141耦合到多工器152,鏈接141可例如為提供高速,雙向,點至點鏈接的直接媒體介面(Direct Media Interface,DMI)匯流排或HT匯流排。多工器152可例如為(但不限於)一DMI多工器,DMI多工器的功能為吾人所熟知,因此此處不再贅述。多工器152可分別透過鏈接154A及154B耦合到處理器140A及處理器140B,鏈接154A及154B可例如為提供高速,雙向,點至點鏈接的DMI匯流排或HT匯流排。
第1圖所繪示之結構還繪示一基板管理模組182,基板管理模組182可耦合到一處理器識別控制器171,多工器152,輸入輸出單元160。基板管理模組182較佳可為資訊處理系統100上之一基板管理控制器(baseboard management controller,BMC)。或者,基板管理模組182亦可實施為獨立的基板管理模組。基板管理模組182可例如為Renesas公司的2117A基板管理控制器或是Aspeed公司的AST2050基板管理控制器。基板管理模組182,例如基板管理控制器,典型上可為一個監控資訊處理系統操作的微控制器,在一個具體實施例中,基板管理控制器182監控資訊處理系統之種種運作狀況,包括但不限於資訊處理系統內處理器的使用狀況,資訊處理系統內記憶組件的使用狀況,資訊處理系統內跨於組件或所施用的電壓,以及資訊處理系統中組件的溫度等等。為了完成上述監視功能,基板管理控制器182藉由多種裝置匯流排耦合到各組件。
在一個較佳實施例中,一處理器識別控制器171耦合於基板管理模組182(例如基板管理控制器)與處理器140A間,及耦合於基板管理模組182與處理器140B間,以提供在複數處理器間切換及選擇為啟動(boot)處理器的功能,處理器識別控制器171可例如為(但不限於)一處理器插座識別控制器(processor socket ID controller),處理器插座識別控制器的功能為吾人所熟知,因此此處不再加以贅述。在一個較佳實施例中,各處理器透過處理器插座(socket)連接至資訊處理系統100之主機板,以提供機械和電氣的連接,各處理器具有插座識別(Socket ID)之多功能觸發引脚(strap pin),以供設定特定處理器為啟動處理器。在具有四個處理器之資訊處理系統中,典型上以ID0為啟動處理器,而ID1至ID3為功能(functional)處理器。在具有二個處理器之資訊處理系統中,典型上以ID0為啟動處理器,而ID1為功能處理器,換言之,處理器識別控制器171(例如處理器插座識別控制器)與第一處理器140A及第二處理器140A電性連接,用以控制第一處理器140A及第二處理器140A之切換及選擇,進而以執行資訊處理系統100開機(boot up)時或開機後之處理程序,其中切換及選擇的細節在後面段落有詳細的解說。
在一個具體實施例中,基板管理控制器182可透過一通用輸出(GPO)傳輸介面191耦合到處理器識別控制器171,通用輸出傳輸介面191可例如為基板管理控制器182之通用輸入輸出(GPIO)介面(引腳)中的通用輸出引腳。需注意的是:通用輸入輸出傳輸介面為一深具彈性的平行介面,其允許各種量身訂做的耦合方式。
在一個具體實施例中,基板管理控制器182可透過一鏈接193,例如通用輸入輸出傳輸介面或I2C(Inter-Integrated Circuit)傳輸介面,耦合到多工器152。基板管理控制器182可透過一鏈接195,例如通用輸出傳輸介面,耦合到輸入輸出單元160。基板管理控制器182可藉由一鏈接137,例如一低引腳數(low pin count,LPC)匯流排或序列周邊介面(Serial Peripheral Interface,SPI)匯流排,耦合到系統基本輸入輸出(BIOS)模組136。處理器識別控制器171可藉由通用輸出解碼(general output decoding)分別透過鏈接189A及鏈接189B而耦合至第一處理器140A(多功能觸發引脚Socket_ID0)及第二處理器140B(多功能觸發引脚Socket_ID1)。在一個具體實施例中,透過通用輸出解碼,處理器識別控制器171藉由通用輸出傳輸介面191接收基板管理控制器182之訊號,進而分別設定多功能觸發引脚Socket_ID0及多功能觸發引脚Socket_ID1至第一處理器140A及第二處理器140B。
基板管理控制器182的韌體遵循智慧平台管理介面(intelligent platform management interface,IPMI)標準以進行系統監控。因為智慧平台管理介面標準對於熟悉相關產業者為一般的知識,在此不詳細敘述。關於IPMI規範的參考資料,如IPMI 2.0,可在以下網站上取得:http://www.intel.com/design/servers/ipmi/。
第1圖所繪示之結構還繪示一實時系統控制管理(real time control and management,RTMM)模組196,在一較佳實施例中,實時系統控制基板管理模組196可例如但不限於一對應於基板管理控制器182的功能邏輯(function logic)IC,可提供單一的管理介面,對資訊處理系統中進行實時的管理、監視和控制。關於RTMM的參考資料,可在以下網站上取得:http://tw.renesas.com/products/mpumcu/h8s/h8s2100/h8s2117/h8s2117_root.jsp
在一個具體實施例中,實時系統控制基板管理模組196可配置於系統中,透過數位互聯199A及199B分別耦合至處理器140A及處理器140B,數位互聯199A及199B可例如但不限於一PECI(Platform Environmental Control Interface,平台環境控制介面)匯流排或一RAPL(running average power limit)匯流排。例如,PECI匯流排199A及199B可允許處理器140A及處理器140B之個別管理引擎(management engine)197A及197B存取由處理器140A及處理器140B而來的資訊。典型上PECI匯流排199A及199B用於平台環境資訊,處理器健康資訊,熱管理資訊等等的傳輸,然處理器140A及處理器140B仍可使用PECI匯流排199A及199B而傳輸資訊給其他組件。再者,在一個具體實施例中,實時系統控制基板管理模組196亦可透過處理器之記憶體內建自測試(built-in self-test,BIST)之測試方式而取得處理器之狀態。另一方面,實時系統控制基板管理模組196亦透過數位互聯167耦合至基板管理控制器182,再者,於前面段落中所述之數位互聯的功能均為吾人所熟知,因此此處不再加以贅述。
管理引擎197A及197B主要使用於處理器內部健康狀況,內部暫存器資訊,動態能源損耗演算及儲存等等,在一較佳實施例中,實施於處理器140A及處理器140B中,例如藉由此機制,透過PECI匯流排199A及199B耦合至實時系統控制管理模組196以進行訊息傳遞。PECI或RAPL為獲取多個處理器之健康資訊的可靠方式之一,例如當處理器故障及/或DMI匯流排141(或HT匯流排)操作不正常時,獨立且分離的PECI或RAPL確為一非常可靠的界面。關於management engine的參考資料,可在以下網站上取得:http://en.wikipedia .org/wiki /Platfor m _ Environment _ Control _ Interface
一系統基本輸入輸出(BIOS)模組136可耦合到基板管理模組182。系統基本輸入輸出模組136可例如為內嵌於一非揮發性(nonvolatile)記憶體晶片的韌體,包括一系統基本輸入輸出。在一較佳實施例中,用以驅動第一處理器140A及/或第二處理器140B)執行資訊處理系統100之開機程序,但本發明並不以此為限。
在資訊處理系統100開機時,處理器會從主機板上的系統基本輸入輸出模組136內取得程式碼。系統基本輸入輸出模組136內的程式碼掌控資訊處理系統的初始動作,主要包括開機自行檢測(power-on-self-test,POST),初始化,及測試等等。資訊處理系統100開機時,控制權將交給系統基本輸入輸出,系統基本輸入輸出會先檢查處理器的暫存器、旗標是否運作正常,接著檢查計時器,直接記憶體存取控制器(DMA controller)等等是否正常。系統基本輸入輸出亦進而初始化各晶片組,記憶體,及其他週邊裝置的暫存器。
上述系統基本輸入輸出模組136可藉由一鏈接137耦合到基板管理模組182,該鏈接137可例如但不限於一LPC匯流排,在另一實施例中,可藉由一傳統的ISA(industry standard architecture,工業標準架構)匯流排進行耦合。
大體而言,系統基本輸入輸出模組136主要執行一些低階的功能,例如,在資訊處理系統100開機時,及系統基本輸入輸出執行開機自行檢測等等。POST常式(routine)測試資訊處理系統中的各種子系統,隔離故障,和將問題通報給使用者。系統基本輸入輸出模組136之系統基本輸入輸出可同時處理各種周邊設備(如顯示裝置162,儲存裝置164,鍵盤裝置166等等)的低階輸入/輸出動作。再者,系統基本輸入輸出也負責將操作系統載入到資訊處理系統的系統記憶體。
系統基本輸入輸出模組136也包含一記憶體暫存器(memory buffer,未示於圖中),在POST動作期間,系統基本輸入輸出模組136可執行操作指令以配置(configure)記憶體暫存器。在一個具體實施例中,記憶體暫存器可配置以包括記錄各種資料的欄位(field),例如匯流排識別符(identifier),裝置識別符,以及功能等等。
在一個具體實施例中,輸入輸出單元160(例如輸入輸出集線器)可透過鏈接145A及145B分別耦合至第一處理器140A和第二處理器140B,基板管理模組182(例如基板管理控制器)可透過一鏈接195耦合到輸入輸出集線器160,其中基板管理控制器182可送出系統重設(system reset)至輸入輸出集線器160,然後輸入輸出集線器160送出處理器重設(CPU reset)至第一處理器140A和第二處理器140B,換言之,基板管理控制器182觸發系統重設並傳送至例如輸入輸出集線器160以進行後續的系統重設動作,其中重設前後的操作之細節在後面段落有詳細的解說,同時於前面段落中所述之鏈接的功能均為吾人所熟知,因此此處不再加以贅述。
資訊處理系統100可使用任何適當的電腦來實施,且資訊處理系統100之其他基本架構與元件可參見一般的個人電腦或伺服器,例如在或System伺服器)(「IBM」、「BladeCenter」、「System X」為International Business Machine公司在美國及/或其他國家的註冊商標)。雖然本發明之實施係以一電腦來表示,然而本發明之其他具體實施例亦可實施其他類型的資料處理系統,例如一網路電腦、一伺服器、或一工作站主機等等。
第2圖顯示關於本發明之一處理中央處理器故障之一方法200的步驟流程圖,並配合第1圖說明本發明。此處需注意的是,以下雖以資訊處理系統100為例說明本發明之處理中央處理器故障之方法,但本發明之處理中央處理器故障之方法並不以使用在資訊處理系統100為限。
在一個具體實施例中,首先執行開機動作(步驟204)。
在步驟208中,接著讀取系統基本輸入輸出,在一個具體實施例中,預設為啟動處理器的第一處理器140A接收電源訊號以開始執行啟動程序。此時第一處理器140A從系統基本輸入輸出模組136中讀取基本輸入輸出之韌體。
在步驟212中,偵測預設啟動處理器(例如第一處理器140A,處理器插座識別為ID0)是否為故障,在一個具體實施例中,基板管理模組182(例如基板管理控制器)偵測第一處理器140A是否為故障,其偵測方式較佳可為基板管理控制器182接收自系統基本輸入輸出模組136而來的開機自行檢測完成指令(POST complete command)(例如系統基本輸入輸出模組136透過IPMI指令通知基板管理控制器182有關於開機自行檢測完成的資訊),然後基板管理控制器182透過PECI匯流排199A確認第一處理器140A為故障。
在步驟216中,如果預設啟動處理器(第一處理器140A)非為故障,則資訊處理系統100使用第一處理器140A運作。
在步驟220中,如果預設啟動處理器(第一處理器140A)為故障,則更改預設啟動處理器為另一處理器(例如第二處理器140B),在一個具體實施例中,基板管理模組182(例如基板管理控制器)控制處理器識別控制器171(例如處理器插座識別控制器),以設定第二處理器140B(處理器插座識別為ID1)為啟動處理器,然後基板管理控制器182控制多工器152(例如DMI多工器)以切換預設啟動處理器至第二處理器140B。處理器識別控制器171可例如為一處理器插座識別控制器,可藉由通用輸出解碼而實施。接著,基板管理模組182重設各處理器間處理器互連142(例如QPI互連)使故障的第一處理器140A從處理器群組(CPU group)的環拓樸(ring topology)離線。對於上述故障處理器從處理器群組的環拓樸離線之動作,其實作方式對熟此技藝人士是習知的部份,而不需在此贅述。
在步驟224中,基板管理模組182登錄(log)故障訊息,在一個具體實施例中,基板管理模組182將第一處理器140A的故障訊息登錄於內部事件紀錄區段(internal event log segment,未示於圖中),其登錄細節可包括啟動處理器時之故障訊息,例如核心故障,快取故障,記憶體控制器(memory controller)故障,DMI匯流排故障等等。在一個具體實施例中,內部事件紀錄區段可在基板管理模組182之一快閃記憶體組件(未示於圖中)上實施,該快閃記憶體組件可典型上分割(partition)為複數個區段,例如系統私用區段(system private segment),使用者資料區段(user data segment),內部事件紀錄區段(event log segment)等等。上述故障訊息登錄之實作方式對熟此技藝人士是習知的部份,而不需在此贅述。
在步驟228中,觸發系統重設(system reset),在一個具體實施例中,基板管理模組182觸發系統重設並傳送至輸入輸出單元160(例如輸入輸出集線器)以進行後續的系統重設動作,例如基板管理模組182送出系統重設至輸入輸出單元160,然後輸入輸出單元160送出處理器重設(CPU reset)至第一處理器140A。
在步驟232中,進行系統重開機(system reboot)。
在步驟236中,偵測預設啟動處理器(第二處理器140B)是否為故障,在一個具體實施例中,基板管理模組182偵測第二處理器140B是否為故障,其偵測方式較佳可為基板管理模組182接收自系統基本輸入輸出模組136而來的開機自行檢測完成指令(例如系統基本輸入輸出模組136透過IPMI指令通知基板管理模組182有關於開機自行檢測完成的資訊),然後基板管理模組182透過PECI匯流排199A確認第二處理器140B為故障。
在步驟240中,如果預設啟動處理器(例如第二處理器140B)非為故障,則資訊處理系統100使用第二處理器140B運作。
在步驟244中,如果預設啟動處理器(例如第二處理器140B)為故障,基板管理模組182登錄故障訊息,在一個具體實施例中,基板管理模組182將第一處理器140A及第二處理器140B的故障訊息登錄於內部訊息內存區,其登錄細節可包括故障之啟動處理器位置及其可能故障原因。
在步驟248中,基板管理模組182對資訊處理系統100進行關機(shutdown)操作。
第3圖顯示關於本發明之一處理中央處理器故障之一方法的步驟流程圖300,並配合第1圖說明本發明。以下雖以資訊處理系統100為例說明本發明之處理中央處理器故障之方法,但本發明之處理中央處理器故障之方法並不以使用在資訊處理系統100為限。
在步驟304中,根據一個具體實施例,執行開機動作,且啟動一看門狗計時器(watch dog timer)184,在一個具體實施例中,看門狗計時器184可採用習知的看門狗計時器組件(參照http://en.wikipedia.org/wiki/Watchdog_timer),如熟此技藝者所知,習知的看門狗計時器組件一般可在執行輸入輸出單元160或基板管理模組182中軟體碼時用以偵測種種故障(malfunctions),例如序列故障(sequence malfunction),時序故障(timing malfunction)等等。
在步驟308中,接著讀取系統基本輸入輸出,在一個具體實施例中,預設為啟動處理器的第一處理器140A接收電源訊號以開始執行啟動程序。此時第一處理器140A從系統基本輸入輸出模組136中讀取基本輸入輸出之韌體。
在步驟312中,偵測預設啟動處理器(例如第一處理器140A,處理器插座識別為ID0)是否為故障,在一個具體實施例中,基板管理模組182(例如基板管理控制器)偵測第一處理器140A是否為故障,其偵測方式較佳可為基板管理模組182接收自系統基本輸入輸出模組136而來的開機自行檢測完成指令(例如系統基本輸入輸出模組136透過IPMI指令通知基板管理控制器182有關於開機自行檢測完成的資訊),然後基板管理模組182透過PECI匯流排199A確認第一處理器140A為故障。
在步驟316中,如果預設啟動處理器(第一處理器140A)非為故障,則資訊處理系統100使用第一處理器140A運作。
在步驟320中,如果預設啟動處理器(第一處理器140A)為故障,則更改預設啟動處理器為另一處理器(例如第二處理器140B),在一個具體實施例中,基板管理模組182控制處理器識別控制器171,以設定第二處理器140B(處理器插座識別為ID1)為啟動處理器,然後基板管理模組182控制多工器152(例如DMI多工器)以切換預設啟動處理器至第二處理器140B。處理器識別控制器171可例如為第1圖及第2圖所述之處理器插座識別控制器而實施。接著,基板管理模組182重設各處理器間處理器互連142(例如QPI互連)使故障的第二處理器140B從處理器群組的環拓樸離線。
在步驟324中,基板管理模組182登錄/故障訊息,在一個具體實施例中,基板管理模組182登錄第一處理器140A的故障訊息,其登錄細節可例如為第2圖之步驟224及相關說明所述。
在步驟328中,基板管理模組182/看門狗計時器184觸發系統重設(system reset),在一個具體實施例中,假如在基板管理模組182(例如基板管理控制器)在預設時間內(例如20秒)未收到開機自行檢測完成指令(表示步驟308至324並未被完成),其原因可能是第一處理器104A至其他個組件之間可能有其他故障存在,因而造成其間通訊不良。在一個具體實施例中,當基板管理模組182獲得上述之看門狗計時器184的逾時資訊時,基板管理模組182會將第一處理器104A視為故障且再次讀取PECI資訊,如果基板管理模組182仍然無法得到任何資訊,基板管理模組182會進行後續的步驟(例如更改預設啟動處理器為第二處理器,故障訊息登錄,進行系統重開機等等)。在一個具體實施例中,基板管理模組182之看門狗計時器184觸發系統重設並傳送至輸入輸出單元160(例如輸入輸出集線器),然後輸入輸出集線器160送出處理器重設(CPU reset)至第一處理器140A及/或第二處理器140B,以進行後續的系統重設動作。換言之,此具體實施例之看門狗計時器184提供一個增強的故障處理,可強制進行預置(preset),故障偵測(failure detection),及系統重設等等。
在步驟332中,進行系統重開機。
在步驟336中,偵測預設啟動處理器(例如第二處理器140B)是否為故障,在一個具體實施例中,基板管理控制器182偵測第二處理器140B是否為故障,其偵測方式較佳可為基板管理模組182接收自系統基本輸入輸出模組136而來的開機自行檢測完成指令(例如系統基本輸入輸出模組136透過IPMI指令通知基板管理模組182有關於開機自行檢測完成的資訊),然後基板管理模組182透過PECI匯流排199A確認第二處理器140B為故障。
在步驟340中,如果預設啟動處理器(例如第二處理器140B)非為故障,則資訊處理系統100使用第二處理器140B運作。
在步驟344中,如果預設啟動處理器(第二處理器140B)為故障,基板管理模組182登錄故障訊息,在一個具體實施例中,基板管理模組182登錄第一處理器140A及第二處理器140B的故障訊息,其登錄細節可例如為第2圖之步驟244及相關說明所述。
在步驟348中,基板管理模組182對資訊處理系統100進行關機操作。
在上述具體實施例中,使用了兩個處理器及處理器插座(例如ID0,ID1)。然在另一具體實施例中,亦可使用兩個以上處理器及對應處理器插座,例如四個處理器及四個處理器插座(例如ID0,ID1,ID2,ID4),本發明並不欲加以限制,而各處理器間以處理器互連(例如QPI互連)互連,多工器耦合至輸入輸出單元以及分別耦合至各處理器,且其它組件以類似第1圖的方式配置。同樣地,藉由處理器識別控制器,基板管理模組,以及其他組件的作動,兩個以上處理器(例如四個處理器)可依序設定為啟動處理器。
因此,根據本發明一具體實施例,在多處理器資訊處理系統之預設啟動處理器故障的狀況下,資訊處理系統仍能操作(例如藉由使用下一順位的處理器)且仍能提供部份計算能力給使用者,不會有完全無法啟動的情形。同時無論多處理器資訊處理系統之處理器數目為何,本發明均可適用。特別在現在現場可更換單元(Field Replace Unit,FRU)大量使用的趨勢下,本發明更提供特出的優點及功效,例如當處理器等之組件以現場可更換單元的方式實施時,根據本發明一具體實施例,即使多處理器資訊處理系統之預設啟動處理器故障,因為資訊處理系統仍可提供部份計算能力而具可用性,因此在服務人員到達現場以提供並更換FRU型式之處理器前,資訊處理系統仍可操作,減少對使用者(例如客戶)的人力及物力之影響。
在不脫離本發明精神或必要特性的情況下,可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。因此,本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。
100...資訊處理系統
132...鏈接
136...系統基本輸入輸出模組
137...鏈接
145A...鏈接
145B...鏈接
140A...第一處理器
140B...第二處理器
141...鏈接
142...處理器互連
150A...記憶體
150B...記憶體
151A...鏈接
151B...鏈接
152...多工器
154A...鏈接
154B...鏈接
160...輸入輸出單元
162...顯示裝置
164...儲存裝置
166...鍵盤裝置
167...數位互聯
171...處理器識別控制器
182...基板管理模組
184...看門狗計時器
189A...鏈接
189B...鏈接
191...通用輸出傳輸介面
193...鏈接
195...鏈接
196...實時系統控制管理模組
197A...管理引擎
197B...管理引擎
199A...數位互聯
199B...數位互聯
200...方法
204...步驟
208...步驟
212...步驟
216...步驟
220...步驟
224...步驟
228...步驟
232...步驟
236...步驟
240...步驟
244...步驟
248...步驟
300...方法
304...步驟
308...步驟
312...步驟
316...步驟
320...步驟
324...步驟
328...步驟
332...步驟
336...步驟
340...步驟
344...步驟
348...步驟
為了立即瞭解本發明的優點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發明。在瞭解這些圖示僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下,參考附圖以額外的明確性及細節來說明本發明,圖式中:
第1圖為依據本發明一具體實施例之系統架構示意圖;
第2圖為依據本發明一具體實施例之方法流程圖;
第3圖為依據本發明一具體實施例之方法流程圖。
100...資訊處理系統
132...鏈接
136...系統基本輸入輸出模組
137...鏈接
145A...鏈接
145B...鏈接
140A...第一處理器
140B...第二處理器
141...鏈接
142...處理器互連
150A...記憶體
150B...記憶體
151A...鏈接
151B...鏈接
152...多工器
154A...鏈接
154B...鏈接
160...輸入輸出單元
162...顯示裝置
164...儲存裝置
166...鍵盤裝置
167...數位互聯
171...處理器識別控制器
182...基板管理模組
184...看門狗計時器
189A...鏈接
189B...鏈接
191...通用輸出傳輸介面
193...鏈接
195...鏈接
196...實時系統控制管理模組
197A...管理引擎
197B...管理引擎
199A...數位互聯
199B...數位互聯

Claims (17)

  1. 一種用於處理一多處理器資訊處理系統之一故障處理器的裝置,該多處理器資訊處理系統包含以一處理器互連連行互連的兩個或更多個處理器以利於該等處理器的異動,該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器,該裝置包括:一基板管理模組,用於偵測和接受該兩個或更多個處理器的一健康程度資訊;一多工器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中該多工器操作以在該兩個或更多個處理器間切換;一處理器識別控制器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中回應於該健康程度資料指示該第一個處理器為故障,該處理器識別控制器設定該第二個處理器為該預設啟動處理器且該基板管理模組使得該多工器切換至該第二個處理器;以及一輸入輸出單元,耦合至該多工器,以利於該異動;其中該輸入輸出單元更耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器。
  2. 如請求項1之裝置,更包括:一輸入輸出裝置。
  3. 如請求項2之裝置,更包括:一實時控制管理模組耦合到該基板管理模組以及 分別耦合到該兩個或更多個處理器,用於使得該基板管理模組存取該健康程度資訊;以及一基本輸入輸出系統(BIOS),用於對於該兩個或更多個處理器進行啟動。
  4. 如請求項3之裝置,其中該實時控制管理模組藉由一數位互聯分別耦合到該兩個或更多個處理器,該數位互聯包括PECI(Platform Environmental Control Interface)匯流排或RAPL(running average power limit)匯流排。
  5. 如請求項3之裝置,其中該偵測包括:藉由該基板管理模組接收自該基本輸入輸出系統而來的開機自行檢測完成指令;以及藉由該基板管理模組,透過該數位互聯存取該健康程度資訊以確認該第一處理器為故障。
  6. 如請求項3之裝置,其中回應於該第二個處理器被設定為該預設啟動處理器,該基板管理模組觸發一系統重設(system reset)至該輸入輸出單元且該輸入輸出單元送出一處理器重設(CPU reset)至該第一處理器。
  7. 如請求項1之裝置,更包括:第一個處理器插座,用於插置該第一個處理器;以及第二個處理器插座,用於插置該第二個處理器;其中該處理器識別控制器包括一處理器插座識別控制器,用於控制該第一個處理器插座及該第二個處理器插座間 的切換。
  8. 如請求項2之裝置,其中該處理器互連包括QPI(quick path interconnection)匯流排,其中該輸入輸出單元包括輸入輸出集線器,或其中該輸入輸出裝置包括一顯示裝置,一儲存裝置,及/或一鍵盤裝置。
  9. 一種用於處理一多處理器資訊處理系統之一故障處理器的方法,該多處理器資訊處理系統包含以處理器互連的兩個或更多個處理器以利於該等處理器的異動,該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器,該方法包括:藉由一基板管理模組以偵測和接受該兩個或更多個處理器的一健康程度資訊;提供一多工器以在該兩個或更多個處理器間進行切換,其中該多工器耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器;回應於該健康程度資料指示該第一個處理器為故障,藉由一處理器識別控制器設定該第二個處理器為該預設啟動處理器且藉由該基板管理模組使得該多工器切換至該第二個處理器;以及回應於該第二個處理器被設定為該預設啟動處理器,該基板管理模組觸發一系統重設至一輸入輸出單元且該輸入輸出單元送出一處理器重設至該第一處理器,其中該輸入輸出單元耦合至該多工器,該基板管理 模組,及分別耦合到該兩個或更多個處理器。
  10. 如請求項9之方法,其中該系統更包括:一輸入輸出裝置,耦合至該輸入輸出單元;一實時控制管理模組耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,用於使得該基板管理模組存取該健康程度資訊;以及一基本輸入輸出系統,用於對於該兩個或更多個處理器進行啟動。
  11. 如請求項10之方法,其中該實時控制管理模組藉由一數位互聯分別耦合到該兩個或更多個處理器,該數位互聯包括PECI匯流排或RAPL匯流排。
  12. 如請求項10之方法,更包括:藉由該基板管理模組接收自該基本輸入輸出系統而來的開機自行檢測完成指令;以及藉由該基板管理模組,透過該數位互聯存取該健康程度資訊以確認該第一處理器為故障。
  13. 如請求項9之方法,其中該系統更包括:第一個處理器插座,用於插置該第一個處理器;以及第二個處理器插座,用於插置該第二個處理器;其中該處理器識別控制器包括一處理器插座識別控制器,用於控制該第一個處理器插座及該第二個處理器插座間的切換。
  14. 一種多處理器資訊處理系統,包括:兩個或更多個處理器,該兩個或更多個處理器包括一第一處理器和一第二個處理器,該第一處理器被設定為一預設啟動處理器;處理器互連,互連該兩個或更多個處理器;一基板管理模組,用於偵測和接受該兩個或更多個處理器的一健康程度資訊;一多工器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中該多工器操作以在該兩個或更多個處理器間切換;以及一處理器識別控制器,耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,其中回應於該健康程度資料指示該第一個處理器為故障,該處理器識別控制器設定該第二個處理器為該預設啟動處理器且該基板管理模組使得該多工器切換至該第二個處理器;以及一輸入輸出單元,耦合至該多工器,以利於該異動;其中該輸入輸出單元更耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器。
  15. 如請求項14之系統,更包括:一輸入輸出裝置,耦合至該輸入輸出單元;一實時控制管理模組耦合到該基板管理模組以及分別耦合到該兩個或更多個處理器,用於使得該基板管理模組存取該健康程度資訊;一基本輸入輸出系統,用於對於該兩個或更多個處 理器進行啟動;第一個處理器插座,用於插置該第一個處理器;以及第二個處理器插座,用於插置該第二個處理器;其中該處理器識別控制器包括一處理器插座識別控制器,用於控制該第一個處理器插座及該第二個處理器插座間的切換。
  16. 如請求項15之系統,其中該實時控制管理模組藉由一數位互連分別耦合到該兩個或更多個處理器;其中該偵測包括:藉由該基板管理模組接收自該基本輸入輸出系統而來的開機自行檢測完成指令;以及藉由該基板管理模組,透過該數位互聯存取該健康程度資訊以確認該第一處理器為故障。
  17. 如請求項15之系統,其中回應於該第二個處理器被設定為該預設啟動處理器,該基板管理模組觸發一系統重設至該輸入輸出單元且該輸入輸出單元送出一處理器重設至該一第一處理器。
TW99146950A 2010-12-30 2010-12-30 處理一多處理器資訊處理系統之一故障處理器的裝置及方法 TWI446161B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW99146950A TWI446161B (zh) 2010-12-30 2010-12-30 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
US13/309,598 US8898517B2 (en) 2010-12-30 2011-12-02 Handling a failed processor of a multiprocessor information handling system
US13/541,374 US8892944B2 (en) 2010-12-30 2012-07-03 Handling a failed processor of multiprocessor information handling system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99146950A TWI446161B (zh) 2010-12-30 2010-12-30 處理一多處理器資訊處理系統之一故障處理器的裝置及方法

Publications (2)

Publication Number Publication Date
TW201227269A TW201227269A (en) 2012-07-01
TWI446161B true TWI446161B (zh) 2014-07-21

Family

ID=46381885

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99146950A TWI446161B (zh) 2010-12-30 2010-12-30 處理一多處理器資訊處理系統之一故障處理器的裝置及方法

Country Status (2)

Country Link
US (2) US8898517B2 (zh)
TW (1) TWI446161B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI727323B (zh) * 2019-01-30 2021-05-11 鴻齡科技股份有限公司 返修板檢測裝置、方法及電腦可讀取存儲介質
TWI791876B (zh) * 2018-10-08 2023-02-11 南韓商三星電子股份有限公司 半導體裝置及半導體系統
US11829480B2 (en) 2022-04-20 2023-11-28 Quanta Computer Inc. Remote access of system register configuration

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI529525B (zh) * 2010-04-30 2016-04-11 聯想企業解決方案(新加坡)有限公司 處理系統錯誤之方法及系統
CN102736967A (zh) * 2011-04-13 2012-10-17 鸿富锦精密工业(深圳)有限公司 看门狗计时器测试系统及方法
US8839040B2 (en) * 2011-12-21 2014-09-16 Inventec Corporation Computer system and detecting-alarming method thereof
TW201401098A (zh) * 2012-06-18 2014-01-01 Hon Hai Prec Ind Co Ltd 固件驗證方法及系統
CN103631685A (zh) * 2012-08-29 2014-03-12 鸿富锦精密工业(深圳)有限公司 故障自检系统及方法
TW201417536A (zh) * 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統
CN103810063B (zh) * 2012-11-06 2017-05-10 浙江艺迅装饰设计工程有限公司 电脑测试系统及方法
US20140223066A1 (en) * 2013-02-06 2014-08-07 Advanced Micro Devices, Inc. Multi-Node Management Mechanism
TW201436503A (zh) * 2013-03-06 2014-09-16 Hon Hai Prec Ind Co Ltd 伺服器控制系統及方法
TWI551983B (zh) * 2013-06-28 2016-10-01 技嘉科技股份有限公司 多中央處理單元系統之偵錯切換方法
WO2015042925A1 (zh) * 2013-09-29 2015-04-02 华为技术有限公司 服务器的控制方法和服务器的控制设备
CN105446833B (zh) * 2013-09-29 2020-04-14 华为技术有限公司 服务器的控制方法和服务器的控制设备
EP3111334B1 (en) * 2014-02-28 2020-01-22 Hewlett-Packard Development Company, L.P. Computing system control
CN105335276A (zh) * 2014-06-13 2016-02-17 联想(北京)有限公司 一种故障检测方法以及电子设备
SG11201607545PA (en) * 2014-06-24 2016-10-28 Huawei Tech Co Ltd Fault processing method, related apparatus, and computer
US9712382B2 (en) * 2014-10-27 2017-07-18 Quanta Computer Inc. Retrieving console messages after device failure
MY170745A (en) * 2014-12-15 2019-08-27 Intel Corp Universal scalable system: on-the-fly system performance conversion via pc-on-a-card and usb for smart devices and iot enabling
US9575894B1 (en) * 2015-03-27 2017-02-21 EMC IP Holding Company LLC Application aware cache coherency
CN106484441B (zh) * 2015-08-26 2020-02-28 鸿富锦精密电子(天津)有限公司 控制器初始化方法及应用该方法的电子装置
CN106936616B (zh) * 2015-12-31 2020-01-03 伊姆西公司 备份通信方法和装置
EP3764234B1 (en) * 2016-10-31 2022-06-29 Huawei Technologies Co., Ltd. Method and enable apparatus for starting physical device
JP2018094720A (ja) * 2016-12-08 2018-06-21 キヤノン株式会社 電子機器
US11294749B2 (en) * 2017-12-30 2022-04-05 Intel Corporation Techniques to collect crash data for a computing system
US10853512B2 (en) * 2018-05-03 2020-12-01 Dell Products L.P. System and method of operating an information handling system with a management controller
US10831606B2 (en) * 2018-09-19 2020-11-10 Hewlett Packard Enterprise Development Lp Automatic diagnostic mode to determine potential cause of boot problem
US10866623B2 (en) * 2018-11-16 2020-12-15 Dell Products L.P. Information handling system and method to detect and recover from no power/no post failures
US11157439B2 (en) 2019-07-25 2021-10-26 Western Digital Technologies, Inc. Method for delaying fundamental reset in power loss protection (PLP) enabled devices
US11663111B2 (en) * 2020-01-02 2023-05-30 Texas Instruments Incorporated Integrated circuit with state machine for pre-boot self-tests
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency
CN112783438B (zh) * 2020-12-24 2024-01-16 展讯半导体(成都)有限公司 功能手机的存储器使用方法及相关产品
CN113342613A (zh) * 2021-06-25 2021-09-03 深圳市商汤科技有限公司 数据处理装置、方法、计算机设备及存储介质
CN113625624A (zh) * 2021-07-29 2021-11-09 南京长峰航天电子科技有限公司 一种通用基板管理控制系统及控制方法
US11775314B2 (en) * 2021-11-02 2023-10-03 Quanta Computer Inc. System and method for BMC and BIOS booting using a shared non-volatile memory module

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860002A (en) * 1996-07-12 1999-01-12 Digital Equipment Corporation System for assigning boot strap processor in symmetric multiprocessor computer with watchdog reassignment
US5790850A (en) * 1996-09-30 1998-08-04 Intel Corporation Fault resilient booting for multiprocessor computer systems
US6836367B2 (en) 2001-02-28 2004-12-28 Japan Aviation Electronics Industry, Limited Optical touch panel
US7603551B2 (en) * 2003-04-18 2009-10-13 Advanced Micro Devices, Inc. Initialization of a computer system including a secure execution mode-capable processor
US9219729B2 (en) * 2004-05-19 2015-12-22 Philip Drope Multimedia network system with content importation, content exportation, and integrated content management
CN101137956A (zh) 2005-03-10 2008-03-05 皇家飞利浦电子股份有限公司 用于检测与触摸屏显示器交互的多个对象的位置、大小和形状的系统和方法
US7856545B2 (en) * 2006-07-28 2010-12-21 Drc Computer Corporation FPGA co-processor for accelerated computation
WO2008154792A1 (fr) 2007-06-15 2008-12-24 Vtron Technologies Ltd. Ecran tactile infrarouge et procédé de positionnement tactile multipoint
CN100527066C (zh) 2007-06-15 2009-08-12 广东威创视讯科技股份有限公司 一种红外线触摸屏及其多点触摸定位方法
CN100485595C (zh) 2007-07-25 2009-05-06 广东威创视讯科技股份有限公司 一种触摸屏装置与多点触摸定位方法
US8640133B2 (en) * 2008-12-19 2014-01-28 International Business Machines Corporation Equal duration and equal fetch operations sub-context switch interval based fetch operation scheduling utilizing fetch error rate based logic for switching between plurality of sorting algorithms
US8751682B2 (en) * 2010-09-27 2014-06-10 Z124 Data transfer using high speed connection, high integrity connection, and descriptor

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI791876B (zh) * 2018-10-08 2023-02-11 南韓商三星電子股份有限公司 半導體裝置及半導體系統
TWI727323B (zh) * 2019-01-30 2021-05-11 鴻齡科技股份有限公司 返修板檢測裝置、方法及電腦可讀取存儲介質
US11829480B2 (en) 2022-04-20 2023-11-28 Quanta Computer Inc. Remote access of system register configuration
TWI824558B (zh) * 2022-04-20 2023-12-01 廣達電腦股份有限公司 用以存取資料之方法

Also Published As

Publication number Publication date
US8892944B2 (en) 2014-11-18
US20120173922A1 (en) 2012-07-05
US8898517B2 (en) 2014-11-25
US20120278653A1 (en) 2012-11-01
TW201227269A (en) 2012-07-01

Similar Documents

Publication Publication Date Title
TWI446161B (zh) 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US9158628B2 (en) Bios failover update with service processor having direct serial peripheral interface (SPI) access
US9122810B2 (en) System and method for providing input/output functionality to a processing node
US9477564B2 (en) Method and apparatus for dynamic node healing in a multi-node environment
JP6034990B2 (ja) サーバ制御方法及びサーバ制御装置
US9329885B2 (en) System and method for providing redundancy for management controller
US8782469B2 (en) Request processing system provided with multi-core processor
US11132314B2 (en) System and method to reduce host interrupts for non-critical errors
US7984219B2 (en) Enhanced CPU RASUM feature in ISS servers
TWI576706B (zh) 用於早期啟動階段之方法及相關裝置
US11144326B2 (en) System and method of initiating multiple adaptors in parallel
US8032791B2 (en) Diagnosis of and response to failure at reset in a data processing system
JP2004302731A (ja) 情報処理装置および障害診断方法
TWI772024B (zh) 減少停機時間的方法及系統
US8527816B2 (en) Identifying a defective adapter
TWI529525B (zh) 處理系統錯誤之方法及系統
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
US20240012651A1 (en) Enhanced service operating system capabilities through embedded controller system health state tracking
TWI809773B (zh) 基板管理控制器系統及其訊息記錄方法
KR101469059B1 (ko) 내고장성 향상 시스템 및 그 구동 방법
US10241875B2 (en) Switching initial program load responsibility when components fail
CN116627702A (zh) 虚拟机的宕机重启方法及装置
TW202038093A (zh) 用於監控基板管理控制器之常駐程序的方法