TW201405352A - 用於作業系統未知硬體驗證的系統與方法 - Google Patents

用於作業系統未知硬體驗證的系統與方法 Download PDF

Info

Publication number
TW201405352A
TW201405352A TW102122711A TW102122711A TW201405352A TW 201405352 A TW201405352 A TW 201405352A TW 102122711 A TW102122711 A TW 102122711A TW 102122711 A TW102122711 A TW 102122711A TW 201405352 A TW201405352 A TW 201405352A
Authority
TW
Taiwan
Prior art keywords
hardware
verification test
processor
management processor
hardware verification
Prior art date
Application number
TW102122711A
Other languages
English (en)
Other versions
TWI522834B (zh
Inventor
Suhas Shivanna
Original Assignee
Hewlett Packard Development Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co filed Critical Hewlett Packard Development Co
Publication of TW201405352A publication Critical patent/TW201405352A/zh
Application granted granted Critical
Publication of TWI522834B publication Critical patent/TWI522834B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/263Generation of test inputs, e.g. test vectors, patterns or sequences ; with adaptation of the tested hardware for testability with external testers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Stored Programmes (AREA)

Abstract

在一運算系統中用於執行作業系統(OS)未知硬體驗證的一種系統和方法被揭露。在一示例中,由一管理處理器引發一種硬體驗證測試。此外,由該管理處理器基於該硬體驗證測試獲得輸入參數。再者,由該管理處理器基於該硬體驗證測試和該等輸入參數來決定硬體裝置。除此之外,由該管理處理器發送出一請求給一系統處理器以在該等硬體裝置上執行該硬體驗證測試。並且,由該系統處理器引發在一系統韌體(SFW)中相關的特定於硬體的運行時驅動程式來在該等硬體裝置上執行該硬體驗證測試。而且,由該系統處理器把該硬體驗證測試的結果傳回給該管理處理器。

Description

用於作業系統未知硬體驗證的系統與方法
本發明係有關於用於作業系統未知硬體驗證的系統與方法。
發明背景
在典型的情況下,硬體驗證工具有助於檢測出在運算系統中潛在的缺陷並降低支援成本。此外,在企業級的伺服器、儲存和網路設備之中,已有許多的硬體驗證工具,使用不同的演算法,可用來測試硬體裝置。舉例來說,不同類型的伺服器有它們自己的一套具有不同用戶介面和演算法的硬體驗證工具來測試硬體裝置。一般來說,這些硬體測試解決方案和驗證工具可以被歸類為基於作業系統(OS)的解決方案,也被稱為線上硬體診斷工具,和使用一種精簡內核來啟動之基於離線的診斷解決方案。
由於伺服器廠商支援一種多重OS策略,該等基於OS的解決方案對於每一支援的OS都需要有一硬體驗證工具。這意味著要增加開發和維護成本以支援在不同OS上的硬體測試解決方案。此外,當一系統無法啟動到該OS或一個統一的可擴展韌體介面(UEFI)外殼時,目前的解決方 案都需要啟動到一種離線診斷環境中。如此基於離線的診斷解決方案可能會導致額外的停機時間,並在許多情況下需要修改配置以啟動到一個硬體裝置,該硬體裝置包含該內核和該等所需的硬體診斷工具。
目前,有許多的硬體驗證工具。一種現有的技術是一種基於OS的硬體驗證工具。這是一個OS應用程式,通常需要被移植到所有支援的OS處。然而,當一台伺服器無法啟動時,這種解決方案就無法工作了。另一種現有的技術是使用一種基於可擴展韌體介面(EFI)的硬體驗證工具。然而,在典型的情況下,當一台伺服器被完全啟動時,或是當該伺服器無法啟動到該EFI時,這種基於EFI的硬體驗證工具就無法被使用了。還有另一種現有的離線診斷硬體驗證工具需要使用駐留在一磁碟或一通用序列匯流排(USB)裝置上的一種不同的映像檔來啟動,但其可能還需要額外的管理負擔和用戶配置。一種現有的技術使用一種硬體檢驗韌體來驗證原型,其需要一種不同的韌體,並且被設計成主要是在原型驗證的那段期間工作。
依據本發明之一實施例,係特地提出一種在一運算系統中執行作業系統(OS)未知硬體驗證的方法,其包含:由一管理處理器引發一硬體驗證測試;由該管理處理器基於該引發的硬體驗證測試獲得輸入參數;由該管理處理器基於該引發的硬體驗證測試和該等所獲得的輸入參數來決定一個或多個硬體裝置;由該管理處理器發送一請求 給該系統處理器以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;由該系統處理器引發駐留在一系統韌體(SFW)中相關的一個或多個特定於硬體的運行時驅動程式以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;以及由該系統處理器把該硬體驗證測試的結果傳回給該管理處理器。
100‧‧‧一示例流程圖
102~112‧‧‧方塊
200‧‧‧一示例方塊圖
202‧‧‧運算系統
204‧‧‧管理處理器
206‧‧‧管理處理器韌體
208‧‧‧OS未知硬體驗證模組
210‧‧‧硬體自我測試管理器
212‧‧‧分析引擎
214‧‧‧硬體健康狀況資料庫
216‧‧‧平台硬體空間關係資料儲存庫
218‧‧‧系統韌體介面層
220‧‧‧共享記憶體
222‧‧‧系統記憶體
224‧‧‧系統處理器
226‧‧‧系統韌體
228‧‧‧恢復模組
230‧‧‧特定於硬體的運行時驅動程式
232‧‧‧風扇
234‧‧‧處理器記憶體
236‧‧‧I/O介面卡
238‧‧‧電源供應器
240‧‧‧作業系統
242‧‧‧資源使用率數據運算模組
本發明的示例現在將詳細地進行說明,請參照所附圖示,其中:圖1展示出在一運算系統中用於執行作業系統(OS)未知硬體驗證的一種方法的一示例流程圖;而圖2展示出一個用於實現如圖1所示之OS未知硬體驗證的示例方塊圖,其包含該運算系統的主要組件和它們之間的互連性。
本發明所描述的附圖僅用於說明目的,並沒有意圖要以任何的方式來限制本發明所揭露的範疇。
詳細說明
用於作業系統(OS)未知硬體驗證的一種系統和方法被揭露。在以下對於本標的其示例的詳細說明中,有參考到形成本發明之一部分的附圖,其中所展示出之特定示例的圖說正是本標的可被實施的方式。這些示例被說明的清楚程度足以使得在該領域中的技術人員可以實施本標的,但是應當要被理解的是,其他的示例可被使用而且可 以在不脫離本標的其範疇的情況下做更改。因此,以下的詳細說明並不能以一種限制的意義來看待,而本標的其範疇是由所附之申請專利範圍來定義的。
第1圖展示出在一運算系統中用於執行OS未知硬體驗證的一種方法的一個示例流程圖100。在方塊102,由一管理處理器引發一硬體驗證測試。在一示例性的實施方式中,在該運算系統中經由共享記憶體或一實體的內部處理器通信(IPC)介面,該管理處理器被通信地耦合到一系統處理器。舉例來說,該實體的IPC介面包含一使用IPC的乙太網路介面,諸如基座等等。在該環境下,要在一個或多個硬體裝置上執行的該硬體驗證測試是使用一種基於該運算系統和相關硬體裝置其健康狀況和使用率數據的演算法來選擇的。在方塊104,由該管理處理器基於該引發的硬體驗證測試獲得輸入參數。
在方塊106,在該運算系統中的該一個或多個硬體裝置,和在該等硬體裝置上要被執行之測試的性質,是由該管理處理器基於該引發的硬體驗證測試和所獲得的輸入參數來決定的。舉例來說,該等硬體裝置、硬體驗證測試的類型和壓力水平,是基於在該運算系統中該選擇的硬體裝置其空間關係數據來自動選擇的。該壓力水平乃根據當前使用率數據和由歷史使用率數據所預測之未來使用率數據這兩者來決定的。舉例來說,該空間關係數據被定義在一個系統設計時框中,其提供在該運算系統不同的子系統之間的硬體鏈結。
在方塊108,基於在該等硬體裝置上要被執行之該等測試的性質,經由該共享記憶體或實體的IPC介面,由該管理處理器發送一請求給該系統處理器以在該等決定的硬體裝置上執行該硬體驗證測試。在方塊110,一旦接收到從該管理處理器傳送來要執行該硬體驗證測試的請求,由該系統處理器引發在一系統韌體(SFW)中相關的一個或多個特定於硬體的運行時驅動程式以在該決定的一個或多個硬體裝置上執行該硬體驗證測試。參考第2圖,這會被更詳細地解釋。在方塊112,經由一種使用該共享記憶體或實體IPC介面的請求/回應協定,該系統處理器會把該硬體驗證測試的結果傳回給該管理處理器。
在一實施例中,假如該OS並沒有運行而且該運算系統並不是處於一可啟動狀態,則該管理處理器會檢測到一種不可啟動的運算系統狀態。此外,一旦該管理處理器檢測到該不可啟動的運算系統狀態,適當的旗號會被設定在該共享記憶體中以對該SFW指出有一種恢復模組的需求。再者,該設定的適當旗號會被該SFW檢測出以繞過正常啟動並載入一恢復韌體卷的一映像檔,該恢復韌體卷包含用於該硬體驗證之一個或多個特定於硬體的運行時驅動程式。除此之外,一發生故障之硬體裝置的判定是藉由該管理處理器在該等硬體裝置的每一個上執行該硬體驗證測試。並且,該判定發生故障的硬體裝置會由該管理處理器解除配置。而且,該設定的適當旗號會被重設以從該恢復韌體卷啟動而該運算系統該會由該管理處理器重新啟動。
在另一實施例中,當該OS正在運行而且一位支援工程師想要執行一種事前性的硬體驗證測試,該硬體驗證測試會被該管理處理器剖析成一些較小型的硬體驗證測試。舉例來說,該等較小型的硬體驗證測試都是非破壞性的測試,諸如記憶體的唯讀測試、儲存脈絡測試、用於恢復脈絡策略的中央處理單元(CPU)測試等等。另外,每一個該等較小型的硬體驗證測試都是由該管理處理器使用一種SFW和可管理韌體(MFW)請求/回應協定事前性地、週期性地在該等決定的硬體裝置上執行。舉例來說,基於從該OS處所得到的使用率數據,每一個該等較小型的硬體驗證測試都是事前性地、週期性地在該等決定的硬體裝置上執行,以減少來自該硬體驗證測試的效能衝擊。該使用率數據包含運算系統負載數據等等。該管理處理器採用一種智能演算法,該演算法基於從該OS所獲得的使用率數據在負載較少時使用週期竊用技術來為該硬體驗證測試排程,從而降低了一客戶應用程式的效能退化。
又在另一實施例中,當該OS需要支援執行該硬體驗證測試時,該OS需要登錄一中斷處理程序,該管理處理器使用一種進階配置和電源介面通用事件(ACPI GPE)機制從該OS引發該硬體驗證測試來中斷該OS。此外,該登錄的中斷處理程序會引發適當之特定於硬體的統一可擴展韌體介面(UEFI)運行時驅動程式來執行該硬體驗證測試。再者,該硬體驗證測試是在該等硬體裝置上執行。除此之外,經由使用該請求/回應協定的該共享記憶體,該硬體驗證測 試的結果會傳回給該管理處理器。
現在參看第2圖,它是一個示例方塊圖200,其包含一運算系統202的主要組件和它們之間的互連性,其用於實現如第1圖所示之OS未知硬體驗證。如第2圖所示,該運算系統202包含一管理處理器204、共享記憶體220、系統記憶體222、一系統處理器224、一系統韌體(SFW)226、風扇232、處理器記憶體234、輸入/輸出(I/O)介面卡236、和一電源供應器238。此外,該管理處理器204包含一個管理處理器韌體206。再者,該管理處理器韌體206包含一個OS未知硬體驗證模組208。除此之外,該OS未知硬體驗證模組208包含一個硬體自我測試管理器(HSTM)210、一個分析引擎212用以事前判定該運算系統202的健康狀況、一個包含有該運算系統202中所有硬體裝置其當前健康狀況的硬體健康狀況資料庫214、一個包含有在該運算系統202中不同硬體裝置之間關係資訊的平台硬體空間關係資料儲存庫216、和一個SFW介面層218。而且,該SFW 226包含一個恢復模組228和特定於硬體的運行時驅動程式230。並且,該系統記憶體222包含一個OS 240。此外,該OS 240包含一個資源使用率數據運算模組242。
再者,經由該共享記憶體220或是一實體的IPC介面,該管理處理器韌體206被通信地耦合到該系統處理器224。除此之外,該系統處理器224被通信地耦合到該SFW 226、該系統記憶體222和該SFW介面層218。並且,該SFW 226被通信地耦合到風扇232、處理器記憶體234、I/O介面 卡236、以及電源供應器238。該SFW 226被通信地耦合到風扇232和電源供應器238,即使該風扇232和該電源供應器238是由該管理處理器204直接控制。而且,該HSTM 210被耦合到該分析引擎212、平台硬體空間關係資料儲存庫216,和SFW介面層218。此外,該分析引擎212被耦合到該硬體健康狀況資料庫214。再者,該系統記憶體222被耦合到該管理處理器韌體206。
在運作中,該HSTM 210引發一硬體驗證測試。舉例來說,該HSTM 210啟動和管理在不同硬體裝置上硬體驗證測試的引發,並且可以被配置成自動模式或是手動模式。在該環境中,該HSTM 210使用一種演算法來選擇要在一個或多個硬體裝置上執行的該硬體驗證測試,該演算法是基於該運算系統202和相關硬體裝置的健康狀況和使用率數據,而該等資料是得自於硬體健康狀況資料庫214和資源使用率數據運算模組242。該資源使用率數據運算模組242傳送該使用率數據給該HSTM 210是經由一種頻內介面,諸如一智能平台管理介面(IPMI)等等。舉例來說,該硬體裝置包含風扇232、處理器記憶體234、I/O介面卡236、電源供應器238等等。在某些情況下,該等硬體裝置,諸如風扇232和電源供應器238是由該管理處理器204直接控制。在預設的情況下,當該OS 240運行,執行一商業應用程式時,該HSTM 210會關閉該硬體驗證測試的自動引發。在手動模式下,該HSTM 210提供了一個用戶介面來引發該硬體驗證測試。
此外,該HSTM 210基於該引發的硬體驗證測試獲得輸入參數。再者,基於該引發的硬體驗證測試和該等獲得的輸入參數,該HSTM 210決定在該運算系統202中的該一個或多個硬體裝置,和在該等硬體裝置上要被執行測試的性質。在自動模式下,該HSTM 210支援不同類型的測試(舉例來說,週期性的、基於事件的等等)並且使用該運算系統202的一種條件和狀態是來配置一些適當的政策。在一示例的實現方式中,該HSTM 210會基於在該運算系統202中所選擇的硬體裝置其空間關係數據來自動選擇該等硬體裝置、測試的類型和壓力水平,而該數據是取自於平台硬體空間關係資料儲存庫216。舉例來說,該HSTM 210會基於當前使用率數據和由歷史使用率數據所預測的未來使用率數據這兩者來決定該壓力水平。舉例來說,該空間關係數據被定義在一個系統設計時框中,其提供在該運算系統202不同子系統之間的硬體鏈結。在該手動模式中,該用戶介面允許輸入參數的選擇,像是硬體裝置類型、測試類型、壓力水平等等。
除此之外,基於在該等硬體裝置上要被執行該等測試的性質,經由使用該共享記憶體220或該實體的IPC介面的一種請求/回應協定,該HSTM 210會發送一請求給該系統處理器224以在該等決定的硬體裝置上執行該硬體驗證測試。在一案例中,該HSTM 210傳送出在該共享記憶體220中的參數並觸發一電源管理中斷/系統管理中斷(PMI/SMI),為其該SFW 226已登錄有一中斷處理程序。並 且,一旦接收到來自該HSTM 210要執行該硬體驗證測試的請求,藉由引發相關的一個或多個特定於硬體的運行時驅動程式230,該SFW 226會在該決定的硬體裝置上執行該硬體驗證測試。該等特定於硬體的運行時驅動程式230包含有用來支援正常啟動帶有UEFI運行時驅動程式的韌體卷。而且,經由使用該共享記憶體220或該實體IPC介面的該請求/回應協定,該系統處理器224會把該等硬體驗證測試的結果傳回給該HSTM 210。舉例來說,該系統處理器224將該等結果傳給該HSTM 210是經由管理處理器通用I/O(MP GPIO)接腳,其使用一種中斷機制,諸如一種管理處理器中斷機制。當該硬體驗證測試數據和結果在該系統管理處理器204和該系統處理器224之間傳送時會被集結/解集結。
在一實施例中,假如該OS 240並沒有運行而且該運算系統202並不是處於一可啟動狀態,則該HSTM 210會使用該分析引擎212檢測到一種不可啟動的運算系統狀態。此外,一旦檢測到該不可啟動的運算系統狀態,該HSTM 210會設定在該共享記憶體220中適當的旗號以對該SFW 226指出需要該恢復模組228。再者,該SFW 226會檢測出該設定的適當旗號以繞過正常啟動並載入一恢復韌體卷的一映像檔,該恢復韌體卷包含用於該硬體驗證之一個或多個特定於硬體的運行時驅動程式。該恢復模組228包含該恢復韌體卷,其具有執行該硬體驗證測試和以最少功能啟動所需的驅動程式,而且被使用在當該運算系統202處於不可啟動的狀態時。只有當該HSTM 210檢測到該運算系統202 是處於不可啟動的狀態時,該恢復模組228才會被載入。除此之外,該HSTM 210對於一發生故障硬體裝置的判定是藉由在每一個該等硬體裝置上執行該硬體驗證測試。並且,該HSTM 210會為該判定發生故障的硬體裝置解除配置。而且,該HSTM 210會重設該設定的適當旗號以從該恢復韌體卷啟動並且重新啟動該運算系統202。當配置在自動模式下,基於該運算系統202的健康狀況,該HSTM 210會以一種串列化的方式執行一套硬體驗證測試,一次一個子系統和一次一個硬體裝置,並指出發生故障的硬體裝置。在手動模式下,該HSTM 210會等待一位支援工程師或一位管理員提供輸入以執行該所需的硬體驗證測試。
在另一實施例中,當該OS 240正在運行而一位客戶/支援工程師想要執行事前性的硬體驗證測試時,該HSTM 210會把該硬體驗證測試剖析成一些較小型的硬體驗證測試。該等較小型的硬體驗證測試都是非破壞性的測試,諸如記憶體的唯讀測試、儲存脈絡測試、用於恢復脈絡策略的CPU測試等等。另外,該HSTM 210會使用一種SFW和MFW請求/回應協定事前性地、週期性地在該決定的硬體裝置上執行每一個該等較小型的硬體驗證測試。舉例來說,基於從該資源利用率數據運算模組242處所得到的使用率數據,該HSTM 210會事前性地、週期性地在該決定的一個或多個硬體裝置上執行每一個該等較小型的硬體驗證測試,以減少來自該等硬體驗證測試的效能衝擊。舉例來說,該使用率數據包含運算系統負載數據等等。
在又另外一實施例中,當該OS支援執行該硬體驗證測試時,該OS 240需要登錄一中斷處理程序,該HSTM 210從該OS 240使用了一種ACPI GPE機制引發該硬體驗證測試來中斷該OS 240。此外,該登錄的中斷處理程序會引發適當的特定於硬體的UEFI運行時驅動程式來執行該硬體驗證測試。再者,該SFW 226會在該等硬體裝置上執行該硬體驗證測試。除此之外,經由使用該請求/回應協定的該共享記憶體220,該SFW 226會把該硬體驗證測試的結果傳給該管理處理器204。
在各種示例中,在第1圖和第2圖中所描述的該系統和方法提出了OS未知硬體驗證技術。該等OS未知硬體驗證技術使得吾人可基於該運算系統其不同硬體裝置之間的使用率數據、健康狀況數據和空間關係數據來驗證在該運算系統中一個或多個硬體裝置。因此,消除了對該OS的依賴性,並提供一種全面的和最佳化的硬體驗證測試,其滿足許多用戶特定的配置和需求。此外,該上述OS未知硬體驗證技術在該運算系統處於不可啟動狀態時仍可驗證該一個或多個硬體裝置。
雖然一些特定的方法、裝置、和製造商品已經在本發明中描述,但本專利所涵蓋的範疇並不受限於那些描述。相反地,本專利涵蓋了所有無論是在字面上或是在等同原則下落入到所附申請專利範圍內的方法、裝置、以及製造商品。
100‧‧‧一示例流程圖
102~112‧‧‧方塊

Claims (15)

  1. 一種在一運算系統中執行作業系統(OS)未知硬體驗證的方法,其包含:由一管理處理器引發一硬體驗證測試;由該管理處理器基於該引發的硬體驗證測試獲得輸入參數;由該管理處理器基於該引發的硬體驗證測試和該等所獲得的輸入參數來決定一個或多個硬體裝置;由該管理處理器發送一請求給一系統處理器以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;由該系統處理器引發駐留在一系統韌體(SFW)中相關的一個或多個特定於硬體的運行時驅動程式以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;以及由該系統處理器把該硬體驗證測試的結果發送給該管理處理器。
  2. 如請求項1之方法,更包含:由該管理處理器檢測一種不可啟動的運算系統狀態;一旦該管理處理器檢測到該不可啟動的運算系統狀態,會在該共享記憶體中設定適當的旗號以對該SFW指出有一恢復模組的需求;由該SFW檢測出該等設定的適當旗號以繞過正常啟動並載入一恢復韌體卷的一映像,該恢復韌體卷包含 用於該硬體驗證之一個或多個特定於硬體的運行時驅動程式;由該管理處理器在該一個或多個硬體裝置的每一個上執行該硬體驗證測試以判定一發生故障的硬體裝置;由該管理處理器為該判定發生故障的硬體裝置解除配置;以及由該管理處理器重設該等設定的適當旗號以從該恢復韌體卷啟動並重新啟動該運算系統。
  3. 如請求項2之方法,更包含:由該管理處理器把該硬體驗證測試剖析成相當數量之一些較小型的硬體驗證測試;以及由該管理處理器使用一種SFW和可管理韌體(MFW)請求/回應協定在該決定的一個或多個硬體裝置上事前性地、週期性地執行每一個該等較小型的硬體驗證測試。
  4. 如請求項3之方法,其中該等較小型的硬體驗證測試都是非破壞性的測試,其中該等非破壞性的測試是從由記憶體的唯讀測試、儲存脈絡測試、用於恢復脈絡策略的中央處理單元(CPU)測試所構成的群組中來選出。
  5. 如請求項3之方法,其中在該決定的一個或多個硬體裝置上事前性地、週期性地執行每一個該等較小型的硬體驗證測試,其包含:基於從該OS處所得到的使用率數據,在該決定的一 個或多個硬體裝置上事前性地、週期性地執行每一個該等較小型的硬體驗證測試以減少來自該硬體驗證測試的效能衝擊,其中該使用率數據包含運算系統負載數據。
  6. 如請求項3之方法,更包含:該管理處理器使用一種進階配置和電源介面通用事件(ACPI GPE)機制從該OS引發該硬體驗證測試來中斷該OS,當需要該OS支援以執行該硬體驗證測試時,要求該OS登錄一中斷處理程序;該登錄的中斷處理程序會引發適當的一個或多個特定於硬體的運行時驅動程式來執行該硬體驗證測試;在該決定的一個或多個硬體裝置上執行該硬體驗證測試;以及經由使用一種請求/回應協定的該共享記憶體,傳回該硬體驗證測試的結果給該管理處理器。
  7. 如請求項1之方法,其中由該管理處理器引發該硬體驗證測試之步驟包含:使用一種演算法來選擇要在該決定之一個或多個硬體裝置上執行的該硬體驗證測試,該演算法是基於該運算系統和相關硬體裝置的健康狀況和使用率數據。
  8. 如請求項1之方法,其中決定該一個或多個硬體裝置之步驟包含:基於在該運算系統中所選擇一個或多個硬體裝置之空間關係數據來自動選擇該一個或多個硬體裝置、測 試的類型和壓力水平,其中該空間關係數據被定義在一個系統設計時框中,其提供在該運算系統不同子系統之間的硬體鏈結。
  9. 如請求項8之方法,更包含:基於當前使用率數據和由利用歷史使用率數據所得到之預測的未來使用率數據這兩者來決定該壓力水平。
  10. 如請求項1之方法,其中該實體的IPC介面包含一使用IPC的乙太網路介面。
  11. 一運算系統,其包含:一系統處理器;一通信地耦合到該系統處理器的系統韌體(SFW);耦合到該系統處理器的系統記憶體;一駐留在該系統記憶體中的作業系統(OS);一管理處理器;一駐留在該管理處理器中的管理處理器韌體;以及一駐留在該管理處理器韌體中的OS未知硬體驗證模組,其中該OS未知硬體驗證模組包含一個硬體自我測試管理器(HSTM)、一個分析引擎用以事前判定該運算系統的健康狀況、一個包含有該運算系統中所有硬體裝置之當前健康狀況的硬體健康狀況資料庫、一個包含有在該運算系統中不同硬體裝置之間關係資訊的平台硬體空間關係資料儲存庫和一個系統韌體介面層,其中該HSTM引發一硬體驗證測試,其中該HSTM基於該引發 的硬體驗證測試獲取輸入參數,其中基於該引發的硬體驗證測試和該等獲得的輸入參數,該HSTM決定一個或多個硬體裝置,其中該HSTM會發送一請求給該系統處理器以在該決定的一個或多個硬體裝置上執行該硬體驗證測試,其中藉由引發在SFW中相關的一個或多個特定於硬體的運行時驅動程式,該系統處理器會在該決定的一個或多個硬體裝置上執行該硬體驗證測試,和其中該系統處理器會把該硬體驗證測試的結果傳回給該HSTM。
  12. 如請求項11之系統,其中該HSTM進一步檢測一種不可啟動的運算系統狀態,和其中一旦檢測到該不可啟動的運算系統狀態該HSTM會設定在共享記憶體中適當的旗號以對該SFW指出需要一種該恢復模組。
  13. 如請求項12之系統,其中該SFW會進一步檢測出該設定的適當旗號以繞過正常啟動並載入一恢復韌體卷的一映像,該恢復韌體卷包含用於該硬體驗證之一個或多個特定於硬體的運行時驅動程式。
  14. 如請求項13之系統,其中該HSTM進一步判定一故障的硬體裝置的方式是藉由在該一個或多個硬體裝置的每一個上執行該硬體驗證測試,其中該HSTM會為該判定故障的硬體裝置解除配置和其中該HSTM會重設該設定的適當旗號以從該恢復韌體卷啟動並且重新啟動該運算系統。
  15. 一種用於在一運算系統中執行作業系統(OS)未知硬體 驗證之非暫時性的電腦可讀取的儲存媒體,其具有指令,當由一運算裝置執行該等指令時,會使得該運算裝置進行下列動作:由一管理處理器引發一硬體驗證測試;由該管理處理器基於該引發的硬體驗證測試獲得輸入參數;由該管理處理器基於該引發的硬體驗證測試和所獲得的輸入參數來決定一個或多個硬體裝置;由該管理處理器發送一請求給該系統處理器以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;由該系統處理器引發駐留在一系統韌體(SFW)中相關的一個或多個特定於硬體的運行時驅動程式以在該決定的一個或多個硬體裝置上執行該硬體驗證測試;以及由該系統處理器把該硬體驗證測試的結果傳回給該管理處理器。
TW102122711A 2012-07-17 2013-06-26 用於作業系統未知硬體驗證的系統與方法 TWI522834B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IN2012/000502 WO2014013499A1 (en) 2012-07-17 2012-07-17 System and method for operating system agnostic hardware validation

Publications (2)

Publication Number Publication Date
TW201405352A true TW201405352A (zh) 2014-02-01
TWI522834B TWI522834B (zh) 2016-02-21

Family

ID=49948375

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102122711A TWI522834B (zh) 2012-07-17 2013-06-26 用於作業系統未知硬體驗證的系統與方法

Country Status (5)

Country Link
US (1) US20150220411A1 (zh)
EP (1) EP2875431A4 (zh)
CN (1) CN104737134A (zh)
TW (1) TWI522834B (zh)
WO (1) WO2014013499A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015166510A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
US9626267B2 (en) * 2015-01-30 2017-04-18 International Business Machines Corporation Test generation using expected mode of the target hardware device
US9811492B2 (en) 2015-08-05 2017-11-07 American Megatrends, Inc. System and method for providing internal system interface-based bridging support in management controller
US9519527B1 (en) * 2015-08-05 2016-12-13 American Megatrends, Inc. System and method for performing internal system interface-based communications in management controller
US9996362B2 (en) * 2015-10-30 2018-06-12 Ncr Corporation Diagnostics only boot mode
CN107273245B (zh) * 2017-06-12 2020-05-19 英业达科技有限公司 运算装置与运作方法
KR102286050B1 (ko) * 2017-06-23 2021-08-03 현대자동차주식회사 차량 네트워크에서 진단 오류 방지를 위한 방법 및 장치
CN107577570A (zh) * 2017-09-19 2018-01-12 郑州云海信息技术有限公司 一种应用设备的测试方法及装置
US10981578B2 (en) * 2018-08-02 2021-04-20 GM Global Technology Operations LLC System and method for hardware verification in an automotive vehicle
CN109857611A (zh) * 2019-01-31 2019-06-07 泰康保险集团股份有限公司 基于区块链的硬件测试方法及装置、存储介质和电子设备
US11068035B2 (en) * 2019-09-12 2021-07-20 Dell Products L.P. Dynamic secure ACPI power resource enumeration objects for embedded devices
CN110767257A (zh) * 2019-10-31 2020-02-07 江苏华存电子科技有限公司 一种面向微处理器平台的存储器验证系统
US11544166B1 (en) 2020-05-20 2023-01-03 State Farm Mutual Automobile Insurance Company Data recovery validation test
US11929893B1 (en) 2022-12-14 2024-03-12 Dell Products L.P. Utilizing customer service incidents to rank server system under test configurations based on component priority

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601019B1 (en) * 1999-11-16 2003-07-29 Agilent Technologies, Inc. System and method for validation of objects
US20030005154A1 (en) * 2001-06-29 2003-01-02 Thurman Robert W. Shared routing in a measurement system
US20030004673A1 (en) * 2001-06-29 2003-01-02 Thurman Robert W. Routing with signal modifiers in a measurement system
US6901534B2 (en) * 2002-01-15 2005-05-31 Intel Corporation Configuration proxy service for the extended firmware interface environment
US20040030881A1 (en) * 2002-08-08 2004-02-12 International Business Machines Corp. Method, system, and computer program product for improved reboot capability
US20050033977A1 (en) * 2003-08-06 2005-02-10 Victor Zurita Method for validating a system
US20070234126A1 (en) * 2006-03-28 2007-10-04 Ju Lu Accelerating the testing and validation of new firmware components
US8365294B2 (en) * 2006-06-30 2013-01-29 Intel Corporation Hardware platform authentication and multi-platform validation
CN101196844B (zh) * 2008-01-03 2011-05-25 中兴通讯股份有限公司 一种硬件模块的测试系统及方法
US20110161721A1 (en) * 2009-12-30 2011-06-30 Dominic Fulginiti Method and system for achieving a remote control help session on a computing device
CN102214133A (zh) * 2011-07-22 2011-10-12 苏州工业园区七星电子有限公司 一种计算机硬件快速诊断测试系统
US9372770B2 (en) * 2012-06-04 2016-06-21 Karthick Gururaj Hardware platform validation
US9058184B2 (en) * 2012-09-13 2015-06-16 Vayavya Labs Private Limited Run time generation and functionality validation of device drivers

Also Published As

Publication number Publication date
EP2875431A4 (en) 2016-04-13
CN104737134A (zh) 2015-06-24
TWI522834B (zh) 2016-02-21
EP2875431A1 (en) 2015-05-27
WO2014013499A1 (en) 2014-01-23
WO2014013499A8 (en) 2015-04-16
US20150220411A1 (en) 2015-08-06

Similar Documents

Publication Publication Date Title
TWI522834B (zh) 用於作業系統未知硬體驗證的系統與方法
US10127032B2 (en) System and method for unified firmware management
US11182220B2 (en) Proactive high availability in a virtualized computer system
JP6715356B2 (ja) 部分的にオフロードされた仮想化マネージャにおけるメモリ割当て技術
US10372460B2 (en) System and method for baseboard management controller assisted dynamic early host video on systems with a security co-processor
US20140289570A1 (en) Virtual baseboard management controller
US9753809B2 (en) Crash management of host computing systems in a cluster
US20170031694A1 (en) System and method for remote system configuration managment
US20090249319A1 (en) Testing method of baseboard management controller
US10831467B2 (en) Techniques of updating host device firmware via service processor
US11048570B2 (en) Techniques of monitoring and updating system component health status
US10691468B2 (en) Techniques of retrieving bios data from BMC
US11023586B2 (en) Auto detection mechanism of vulnerabilities for security updates
US11907384B2 (en) Baseboard management controller (BMC) test system and method
US10742496B2 (en) Platform specific configurations setup interface for service processor
US11494289B2 (en) Automatic framework to create QA test pass
US10509656B2 (en) Techniques of providing policy options to enable and disable system components
US10572435B2 (en) Techniques of accessing serial console of BMC using host serial port
US10176142B2 (en) Techniques of accessing BMC terminals through serial port
US11212269B2 (en) Secure remote online debugging of firmware on deployed hardware
US11593121B1 (en) Remotely disabling execution of firmware components
Sakthikumar et al. White Paper A Tour beyond BIOS Implementing the ACPI Platform Error Interface with the Unified Extensible Firmware Interface
US10108436B2 (en) Techniques for bridging BIOS commands between client and host via BMC
JP7389877B2 (ja) ネットワークの最適なブートパスの方法及びシステム
US20240211602A1 (en) Bmc based hrot implementation establishing chain of trust in a secured server system

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees