TWI225198B - Method for optimal system availability via resource recovery - Google Patents

Method for optimal system availability via resource recovery Download PDF

Info

Publication number
TWI225198B
TWI225198B TW090118659A TW90118659A TWI225198B TW I225198 B TWI225198 B TW I225198B TW 090118659 A TW090118659 A TW 090118659A TW 90118659 A TW90118659 A TW 90118659A TW I225198 B TWI225198 B TW I225198B
Authority
TW
Taiwan
Prior art keywords
resource
resources
deallocated
patent application
item
Prior art date
Application number
TW090118659A
Other languages
English (en)
Inventor
John Kwangil Chang
Alongkorn Kitamorn
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TWI225198B publication Critical patent/TWI225198B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Stored Programmes (AREA)

Description

1225198 A7 B7 五、發明説明(j ) 本發明和第____號申請案之發明名稱“處理系統中啟動 時間内使記憶體退出配置的方法和系統” (METHOD AND SYSTEM FOR BOOT - TIME DECOFIGURATION OF A MEMORY IN A PROCESSING SYSTEM) 6勺共同未決美國專 利申請號____申請案(IBM文檔號AT9— 98— 830)、第____ 號申請案之發明名稱“對稱多處理系統中啟動時間内使處 理器退出配置的方法和系統” (METHOD AND SYSTEM FOR BOOT — TIME DECONFIGURATION OF A PROCESSOR IN A SYMMETRICAL MULTI—PROCESSING SYSTEM)的共 同未決美國專利申請號____申請案(IBM文檔號AT9 — 98 — 320)以及第____號申請案之發明名稱“最佳化遠端程序呼 叫的方法和系統” (METHOD AND SYSTEM FOR OPTIMIZING REMOTE PROCEDURE CALLS )的美國專利申 請號____申請案(IBM文檔號AUS990835US1)相關。上述共 同讓與且共同未決的美國專利申請係以引用的方式併入本 文中,用於各種用途。 技術領域 本發明一般地涉及資料處理系統,尤其涉及在啟動時間 對資料處理系統提供最佳的最小系統配置。 相關技藝之描述 資料處理系統經常遭受硬體故障。一些資料處理系統, 例如紐約州Armonk市的國際商業機器公司的一種產品 RS/6000,提供根據某特定硬體先前的故障歷史預測硬體故 障的特性並且當這種資源處理器或記憶體單元下提供能使 -4- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 1225198 A7 __B7 五、發明説明(2 ) ^ 匕退出配置或者解除分配的特性。在RS/ 6000中,這此b能力 是通過記憶體Repeat Gard和CPU Repeat Gard特性提供的。這 樣,若知道某具體資源要出故障,可以首先不再使用它。 通過不配置這些壞的硬體資源和不在資料處理系統使用它 們,可使系統達到更高的可用性。 然而,系統可能在時間上突然地或者逐漸地遭受過度的 硬體故障,使它所具有的配置少於啟動該系統所需的最小 硬體配置。為了防止這種不希望的情況,在一些平臺上, 不能使要出故障的最後硬體資源退出配置。當不解除該最 後資源的分配時,可能不能對該系統提供最佳可用性。這 樣,當該最後的資源實際上確實要遭受故障時,不允許對 它解除配置。從而,該系統必須試圖盡全部可能在該資源 上並且僅在該資源上運行。然而,可能存在其他先前退出 配置的並且遭受的故障不那麼嚴重的資源,從而它們是在 其上運行系統的更好候選者。因此需要一種方法、系統和 裝置’以在啟動系統的最小配置中所需的系統資源出故障 時對系統提供最佳的可用性。 發明總結 本發明提供一種方法、系統和裝置,用於修復系統資源 以在資料處理系統中提供最小系統配置。在一實施例中, '貝料處理系統中的一個韌體元件在初始程式載入期間確定 已出故障的第一資源。接著對該第一資源解除分配。回應 判斷出j資源的解除分配造成小於操作資料處理系統的最 J系統配置’该勃體元件確定多個解除分配資源中的哪個 裝 訂
線 -5-
1225198 A7 B7 五、發明説明(c ) 5 區,從而無需附加硬碟。然而,若需要,可使用附加的硬 碟。 熟習此技藝之人士會理解圖1中描述的硬體可以改變。例 如,還可補充地或替代所示硬體地使用其他週邊裝置,例 如光碟驅動器等。另外,本發明並不限於在多處理器系統 上實現,而是也可實現在其他類型的資料處理系統上。所 描述的例子不意味著對本發明含有體系結構限制。 圖2是在其中可依據本發明解除對CPU的分配的對稱多處 理器(SMP)資料處理系統200的方塊圖。資料處理系統200例 如可按圖1中的資料處理系統100實現。可看出,資料處理 系統200包括多個CPU 212以及記憶體238。這些CPU 2 12和 如非揮發性隨機存取記憶體(NVRAM) 214的含有有關的系統 資訊的非揮發性元件通信。服務處理器216包括服務處理器 韌體2t7並和NVRAM 214通信以向那裏提供資訊。當系統200 中的CPU 212之一具有影響處理系統200的操作的軟錯誤 時,該處理系統200有可能能有效地操作,即使CPU 212中 的一個被關掉。因此,本發明允許在使造成可重覆的軟錯 誤的CPU退出配置下修復處理系統200。 從而,在本發明中,通過檢錯邏輯在常規電腦操作中檢 測CPU差錯。服務處理器韌體217在任何相繼的啟動程序利 用該檢測對有缺陷的CPU解除分配。這是通過使用每個CPU 和系統邏輯内的差錯狀態以及通過使用對該服務處理器直 接提供資訊的該非揮發元件中資源記錄區實現的。 NVRAM 214包括一個存儲從月良務處理器韌體217接收的有 -8- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 訂
1225198 A7 B7___ 五、發明説明(β ) 〇 關狀態資訊的資源記錄區215。服務處理器217會根據資源記 錄區215中的資訊使某些資源退出配置。這些差錯狀態和配 置暫存器226除其他功能外還對NVRAM 214的資源記錄區215 提供資訊。在一較佳實施例中,向服務處理器韌體217提供 可修復差錯的指示的記憶體狀態暫存器226的内容是一個指 示存在不可修復的差錯的位元和由記憶體配置控制邏輯提 供的該不可修復差錯的位址。 本發明的關鍵部分是NVRAM 214的退出配置區215。該資 源記錄區215的用途是存儲有關記憶體陣列219差錯狀態和配 置狀態的資訊。退出配置區215應足夠靈活,以便能修改現 有狀態和能應付添加新記錄。本文的後面會更詳細地說明 退出配置區215以及其初始化。 資源1己錄區215包括CPU通用記錄格式和CPU專用記錄格 式。 現參照圖3A — 3B ,圖3A描述依據本發明的cpu通用記錄 格式的例子而圖3B描述CPU專用記錄袼式的例子。 作為NVRAM 214初始化程序的一部分,服務處理器韌體 217係初始化資源記錄區215。服務處理器韌體217按如下附 述初始化該退出配置區215 : 1 · 一個CPU通用格式記錄 2.η個CPU專用記錄格式,其中n為全配置時,系統中cpu 的最大數量。 下面介紹每個初始化值。 · 初始化值 -9 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公發^ ----— 1225198 A7 B7 五、發明説明(7 ) A . CPU通用記錄格式(圖3 A) 1 .位元組0 — 1,RL= 14+y,其中y=保持CPU FRU位置碼 的最大位元組數量。 2 .位元組2,N =全配置下系統中CPU的最大數量。 3.位元組 3 — 30,從 CPU VPD XC — L2、ZC — PF、ZC — PS 和SC—SB攔位拷貝ASCII值。 B · CPU專用記錄格式(圖3B) 1 ·位元組0,在產品功能說明書中,該CPU定義的CPU實 體號(OpenPic中斷)。 2 .位元組1,在PIR或EAR暫存器中定義的CPU ID。 3. 位元組2:位元0 = 0 4. 位元組2:位元1—3 = 0 5. 位元組2:若不存在該CPU,位元4 — 7 = 0,但若存在則 =1。 6 ·位元組3,來自CPU VPD ZC — ER襴位的ASCII值轉換為 十六進位格式。 7.位元組4 — 13,從CPU VPD SN欄位拷貝ASCII值。 8·位元組14 一(14+y),在產品功能說明書中對該CPU定義 的實體/硬體位置碼。 現參照圖4,其中描述依據本發明的可對其記憶體單元解 除分配的資料處理系統400的方塊圖。資料處理系統400例如 可按圖1的資料處理系統100實現。資料處理系統400包括具 有啟動韌體413的CPU 412。CPU 412和諸如非揮發性隨機存 取記憶體(NVRAM) 414的包含著例如序號和其他標識資訊的 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 1225198 A7
錯的指示的差錯狀態暫存器426的内容是一個指示存在不可 修復的内部差錯的位元。 本發明的重要部分*NVRAM 414的資源記錄區4丨5。該資 源記錄區415的用途是存儲有關各個記憶體的差錯狀態和配 置狀態的資訊。資源記錄區415應足夠靈活,以便能修改現 有狀態和能應付添加新的記錄。本文的後面會更詳細地說 明資源έ己錄區415和其初始化。 資源i己錄區415包括記憶體通用記錄格式和記憶體專用記 錄格式。 現參照圖5A — 5B,圖5A描述記憶體通用記錄格式的一個 例子,而圖5B描述記憶體專用記錄格式的一個例子。 作為NVRAM 414初始化程序的一部分,服務處理器417係 初始化資源記錄區415。服務處理器韌體417按如下所述初始 化資源記錄區415 : 1 · 一個記憶體通用格式記錄 2 · η個記憶體專用記錄格式,其中η為該系統支援的最大 的記憶體數量。 下面說明每個初始化值。 初始化值 A .記憶體通用記錄格式(圖5 Α) 1 ·位元組0 — 1,RL=8 + y,其中y =保持記憶體FRU位置碼的 最大位元組數量。 2 ·位元組2,N=全配置下系統中記憶體FRU(DIMM或卡) 的最大數量。 -12- 本紙張尺度逋用中國國家標準(CNS) A4規格(210 X 297公釐) 1225198 A7 B7 五、發明説明( B ·記憶體專用記錄格式(圖5B) 1 ·位元組0.,記憶體卡槽號或ID。 2 ·位元組1,記憶體槽號或id。 3.位元組2:位元〇 = 〇 4·位元組2:位元1—3 = 0 5·位元組2:若不存在FRU,位元4 — 7 = 0,但若存在FRU 則=1 6 ·位元組3,來自記憶體VPD攔位的ASCII值轉換為十六進 位格式。 7 ·位元組4 — 7,從記憶體拷貝值。 8.位元組8 —(8 + y),該記憶體的實體/硬體位置碼。 在透過下面說明的本發明的程序進行替換或重新分配之 則,按上面圖2 — 5B中說明那樣解除分配不再使用的每個 CPU和記憶體單元保持解除分配狀態。若其遭受的差錯不如 新出故障元件的差錯那樣嚴重,被解除分配的元件可能需 要被重新分配,從而保持最小系統要求,以維持資料處理 系統的運行。在IPL期間出現確定哪個(些)解除分配的資 源’例如CPU或€ fe體單元,應被修復的程序。在ip。期 間,在CPU Repeat Gaird功能/程序結束處,若需要,出現對 處理器的資源修復,同樣在IPL期間,在記憶體Repeat Gard 功能/程序結束處,若需要,出現對記憶體的資源修復。下 面會更詳細地說明這些程序。 現參照圖6,其描述依據本發明的一個在初始程式載入 (IPL)期間經由資源修復保持最佳系統可用性的系統的方塊 -13- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 裝 訂
線 1225198 A7 B7 五、發明説明( 圖。IPL有時也稱為啟動程序。資源修復系統600包括在資料 處理系統,例如圖1中的資料處理系統1〇〇上運行的韌體。 資源修復系統600還包括記憶體Repeat Gard 602、CPU Repeat Gard 604和資源記錄606。記憶體Repeat Gard 602和CPU Repeat Gard 604可以以韌體實現。韌體是在不供電下保持其 内容的記憶體晶片,例如唯讀記憶體(ROM)、可程式化 ROM(PROM)、可抹除可程式化ROM(EPROM)、電可抹除可 程式化ROM(EEPROM)和非揮發性隨機存取記憶體(非揮發 性RAM),上存儲的軟體。韌體608諮詢資源記錄606,當啟 動系統以確定屬於該資料處理系統的資源中的哪些已被解 除分配並且不應使用時,資源記錄606可包括圖2中的資源 記錄215和圖4中的資源記錄415二者。 在IPL期間記憶體Repeat Gard 602監視系統記憶體單元610 一 612的活動。同樣在IPL期間,CPU Repeat Gard監視CPU 614 — 616的活動。系統記憶體單元610 — 612可實現為例如圖 1的本地記憶體160-163中的一個。CPU 614 —616可實現為例 如圖1中的處理器101— 104中的一個。 當系統記憶體單元610 — 612中之一出現故障時,向記憶體 Repeat Gard 602報告該故障。記憶體Repeat Gard 602接著判 定若對系統存儲元件610 — 612中的該出故障的元件解除分配 是否能得到最小系統資源®記憶體Repeat Gard 602包括一個 内部存儲的包含著最小系統配置的資料結構。在對所有滿 足記憶體Repeat Gard 602取消配置要求的資源解除分配後, 記憶體Repeat Gard 602比較當前系統配置和所存儲的最小系 -14- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 1225198 A7 B7 五、發明説明( 12 統配置。若有足夠數量的系統記憶體單元610— 612來滿足啟 動該資料處理系統所需要的最小系統要求,則不重新分配 和重新配置以前被解除分配的系統記憶體單元610— 612中的 任一個。這樣,經由去掉系統記憶體單元610 — 612中出故障 的元件,該資料處理系統的性能得以最佳化,因為該資料 處理系統不試圖去使用某個不正常運行的系統資源。接著 記憶體Repeat Gard 602在資源記錄606中建立一個項’該項 指示記憶體單元610 — 612出故障的具體元件、該故障的性質 和類型,並且建立系統記憶體單元610 — 612中該出故障的具 體元件已從該資料處理系統中解除分配和取消配置的指 示0 CPU Repeat Gard 604 監視 CPU 614- 616的性能。當CPU 614 — 616中之一出故障時,向CPU Repeat Gard 604報告該 故障。CPU Repeat Gard 604接著判定若對CPU 614 — 616中出 故障者解除分配是否能得到最小系統資源。若有足夠數量 的CPU 614 — 616來滿足啟動該資料處理系統所需要的最小 系統要求,則把CPU 614 — 616中出故障的CPU從該系統中 解除分配和取消配置,從而該資料處理系統不能訪問CPU 614 — 616中該出故障的CPU。這樣,和前面一樣,經由去掉 CPU 614 — 616中出故障的CPU,該資料處理系統的性能得以 最佳化,因為該資料處理系統不試圖去使用某個不正常運 行的系統資源。 若記憶體 Repeat Gard 602 或 CPU Repeat Gard 604 判定在對 有故障資源取消分配後當前系統配置小於所存儲的為啟動 -15- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
装 訂
線 1225198 A7 B7 五、發明説明(^ ) 該資料處理系統所需的最小系統配置,則記憶體Repeat Gard 602和/或CPU Repeat Gard 604確定要重新分配的最佳資源以 滿足最小系統配置。每個資源(處理器或記憶體)是由其資源 記錄606所代表,該記錄包含諸如配置狀態和故障狀態的資 料。故障狀態包括一指示故障嚴重度的數值。經由比較這 些嚴重度值,記憶體Repeat Gard 602 和 CPU Repeat Gard 6 04 辨識遭受最不嚴重故障的資源。接著重新分配和重新配置 該遭受最不嚴重故障的被解除分配的資源。該遭受最不嚴 重差錯的資源可能是上一個被解除分配的資源,若如此, 則重新分配該資源並且該資料處理系統試圖在使用該上一 個出故障的資源下運行。 為幫助說明本發明,考慮下述例子。假定該資料處理系 統的最小系統要求需要能使用一個系統記憶體。還假定系 統記憶體611和612先前已出故障並已解除分配。每個系統記 憶體611、612會在資源記錄606中具有一個項,指示其已被 解除分配以及各系統記憶體611 — 612所導致的故障的性質。 若後來系統記憶體610遭受故障,若對系統記憶體610解除 分配,該資料處理系統不能工作,因為為了啟動它需要至 少一個系統記憶體。這樣,記憶體Repeat Gard 602不能只對 系統記憶體610解除分配而不做其他工作。從而,記憶體 Repeat Gard 602對系統記憶體610解除分配並且把當前系統 配置和最小系統配置進行比照和確定出需要重新分配/個 系統記憶體供該資料處理系統使用。先前已被解除分配的 其他系統記憶體611— 612中之一可能比系統記憶體610遭受 -16- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 1225198 A7 B7 五、發明説明( 不那麼嚴重的差錯,從而比起系統記憶體是一個在其上運 行该資料處理系統的更好的系統記憶體。因此,記憶體 Repeat Gard 602諮詢資源記錄606並且分析有關内容以確定 系統1己憶體610 — 612中的哪一個會對在其上運行該資料處理 系統提供最好的資源。 若系統C憶體612中的造成故障的差錯不如系統記憶體6 i 〇 的造成故障的差錯那麼嚴重,則重新分配和重新配置系統 圮憶體612供該資料處理系統使用並且對系統記憶體61〇解除 分配和取消配置不供該資料處理系統使用。然而,若由系 統記憶體611 — 612的故障造成的差錯比由系統記憶體61〇的 故障造成的差錯嚴重,則記憶體Repeat Gard 6〇2重新分配並 重新配置系統記憶體610供該資料處理系統使用。 熟習此技藝之人士會理解,可以改變圖6中描述的元件。 例如,除了所描述的元件外還可以使用其他系統資源,諸 如輸入/輸出適配器等。然後可增加一個部件用於重新分配 已被解除分配的I/O適配器中的一個從而保持最小1/〇資源 並且在這些情況下提供最佳的1/〇資源。還應注意,在其他 實施例中,重新分配的供該資料處理系統使用的有缺陷的 資源可能不是有缺陷的資源組中可使用的最佳資源,而可 能僅疋一個用起來比上一個出故障的資源更好的資源或者 可能僅是一個用起來比最差的有缺陷資源更好的資源。該 描述的例子不意味著對本發明含有架構上的限制。 μ 現參照圖7 ,其描述依據本發明的對有缺陷的資源進行重 新分配的一示例程序的流程圖。一個資源修復部件,例如 -17-
裝 訂
線 1225198 A7 B7 五、發明説明( 圖 6 中的記憶體 Repeat Gard 602 或 CPU Repeat Gard 604 監視 資料處理系統’其經由讀取資源記錄檢查系統資源故障(步 驟702)。檢查資源記錄的内容以判定是否應對資源取消配置 (步驟704)。若合要求,對該資源取消配置(步驟7〇6)。若該 資源不合要求或者若合要求而取消該資源的配置後,判定 是否已檢查資源記錄中的所有資源(步驟708)。若尚未檢查 所有的資源,則讀取下個資源記錄(步驟702)。 若已檢查所有資源,則判定為了滿足最小系統配置是否 存在足夠的未取消配置的資源(步驟710)。若可得到滿足最 小系統配置的足夠資源,則繼續初始程式載入(IPL)(步驟 714)。若不能得到滿足最小系統配置的足夠資源,則修復最 佳的資源候選者或多個候選者以滿足最小系統配置要求(步 驟712)。一旦修復足夠的資源以使IPL滿足最小系統配置, 則系統繼續進行IPL(步驟714)。 熟習此技藝之人士會理解可根據實施例改變圖7中描述的 程序。在不背離本發明的範圍和精神下所採取的步驟可比 圖7中描述的步驟多或者少。另外,一些步驟可以按與圖7 中所示之不同的次序實現。 重要的是要注意,儘管在全功能的資料處理系統環境下 說明了本發明,熟習此技藝之人士會理解:可以在指令的 電腦可讀媒體的形式下以及各種形式下分佈本發明的程序 並且無論實際使用的實現該分佈的具體信號承載介質的類 型為何,本發明都同樣適用。電腦可讀媒體的例子包括可 記錄型媒體,如軟碟、硬碟驅動器、RAM、CD — R〇M和傳 -18- 本紙張尺度適用中國國家標準(CNS) A4规格(21〇 x 297公爱) 1225198 A7 B7 五、發明説明(16 ) 輸型媒體,如數位及類比通信鏈路。 本發明的說明係出於示範和描述的目的,但是所公開的 形式對於本發明不是排他的或限制性的。許多修改和改變 對於熟習此技藝之人士是顯而易見的。選擇並且說明了該 實施例係用以最佳地解釋本發明的原理及具體應用並且使 熟習此技藝之人士針對適應於預期的具體使用的帶有各種 修改的各種實施例來理解本發明。 -19- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)

Claims (1)

1225198
第090118659號專利申請案 中文申請專利範圍替換本(92年8月) ^、申請專利範圍 1 · 一種修復系統資源以提供最小系統配置的方法,該方法 包括: 確定第一資源出故障; 對第一資源解除分配; 回應判定出該資源的解除分配造成小於用來操作資料處 理系統的最小系統配置’判定多個被解除分配的資源中 的哪個資源遭受最不嚴重的故障;以及 重新分配該多個被解除分配的資源中一個遭受最不嚴重 故障的資源。 2 ·如申請專利範圍第1項的方法,其中該多個被解除分配 的資源中一個遭受最不嚴重故障的資源是該第一資源。 3·如申請專利範圍第丨項的方法,其中判定多個被解除分 配的資源中哪個資源遭受最不嚴重的故障包括諮詢一個 包含著指示被解除分配的資源的身份和故障類型的項的 資源記錄。 4. 如申請專利範圍第i項的方法,其中資源包括系統記恃 體。 〜 5. 如申請專利範圍第丨項的方法,其中資源包括處 元。 ?申:青專利範圍第Μ的方法,其中實現該方法 組包含在韌體中。 7. 一種記錄媒體,包含供資料處理系統中使用的用來 =源以提供最小系脉置的一電腦程式,該電腦程 本紙張尺度 1225198
第一指令,用於確定第—資源出故障; 第二指令’用於對第一資源解除分配; 第三指令,回應判定出對該資源解除分配造成小於用來 操作^料處理系統的最小系統配置,判定多個被解除分 配的資源中的哪個資源遭受最不嚴重的故障;以及 第四指令,用於重新分配該多個被解除分配的資源中一 個遭受最不嚴重故障的資源^ 8 ·如申請專利範圍第7項的記錄媒體,其中該多個被解除 分配的資源中一個遭受最不嚴重故障的資源是該第一資 源。 9 ·如申印專利範圍第7項的記錄媒體,其中判定多個被解 除分配的資源中哪個資源遭受最不嚴重的故障包括諮詢 一個包含著指示被解除分配的資源的身份和故障類型的 項的資源記錄。 10·如申請專利範圍第7項的記錄媒體,其中資源包括系統 記憶體。 11·如申請專利範圍第7項的記錄媒體,其中資源包括處理 XJXJ 一 旱兀。 12.如申請專利範圍第7項的記錄媒體,其中用來實現該電 腦程式產品的指令包含在韌體中。 13· —種電腦可讀媒體中供資料處理系統中使用的用來修復 系統資源以提供最小系統配置的系統,該系統包括: 第一裝置,用於確定第一資源出故障; 第二裝置,用於對第一資源解除分配; -2 - 本紙張尺度適用中國國家標準(CNS) A4規格(21〇><297公釐) ^5198 厂:- .........〜..〜….… ;;"::·- ' [·.-,’广.· 。“ 1 广 i :;-'i'U Λ8 Λ f B8 n—- K、申請專利範圍 第一裝置,回應判定出對該資源解除分配造成小於用來 操作貝料處理系統的最小系統配置,判定多個被解喻分 =的資源中的哪個資源遭受最不嚴重的故障;以及 第四裝置,用於重新分配該多個被解除分配的資源中一 個遭受最不嚴重故障的資源。 如申μ專利範圍第13項的系統,其中該多個被解除分配 的資源中一個遭受最不嚴重故障的資源是該第一資源。 •如申明專利範圍第13項的系統,其中判定多個被解除分 配的;貝源中哪個資源遭受最不嚴重的故障包括諮詢一個 包含著指示被解除分配的資源的身份和故障類型的項的 資源記錄。 16·如申請專利範圍第13項的系統,其中資源包括系統記憶 17·如申請專利範圍第13項的系統,其中資源包括處理單 元。 18·如申請專利範圍第13項的系統,其中用來實現該系統的 裝置包含在韌體中。 -3-
TW090118659A 2000-08-03 2001-07-31 Method for optimal system availability via resource recovery TWI225198B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/631,721 US6651182B1 (en) 2000-08-03 2000-08-03 Method for optimal system availability via resource recovery

Publications (1)

Publication Number Publication Date
TWI225198B true TWI225198B (en) 2004-12-11

Family

ID=24532453

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090118659A TWI225198B (en) 2000-08-03 2001-07-31 Method for optimal system availability via resource recovery

Country Status (5)

Country Link
US (1) US6651182B1 (zh)
JP (1) JP3906042B2 (zh)
KR (1) KR100450868B1 (zh)
CN (1) CN1181435C (zh)
TW (1) TWI225198B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2367645B (en) 2000-10-03 2002-11-20 Sun Microsystems Inc Memory access control
GB2367646B (en) 2000-10-03 2002-11-20 Sun Microsystems Inc Resource access control
GB2367647B (en) 2000-10-03 2002-11-20 Sun Microsystems Inc Resource access control for a processor
US7380001B2 (en) * 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US7694303B2 (en) * 2001-09-25 2010-04-06 Sun Microsystems, Inc. Method for dynamic optimization of multiplexed resource partitions
US7240115B2 (en) * 2002-12-10 2007-07-03 International Business Machines Corporation Programmatically allocating memory among competing services in a distributed computing environment
US7168002B2 (en) * 2003-04-25 2007-01-23 International Business Machines Corporation Preservation of error data on a diskless platform
US7454502B2 (en) * 2003-12-04 2008-11-18 International Business Machines Corporation System for transferring standby resource entitlement
US7529979B2 (en) * 2003-12-12 2009-05-05 International Business Machines Corporation Hardware/software based indirect time stamping methodology for proactive hardware/software event detection and control
US7415634B2 (en) * 2004-03-25 2008-08-19 International Business Machines Corporation Method for fast system recovery via degraded reboot
JP4304535B2 (ja) * 2004-11-17 2009-07-29 日本電気株式会社 情報処理装置及びこのプログラムと、モジュラー型システムの運用管理システムと、コンポーネント選択方法
US8661289B2 (en) * 2005-02-18 2014-02-25 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7673171B2 (en) * 2005-02-18 2010-03-02 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7607040B2 (en) * 2005-02-18 2009-10-20 Hewlett-Packard Development Company, L.P. Methods and systems for conducting processor health-checks
US20060236035A1 (en) * 2005-02-18 2006-10-19 Jeff Barlow Systems and methods for CPU repair
US7607038B2 (en) * 2005-02-18 2009-10-20 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7694174B2 (en) * 2005-02-18 2010-04-06 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7694175B2 (en) * 2005-02-18 2010-04-06 Hewlett-Packard Development Company, L.P. Methods and systems for conducting processor health-checks
US7533293B2 (en) * 2005-02-18 2009-05-12 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US8667324B2 (en) * 2005-02-18 2014-03-04 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7523346B2 (en) * 2005-02-18 2009-04-21 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7603582B2 (en) * 2005-02-18 2009-10-13 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7917804B2 (en) * 2005-02-18 2011-03-29 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US20060259757A1 (en) * 2005-05-12 2006-11-16 International Business Machines Corporation Method, apparatus and computer program product for implementing initial program load in a computer system
US7478268B2 (en) * 2005-09-13 2009-01-13 International Business Machines Corporation Deallocation of memory in a logically-partitioned computer
US20070174655A1 (en) * 2006-01-18 2007-07-26 Brown Kyle G System and method of implementing automatic resource outage handling
US20070234114A1 (en) * 2006-03-30 2007-10-04 International Business Machines Corporation Method, apparatus, and computer program product for implementing enhanced performance of a computer system with partially degraded hardware
US8923321B2 (en) * 2006-07-28 2014-12-30 Motorola Mobility Llc Apparatus and method for handling control channel reception/decoding failure in a wireless VoIP communication system
US20090077297A1 (en) * 2007-09-14 2009-03-19 Hongxiao Zhao Method and system for dynamically reconfiguring PCIe-cardbus controllers
US7751221B2 (en) * 2007-12-21 2010-07-06 Unity Semiconductor Corporation Media player with non-volatile memory
US8244918B2 (en) * 2008-06-11 2012-08-14 International Business Machines Corporation Resource sharing expansion card
JP5261113B2 (ja) * 2008-09-29 2013-08-14 キヤノン株式会社 システム、サーバ、画像形成装置、制御方法及びプログラム
US8402228B2 (en) 2010-06-30 2013-03-19 International Business Machines Corporation Page buffering in a virtualized, memory sharing configuration
CN103391212B (zh) * 2012-05-11 2016-08-24 中兴通讯股份有限公司 一种资源管理的容错方法和装置
JP5910444B2 (ja) * 2012-09-28 2016-04-27 富士通株式会社 情報処理装置、起動プログラム、および起動方法
KR101747306B1 (ko) * 2014-09-23 2017-06-14 삼성전자주식회사 의료 영상 처리 장치 및 그에 따른 의료 영상 처리 방법
EP3279796B1 (en) * 2016-08-02 2020-07-15 NXP USA, Inc. Resource access management component and method therefor
US20200252280A1 (en) * 2019-02-04 2020-08-06 Dell Products L.P. Systems and methods for validated configuration compliance assurance

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219913A (ja) * 1994-01-28 1995-08-18 Fujitsu Ltd マルチプロセッサシステムの制御方法及び装置
JPH08153011A (ja) * 1994-11-30 1996-06-11 Hitachi Ltd 処理装置の障害回復方法
JP2968484B2 (ja) * 1996-10-02 1999-10-25 三菱電機株式会社 マルチプロセッサ計算機及びマルチプロセッサ計算機における障害復旧方法
US6311290B1 (en) * 1997-02-14 2001-10-30 Intel Corporation Methods of reliably allocating, de-allocating, re-allocating, and reclaiming objects in a symmetrically blocked nonvolatile memory having a bifurcated storage architecture
US6073248A (en) * 1997-10-29 2000-06-06 Lucent Technologies Inc. Distributed precomputation of signal paths in an optical network
KR19990050460A (ko) * 1997-12-17 1999-07-05 구자홍 고 가용성 시스템의 장애 복구방법 및 장치
US6345369B1 (en) * 1998-11-12 2002-02-05 International Business Machines Corporation Environmental and power error handling extension and analysis for systems with redundant components
KR100309678B1 (ko) * 1998-11-26 2002-02-28 오길록 프로세스감시및장애복구방법
US6460005B1 (en) * 2000-08-10 2002-10-01 International Business Machines Corporation Apparatus and method for monitoring environmental conditions in a computing device
US6871299B2 (en) * 2001-02-05 2005-03-22 Fisher-Rosemount Systems, Inc. Hierarchical failure management for process control systems

Also Published As

Publication number Publication date
JP3906042B2 (ja) 2007-04-18
US6651182B1 (en) 2003-11-18
CN1181435C (zh) 2004-12-22
JP2002132697A (ja) 2002-05-10
KR20020012128A (ko) 2002-02-15
KR100450868B1 (ko) 2004-10-01
CN1337623A (zh) 2002-02-27

Similar Documents

Publication Publication Date Title
TWI225198B (en) Method for optimal system availability via resource recovery
US6658599B1 (en) Method for recovering from a machine check interrupt during runtime
JP4001877B2 (ja) 入出力ファブリックにおけるハードウェア・エラーからの自動回復
US6516429B1 (en) Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
JP4117262B2 (ja) 故障プロセッサを置き換える方法、媒体およびシステム
US6496945B2 (en) Computer system implementing fault detection and isolation using unique identification codes stored in non-volatile memory
JP5579354B2 (ja) 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置
US7404105B2 (en) High availability multi-processor system
US6976197B2 (en) Apparatus and method for error logging on a memory module
US7644304B2 (en) Using SAS address zoning to add/replace hot spares to RAID set
US7478268B2 (en) Deallocation of memory in a logically-partitioned computer
US6934879B2 (en) Method and apparatus for backing up and restoring data from nonvolatile memory
EP0913763A2 (en) Disk array device
US7010726B2 (en) Method and apparatus for saving data used in error analysis
US20070245170A1 (en) Computer boot operation utilizing targeted boot diagnostics
JP2006260568A (ja) アクティブ及び非アクティブ実行コアを有するマルチコアプロセッサ
US9424123B2 (en) Systematic mitigation of memory errors
JP2002278848A (ja) アレイ・ビット線またはドライバの故障を予測報告するための、キャッシュしきい値処理の方法、装置、およびプログラム
JP4366336B2 (ja) 論理パーティション・データ処理システムにおいてトレース・データを管理するための方法、トレース・データを管理するための論理パーティション・データ処理システム、コンピュータにトレース・データを管理させるためのコンピュータ・プログラム、論理パーティション・データ処理システム
JP2008269142A (ja) ディスクアレイ装置
TWI766593B (zh) 用以進行全快閃記憶體陣列伺服器的節點信息交換管理的方法與設備
CN109343986B (zh) 处理内存故障的方法与计算机系统
US6915460B2 (en) Method, apparatus, and program for service processor surveillance with multiple partitions
US7895493B2 (en) Bus failure management method and system
JP6805838B2 (ja) ディスク管理システム、ディスク管理方法、および、ディスク管理プログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees