TW466399B - Cluster node distress signal - Google Patents

Cluster node distress signal Download PDF

Info

Publication number
TW466399B
TW466399B TW088122708A TW88122708A TW466399B TW 466399 B TW466399 B TW 466399B TW 088122708 A TW088122708 A TW 088122708A TW 88122708 A TW88122708 A TW 88122708A TW 466399 B TW466399 B TW 466399B
Authority
TW
Taiwan
Prior art keywords
cluster
distress
built
node
message
Prior art date
Application number
TW088122708A
Other languages
English (en)
Inventor
Timothy Roy Block
Lee Love Rodney
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW466399B publication Critical patent/TW466399B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)
  • Radar Systems Or Details Thereof (AREA)

Description

經濟邡智慧財產局員工消費合作钍印製 466399 A7 ________B7 __ 五、發明說明(1 ) 發明背景 1, 技術領域 概略而&本發明係關於群集化電路,特別係關於群集通 訊之發出求救信號。 2. 背景技術 在今曰電子時代,設備仰賴電腦系統取得各型資訊。基 於硬體(例如半導體、電路板等)及軟體(例如電腦程式)之 多種組合,電腦系統設計上有多種改變。今日許多電腦係 設計用於與其它電腦系統連成「網路」。透過網路,單二 電腦系統可接達儲存於其它電腦系統且由其它電腦系統吏 理的資訊。如此網路使更大量電腦系統可接達更大量電予 資源。 網路係經由電腦系統間的實體「路由」以及符合通訊 「協定」的使用而變成可能。選用何種協定随多種因素^ 定包括網路化電腦系統數目,各電腦系統的分隔距離,以 及备電腦系統間之資訊交換目的。若僅少數電腦系统於緊 鄰附近網路連結在一起,則通訊協定可極爲簡單。但隨著 更多數電腦系統的增加以及隨著電腦系統分隔距離的力口 大,此等通訊協定變得愈來愈複雜。 通訊協定的複雜程度也隨資訊交換類型改變。例如菜此 協定強調發送大量資訊時的準確度,而另有些協定強調資 訊的移轉速度。於電腦系統網路上運作的應用程式之通訊 要求決定所選用的協定類型。要求即時可靠的資訊移轉之 電腦應用程式之一例爲「群集J管理應用程式。 -4- 本纸張义t適用中因S家標準(CNS)A4規格(2]〇 297公釐> (請先閲讀背面之注意事項再填寫本買) 裝---- 訂---------線{ 4 6 6 3 9 9 A7 -----------B7五、發明說明(2 ) I- 段-部智楚財產局員工消費合作社印製 群集化乃電腦系統連網用以提供連續資源利用以及分擔 工作負擔的目的。一電腦系統群集由電腦系統使用者觀點 看來如同單一電腦系統,但實際上乃電腦系統網路彼此支 援。若群集中有—電腦系統過載或故障,群集管理應用程 式自動將故障中的電腦系統處理的任務重新指派給群集中 的另電腦系統。如此由使用者觀點看來資源的利用性上 並無間斷。 典型群集的—個節點被指派給一應用程式(例如資 庫词服器)之主要責任而其它節點被指定作爲後備 任。當一種應用程式的主要節點故障時,群集中的後備外 ..古接起4應用程式的責任。如此確保該應用程式的高度利 用性。 群集化透過If _集之各電腦系统執行群集管理應用 弋义成可flf此等應用程式跨越群集網路來回中繼群集 t ’控制群集活動。群集發訊也用於分配群集中的何者 腦系統附有何種主要及後備責任的更新。 爲了確保於群集上執行的應用程式的高度利用性,群 必須可追縱—群集的全部節點狀態。爲達此項目的 統連續監控同一群集的各個其它電腦系統俾 腦系統的存活且正在執行指派給該電腦系統的 給後備節點。 草―'其王要貴任可指派 “不幸並非經常可了解群集中的何種節點已經故 砰渠中點與其匕郎點間的網路連結故障,則 -5 適則侧家標準(CNS)A4規格(训;^公楚~ 料 責 程 訊 電 集 -----------^ 裝·-------訂--------- * (請先閱讀背面之注意事項再填寫本頁) ^6 63 —---五、發明說明(3 A7 B7 經濟部智慧时產局員Η消費合作社印製 群集無法了解該節點是否正常作業。 但它與群嫠φ觉am u仍在運作中 已智二二:郎點的網路連結已經故障’則稱該節點 其餘部份中止:纟。當一節點出乎意外地與群集的 中止相時,丨易決定節點是錢 * #群集m設㈣點已經故障且指定 後備即點從事該應用程式主要貴任’則群集將有二節點 認爲其乃主要節點。結果將導致資料庫^—致性,原 馬二節點皆對群集的請求做出回應。它方面,若群集錯誤 假足該節點仍然執行其主要應用y而僅係與群集隔入 來,並未將主要貴任派給後備節點,則該應用程式將不 可由群集客户取得利用。如此於多種情況下若未經行政 理人員的人爲介入,群集無法對非通訊節點做出正應。 隨著愈來愈多資源變成可跨越電腦系統網路接達,對 等網路資源的連續接達需求也將增長。相對地群集作爲 此等網路資源提供連續利用性的手段需求也將増長。若 改良方法來決定群集節點現況,則將無法實現此等資源 連續利用性。 發明揭示 根據本發明’提供一種群集節點求救系統其可改良群 可靠度。當群集的一個節點接近故障時,群集節點求救 统發出一群集節點求救信號》如此許可群集更明白確 通訊節點是否已經故障或僅單純由節點隔離。較佳群 點求救系統係深埋於作業系統,以及當偵測得該節點 -6 * 衣紙張尺嗄洎明山3國家標準(CNS)Al規格(2]ϋχ 297公釐) 皆 因 開 再 管 回 此 對 無 的 集 系 定非 集節 迫在 -----------^^--------訂---------I {請先閱讀背面之注音?事項再填寫本頁) 466399 Α7 Β7 經濟部智慧財產局員Η消費合作社印& 五、發明說明(4 ) 眉睫的故障時提供一預建節點求救信號快速送至該群集的 其它節點,改進於節點全然故障前節點求救信號已經送出 的機率。當節點求救信號被有效送至群集的其它節點時, 群集可準確決定該節點是否已經故障或尚未故障而僅由節 點隔離開。如此許可群集可作正確回應,換言之,指派主 要任務給其它節點而較少需要行政管理人員的介入。如此 較佳具體實施例提供改良的群集可靠度以及減少對行政管 理人員的依賴。 前述及其它發明之特點及優點由後文本發明之較佳具體 例之特殊説明以及附圖的舉例説明將顯然自明。 圖式之簡單説明 後文將就附圖説明本發明之較佳具體實施例,此處類似 的標示代表類似的元件,附圖中: 圖1爲根據本發明之較佳具體實施例之裝置之方塊圖; 圖2爲示意圖説明根據本發明之較佳具體例之群集節點 求救發訊器;β及 圖3爲根據本發明之較佳具體實施例之群集求救發訊方 法之流程圖。 執行本發明之最佳模式 本發明係關於群集通訊。對於通常不熟悉群集化構想者 而言後文综論乙節提供多種基本構想及術語將有助於了解 本發明之較佳具體實施例。群集化業界人士可跳過综論而 直接前進至説明書之詳細説明部份。 本纸張尺度適用中國國家標準(CNS)A4規格(210 X '297公釐) ------------Α^.-------訂---------I (猜先聞讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 〇 6 3 9 9 Α7 ______B7 五、發明說明(5 ) ΐ · 综論 群集化爲多個電腦或多組電腦以許可電腦分擔工作且作 爲彼此的備份方式鏈接在—起。如此即使群集中有—或多 部電腦故障,群集仍許可電腦系統繼續運作並提供服務。 由電腦使用者觀點看來,電腦系統的群集彷彿單一電腦系 統。群集化對電腦群集使用者而言爲透明,使用者無須了 解其係使用單-電腦系統或多個電腦系統。反而電腦群集 使用者須關懷的是接取其所需資源例如資料庫、印表機、 檔案等。經由將電腦系統群集在二多,可達成所需資源的 連續利用性。 將電腦系統群集在一起有許多優點。第—且最重要地, 群,經由許可-群集内部的多個電腦系統彼此支援而提供 更η利用&第—’群集藉由ϋ需要時許可增加額外電腦 系統改良處理能力而提高擴充性。第三,工作負擔可平均 由一群集的多個電腦系統分擔β 组成一群集的各電腦系統也稱㈣「節點」。技術上節點 一詞表示處理器、通訊控制器或終端機。但用於群集使用 目的時節點表示—群集中之個別電腦系統之一。典型 一群集的各節點於支援群集上被指派給 被指派的貴任可發揮一或多種功能例如提供存=任執 腦應用程式’或提供接達硬體源例如印表機 '掃描 各或傳眞機。群集之各節點彼此通訊而-確保全部節點皆發 揮功能’換言各節點的群集化軟體皆存活且積極監控 要求由主節點切換成後備節點的情況。 二 -8 - 本紙狀变適;國家樣率(CNS)i4規格⑵0 χ 29卜)---- (請先閱讀背面之注意事項再填寫本頁) 裝--------訂---------線气 ^-6 6 39 9 A7 B7 哩濟耶智^財產局8工消费合作社印製 五、發明說明(6 ) .一群集的各節點被指派主要及後備貴任。各應用程式的 王要節點爲執行任務且與群集客户互動的節點。當主要節 點變成無法執行其被指派的功能時,群集管理應用程式必 須作動確定群集使用者仍然接達被指派給該無法工作節點 的資源。/步及將該資源之後備節點之一切換成爲主要貴 任。藉此方式,即使於主要負責提供該資源的電腦系統無 法利用時,群集使用者仍可接取所需資源。 群集管理應用程式以及各節點間的通訊基本架構使一群 集由使用者觀點看來彷彿單一電腦系統工作a例如發訊給 每個節點通知各節點有關該群集中其它節點的情況。發送 説息給每個節點保持其更新有關對特定應用程式何種節點 負有主要及後備貴任的資訊。如此防止多個節點嘗試執行 互相衝突的工作’例如多個節點皆嘗試作爲某一特殊應用 程式的主節點。若許可二節點皆視爲自身爲主節點工作, 則可能發生例如資料不一致等問題。如此發訊給每個節點 使其皆同意當一節點無法執行其被指派的貴任時將採行何 種動作。群集中的每個節點須以正確順序接收此等群集訊 息俾便確保群集適當發揮功能。 一喫基本群集訊息稱作「心搏」。心搏爲介於一群集之 士節點間發送的低階訊息,許可該節點追蹤目前何者節點 適當發揮功能。例如各節點典型將以規則間隔時間發送— 心搏信號給其邏輯上毗鄰之一節點一。如-此該群集之各節點 預期可以相同規則間隔時間接收到來自其邏輯毗鄰節點發 送的心榑信號。若一節點有一段較長時間未接收到正確心 ~ 9 - 才、纸伋义t这用中S闷家標準(CN'S)A4規格x四7公釐) I-----------1 裝-----.---訂----------線 ί · t請先閱讀背面之江意事煩再瑱寫本頁) /I. 〇 6 39 9 瘦濟部智铋射產局員工消費合作‘社印製 Α7 Β7 五、發明說明(7 ) 搏信號’則該節點了解其鄰居節點可能發生問題β若繼續 無法接收到心搏,則群集管理系統將嘗試採行適當動作。 另一種群集監控其節點之道係透過訊息定時器。範例群 集系統中,条送给一節點訊息故障,則將自動重新嘗試經 歷一段設定時間。此外,可使用該節點可利用的其它位置 嘗試發訊。若於多次嘗試後仍然無法送出訊息,則群集管 理系統再度了解有問題而嘗試採行適當動作。 不幸群集管理系統並非經常了解須採行何種適當動作。 例如若一節點於群集其餘部份的網路連結故障,則群集無 法了解該節點是否正常運作。若一節點仍在運作中但其與 群集其它節點的網路連結已經故障,則稱該節點已經與群 集「隔離」。當一節點出乎意外地停止與群集其餘部份通 訊時,不易判定該節點是否故障或僅係與群集其餘部份隔 離。若群集錯誤假定節點已經故障而實際上僅爲隔離,且 指派該隔離節點的應用程式的主要貴任給一後備節點,則 群集將有·一郎點相仏其本身乃主要節點。再度如此將導致 二節點同時回應群集要求的資料不一致問題。它方面,若 節點實際上已經故障而群集錯誤假定節點係隔離而未指派 4故障郎點的應用私式的主要貴任給一後備節點,則群集 客户將無法利用該應用程式。如此於許多情況下若未經行 政管理人員的人爲介入’群集將無法對非通訊節點作正確 回應2 . 2. 詳細說明 根據本發明,提供一種群集節點求救系統其可改良群集 -10- 表.¾¾汊这用3 [-3家標準(CNS)A'l規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝 * -------訂---------1 · 經濟部智^財產局員工消費合作社印製 '5 6 39 9 A7 -—______B7 _ 五、發明說明(8 ) 可靠度。當群集的一個節點接近故障時,群集節點求救系 統發出一群集節點求救信號。如此許可群集更明白確定非 通訊節點是否已經故障或僅單純由節點隔離。較佳群集節 點求救系統係深埋於作業系統,以及當偵測得該節點迫在 眉睫的故障時提供一預建節點求救信號快速送至該群集的 其它節點,改進於節點全然故障前節點求救信號已經送出 的機率。當節點求救信號被有效送至群集的其它節點時, 群集可準確決定該節點是否已經故障或尚未故障而僅由節 點隔離開。如此許可群集可作正確回應,換言之,指派主 要任務給其它節點而較少需要行政管理人員的介入。如此 較佳具體實施例提供改良的群集可靠度以及減少對行政管 理人員的依賴。 現在參照圖1,根據本發明之較佳具體實施例之電腦系 統1 0 0爲AS/400中程電腦系統。但業界人士 了解本發明之 方法及裝置同等適用於任何電腦系統,而與該電腦系統爲 複雜的多使用者運算裝置或單一使用者設備例如個人電腦 或工作站無關。舉例言之,業界人士 了解此等功能也可提 供給其它系統例如I B Μ公司的OS/2,OS/390及RS/6000, 撖軟公司的視窗NT,諾維爾(Novell)公司的耐特韋 (NetWare ),立努克斯(Linux )及其它多種優尼克斯(Unix ) 系統3電腦系統1 0 0説明群集之一節點如何配置的較佳具 體實施例細節,此處群集的其它節點駐在網路1 9 5。電腦 系統1 0 0適當地包含一處理器! 1 〇,一主記憶體! 2 〇,一 記憶體控制器1 3 0 ’ 一輔助儲存介面1 4 0,一終端機介面 | - 11 - 本纸張尺度適用中0國家標準(CNS)/\4規格(2〗〇 X 297公癸) ------------f 裝--------訂---------I {請先閱讀背面之注意事項再填寫本頁) 4 66 39 9 A7 五、發明說明(9 ) i 50及-網路介面19〇 ’全部皆透過一系統匿流排⑷互 連m本發明範圍内對囷】舉例説明之電腦系統ι〇〇 可做出多種修改、添加或刪除,例如加上快取記憶體或其 它周邊裝置。圖1僅供舉例説明電腦系統i GG的若 特點。 處理器U0執行電腦系統1〇〇的計算與控制功能,包含 適當中央處理單元(CPU) a處理器u〇包含單一積體電路 不微處理器,或包含任何適當數目之積體電路裝置及/或 电路板„作工作而達成處理器的功能。處理器1丨〇適合執 行主έ己憶體1 2 〇内部所需電腦程式。 輔助儲存介面丨40許可電腦系統1 〇〇儲存資訊以及由輔 助儲存裝置例如磁碟(如硬碟或軟碟)或光學儲存裝置(例 如CD-ROM)掏取資訊。—種合宜的儲存裝置爲直接存取 儲存裝置(dasd) m。如圖】所示,DASD n〇可爲軟碟 ,,可由軟碟180讀取程式及資料。要緊地須注意雖然已 二’T尤具有70整功能的電腦系統説明(且將繼續説明)本發 明’但業界人士 了解本發明之機構可分散成爲多種形式的 衩式產物,本發明同等適用於此而與實際執行該分散工作 )載有仏號的媒體特殊形式無關。載有信號的媒體例如包 ^ f __ ‘可錄式媒體如軟碟(例如磁碟1 8 〇 )及CD R〇M,及傳 輪類型媒體例如數位及類比通訊鏈接,包括無線通訊鏈 4矣 〇 — 經由使用與處理器1丨0分開的處理器(圖中未顯示),記 k fla 制器1 3 〇負責移動被請求的資訊由主記憶體1 2 0及 -12- 本+ g家標準(CNS)A4規格(210 497公釐) ^ --------^---------I (請先閱讀背面之注意事項再填寫本頁) J 9 A7
¾濟郜智珐时產局員工消費合作社印製 五、發明說明(1〇 ) /或通過輔助儲存介面14〇移動至處理器U〇。雖然供解 釋目的之用,記憶體控制器130被顯示爲一分開實體,但 業界人士了解實際上記憶體控制器1 3 0提供的部份功能可 眞正駐在處理器110、主記憶體12〇及/或輔助儲存介面 1 4 0關聯的電路。 終端機介面1 5 〇許可系統行政管理人員及電腦程式師與 黾腦系統〗0 0通訊,通常係透過可程式工作站通訊。雖然 圖1所不系統1 〇 〇僅含單一組處理器丨】〇及單—系統匯流 排1 6 0 ’但須了解本發明同等適用於具有多部處理器及多 個系統匯流排之電腦系統。同理,雖然較佳具體實施例之 系統匯流排1 6 0爲典型接線的多落式匯流排,但任何可於 電腦相關環境下支援雙向通訊的連結裝置皆可使用。 網路介面1 9 0支援網路! 9 5之電腦系統丨〇 〇與遠端電腦 术統間的資訊移轉。較佳具體實施例中,網路1 9 5之一或 多個節點以類似方式建立成與電腦系統1 〇 〇作爲一群集工 作。網路介面1 9 0適合包括一或多網路介面配接器1 9 3, 各網路介面配接器1 9 3典型係作爲擴充卡,其容易增添至 電腦系統如電腦系統1 〇 〇 β網路介面配接器! 9 3之實例包 括周邊組件互連(PCI )擴充卡,產業標準架構(IS A )擴充 卡’專屬配接卡’及任何類型現在已知或未來將發明的配 接器。業界人士 了解網路介面190之功能可直接具體實施 爲主記憶體及處理器丨1 0之一部份。網路1 9 5代表業界人 士已知之任何類型網路。包括網際網路、企業網路 '區域 網路(LAN )、廣域網路(WAN )或任何軟硬體配置目前已 -13- 衣纸佐K 々P3 ί-3.家標準(CNS)A4規格(210 X 297公釐) --------I----{裝--------訂---------I C請先閲讀背面之注意事項再填寫本頁) 466399 ^^部智殳时產局3工消费合作社印裂 A7 B7 五、發明說明(11 ) 知或未來將發展供各電腦系統彼此間通訊的網路。網路 1 9 5上也存在有群集的其它節點。 主記憶體120適合含有一或多應用程式12】,群集管理 應用程式1 2 2及作業系統! 2 3其包括群集節點求救發訊器 1 24。記憶體1 20的全部程式係以最廣義意義解釋,包括 任何及全部形式的電腦程式,包括電腦程式之來源碼、中 間碼、機器碼以及其它呈現碼。 幸·^佳具體實施例中,應用程式1 2 1包含群集用於提供較 而可靠度及擴充性的任何程式。如此應用程式1 2 ·|典型包 括€細系統1 〇 〇作爲主節點或後備節點的全部程式。此等 應用程式例如包括網路伺服器、檔案伺服器、資料庫伺服 器等。 群集管理應用程式1 2 2提供所需機構來形成其管理群 集。包括對一電腦群集管理的行政請求處理。舉例言之較 伎包括形成一群集、增添節點至一群集以及由群集中移開 節點等機制。 較佳具體實施例中,群集求救發訊器1 2 4整合作業系統 1 2 3 ’當偵測得迫切的節點故障時提供最快速且最有效的 适出#點求救信號的手段。 須了解主記憶體1 2 0無須隨時含有所示全部機制的所有 部份°例如部份應用程式1 2 1群集管理應用程式1 2 2及作 丈系統1 2 3可載入處理器1丨0之指令快取記憶體(圖中未 顯示)供執行,而其它檔案適合儲存於磁碟或光碟儲存裝 (圖中未顯示)。此外,雖然電腦程式皆顯示爲駐在同— -14- 本乂义’又遺丨丨珥ί·3家標準(CNS)A-l規格(2,10 >^97公釐) ---- - - - ----- - - - ----訂--- --- - - - I <請先閱讀背面之注意事項再填寫本頁) 466399 經濟部智慧財產局員工消费合作社印製 A7 B7 五、發明說明(12 ) 記憶體位置’但須了解主記憶體120可由多個記憶體位置 組成β 「記憶體j 一詞用於此處表示於系統丨〇 〇之虛擬記 憶體空間的任何儲存位置。 也須了解電腦系統〗0 0乃一群集中各節點的舉例説明, 如此群集工各節點將可於故障時迅速送出節點求救信號给 群集的其ΈΤ節點。然後各其它節點的群集管理應用程式 1 2 2可作適當回應’換言之,指派適當主要責任给群集的 其它節點。 現在參照圖2舉例説明群集節求救發訊器〗2 4之較佳 具體實施例的進一步細節β如前述,群集節點求救發訊器 1 2 4配備有當節點出現迫在眉睫的故障時,發送求救信號 給群集其它節點的機制。如此許可群集管理應用程式】2 2 (位於群集的其它節點上)可準確判定未回應的節點已經故 障而非僅由群集隔離s 較佳具體實施例中,群集節點求救發訊器丨2 4整合於作 業系統1 2 3許可其對節點的迫切故障做出快速回應。較佳 具體實施例中,群集節點求救發訊器i 2 4包括求救發訊方 法,預建的求救訊息,以及發送該訊息的專用求救信號任 務。 ~ 最佳具體實施例中,有兩種求救發訊方法可供利用。— 者同步發送求救信號訊息,表示於停機期間待執行的所有 其它方法皆將暫停至該訊息被證實^送爲止。另一種方法 非同步發送求救信號,表示於開始發送求救發訊方法後群 集節點仍可繼續處理其它任務。 -15- 本紙張刺令酬家標準(CNsiXi規格⑵ϋ X 297公«Τ (請先閱讀背面之注意事項再填寫本頁) 人t--------訂----- 银 匕.)1 A7 -----B7_ 五、發明說明(13 ) 較佳具體實施例中,當有足夠時間來有序地關機該節點 時係採用非同步方法許可於求救訊息正在發送時目前正在 執行^它任務的線索準備關機。當準備與送出求救訊息時 許可節點目如正在執行線索繼續執行其它任務具有可獲得 更有序地關機的優點但也有於實際送出求救訊息前需要更 長時間延遲的缺點。相反地,當故障係迫在眉睫而必須即 刻送出求救訊息時以同步方法爲佳。同步方法可使目前執 行線索上所有其它的處理暫停直到求救訊息送出爲止,結 果可更快速送出節點求救訊息。 例如若故障情況爲電源撤離但仍有蓄電池的後備電力, 則於故障前有相對較長時間許可求救訊息非同步發送。如 此許可執行更多並列動作例如其它關機過程,因而許可較 爲有序地關機。 舉另一實例,若故障情況爲硬體故障或丨P堆疊結束,則 沒有時間等候,較佳同步送出求救訊息。如此可即刻發送 預建的求救訊息,目前執行的線索未繼續執行其它處理至 該訊息送出爲止。如此許可求救訊息儘可能快速送出,於 某些案例可防止節點於求救訊息送出之前關閉。 車乂佳具體贯施例中,同步求救發送訊息係於目前執行任 務中處理,許可訊息更快速送出。特別目前任務可即刻送 出訊息,而等待中的專用求救任務則須於送出訊息之前先 被唤醒。但因目前任務用來發送求救訊息時不許其繼續前 進至訊息被送出爲止,因此其它必須執行的動作將被暫 緩3如此使用同步方法發送求救信號訊息可改進訊息於實 -16- 本呔張纥度適用中家標準(CNS)A4規格(210 X 297公釐) <請先閱讀背面之注意事項再填寫本頁) 人 裝·--1 tT---------線( 經-"^智^財產局員工消費合作社印製 4 β 6 3 c? 9 A7 _______B7 —_ 五、發明說明(14 ) 際發生故障事件之前送出的機會但須犧牲其它處理。 相反地,非同步求救信號訊息送到任務佇列中等候專用 求救信號任務處理其内容。典型此種任務須被唤醒來執行 訊息的發送,但由於佇列上並無其它等候事項,故仍比使 用非專用任務更快速。一旦對專用求救任務採用非同步呼 叫’則目前任務仍可繼續進行其它處理而無須等待求救信 號的送出。 ° 發送訊息的專用求救信號任務較佳於作業系統包含—低 階執行線索作爲一種處理。其可^施爲即刻任務而等候被 呼叫時執行。當呼叫非同步求救發訊方法時,呼叫任務事 件訊息佇列。然後其次可利用的處理器拾取此方法定義的 碼並執行其處理。由於有專用任務來發送節點求救信號, 因此琢方法無須於任務事件訊息佇列上等候。反而可由其 次可供利用的處理器執行。典型作業系統有多個不同任務 π供於任何指疋時間執行,但每次各處理器僅執行一個任 務,當處理器在等候時,則目前任務被放置—旁繼續從事 'l· 一個任務。 ' 頂建求救訊息較佳包括預先建立訊息物件其準備於故障 事件時發送。訊息較佳包括―標頭指示其爲節點求救訊 忍,以及發送該求救訊息的節點ID。訊息 障理由(若已知)資料但非必要。 括其故 現在參照圖3,舉例説明根據較1具_體實施例送出節點 求救訊號之方法5 00。第—步驟5〇2爲群集節點遭遇故障 餐件。次一步驟5 04爲節點系統偵測得故障並於群集節點 -17- -------------f裝--------訂---------線f - (請先閱讀背面之注意事項再填寫本頁) 本紙A、t :¾丨丨…S円家揉準(CNSM,^721〇x2m) 466 A7 B7 經濟部智慧財產局員工消費合作杜印製 五、發明說明(15 ) 求救發訊器上呼叫求救發訊方法。 較佳具體實施例中’可能偵測得任何類型的故障事件, 但實際上並非所有類型故障事件皆可充分偵測得而有時間 作正確回應。例如一型故障爲喪失電力。較佳節點電腦系 統可偵測得電力喪失同時仍然維持運轉夠長時間可送出群 集4點求救信號。如前述,由於群集節點求救發訊器包括 一預建求救信號,故節點求救信號可比較先前機構遠更快 速發送。如此提高故障事件可及時偵測的可能,原因爲訊 息係於節點冗全故障之前送出。至於故障事件之另一例, 用以與其汜成員節點通訊的協定堆疊故障可於故障前構成 時間由節點系統偵測得呼叫求援並送出求救訊息。 當然僅有三種故障類型可由節點系統偵測得且帶有足夠 事先警報送出群集節點求救信號。其它故障情況可能爲作 業系統突然崩溃,一或多個硬體組件(例如驅動器、網路 配接器等)故障。業界人士了解本發明之較佳具體實施例 Z應用至任何類型可事先充分偵測而送出求救信號的故 1 較佳具體實施例快速送出預建求救信號之能力將大減 先前系統所需事先警報。 作業系統較佳可辨識正在發生的故障事件類型,因此可 A故障發生前的時間量呼叫適當的求救發訊方法(亦即非 司 > 或同步)。此外若作業系統並未認知故障類哩必須以 非同步方式回應,則較佳呼叫同步法俾便確保求救訊息 可於故障發生之前送出。 a —步驟5 0 6係供求救發訊方法使用專用求救信號任務 -18- 规格(2U) χ 297 公S ) ------------f 褒--------訂---------Ί ί靖先閱讀背面之注意事項再填寫本頁} ^66399 A7 B7 負 可 五、發明說明(16 ) 發送預建的求救k號給群集中的任何「聆聽者」。預建求 救信號較佳包含送出訊息節點名稱的訊息物件。如此許可 求救訊息快速置於協定堆疊上無須等候首先建立訊息。 較佳具體例中’随制的故障事件類型以及殘留的發送 預建求救信號時間量,可非同步或同步執行步驟5 〇 6。 次一步驟506用於求救發訊方法確定節點中斷全部主要 及後備貴任。再度不期望有多個節點皆f試對某個應用程 式執行主要功能。如此藉由發送節點求救信號,此節點通 知其它節點其無法再使用而須由1當的後備節點來替代。 若由於某種理由而該節點復原,則'須保持 原因在於另-節點可能已經開始執行該節點先=二 貴的任務。 如此,本發明之較佳具體實施例提供一種可改良群集』 靠度之群集節點求救系统及方法。群集節點求救系統於群 集的-節點即將故障時送出群集節點求救信號。如此許可 群集更能決定非通訊節點是否故障或僅與群集隔離開來。 較佳2集節點求救系統係深埋於作業系統内部,且提供— 預建節點求救信號,該信號可於偵測得節點迫切故障時快 速运给群集的其它節點,改進節點求救信號於節點全然故 障之前送出的機率。當節點求救信號被有效送給群集時, 群集可準確判定該節點是否已經故障或尚未故障而僅與群 2離開來。如此許可群集作正確—回應:,換言之,指派其 它節點負起主要任務作回應’且較少需要行政管理人員的 介入0 19- 本尺度通用中國國家標準(CNS)A4規格(21ϋ X 29Γ公釐) 1. ^ Μ--------訂---------線 f . (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印裝 4 6 6 3 9 9 A7 B7 五、發明說明(17 ) 雖然已經特別參照較佳具體實施例顯示及説明本發明, 但業界人士了解可未背離本發明之精髓及範圍就形式及細 節上做出多種改變。 -----------人裝--------訂---------線f <請先閱讀背面之注意事項再填寫本頁) ^-部智祛財產局員工消費合作社印" -20 本%張尺1適用中0 0家標準(CXShVl規格(210 X 297公釐)

Claims (1)

  1. 經-部智^財產局貨工消赀合作社印努 46639 9 Β88 C8 D8 六、申請專利範圍 1. 一種裝置,包含: 至少一處理器; 一記憶體耦合至至少一處理器; 駐在該記憶體中之一群集節點求救發訊器,群集節% 求救發訊器包括一預建求救訊息’其顯示群集之節點故 障’群集節·结求救發机器於债測得故障事件時,送出預 建的求救訊息給群集的其它節點β ' ’、 2. 如申請專利範圍第1項之裝置,其 „ 丹干群集節點求救發訊 器包括一專用求救信號執行任務,装荽 再寺候於偵測得故障 事件時送出預建的求救訊息。 3. 如申請專利範圍第1項之裝置’其中群集求救發訊器包 括一種非同步發送預建的求救訊息之方法以及一種同步 發送預建的求救訊息之方法<3 4. 如申請專利範園第3項之裝置,其中非同步發送預建的 求救訊息之方法係使用目前執行任務來送出預建的求救 訊息,以及其中同步送出預建的求救訊息之方法係使用 等候中的專用求救訊息執行任務。 :>.如申請專利範園第4項之裝置,其中該群集求救節點發 訊器於故障事件存在之前有足夠時間時,使用非同步發 送預建的求救訊息之方法來許可更爲有序的關機程序, 否則則採用同步發送預建的求救訊息之方法3 6.如申請專利範圍第丨項之裝置厂其中群集節點求救發訊 器包括一機制用以確保群集求救信號已經送給群集的其 它節點後該節點本身由群集移開。 -21 - ------------{裝--------訂---------1 (請先閱讀背面之沒意事項再填寫本頁) 木义:.¾¾ 家標準(CNS)A.l 規格(2KJ 的7公沒) 4 6 6 39 9 申請專利範国 ABCD
    7. 如申請專利範圍第丨 哭勿入一 Μ Λ " Τ砰木灰救節點發訊 5 正δ的駐在記憶體中之作業系統部份。 {請先閱讀背面之注意事項再填寫本頁) 8. 如申請專利範圍第i,之裝置’其中預建求救訊息包含 預先建JL的訊息物件。 9. —種群集節點裝置,包含: 至少一處理器; 一搞合至至少一處理器之記憶體; 一群集節點求救發訊器,其駐在該記憶體,群集節點 求救發訊器包括一預建的求救訊息指示群集節點裝置故 障,其中群集節點求救發訊^包括—種使用目前執行任 務非同步發送預建的求救訊息之方法以及一種使用等候 中的專用求救信號執行任務同步發送預建的求救訊息之 方法’以及其中群集節點求救發訊器於偵測得故障事件 時送出預建的求救訊息給群集的其它節點。 丨0如申請專利範圍第9項之裝置,其中該群集求救節點發 訊器於故障事件存在之前有足夠時間時,使用非同步發 送預建的求救訊息之方法來許可更為有序的關機程序, 否則則採用同步發送預建的求救訊息之方法= 1丨.如申請專利範圍第9項之裝置,其中群集節點求救發訊 器包括一確保機制,其用以確保群集求救信號已經送給 群集的其它節點後該群集節點裝置本身由群集移開。 丨2.如申請專利範圍第9項之裝置—其_中群集求救節點發訊 器為駐在記憶體之作業系統之一部份。 11如申請專利範圍第9項之裝置,其中預建的求救訊息包 -22- 本坟張尺度这尺中闽國家標準i CNS )八4说格(2丨ox29?公釐) 466399 A8 B8 C-S D8 六、申請專利範圍 含預先建立的訊息物件。 14. 一種方法,包含下列步驟: 提供一預建的求救訊息指示群集之一節點正在經歷故 障事件;以及 當偵測得即將發生故障事件時,送出預建的求救訊 息。 15. 如申請專利範圍第1 4項之方法,進一步包含提供一專 用求救信號任務而處理並送出預建的求救訊息之步驟。 16. 如申請專利範園第1 4項之方法,其中送出預建的求救 訊息之步驟包含於存在有即將發生的故障事件前當有足 夠時間時’非同步送出預建的求救訊息而許可更爲有序 的關機程序,否則即同步送出預建的求救訊息。 17. 如申請專利範固第丨4項之方法,進一步包含於群集求 救訊息已經送給群集的其它節點後,確保該節點本身由 群集移開之步驟。 18. 如申請專利範園第t 4項之方法,其進一步包含決定即 將發生之故障事件類型之步骤β 19- 一種方法’包含下列步驟: 送出一預建的求救訊息指示群集之一節點正在經歷故 障事件; 提供一專用故障事件任務來處理並送出預建的求救訊 息: —- 偵測一即將發生的敁障事件; 當偵測得即將發生的故障事件之前存在有足夠時間 -23- 3 ® (CNS)A4 0J& (210 ---- ------------{裝--------訂---------^ I {請先閱讀背面之注意事項再填寫本頁) 經濟郭智慧財產局錢工泊货合作社印製 4 6 6 3 9 ABCD 申請專利範圍 時,非同步發送預建的求救訊息給群集的其它節點,否 則則同步送出預建的求救訊息給其它節點;以及 ----------- (請先間讀背而之注意事項再填寫本頁) 於群集求救信號已經送給群集的其它節點後,確定節 點本身由群集移開。 20_如申凊專利範圍第1 9項之方法,其中非同步送出預建 的求救訊息之步驟係使用專用求救信號任務,以及其中 同步送出預建的求救訊息之步驟係使用目前正在執行的 任務C 2〗.如申請專利範圍第1 9項之方法,其中預建的求救訊息 包含事先建立的訊息物件。一一 22. —種程式產物,包含: (A) 一群集節點求救發訊器,其包括一預建的求救訊 ^指示群集之一節點故障,群集節點求救發訊器於偵測 得故障事件時發送預建的求救訊息給群集的其它節點. 以及 ‘ (B) 信號承載媒體承載該群集節點求救發訊哭。 汀如申請專利範圍第22項之程式產物該:號承載 媒體包含發送媒體。 24. 如申請專利範圍第2 2項之程式產物, 經-部智总財產局員工消骨合作社印製 μ甲k號水載媒 體包含可錄式媒體。 25. 如申請專利範圍第2 2項之程式產物,其中群#節點束 救發訊器包括一專用求救信號,行任務, ⑺ 卉寺候於偵測 得故障事件時送出預建的求救訊息。 26. 如申請專利範圍第2 2項之程式產物,並φ /、τ砰集求救發 -24- 本紙張尺度適闪中國國家標準(CNS > Α4規格(210X297公ϋ ~~~-----
    訊器包括一種非同步發送預建的求救訊息之方法以及— 種同步發送預建的求救訊息之方法。 ---------f A-- (請先閲讀背面之注意事項再填寫本頁) 27. 如申請專利範圍第2 6項之程式產物,其中非同步發送 預建的求救訊息之方法係使用目前執行任務來送出預建 的求救訊息,以及其中同步送出預建的求救訊息之方法 係使用等候中的專用求救訊息執行任務。 28. =申請專利範固第2 7項之程式產物,其中該群集求救 即點發訊器於故障事件存在之前有足夠時間時,使用非 同步發送預建的求救訊息之方法來許可更為有序的關機 程序,否則則採用同步發送預—建的求救訊息之方法。 29. 如申請專利範圍第2 2項之程式產物,其中群集節點求 救發訊器包括一確保機制,其用以確保群集求救信號已 經送給群集的其它節點後該節點本身由群集移開。 30. 如申請專利範圍第22項之程式產物,其中群集求救節 點發訊器包含一整合的駐在記憶體中之作業系統部份。 3丨.如申請專利範圍第22項之程式產物,其中預建求救訊 息包含預先建立的訊息物件。 32. —種程式產物,包含: ^^.部智^时—局Ρ·工合作社印賀 (A) 一群集節點求救發訊器’其包括一預建的求救訊 息指示一群集節點裝置故障,其中群集節點求救發訊器 包括一種使用目前執行任務非同步送出預建的求救訊息 之万法以及一種使用等待中專甩求救信號執行任務同 步發送預建的求救訊息之方法’及其中群集節點求救發 訊器於偵測得故障事件時送出預建的求救訊息給群集的 -25- 本纸中®圉家標準(CNS) (21〇χ297公楚) ------- 6639 9 π'申請專利範圍 8 8 8 8 ABCD 其中信號承載弟 其中該群集求| ,、它節點;以及 ⑻I號承載媒體承載群集節點求救發訊器。 1 11申請專利範園第3 2項乏 固弗2袄式產物,其中該信號承裁 媒包含發送媒體。 ΜI申請專利範圍第3 2項之程式產物 體包含可錄式媒體。 35‘=申請專利範固第32項之程式產物…,…” 即點發訊器於故障事件存在之前有足夠時間時使用 同。步發送預建的求救訊息之方法來許可更為有序的關 程序,否則則採用同步發送預^的求救訊息之方法。 诋如申請專利範園第32項之程式產物,其中群集節點 救發訊器包括一確保機制,其用以確保群集求救信號 經送給群集的其它節點後該群集節點裝置本身由群集 開。 37. 如申請專利範圍第3 2項之程式產物,其中群集求救 點發訊器為駐在記憶體之作業系統之一部份。 38. 如申請專利範圍第3 2項之程式產物,其中預建的求 訊息包含預先建立的訊息物件。 (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部¾1.¾財A局员工;/]骨合作沣印裝 -26- ^^7^中國國家標準(〇奶)戍4現格(210;< 297公釐
TW088122708A 1999-03-30 1999-12-23 Cluster node distress signal TW466399B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/281,026 US6442713B1 (en) 1999-03-30 1999-03-30 Cluster node distress signal

Publications (1)

Publication Number Publication Date
TW466399B true TW466399B (en) 2001-12-01

Family

ID=23075659

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088122708A TW466399B (en) 1999-03-30 1999-12-23 Cluster node distress signal

Country Status (6)

Country Link
US (1) US6442713B1 (zh)
JP (1) JP2000293497A (zh)
KR (1) KR100358663B1 (zh)
CA (1) CA2290289C (zh)
SG (1) SG90111A1 (zh)
TW (1) TW466399B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7032022B1 (en) 1999-06-10 2006-04-18 Alcatel Statistics aggregation for policy-based network
ATE301895T1 (de) * 1999-06-10 2005-08-15 Alcatel Internetworking Inc System und verfahren zur automatischen erreichbarkeitsaktualisierung in virtuellen privaten netzen
US6789213B2 (en) * 2000-01-10 2004-09-07 Sun Microsystems, Inc. Controlled take over of services by remaining nodes of clustered computing system
US6594786B1 (en) * 2000-01-31 2003-07-15 Hewlett-Packard Development Company, Lp Fault tolerant high availability meter
US6691244B1 (en) * 2000-03-14 2004-02-10 Sun Microsystems, Inc. System and method for comprehensive availability management in a high-availability computer system
US7606898B1 (en) 2000-10-24 2009-10-20 Microsoft Corporation System and method for distributed management of shared computers
US6952766B2 (en) * 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US6918051B2 (en) * 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
JP4491167B2 (ja) * 2001-04-27 2010-06-30 富士通株式会社 通信システムにおける管理装置のバックアップシステム
US6880100B2 (en) * 2001-07-18 2005-04-12 Smartmatic Corp. Peer-to-peer fault detection
US6925582B2 (en) 2001-08-01 2005-08-02 International Business Machines Corporation Forwarding of diagnostic messages in a group
US7409427B2 (en) * 2003-02-25 2008-08-05 Bea Systems, Inc. Systems and methods for lightweight conversations
US8122106B2 (en) 2003-03-06 2012-02-21 Microsoft Corporation Integrating design, deployment, and management phases for systems
US7689676B2 (en) 2003-03-06 2010-03-30 Microsoft Corporation Model-based policy application
US7890543B2 (en) 2003-03-06 2011-02-15 Microsoft Corporation Architecture for distributed computing system and automated design, deployment, and management of distributed applications
US7657781B1 (en) * 2003-07-25 2010-02-02 Cisco Technology, Inc. System and method for providing redundant data load sharing in a distributed network
US7302607B2 (en) * 2003-08-29 2007-11-27 International Business Machines Corporation Two node virtual shared disk cluster recovery
US7228462B2 (en) * 2004-01-23 2007-06-05 Hewlett-Packard Development Company, L.P. Cluster node status detection and communication
US7778422B2 (en) * 2004-02-27 2010-08-17 Microsoft Corporation Security associations for devices
US20050246529A1 (en) * 2004-04-30 2005-11-03 Microsoft Corporation Isolated persistent identity storage for authentication of computing devies
DE102004032450B4 (de) * 2004-06-29 2008-01-17 Otten, Gert, Prof. Dr.med. Chirurgische Vorrichtung zum Abklemmen organischen Gewebes, insbesondere von Blutgefäßen
US8489728B2 (en) * 2005-04-15 2013-07-16 Microsoft Corporation Model-based system monitoring
US20060235664A1 (en) * 2005-04-15 2006-10-19 Microsoft Corporation Model-based capacity planning
US7802144B2 (en) * 2005-04-15 2010-09-21 Microsoft Corporation Model-based system monitoring
US7797147B2 (en) * 2005-04-15 2010-09-14 Microsoft Corporation Model-based system monitoring
US8549513B2 (en) 2005-06-29 2013-10-01 Microsoft Corporation Model-based virtual system provisioning
US7941309B2 (en) 2005-11-02 2011-05-10 Microsoft Corporation Modeling IT operations/policies
US8082340B2 (en) * 2006-01-30 2011-12-20 Cisco Technology, Inc. Technique for distinguishing between link and node failure using bidirectional forwarding detection (BFD)
US7801997B2 (en) 2006-03-30 2010-09-21 International Business Machines Corporation Asynchronous interconnect protocol for a clustered DBMS
US8312135B2 (en) * 2007-02-02 2012-11-13 Microsoft Corporation Computing system infrastructure to administer distress messages
US7937610B2 (en) * 2007-04-27 2011-05-03 International Business Machines Corporation Fast node failure detection via disk based last gasp mechanism
CN103297396B (zh) * 2012-02-28 2016-05-18 国际商业机器公司 群集系统中管理故障转移的装置和方法
CN105574127A (zh) * 2015-12-12 2016-05-11 天津南大通用数据技术股份有限公司 分布式数据库系统准实时的双活方法
CN113822395A (zh) * 2021-08-19 2021-12-21 中铁二十四局集团上海电务电化有限公司 一种海底隧道电力物联网智慧管理系统
CN114095392B (zh) * 2021-12-02 2022-04-08 深圳市光网视科技有限公司 一种基于物联网的通信电源监控方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4453215A (en) * 1981-10-01 1984-06-05 Stratus Computer, Inc. Central processing apparatus for fault-tolerant computing
US5117352A (en) 1989-10-20 1992-05-26 Digital Equipment Corporation Mechanism for fail-over notification
US5371852A (en) * 1992-10-14 1994-12-06 International Business Machines Corporation Method and apparatus for making a cluster of computers appear as a single host on a network
US5440726A (en) * 1994-06-22 1995-08-08 At&T Corp. Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
US5590277A (en) * 1994-06-22 1996-12-31 Lucent Technologies Inc. Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5627962A (en) * 1994-12-30 1997-05-06 Compaq Computer Corporation Circuit for reassigning the power-on processor in a multiprocessing system
US5996075A (en) * 1995-11-02 1999-11-30 Sun Microsystems, Inc. Method and apparatus for reliable disk fencing in a multicomputer system
US5805785A (en) * 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
JP3197279B2 (ja) * 1996-06-20 2001-08-13 富士通株式会社 業務引継システム
KR19980058552A (ko) * 1996-12-30 1998-10-07 김영환 두 시스템간의 클러스터링(Clustering) 구현장치
US6151688A (en) * 1997-02-21 2000-11-21 Novell, Inc. Resource management in a clustered computer system
US6108699A (en) * 1997-06-27 2000-08-22 Sun Microsystems, Inc. System and method for modifying membership in a clustered distributed computer system and updating system configuration
US6003075A (en) * 1997-07-07 1999-12-14 International Business Machines Corporation Enqueuing a configuration change in a network cluster and restore a prior configuration in a back up storage in reverse sequence ordered
US6192483B1 (en) * 1997-10-21 2001-02-20 Sun Microsystems, Inc. Data integrity and availability in a distributed computer system
US6122735A (en) * 1998-05-21 2000-09-19 Intel Corp. Fault resilient boot circuit using ring counter

Also Published As

Publication number Publication date
KR20010006847A (ko) 2001-01-26
JP2000293497A (ja) 2000-10-20
CA2290289A1 (en) 2000-09-30
SG90111A1 (en) 2002-07-23
KR100358663B1 (ko) 2002-10-30
US6442713B1 (en) 2002-08-27
CA2290289C (en) 2005-07-12

Similar Documents

Publication Publication Date Title
TW466399B (en) Cluster node distress signal
US6502203B2 (en) Method and apparatus for cluster system operation
JP3737695B2 (ja) 透過的時間ベースの選択的ソフトウェア若返りのためのシステム及び方法
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
US7043728B1 (en) Methods and apparatus for fault-detecting and fault-tolerant process control
US8055735B2 (en) Method and system for forming a cluster of networked nodes
US20050125557A1 (en) Transaction transfer during a failover of a cluster controller
US7937610B2 (en) Fast node failure detection via disk based last gasp mechanism
TW440755B (en) Method and system for environmental sensing and control within a computer system
US20020129186A1 (en) Replacement, upgrade and/or addition of hot-pluggable components in a computer system
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
CN104391764A (zh) 一种计算机容错方法及系统
US8073993B2 (en) Management of redundant physical data paths in a computing system
CN106789398A (zh) 一种媒体大数据hadoop集群监控的方法
JP4182948B2 (ja) フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
WO2021004256A1 (zh) 一种节点故障时进行节点切换的方法及相关设备
US20030065861A1 (en) Dual system masters
US20040059862A1 (en) Method and apparatus for providing redundant bus control
JPH08305592A (ja) マルチプロセッサシステム
US8122166B2 (en) Management of redundant physical data paths in a computing system
EP0987630A3 (en) Resilience in a multi-computer system
CN115766410A (zh) 一种机器工作状态切换方法、系统、装置及介质
CN107426320A (zh) 用于Openstack的信息处理方法和信息处理系统
US20050022056A1 (en) Access by distributed computers to a same hardware resource
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees