TW466399B - Cluster node distress signal - Google Patents
Cluster node distress signal Download PDFInfo
- Publication number
- TW466399B TW466399B TW088122708A TW88122708A TW466399B TW 466399 B TW466399 B TW 466399B TW 088122708 A TW088122708 A TW 088122708A TW 88122708 A TW88122708 A TW 88122708A TW 466399 B TW466399 B TW 466399B
- Authority
- TW
- Taiwan
- Prior art keywords
- cluster
- distress
- built
- node
- message
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/40—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
- Small-Scale Networks (AREA)
- Radar Systems Or Details Thereof (AREA)
Description
經濟邡智慧財產局員工消費合作钍印製 466399 A7 ________B7 __ 五、發明說明(1 ) 發明背景 1, 技術領域 概略而&本發明係關於群集化電路,特別係關於群集通 訊之發出求救信號。 2. 背景技術 在今曰電子時代,設備仰賴電腦系統取得各型資訊。基 於硬體(例如半導體、電路板等)及軟體(例如電腦程式)之 多種組合,電腦系統設計上有多種改變。今日許多電腦係 設計用於與其它電腦系統連成「網路」。透過網路,單二 電腦系統可接達儲存於其它電腦系統且由其它電腦系統吏 理的資訊。如此網路使更大量電腦系統可接達更大量電予 資源。 網路係經由電腦系統間的實體「路由」以及符合通訊 「協定」的使用而變成可能。選用何種協定随多種因素^ 定包括網路化電腦系統數目,各電腦系統的分隔距離,以 及备電腦系統間之資訊交換目的。若僅少數電腦系统於緊 鄰附近網路連結在一起,則通訊協定可極爲簡單。但隨著 更多數電腦系統的增加以及隨著電腦系統分隔距離的力口 大,此等通訊協定變得愈來愈複雜。 通訊協定的複雜程度也隨資訊交換類型改變。例如菜此 協定強調發送大量資訊時的準確度,而另有些協定強調資 訊的移轉速度。於電腦系統網路上運作的應用程式之通訊 要求決定所選用的協定類型。要求即時可靠的資訊移轉之 電腦應用程式之一例爲「群集J管理應用程式。 -4- 本纸張义t適用中因S家標準(CNS)A4規格(2]〇 297公釐> (請先閲讀背面之注意事項再填寫本買) 裝---- 訂---------線{ 4 6 6 3 9 9 A7 -----------B7五、發明說明(2 ) I- 段-部智楚財產局員工消費合作社印製 群集化乃電腦系統連網用以提供連續資源利用以及分擔 工作負擔的目的。一電腦系統群集由電腦系統使用者觀點 看來如同單一電腦系統,但實際上乃電腦系統網路彼此支 援。若群集中有—電腦系統過載或故障,群集管理應用程 式自動將故障中的電腦系統處理的任務重新指派給群集中 的另電腦系統。如此由使用者觀點看來資源的利用性上 並無間斷。 典型群集的—個節點被指派給一應用程式(例如資 庫词服器)之主要責任而其它節點被指定作爲後備 任。當一種應用程式的主要節點故障時,群集中的後備外 ..古接起4應用程式的責任。如此確保該應用程式的高度利 用性。 群集化透過If _集之各電腦系统執行群集管理應用 弋义成可flf此等應用程式跨越群集網路來回中繼群集 t ’控制群集活動。群集發訊也用於分配群集中的何者 腦系統附有何種主要及後備責任的更新。 爲了確保於群集上執行的應用程式的高度利用性,群 必須可追縱—群集的全部節點狀態。爲達此項目的 統連續監控同一群集的各個其它電腦系統俾 腦系統的存活且正在執行指派給該電腦系統的 給後備節點。 草―'其王要貴任可指派 “不幸並非經常可了解群集中的何種節點已經故 砰渠中點與其匕郎點間的網路連結故障,則 -5 適則侧家標準(CNS)A4規格(训;^公楚~ 料 責 程 訊 電 集 -----------^ 裝·-------訂--------- * (請先閱讀背面之注意事項再填寫本頁) ^6 63 —---五、發明說明(3 A7 B7 經濟部智慧时產局員Η消費合作社印製 群集無法了解該節點是否正常作業。 但它與群嫠φ觉am u仍在運作中 已智二二:郎點的網路連結已經故障’則稱該節點 其餘部份中止:纟。當一節點出乎意外地與群集的 中止相時,丨易決定節點是錢 * #群集m設㈣點已經故障且指定 後備即點從事該應用程式主要貴任’則群集將有二節點 認爲其乃主要節點。結果將導致資料庫^—致性,原 馬二節點皆對群集的請求做出回應。它方面,若群集錯誤 假足該節點仍然執行其主要應用y而僅係與群集隔入 來,並未將主要貴任派給後備節點,則該應用程式將不 可由群集客户取得利用。如此於多種情況下若未經行政 理人員的人爲介入,群集無法對非通訊節點做出正應。 隨著愈來愈多資源變成可跨越電腦系統網路接達,對 等網路資源的連續接達需求也將增長。相對地群集作爲 此等網路資源提供連續利用性的手段需求也將増長。若 改良方法來決定群集節點現況,則將無法實現此等資源 連續利用性。 發明揭示 根據本發明’提供一種群集節點求救系統其可改良群 可靠度。當群集的一個節點接近故障時,群集節點求救 统發出一群集節點求救信號》如此許可群集更明白確 通訊節點是否已經故障或僅單純由節點隔離。較佳群 點求救系統係深埋於作業系統,以及當偵測得該節點 -6 * 衣紙張尺嗄洎明山3國家標準(CNS)Al規格(2]ϋχ 297公釐) 皆 因 開 再 管 回 此 對 無 的 集 系 定非 集節 迫在 -----------^^--------訂---------I {請先閱讀背面之注音?事項再填寫本頁) 466399 Α7 Β7 經濟部智慧財產局員Η消費合作社印& 五、發明說明(4 ) 眉睫的故障時提供一預建節點求救信號快速送至該群集的 其它節點,改進於節點全然故障前節點求救信號已經送出 的機率。當節點求救信號被有效送至群集的其它節點時, 群集可準確決定該節點是否已經故障或尚未故障而僅由節 點隔離開。如此許可群集可作正確回應,換言之,指派主 要任務給其它節點而較少需要行政管理人員的介入。如此 較佳具體實施例提供改良的群集可靠度以及減少對行政管 理人員的依賴。 前述及其它發明之特點及優點由後文本發明之較佳具體 例之特殊説明以及附圖的舉例説明將顯然自明。 圖式之簡單説明 後文將就附圖説明本發明之較佳具體實施例,此處類似 的標示代表類似的元件,附圖中: 圖1爲根據本發明之較佳具體實施例之裝置之方塊圖; 圖2爲示意圖説明根據本發明之較佳具體例之群集節點 求救發訊器;β及 圖3爲根據本發明之較佳具體實施例之群集求救發訊方 法之流程圖。 執行本發明之最佳模式 本發明係關於群集通訊。對於通常不熟悉群集化構想者 而言後文综論乙節提供多種基本構想及術語將有助於了解 本發明之較佳具體實施例。群集化業界人士可跳過综論而 直接前進至説明書之詳細説明部份。 本纸張尺度適用中國國家標準(CNS)A4規格(210 X '297公釐) ------------Α^.-------訂---------I (猜先聞讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 〇 6 3 9 9 Α7 ______B7 五、發明說明(5 ) ΐ · 综論 群集化爲多個電腦或多組電腦以許可電腦分擔工作且作 爲彼此的備份方式鏈接在—起。如此即使群集中有—或多 部電腦故障,群集仍許可電腦系統繼續運作並提供服務。 由電腦使用者觀點看來,電腦系統的群集彷彿單一電腦系 統。群集化對電腦群集使用者而言爲透明,使用者無須了 解其係使用單-電腦系統或多個電腦系統。反而電腦群集 使用者須關懷的是接取其所需資源例如資料庫、印表機、 檔案等。經由將電腦系統群集在二多,可達成所需資源的 連續利用性。 將電腦系統群集在一起有許多優點。第—且最重要地, 群,經由許可-群集内部的多個電腦系統彼此支援而提供 更η利用&第—’群集藉由ϋ需要時許可增加額外電腦 系統改良處理能力而提高擴充性。第三,工作負擔可平均 由一群集的多個電腦系統分擔β 组成一群集的各電腦系統也稱㈣「節點」。技術上節點 一詞表示處理器、通訊控制器或終端機。但用於群集使用 目的時節點表示—群集中之個別電腦系統之一。典型 一群集的各節點於支援群集上被指派給 被指派的貴任可發揮一或多種功能例如提供存=任執 腦應用程式’或提供接達硬體源例如印表機 '掃描 各或傳眞機。群集之各節點彼此通訊而-確保全部節點皆發 揮功能’換言各節點的群集化軟體皆存活且積極監控 要求由主節點切換成後備節點的情況。 二 -8 - 本紙狀变適;國家樣率(CNS)i4規格⑵0 χ 29卜)---- (請先閱讀背面之注意事項再填寫本頁) 裝--------訂---------線气 ^-6 6 39 9 A7 B7 哩濟耶智^財產局8工消费合作社印製 五、發明說明(6 ) .一群集的各節點被指派主要及後備貴任。各應用程式的 王要節點爲執行任務且與群集客户互動的節點。當主要節 點變成無法執行其被指派的功能時,群集管理應用程式必 須作動確定群集使用者仍然接達被指派給該無法工作節點 的資源。/步及將該資源之後備節點之一切換成爲主要貴 任。藉此方式,即使於主要負責提供該資源的電腦系統無 法利用時,群集使用者仍可接取所需資源。 群集管理應用程式以及各節點間的通訊基本架構使一群 集由使用者觀點看來彷彿單一電腦系統工作a例如發訊給 每個節點通知各節點有關該群集中其它節點的情況。發送 説息給每個節點保持其更新有關對特定應用程式何種節點 負有主要及後備貴任的資訊。如此防止多個節點嘗試執行 互相衝突的工作’例如多個節點皆嘗試作爲某一特殊應用 程式的主節點。若許可二節點皆視爲自身爲主節點工作, 則可能發生例如資料不一致等問題。如此發訊給每個節點 使其皆同意當一節點無法執行其被指派的貴任時將採行何 種動作。群集中的每個節點須以正確順序接收此等群集訊 息俾便確保群集適當發揮功能。 一喫基本群集訊息稱作「心搏」。心搏爲介於一群集之 士節點間發送的低階訊息,許可該節點追蹤目前何者節點 適當發揮功能。例如各節點典型將以規則間隔時間發送— 心搏信號給其邏輯上毗鄰之一節點一。如-此該群集之各節點 預期可以相同規則間隔時間接收到來自其邏輯毗鄰節點發 送的心榑信號。若一節點有一段較長時間未接收到正確心 ~ 9 - 才、纸伋义t这用中S闷家標準(CN'S)A4規格x四7公釐) I-----------1 裝-----.---訂----------線 ί · t請先閱讀背面之江意事煩再瑱寫本頁) /I. 〇 6 39 9 瘦濟部智铋射產局員工消費合作‘社印製 Α7 Β7 五、發明說明(7 ) 搏信號’則該節點了解其鄰居節點可能發生問題β若繼續 無法接收到心搏,則群集管理系統將嘗試採行適當動作。 另一種群集監控其節點之道係透過訊息定時器。範例群 集系統中,条送给一節點訊息故障,則將自動重新嘗試經 歷一段設定時間。此外,可使用該節點可利用的其它位置 嘗試發訊。若於多次嘗試後仍然無法送出訊息,則群集管 理系統再度了解有問題而嘗試採行適當動作。 不幸群集管理系統並非經常了解須採行何種適當動作。 例如若一節點於群集其餘部份的網路連結故障,則群集無 法了解該節點是否正常運作。若一節點仍在運作中但其與 群集其它節點的網路連結已經故障,則稱該節點已經與群 集「隔離」。當一節點出乎意外地停止與群集其餘部份通 訊時,不易判定該節點是否故障或僅係與群集其餘部份隔 離。若群集錯誤假定節點已經故障而實際上僅爲隔離,且 指派該隔離節點的應用程式的主要貴任給一後備節點,則 群集將有·一郎點相仏其本身乃主要節點。再度如此將導致 二節點同時回應群集要求的資料不一致問題。它方面,若 節點實際上已經故障而群集錯誤假定節點係隔離而未指派 4故障郎點的應用私式的主要貴任給一後備節點,則群集 客户將無法利用該應用程式。如此於許多情況下若未經行 政管理人員的人爲介入’群集將無法對非通訊節點作正確 回應2 . 2. 詳細說明 根據本發明,提供一種群集節點求救系統其可改良群集 -10- 表.¾¾汊这用3 [-3家標準(CNS)A'l規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝 * -------訂---------1 · 經濟部智^財產局員工消費合作社印製 '5 6 39 9 A7 -—______B7 _ 五、發明說明(8 ) 可靠度。當群集的一個節點接近故障時,群集節點求救系 統發出一群集節點求救信號。如此許可群集更明白確定非 通訊節點是否已經故障或僅單純由節點隔離。較佳群集節 點求救系統係深埋於作業系統,以及當偵測得該節點迫在 眉睫的故障時提供一預建節點求救信號快速送至該群集的 其它節點,改進於節點全然故障前節點求救信號已經送出 的機率。當節點求救信號被有效送至群集的其它節點時, 群集可準確決定該節點是否已經故障或尚未故障而僅由節 點隔離開。如此許可群集可作正確回應,換言之,指派主 要任務給其它節點而較少需要行政管理人員的介入。如此 較佳具體實施例提供改良的群集可靠度以及減少對行政管 理人員的依賴。 現在參照圖1,根據本發明之較佳具體實施例之電腦系 統1 0 0爲AS/400中程電腦系統。但業界人士 了解本發明之 方法及裝置同等適用於任何電腦系統,而與該電腦系統爲 複雜的多使用者運算裝置或單一使用者設備例如個人電腦 或工作站無關。舉例言之,業界人士 了解此等功能也可提 供給其它系統例如I B Μ公司的OS/2,OS/390及RS/6000, 撖軟公司的視窗NT,諾維爾(Novell)公司的耐特韋 (NetWare ),立努克斯(Linux )及其它多種優尼克斯(Unix ) 系統3電腦系統1 0 0説明群集之一節點如何配置的較佳具 體實施例細節,此處群集的其它節點駐在網路1 9 5。電腦 系統1 0 0適當地包含一處理器! 1 〇,一主記憶體! 2 〇,一 記憶體控制器1 3 0 ’ 一輔助儲存介面1 4 0,一終端機介面 | - 11 - 本纸張尺度適用中0國家標準(CNS)/\4規格(2〗〇 X 297公癸) ------------f 裝--------訂---------I {請先閱讀背面之注意事項再填寫本頁) 4 66 39 9 A7 五、發明說明(9 ) i 50及-網路介面19〇 ’全部皆透過一系統匿流排⑷互 連m本發明範圍内對囷】舉例説明之電腦系統ι〇〇 可做出多種修改、添加或刪除,例如加上快取記憶體或其 它周邊裝置。圖1僅供舉例説明電腦系統i GG的若 特點。 處理器U0執行電腦系統1〇〇的計算與控制功能,包含 適當中央處理單元(CPU) a處理器u〇包含單一積體電路 不微處理器,或包含任何適當數目之積體電路裝置及/或 电路板„作工作而達成處理器的功能。處理器1丨〇適合執 行主έ己憶體1 2 〇内部所需電腦程式。 輔助儲存介面丨40許可電腦系統1 〇〇儲存資訊以及由輔 助儲存裝置例如磁碟(如硬碟或軟碟)或光學儲存裝置(例 如CD-ROM)掏取資訊。—種合宜的儲存裝置爲直接存取 儲存裝置(dasd) m。如圖】所示,DASD n〇可爲軟碟 ,,可由軟碟180讀取程式及資料。要緊地須注意雖然已 二’T尤具有70整功能的電腦系統説明(且將繼續説明)本發 明’但業界人士 了解本發明之機構可分散成爲多種形式的 衩式產物,本發明同等適用於此而與實際執行該分散工作 )載有仏號的媒體特殊形式無關。載有信號的媒體例如包 ^ f __ ‘可錄式媒體如軟碟(例如磁碟1 8 〇 )及CD R〇M,及傳 輪類型媒體例如數位及類比通訊鏈接,包括無線通訊鏈 4矣 〇 — 經由使用與處理器1丨0分開的處理器(圖中未顯示),記 k fla 制器1 3 〇負責移動被請求的資訊由主記憶體1 2 0及 -12- 本+ g家標準(CNS)A4規格(210 497公釐) ^ --------^---------I (請先閱讀背面之注意事項再填寫本頁) J 9 A7
¾濟郜智珐时產局員工消費合作社印製 五、發明說明(1〇 ) /或通過輔助儲存介面14〇移動至處理器U〇。雖然供解 釋目的之用,記憶體控制器130被顯示爲一分開實體,但 業界人士了解實際上記憶體控制器1 3 0提供的部份功能可 眞正駐在處理器110、主記憶體12〇及/或輔助儲存介面 1 4 0關聯的電路。 終端機介面1 5 〇許可系統行政管理人員及電腦程式師與 黾腦系統〗0 0通訊,通常係透過可程式工作站通訊。雖然 圖1所不系統1 〇 〇僅含單一組處理器丨】〇及單—系統匯流 排1 6 0 ’但須了解本發明同等適用於具有多部處理器及多 個系統匯流排之電腦系統。同理,雖然較佳具體實施例之 系統匯流排1 6 0爲典型接線的多落式匯流排,但任何可於 電腦相關環境下支援雙向通訊的連結裝置皆可使用。 網路介面1 9 0支援網路! 9 5之電腦系統丨〇 〇與遠端電腦 术統間的資訊移轉。較佳具體實施例中,網路1 9 5之一或 多個節點以類似方式建立成與電腦系統1 〇 〇作爲一群集工 作。網路介面1 9 0適合包括一或多網路介面配接器1 9 3, 各網路介面配接器1 9 3典型係作爲擴充卡,其容易增添至 電腦系統如電腦系統1 〇 〇 β網路介面配接器! 9 3之實例包 括周邊組件互連(PCI )擴充卡,產業標準架構(IS A )擴充 卡’專屬配接卡’及任何類型現在已知或未來將發明的配 接器。業界人士 了解網路介面190之功能可直接具體實施 爲主記憶體及處理器丨1 0之一部份。網路1 9 5代表業界人 士已知之任何類型網路。包括網際網路、企業網路 '區域 網路(LAN )、廣域網路(WAN )或任何軟硬體配置目前已 -13- 衣纸佐K 々P3 ί-3.家標準(CNS)A4規格(210 X 297公釐) --------I----{裝--------訂---------I C請先閲讀背面之注意事項再填寫本頁) 466399 ^^部智殳时產局3工消费合作社印裂 A7 B7 五、發明說明(11 ) 知或未來將發展供各電腦系統彼此間通訊的網路。網路 1 9 5上也存在有群集的其它節點。 主記憶體120適合含有一或多應用程式12】,群集管理 應用程式1 2 2及作業系統! 2 3其包括群集節點求救發訊器 1 24。記憶體1 20的全部程式係以最廣義意義解釋,包括 任何及全部形式的電腦程式,包括電腦程式之來源碼、中 間碼、機器碼以及其它呈現碼。 幸·^佳具體實施例中,應用程式1 2 1包含群集用於提供較 而可靠度及擴充性的任何程式。如此應用程式1 2 ·|典型包 括€細系統1 〇 〇作爲主節點或後備節點的全部程式。此等 應用程式例如包括網路伺服器、檔案伺服器、資料庫伺服 器等。 群集管理應用程式1 2 2提供所需機構來形成其管理群 集。包括對一電腦群集管理的行政請求處理。舉例言之較 伎包括形成一群集、增添節點至一群集以及由群集中移開 節點等機制。 較佳具體實施例中,群集求救發訊器1 2 4整合作業系統 1 2 3 ’當偵測得迫切的節點故障時提供最快速且最有效的 适出#點求救信號的手段。 須了解主記憶體1 2 0無須隨時含有所示全部機制的所有 部份°例如部份應用程式1 2 1群集管理應用程式1 2 2及作 丈系統1 2 3可載入處理器1丨0之指令快取記憶體(圖中未 顯示)供執行,而其它檔案適合儲存於磁碟或光碟儲存裝 (圖中未顯示)。此外,雖然電腦程式皆顯示爲駐在同— -14- 本乂义’又遺丨丨珥ί·3家標準(CNS)A-l規格(2,10 >^97公釐) ---- - - - ----- - - - ----訂--- --- - - - I <請先閱讀背面之注意事項再填寫本頁) 466399 經濟部智慧財產局員工消费合作社印製 A7 B7 五、發明說明(12 ) 記憶體位置’但須了解主記憶體120可由多個記憶體位置 組成β 「記憶體j 一詞用於此處表示於系統丨〇 〇之虛擬記 憶體空間的任何儲存位置。 也須了解電腦系統〗0 0乃一群集中各節點的舉例説明, 如此群集工各節點將可於故障時迅速送出節點求救信號给 群集的其ΈΤ節點。然後各其它節點的群集管理應用程式 1 2 2可作適當回應’換言之,指派適當主要責任给群集的 其它節點。 現在參照圖2舉例説明群集節求救發訊器〗2 4之較佳 具體實施例的進一步細節β如前述,群集節點求救發訊器 1 2 4配備有當節點出現迫在眉睫的故障時,發送求救信號 給群集其它節點的機制。如此許可群集管理應用程式】2 2 (位於群集的其它節點上)可準確判定未回應的節點已經故 障而非僅由群集隔離s 較佳具體實施例中,群集節點求救發訊器丨2 4整合於作 業系統1 2 3許可其對節點的迫切故障做出快速回應。較佳 具體實施例中,群集節點求救發訊器i 2 4包括求救發訊方 法,預建的求救訊息,以及發送該訊息的專用求救信號任 務。 ~ 最佳具體實施例中,有兩種求救發訊方法可供利用。— 者同步發送求救信號訊息,表示於停機期間待執行的所有 其它方法皆將暫停至該訊息被證實^送爲止。另一種方法 非同步發送求救信號,表示於開始發送求救發訊方法後群 集節點仍可繼續處理其它任務。 -15- 本紙張刺令酬家標準(CNsiXi規格⑵ϋ X 297公«Τ (請先閱讀背面之注意事項再填寫本頁) 人t--------訂----- 银 匕.)1 A7 -----B7_ 五、發明說明(13 ) 較佳具體實施例中,當有足夠時間來有序地關機該節點 時係採用非同步方法許可於求救訊息正在發送時目前正在 執行^它任務的線索準備關機。當準備與送出求救訊息時 許可節點目如正在執行線索繼續執行其它任務具有可獲得 更有序地關機的優點但也有於實際送出求救訊息前需要更 長時間延遲的缺點。相反地,當故障係迫在眉睫而必須即 刻送出求救訊息時以同步方法爲佳。同步方法可使目前執 行線索上所有其它的處理暫停直到求救訊息送出爲止,結 果可更快速送出節點求救訊息。 例如若故障情況爲電源撤離但仍有蓄電池的後備電力, 則於故障前有相對較長時間許可求救訊息非同步發送。如 此許可執行更多並列動作例如其它關機過程,因而許可較 爲有序地關機。 舉另一實例,若故障情況爲硬體故障或丨P堆疊結束,則 沒有時間等候,較佳同步送出求救訊息。如此可即刻發送 預建的求救訊息,目前執行的線索未繼續執行其它處理至 該訊息送出爲止。如此許可求救訊息儘可能快速送出,於 某些案例可防止節點於求救訊息送出之前關閉。 車乂佳具體贯施例中,同步求救發送訊息係於目前執行任 務中處理,許可訊息更快速送出。特別目前任務可即刻送 出訊息,而等待中的專用求救任務則須於送出訊息之前先 被唤醒。但因目前任務用來發送求救訊息時不許其繼續前 進至訊息被送出爲止,因此其它必須執行的動作將被暫 緩3如此使用同步方法發送求救信號訊息可改進訊息於實 -16- 本呔張纥度適用中家標準(CNS)A4規格(210 X 297公釐) <請先閱讀背面之注意事項再填寫本頁) 人 裝·--1 tT---------線( 經-"^智^財產局員工消費合作社印製 4 β 6 3 c? 9 A7 _______B7 —_ 五、發明說明(14 ) 際發生故障事件之前送出的機會但須犧牲其它處理。 相反地,非同步求救信號訊息送到任務佇列中等候專用 求救信號任務處理其内容。典型此種任務須被唤醒來執行 訊息的發送,但由於佇列上並無其它等候事項,故仍比使 用非專用任務更快速。一旦對專用求救任務採用非同步呼 叫’則目前任務仍可繼續進行其它處理而無須等待求救信 號的送出。 ° 發送訊息的專用求救信號任務較佳於作業系統包含—低 階執行線索作爲一種處理。其可^施爲即刻任務而等候被 呼叫時執行。當呼叫非同步求救發訊方法時,呼叫任務事 件訊息佇列。然後其次可利用的處理器拾取此方法定義的 碼並執行其處理。由於有專用任務來發送節點求救信號, 因此琢方法無須於任務事件訊息佇列上等候。反而可由其 次可供利用的處理器執行。典型作業系統有多個不同任務 π供於任何指疋時間執行,但每次各處理器僅執行一個任 務,當處理器在等候時,則目前任務被放置—旁繼續從事 'l· 一個任務。 ' 頂建求救訊息較佳包括預先建立訊息物件其準備於故障 事件時發送。訊息較佳包括―標頭指示其爲節點求救訊 忍,以及發送該求救訊息的節點ID。訊息 障理由(若已知)資料但非必要。 括其故 現在參照圖3,舉例説明根據較1具_體實施例送出節點 求救訊號之方法5 00。第—步驟5〇2爲群集節點遭遇故障 餐件。次一步驟5 04爲節點系統偵測得故障並於群集節點 -17- -------------f裝--------訂---------線f - (請先閱讀背面之注意事項再填寫本頁) 本紙A、t :¾丨丨…S円家揉準(CNSM,^721〇x2m) 466 A7 B7 經濟部智慧財產局員工消費合作杜印製 五、發明說明(15 ) 求救發訊器上呼叫求救發訊方法。 較佳具體實施例中’可能偵測得任何類型的故障事件, 但實際上並非所有類型故障事件皆可充分偵測得而有時間 作正確回應。例如一型故障爲喪失電力。較佳節點電腦系 統可偵測得電力喪失同時仍然維持運轉夠長時間可送出群 集4點求救信號。如前述,由於群集節點求救發訊器包括 一預建求救信號,故節點求救信號可比較先前機構遠更快 速發送。如此提高故障事件可及時偵測的可能,原因爲訊 息係於節點冗全故障之前送出。至於故障事件之另一例, 用以與其汜成員節點通訊的協定堆疊故障可於故障前構成 時間由節點系統偵測得呼叫求援並送出求救訊息。 當然僅有三種故障類型可由節點系統偵測得且帶有足夠 事先警報送出群集節點求救信號。其它故障情況可能爲作 業系統突然崩溃,一或多個硬體組件(例如驅動器、網路 配接器等)故障。業界人士了解本發明之較佳具體實施例 Z應用至任何類型可事先充分偵測而送出求救信號的故 1 較佳具體實施例快速送出預建求救信號之能力將大減 先前系統所需事先警報。 作業系統較佳可辨識正在發生的故障事件類型,因此可 A故障發生前的時間量呼叫適當的求救發訊方法(亦即非 司 > 或同步)。此外若作業系統並未認知故障類哩必須以 非同步方式回應,則較佳呼叫同步法俾便確保求救訊息 可於故障發生之前送出。 a —步驟5 0 6係供求救發訊方法使用專用求救信號任務 -18- 规格(2U) χ 297 公S ) ------------f 褒--------訂---------Ί ί靖先閱讀背面之注意事項再填寫本頁} ^66399 A7 B7 負 可 五、發明說明(16 ) 發送預建的求救k號給群集中的任何「聆聽者」。預建求 救信號較佳包含送出訊息節點名稱的訊息物件。如此許可 求救訊息快速置於協定堆疊上無須等候首先建立訊息。 較佳具體例中’随制的故障事件類型以及殘留的發送 預建求救信號時間量,可非同步或同步執行步驟5 〇 6。 次一步驟506用於求救發訊方法確定節點中斷全部主要 及後備貴任。再度不期望有多個節點皆f試對某個應用程 式執行主要功能。如此藉由發送節點求救信號,此節點通 知其它節點其無法再使用而須由1當的後備節點來替代。 若由於某種理由而該節點復原,則'須保持 原因在於另-節點可能已經開始執行該節點先=二 貴的任務。 如此,本發明之較佳具體實施例提供一種可改良群集』 靠度之群集節點求救系统及方法。群集節點求救系統於群 集的-節點即將故障時送出群集節點求救信號。如此許可 群集更能決定非通訊節點是否故障或僅與群集隔離開來。 較佳2集節點求救系統係深埋於作業系統内部,且提供— 預建節點求救信號,該信號可於偵測得節點迫切故障時快 速运给群集的其它節點,改進節點求救信號於節點全然故 障之前送出的機率。當節點求救信號被有效送給群集時, 群集可準確判定該節點是否已經故障或尚未故障而僅與群 2離開來。如此許可群集作正確—回應:,換言之,指派其 它節點負起主要任務作回應’且較少需要行政管理人員的 介入0 19- 本尺度通用中國國家標準(CNS)A4規格(21ϋ X 29Γ公釐) 1. ^ Μ--------訂---------線 f . (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印裝 4 6 6 3 9 9 A7 B7 五、發明說明(17 ) 雖然已經特別參照較佳具體實施例顯示及説明本發明, 但業界人士了解可未背離本發明之精髓及範圍就形式及細 節上做出多種改變。 -----------人裝--------訂---------線f <請先閱讀背面之注意事項再填寫本頁) ^-部智祛財產局員工消費合作社印" -20 本%張尺1適用中0 0家標準(CXShVl規格(210 X 297公釐)
Claims (1)
- 經-部智^財產局貨工消赀合作社印努 46639 9 Β88 C8 D8 六、申請專利範圍 1. 一種裝置,包含: 至少一處理器; 一記憶體耦合至至少一處理器; 駐在該記憶體中之一群集節點求救發訊器,群集節% 求救發訊器包括一預建求救訊息’其顯示群集之節點故 障’群集節·结求救發机器於债測得故障事件時,送出預 建的求救訊息給群集的其它節點β ' ’、 2. 如申請專利範圍第1項之裝置,其 „ 丹干群集節點求救發訊 器包括一專用求救信號執行任務,装荽 再寺候於偵測得故障 事件時送出預建的求救訊息。 3. 如申請專利範圍第1項之裝置’其中群集求救發訊器包 括一種非同步發送預建的求救訊息之方法以及一種同步 發送預建的求救訊息之方法<3 4. 如申請專利範園第3項之裝置,其中非同步發送預建的 求救訊息之方法係使用目前執行任務來送出預建的求救 訊息,以及其中同步送出預建的求救訊息之方法係使用 等候中的專用求救訊息執行任務。 :>.如申請專利範園第4項之裝置,其中該群集求救節點發 訊器於故障事件存在之前有足夠時間時,使用非同步發 送預建的求救訊息之方法來許可更爲有序的關機程序, 否則則採用同步發送預建的求救訊息之方法3 6.如申請專利範圍第丨項之裝置厂其中群集節點求救發訊 器包括一機制用以確保群集求救信號已經送給群集的其 它節點後該節點本身由群集移開。 -21 - ------------{裝--------訂---------1 (請先閱讀背面之沒意事項再填寫本頁) 木义:.¾¾ 家標準(CNS)A.l 規格(2KJ 的7公沒) 4 6 6 39 9 申請專利範国 ABCD7. 如申請專利範圍第丨 哭勿入一 Μ Λ " Τ砰木灰救節點發訊 5 正δ的駐在記憶體中之作業系統部份。 {請先閱讀背面之注意事項再填寫本頁) 8. 如申請專利範圍第i,之裝置’其中預建求救訊息包含 預先建JL的訊息物件。 9. —種群集節點裝置,包含: 至少一處理器; 一搞合至至少一處理器之記憶體; 一群集節點求救發訊器,其駐在該記憶體,群集節點 求救發訊器包括一預建的求救訊息指示群集節點裝置故 障,其中群集節點求救發訊^包括—種使用目前執行任 務非同步發送預建的求救訊息之方法以及一種使用等候 中的專用求救信號執行任務同步發送預建的求救訊息之 方法’以及其中群集節點求救發訊器於偵測得故障事件 時送出預建的求救訊息給群集的其它節點。 丨0如申請專利範圍第9項之裝置,其中該群集求救節點發 訊器於故障事件存在之前有足夠時間時,使用非同步發 送預建的求救訊息之方法來許可更為有序的關機程序, 否則則採用同步發送預建的求救訊息之方法= 1丨.如申請專利範圍第9項之裝置,其中群集節點求救發訊 器包括一確保機制,其用以確保群集求救信號已經送給 群集的其它節點後該群集節點裝置本身由群集移開。 丨2.如申請專利範圍第9項之裝置—其_中群集求救節點發訊 器為駐在記憶體之作業系統之一部份。 11如申請專利範圍第9項之裝置,其中預建的求救訊息包 -22- 本坟張尺度这尺中闽國家標準i CNS )八4说格(2丨ox29?公釐) 466399 A8 B8 C-S D8 六、申請專利範圍 含預先建立的訊息物件。 14. 一種方法,包含下列步驟: 提供一預建的求救訊息指示群集之一節點正在經歷故 障事件;以及 當偵測得即將發生故障事件時,送出預建的求救訊 息。 15. 如申請專利範圍第1 4項之方法,進一步包含提供一專 用求救信號任務而處理並送出預建的求救訊息之步驟。 16. 如申請專利範園第1 4項之方法,其中送出預建的求救 訊息之步驟包含於存在有即將發生的故障事件前當有足 夠時間時’非同步送出預建的求救訊息而許可更爲有序 的關機程序,否則即同步送出預建的求救訊息。 17. 如申請專利範固第丨4項之方法,進一步包含於群集求 救訊息已經送給群集的其它節點後,確保該節點本身由 群集移開之步驟。 18. 如申請專利範園第t 4項之方法,其進一步包含決定即 將發生之故障事件類型之步骤β 19- 一種方法’包含下列步驟: 送出一預建的求救訊息指示群集之一節點正在經歷故 障事件; 提供一專用故障事件任務來處理並送出預建的求救訊 息: —- 偵測一即將發生的敁障事件; 當偵測得即將發生的故障事件之前存在有足夠時間 -23- 3 ® (CNS)A4 0J& (210 ---- ------------{裝--------訂---------^ I {請先閱讀背面之注意事項再填寫本頁) 經濟郭智慧財產局錢工泊货合作社印製 4 6 6 3 9 ABCD 申請專利範圍 時,非同步發送預建的求救訊息給群集的其它節點,否 則則同步送出預建的求救訊息給其它節點;以及 ----------- (請先間讀背而之注意事項再填寫本頁) 於群集求救信號已經送給群集的其它節點後,確定節 點本身由群集移開。 20_如申凊專利範圍第1 9項之方法,其中非同步送出預建 的求救訊息之步驟係使用專用求救信號任務,以及其中 同步送出預建的求救訊息之步驟係使用目前正在執行的 任務C 2〗.如申請專利範圍第1 9項之方法,其中預建的求救訊息 包含事先建立的訊息物件。一一 22. —種程式產物,包含: (A) 一群集節點求救發訊器,其包括一預建的求救訊 ^指示群集之一節點故障,群集節點求救發訊器於偵測 得故障事件時發送預建的求救訊息給群集的其它節點. 以及 ‘ (B) 信號承載媒體承載該群集節點求救發訊哭。 汀如申請專利範圍第22項之程式產物該:號承載 媒體包含發送媒體。 24. 如申請專利範圍第2 2項之程式產物, 經-部智总財產局員工消骨合作社印製 μ甲k號水載媒 體包含可錄式媒體。 25. 如申請專利範圍第2 2項之程式產物,其中群#節點束 救發訊器包括一專用求救信號,行任務, ⑺ 卉寺候於偵測 得故障事件時送出預建的求救訊息。 26. 如申請專利範圍第2 2項之程式產物,並φ /、τ砰集求救發 -24- 本紙張尺度適闪中國國家標準(CNS > Α4規格(210X297公ϋ ~~~-----訊器包括一種非同步發送預建的求救訊息之方法以及— 種同步發送預建的求救訊息之方法。 ---------f A-- (請先閲讀背面之注意事項再填寫本頁) 27. 如申請專利範圍第2 6項之程式產物,其中非同步發送 預建的求救訊息之方法係使用目前執行任務來送出預建 的求救訊息,以及其中同步送出預建的求救訊息之方法 係使用等候中的專用求救訊息執行任務。 28. =申請專利範固第2 7項之程式產物,其中該群集求救 即點發訊器於故障事件存在之前有足夠時間時,使用非 同步發送預建的求救訊息之方法來許可更為有序的關機 程序,否則則採用同步發送預—建的求救訊息之方法。 29. 如申請專利範圍第2 2項之程式產物,其中群集節點求 救發訊器包括一確保機制,其用以確保群集求救信號已 經送給群集的其它節點後該節點本身由群集移開。 30. 如申請專利範圍第22項之程式產物,其中群集求救節 點發訊器包含一整合的駐在記憶體中之作業系統部份。 3丨.如申請專利範圍第22項之程式產物,其中預建求救訊 息包含預先建立的訊息物件。 32. —種程式產物,包含: ^^.部智^时—局Ρ·工合作社印賀 (A) 一群集節點求救發訊器’其包括一預建的求救訊 息指示一群集節點裝置故障,其中群集節點求救發訊器 包括一種使用目前執行任務非同步送出預建的求救訊息 之万法以及一種使用等待中專甩求救信號執行任務同 步發送預建的求救訊息之方法’及其中群集節點求救發 訊器於偵測得故障事件時送出預建的求救訊息給群集的 -25- 本纸中®圉家標準(CNS) (21〇χ297公楚) ------- 6639 9 π'申請專利範圍 8 8 8 8 ABCD 其中信號承載弟 其中該群集求| ,、它節點;以及 ⑻I號承載媒體承載群集節點求救發訊器。 1 11申請專利範園第3 2項乏 固弗2袄式產物,其中該信號承裁 媒包含發送媒體。 ΜI申請專利範圍第3 2項之程式產物 體包含可錄式媒體。 35‘=申請專利範固第32項之程式產物…,…” 即點發訊器於故障事件存在之前有足夠時間時使用 同。步發送預建的求救訊息之方法來許可更為有序的關 程序,否則則採用同步發送預^的求救訊息之方法。 诋如申請專利範園第32項之程式產物,其中群集節點 救發訊器包括一確保機制,其用以確保群集求救信號 經送給群集的其它節點後該群集節點裝置本身由群集 開。 37. 如申請專利範圍第3 2項之程式產物,其中群集求救 點發訊器為駐在記憶體之作業系統之一部份。 38. 如申請專利範圍第3 2項之程式產物,其中預建的求 訊息包含預先建立的訊息物件。 (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部¾1.¾財A局员工;/]骨合作沣印裝 -26- ^^7^中國國家標準(〇奶)戍4現格(210;< 297公釐
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/281,026 US6442713B1 (en) | 1999-03-30 | 1999-03-30 | Cluster node distress signal |
Publications (1)
Publication Number | Publication Date |
---|---|
TW466399B true TW466399B (en) | 2001-12-01 |
Family
ID=23075659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW088122708A TW466399B (en) | 1999-03-30 | 1999-12-23 | Cluster node distress signal |
Country Status (6)
Country | Link |
---|---|
US (1) | US6442713B1 (zh) |
JP (1) | JP2000293497A (zh) |
KR (1) | KR100358663B1 (zh) |
CA (1) | CA2290289C (zh) |
SG (1) | SG90111A1 (zh) |
TW (1) | TW466399B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7032022B1 (en) | 1999-06-10 | 2006-04-18 | Alcatel | Statistics aggregation for policy-based network |
ATE301895T1 (de) * | 1999-06-10 | 2005-08-15 | Alcatel Internetworking Inc | System und verfahren zur automatischen erreichbarkeitsaktualisierung in virtuellen privaten netzen |
US6789213B2 (en) * | 2000-01-10 | 2004-09-07 | Sun Microsystems, Inc. | Controlled take over of services by remaining nodes of clustered computing system |
US6594786B1 (en) * | 2000-01-31 | 2003-07-15 | Hewlett-Packard Development Company, Lp | Fault tolerant high availability meter |
US6691244B1 (en) * | 2000-03-14 | 2004-02-10 | Sun Microsystems, Inc. | System and method for comprehensive availability management in a high-availability computer system |
US7606898B1 (en) | 2000-10-24 | 2009-10-20 | Microsoft Corporation | System and method for distributed management of shared computers |
US6952766B2 (en) * | 2001-03-15 | 2005-10-04 | International Business Machines Corporation | Automated node restart in clustered computer system |
US6918051B2 (en) * | 2001-04-06 | 2005-07-12 | International Business Machines Corporation | Node shutdown in clustered computer system |
JP4491167B2 (ja) * | 2001-04-27 | 2010-06-30 | 富士通株式会社 | 通信システムにおける管理装置のバックアップシステム |
US6880100B2 (en) * | 2001-07-18 | 2005-04-12 | Smartmatic Corp. | Peer-to-peer fault detection |
US6925582B2 (en) | 2001-08-01 | 2005-08-02 | International Business Machines Corporation | Forwarding of diagnostic messages in a group |
US7409427B2 (en) * | 2003-02-25 | 2008-08-05 | Bea Systems, Inc. | Systems and methods for lightweight conversations |
US8122106B2 (en) | 2003-03-06 | 2012-02-21 | Microsoft Corporation | Integrating design, deployment, and management phases for systems |
US7689676B2 (en) | 2003-03-06 | 2010-03-30 | Microsoft Corporation | Model-based policy application |
US7890543B2 (en) | 2003-03-06 | 2011-02-15 | Microsoft Corporation | Architecture for distributed computing system and automated design, deployment, and management of distributed applications |
US7657781B1 (en) * | 2003-07-25 | 2010-02-02 | Cisco Technology, Inc. | System and method for providing redundant data load sharing in a distributed network |
US7302607B2 (en) * | 2003-08-29 | 2007-11-27 | International Business Machines Corporation | Two node virtual shared disk cluster recovery |
US7228462B2 (en) * | 2004-01-23 | 2007-06-05 | Hewlett-Packard Development Company, L.P. | Cluster node status detection and communication |
US7778422B2 (en) * | 2004-02-27 | 2010-08-17 | Microsoft Corporation | Security associations for devices |
US20050246529A1 (en) * | 2004-04-30 | 2005-11-03 | Microsoft Corporation | Isolated persistent identity storage for authentication of computing devies |
DE102004032450B4 (de) * | 2004-06-29 | 2008-01-17 | Otten, Gert, Prof. Dr.med. | Chirurgische Vorrichtung zum Abklemmen organischen Gewebes, insbesondere von Blutgefäßen |
US8489728B2 (en) * | 2005-04-15 | 2013-07-16 | Microsoft Corporation | Model-based system monitoring |
US20060235664A1 (en) * | 2005-04-15 | 2006-10-19 | Microsoft Corporation | Model-based capacity planning |
US7802144B2 (en) * | 2005-04-15 | 2010-09-21 | Microsoft Corporation | Model-based system monitoring |
US7797147B2 (en) * | 2005-04-15 | 2010-09-14 | Microsoft Corporation | Model-based system monitoring |
US8549513B2 (en) | 2005-06-29 | 2013-10-01 | Microsoft Corporation | Model-based virtual system provisioning |
US7941309B2 (en) | 2005-11-02 | 2011-05-10 | Microsoft Corporation | Modeling IT operations/policies |
US8082340B2 (en) * | 2006-01-30 | 2011-12-20 | Cisco Technology, Inc. | Technique for distinguishing between link and node failure using bidirectional forwarding detection (BFD) |
US7801997B2 (en) | 2006-03-30 | 2010-09-21 | International Business Machines Corporation | Asynchronous interconnect protocol for a clustered DBMS |
US8312135B2 (en) * | 2007-02-02 | 2012-11-13 | Microsoft Corporation | Computing system infrastructure to administer distress messages |
US7937610B2 (en) * | 2007-04-27 | 2011-05-03 | International Business Machines Corporation | Fast node failure detection via disk based last gasp mechanism |
CN103297396B (zh) * | 2012-02-28 | 2016-05-18 | 国际商业机器公司 | 群集系统中管理故障转移的装置和方法 |
CN105574127A (zh) * | 2015-12-12 | 2016-05-11 | 天津南大通用数据技术股份有限公司 | 分布式数据库系统准实时的双活方法 |
CN113822395A (zh) * | 2021-08-19 | 2021-12-21 | 中铁二十四局集团上海电务电化有限公司 | 一种海底隧道电力物联网智慧管理系统 |
CN114095392B (zh) * | 2021-12-02 | 2022-04-08 | 深圳市光网视科技有限公司 | 一种基于物联网的通信电源监控方法和系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4453215A (en) * | 1981-10-01 | 1984-06-05 | Stratus Computer, Inc. | Central processing apparatus for fault-tolerant computing |
US5117352A (en) | 1989-10-20 | 1992-05-26 | Digital Equipment Corporation | Mechanism for fail-over notification |
US5371852A (en) * | 1992-10-14 | 1994-12-06 | International Business Machines Corporation | Method and apparatus for making a cluster of computers appear as a single host on a network |
US5440726A (en) * | 1994-06-22 | 1995-08-08 | At&T Corp. | Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications |
US5590277A (en) * | 1994-06-22 | 1996-12-31 | Lucent Technologies Inc. | Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications |
US5627962A (en) * | 1994-12-30 | 1997-05-06 | Compaq Computer Corporation | Circuit for reassigning the power-on processor in a multiprocessing system |
US5996075A (en) * | 1995-11-02 | 1999-11-30 | Sun Microsystems, Inc. | Method and apparatus for reliable disk fencing in a multicomputer system |
US5805785A (en) * | 1996-02-27 | 1998-09-08 | International Business Machines Corporation | Method for monitoring and recovery of subsystems in a distributed/clustered system |
JP3197279B2 (ja) * | 1996-06-20 | 2001-08-13 | 富士通株式会社 | 業務引継システム |
KR19980058552A (ko) * | 1996-12-30 | 1998-10-07 | 김영환 | 두 시스템간의 클러스터링(Clustering) 구현장치 |
US6151688A (en) * | 1997-02-21 | 2000-11-21 | Novell, Inc. | Resource management in a clustered computer system |
US6108699A (en) * | 1997-06-27 | 2000-08-22 | Sun Microsystems, Inc. | System and method for modifying membership in a clustered distributed computer system and updating system configuration |
US6003075A (en) * | 1997-07-07 | 1999-12-14 | International Business Machines Corporation | Enqueuing a configuration change in a network cluster and restore a prior configuration in a back up storage in reverse sequence ordered |
US6192483B1 (en) * | 1997-10-21 | 2001-02-20 | Sun Microsystems, Inc. | Data integrity and availability in a distributed computer system |
US6122735A (en) * | 1998-05-21 | 2000-09-19 | Intel Corp. | Fault resilient boot circuit using ring counter |
-
1999
- 1999-03-30 US US09/281,026 patent/US6442713B1/en not_active Expired - Lifetime
- 1999-11-22 CA CA002290289A patent/CA2290289C/en not_active Expired - Fee Related
- 1999-12-23 TW TW088122708A patent/TW466399B/zh not_active IP Right Cessation
-
2000
- 2000-03-13 SG SG200001455A patent/SG90111A1/en unknown
- 2000-03-16 JP JP2000073269A patent/JP2000293497A/ja active Pending
- 2000-03-22 KR KR1020000014476A patent/KR100358663B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20010006847A (ko) | 2001-01-26 |
JP2000293497A (ja) | 2000-10-20 |
CA2290289A1 (en) | 2000-09-30 |
SG90111A1 (en) | 2002-07-23 |
KR100358663B1 (ko) | 2002-10-30 |
US6442713B1 (en) | 2002-08-27 |
CA2290289C (en) | 2005-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW466399B (en) | Cluster node distress signal | |
US6502203B2 (en) | Method and apparatus for cluster system operation | |
JP3737695B2 (ja) | 透過的時間ベースの選択的ソフトウェア若返りのためのシステム及び方法 | |
JP5562444B2 (ja) | クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法 | |
US7043728B1 (en) | Methods and apparatus for fault-detecting and fault-tolerant process control | |
US8055735B2 (en) | Method and system for forming a cluster of networked nodes | |
US20050125557A1 (en) | Transaction transfer during a failover of a cluster controller | |
US7937610B2 (en) | Fast node failure detection via disk based last gasp mechanism | |
TW440755B (en) | Method and system for environmental sensing and control within a computer system | |
US20020129186A1 (en) | Replacement, upgrade and/or addition of hot-pluggable components in a computer system | |
JP2011060055A (ja) | 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム | |
CN104391764A (zh) | 一种计算机容错方法及系统 | |
US8073993B2 (en) | Management of redundant physical data paths in a computing system | |
CN106789398A (zh) | 一种媒体大数据hadoop集群监控的方法 | |
JP4182948B2 (ja) | フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法 | |
WO2021004256A1 (zh) | 一种节点故障时进行节点切换的方法及相关设备 | |
US20030065861A1 (en) | Dual system masters | |
US20040059862A1 (en) | Method and apparatus for providing redundant bus control | |
JPH08305592A (ja) | マルチプロセッサシステム | |
US8122166B2 (en) | Management of redundant physical data paths in a computing system | |
EP0987630A3 (en) | Resilience in a multi-computer system | |
CN115766410A (zh) | 一种机器工作状态切换方法、系统、装置及介质 | |
CN107426320A (zh) | 用于Openstack的信息处理方法和信息处理系统 | |
US20050022056A1 (en) | Access by distributed computers to a same hardware resource | |
JP2001175545A (ja) | サーバシステムおよび障害診断方法ならびに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |