TW466399B

TW466399B - Cluster node distress signal

Info

Publication number: TW466399B
Application number: TW088122708A
Authority: TW
Inventors: Timothy Roy Block; Lee Love Rodney
Original assignee: Ibm
Priority date: 1999-03-30
Filing date: 1999-12-23
Publication date: 2001-12-01
Also published as: KR20010006847A; JP2000293497A; CA2290289A1; SG90111A1; KR100358663B1; US6442713B1; CA2290289C

Description

經濟邡智慧財產局員工消費合作钍印製 466399 A7 ________B7 __ 五、發明說明（1 ) 發明背景 1, 技術領域概略而&本發明係關於群集化電路，特別係關於群集通訊之發出求救信號。 2. 背景技術在今曰電子時代，設備仰賴電腦系統取得各型資訊。基於硬體（例如半導體、電路板等）及軟體（例如電腦程式）之多種組合，電腦系統設計上有多種改變。今日許多電腦係設計用於與其它電腦系統連成「網路」。透過網路，單二電腦系統可接達儲存於其它電腦系統且由其它電腦系統吏理的資訊。如此網路使更大量電腦系統可接達更大量電予資源。網路係經由電腦系統間的實體「路由」以及符合通訊「協定」的使用而變成可能。選用何種協定随多種因素^ 定包括網路化電腦系統數目，各電腦系統的分隔距離，以及备電腦系統間之資訊交換目的。若僅少數電腦系统於緊鄰附近網路連結在一起，則通訊協定可極爲簡單。但隨著更多數電腦系統的增加以及隨著電腦系統分隔距離的力口大，此等通訊協定變得愈來愈複雜。通訊協定的複雜程度也隨資訊交換類型改變。例如菜此協定強調發送大量資訊時的準確度，而另有些協定強調資訊的移轉速度。於電腦系統網路上運作的應用程式之通訊要求決定所選用的協定類型。要求即時可靠的資訊移轉之電腦應用程式之一例爲「群集J管理應用程式。 -4- 本纸張义t適用中因S家標準（CNS)A4規格（2]〇 297公釐> (請先閲讀背面之注意事項再填寫本買) 裝---- 訂---------線{ 4 6 6 3 9 9 A7 -----------B7五、發明說明（2 ) I- 段-部智楚財產局員工消費合作社印製群集化乃電腦系統連網用以提供連續資源利用以及分擔工作負擔的目的。一電腦系統群集由電腦系統使用者觀點看來如同單一電腦系統，但實際上乃電腦系統網路彼此支援。若群集中有—電腦系統過載或故障，群集管理應用程式自動將故障中的電腦系統處理的任務重新指派給群集中的另電腦系統。如此由使用者觀點看來資源的利用性上並無間斷。典型群集的—個節點被指派給一應用程式（例如資庫词服器）之主要責任而其它節點被指定作爲後備任。當一種應用程式的主要節點故障時，群集中的後備外 ..古接起4應用程式的責任。如此確保該應用程式的高度利用性。群集化透過If _集之各電腦系统執行群集管理應用弋义成可flf此等應用程式跨越群集網路來回中繼群集 t ’控制群集活動。群集發訊也用於分配群集中的何者腦系統附有何種主要及後備責任的更新。爲了確保於群集上執行的應用程式的高度利用性，群必須可追縱—群集的全部節點狀態。爲達此項目的統連續監控同一群集的各個其它電腦系統俾腦系統的存活且正在執行指派給該電腦系統的給後備節點。草―'其王要貴任可指派 “不幸並非經常可了解群集中的何種節點已經故砰渠中點與其匕郎點間的網路連結故障，則 -5 適則侧家標準（CNS)A4規格（训；^公楚~ 料責程訊電集 -----------^ 裝·-------訂--------- * (請先閱讀背面之注意事項再填寫本頁) ^6 63 —---五、發明說明（3 A7 B7 經濟部智慧时產局員Η消費合作社印製群集無法了解該節點是否正常作業。但它與群嫠φ觉am u仍在運作中已智二二：郎點的網路連結已經故障’則稱該節點其餘部份中止：纟。當一節點出乎意外地與群集的中止相時，丨易決定節點是錢 * #群集m設㈣點已經故障且指定後備即點從事該應用程式主要貴任’則群集將有二節點認爲其乃主要節點。結果將導致資料庫^—致性，原馬二節點皆對群集的請求做出回應。它方面，若群集錯誤假足該節點仍然執行其主要應用y而僅係與群集隔入來，並未將主要貴任派給後備節點，則該應用程式將不可由群集客户取得利用。如此於多種情況下若未經行政理人員的人爲介入，群集無法對非通訊節點做出正應。隨著愈來愈多資源變成可跨越電腦系統網路接達，對等網路資源的連續接達需求也將增長。相對地群集作爲此等網路資源提供連續利用性的手段需求也將増長。若改良方法來決定群集節點現況，則將無法實現此等資源連續利用性。發明揭示根據本發明’提供一種群集節點求救系統其可改良群可靠度。當群集的一個節點接近故障時，群集節點求救统發出一群集節點求救信號》如此許可群集更明白確通訊節點是否已經故障或僅單純由節點隔離。較佳群點求救系統係深埋於作業系統，以及當偵測得該節點 -6 * 衣紙張尺嗄洎明山3國家標準（CNS)Al規格（2]ϋχ 297公釐）皆因開再管回此對無的集系定非集節迫在 -----------^^--------訂---------I {請先閱讀背面之注音？事項再填寫本頁) 466399 Α7 Β7 經濟部智慧財產局員Η消費合作社印& 五、發明說明（4 ) 眉睫的故障時提供一預建節點求救信號快速送至該群集的其它節點，改進於節點全然故障前節點求救信號已經送出的機率。當節點求救信號被有效送至群集的其它節點時，群集可準確決定該節點是否已經故障或尚未故障而僅由節點隔離開。如此許可群集可作正確回應，換言之，指派主要任務給其它節點而較少需要行政管理人員的介入。如此較佳具體實施例提供改良的群集可靠度以及減少對行政管理人員的依賴。前述及其它發明之特點及優點由後文本發明之較佳具體例之特殊説明以及附圖的舉例説明將顯然自明。圖式之簡單説明後文將就附圖説明本發明之較佳具體實施例，此處類似的標示代表類似的元件，附圖中：圖1爲根據本發明之較佳具體實施例之裝置之方塊圖；圖2爲示意圖説明根據本發明之較佳具體例之群集節點求救發訊器；β及圖3爲根據本發明之較佳具體實施例之群集求救發訊方法之流程圖。執行本發明之最佳模式本發明係關於群集通訊。對於通常不熟悉群集化構想者而言後文综論乙節提供多種基本構想及術語將有助於了解本發明之較佳具體實施例。群集化業界人士可跳過综論而直接前進至説明書之詳細説明部份。本纸張尺度適用中國國家標準（CNS)A4規格（210 X '297公釐） ------------Α^.-------訂---------I (猜先聞讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製〇 6 3 9 9 Α7 ______B7 五、發明說明（5 ) ΐ · 综論群集化爲多個電腦或多組電腦以許可電腦分擔工作且作爲彼此的備份方式鏈接在—起。如此即使群集中有—或多部電腦故障，群集仍許可電腦系統繼續運作並提供服務。由電腦使用者觀點看來，電腦系統的群集彷彿單一電腦系統。群集化對電腦群集使用者而言爲透明，使用者無須了解其係使用單-電腦系統或多個電腦系統。反而電腦群集使用者須關懷的是接取其所需資源例如資料庫、印表機、檔案等。經由將電腦系統群集在二多，可達成所需資源的連續利用性。將電腦系統群集在一起有許多優點。第—且最重要地，群，經由許可-群集内部的多個電腦系統彼此支援而提供更η利用&第—’群集藉由ϋ需要時許可增加額外電腦系統改良處理能力而提高擴充性。第三，工作負擔可平均由一群集的多個電腦系統分擔β 组成一群集的各電腦系統也稱㈣「節點」。技術上節點一詞表示處理器、通訊控制器或終端機。但用於群集使用目的時節點表示—群集中之個別電腦系統之一。典型一群集的各節點於支援群集上被指派給被指派的貴任可發揮一或多種功能例如提供存=任執腦應用程式’或提供接達硬體源例如印表機 '掃描各或傳眞機。群集之各節點彼此通訊而-確保全部節點皆發揮功能’換言各節點的群集化軟體皆存活且積極監控要求由主節點切換成後備節點的情況。二 -8 - 本紙狀变適;國家樣率（CNS)i4規格⑵0 χ 29卜）---- (請先閱讀背面之注意事項再填寫本頁) 裝--------訂---------線气 ^-6 6 39 9 A7 B7 哩濟耶智^財產局8工消费合作社印製五、發明說明（6 ) .一群集的各節點被指派主要及後備貴任。各應用程式的王要節點爲執行任務且與群集客户互動的節點。當主要節點變成無法執行其被指派的功能時，群集管理應用程式必須作動確定群集使用者仍然接達被指派給該無法工作節點的資源。/步及將該資源之後備節點之一切換成爲主要貴任。藉此方式，即使於主要負責提供該資源的電腦系統無法利用時，群集使用者仍可接取所需資源。群集管理應用程式以及各節點間的通訊基本架構使一群集由使用者觀點看來彷彿單一電腦系統工作a例如發訊給每個節點通知各節點有關該群集中其它節點的情況。發送説息給每個節點保持其更新有關對特定應用程式何種節點負有主要及後備貴任的資訊。如此防止多個節點嘗試執行互相衝突的工作’例如多個節點皆嘗試作爲某一特殊應用程式的主節點。若許可二節點皆視爲自身爲主節點工作，則可能發生例如資料不一致等問題。如此發訊給每個節點使其皆同意當一節點無法執行其被指派的貴任時將採行何種動作。群集中的每個節點須以正確順序接收此等群集訊息俾便確保群集適當發揮功能。一喫基本群集訊息稱作「心搏」。心搏爲介於一群集之士節點間發送的低階訊息，許可該節點追蹤目前何者節點適當發揮功能。例如各節點典型將以規則間隔時間發送— 心搏信號給其邏輯上毗鄰之一節點一。如-此該群集之各節點預期可以相同規則間隔時間接收到來自其邏輯毗鄰節點發送的心榑信號。若一節點有一段較長時間未接收到正確心 ~ 9 - 才、纸伋义t这用中S闷家標準（CN'S)A4規格x四7公釐） I-----------1 裝-----.---訂----------線 ί · t請先閱讀背面之江意事煩再瑱寫本頁) /I. 〇 6 39 9 瘦濟部智铋射產局員工消費合作‘社印製 Α7 Β7 五、發明說明（7 ) 搏信號’則該節點了解其鄰居節點可能發生問題β若繼續無法接收到心搏，則群集管理系統將嘗試採行適當動作。另一種群集監控其節點之道係透過訊息定時器。範例群集系統中，条送给一節點訊息故障，則將自動重新嘗試經歷一段設定時間。此外，可使用該節點可利用的其它位置嘗試發訊。若於多次嘗試後仍然無法送出訊息，則群集管理系統再度了解有問題而嘗試採行適當動作。不幸群集管理系統並非經常了解須採行何種適當動作。例如若一節點於群集其餘部份的網路連結故障，則群集無法了解該節點是否正常運作。若一節點仍在運作中但其與群集其它節點的網路連結已經故障，則稱該節點已經與群集「隔離」。當一節點出乎意外地停止與群集其餘部份通訊時，不易判定該節點是否故障或僅係與群集其餘部份隔離。若群集錯誤假定節點已經故障而實際上僅爲隔離，且指派該隔離節點的應用程式的主要貴任給一後備節點，則群集將有·一郎點相仏其本身乃主要節點。再度如此將導致二節點同時回應群集要求的資料不一致問題。它方面，若節點實際上已經故障而群集錯誤假定節點係隔離而未指派 4故障郎點的應用私式的主要貴任給一後備節點，則群集客户將無法利用該應用程式。如此於許多情況下若未經行政管理人員的人爲介入’群集將無法對非通訊節點作正確回應2 . 2. 詳細說明根據本發明，提供一種群集節點求救系統其可改良群集 -10- 表.¾¾汊这用3 [-3家標準（CNS)A'l規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) 裝 * -------訂---------1 · 經濟部智^財產局員工消費合作社印製 '5 6 39 9 A7 -—______B7 _ 五、發明說明（8 ) 可靠度。當群集的一個節點接近故障時，群集節點求救系統發出一群集節點求救信號。如此許可群集更明白確定非通訊節點是否已經故障或僅單純由節點隔離。較佳群集節點求救系統係深埋於作業系統，以及當偵測得該節點迫在眉睫的故障時提供一預建節點求救信號快速送至該群集的其它節點，改進於節點全然故障前節點求救信號已經送出的機率。當節點求救信號被有效送至群集的其它節點時，群集可準確決定該節點是否已經故障或尚未故障而僅由節點隔離開。如此許可群集可作正確回應，換言之，指派主要任務給其它節點而較少需要行政管理人員的介入。如此較佳具體實施例提供改良的群集可靠度以及減少對行政管理人員的依賴。現在參照圖1，根據本發明之較佳具體實施例之電腦系統1 0 0爲AS/400中程電腦系統。但業界人士了解本發明之方法及裝置同等適用於任何電腦系統，而與該電腦系統爲複雜的多使用者運算裝置或單一使用者設備例如個人電腦或工作站無關。舉例言之，業界人士了解此等功能也可提供給其它系統例如I B Μ公司的OS/2，OS/390及RS/6000，撖軟公司的視窗NT，諾維爾（Novell)公司的耐特韋 (NetWare )，立努克斯（Linux )及其它多種優尼克斯（Unix ) 系統3電腦系統1 0 0説明群集之一節點如何配置的較佳具體實施例細節，此處群集的其它節點駐在網路1 9 5。電腦系統1 0 0適當地包含一處理器！ 1 〇，一主記憶體！ 2 〇，一記憶體控制器1 3 0 ’ 一輔助儲存介面1 4 0，一終端機介面 | - 11 - 本纸張尺度適用中0國家標準（CNS)/\4規格（2〗〇 X 297公癸） ------------f 裝--------訂---------I {請先閱讀背面之注意事項再填寫本頁) 4 66 39 9 A7 五、發明說明（9 ) i 50及-網路介面19〇 ’全部皆透過一系統匿流排⑷互連m本發明範圍内對囷】舉例説明之電腦系統ι〇〇可做出多種修改、添加或刪除，例如加上快取記憶體或其它周邊裝置。圖1僅供舉例説明電腦系統i GG的若特點。處理器U0執行電腦系統1〇〇的計算與控制功能，包含適當中央處理單元(CPU) a處理器u〇包含單一積體電路不微處理器，或包含任何適當數目之積體電路裝置及/或电路板„作工作而達成處理器的功能。處理器1丨〇適合執行主έ己憶體1 2 〇内部所需電腦程式。輔助儲存介面丨40許可電腦系統1 〇〇儲存資訊以及由輔助儲存裝置例如磁碟（如硬碟或軟碟）或光學儲存裝置（例如CD-ROM)掏取資訊。—種合宜的儲存裝置爲直接存取儲存裝置（dasd) m。如圖】所示，DASD n〇可爲軟碟，，可由軟碟180讀取程式及資料。要緊地須注意雖然已二’T尤具有70整功能的電腦系統説明（且將繼續説明）本發明’但業界人士了解本發明之機構可分散成爲多種形式的衩式產物，本發明同等適用於此而與實際執行該分散工作 )載有仏號的媒體特殊形式無關。載有信號的媒體例如包 ^ f __ ‘可錄式媒體如軟碟（例如磁碟1 8 〇 )及CD R〇M，及傳輪類型媒體例如數位及類比通訊鏈接，包括無線通訊鏈 4矣〇 — 經由使用與處理器1丨0分開的處理器（圖中未顯示），記 k fla 制器1 3 〇負責移動被請求的資訊由主記憶體1 2 0及 -12- 本+ g家標準（CNS)A4規格（210 497公釐） ^ --------^---------I (請先閱讀背面之注意事項再填寫本頁) J 9 A7

¾濟郜智珐时產局員工消費合作社印製五、發明說明（1〇 ) /或通過輔助儲存介面14〇移動至處理器U〇。雖然供解釋目的之用，記憶體控制器130被顯示爲一分開實體，但業界人士了解實際上記憶體控制器1 3 0提供的部份功能可眞正駐在處理器110、主記憶體12〇及/或輔助儲存介面 1 4 0關聯的電路。終端機介面1 5 〇許可系統行政管理人員及電腦程式師與黾腦系統〗0 0通訊，通常係透過可程式工作站通訊。雖然圖1所不系統1 〇〇僅含單一組處理器丨】〇及單—系統匯流排1 6 0 ’但須了解本發明同等適用於具有多部處理器及多個系統匯流排之電腦系統。同理，雖然較佳具體實施例之系統匯流排1 6 0爲典型接線的多落式匯流排，但任何可於電腦相關環境下支援雙向通訊的連結裝置皆可使用。網路介面1 9 0支援網路！ 9 5之電腦系統丨〇〇與遠端電腦术統間的資訊移轉。較佳具體實施例中，網路1 9 5之一或多個節點以類似方式建立成與電腦系統1 〇〇作爲一群集工作。網路介面1 9 0適合包括一或多網路介面配接器1 9 3，各網路介面配接器1 9 3典型係作爲擴充卡，其容易增添至電腦系統如電腦系統1 〇〇 β網路介面配接器！ 9 3之實例包括周邊組件互連（PCI )擴充卡，產業標準架構（IS A )擴充卡’專屬配接卡’及任何類型現在已知或未來將發明的配接器。業界人士了解網路介面190之功能可直接具體實施爲主記憶體及處理器丨1 0之一部份。網路1 9 5代表業界人士已知之任何類型網路。包括網際網路、企業網路 '區域網路（LAN )、廣域網路（WAN )或任何軟硬體配置目前已 -13- 衣纸佐K 々P3 ί-3.家標準（CNS)A4規格（210 X 297公釐） --------I----{裝--------訂---------I C請先閲讀背面之注意事項再填寫本頁) 466399 ^^部智殳时產局3工消费合作社印裂 A7 B7 五、發明說明（11 ) 知或未來將發展供各電腦系統彼此間通訊的網路。網路 1 9 5上也存在有群集的其它節點。主記憶體120適合含有一或多應用程式12】，群集管理應用程式1 2 2及作業系統！ 2 3其包括群集節點求救發訊器 1 24。記憶體1 20的全部程式係以最廣義意義解釋，包括任何及全部形式的電腦程式，包括電腦程式之來源碼、中間碼、機器碼以及其它呈現碼。幸·^佳具體實施例中，應用程式1 2 1包含群集用於提供較而可靠度及擴充性的任何程式。如此應用程式1 2 ·|典型包括€細系統1 〇〇作爲主節點或後備節點的全部程式。此等應用程式例如包括網路伺服器、檔案伺服器、資料庫伺服器等。群集管理應用程式1 2 2提供所需機構來形成其管理群集。包括對一電腦群集管理的行政請求處理。舉例言之較伎包括形成一群集、增添節點至一群集以及由群集中移開節點等機制。較佳具體實施例中，群集求救發訊器1 2 4整合作業系統 1 2 3 ’當偵測得迫切的節點故障時提供最快速且最有效的适出#點求救信號的手段。須了解主記憶體1 2 0無須隨時含有所示全部機制的所有部份°例如部份應用程式1 2 1群集管理應用程式1 2 2及作丈系統1 2 3可載入處理器1丨0之指令快取記憶體（圖中未顯示）供執行，而其它檔案適合儲存於磁碟或光碟儲存裝 (圖中未顯示）。此外，雖然電腦程式皆顯示爲駐在同— -14- 本乂义’又遺丨丨珥ί·3家標準（CNS)A-l規格（2,10 >^97公釐） ---- - - - ----- - - - ----訂--- --- - - - I <請先閱讀背面之注意事項再填寫本頁) 466399 經濟部智慧財產局員工消费合作社印製 A7 B7 五、發明說明（12 ) 記憶體位置’但須了解主記憶體120可由多個記憶體位置組成β 「記憶體j 一詞用於此處表示於系統丨〇〇之虛擬記憶體空間的任何儲存位置。也須了解電腦系統〗0 0乃一群集中各節點的舉例説明，如此群集工各節點將可於故障時迅速送出節點求救信號给群集的其ΈΤ節點。然後各其它節點的群集管理應用程式 1 2 2可作適當回應’換言之，指派適當主要責任给群集的其它節點。現在參照圖2舉例説明群集節求救發訊器〗2 4之較佳具體實施例的進一步細節β如前述，群集節點求救發訊器 1 2 4配備有當節點出現迫在眉睫的故障時，發送求救信號給群集其它節點的機制。如此許可群集管理應用程式】2 2 (位於群集的其它節點上）可準確判定未回應的節點已經故障而非僅由群集隔離s 較佳具體實施例中，群集節點求救發訊器丨2 4整合於作業系統1 2 3許可其對節點的迫切故障做出快速回應。較佳具體實施例中，群集節點求救發訊器i 2 4包括求救發訊方法，預建的求救訊息，以及發送該訊息的專用求救信號任務。 ~ 最佳具體實施例中，有兩種求救發訊方法可供利用。— 者同步發送求救信號訊息，表示於停機期間待執行的所有其它方法皆將暫停至該訊息被證實^送爲止。另一種方法非同步發送求救信號，表示於開始發送求救發訊方法後群集節點仍可繼續處理其它任務。 -15- 本紙張刺令酬家標準（CNsiXi規格⑵ϋ X 297公«Τ (請先閱讀背面之注意事項再填寫本頁) 人t--------訂----- 银匕.)1 A7 -----B7_ 五、發明說明（13 ) 較佳具體實施例中，當有足夠時間來有序地關機該節點時係採用非同步方法許可於求救訊息正在發送時目前正在執行^它任務的線索準備關機。當準備與送出求救訊息時許可節點目如正在執行線索繼續執行其它任務具有可獲得更有序地關機的優點但也有於實際送出求救訊息前需要更長時間延遲的缺點。相反地，當故障係迫在眉睫而必須即刻送出求救訊息時以同步方法爲佳。同步方法可使目前執行線索上所有其它的處理暫停直到求救訊息送出爲止，結果可更快速送出節點求救訊息。例如若故障情況爲電源撤離但仍有蓄電池的後備電力，則於故障前有相對較長時間許可求救訊息非同步發送。如此許可執行更多並列動作例如其它關機過程，因而許可較爲有序地關機。舉另一實例，若故障情況爲硬體故障或丨P堆疊結束，則沒有時間等候，較佳同步送出求救訊息。如此可即刻發送預建的求救訊息，目前執行的線索未繼續執行其它處理至該訊息送出爲止。如此許可求救訊息儘可能快速送出，於某些案例可防止節點於求救訊息送出之前關閉。車乂佳具體贯施例中，同步求救發送訊息係於目前執行任務中處理，許可訊息更快速送出。特別目前任務可即刻送出訊息，而等待中的專用求救任務則須於送出訊息之前先被唤醒。但因目前任務用來發送求救訊息時不許其繼續前進至訊息被送出爲止，因此其它必須執行的動作將被暫緩3如此使用同步方法發送求救信號訊息可改進訊息於實 -16- 本呔張纥度適用中家標準（CNS)A4規格（210 X 297公釐） <請先閱讀背面之注意事項再填寫本頁) 人裝·--1 tT---------線( 經-"^智^財產局員工消費合作社印製 4 β 6 3 c? 9 A7 _______B7 —_ 五、發明說明（14 ) 際發生故障事件之前送出的機會但須犧牲其它處理。相反地，非同步求救信號訊息送到任務佇列中等候專用求救信號任務處理其内容。典型此種任務須被唤醒來執行訊息的發送，但由於佇列上並無其它等候事項，故仍比使用非專用任務更快速。一旦對專用求救任務採用非同步呼叫’則目前任務仍可繼續進行其它處理而無須等待求救信號的送出。 ° 發送訊息的專用求救信號任務較佳於作業系統包含—低階執行線索作爲一種處理。其可^施爲即刻任務而等候被呼叫時執行。當呼叫非同步求救發訊方法時，呼叫任務事件訊息佇列。然後其次可利用的處理器拾取此方法定義的碼並執行其處理。由於有專用任務來發送節點求救信號，因此琢方法無須於任務事件訊息佇列上等候。反而可由其次可供利用的處理器執行。典型作業系統有多個不同任務 π供於任何指疋時間執行，但每次各處理器僅執行一個任務，當處理器在等候時，則目前任務被放置—旁繼續從事 'l· 一個任務。 ' 頂建求救訊息較佳包括預先建立訊息物件其準備於故障事件時發送。訊息較佳包括―標頭指示其爲節點求救訊忍，以及發送該求救訊息的節點ID。訊息障理由(若已知)資料但非必要。括其故現在參照圖3，舉例説明根據較1具_體實施例送出節點求救訊號之方法5 00。第—步驟5〇2爲群集節點遭遇故障餐件。次一步驟5 04爲節點系統偵測得故障並於群集節點 -17- -------------f裝--------訂---------線f - (請先閱讀背面之注意事項再填寫本頁) 本紙A、t :¾丨丨…S円家揉準(CNSM，^721〇x2m) 466 A7 B7 經濟部智慧財產局員工消費合作杜印製五、發明說明（15 ) 求救發訊器上呼叫求救發訊方法。較佳具體實施例中’可能偵測得任何類型的故障事件，但實際上並非所有類型故障事件皆可充分偵測得而有時間作正確回應。例如一型故障爲喪失電力。較佳節點電腦系統可偵測得電力喪失同時仍然維持運轉夠長時間可送出群集4點求救信號。如前述，由於群集節點求救發訊器包括一預建求救信號，故節點求救信號可比較先前機構遠更快速發送。如此提高故障事件可及時偵測的可能，原因爲訊息係於節點冗全故障之前送出。至於故障事件之另一例，用以與其汜成員節點通訊的協定堆疊故障可於故障前構成時間由節點系統偵測得呼叫求援並送出求救訊息。當然僅有三種故障類型可由節點系統偵測得且帶有足夠事先警報送出群集節點求救信號。其它故障情況可能爲作業系統突然崩溃，一或多個硬體組件（例如驅動器、網路配接器等）故障。業界人士了解本發明之較佳具體實施例 Z應用至任何類型可事先充分偵測而送出求救信號的故 1 較佳具體實施例快速送出預建求救信號之能力將大減先前系統所需事先警報。作業系統較佳可辨識正在發生的故障事件類型，因此可 A故障發生前的時間量呼叫適當的求救發訊方法（亦即非司 > 或同步）。此外若作業系統並未認知故障類哩必須以非同步方式回應，則較佳呼叫同步法俾便確保求救訊息可於故障發生之前送出。 a —步驟5 0 6係供求救發訊方法使用專用求救信號任務 -18- 规格（2U) χ 297 公S ) ------------f 褒--------訂---------Ί ί靖先閱讀背面之注意事項再填寫本頁} ^66399 A7 B7 負可五、發明說明（16 ) 發送預建的求救k號給群集中的任何「聆聽者」。預建求救信號較佳包含送出訊息節點名稱的訊息物件。如此許可求救訊息快速置於協定堆疊上無須等候首先建立訊息。較佳具體例中’随制的故障事件類型以及殘留的發送預建求救信號時間量，可非同步或同步執行步驟5 〇 6。次一步驟506用於求救發訊方法確定節點中斷全部主要及後備貴任。再度不期望有多個節點皆f試對某個應用程式執行主要功能。如此藉由發送節點求救信號，此節點通知其它節點其無法再使用而須由1當的後備節點來替代。若由於某種理由而該節點復原，則'須保持原因在於另-節點可能已經開始執行該節點先=二貴的任務。如此，本發明之較佳具體實施例提供一種可改良群集』靠度之群集節點求救系统及方法。群集節點求救系統於群集的-節點即將故障時送出群集節點求救信號。如此許可群集更能決定非通訊節點是否故障或僅與群集隔離開來。較佳2集節點求救系統係深埋於作業系統内部，且提供— 預建節點求救信號，該信號可於偵測得節點迫切故障時快速运给群集的其它節點，改進節點求救信號於節點全然故障之前送出的機率。當節點求救信號被有效送給群集時，群集可準確判定該節點是否已經故障或尚未故障而僅與群 2離開來。如此許可群集作正確—回應：，換言之，指派其它節點負起主要任務作回應’且較少需要行政管理人員的介入0 19- 本尺度通用中國國家標準（CNS)A4規格（21ϋ X 29Γ公釐） 1. ^ Μ--------訂---------線 f . (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印裝 4 6 6 3 9 9 A7 B7 五、發明說明（17 ) 雖然已經特別參照較佳具體實施例顯示及説明本發明，但業界人士了解可未背離本發明之精髓及範圍就形式及細節上做出多種改變。 -----------人裝--------訂---------線f <請先閱讀背面之注意事項再填寫本頁) ^-部智祛財產局員工消費合作社印" -20 本％張尺1適用中0 0家標準（CXShVl規格（210 X 297公釐）

Claims

經-部智^財產局貨工消赀合作社印努 46639 9 Β88 C8 D8 六、申請專利範圍 1. 一種裝置，包含：至少一處理器；一記憶體耦合至至少一處理器；駐在該記憶體中之一群集節點求救發訊器，群集節％求救發訊器包括一預建求救訊息’其顯示群集之節點故障’群集節·结求救發机器於债測得故障事件時，送出預建的求救訊息給群集的其它節點β ' ’、 2. 如申請專利範圍第1項之裝置，其 „ 丹干群集節點求救發訊器包括一專用求救信號執行任務，装荽再寺候於偵測得故障事件時送出預建的求救訊息。 3. 如申請專利範圍第1項之裝置’其中群集求救發訊器包括一種非同步發送預建的求救訊息之方法以及一種同步發送預建的求救訊息之方法<3 4. 如申請專利範園第3項之裝置，其中非同步發送預建的求救訊息之方法係使用目前執行任務來送出預建的求救訊息，以及其中同步送出預建的求救訊息之方法係使用等候中的專用求救訊息執行任務。：>.如申請專利範園第4項之裝置，其中該群集求救節點發訊器於故障事件存在之前有足夠時間時，使用非同步發送預建的求救訊息之方法來許可更爲有序的關機程序，否則則採用同步發送預建的求救訊息之方法3 6.如申請專利範圍第丨項之裝置厂其中群集節點求救發訊器包括一機制用以確保群集求救信號已經送給群集的其它節點後該節點本身由群集移開。 -21 - ------------{裝--------訂---------1 (請先閱讀背面之沒意事項再填寫本頁) 木义:.¾¾ 家標準（CNS)A.l 規格（2KJ 的7公沒） 4 6 6 39 9 申請專利範国 ABCD

7. 如申請專利範圍第丨哭勿入一 Μ Λ " Τ砰木灰救節點發訊 5 正δ的駐在記憶體中之作業系統部份。 {請先閱讀背面之注意事項再填寫本頁) 8. 如申請專利範圍第i，之裝置’其中預建求救訊息包含預先建JL的訊息物件。 9. —種群集節點裝置，包含：至少一處理器；一搞合至至少一處理器之記憶體；一群集節點求救發訊器，其駐在該記憶體，群集節點求救發訊器包括一預建的求救訊息指示群集節點裝置故障，其中群集節點求救發訊^包括—種使用目前執行任務非同步發送預建的求救訊息之方法以及一種使用等候中的專用求救信號執行任務同步發送預建的求救訊息之方法’以及其中群集節點求救發訊器於偵測得故障事件時送出預建的求救訊息給群集的其它節點。丨0如申請專利範圍第9項之裝置，其中該群集求救節點發訊器於故障事件存在之前有足夠時間時，使用非同步發送預建的求救訊息之方法來許可更為有序的關機程序，否則則採用同步發送預建的求救訊息之方法= 1丨.如申請專利範圍第9項之裝置，其中群集節點求救發訊器包括一確保機制，其用以確保群集求救信號已經送給群集的其它節點後該群集節點裝置本身由群集移開。丨2.如申請專利範圍第9項之裝置—其_中群集求救節點發訊器為駐在記憶體之作業系統之一部份。 11如申請專利範圍第9項之裝置，其中預建的求救訊息包 -22- 本坟張尺度这尺中闽國家標準i CNS )八4说格（2丨ox29?公釐） 466399 A8 B8 C-S D8 六、申請專利範圍含預先建立的訊息物件。 14. 一種方法，包含下列步驟：提供一預建的求救訊息指示群集之一節點正在經歷故障事件；以及當偵測得即將發生故障事件時，送出預建的求救訊息。 15. 如申請專利範圍第1 4項之方法，進一步包含提供一專用求救信號任務而處理並送出預建的求救訊息之步驟。 16. 如申請專利範園第1 4項之方法，其中送出預建的求救訊息之步驟包含於存在有即將發生的故障事件前當有足夠時間時’非同步送出預建的求救訊息而許可更爲有序的關機程序，否則即同步送出預建的求救訊息。 17. 如申請專利範固第丨4項之方法，進一步包含於群集求救訊息已經送給群集的其它節點後，確保該節點本身由群集移開之步驟。 18. 如申請專利範園第t 4項之方法，其進一步包含決定即將發生之故障事件類型之步骤β 19- 一種方法’包含下列步驟：送出一預建的求救訊息指示群集之一節點正在經歷故障事件；提供一專用故障事件任務來處理並送出預建的求救訊息： —- 偵測一即將發生的敁障事件；當偵測得即將發生的故障事件之前存在有足夠時間 -23- 3 ® (CNS)A4 0J& (210 ---- ------------{裝--------訂---------^ I {請先閱讀背面之注意事項再填寫本頁) 經濟郭智慧財產局錢工泊货合作社印製 4 6 6 3 9 ABCD 申請專利範圍時，非同步發送預建的求救訊息給群集的其它節點，否則則同步送出預建的求救訊息給其它節點；以及 ----------- (請先間讀背而之注意事項再填寫本頁) 於群集求救信號已經送給群集的其它節點後，確定節點本身由群集移開。 20_如申凊專利範圍第1 9項之方法，其中非同步送出預建的求救訊息之步驟係使用專用求救信號任務，以及其中同步送出預建的求救訊息之步驟係使用目前正在執行的任務C 2〗.如申請專利範圍第1 9項之方法，其中預建的求救訊息包含事先建立的訊息物件。一一 22. —種程式產物，包含： (A) 一群集節點求救發訊器，其包括一預建的求救訊 ^指示群集之一節點故障，群集節點求救發訊器於偵測得故障事件時發送預建的求救訊息給群集的其它節點. 以及 ‘ (B) 信號承載媒體承載該群集節點求救發訊哭。汀如申請專利範圍第22項之程式產物該：號承載媒體包含發送媒體。 24. 如申請專利範圍第2 2項之程式產物，經-部智总財產局員工消骨合作社印製 μ甲k號水載媒體包含可錄式媒體。 25. 如申請專利範圍第2 2項之程式產物，其中群#節點束救發訊器包括一專用求救信號，行任務， ⑺ 卉寺候於偵測得故障事件時送出預建的求救訊息。 26. 如申請專利範圍第2 2項之程式產物，並φ /、τ砰集求救發 -24- 本紙張尺度適闪中國國家標準（CNS > Α4規格（210X297公ϋ ~~~-----

訊器包括一種非同步發送預建的求救訊息之方法以及— 種同步發送預建的求救訊息之方法。 ---------f A-- (請先閲讀背面之注意事項再填寫本頁) 27. 如申請專利範圍第2 6項之程式產物，其中非同步發送預建的求救訊息之方法係使用目前執行任務來送出預建的求救訊息，以及其中同步送出預建的求救訊息之方法係使用等候中的專用求救訊息執行任務。 28. =申請專利範固第2 7項之程式產物，其中該群集求救即點發訊器於故障事件存在之前有足夠時間時，使用非同步發送預建的求救訊息之方法來許可更為有序的關機程序，否則則採用同步發送預—建的求救訊息之方法。 29. 如申請專利範圍第2 2項之程式產物，其中群集節點求救發訊器包括一確保機制，其用以確保群集求救信號已經送給群集的其它節點後該節點本身由群集移開。 30. 如申請專利範圍第22項之程式產物，其中群集求救節點發訊器包含一整合的駐在記憶體中之作業系統部份。 3丨.如申請專利範圍第22項之程式產物，其中預建求救訊息包含預先建立的訊息物件。 32. —種程式產物，包含： ^^.部智^时—局Ρ·工合作社印賀 (A) 一群集節點求救發訊器’其包括一預建的求救訊息指示一群集節點裝置故障，其中群集節點求救發訊器包括一種使用目前執行任務非同步送出預建的求救訊息之万法以及一種使用等待中專甩求救信號執行任務同步發送預建的求救訊息之方法’及其中群集節點求救發訊器於偵測得故障事件時送出預建的求救訊息給群集的 -25- 本纸中®圉家標準（CNS) (21〇χ297公楚) ------- 6639 9 π'申請專利範圍 8 8 8 8 ABCD 其中信號承載弟其中該群集求| ，、它節點；以及 ⑻I號承載媒體承載群集節點求救發訊器。 1 11申請專利範園第3 2項乏固弗2袄式產物，其中該信號承裁媒包含發送媒體。 ΜI申請專利範圍第3 2項之程式產物體包含可錄式媒體。 35‘=申請專利範固第32項之程式產物…，…” 即點發訊器於故障事件存在之前有足夠時間時使用同。步發送預建的求救訊息之方法來許可更為有序的關程序，否則則採用同步發送預^的求救訊息之方法。诋如申請專利範園第32項之程式產物，其中群集節點救發訊器包括一確保機制，其用以確保群集求救信號經送給群集的其它節點後該群集節點裝置本身由群集開。 37. 如申請專利範圍第3 2項之程式產物，其中群集求救點發訊器為駐在記憶體之作業系統之一部份。 38. 如申請專利範圍第3 2項之程式產物，其中預建的求訊息包含預先建立的訊息物件。 (請先閱讀背面之注意事項再填寫本頁) 訂經濟部¾1.¾財A局员工;/]骨合作沣印裝 -26- ^^7^中國國家標準（〇奶）戍4現格（210;< 297公釐