TW523656B

TW523656B - Method and apparatus for building and managing multi-clustered computer systems

Info

Publication number: TW523656B
Application number: TW089101301A
Authority: TW
Inventors: Ching-Yun Chao; Patrick M Goal; Richard James Mccarty
Original assignee: Ibm
Priority date: 1999-01-29
Filing date: 2000-01-26
Publication date: 2003-03-11
Also published as: KR20000076513A; EP1024428A2; JP4307673B2; EP1024428A3; ATE434218T1; JP2000222373A; KR100368078B1; US6438705B1; EP1024428B1; DE60042379D1

Description

523656 A7 B7 五、發明說明（1 ) 經濟部智慧財產局員工消費合作社印製相關專利申請之交叉參考本發明係關於下列專利申請：名稱爲” Method And Apparatus For Building And Managing Multi-Clustered Computer Systems”，序號 09/181,825，流水號 AT9-98- 3 74，於1998年1 0月2 9日歸檔，指配給與本本發明相同之權利人，且在此提及該專利申請以供參考。發明背景1 ·技術領域：本發明概言之係關於一種分散式資料處理系統，且明確地説係關於一種用以管理一分散式資料處理系統内之伺服器系統之方法及裝置。更明確地説，本發明係關於一種用以管理群集電腦系統之方法及裝置。 2 ·相關技術説明： -群集電m统是-種平行或分散式系統，且該系統包含-组互連之完整電腦並充當單一，統一之計算資源。前述定義之"完整電腦"這個術語意謂表示構成—獨立，可用電腦之组件之正常组合：一或更多處理器，—可接受數量之記憶體，輸入/輸出設備，與一作業系統。群集及：統：散式系統間之另-不同點在於元件間之_。現代分系統使用-位於其下之對等式通訊層。不存在本質的⑼ 或其他結構，只有一扁平表列之通訊個體。但是，'在較二之抽象層次，他們通常組織成爲—主從架構。 ^ 之系統複雜度降低。群集通常具有—對等關係、八有三種技術趨勢可解釋群集之風行。首先，微處理器愈 (請先閱讀背面之注意事項再填寫本頁) -i.

MW --------^--------- -4 -

本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公f_ 523656 2 五、發明說明（來愈快。微處理器變得愈快，則大量平行系統變得愈不重要。不再必須使用超級電腦或數千微處理器之聚集來達成逦當快速之結果。增加群集電腦系統之風行之第二趨勢是電腦間之高速通訊之增加。—群集電腦系統也稱爲一 ”群集 ^cluster)。此種標準化通訊設備之導入，例如光纖通道標準（CS)非同步傳輸模式（ATM)，可伸縮型同調互連 (SC” 及父換式十億位元乙太網路，提高電腦間之頻寬自千萬位元/和至數億位元/秒及甚至十億位元/秒。最後，，人已爲分散式計算開發許多標準工具。分散式計算之需求已產生可受到調整以管理機器群集之一組軟體工具。某些軟體工具，例如網際網路通訊協定集合(稱爲旧⑽及 ^DP/IP—)，流行成爲無所不在之事實標準。建立於基本架構上W階設施’例如企業内部網路（int刪），網際網路 ⑽⑽）及全球資訊網（www)，同樣變得無所不在。除用：：重感測官理之其他工具集合也變得很常 :架:形成可供插入以產生群集軟體之有效基除了邊二技術趨勢以外，雷牆、、基本上，市場正尋求高度可# 場正逐漸成長。經濟部智慧財產局員工消費合作社印製是電腦網路必須具有"高度可用性 =例此事實之另-説法以支援-網站，則其之使用不：’如果電腦是用間。換句話説，電腦可在全年之每:局限於正常營業時到存取。沒有安全時間可供關機以推天，—天24小時，受爲如μ隹、+返行修理。相反地，因集之其他電腦會自動接手本紙張I度適0家標準（CNS)_A4規格咖χ -5 523656

該電腦之1作直職電腦修復爲止，相群集電腦系統很有用。因此不會展現任何當機時間，或者使用者不會偵出任何當機時間。爲了其他原因企業也需要”高度可用性，，。例如，企業對企業I企業内部網路用途涉及連接公司至承包商或廠商。如果企業内部網路之檔案伺服器當機，許多公司之工作皆會受到強烈影響。如果一企業擁有行動工作人員，則該工作人員必須能夠連接辦公室來下載資訊及訊息。如果辦公 A之伺服器當機’則該工作人員之效率將降低。當沒有可置換之組件是單一故障點時，一電腦系統是高度可用，且總體而言，該電腦系統足夠可靠以致一故障元件可在其他元件發生故障之前修復。群集用以達成高度可用性之基本技術是故障轉移（fail〇ver)。此概念非常^單· 一電腦（A)照顧另一電腦（B);如果B當機，則A接手工作。因此，故障轉移涉及移動”資源”自一節點至另一節點。節點是電腦之另一等效術語。潛在上許多不同種類事務也受到涉及··實體磁碟擁有權，邏輯磁碟容量，1?位址，應用程序，子系統，列印佇列，共享資料系統之群集範疇鎖定集合，等等。 $ 資源彼此相依。因爲，例如，當一應用使用之資料移動至一節點時，移動該應用至另一節點並無幫助，所以二種關係很重要。實際上，如果在必需之磁碟容量受到安裝之前啓動一應用，則移動該應用及該應用使用之資料至相同節點並無幫助。 -6 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

(請先閱讀背面之注意事項再填寫本頁) --------tr---------線一經濟部智慧財產局員工消費合作社印製 ^3656

經濟部智慧財產局員工消費合作社印製 H見代群集系統中，例如IBM HACMP及Mi W0lfpaek、"’資源關係資訊維持於一群集料資料擋案。二：相資源组織成爲一資源群組，且儲存成爲該資料 *心-階|。一資源群組是故障轉移之基本單位。八看諸圖，且尤其請參看圖1，-可建構本發明之刀散式Λ料處理系統之圖形受到描述。分散：：料處理系統100是一可建構本發明之電腦網。为散式資料處理系統100包含一或更多公用網路101，且孩公用網路是提供分散式資料處理系統⑽内所連接之各種裝置’從屬電腦，與伺服器電腦間之通訊鏈結的媒體。網路100可包含永久性連結，例如符記環，乙太網路l〇OMb乙太網路，Gigabit乙太網路，FDDI環， ATM ’與高速交換機，或藉由電話連結來達成之暫時性連結。從屬電腦130及13 1經由公用網路1〇1來與伺服器電腦 110，111，112，與113進行通訊。口电甸分散式資料處理系統100可隨意具有其本身細。網路1〇2之通訊可藉由一些裝置來進行：= 路，例如101，共享記憶體，共享磁碟，或任何其他裝置。在所描述之範例中，一些伺服器i 10，i i im，及 113疋經由公用網路10i以及私用網路i〇2來連接。該等伺服器運用私用網路102來降低起源於彼此悸動與執=隸屬及η-階段提交協定之通訊架空。卞在描述之範例中，所有伺服器皆連接至—共享磁碟儲存裝置124，最好是獨立磁碟冗餘陣列（RAID)裝置以獲得較 -7- 本紙張尺度剌+目目家標準（CNS)A4規格（21〇 x 297公釐） · J --------tr---------線· (請先閱讀背面之注意事項再填寫本頁) 5523656 A7 B7 五、發明說明（ (請先閱讀背面之注音？事項再填寫本頁) 佳可#度’且孩儲存裝置是用以儲存使用者應用資料。資料可變爲鬲度可用是因爲，當一伺服器發生故障時，共享磁碟分割及邏輯磁碟容量可故障轉移另一節點，以致該資料繼續可供使用。共享磁碟互連可爲小型電腦系統介面 (SCSI)匯泥排，光纖通道，與國際商業機器公司之串列儲存架構（IBM SSA)。另外，每一伺服機器也可具有本地資料儲存裝置120，121，122，及123。圖is意欲做爲一範例’而非做爲本發明之程序之架構限制。請參看圖2a，使用微軟群集服務（MSCS)i群集電腦系統 200是設計成爲使得^^丁伺服器型應用具有高度可用性。最初之MSCS在具有2節點202，2〇4，共享磁碟2〇8之群集中支援故障轉移功能。經濟部智慧財產局員工消費合作社印製每一MSCS群集包含一或二節點。每一節點執行其本身之微軟群集服務拷貝。每一節點也具有一或更多資源監測程式，以與微軟群集服務進行互動。該等監測程式”通知，，微軟群集服務關於個別資源之狀態。如果有必要的話，資源監測程式可藉由使用資源DLL來操縱個別資源。當一資源發生故障時，微軟群集服務將在本地節點上重新啓動該資源，或移動該資源群組至另一節點，視資源重新啓動策略及資源群組故障轉移及群集狀態而定。 MSCS群集之_郎點彼此悸動206。當一節點發生故障時，亦即無法傳送悸動信號至另一節點時，其之所有資源群組將在另一節點上受到重新啓動。當一群集節點受到啓動時，群集服務在事件處理器之控制下自動受到啓始。除 8 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

經濟部智慧財產局員工消費合作社印製行:::件::::件之其正常角色以外，事件處理器執加入或產生群ί者°訴節點管理器，也稱爲隸屬管理器，節點管理器之正堂 e _ ....^ * 作疋猎由運用與其他節點管理器間 :菸由：/來產生群集隸屬之狀態之-致情形。節點管理是‘而：：其之群集組態資料庫拷貝之資訊來得知他們疋而群集組態資料庫實際上是視窗NT登記器之一部份 -疋以不同万式來更新）。節點管理器最初嘗試接觸另一郎點’且如果其成功的話’則其藉由提供驗證（密碼，群隹名稱^其本身之識別，等等）來嘗試加人該群集。如果有Γ 既存群集，且爲了某種原因我們之新節點之加人嘗試受到拒絕，則該節點及位於該節點之群集服務將關閉。 ★但是，如果另一節點未回應一節點之加入請求，則節點 ^理器嘗試開始-新群集。爲達成此目標，其使用一特殊資源，稱爲配額資源，而配額資源如同所有資源一般指定卞 ' 、'且心貝料庫。每一群集只有一配額資源。配額資源實際上是一磁碟；如果其是一磁碟，則最好使得該磁碟受到鏡射，或成爲容錯，以及成爲具有冗餘轉接器接點之多埠型，因爲否則其將是該群集之單一故障點。做爲一配額資源之裝置可爲具有下列三特性之任何裝置：該裝置可持久地儲存資料（即使發生故障），·另一群集節點可存取該裝置；且該裝置可在排除所有其他節點之下爲另一裝置強迫取得。SCSI及其他磁碟協定，例如ss A及FC-AL恰好允許此運作。 -9 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

--------tr---------% (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明（7 ) 配額資源實際上是群集、_ ^ 額資源之節點獨特定羲鮮集^把桉制鎖定。成功擷取配變爲群集之一部份。如此口。、另—郎點必須加入該節點以群集通訊可能發生故障以j 割群集之問題。内部二分割。控制配額資^ 衣群集成爲無法彼此通訊之集。原〈郎點是群集，且不存在其他群一旦一節點加入或形成— ，、μ 重σ奋如甘、4处、先木貝】咸郎點下一件要做的鲁m貝料庫以反映，當其脱離該群集時，所 I施之變更。組態資科庫管理器可進行此項工作是因爲，當然，對於該資料庫之變更、二五本η ★ u絲卜主更、在所有節點一致遵循異動浯法，且在此種情形之下， ^ ^ , 匕以及记錄儲存於配額資源之〜戈卜貧原心"己錄 < 後，新節點將開始取㈣源。該等資源可爲磁碟，ΙΡ名稱，網路名稱，應用，或可馬離線或連線〈任何其他事物。他們皆表列於组態資料庫，連同他們想要在那些節點執行，他們可執行之節點 (某些節點可能未連接至適當之磁碟或網路），他們彼此之關係，與關於他們之任何其他事情。資源_般是形成資源群組，且以資源群組爲單位來管理。例如，一ιρ位址:一檔案共享部份（一檔案系統之可共享單位），與一邏輯容量’可能是一資源群組之關鍵組件，且該資源群組提供一網路檔案系統給從屬。相依性受到追蹤，且沒有資源可爲多於一資源群组之一部份，而且除非二應用屬於相同之資源群組，否則該二應用之資源共享會受到禁止。新節點之故障轉移管理器受到要求必須找出那些資源應 -10- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 1 ---------------tr---------線» (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 —__B7 五、發明說明（）移動（故障轉移）至新節點。新節點之故障轉移管理器是藉由與另一節點之故障轉移管理器協商，使用例如該等資源之優選節點之類的資訊，來完成此項工作。當該二管理器達成一共同決定，應自另一節點移動至此節點之任何資源群組在該節點變爲離線；當該項動作完成時，資源管理器開始使得該等資源群組在新節點變爲連線。資料庫軟體之每一主要廒商皆具有可運作於多重NT伺服器之他們資料庫之版本。IBM DB2延伸企業版本可在32節點上執行。IBM PC公司已出貨一執行甲骨文平行伺服器之 6節點P C伺服器系統。沒有適當之系統群集軟體適用於更大之群集。 ' 在6-節點甲骨文平行伺服器系統中，該六節點共享相同之磁碟儲存空間。曱骨文使用其本身之群集特點來管理資源及執行負載平衡與故障回復。在該等群集上執行他們本身之應用軟體之顧客需要系統群集特點以使他們之應用高度可供使用。 u 请參看圖2B，DB2—般使用非共享架構21〇，其中每一節點212具有其本身之資料儲存器214。資料庫受到分割且資料庫請求是配送至所有節點以供平行處理。爲達成高度可用性，D B 2使用系統群集化之故障轉移功能。因爲 MSCS只支援二節點，DB2必須如圖所示指配一預備節點 216給每一節點212。此外，如圖2c所示，DB2可允許每一對MSCS節點間之相互故障轉移。換句話説，二節點2， 212a相互耦接至二資料儲存器214，214&。前者將使系統之 ---,----------------訂---------線^^- (請先閱讀背面之注意事項再填寫本頁)

523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（9 ) " ~ ^本增加一倍’而當—節點發生故障時，後者將出現效能 ^化。因爲資料庫存取是配送至所有節點且平行受到處理，所以同時執行其之則實例與故障轉移之實例的節點變成效能瓶頸。換句話説，如果節點仙發生故障，則節點212接手其之工作且存取該二資料儲存器之平行執行其之工作。一疋因此，最好具有一用以管理群集電腦系統之改良方法及裝置。此種改良應允許支援自一節點至自一群組之許多節點中選出之另一節點的故障轉移。發明摘要本發明提供一種方法及裝置以管理群集電腦系統，且藉由提供一機制以管理一些群集電腦系統，也稱爲”群集，，，來延伸群集化至非常大之群集。尤其，本發明偵測一%些群集電腦系統内之一群集電腦系統之一重新啓動的開始。該群集電腦系統之重新啓動之開始將導致該群集電腦系統在一選足之狀態下重新啓動。除此之外，此群集電腦系統包含一或更多資源。回應於決定受到重新啓動之群集電腦系統内之一或更多資源目前在該群集電腦系統内之另一節點是連線，則該等資源之重新啓動將受到阻止。附圖簡短説明據信爲本發明之特徵之新奇特點陳述於附加之申請專利範圍。但是，當參照附圖來閲讀一示範實例之下列詳細説明時，應可最易瞭解本發明本身，以及本發明之_較佳使用模式，其他目標及優點，其中： -12- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） * J --------tr---------線# (請先閱讀背面之注意事項再填寫本頁) 523656

、發明說明（圖1是可建構本發明之-分散式資料處理系統之圖形； (請先閱讀背面之注意事項再填寫本頁) 圖2a ’ 2b ’及2。提供微軟鞭8產品及其之建構限制的展示；圖3，3a，3b及3c展示本發明，及展示其跨越許多群集，例如MSCS群集，之建構；圖4，4a及4b是本發明用以控制多個群集之方法之流圖；且圖5及6是包含用於本發明之組態，狀態，及事件處理規則範例之SQL表。附圖詳細説明本發明延伸微軟群集管理器功能以管理更大之群集，但仍保留其之容易使用特徵。當在本申請專利中討論時，，，多群集”意謂具有二或更多群集電腦系統之群集。另外，本群集系統支援在具有二或更多節點之更大群集之任二節點間的資源群組故障轉移。萬一發生故障事件，經濟部智慧財產局員工消費合作社印製則本系統也會保留整個群集之應用狀態資訊。同時，本系統無需改變目前可用之群集電腦系統產品之建構。例如，對於MSCS，本發明之建構無需微軟及應用廠商對於他們目前之群集碼做出任何修改以執行於此系統之環境。相反地，本系統提供MSCS群集API DLL之一建構，且該建構是二進位相容於MSCS群集API DLL。一多群集通常包含多於一位於其下之群集。本發明提供一可配置一具有多個MSCS群集之群集之群集管理器。一多群集之資源是在群集服務之監督下由每一個別群集來管 13- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 523656 A7 B7 五、發明說明（經濟部智慧財產局員工消費合作社印製理。微軟資源API及微軟群集監督器延伸Αρι無需受到修改。群集管理器可照樣使用針.MSCS開發之任何群集監督器延伸DLL，而無需任何修改。無論是否針對MSCS來進行強化，應用皆可輕易運用本發明之系統群集化特點。本發明允許一大群集之任二節點間 <應用故障轉移，而非一對節點間之相互故障轉移。本發明允許一群集藉由增加一具有一對節點或單一節點之 MSCS群集來變大。本發明可支援3_節點群集之事實對於想要進一步改良他們在2_節點群集之關鍵任務應用之可用性的許多顧客而言非常具有吸引力。使用MSCS之應用，例如DB2延伸企業版本，可輕易運用多群集系統群集化特點。DB2/EEE藉由區分節點成對及允許每一對節點間之相互故障轉移來利用Mscs特點，如前文參照圖2c所討論。本發明可藉由支援^^向故障轉移來改良DB2之可用性’或藉由支援具有一預備節點之n+^模式來改艮DB2之效能特徵。在最常發生之單—節點故障事件中故障節點之DB2/EEE實例將在預備節點上重新啓動，且依照N+1模式來維持相同之效能。系服鼓以-高階語言來表示，且該高階語言可=受= 改、符a應用廠商之特殊需求。例如，此允許與一多群集之整合較與— MSCS群集容易。、，必須瞭解的是本發明可用於任何群集服務程式。雖然描述（範例展示一多群集内之MSCS群集，本發明之程序，機制，與指令可用以管理所有種類之群集。本發明未在任 (請先閱讀背面之注咅？事項再填寫本頁) 訂---------線表 -14-

本紙張尺‘適用中國國豕標準（CNS)A4規格（210 X 297公爱） 523656 A7 12 現在請參看圖3 之圖形受到描述圖3 a所示之硬體擴充至更大大小五、發明說明（ :方面受限於特定產品。例如，本發明可用於異質多群可建構本發明之_分散式資料處理系統圖3，，及3c所示之軟體3〇0可建構於本文所展示之多群集軟體之，程序可輕易〜例如’圖3 a展示一8-節點组態，其中每 1點350藉由磁碟控制器36味接至_儲存组件鳩二，群集服務綱允許此8節點群集之任二節點間之故障轉和。群集服務"這個術語在本文之用途是用以表示本發明所提供之服務。群集服務，例如群集服務綱，是用以抑制一群集，例如MSCS群集。其可用於前所討論之甲骨: 群集或DB2群集。當該7節點之任—節點發生故障時，㈣實例將在第8個節點重新啓動且系統之效能將維持不變。這稱爲N+1故障轉移模式。其他組態也受到支援。例如，每-節點皆可執行-作用DB2實例，且備份其他7節點以使可靠度取大化。MSCS在描述之範例中是用以執行單—節點之資源管理。微軟未與其他廠商共享其在wind〇wsNT之資源官理APIS，且其他廠商無法輕易執行資源管理。某些廠商建構他們本身之裝置驅動程式與Tcp/Ip.定堆疊。這導致不相容於MSCS群集API與資源API。本發明使用Mscs 來管理單一節點之資源，且因此無需知道内部之NT Apis。再一次，雖然本文參考微軟群集產品，本發明未在任何方面受限於使用該產品。本發明可用於任何群集服務程式。請參看圖3，群集服務3〇4控制MSCS 306以使一資源及一 -15- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） - · ^-------------tT---------線# (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製五經濟部智慧財產局員工消費合作社印製 523656 A7 B7 13 發明說明（）資源群組在節點350成爲連線或離線。群集服務304如圖所示控制MSCS 3 06及3 06a，且該二MSCS位於不同之節點350 及350a。群集服務304使得MSCS 306導致包含應用370之資源群組變成離線，且接著使得MSCS 306a導致該資源群組成爲連線。群集服務304負責管理群集節點隸屬，悸動，節點間通訊，且是用以維持所有8節點之群集組態資料庫之一致性。群集服務也負責事件通告及處理。群集管理器 302提供一圖形使用者介面（GUI)。群集服務304實質上是二進位相容於此範例之MSCS。如果任何應用可執行於一 MSCS群集，則該應用無需修改即可在多群集中執行。群集服務支援所有MSCS群集API，資源API，與監督延伸API。請參看圖3b及3c，在多群集中，每一節點執行群集服務之一拷貝。當一節點350受到啓動時，群集服務304自動開始。MSCS群集服務306接著是由群集服務304來啓動。在本文中，我們將多群集内之該等MSCS群集稱爲MSCS子群集。多群集組態資料庫之組態資訊是每一 MSCS子群集之資訊之超集合。所有資源及資源群組皆定義於多群集組態資料庫及適當之MSCS子群集。當一MSCS子群集服務受到啓動時，所有資源及資源群組，除了預設群集群組以外，皆保留在離線狀態。一新節點之群集服務304與所有其他節點之群集服務實例藉由CSQL_Services群組315共同決定那些資源群組應在該節點受到啓動。其接著啓動MSCS群集服務API以使該等資源群組進入連線狀態。 -16- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---·---^-------------訂---------線^^- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 14 五、發明說明（）每一 MSCS子群集包含一對節點或單一節點。如果每一 MSCS子群集包含單一節點，則MSCS配額資源可配置成爲一本地配額#源’而此意謂該配額資源將是該節點之一本地磁碟。因爲此將爲每一 MSCS子群集節省一共享磁碟，所以這是一種較佳組態。某些群集服務，例如，MSCS具有一獨特特點，因爲當群集在運作時，其會記憶資源及資源群組之狀態。當一節點受到重新啓動時，MSCS群集服務將導致該等資源及資源群組進入他們先前之狀態。使得資源及資源群組進入他們之連線及離線狀態之決定是由多群集服務來執行。如果一 MSCS子群集（或執行該MSCS子群集之節點）發生故障，則群集服務將重新啓動在一或更多其他MSCS子群集之該節點上執行之該等資源及資源群組。當發生故障之節點及對應之MSCS子群集重新啓動且重新加入多群集時，如果新節點及新MSCS子群集試圖使得該等資源及資源群組進入連線狀態，則將發生資源衝突。爲解決此項問題，群集服務增加一”隱藏”資源至每一資源群組，且使得此隱藏資源成爲該資源群組之所有其他資源之一相依資源。隱藏資源將檢查其在多群集組態資料庫之資源群組之狀態，且如= 該資源群組已在另一 MSCS子群集上執行，則無法啓動f 多群集服務延伸目前可供使用之群集服務之高可用性系統群集化特性至多於二節點，且保留與目前可供使用之群集服務之二進位相容性。拜請參看圖3b及3c，本系統群集軟體300包含二一土 '^郡

國家標準（CNS)A4規格（210 X ---·---^-------------訂---------線^^- (請先閱讀背面之注音？事項再填寫本頁) -17- 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（15 ) 份：群集管理器302及群集服務304。群集管理器3〇2是設計成爲管理一群集群組306之所有資源，且展現單一群集影像給其之使用者。群集管理器302提供一資訊科技（ιτ) 管理者熟悉並容易使用之使用者介面。群集管許管理者高效率及有效地管理-群集之—大規模及複雜^ 合之南度可用資源。群集服務304是在群集之每一電腦35〇上執行之一中間軟體層。在描述之範例中，其包含執行於常駐之微軟 Windows NT伺服器或其他適當伺服器之一組可執行程式及程式庫。群集服務304包含一組互動子系統。該等子系統疋拓樸服務308 ’群組服務3 10，群集協調器（未受到展示），CSQL服務314，事件轉接器31〇，回復服務316，與群集 API 318。群集協調器提供設備以啓動，停止，及重新啓動群集服務304。群集之每一電腦皆具有一群集協調器，但是該等群集協調器並未彼此進行通訊；每一群集協調器之範疇局限於其所執行之電腦。群集協調器是需要首先啓動之元件。群集協調器接著依照下列順序來啓始其他服務：處於獨互模態之CSQL服務314 ;拓樸服務308 ;群組服務308 ; 處於群集模態之CSQL服務314 ;回復服務316 ;微軟群集服務（MSCS)事件轉接器；MSCS ;與群組服務事件轉接器 (GSEA)。另外，群集協調器監督每一該等其他服務，且終止所有其他服務及使用者應用，且萬一發生故障則重新啓動多群集群集服務。《 ^ --------tl---------線^^- (請先閱讀背面之注意事項再填寫本頁) -18-

A7

本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 523656

五、發明說明（17) 經濟部智慧財產局員工消費合作社印製如又到分割之群集已聚集在一起，則其將產生一解除通知給具有較少數目之群集機器並是該分割之一部份的所有群組。如果該二分割具有相同數目之群集機器，則選擇其中之一來解除。 CSQL服務3 14提供支援給一可包含組態及狀態資訊之資料庫。其可在獨立及群集模態下運作。每一資料庫是一致’分散式資源’且藉由使用群組服務31()，可保證爲一致及高度可用。每一資料庫在所有節點及檢查點皆複製至磁碟，以致對於多群集群集服務之重新啓動而言變更是一致的。CSQL服務3 14確保每一節點皆具有群集資料之一相同拷貝。CSQL服務也支援在重新啓動間不維持一致，但在所有節點是一致之暫態資料。在群集服務3〇4之重新啓動之後，暫慼資料將啓始成爲他們之啓始値。CSQL服務3 14 支援對於資料庫所做之變更之通知。每一資料庫可利用一三維參數來標示：一顯示資料庫何時受到最後一次修改之時間戳記，建議此項修改之節點之識別，與一循環冗餘檢查（CRC)檢查和。時間戳記是一邏輯時間，且該邏輯時間是在整個群集中單調遞增之數字。CSQL服務314執行一資料庫衝突解決協定，以一旦發生群集重新啓動則決定最新之複本。一節點，當其重新加入一群集時，在執行每一資料庫之現存版本之備份以後以群集之版本來取代其之複本。只有在CSQL自獨立模態變遷至群集模態之後，方允許一群集組態資料庫之變更。下文將完整討論進入群集模態之條件。CSQL服務支援本地及遠端從屬連接。 -20- 本紙張尺度適用中目國家標準（CNS)A4規格（210 X 297公爱） ---—- ----.---^-------------訂---------線 (請先閱讀背面之注咅？事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7_ 五、發明說明（18 ) 事件轉接器3 12監測子系統之情形，且當故障情況發生時產生事件。事件插入於一分散式事件佇列，且該佇列是建構成爲位於群集範疇CSQL組態資料庫之一事件表。一群集具有四事件轉接器：監測MSCS子系統之MSCS事件轉接器，監測節點及網路介面故障之群組服務事件轉接器，轉換使用者請求成爲多群集事件之群集API事件轉接器，與監測網路分割之分割預防事件轉接器。群組服務事件轉接器（GSEA)310是一分散式子系統。每一 GSEA實例加入一 GSEA群組服務群組3 11以做爲提供者。GSEA實例接收來自群組服務之LEAVE及FAILURE LEAVE通知，且轉換該等通知成爲多群集事件。當一 GSEA實例出於自願或由於故障而離開該群組時，GSEA群組插入正好一事件於事件彳宁列。微軟群集服務事件轉接器（MSCSEA)320轉換一 MSCS通知成爲目前群集管理器可以辨認之事件。每一節點皆有一 MSCSEA實例在執行。每一 MSCSEA監測只執行於本地節點之MSCS資源群組及MSCS資源。網路介面故障及節點故障將是由拓樸及群組服務子系統308來偵測。回復服務310是一以規則爲基礎，物件導向，異動型事件處理子系統。當一新事件插入一群集範疇CSQL資料庫之群集範疇事件表時，事件處理受到觸發。回復服務延伸CSQL 功能，以增加作用及物件導向SQL敘述處理功能至CSQL子系統。方法是以SQL語言之延伸來表示，稱爲作用SQL。明確地説，導入下列敘述：CREATE TRIGGER， -21 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 χ 297公釐） ---<---^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（19) EVALUATE，EXECUTE，CONTINUE，CREATE MACRO，與LOAD DLL。CREATE TRIGGER敘述利用CSQL在指定表中登記一觸發。當一新列（事件）插入指定表時，CSQL啓動對應之事件處理規則。規則是0 SQL及前所提及之作用 SQL敘述來表示。EVALUATE敘述非常類似於SELECT。 EVALUATE選擇一組規則且接著評估該等規則，而非選擇一組資料。相同EVALUATE敘述選定及處理之SQL及作用 SQL敘述是相同異動之一部份。EXECUTE敘述藉由啓動一使用者定義功能，一外部程式，一指令檔案，或一殼腳本檔案來改變該實體系統敘述。CONTINUE敘述使得分散式 CSQL伺服器間之事件處理達成同步。尤其，CONTINUE強迫CSQL資料庫同步至目前點。當一事件受到處理時，可能有多個CONTINUE敘述受到評估，以強迫多個資料庫達成同步。Create MACRO敘述定義一可在任何SQL敘述中受到啓動之巨集。一巨集送回一可用於隨後之SQL敘述之資料値。LOAD DLL動態載入指定之動態連接庫（DLL)至 CSQL。其利用CSQL登記使用者定義之功能於dll。使用者定義之功能可在一 EXECUTE敘述中受到啓動或插入於另一 SQL敘述。使用者定義之功能藉由提供常用之功能，或啓始針對CSQL伺服器以外之個體之動作，來延伸SQL語言。舉例而言，使用者定義之功能是用以控制MSCS資源管理設施。雖然多群集之群集服務之一實例受到展示，其他機制也可用以提供群集服務。例如，CSQL程式設計介面使用 -22- $紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---、---：-----衣--------訂---------線# (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 20 五、發明說明（） CSQL語言敘述。也可使用其他種類之程式設計介面，資料儲存器，或資料登記機制。在此種建構中，該機制可提供多群集内之諸子群集間之資料一致性，在重新啓動期間提供多群集節點間之資料一致性，且提供一進入多群集之新節點之資料的同步。除此之外，雖然所描述之範例所述之回復服務是CSQL之延伸，根據本發明之一較佳實例此種延伸並非必要。多群集API 318提供多群集整體，而非一特定MSCS子群集，之存取。其包含運作於更大群集之環境内，但是在功能上相同於微軟群集API之功能。其是意欲供群集管理器 302以及其他群集知曉應用來使用。多群集API之功能與微軟群集API之功能間存在一對一之對應。多群集API DLL二進位相容於MSCS群集API DLL，clusapi.dll。查詢群集API 功能是由多群集API DLL來直接處理。造成狀態變更之群集API功能轉換成爲受到回復服務處理之功能。多群集API DLL使用CSQL通知機制來等候事件處理之結果。多群集 API DLL機制經由一爲眾所知之虛擬IP位址來與CSQL服務進行通訊。總結而言，群集服務304保證，當一應用程式故障轉移至一群集之另一節點時，該應用程式置放於NT群集登記器之狀態資訊可供使用。群集服務304提供設施以檢查系統組態，及確保系統組態受到正確配置。群集管理器302將配置，管理，及監測該等多群集及其包含之MSCS 子群集。可開發其他設施以協助簡化多個MSCS子群集及多群集群集服務之安裝程序。 -23- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---*---:-------------訂-------- (請先閱讀背面之注意事項再填寫本頁) 五經濟部智慧財產局員工消費合作社印製 523656 A7 B7 21 發明說明（）群集服務子系統是由群集協調器子系統來啓動。群集協調器是建構成爲一 N T服務，且在啓始期間自動啓動。群集協調器接著依照下列順序來啓動所有其他群集服務：處於獨立模態之CSQL服務；拓樸服務；群組服務；處於群集模態之CSQL服務；回復服務；MSCS事件轉接器；MSCS ; 與群組服務事件轉接器。 CSQL服務最初是以獨立模態來啓動。拓樸服務及群組服務自CSQL資料庫擷取他們之組態資訊。當群組服務發生時，CSQL服務構成CSQL—Services群組315，且執行一資料庫衝突解決協定（DCRP)以使群集組態資料庫之内容達成同步。第一CSQL伺服器構成該群組，設定CSQL_Services群組成爲BIDDING狀態，且啓動一計時器以等候其他CSQL 伺服器加入該群組。加入處於BIDDING狀態之群組之一 CSQL伺服器也啓動一計時器以等候其他伺服器加入。計時器値是定義於群集組態資料庫，且在各個節點可不相同。正受到不同節點使用之群集組態資料庫之不同版本最初可導致不一致之計時器値。當第一計時器到期時，CSQL伺服器藉由使用一群組服務η-階段協定來廣播其之群集組態資料庫之時間戳記至該群組。如果其他CSQL伺服器之時間戳記較所接收之時間戳記爲新，則該等伺服器廣播他們之時間戳記。當多個CSQL伺服器傳出他們之時間戳記時，群組服務將任意選擇一時間戳記以在下一階段廣播至該群組。只有當一 CSQL伺服器之時間戳記較所接收之時間戳記爲新時，該CSQL伺服器方會傳出其之時間戳記。一 CSQL伺服 -24- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） —‘—^-------------訂---------線# (請先閱讀背面之注意事項再填寫本頁) ^_I_ 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 發明說明（）器只有在第一階段中會傳出其較所接收之時間戳記爲舊之時間戳記，以通知其他CSQL伺服器其具有一不同版本。最終該協定將結束。所有CSQL伺服器將具有相同之時間戳記，或他們皆同意最新版本。如果並非所有時間戳記皆相同，則最後傳出其之時間戳記之CSQL伺服器應廣播其之資料庫至所有其他CSQL伺服器。CSQL伺服器應取得要受到最新版本取代之資料庫之備份拷貝。在CSQL伺服器使得群集組態資料庫達成同步之後，他們設定CSQL_Services群組之狀態成爲其之RUNNING狀態。複本受到一新版本取代之該等CSQL伺服器將啓始群集服務之重新啓動。一加入一 RUNNING CSQL Services群組之CSQL伺月艮器必須儲存其之複本，且利用群集版本來取代其之複本，無論其之時間戳記値爲何。如果新版本之時間戳記不同於其之現有時間戳記，且該現有時間戳記目前正受到其他子系統之使用，則 CSQL伺服器將啓始群集服務之重新啓動。 CSQL時間戳記是三維參數：一在整個群集中單調遞增之數字，最後一次修改資料庫之節點之節點識別，與一 CRC 檢查和。一旦CSQL服務處於RUNNING狀態，所有節點之群集組態資料庫，包含事件佇列，變成一致。一 CSQL伺服器在其成功加入一 RUNNING CSQL_Services群組之後稱爲處於群集模態。回復服務，MSCS ，MSCS事件轉接器 (MSCSEA)，與群組服務事件轉接器（GSEA)接著將受到啓動。GSEA加入一 GSEA群組服務群組，且當執行群組服務 -25- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） -------^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 _____B7___ 五、發明說明（23 ) JOIN協定時，增加此節點之一 BRING—COMPUTER UP事件至群集範疇事件佇列。多群集資源群組最初處於離線狀態。在一BRING_COMPUTER_UP事件之處理期間，回復服務決定是否應使任何資源群組進入連線狀態。 DCRP演算法概述如下：（1 ) 一 CSQL伺服器廣播一開放資料庫請求至CSQL_Services群組，且該請求包含資料庫之名稱與一時間戳記，（2 )具有不同時間戳記之每一 CSQL伺服器皆必須投票表示CONTINUE，且在第一階段中廣播其之時間戳記以強迫一資料庫複製，（3 )接收其本身之廣播之 CSQL伺服器必須在第一階段中投票表示APPROVE，（4)時間戳記相同於接收之時間戳記之CSQL伺服器必須投票表示 APPROVE，（5)對於每一後續階段，時間戳記晚於接收之時間戳記之CSQL伺服器必須廣播其之時間戳記且投票表示 CONTINUE，（ 6 )接收其本身之時間戳記之CSQL伺月艮器必須投票表示CONTINUE，（ 7 )具有相同或任何更早之時間戳記之CSQL伺服器必須投票表示APPRO VE，（ 8 )如果在一階段中未傳送訊息，則最後廣播其之時間戳記之伺服器必須複製其之資料庫版本至其他伺服器。伺服器總是在置換其之複本之前備份拷貝該複本。請繼續參看圖3 b及3 c，多群集系統之啓動序列受到展示。首先，在NT啓動期間群集協調器是啓動成爲一 NT服務。群集協調器啓動及監測其他多群集子系統。接著， CSQL服務314是以獨立模態來啓動。接著，拓樸服務3〇8 受到啓動。群組服務310接著受到啓動。接著，CSQL服務 -26- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱） —.—^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制衣 523656 A7 B7 24 五、發明說明（）形成或加入CSQL_Services群組315。CSQL服務執行資料庫衝突解決協定且進入群集模態。接著所有群集範疇資料庫皆是最新。尤其，事件佇列是最新。回復服務316受到啓動，且回復服務精靈啓動MSCS事件轉接器312與群組服務事件轉接器（GSEA)310，依照此順序。GSEA形成或加入 GSEA群組且其將監測節點故障事件。回復服務精靈接著插入本地節點之一BRING—COMPUTER—UP事件。回復服務處理此節點之BRING—COMPUTERUP事件。MSCS子系統306 受到啓動且接著是由MSCS事件轉接器3 12來監測。資源群組受到啓動或移動至此新節點，視資源指配策略及系統狀態而定。本發明之另一關鍵特點涉及一群集配額條件。除非滿足下列配額條件之一，否則不可使任何資源群組進入其之連線狀態。群集服務採用HACMP所用之相同多數配額方法。群集服務使用群組服務所提供之連接資訊來決定多數配額條件。除此之外，節點也經由共享磁碟路徑或另一方法來傳送連接資訊以避免頭腦分裂問題。當網路受到切割且一群集區分成爲許多分割時，群集服務必須保證不同時在多個分割啓動單一資源群組，因爲此可導致共享磁碟之應用資料之毁損。經由磁碟路徑來傳送之連接資訊協助每一分割得知其他分割之隸屬，且因此協助防止資料毀損。如果下列條件爲眞，則應使一資源群組在一分割内之一節點進入連線狀態：（1)該分割具有多數配額，亦即定義於群集組態資料庫之所有節點之多於二分之一已加入該群集且位於 -27- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---.----------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 A7

經濟部智慧財產局員工消費合作社印制衣該分割，或（2)該分割具有定義於群集组態資料庫之節點之正好二分之一，且沒有相同大小之其他分割存在，或（3)該分割具有定義於群集组態資料庫之而另-分割包含該等節點之另外二分之一，；；：：最低識別値之節點位於前一分割。在。動所有群本服務子系、統之後，群集協調器將監測每 -子系統之狀態。如果任何子系統不正常終止，則群集協調器將關閉該節點且重新啓動自e，以及其他子系統。當任何子系統發生故障時關閉—節點可保證，㈣集服務發生故障時，沒有使用者應用將繼續執行。當-分割復原時，群組服務將解除所有分割之群組，除了刀以外β等喪失”分割之節點之群組服務精靈將受到終止。隨後該等節點將由群集協調器來關閉及重新啓動。回復服務之關閉程序必須確保所有資源群組皆是離線。請參看圖3C，支援本發明之元件受到展示。群集服務綱使用MSCS裏來管理—節點内之群集資源。一資源群组首先定義於多群集組態資料庫，且只有#需要時方定義於:MSCS子群集。資源管理策略是設計成爲模擬⑽^資源g理仃爲。虽一貪源群組定義於_ MSCS子群集時，重新啓動旗標總是受到解致能，以致—重新啓動決定將是由事件處理子系統，而非MSCS，來執行。—定綠__mscs 子群集之資料组，無論其是否騎節點群集，將在較佳節點表列具有最多一節‘點，以致Mscs自動故障轉 -28- 本紙張尺度適用中國國家標準（CNS)A4規格（21〇 X 297公复 ---.---^-------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（26) 受到解致能。群集服務將監測處於連線之每一資源群組之狀態。當一資源或資源群組發生故障時，MSCS事件轉接器3 12將插入對應之事件於事件佇列。CSQL服務3 14將觸發該事件之事件處理。正好只有一 CSQL實例將啓始事件處理。每一 CSQL實例管理資源，其中包含只位於本地節點之單節點MSCS子群集。事件處理是設計成爲能夠處理多個故障。請參看圖4，5，及6，本發明之另一方面涉及事件處理。關於圖5，表500展示二輸入項502及504，以描述二 ch—routines : BRING_COMPUTER_UP 及 N0DE_UP。在輸入項502中，區506之動作對應於圖4之步驟404。在輸入項 504，區508，510，及512包含分別對應於步驟408，410，及414之動作。定義於群集服務之事件包含，但不限於： BRING_COMPUTER UP ，BRING_COMPUTER_DOWN ， BRING_RESOURCE GR0UP_0NLINE ， BRING_RESOURCE_GROUP_OFFLINE ，與 MOVE— RESOURCE—GROUP。當一電腦加入一群集時，一 ” BRING—COMPUTER—UP ’’事件將插入事件佇列。爲處理 BRING—COMPUTER—UP事件，群集服務執行下列工作：（1) 檢查是否存在一配額，與（2)如果答案是肯定的，則檢查是否應使任何資源群組在新電腦成爲連線。某些資源群組可在某些其他電腦變成連線。首先應使該等資源群組變成離線。接著，群集服務應使該等資源群組在新電腦變成連線0 -29- 本纸張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） —.—：—--------訂--------- (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明（）所有組態資訊，狀態資訊，資源管理策略，與規則皆儲存於一群集範轉資料庫，escluster.cfg。假設電腦” hilltop ’’ 加入一群集。一針對hilltop之 BRING_COMPUTER_DOWN 事件插入事件佇列，以觸發CSQL來執行事件處理，其中一執行時間環境受到產生，包裹相關於該事件之事件且CSQL 處理下列敘述： EVALUATE 來自 ch routines 之動作，其中 ch—routine 二 ”BRING COMPUTER UP ” 前面敘述指定escluster.cfg資料庫之ch routines表之 BRING—COMPUTERJJP列的敘述應受到處理。稱爲 BRING_COMPUTER_UP之ch_routine採取之動作描述於表 500之輸入項502。ch—resource—groups表600定義於圖6。該表展示該表之一列。每一輸入項是一行。$_failback_node() 是一送回一節點之巨集，其中基於指定之故障轉移策略與一新節點重新加入一群集這項事實，指定之資源群組應在該節點執行。 $—resource group—online()與 S resource—group_offline()是使用者定義函數，以使用MSCS群集API功能呼叫來使指定之資源群組在指定之電腦節點變成離線及連線。因爲處理 ” EVALUATE 來自 ch—routines 之動作，其中 ch_routine = ’BRING_COMPUTER_UP’”，下列敘述受到選擇且接著受到處理： ”評估來自電腦之markup action ，其中電腦 =$—get—event_node(); -30- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---.---：-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印制衣 A7 B7__ 五、發明說明（28 ) 評估來自ch—routines之動作，其中$_has_quorum()且 ch—routine = NODE_UP ;" 稱爲NODEJJP之ch_routine所採取之動作展示於圖5之表 500之輸入項504。因爲處理第二EVALUATE敘述，下列三敘述受到擷取且接著受到處理：評估來自 ch resource groups 之 failback action ，其中 current—node <> next node ；評估來自 ch resource—groups 之 release action ，其中 current node <> next node ；評估來自 ch resource groups 之 acquire action ，其中 current node = 且 next node = $_get_event_node(); 該三EVALUATE敘述將搜尋所有符合搜尋條件之 ch resource groups 表之 ch—resource group 列（物件）° 當發現一 ch_resource_group列（物件）時，指定之動作將施加於該物件。 failback action包含單一敘述，且該敘述是： ” 更新 chresourcegroups ，設定 nextnode = $_failback_node() ，其中 ch—resource—group =此 chresourcegroup ; ” 在前面更新敘述中，一巨集failback_node ()受到處理以送回一節點，且在一新節點剛加入該群集之下，該節點是執行指定之資源群組之最佳節點。更新敘述儲存送回之節點名稱至next_node行。一巨集名稱之前會加上$以簡化解析。 -31 - 張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） " ---,---Ί------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 29 五、發明說明（）一 ch resource group物件之current node行顯示正在執行 ch resource group之目前節點。如果current node不同於下一節 F占，貝1J 處理众匕 ch resource group 之 release—action 。浚口果是此種情形，則下列敘述受到處理：執行 $_resource—group offline ();

Resource_group_offline()是一使用者定義之函數，且其接著呼叫MSCS OfflineResourceGroup ()函數以使指定之資源群組進入其之離線狀態。一使用者定義之函數之前會加上$ _以簡化解析。最後，在新節點上針對未在任何地方執行且應在新節點上執行之所有 ch_resource_group 物件來處理 acquire action 〇 Acquire action 包含一敘述：執行 $_resource—group—online (); resourcegrouponline ()也是一使用者定義之函數，且其呼叫MSCS OnlineResourceGroup ()函數以使指定之資源群組進入其之連線狀態。群集服務也支援事件模擬。當回復服務受到啓動以模擬一事件時，其首先複製群集組態資料庫。事件模擬將在組態資料庫之私用拷貝上執行。在模擬期間，實際改變實體資源之狀態的是EXECUTE敘述。圖4展示，當一節點想要加入400 —多群集時，群集服務建構之方法。首先，一節點加入群集（步驟402)。決定是否存在一配額（步驟404)。如果答案是否定的，則該方法返回 (步驟406 )。如果的確存在一配額，則針對每一資源群組， -32- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） —”—^-------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 功656

五、發明說明（經濟部智慧財產局員工消費合作社印製構下列迴圈（步驟405)。首先查詢是否任何資源群組應故障轉移至新節點（步驟408)。如果答案是肯定的，則對於每此種貝源群組，系統使得對應之Mscs子群集導致指定之資源群組變成離線（步驟41〇)。執行一 C0NTINUE(步骤 418)以使所有節點達成同步。新節點之mscs子群集將使指足^資源群組進入連線狀態（步驟414)。接著查詢（步驟 412 )疋否還有其他資源群組。如果答案是否定的，系統結束（步驟416);否則方法返回至步驟4〇5。圖4a展=方法43〇之流程圖，以移動一資源群組自一節點至另一即點。每一節點基於節點狀態，資源群組優選節點表列，與故障轉移策略來計算可執行該資源群組之下一優選節點（步驟434)。另外，使用者可直接指定下一優選節點。接著，系統查詢是否目前節點不等於下一節點（步驟 436)如果答案是否定的，則系統結束（步驟43 8 )。如果答案疋肯疋的，則系統使得目前節點之MSCS子群集導致指足 < 資源群組變成離線（步驟44〇)。程序接著繼續（步驟 442)。在此步骤中，系統使得其之事件處理達成同步。其後，系統使得下一節點iMSCS群集導致指定之資源群組進入連線狀態（步驟444)。最後，系統結束（步驟446)。圖4b展示，當節點故障452發生時，群集服務建構之一般方法450。此方法也適用於資源故障及資源群組故障事件。群組服務事件轉接器總共插入正好一節點當機事件至事件仔列（步驟454)。Node-Down事件處理受到觸發（步驟 456)。接著，對於執行於故障節點之每一資源群組，下列 -33- 本紙張尺度·巾_家標準（CNS)A4規袼（210 X 297公釐了 (請先閱讀背面之注意事項再填寫本頁> 訂--------- 五經濟部智慧財產局員工消費合作社印製 523656 A7 B7 31 發明說明（）步驟受到執行（步驟458)。首先，回復服務計算用於故障轉移之Next Node(步驟460)。接著決定是否My Node == Next_Node。如果答案是否定的，則系統檢查是否還有其他資源群組（步驟462)。如果答案是肯定的，則系統使得 MSCS子群集導致指定之資源群組變成連線（步驟464)。如果沒有其他資源群組可供使用，則系統結束（步驟466)。如果還有其他資源群組可供使用，則系統返回至步驟458。雖然一直説明本發明成爲使用MSCS子群集，應可暸解這只是本發明之一實例。例如，此相同系統可建立於IBM之 HACMP或昇陽之Ultra企業群集Η A伺服器之上以管理該等群集系統。除此之外，本發明之裝置，程序，與指令可應用於異質群集系統。例如，本發明可用以管理一多群集系統，其中包含一使用MSCS來管理之群集與一使用Ultra企業群集ΗA伺服器來管理之群集。除此之外，本發明之程序可用以管理多處理器電腦，例如SMP伺服器。値得注意的是雖然本發明一直是針對功能完備之資料處理系統之環境來説明，普通熟悉本技術領域者應可理解本發明之程序能夠以一電腦可讀型媒體之指令之型態及多種型態來配送，且無論實際用以執行配送之信號承載媒體之特殊種類爲何，本發明同樣適用。電腦可讀型媒體之範例包含可記錄型媒體，例如軟碟片，硬碟機，RAM，與CD-ROM，以及傳輸型媒體，例如數位及類比通訊鏈結。本發明之説明只是用以展示及説明，而未意謂涵蓋所有可能或限制本發明於所揭示之型態。普通熟悉本技術領域 -34- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） ---:-------I --------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 A7 -------— B7____ 五、發明說明（32 ) 者應可提出4多修改及變型。實例受到選擇及説明以最瞭解本發明〈原理，其之實際應用，且使得普通熟悉本技術領域者可瞭解本發明之具有各種修改之各種實例，且該等實例適合所構思之特殊用途。 (請先閱讀背面之注意事項再填寫本頁) ------- —訂---------· 經濟部智慧財產局員工消費合作社印製

I 5 3 I 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

Claims

523656 申請專利範圍 1. 經濟部智慧財產局員工消費合作社印制衣種管理一群集電腦系統之方法，該群集電腦系統具有至少一節點，且該方法包含下列步驟： (a)建立一包含該至少一節點及至少一共享資源之集； π (b )利用一群集服務程式來管理該至少一節點； (e)在一故障轉移事件之後使得該系統返回至一態。又狀 2·如申請專利範圍第丨項之方法，其中該群集服務程式使用至少一節點内之一資源API來管理。 3.如申請專利範園第！項之方法，其中步驟（a)包含建立一具有至少二子群集之多群集，其中每一該等子^集=含至少一節點。口 4·如申請專利範圍第1項之方法，其中步驟（a)包含建立一具有至少三節點之多群集。丄 5 .如〃申請專利範圍第1項之方法，進一步包含在多群集内之第一節點與任何其他節點間故障轉移。 6·如申請專利範圍第5項之方法，進一步包含更新一範疇資料檔案。 7·如申請專利範圍第1項之方法，其中步驟（b)包含，當至少一節點受到啓動時，自動啓始第一群集服務程式^ 8·如申請專利範園第7項之方法，進一步包含，在啓始一群集服務程式之後，啓始常駐於該至少一節點之第群集服務程式。 9·如申請專利範圍第8項之方法，其中該第一及第二群集集該第 I ： --------訂---------線· (請先閱讀背面之注意事項再填寫本頁) -36- 523656 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 —______D8 -------------- 六、申請專利範圍服務程式是二進位相容。 10·如申請專利範圍第1項之方法，其中步驟（b)包含管理一群集節點隸屬資料庫。 11.如申凊專利範圍第1項之方法，其中步驟（b)包含管理在少群集内之該至少一節點及任何其他節點間傳送之一悸動信號。 12·如申請專利範圍第1項之方法，其中步驟（b)包含管理在多群集内之該至少一節點及任何其他節點間之節點間通訊0 13·如申請專利範圍第1項之方法，進一步包含利用一群集管理器來展現單一群集之影像。 14.如申請專利範圍第1項之方法，其中步驟（b)包含配置一多群集配額資源成爲一本地配額資源。 15·如申請專利範圍第i項之方法，其中步驟（c )包含重新啓動一節點且使該共享資源進入一致狀態。 16·如申請專利範圍第之方法，其中步驟（c)包含儲存該共享資源之該一致狀態。 17·如申請專利範圍第1項之方法，其中步騍（b)包含，回應於控制該共享資源之衝突，決定不要重新啓動或控制一資源，且該資源先前在一故障節點是連線。 18.如申請專利範園第i 7項之方法，進一步包含增加一隱藏資源至每一節點之一資源群組。 19·如申請專利範圍第i 8項之方法，進一步包含使得該隱藏資源相依於該資源群組之任何其他資源。 -37- 本紙張尺度適用中國國家標準（cns)a4規格（210 X 297公釐） —：—^--------訂--------線4|^ (請先閱讀背面之注意事項再填寫本頁) 523656 六、申請專利範圍 20. —種執行一方法且具有多個郎點之資料處理系統，其中该資料處理系統執行原始機器碼，且該資料處理系统包含： “ (a)建立一多群集之裝置，且該多群集包含該至少一節點及至少一共享資源； (b )利用一群集服務程式來管理該至少一節點之裝置； (c) 在一故障轉移事件之後使得該系統返回至一致狀態之裝置。 ~ 21·如申請專利範圍第20項之資料處理系統，其中該群集服務程式使用該至少一節點内之一資源Αρι來管理。 22·如申請專利範園第20項之資料處理系統，其中（a)包含建JL 一具有至少二子群集之多群集之裝置，其中每一該等子群集包含至少一節點。 23·如申請專利範圍第20項之資料處理系統，其中包含建立一具有至少二節點之多群集之裝置。 24·如申請專利範圍第2〇項之資料處理系統，進一步包含·· (d) 在多群集内之第一節點與任何其他節點間故障轉移之裝置。經濟部智慧財產局員工消費合作社印製 25. 如申請專利範圍第18項之資料處理系統，其中（c)包含更新一群集範疇資料資料庫之裝置。 26. 如申請專利範圍第20項之資料處理系統，其中（1>)包含’當該至少-節㉝受到啓動時，自動啓始第—群集服務程式之裝置。 27. 如申請專利範圍第26項之資料處理系統，進_步包含，本紙張尺度適时_豕鮮（CNS)A4規格咖 -38- ^3656

申請專利範圍經濟部智慧財產局員工消費合作社印制在啓始第一群集服務程式之後，啓始常駐於該至少一節點之第二群集服務程式之裝置。 28·如申請專利範園第2 0項之資料處理系統，其中（b )包含管理在多群集内之該至少一節點及任何其他節點間傳送之一悸動信號的裝置。 29·如申請專利範圍第2 0項之資料處理系統，其中（b )包含官理在多群集内之該至少一節點及任何其他節點間之節點間通訊的裝置。 30. 如申請專利範園第2 〇項之資料處理系統，進一步包含利用一群集管理器來展現單一群集之影像之裝置。 31. 如申請專利範圍第2 〇項之資料處理系統，其中（c )包含儲存該共享資源之該啓始狀態之裝置。 32. 如申請專利範圍第2 〇項之資料處理系統，其中（b )包含，回應於控制該共享資源之衝突，決定不要重新啓動或控制一資源之裝置，其中該資源先前在一故障節點是連線。 33·如申請專利範圍第2 〇項之資料處理系統，進一步包含增加一隱藏資源至每一節點之一資源群組之裝置。 34· —種在一資料處理系統執行一方法之電腦程式產品， (a) 建立一多群集之第一指令，且該多群集包含該至少一節點及至少一共享資源； (b) 利用一群集服務程式來管理該至少一節點之第二指令； (c) 在一故障轉移事件之後使得該系統返回至一致狀態 , ：衣--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) -39 〜υ3〇

<第三指令。 35. 如申請專利範阁罘i 4項 < 電腦程式產品，進一包含：、阶弟一郎點與任何其他節點間故障轉移 <弟四指令。 36. ^請專利範園第34項之電腦程式產品，其中該等第二 37 : 1包含管理一群集節點隸屬資料庫之指令。 • : 4專利範圍第3 4項之電腦程式產品，其中該等第二曰7進#包含管理在多群集内之該至少一節點及任何其他節點間傳送之-悸動信號的指令。 38·如申请專利範園第3 4項之電腦程式產品，纟中該等第二指令進-步包含管理在多群集内之該至少一節點及任飼其他郎點間之節點間通訊的指令。 39·種管理一群集電腦系统之方法，該群集電腦系統具有至少一節點，且該方法包含下列步驟： (a) 建互一包含孩至少一節點及至少一共享資源之多群集； (b) 利用一群集服務程式來管理該至少一節點，·其中該群集服務私式使用該至少一節點内之一資源A p〗來管理；包含管理在多群集内之該至少一節點及任何其他節點間傳送之一悸動信號； (c) 在多群集内之第一節點與任何其他節點間故障轉移； (d) 包含更新一群集範疇資料檔案； (e) 在一故障轉移事件之後使得該系統返回至一致狀 -40 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) --------IT---------線經濟部智慧財產局員工消費合作社印製 523656

、申請專利範圍進一步包含利用一群集其中步驟（c)包含儲存其中步驟（b)包含，回態。 4〇·^申請專利範圍第39項之方法，其中步碟⑷包 —具有至少二子群集之多群集，其中 ^ 乂含至少-節點。母斜子鮮集包 41·，申請專利範園第39項之方法，其中步驟⑻包含，卷 =至少-節點受到啓動時，自動啓始第—群集服務： 42 2請專利範園第39項之方法，其中步驟（b)包含管夕群集内〈琢至少-即點及任何其他節點間通訊。 I ·、、、*間 43·如申請專利範圍第3 9項之方法管理器來展現單一群集之影像。 44.如申請專利範圍第3 9項之方法該共享資源之該啓始狀態。 45·如申請專利範圍第3 9項之方法應於控制該共享資源之衝突，決定不要重新啓動或控= 一資源，且該資源先前在一故障節點是連線。 46.種在一分散式資料處理系統中管理多個群集電腦系统之方法，該方法包含：偵測該等多個群集電腦系統内之一群集電腦系統之一重新啓動的開始，其中該群集電腦系統將在一選定狀態中重新啓動且包含一資源·，及 ~ 回應於決定該資源目前運作於該等多個群集電腦系統内之另一群集電腦系統，防止該資源在該群集電腦系統本紙張尺度適用中國國家標準（CNS)A4規格（210: .tl---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 -41 - 523656 A8 B8 C8 D8 六、申請專利範圍中重新啓動。 47. 如申請專利範圍第46項之方法，其中資源是—共享擋案系統。 48. -種具有多個群集電腦系統之分散式資料處理系統，包含：偵測裝置，以偵測該等多個群集電腦系統内之一群集電腦系統之一重新啓動的開始，其中該群集電腦系統將在一選定狀態中重新啓動且包含一資源；及防止I置’回應於決定該資源目前運作於該等多個群集電細系統内之另一群集電腦系統，用以防止該資源在該群集電腦系統中重新啓動。 (請先閱讀背面之注意事項再填寫本頁) -衣--------訂---------線赢經濟部智慧財產局員工消費合作社印製 -42- 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）