TW523656B - Method and apparatus for building and managing multi-clustered computer systems - Google Patents

Method and apparatus for building and managing multi-clustered computer systems Download PDF

Info

Publication number
TW523656B
TW523656B TW089101301A TW89101301A TW523656B TW 523656 B TW523656 B TW 523656B TW 089101301 A TW089101301 A TW 089101301A TW 89101301 A TW89101301 A TW 89101301A TW 523656 B TW523656 B TW 523656B
Authority
TW
Taiwan
Prior art keywords
cluster
node
resource
patent application
scope
Prior art date
Application number
TW089101301A
Other languages
English (en)
Inventor
Ching-Yun Chao
Patrick M Goal
Richard James Mccarty
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW523656B publication Critical patent/TW523656B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1425Reconfiguring to eliminate the error by reconfiguration of node membership
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/505Clust

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

523656 A7 B7 五、發明說明(1 ) 經濟部智慧財產局員工消費合作社印製 相關專利申請之交叉參考 本發明係關於下列專利申請:名稱爲” Method And Apparatus For Building And Managing Multi-Clustered Computer Systems”,序號 09/181,825,流水號 AT9-98- 3 74,於1998年1 0月2 9日歸檔,指配給與本本發明相同之 權利人,且在此提及該專利申請以供參考。發明背景1 ·技術領域: 本發明概言之係關於一種分散式資料處理系統,且明確 地説係關於一種用以管理一分散式資料處理系統内之伺服 器系統之方法及裝置。更明確地説,本發明係關於一種用 以管理群集電腦系統之方法及裝置。 2 ·相關技術説明: -群集電m统是-種平行或分散式系統,且該系統包 含-组互連之完整電腦並充當單一,統一之計算資源。前 述定義之"完整電腦"這個術語意謂表示構成—獨立,可用 電腦之组件之正常组合:一或更多處理器,—可接受數量 之記憶體,輸入/輸出設備,與一作業系統。群集及:統: 散式系統間之另-不同點在於元件間之_。現代分 系統使用-位於其下之對等式通訊層。不存在本質的⑼ 或其他結構,只有一扁平表列之通訊個體。但是,'在較二 之抽象層次,他們通常組織成爲—主從架構。 ^ 之系統複雜度降低。群集通常具有—對等關係 、八 有三種技術趨勢可解釋群集之風行。首先,微處理器愈 (請先閱讀背面之注意事項再填寫本頁) -i.
MW --------^--------- -4 -
本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公f_ 523656 2 五、發明說明( 來愈快。微處理器變得愈快,則大量平行系統變得愈不重 要。不再必須使用超級電腦或數千微處理器之聚集來達成 逦當快速之結果。增加群集電腦系統之風行之第二趨勢是 電腦間之高速通訊之增加。—群集電腦系統也稱爲一 ”群集 ^cluster)。此種標準化通訊設備之導入,例如光纖通道標 準(CS)非同步傳輸模式(ATM),可伸縮型同調互連 (SC” 及父換式十億位元乙太網路,提高電腦間之頻寬自 千萬位元/和至數億位元/秒及甚至十億位元/秒。最後, ,人已爲分散式計算開發許多標準工具。分散式計算之需 求已產生可受到調整以管理機器群集之一組軟體工具。某 些軟體工具,例如網際網路通訊協定集合(稱爲旧⑽及 ^DP/IP—),流行成爲無所不在之事實標準。建立於基本架 構上W階設施’例如企業内部網路(int刪),網際網路 ⑽⑽)及全球資訊網(www),同樣變得無所不在。除 用::重感測官理之其他工具集合也變得很常 :架:形成可供插入以產生群集軟體之有效基 除了邊二技術趨勢以外,雷牆、、 基本上,市場正尋求高度可# 場正逐漸成長。 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 是電腦網路必須具有"高度可用性 =例此事實之另-説法 以支援-網站,則其之使用不 :’如果電腦是用 間。換句話説,電腦可在全年之每:局限於正常營業時 到存取。沒有安全時間可供關機以推天,—天24小時,受 爲如μ隹、+返行修理。相反地,因 集之其他電腦會自動接手 本紙張I度適0家標準(CNS)_A4規格咖χ -5 523656
該電腦之1作直職電腦修復爲止,相群集電腦系統很 有用。因此不會展現任何當機時間,或者使用者不會偵出 任何當機時間。 爲了其他原因企業也需要”高度可用性,,。例如,企業對 企業I企業内部網路用途涉及連接公司至承包商或廠商。 如果企業内部網路之檔案伺服器當機,許多公司之工作皆 會受到強烈影響。如果一企業擁有行動工作人員,則該工 作人員必須能夠連接辦公室來下載資訊及訊息。如果辦公 A之伺服器當機’則該工作人員之效率將降低。 當沒有可置換之組件是單一故障點時,一電腦系統是高 度可用,且總體而言,該電腦系統足夠可靠以致一故障元 件可在其他元件發生故障之前修復。群集用以達成高度可 用性之基本技術是故障轉移(fail〇ver)。此概念非常^單· 一電腦(A)照顧另一電腦(B);如果B當機,則A接手工 作。因此,故障轉移涉及移動”資源”自一節點至另一節 點。節點是電腦之另一等效術語。潛在上許多不同種類事 務也受到涉及··實體磁碟擁有權,邏輯磁碟容量,1?位 址,應用程序,子系統,列印佇列,共享資料系統之群集 範疇鎖定集合,等等。 $ 資源彼此相依。因爲,例如,當一應用使用之資料移動 至一節點時,移動該應用至另一節點並無幫助,所以二種 關係很重要。實際上,如果在必需之磁碟容量受到安裝之 前啓動一應用,則移動該應用及該應用使用之資料至相同 節點並無幫助。 -6 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
(請先閱讀背面之注意事項再填寫本頁) --------tr---------線一 經濟部智慧財產局員工消費合作社印製 ^3656
經濟部智慧財產局員工消費合作社印製 H見代群集系統中,例如IBM HACMP及Mi W0lfpaek、"’資源關係資訊維持於一群集料資料擋案。 二:相資源组織成爲一資源群組,且儲存成爲該資料 *心-階|。一資源群組是故障轉移之基本單位。 八看諸圖,且尤其請參看圖1,-可建構本發明之 刀散式Λ料處理系統之圖形受到描述。 分散::料處理系統100是一可建構本發明之電腦網 。为散式資料處理系統100包含一或更多公用網路101, 且孩公用網路是提供分散式資料處理系統⑽内所連接之 各種裝置’從屬電腦,與伺服器電腦間之通訊鏈結的媒 體。網路100可包含永久性連結,例如符記環,乙太網 路l〇OMb乙太網路,Gigabit乙太網路,FDDI環, ATM ’與高速交換機,或藉由電話連結來達成之暫時性連 結。從屬電腦130及13 1經由公用網路1〇1來與伺服器電腦 110,111,112,與113進行通訊。 口电甸 分散式資料處理系統100可隨意具有其本身 細。網路1〇2之通訊可藉由一些裝置來進行:= 路,例如101,共享記憶體,共享磁碟,或任何其他裝 置。在所描述之範例中,一些伺服器i 10,i i im,及 113疋經由公用網路10i以及私用網路i〇2來連接。該等伺 服器運用私用網路102來降低起源於彼此悸動與執=隸屬 及η-階段提交協定之通訊架空。 卞 在描述之範例中,所有伺服器皆連接至—共享磁碟儲存 裝置124,最好是獨立磁碟冗餘陣列(RAID)裝置以獲得較 -7- 本紙張尺度剌+目目家標準(CNS)A4規格(21〇 x 297公釐) · J --------tr---------線· (請先閱讀背面之注意事項再填寫本頁) 5523656 A7 B7 五、發明說明( (請先閱讀背面之注音?事項再填寫本頁) 佳可#度’且孩儲存裝置是用以儲存使用者應用資料。資 料可變爲鬲度可用是因爲,當一伺服器發生故障時,共享 磁碟分割及邏輯磁碟容量可故障轉移另一節點,以致該資 料繼續可供使用。共享磁碟互連可爲小型電腦系統介面 (SCSI)匯泥排,光纖通道,與國際商業機器公司之串列儲 存架構(IBM SSA)。另外,每一伺服機器也可具有本地資 料儲存裝置120,121,122,及123。圖is意欲做爲一範 例’而非做爲本發明之程序之架構限制。 請參看圖2a,使用微軟群集服務(MSCS)i群集電腦系統 200是設計成爲使得^^丁伺服器型應用具有高度可用性。最 初之MSCS在具有2節點202,2〇4,共享磁碟2〇8之群集中 支援故障轉移功能。 經濟部智慧財產局員工消費合作社印製 每一MSCS群集包含一或二節點。每一節點執行其本身之 微軟群集服務拷貝。每一節點也具有一或更多資源監測程 式,以與微軟群集服務進行互動。該等監測程式”通知,,微 軟群集服務關於個別資源之狀態。如果有必要的話,資源 監測程式可藉由使用資源DLL來操縱個別資源。當一資源 發生故障時,微軟群集服務將在本地節點上重新啓動該資 源,或移動該資源群組至另一節點,視資源重新啓動策略 及資源群組故障轉移及群集狀態而定。 MSCS群集之_郎點彼此悸動206。當一節點發生故障 時,亦即無法傳送悸動信號至另一節點時,其之所有資源 群組將在另一節點上受到重新啓動。當一群集節點受到啓 動時,群集服務在事件處理器之控制下自動受到啓始。除 8 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
經濟部智慧財產局員工消費合作社印製 行:::件::::件之其正常角色以外,事件處理器執 加入或產生群ί者°訴節點管理器,也稱爲隸屬管理器, 節點管理器之正堂 e _ ....^ * 作疋猎由運用與其他節點管理器間 :菸由:/來產生群集隸屬之狀態之-致情形。節點管理 是‘而::其之群集組態資料庫拷貝之資訊來得知他們 疋而群集組態資料庫實際上是視窗NT登記器之一部份 -疋以不同万式來更新)。節點管理器最初嘗試接觸另一 郎點’且如果其成功的話’則其藉由提供驗證(密碼,群隹 名稱^其本身之識別,等等)來嘗試加人該群集。如果有Γ 既存群集,且爲了某種原因我們之新節點之加人嘗試受到 拒絕,則該節點及位於該節點之群集服務將關閉。 ★但是,如果另一節點未回應一節點之加入請求,則節點 ^理器嘗試開始-新群集。爲達成此目標,其使用一特殊 資源,稱爲配額資源,而配額資源如同所有資源一般指定 卞 ' 、'且心貝料庫。每一群集只有一配額資源。配額資源實 際上是一磁碟;如果其是一磁碟,則最好使得該磁碟受到 鏡射,或成爲容錯,以及成爲具有冗餘轉接器接點之多埠 型,因爲否則其將是該群集之單一故障點。做爲一配額資 源之裝置可爲具有下列三特性之任何裝置:該裝置可持久 地儲存資料(即使發生故障),·另一群集節點可存取該裝 置;且該裝置可在排除所有其他節點之下爲另一裝置強迫 取得。SCSI及其他磁碟協定,例如ss A及FC-AL恰好允許 此運作。 -9 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
--------tr---------% (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(7 ) 配額資源實際上是群集、_ ^ 額資源之節點獨特定羲鮮集^把桉制鎖定。成功擷取配 變爲群集之一部份。如此口 。、另—郎點必須加入該節點以 群集通訊可能發生故障以j 割群集之問題。内部 二分割。控制配額資^ 衣群集成爲無法彼此通訊之 集。 原〈郎點是群集,且不存在其他群 一旦一節點加入或形成— ,、μ 重σ奋如甘、4处、先 木 貝】咸郎點下一件要做的 鲁m貝料庫以反映,當其脱離該群集時,所 I施之變更。組態資科庫管理器可進行此項工作是因爲, 當然,對於該資料庫之變更 、 二五本η ★ u絲卜主 更、在所有節點一致遵循異動 浯法,且在此種情形之下, ^ ^ , 匕以及记錄儲存於配額資源之 〜戈 卜 貧原心"己錄 < 後,新節點將開始取 ㈣源。該等資源可爲磁碟,ΙΡ名稱,網路名稱,應用, 或可馬離線或連線〈任何其他事物。他們皆表列於组態資 料庫,連同他們想要在那些節點執行,他們可執行之節點 (某些節點可能未連接至適當之磁碟或網路),他們彼此之 關係,與關於他們之任何其他事情。資源_般是形成資源 群組,且以資源群組爲單位來管理。例如,一ιρ位址:一 檔案共享部份(一檔案系統之可共享單位),與一邏輯容 量’可能是一資源群組之關鍵組件,且該資源群組提供一 網路檔案系統給從屬。相依性受到追蹤,且沒有資源可爲 多於一資源群组之一部份,而且除非二應用屬於相同之資 源群組,否則該二應用之資源共享會受到禁止。 新節點之故障轉移管理器受到要求必須找出那些資源應 -10- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 1 ---------------tr---------線» (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 —__B7 五、發明說明() 移動(故障轉移)至新節點。新節點之故障轉移管理器是藉 由與另一節點之故障轉移管理器協商,使用例如該等資源 之優選節點之類的資訊,來完成此項工作。當該二管理器 達成一共同決定,應自另一節點移動至此節點之任何資源 群組在該節點變爲離線;當該項動作完成時,資源管理器 開始使得該等資源群組在新節點變爲連線。 資料庫軟體之每一主要廒商皆具有可運作於多重NT伺服 器之他們資料庫之版本。IBM DB2延伸企業版本可在32節 點上執行。IBM PC公司已出貨一執行甲骨文平行伺服器之 6節點P C伺服器系統。沒有適當之系統群集軟體適用於更 大之群集。 ' 在6-節點甲骨文平行伺服器系統中,該六節點共享相同 之磁碟儲存空間。曱骨文使用其本身之群集特點來管理資 源及執行負載平衡與故障回復。在該等群集上執行他們本 身之應用軟體之顧客需要系統群集特點以使他們之應用高 度可供使用。 u 请參看圖2B,DB2—般使用非共享架構21〇,其中每一 節點212具有其本身之資料儲存器214。資料庫受到分割且 資料庫請求是配送至所有節點以供平行處理。爲達成高度 可用性,D B 2使用系統群集化之故障轉移功能。因爲 MSCS只支援二節點,DB2必須如圖所示指配一預備節點 216給每一節點212。此外,如圖2c所示,DB2可允許每一 對MSCS節點間之相互故障轉移。換句話説,二節點2, 212a相互耦接至二資料儲存器214,214&。前者將使系統之 ---,----------------訂---------線^^- (請先閱讀背面之注意事項再填寫本頁)
523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(9 ) " ~ ^本增加一倍’而當—節點發生故障時,後者將出現效能 ^化。因爲資料庫存取是配送至所有節點且平行受到處 理,所以同時執行其之則實例與故障轉移之實例的節點 變成效能瓶頸。換句話説,如果節點仙發生故障,則節 點212接手其之工作且存取該二資料儲存器之 平行執行其之工作。 一疋 因此,最好具有一用以管理群集電腦系統之改良方法及 裝置。此種改良應允許支援自一節點至自一群組之許多節 點中選出之另一節點的故障轉移。 發明摘要 本發明提供一種方法及裝置以管理群集電腦系統,且藉 由提供一機制以管理一些群集電腦系統,也稱爲”群集,,, 來延伸群集化至非常大之群集。尤其,本發明偵測一%些群 集電腦系統内之一群集電腦系統之一重新啓動的開始。該 群集電腦系統之重新啓動之開始將導致該群集電腦系統在 一選足之狀態下重新啓動。除此之外,此群集電腦系統包 含一或更多資源。回應於決定受到重新啓動之群集電腦系 統内之一或更多資源目前在該群集電腦系統内之另一節點 是連線,則該等資源之重新啓動將受到阻止。 附圖簡短説明 據信爲本發明之特徵之新奇特點陳述於附加之申請專利 範圍。但是,當參照附圖來閲讀一示範實例之下列詳細説 明時,應可最易瞭解本發明本身,以及本發明之_較佳使 用模式,其他目標及優點,其中: -12- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) * J --------tr---------線# (請先閱讀背面之注意事項再填寫本頁) 523656
、發明說明( 圖1是可建構本發明之-分散式資料處理系統之圖形; (請先閱讀背面之注意事項再填寫本頁) 圖2a ’ 2b ’及2。提供微軟鞭8產品及其之建構限制的 展示; 圖3,3a,3b及3c展示本發明,及展示其跨越許多群 集,例如MSCS群集,之建構; 圖4,4a及4b是本發明用以控制多個群集之方法之流 圖;且 圖5及6是包含用於本發明之組態,狀態,及事件處理規 則範例之SQL表。 附圖詳細説明 本發明延伸微軟群集管理器功能以管理更大之群集,但 仍保留其之容易使用特徵。當在本申請專利中討論時,,,多 群集”意謂具有二或更多群集電腦系統之群集。 另外,本群集系統支援在具有二或更多節點之更大群集 之任二節點間的資源群組故障轉移。萬一發生故障事件, 經濟部智慧財產局員工消費合作社印製 則本系統也會保留整個群集之應用狀態資訊。同時,本系 統無需改變目前可用之群集電腦系統產品之建構。例如, 對於MSCS,本發明之建構無需微軟及應用廠商對於他們 目前之群集碼做出任何修改以執行於此系統之環境。相反 地,本系統提供MSCS群集API DLL之一建構,且該建構是 二進位相容於MSCS群集API DLL。 一多群集通常包含多於一位於其下之群集。本發明提供 一可配置一具有多個MSCS群集之群集之群集管理器。一 多群集之資源是在群集服務之監督下由每一個別群集來管 13- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 523656 A7 B7 五、 發明說明( 經濟部智慧財產局員工消費合作社印製 理。微軟資源API及微軟群集監督器延伸Αρι無需受到修 改。群集管理器可照樣使用針.MSCS開發之任何群集監 督器延伸DLL,而無需任何修改。 無論是否針對MSCS來進行強化,應用皆可輕易運用本發 明之系統群集化特點。本發明允許一大群集之任二節點間 <應用故障轉移,而非一對節點間之相互故障轉移。本發 明允許一群集藉由增加一具有一對節點或單一節點之 MSCS群集來變大。本發明可支援3_節點群集之事實對於 想要進一步改良他們在2_節點群集之關鍵任務應用之可用 性的許多顧客而言非常具有吸引力。 使用MSCS之應用,例如DB2延伸企業版本,可輕易運用 多群集系統群集化特點。DB2/EEE藉由區分節點成對及允 許每一對節點間之相互故障轉移來利用Mscs特點,如前 文參照圖2c所討論。本發明可藉由支援^^向故障轉移來改 良DB2之可用性’或藉由支援具有一預備節點之n+^模式 來改艮DB2之效能特徵。在最常發生之單—節點故障事件 中故障節點之DB2/EEE實例將在預備節點上重新啓動, 且依照N+1模式來維持相同之效能。系 服鼓以-高階語言來表示,且該高階語言可=受= 改、符a應用廠商之特殊需求。例如,此允許與 一多群集之整合較與— MSCS群集容易。 、,必須瞭解的是本發明可用於任何群集服務程式。雖然描 述(範例展示一多群集内之MSCS群集,本發明之程序, 機制,與指令可用以管理所有種類之群集。本發明未在任 (請先閱讀背面之注咅?事項再填寫本頁) 訂---------線表 -14-
本紙張尺‘適用中國國豕標準(CNS)A4規格(210 X 297公爱) 523656 A7 12 現在請參看圖3 之圖形受到描述 圖3 a所示之硬體 擴充至更大大小 五、發明說明( :方面受限於特定產品。例如,本發明可用於異質多群 可建構本發明之_分散式資料處理系統 圖3,,及3c所示之軟體3〇0可建構於 本文所展示之多群集軟體之,程序可輕易 〜 例如’圖3 a展示一8-節點组態,其中每 1點350藉由磁碟控制器36味接至_儲存组件鳩二 ,群集服務綱允許此8節點群集之任二節點間之故障轉 和。群集服務"這個術語在本文之用途是用以表示本發明 所提供之服務。群集服務,例如群集服務綱,是用以抑 制一群集,例如MSCS群集。其可用於前所討論之甲骨: 群集或DB2群集。當該7節點之任—節點發生故障時,㈣ 實例將在第8個節點重新啓動且系統之效能將維持不變。 這稱爲N+1故障轉移模式。其他組態也受到支援。例如, 每-節點皆可執行-作用DB2實例,且備份其他7節點以使 可靠度取大化。MSCS在描述之範例中是用以執行單—節 點之資源管理。微軟未與其他廠商共享其在wind〇wsNT之 資源官理APIS,且其他廠商無法輕易執行資源管理。某些 廠商建構他們本身之裝置驅動程式與Tcp/Ip.定堆疊。這 導致不相容於MSCS群集API與資源API。本發明使用Mscs 來管理單一節點之資源,且因此無需知道内部之NT Apis。 再一次,雖然本文參考微軟群集產品,本發明未在任何方 面受限於使用該產品。本發明可用於任何群集服務程式。 請參看圖3,群集服務3〇4控制MSCS 306以使一資源及一 -15- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) - · ^-------------tT---------線# (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 五 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 13 發明說明() 資源群組在節點350成爲連線或離線。群集服務304如圖所 示控制MSCS 3 06及3 06a,且該二MSCS位於不同之節點350 及350a。群集服務304使得MSCS 306導致包含應用370之資 源群組變成離線,且接著使得MSCS 306a導致該資源群組 成爲連線。群集服務304負責管理群集節點隸屬,悸動, 節點間通訊,且是用以維持所有8節點之群集組態資料庫 之一致性。群集服務也負責事件通告及處理。群集管理器 302提供一圖形使用者介面(GUI)。 群集服務304實質上是二進位相容於此範例之MSCS。如 果任何應用可執行於一 MSCS群集,則該應用無需修改即 可在多群集中執行。群集服務支援所有MSCS群集API,資 源API,與監督延伸API。 請參看圖3b及3c,在多群集中,每一節點執行群集服務 之一拷貝。當一節點350受到啓動時,群集服務304自動開 始。MSCS群集服務306接著是由群集服務304來啓動。在 本文中,我們將多群集内之該等MSCS群集稱爲MSCS子群 集。多群集組態資料庫之組態資訊是每一 MSCS子群集之 資訊之超集合。所有資源及資源群組皆定義於多群集組態 資料庫及適當之MSCS子群集。當一MSCS子群集服務受到 啓動時,所有資源及資源群組,除了預設群集群組以外, 皆保留在離線狀態。一新節點之群集服務304與所有其他 節點之群集服務實例藉由CSQL_Services群組315共同決定 那些資源群組應在該節點受到啓動。其接著啓動MSCS群 集服務API以使該等資源群組進入連線狀態。 -16- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---·---^-------------訂---------線^^- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 14 五、發明說明() 每一 MSCS子群集包含一對節點或單一節點。如果每一 MSCS子群集包含單一節點,則MSCS配額資源可配置成爲 一本地配額#源’而此意謂該配額資源將是該節點之一本 地磁碟。因爲此將爲每一 MSCS子群集節省一共享磁碟, 所以這是一種較佳組態。 某些群集服務,例如,MSCS具有一獨特特點,因爲當群 集在運作時,其會記憶資源及資源群組之狀態。當一節點 受到重新啓動時,MSCS群集服務將導致該等資源及資源 群組進入他們先前之狀態。使得資源及資源群組進入他們 之連線及離線狀態之決定是由多群集服務來執行。如果一 MSCS子群集(或執行該MSCS子群集之節點)發生故障,則 群集服務將重新啓動在一或更多其他MSCS子群集之該節 點上執行之該等資源及資源群組。當發生故障之節點及對 應之MSCS子群集重新啓動且重新加入多群集時,如果新 節點及新MSCS子群集試圖使得該等資源及資源群組進入 連線狀態,則將發生資源衝突。爲解決此項問題,群集服 務增加一”隱藏”資源至每一資源群組,且使得此隱藏資源 成爲該資源群組之所有其他資源之一相依資源。隱藏資源 將檢查其在多群集組態資料庫之資源群組之狀態,且如= 該資源群組已在另一 MSCS子群集上執行,則無法啓動f 多群集服務延伸目前可供使用之群集服務之高可用性系 統群集化特性至多於二節點,且保留與目前可供使用之群 集服務之二進位相容性。 拜 請參看圖3b及3c,本系統群集軟體300包含二 一 土 '^郡
國家標準(CNS)A4規格(210 X ---·---^-------------訂---------線^^- (請先閱讀背面之注音?事項再填寫本頁) -17- 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(15 ) 份:群集管理器302及群集服務304。群集管理器3〇2是設 計成爲管理一群集群組306之所有資源,且展現單一群集 影像給其之使用者。群集管理器302提供一資訊科技(ιτ) 管理者熟悉並容易使用之使用者介面。群集管 許管理者高效率及有效地管理-群集之—大規模及複雜^ 合之南度可用資源。 群集服務304是在群集之每一電腦35〇上執行之一中間軟 體層。在描述之範例中,其包含執行於常駐之微軟 Windows NT伺服器或其他適當伺服器之一組可執行程式及 程式庫。群集服務304包含一組互動子系統。該等子系統 疋拓樸服務308 ’群組服務3 10,群集協調器(未受到展 示),CSQL服務314,事件轉接器31〇,回復服務316,與 群集 API 318。 群集協調器提供設備以啓動,停止,及重新啓動群集服 務304。群集之每一電腦皆具有一群集協調器,但是該等 群集協調器並未彼此進行通訊;每一群集協調器之範疇局 限於其所執行之電腦。群集協調器是需要首先啓動之元 件。群集協調器接著依照下列順序來啓始其他服務:處於 獨互模態之CSQL服務314 ;拓樸服務308 ;群組服務308 ; 處於群集模態之CSQL服務314 ;回復服務316 ;微軟群集 服務(MSCS)事件轉接器;MSCS ;與群組服務事件轉接器 (GSEA)。另外,群集協調器監督每一該等其他服務,且終 止所有其他服務及使用者應用,且萬一發生故障則重新啓 動多群集群集服務。 《 ^ --------tl---------線^^- (請先閱讀背面之注意事項再填寫本頁) -18-
A7
本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 523656
五、發明說明(17) 經濟部智慧財產局員工消費合作社印製 如又到分割之群集已聚集在一起,則其將產生一解除通知 給具有較少數目之群集機器並是該分割之一部份的所有群 組。如果該二分割具有相同數目之群集機器,則選擇其中 之一來解除。 CSQL服務3 14提供支援給一可包含組態及狀態資訊之資 料庫。其可在獨立及群集模態下運作。每一資料庫是一 致’分散式資源’且藉由使用群組服務31(),可保證爲一 致及高度可用。每一資料庫在所有節點及檢查點皆複製至 磁碟,以致對於多群集群集服務之重新啓動而言變更是一 致的。CSQL服務3 14確保每一節點皆具有群集資料之一相 同拷貝。CSQL服務也支援在重新啓動間不維持一致,但在 所有節點是一致之暫態資料。在群集服務3〇4之重新啓動 之後,暫慼資料將啓始成爲他們之啓始値。CSQL服務3 14 支援對於資料庫所做之變更之通知。每一資料庫可利用一 三維參數來標示:一顯示資料庫何時受到最後一次修改之 時間戳記,建議此項修改之節點之識別,與一循環冗餘檢 查(CRC)檢查和。時間戳記是一邏輯時間,且該邏輯時間 是在整個群集中單調遞增之數字。CSQL服務314執行一資 料庫衝突解決協定,以一旦發生群集重新啓動則決定最新 之複本。一節點,當其重新加入一群集時,在執行每一資 料庫之現存版本之備份以後以群集之版本來取代其之複 本。只有在CSQL自獨立模態變遷至群集模態之後,方允許 一群集組態資料庫之變更。下文將完整討論進入群集模態 之條件。CSQL服務支援本地及遠端從屬連接。 -20- 本紙張尺度適用中目國家標準(CNS)A4規格(210 X 297公爱) ---—- ----.---^-------------訂---------線 (請先閱讀背面之注咅?事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7_ 五、發明說明(18 ) 事件轉接器3 12監測子系統之情形,且當故障情況發生時 產生事件。事件插入於一分散式事件佇列,且該佇列是建 構成爲位於群集範疇CSQL組態資料庫之一事件表。一群集 具有四事件轉接器:監測MSCS子系統之MSCS事件轉接 器,監測節點及網路介面故障之群組服務事件轉接器,轉 換使用者請求成爲多群集事件之群集API事件轉接器,與 監測網路分割之分割預防事件轉接器。 群組服務事件轉接器(GSEA)310是一分散式子系統。每 一 GSEA實例加入一 GSEA群組服務群組3 11以做爲提供 者。GSEA實例接收來自群組服務之LEAVE及FAILURE LEAVE通知,且轉換該等通知成爲多群集事件。當一 GSEA實例出於自願或由於故障而離開該群組時,GSEA群 組插入正好一事件於事件彳宁列。 微軟群集服務事件轉接器(MSCSEA)320轉換一 MSCS通 知成爲目前群集管理器可以辨認之事件。每一節點皆有一 MSCSEA實例在執行。每一 MSCSEA監測只執行於本地節 點之MSCS資源群組及MSCS資源。網路介面故障及節點故 障將是由拓樸及群組服務子系統308來偵測。 回復服務310是一以規則爲基礎,物件導向,異動型事件 處理子系統。當一新事件插入一群集範疇CSQL資料庫之群 集範疇事件表時,事件處理受到觸發。回復服務延伸CSQL 功能,以增加作用及物件導向SQL敘述處理功能至CSQL子 系統。方法是以SQL語言之延伸來表示,稱爲作用SQL。 明確地説,導入下列敘述:CREATE TRIGGER, -21 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 χ 297公釐) ---<---^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(19) EVALUATE,EXECUTE,CONTINUE,CREATE MACRO, 與LOAD DLL。CREATE TRIGGER敘述利用CSQL在指定表 中登記一觸發。當一新列(事件)插入指定表時,CSQL啓動 對應之事件處理規則。規則是0 SQL及前所提及之作用 SQL敘述來表示。EVALUATE敘述非常類似於SELECT。 EVALUATE選擇一組規則且接著評估該等規則,而非選擇 一組資料。相同EVALUATE敘述選定及處理之SQL及作用 SQL敘述是相同異動之一部份。EXECUTE敘述藉由啓動一 使用者定義功能,一外部程式,一指令檔案,或一殼腳本 檔案來改變該實體系統敘述。CONTINUE敘述使得分散式 CSQL伺服器間之事件處理達成同步。尤其,CONTINUE強 迫CSQL資料庫同步至目前點。當一事件受到處理時,可能 有多個CONTINUE敘述受到評估,以強迫多個資料庫達成 同步。Create MACRO敘述定義一可在任何SQL敘述中受到 啓動之巨集。一巨集送回一可用於隨後之SQL敘述之資料 値。LOAD DLL動態載入指定之動態連接庫(DLL)至 CSQL。其利用CSQL登記使用者定義之功能於dll。使用 者定義之功能可在一 EXECUTE敘述中受到啓動或插入於另 一 SQL敘述。使用者定義之功能藉由提供常用之功能,或 啓始針對CSQL伺服器以外之個體之動作,來延伸SQL語 言。舉例而言,使用者定義之功能是用以控制MSCS資源 管理設施。 雖然多群集之群集服務之一實例受到展示,其他機制也 可用以提供群集服務。例如,CSQL程式設計介面使用 -22- $紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---、---:-----衣--------訂---------線# (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 20 五、發明說明() CSQL語言敘述。也可使用其他種類之程式設計介面,資料 儲存器,或資料登記機制。在此種建構中,該機制可提供 多群集内之諸子群集間之資料一致性,在重新啓動期間提 供多群集節點間之資料一致性,且提供一進入多群集之新 節點之資料的同步。除此之外,雖然所描述之範例所述之 回復服務是CSQL之延伸,根據本發明之一較佳實例此種延 伸並非必要。 多群集API 318提供多群集整體,而非一特定MSCS子群 集,之存取。其包含運作於更大群集之環境内,但是在功 能上相同於微軟群集API之功能。其是意欲供群集管理器 302以及其他群集知曉應用來使用。多群集API之功能與微 軟群集API之功能間存在一對一之對應。多群集API DLL二 進位相容於MSCS群集API DLL,clusapi.dll。查詢群集API 功能是由多群集API DLL來直接處理。造成狀態變更之群 集API功能轉換成爲受到回復服務處理之功能。多群集API DLL使用CSQL通知機制來等候事件處理之結果。多群集 API DLL機制經由一爲眾所知之虛擬IP位址來與CSQL服務 進行通訊。總結而言,群集服務304保證,當一應用程式 故障轉移至一群集之另一節點時,該應用程式置放於NT群 集登記器之狀態資訊可供使用。群集服務304提供設施以 檢查系統組態,及確保系統組態受到正確配置。群集管理 器302將配置,管理,及監測該等多群集及其包含之MSCS 子群集。可開發其他設施以協助簡化多個MSCS子群集及 多群集群集服務之安裝程序。 -23- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---*---:-------------訂-------- (請先閱讀背面之注意事項再填寫本頁) 五 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 21 發明說明() 群集服務子系統是由群集協調器子系統來啓動。群集協 調器是建構成爲一 N T服務,且在啓始期間自動啓動。群集 協調器接著依照下列順序來啓動所有其他群集服務:處於 獨立模態之CSQL服務;拓樸服務;群組服務;處於群集模 態之CSQL服務;回復服務;MSCS事件轉接器;MSCS ; 與群組服務事件轉接器。 CSQL服務最初是以獨立模態來啓動。拓樸服務及群組服 務自CSQL資料庫擷取他們之組態資訊。當群組服務發生 時,CSQL服務構成CSQL—Services群組315,且執行一資料 庫衝突解決協定(DCRP)以使群集組態資料庫之内容達成同 步。第一CSQL伺服器構成該群組,設定CSQL_Services群 組成爲BIDDING狀態,且啓動一計時器以等候其他CSQL 伺服器加入該群組。加入處於BIDDING狀態之群組之一 CSQL伺服器也啓動一計時器以等候其他伺服器加入。計時 器値是定義於群集組態資料庫,且在各個節點可不相同。 正受到不同節點使用之群集組態資料庫之不同版本最初可 導致不一致之計時器値。當第一計時器到期時,CSQL伺服 器藉由使用一群組服務η-階段協定來廣播其之群集組態資 料庫之時間戳記至該群組。如果其他CSQL伺服器之時間戳 記較所接收之時間戳記爲新,則該等伺服器廣播他們之時 間戳記。當多個CSQL伺服器傳出他們之時間戳記時,群組 服務將任意選擇一時間戳記以在下一階段廣播至該群組。 只有當一 CSQL伺服器之時間戳記較所接收之時間戳記爲新 時,該CSQL伺服器方會傳出其之時間戳記。一 CSQL伺服 -24- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) —‘—^-------------訂---------線# (請先閱讀背面之注意事項再填寫本頁) ^_I_ 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 發明說明() 器只有在第一階段中會傳出其較所接收之時間戳記爲舊之 時間戳記,以通知其他CSQL伺服器其具有一不同版本。最 終該協定將結束。所有CSQL伺服器將具有相同之時間戳 記,或他們皆同意最新版本。如果並非所有時間戳記皆相 同,則最後傳出其之時間戳記之CSQL伺服器應廣播其之資 料庫至所有其他CSQL伺服器。CSQL伺服器應取得要受到 最新版本取代之資料庫之備份拷貝。在CSQL伺服器使得群 集組態資料庫達成同步之後,他們設定CSQL_Services群組 之狀態成爲其之RUNNING狀態。複本受到一新版本取代之 該等CSQL伺服器將啓始群集服務之重新啓動。一加入一 RUNNING CSQL Services群組之CSQL伺月艮器必須儲存其之 複本,且利用群集版本來取代其之複本,無論其之時間戳 記値爲何。如果新版本之時間戳記不同於其之現有時間戳 記,且該現有時間戳記目前正受到其他子系統之使用,則 CSQL伺服器將啓始群集服務之重新啓動。 CSQL時間戳記是三維參數:一在整個群集中單調遞增之 數字,最後一次修改資料庫之節點之節點識別,與一 CRC 檢查和。 一旦CSQL服務處於RUNNING狀態,所有節點之群集組 態資料庫,包含事件佇列,變成一致。一 CSQL伺服器在其 成功加入一 RUNNING CSQL_Services群組之後稱爲處於群 集模態。回復服務,MSCS ,MSCS事件轉接器 (MSCSEA),與群組服務事件轉接器(GSEA)接著將受到啓 動。GSEA加入一 GSEA群組服務群組,且當執行群組服務 -25- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -------^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 _____B7___ 五、發明說明(23 ) JOIN協定時,增加此節點之一 BRING—COMPUTER UP事件 至群集範疇事件佇列。多群集資源群組最初處於離線狀 態。在一BRING_COMPUTER_UP事件之處理期間,回復服 務決定是否應使任何資源群組進入連線狀態。 DCRP演算法概述如下:(1 ) 一 CSQL伺服器廣播一開放資 料庫請求至CSQL_Services群組,且該請求包含資料庫之名 稱與一時間戳記,(2 )具有不同時間戳記之每一 CSQL伺服 器皆必須投票表示CONTINUE,且在第一階段中廣播其之 時間戳記以強迫一資料庫複製,(3 )接收其本身之廣播之 CSQL伺服器必須在第一階段中投票表示APPROVE,(4)時 間戳記相同於接收之時間戳記之CSQL伺服器必須投票表示 APPROVE,(5)對於每一後續階段,時間戳記晚於接收之 時間戳記之CSQL伺服器必須廣播其之時間戳記且投票表示 CONTINUE,( 6 )接收其本身之時間戳記之CSQL伺月艮器必 須投票表示CONTINUE,( 7 )具有相同或任何更早之時間戳 記之CSQL伺服器必須投票表示APPRO VE,( 8 )如果在一階 段中未傳送訊息,則最後廣播其之時間戳記之伺服器必須 複製其之資料庫版本至其他伺服器。伺服器總是在置換其 之複本之前備份拷貝該複本。 請繼續參看圖3 b及3 c,多群集系統之啓動序列受到展 示。首先,在NT啓動期間群集協調器是啓動成爲一 NT服 務。群集協調器啓動及監測其他多群集子系統。接著, CSQL服務314是以獨立模態來啓動。接著,拓樸服務3〇8 受到啓動。群組服務310接著受到啓動。接著,CSQL服務 -26- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) —.—^-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制衣 523656 A7 B7 24 五、發明說明() 形成或加入CSQL_Services群組315。CSQL服務執行資料庫 衝突解決協定且進入群集模態。接著所有群集範疇資料庫 皆是最新。尤其,事件佇列是最新。回復服務316受到啓 動,且回復服務精靈啓動MSCS事件轉接器312與群組服務 事件轉接器(GSEA)310,依照此順序。GSEA形成或加入 GSEA群組且其將監測節點故障事件。回復服務精靈接著插 入本地節點之一BRING—COMPUTER—UP事件。回復服務處 理此節點之BRING—COMPUTERUP事件。MSCS子系統306 受到啓動且接著是由MSCS事件轉接器3 12來監測。資源群 組受到啓動或移動至此新節點,視資源指配策略及系統狀 態而定。 本發明之另一關鍵特點涉及一群集配額條件。除非滿足 下列配額條件之一,否則不可使任何資源群組進入其之連 線狀態。群集服務採用HACMP所用之相同多數配額方法。 群集服務使用群組服務所提供之連接資訊來決定多數配額 條件。除此之外,節點也經由共享磁碟路徑或另一方法來 傳送連接資訊以避免頭腦分裂問題。當網路受到切割且一 群集區分成爲許多分割時,群集服務必須保證不同時在多 個分割啓動單一資源群組,因爲此可導致共享磁碟之應用 資料之毁損。經由磁碟路徑來傳送之連接資訊協助每一分 割得知其他分割之隸屬,且因此協助防止資料毀損。如果 下列條件爲眞,則應使一資源群組在一分割内之一節點進 入連線狀態:(1)該分割具有多數配額,亦即定義於群集組 態資料庫之所有節點之多於二分之一已加入該群集且位於 -27- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---.----------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 A7
經濟部智慧財產局員工消費合作社印制衣 該分割,或(2)該分割具有定義於群集组態資料庫之節點之 正好二分之一,且沒有相同大小之其他分割存在,或(3)該 分割具有定義於群集组態資料庫之 而另-分割包含該等節點之另外二分之一,;;::最低 識別値之節點位於前一分割。 在。動所有群本服務子系、統之後,群集協調器將監測每 -子系統之狀態。如果任何子系統不正常終止,則群集協 調器將關閉該節點且重新啓動自e,以及其他子系統。當 任何子系統發生故障時關閉—節點可保證,㈣集服務發 生故障時,沒有使用者應用將繼續執行。 當-分割復原時,群組服務將解除所有分割之群組,除 了刀以外β等喪失”分割之節點之群組服務精靈將 受到終止。隨後該等節點將由群集協調器來關閉及重新啓 動。回復服務之關閉程序必須確保所有資源群組皆是離 線。 請參看圖3C,支援本發明之元件受到展示。群集服務 綱使用MSCS裏來管理—節點内之群集資源。一資源群 组首先定義於多群集組態資料庫,且只有#需要時方定義 於:MSCS子群集。資源管理策略是設計成爲模擬⑽^資 源g理仃爲。虽一貪源群組定義於_ MSCS子群集時,重 新啓動旗標總是受到解致能,以致—重新啓動決定將是由 事件處理子系統,而非MSCS,來執行。—定綠__mscs 子群集之資料组,無論其是否騎節點群集,將在較佳 節點表列具有最多一節‘點,以致Mscs自動故障轉 -28- 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公复 ---.---^-------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(26) 受到解致能。群集服務將監測處於連線之每一資源群組之 狀態。當一資源或資源群組發生故障時,MSCS事件轉接 器3 12將插入對應之事件於事件佇列。CSQL服務3 14將觸 發該事件之事件處理。正好只有一 CSQL實例將啓始事件處 理。每一 CSQL實例管理資源,其中包含只位於本地節點之 單節點MSCS子群集。事件處理是設計成爲能夠處理多個 故障。 請參看圖4,5,及6,本發明之另一方面涉及事件處 理。關於圖5,表500展示二輸入項502及504,以描述二 ch—routines : BRING_COMPUTER_UP 及 N0DE_UP。在輸 入項502中,區506之動作對應於圖4之步驟404。在輸入項 504,區508,510,及512包含分別對應於步驟408,410, 及414之動作。定義於群集服務之事件包含,但不限於: BRING_COMPUTER UP ,BRING_COMPUTER_DOWN , BRING_RESOURCE GR0UP_0NLINE , BRING_RESOURCE_GROUP_OFFLINE , 與 MOVE— RESOURCE—GROUP。當一電腦加入一群集時,一 ” BRING—COMPUTER—UP ’’事件將插入事件佇列。爲處理 BRING—COMPUTER—UP事件,群集服務執行下列工作:(1) 檢查是否存在一配額,與(2)如果答案是肯定的,則檢查是 否應使任何資源群組在新電腦成爲連線。某些資源群組可 在某些其他電腦變成連線。首先應使該等資源群組變成離 線。接著,群集服務應使該等資源群組在新電腦變成連 線0 -29- 本纸張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) —.—:—--------訂--------- (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明() 所有組態資訊,狀態資訊,資源管理策略,與規則皆儲 存於一群集範轉資料庫,escluster.cfg。假設電腦” hilltop ’’ 加入一群集。一針對hilltop之 BRING_COMPUTER_DOWN 事件插入事件佇列,以觸發CSQL來執行事件處理,其中一 執行時間環境受到產生,包裹相關於該事件之事件且CSQL 處理下列敘述: EVALUATE 來自 ch routines 之動作,其中 ch—routine 二 ”BRING COMPUTER UP ” 前面敘述指定escluster.cfg資料庫之ch routines表之 BRING—COMPUTERJJP列的敘述應受到處理。稱爲 BRING_COMPUTER_UP之ch_routine採取之動作描述於表 500之輸入項502。ch—resource—groups表600定義於圖6。該 表展示該表之一列。每一輸入項是一行。$_failback_node() 是一送回一節點之巨集,其中基於指定之故障轉移策略與 一新節點重新加入一群集這項事實,指定之資源群組應在 該節點執行。 $—resource group—online()與 S resource—group_offline()是 使用者定義函數,以使用MSCS群集API功能呼叫來使指定 之資源群組在指定之電腦節點變成離線及連線。因爲處理 ” EVALUATE 來自 ch—routines 之動作,其中 ch_routine = ’BRING_COMPUTER_UP’”,下列敘述受到選擇 且接著受到處理: ”評估來自電腦之markup action , 其中電腦 =$—get—event_node(); -30- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---.---:-------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 經濟部智慧財產局員工消費合作社印制衣 A7 B7__ 五、發明說明(28 ) 評估來自ch—routines之動作,其中$_has_quorum()且 ch—routine = NODE_UP ;" 稱爲NODEJJP之ch_routine所採取之動作展示於圖5之表 500之輸入項504。因爲處理第二EVALUATE敘述,下列三 敘述受到擷取且接著受到處理: 評估來自 ch resource groups 之 failback action ,其中 current—node <> next node ; 評估來自 ch resource—groups 之 release action ,其中 current node <> next node ; 評估來自 ch resource groups 之 acquire action ,其中 current node = 且 next node = $_get_event_node(); 該三EVALUATE敘述將搜尋所有符合搜尋條件之 ch resource groups 表之 ch—resource group 列(物件)° 當發 現一 ch_resource_group列(物件)時,指定之動作將施加於 該物件。 failback action包含單一敘述,且該敘述是: ” 更新 chresourcegroups , 設定 nextnode = $_failback_node() , 其中 ch—resource—group =此 chresourcegroup ; ” 在前面更新敘述中,一巨集failback_node ()受到處理以 送回一節點,且在一新節點剛加入該群集之下,該節點是 執行指定之資源群組之最佳節點。更新敘述儲存送回之節 點名稱至next_node行。一巨集名稱之前會加上$以簡化解 析。 -31 - 張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) " ---,---Ί------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 29 五、發明說明() 一 ch resource group物件之current node行顯示正在執行 ch resource group之目前節點。如果current node不同於下 一節 F占,貝1J 處理众匕 ch resource group 之 release—action 。浚口 果是此種情形,則下列敘述受到處理: 執行 $_resource—group offline ();
Resource_group_offline()是一使用者定義之函數,且其 接著呼叫MSCS OfflineResourceGroup ()函數以使指定之資 源群組進入其之離線狀態。一使用者定義之函數之前會加 上$ _以簡化解析。 最後,在新節點上針對未在任何地方執行且應在新節點 上執行之所有 ch_resource_group 物件來處理 acquire action 〇 Acquire action 包含一敘述: 執行 $_resource—group—online (); resourcegrouponline ()也是一使用者定義之函數,且其呼 叫MSCS OnlineResourceGroup ()函數以使指定之資源群組 進入其之連線狀態。 群集服務也支援事件模擬。當回復服務受到啓動以模擬 一事件時,其首先複製群集組態資料庫。事件模擬將在組 態資料庫之私用拷貝上執行。在模擬期間,實際改變實體 資源之狀態的是EXECUTE敘述。 圖4展示,當一節點想要加入400 —多群集時,群集服務 建構之方法。首先,一節點加入群集(步驟402)。決定是否 存在一配額(步驟404)。如果答案是否定的,則該方法返回 (步驟406 )。如果的確存在一配額,則針對每一資源群組, -32- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) —”—^-------------訂--------- (請先閱讀背面之注意事項再填寫本頁) 功656
五、發明說明( 經濟部智慧財產局員工消費合作社印製 構下列迴圈(步驟405)。首先查詢是否任何資源群組應故 障轉移至新節點(步驟408)。如果答案是肯定的,則對於每 此種貝源群組,系統使得對應之Mscs子群集導致指定 之資源群組變成離線(步驟41〇)。執行一 C0NTINUE(步骤 418)以使所有節點達成同步。新節點之mscs子群集將使 指足^資源群組進入連線狀態(步驟414)。接著查詢(步驟 412 )疋否還有其他資源群組。如果答案是否定的,系統結 束(步驟416);否則方法返回至步驟4〇5。 圖4a展=方法43〇之流程圖,以移動一資源群組自一節 點至另一即點。每一節點基於節點狀態,資源群組優選節 點表列,與故障轉移策略來計算可執行該資源群組之下一 優選節點(步驟434)。另外,使用者可直接指定下一優選節 點。接著,系統查詢是否目前節點不等於下一節點(步驟 436)如果答案是否定的,則系統結束(步驟43 8 )。如果答 案疋肯疋的,則系統使得目前節點之MSCS子群集導致指 足 < 資源群組變成離線(步驟44〇)。程序接著繼續(步驟 442)。在此步骤中,系統使得其之事件處理達成同步。其 後,系統使得下一節點iMSCS群集導致指定之資源群組 進入連線狀態(步驟444)。最後,系統結束(步驟446)。 圖4b展示,當節點故障452發生時,群集服務建構之一 般方法450。此方法也適用於資源故障及資源群組故障事 件。群組服務事件轉接器總共插入正好一節點當機事件至 事件仔列(步驟454)。Node-Down事件處理受到觸發(步驟 456)。接著,對於執行於故障節點之每一資源群組,下列 -33- 本紙張尺度·巾_家標準(CNS)A4規袼(210 X 297公釐了 (請先閱讀背面之注意事項再填寫本頁> 訂--------- 五 經濟部智慧財產局員工消費合作社印製 523656 A7 B7 31 發明說明() 步驟受到執行(步驟458)。首先,回復服務計算用於故障轉 移之Next Node(步驟460)。接著決定是否My Node == Next_Node。如果答案是否定的,則系統檢查是否還有其 他資源群組(步驟462)。如果答案是肯定的,則系統使得 MSCS子群集導致指定之資源群組變成連線(步驟464)。如 果沒有其他資源群組可供使用,則系統結束(步驟466)。如 果還有其他資源群組可供使用,則系統返回至步驟458。 雖然一直説明本發明成爲使用MSCS子群集,應可暸解這 只是本發明之一實例。例如,此相同系統可建立於IBM之 HACMP或昇陽之Ultra企業群集Η A伺服器之上以管理該等 群集系統。除此之外,本發明之裝置,程序,與指令可應 用於異質群集系統。例如,本發明可用以管理一多群集系 統,其中包含一使用MSCS來管理之群集與一使用Ultra企 業群集ΗA伺服器來管理之群集。除此之外,本發明之程序 可用以管理多處理器電腦,例如SMP伺服器。 値得注意的是雖然本發明一直是針對功能完備之資料處 理系統之環境來説明,普通熟悉本技術領域者應可理解本 發明之程序能夠以一電腦可讀型媒體之指令之型態及多種 型態來配送,且無論實際用以執行配送之信號承載媒體之 特殊種類爲何,本發明同樣適用。電腦可讀型媒體之範例 包含可記錄型媒體,例如軟碟片,硬碟機,RAM,與CD-ROM,以及傳輸型媒體,例如數位及類比通訊鏈結。 本發明之説明只是用以展示及説明,而未意謂涵蓋所有 可能或限制本發明於所揭示之型態。普通熟悉本技術領域 -34- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ---:-------I --------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 523656 A7 -------— B7____ 五、發明說明(32 ) 者應可提出4多修改及變型。實例受到選擇及説明以最 瞭解本發明〈原理,其之實際應用,且使得普通熟悉本技 術領域者可瞭解本發明之具有各種修改之各種實例,且該 等實例適合所構思之特殊用途。 (請先閱讀背面之注意事項再填寫本頁) ------- —訂---------· 經濟部智慧財產局員工消費合作社印製
I 5 3 I 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)

Claims (1)

  1. 523656 申請專利範圍 1. 經濟部智慧財產局員工消費合作社印制衣 種管理一群集電腦系統之方法,該群集電腦系統具有 至少一節點,且該方法包含下列步驟: (a)建立一包含該至少一節點及至少一共享資源之 集; π (b )利用一群集服務程式來管理該至少一節點; (e)在一故障轉移事件之後使得該系統返回至一 態。 又狀 2·如申請專利範圍第丨項之方法,其中該群集服務程式使 用至少一節點内之一資源API來管理。 3.如申請專利範園第!項之方法,其中步驟(a)包含建立一 具有至少二子群集之多群集,其中每一該等子^集=含 至少一節點。 口 4·如申請專利範圍第1項之方法,其中步驟(a)包含建立一 具有至少三節點之多群集。 丄 5 .如〃申請專利範圍第1項之方法,進一步包含在多群集内 之第一節點與任何其他節點間故障轉移。 6·如申請專利範圍第5項之方法,進一步包含更新一 範疇資料檔案。 7·如申請專利範圍第1項之方法,其中步驟(b)包含,當 至少一節點受到啓動時,自動啓始第一群集服務程式^ 8·如申請專利範園第7項之方法,進一步包含,在啓始 一群集服務程式之後,啓始常駐於該至少一節點之第 群集服務程式。 9·如申請專利範圍第8項之方法,其中該第一及第二群集 集 該 第 I : --------訂---------線· (請先閱讀背面之注意事項再填寫本頁) -36- 523656 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 —______D8 -------------- 六、申請專利範圍 服務程式是二進位相容。 10·如申請專利範圍第1項之方法,其中步驟(b)包含管理一 群集節點隸屬資料庫。 11.如申凊專利範圍第1項之方法,其中步驟(b)包含管理在 少群集内之該至少一節點及任何其他節點間傳送之一悸 動信號。 12·如申請專利範圍第1項之方法,其中步驟(b)包含管理在 多群集内之該至少一節點及任何其他節點間之節點間通 訊0 13·如申請專利範圍第1項之方法,進一步包含利用一群集 管理器來展現單一群集之影像。 14.如申請專利範圍第1項之方法,其中步驟(b)包含配置一 多群集配額資源成爲一本地配額資源。 15·如申請專利範圍第i項之方法,其中步驟(c )包含重新啓 動一節點且使該共享資源進入一致狀態。 16·如申請專利範圍第之方法,其中步驟(c)包含儲存該 共享資源之該一致狀態。 17·如申請專利範圍第1項之方法,其中步騍(b)包含,回應 於控制該共享資源之衝突,決定不要重新啓動或控制一 資源,且該資源先前在一故障節點是連線。 18.如申請專利範園第i 7項之方法,進一步包含增加一隱藏 資源至每一節點之一資源群組。 19·如申請專利範圍第i 8項之方法,進一步包含使得該隱藏 資源相依於該資源群組之任何其他資源。 -37- 本紙張尺度適用中國國家標準(cns)a4規格(210 X 297公釐) —:—^--------訂--------線4|^ (請先閱讀背面之注意事項再填寫本頁) 523656 六、申請專利範圍 20. —種執行一方法且具有多個郎點之資料處理系統,其中 该資料處理系統執行原始機器碼,且該資料處理系统包 含: “ (a)建立一多群集之裝置,且該多群集包含該至少一節 點及至少一共享資源; (b )利用一群集服務程式來管理該至少一節點之裝置; (c) 在一故障轉移事件之後使得該系統返回至一致狀態 之裝置。 ~ 21·如申請專利範圍第20項之資料處理系統,其中該群集服 務程式使用該至少一節點内之一資源Αρι來管理。 22·如申請專利範園第20項之資料處理系統,其中(a)包含 建JL 一具有至少二子群集之多群集之裝置,其中每一該 等子群集包含至少一節點。 23·如申請專利範圍第20項之資料處理系統,其中包含 建立一具有至少二節點之多群集之裝置。 24·如申請專利範圍第2〇項之資料處理系統,進一步包含·· (d) 在多群集内之第一節點與任何其他節點間故障轉移 之裝置。 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 25. 如申請專利範圍第18項之資料處理系統,其中(c)包含 更新一群集範疇資料資料庫之裝置。 26. 如申請專利範圍第20項之資料處理系統,其中(1>)包 含’當該至少-節㉝受到啓動時,自動啓始第—群集服 務程式之裝置。 27. 如申請專利範圍第26項之資料處理系統,進_步包含, 本紙張尺度適时_豕鮮(CNS)A4規格咖 -38- ^3656
    申請專利範圍 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 制 在啓始第一群集服務程式之後,啓始常駐於該至少一節 點之第二群集服務程式之裝置。 28·如申請專利範園第2 0項之資料處理系統,其中(b )包含 管理在多群集内之該至少一節點及任何其他節點間傳送 之一悸動信號的裝置。 29·如申請專利範圍第2 0項之資料處理系統,其中(b )包含 官理在多群集内之該至少一節點及任何其他節點間之節 點間通訊的裝置。 30. 如申請專利範園第2 〇項之資料處理系統,進一步包含利 用一群集管理器來展現單一群集之影像之裝置。 31. 如申請專利範圍第2 〇項之資料處理系統,其中(c )包含 儲存該共享資源之該啓始狀態之裝置。 32. 如申請專利範圍第2 〇項之資料處理系統,其中(b )包 含,回應於控制該共享資源之衝突,決定不要重新啓動 或控制一資源之裝置,其中該資源先前在一故障節點是 連線。 33·如申請專利範圍第2 〇項之資料處理系統,進一步包含增 加一隱藏資源至每一節點之一資源群組之裝置。 34· —種在一資料處理系統執行一方法之電腦程式產品, (a) 建立一多群集之第一指令,且該多群集包含該至少 一節點及至少一共享資源; (b) 利用一群集服務程式來管理該至少一節點之第二指 令; (c) 在一故障轉移事件之後使得該系統返回至一致狀態 , : 衣--------訂---------線 (請先閱讀背面之注意事項再填寫本頁) -39 〜υ3〇
    <第三指令。 35. 如申請專利範 阁罘i 4項 < 電腦程式產品,進一包含: 、阶 弟一郎點與任何其他節點間故障轉移 <弟四指令。 36. ^請專利範園第34項之電腦程式產品,其中該等第二 37 : 1包含管理一群集節點隸屬資料庫之指令。 • : 4專利範圍第3 4項之電腦程式產品,其中該等第二 曰7進#包含管理在多群集内之該至少一節點及任何 其他節點間傳送之-悸動信號的指令。 38·如申请專利範園第3 4項之電腦程式產品,纟中該等第二 指令進-步包含管理在多群集内之該至少一節點及任飼 其他郎點間之節點間通訊的指令。 39·種管理一群集電腦系统之方法,該群集電腦系統具有 至少一節點,且該方法包含下列步驟: (a) 建互一包含孩至少一節點及至少一共享資源之多群 集; (b) 利用一群集服務程式來管理該至少一節點,·其中該 群集服務私式使用該至少一節點内之一資源A p〗來管 理;包含管理在多群集内之該至少一節點及任何其他節 點間傳送之一悸動信號; (c) 在多群集内之第一節點與任何其他節點間故障轉 移; (d) 包含更新一群集範疇資料檔案; (e) 在一故障轉移事件之後使得該系統返回至一致狀 -40 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) --------IT---------線 經濟部智慧財產局員工消費合作社印製 523656
    、申請專利範圍 進一步包含利用一群集 其中步驟(c)包含儲存 其中步驟(b)包含,回 態。 4〇·^申請專利範圍第39項之方法,其中步碟⑷包 —具有至少二子群集之多群集,其中 ^ 乂 含至少-節點。 母斜子鮮集包 41·,申請專利範園第39項之方法,其中步驟⑻包含,卷 =至少-節點受到啓動時,自動啓始第—群集服務: 42 2請專利範園第39項之方法,其中步驟(b)包含管 夕群集内〈琢至少-即點及任何其他節點間 通訊。 I ·、、、*間 43·如申請專利範圍第3 9項之方法 管理器來展現單一群集之影像。 44.如申請專利範圍第3 9項之方法 該共享資源之該啓始狀態。 45·如申請專利範圍第3 9項之方法 應於控制該共享資源之衝突,決定不要重新啓動或控= 一資源,且該資源先前在一故障節點是連線。 46.種在一分散式資料處理系統中管理多個群集電腦系统 之方法,該方法包含: 偵測該等多個群集電腦系統内之一群集電腦系統之一 重新啓動的開始,其中該群集電腦系統將在一選定狀態 中重新啓動且包含一資源·,及 ~ 回應於決定該資源目前運作於該等多個群集電腦系統 内之另一群集電腦系統,防止該資源在該群集電腦系統 本紙張尺度適用中國國家標準(CNS)A4規格(210: .tl---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 -41 - 523656 A8 B8 C8 D8 六、申請專利範圍 中重新啓動。 47. 如申請專利範圍第46項之方法,其中資源是—共享擋案 系統。 48. -種具有多個群集電腦系統之分散式資料處理系統,包 含: 偵測裝置,以偵測該等多個群集電腦系統内之一群集 電腦系統之一重新啓動的開始,其中該群集電腦系統將 在一選定狀態中重新啓動且包含一資源;及 防止I置’回應於決定該資源目前運作於該等多個群 集電細系統内之另一群集電腦系統,用以防止該資源在 該群集電腦系統中重新啓動。 (請先閱讀背面之注意事項再填寫本頁) -衣--------訂---------線赢 經濟部智慧財產局員工消費合作社印製 -42- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW089101301A 1999-01-29 2000-01-26 Method and apparatus for building and managing multi-clustered computer systems TW523656B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/240,494 US6438705B1 (en) 1999-01-29 1999-01-29 Method and apparatus for building and managing multi-clustered computer systems

Publications (1)

Publication Number Publication Date
TW523656B true TW523656B (en) 2003-03-11

Family

ID=22906751

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089101301A TW523656B (en) 1999-01-29 2000-01-26 Method and apparatus for building and managing multi-clustered computer systems

Country Status (7)

Country Link
US (1) US6438705B1 (zh)
EP (1) EP1024428B1 (zh)
JP (1) JP4307673B2 (zh)
KR (1) KR100368078B1 (zh)
AT (1) ATE434218T1 (zh)
DE (1) DE60042379D1 (zh)
TW (1) TW523656B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301599B2 (en) 2003-06-18 2012-10-30 Atos It Solutions And Services Gmbh Cluster arrangement
US11645263B2 (en) 2020-11-25 2023-05-09 Coupang Corp. Systems and methods for managing a highly available and scalable distributed database in a cloud computing environment

Families Citing this family (244)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9603582D0 (en) 1996-02-20 1996-04-17 Hewlett Packard Co Method of accessing service resource items that are for use in a telecommunications system
US6427163B1 (en) * 1998-07-10 2002-07-30 International Business Machines Corporation Highly scalable and highly available cluster system management scheme
DE19835216B4 (de) * 1998-08-05 2005-10-27 Systemonic Ag Prozessor und Verfahren zur parallelen Datenverarbeitung
US7774469B2 (en) * 1999-03-26 2010-08-10 Massa Michael T Consistent cluster operational data in a server cluster using a quorum of replicas
US6401120B1 (en) * 1999-03-26 2002-06-04 Microsoft Corporation Method and system for consistent cluster operational data in a server cluster using a quorum of replicas
US7020695B1 (en) * 1999-05-28 2006-03-28 Oracle International Corporation Using a cluster-wide shared repository to provide the latest consistent definition of the cluster (avoiding the partition-in time problem)
US7076783B1 (en) 1999-05-28 2006-07-11 Oracle International Corporation Providing figure of merit vote from application executing on a partitioned cluster
US6871222B1 (en) 1999-05-28 2005-03-22 Oracle International Corporation Quorumless cluster using disk-based messaging
US6754661B1 (en) * 1999-07-13 2004-06-22 Microsoft Corporation Hierarchical storage systems for holding evidentiary objects and methods of creating and operating upon hierarchical storage systems
US6745240B1 (en) * 1999-11-15 2004-06-01 Ncr Corporation Method and apparatus for configuring massively parallel systems
US6662219B1 (en) * 1999-12-15 2003-12-09 Microsoft Corporation System for determining at subgroup of nodes relative weight to represent cluster by obtaining exclusive possession of quorum resource
US6789213B2 (en) 2000-01-10 2004-09-07 Sun Microsystems, Inc. Controlled take over of services by remaining nodes of clustered computing system
US6748429B1 (en) 2000-01-10 2004-06-08 Sun Microsystems, Inc. Method to dynamically change cluster or distributed system configuration
US6862613B1 (en) * 2000-01-10 2005-03-01 Sun Microsystems, Inc. Method and apparatus for managing operations of clustered computer systems
US6658587B1 (en) 2000-01-10 2003-12-02 Sun Microsystems, Inc. Emulation of persistent group reservations
US6757836B1 (en) * 2000-01-10 2004-06-29 Sun Microsystems, Inc. Method and apparatus for resolving partial connectivity in a clustered computing system
US6769008B1 (en) 2000-01-10 2004-07-27 Sun Microsystems, Inc. Method and apparatus for dynamically altering configurations of clustered computer systems
US6594786B1 (en) * 2000-01-31 2003-07-15 Hewlett-Packard Development Company, Lp Fault tolerant high availability meter
US20020198996A1 (en) * 2000-03-16 2002-12-26 Padmanabhan Sreenivasan Flexible failover policies in high availability computing systems
US7627694B2 (en) * 2000-03-16 2009-12-01 Silicon Graphics, Inc. Maintaining process group membership for node clusters in high availability computing systems
US7158926B2 (en) * 2000-05-05 2007-01-02 Sun Microsystems, Inc. Cluster availability model
US6807557B1 (en) * 2000-05-31 2004-10-19 International Business Machines Corporation Method, system and program products for providing clusters of a computing environment
US6823356B1 (en) * 2000-05-31 2004-11-23 International Business Machines Corporation Method, system and program products for serializing replicated transactions of a distributed computing environment
US7325046B1 (en) * 2000-05-31 2008-01-29 International Business Machines Corporation Method, system and program products for managing processing groups of a distributed computing environment
US7103664B1 (en) * 2000-05-31 2006-09-05 International Business Machines Corporation Method, system and program products for ordering lists of service addresses to provide load balancing of a clustered environment
US6718383B1 (en) * 2000-06-02 2004-04-06 Sun Microsystems, Inc. High availability networking with virtual IP address failover
US6732186B1 (en) 2000-06-02 2004-05-04 Sun Microsystems, Inc. High availability networking with quad trunking failover
US6728780B1 (en) 2000-06-02 2004-04-27 Sun Microsystems, Inc. High availability networking with warm standby interface failover
US6763479B1 (en) 2000-06-02 2004-07-13 Sun Microsystems, Inc. High availability networking with alternate pathing failover
US6804712B1 (en) * 2000-06-30 2004-10-12 Cisco Technology, Inc. Identifying link failures in a network
US6675217B1 (en) * 2000-07-06 2004-01-06 Microsoft Corporation Recovery of cluster consistency following failover
US6763372B1 (en) * 2000-07-06 2004-07-13 Nishant V. Dani Load balancing of chat servers based on gradients
US6701332B1 (en) * 2000-07-31 2004-03-02 Hewlett-Packard Development Company, L.P. Cluster file system multi-volume root support
AU2000266395A1 (en) * 2000-08-11 2002-02-25 George Mount Server-side session management
EP1332578A4 (en) * 2000-10-16 2006-12-20 Goahead Software Inc TECHNIQUES FOR NETWORK SYSTEMS TO MAINTAIN HIGH AVAILABILITY
US7606898B1 (en) * 2000-10-24 2009-10-20 Microsoft Corporation System and method for distributed management of shared computers
US6857082B1 (en) * 2000-11-21 2005-02-15 Unisys Corporation Method for providing a transition from one server to another server clustered together
US7657450B2 (en) * 2000-12-08 2010-02-02 Microsoft Corporation Reliable, secure and scalable infrastructure for event registration and propagation in a distributed enterprise
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US6782416B2 (en) * 2001-01-12 2004-08-24 Hewlett-Packard Development Company, L.P. Distributed and geographically dispersed quorum resource disks
US7275100B2 (en) * 2001-01-12 2007-09-25 Hitachi, Ltd. Failure notification method and system using remote mirroring for clustering systems
JP2002230312A (ja) * 2001-02-06 2002-08-16 Nippon Telegr & Teleph Corp <Ntt> 商品生産計画販売統合システム
US7099948B2 (en) * 2001-02-16 2006-08-29 Swsoft Holdings, Ltd. Virtual computing environment
US7792977B1 (en) * 2001-02-28 2010-09-07 Oracle International Corporation Method for fencing shared resources from cluster nodes
US6952766B2 (en) 2001-03-15 2005-10-04 International Business Machines Corporation Automated node restart in clustered computer system
US20060162639A1 (en) * 2001-03-23 2006-07-27 Costello James M Touch tunnel
US7076633B2 (en) * 2001-03-28 2006-07-11 Swsoft Holdings, Ltd. Hosting service providing platform system and method
US6918051B2 (en) * 2001-04-06 2005-07-12 International Business Machines Corporation Node shutdown in clustered computer system
US20040139125A1 (en) * 2001-06-05 2004-07-15 Roger Strassburg Snapshot copy of data volume during data access
US7640582B2 (en) 2003-04-16 2009-12-29 Silicon Graphics International Clustered filesystem for mix of trusted and untrusted nodes
US6708175B2 (en) * 2001-06-06 2004-03-16 International Business Machines Corporation Program support for disk fencing in a shared disk parallel file system across storage area network
US20030005350A1 (en) * 2001-06-29 2003-01-02 Maarten Koning Failover management system
US6931441B1 (en) 2001-06-29 2005-08-16 Cisco Technology, Inc. Method and apparatus for managing a network using link state information
US7016946B2 (en) * 2001-07-05 2006-03-21 Sun Microsystems, Inc. Method and system for establishing a quorum for a geographically distributed cluster of computers
US7409420B2 (en) * 2001-07-16 2008-08-05 Bea Systems, Inc. Method and apparatus for session replication and failover
US6918013B2 (en) * 2001-07-16 2005-07-12 Bea Systems, Inc. System and method for flushing bean cache
US7571215B2 (en) * 2001-07-16 2009-08-04 Bea Systems, Inc. Data replication protocol
US7702791B2 (en) * 2001-07-16 2010-04-20 Bea Systems, Inc. Hardware load-balancing apparatus for session replication
US20030023898A1 (en) * 2001-07-16 2003-01-30 Jacobs Dean Bernard Layered architecture for data replication
US6925582B2 (en) * 2001-08-01 2005-08-02 International Business Machines Corporation Forwarding of diagnostic messages in a group
US6922791B2 (en) 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
US20030046230A1 (en) * 2001-08-30 2003-03-06 Jacobs Dean Bernard Method for maintaining account consistency
US7028030B2 (en) * 2001-08-30 2006-04-11 Bea Systems, Inc. Cluster caching with concurrency checking
US7047299B1 (en) * 2001-08-31 2006-05-16 Hewlett-Packard Development Company, L.P. Generic cluster aware lock broker with user defined locking modes
US7069321B1 (en) * 2001-08-31 2006-06-27 Hewlett-Packard Development Company, L.P. Mechanism for nested expansion of data collection from one computer to multiple computers
US7113980B2 (en) 2001-09-06 2006-09-26 Bea Systems, Inc. Exactly once JMS communication
US6826601B2 (en) 2001-09-06 2004-11-30 Bea Systems, Inc. Exactly one cache framework
US20030056206A1 (en) * 2001-09-17 2003-03-20 Engo Frank Joseph Cross-barrier programming language
US7277952B2 (en) * 2001-09-28 2007-10-02 Microsoft Corporation Distributed system resource protection via arbitration and ownership
US7130897B2 (en) * 2001-10-11 2006-10-31 International Business Machines Corporation Dynamic cluster versioning for a group
US20030084219A1 (en) * 2001-10-26 2003-05-01 Maxxan Systems, Inc. System, apparatus and method for address forwarding for a computer network
US6766482B1 (en) 2001-10-31 2004-07-20 Extreme Networks Ethernet automatic protection switching
US7552135B2 (en) * 2001-11-15 2009-06-23 Siebel Systems, Inc. SQL adapter business service
WO2003048934A2 (en) * 2001-11-30 2003-06-12 Oracle International Corporation Real composite objects for providing high availability of resources on networked systems
US7085846B2 (en) * 2001-12-31 2006-08-01 Maxxan Systems, Incorporated Buffer to buffer credit flow control for computer network
US7145914B2 (en) 2001-12-31 2006-12-05 Maxxan Systems, Incorporated System and method for controlling data paths of a network processor subsystem
US7930704B2 (en) * 2002-02-06 2011-04-19 Oracle International Corporation J2EE component extension architecture
US7392302B2 (en) * 2002-02-21 2008-06-24 Bea Systems, Inc. Systems and methods for automated service migration
AU2003216332A1 (en) * 2002-02-21 2003-09-09 Bea Systems, Inc. System and method for message driven bean service migration
AU2003217599A1 (en) * 2002-02-22 2003-09-09 Bea Systems, Inc. System and method for using a data replication service to manage a configuration repository
AU2003219835A1 (en) * 2002-02-22 2003-09-09 Mission Critical Linux, Inc. Clustering infrastructure system and method
US7178050B2 (en) * 2002-02-22 2007-02-13 Bea Systems, Inc. System for highly available transaction recovery for transaction processing systems
US7152181B2 (en) * 2002-02-22 2006-12-19 Bea Systems, Inc. Method for highly available transaction recovery for transaction processing systems
US7392421B1 (en) * 2002-03-18 2008-06-24 Symantec Operating Corporation Framework for managing clustering and replication
US7631066B1 (en) * 2002-03-25 2009-12-08 Symantec Operating Corporation System and method for preventing data corruption in computer system clusters
US7307995B1 (en) 2002-04-05 2007-12-11 Ciphermax, Inc. System and method for linking a plurality of network switches
US7379970B1 (en) * 2002-04-05 2008-05-27 Ciphermax, Inc. Method and system for reduced distributed event handling in a network environment
US7406038B1 (en) 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof
US20030202510A1 (en) * 2002-04-26 2003-10-30 Maxxan Systems, Inc. System and method for scalable switch fabric for computer network
US7302692B2 (en) * 2002-05-31 2007-11-27 International Business Machines Corporation Locally providing globally consistent information to communications layers
US6925541B2 (en) * 2002-06-12 2005-08-02 Hitachi, Ltd. Method and apparatus for managing replication volumes
EP1372075B1 (en) * 2002-06-13 2004-08-25 Fujitsu Siemens Computers, LLC Method for eliminating a computer from a cluster
CA2489142C (en) * 2002-06-20 2013-11-26 Paul Francis Mckee Distributed computer
US7506342B2 (en) * 2002-07-23 2009-03-17 Bea Systems, Inc. System and method for implementing J2EE connector architecture
FR2843209B1 (fr) * 2002-08-02 2006-01-06 Cimai Technology Procede de replication d'une application logicielle dans une architecture multi-ordinateurs, procede pour realiser une continuite de fonctionnement mettant en oeuvre ce procede de replication, et systeme multi-ordinateurs ainsi equipe.
US20040030766A1 (en) * 2002-08-12 2004-02-12 Michael Witkowski Method and apparatus for switch fabric configuration
US7698434B2 (en) * 2002-08-29 2010-04-13 Bea Systems, Inc. J2EE connector architecture
WO2004051474A2 (en) * 2002-11-27 2004-06-17 Oracle International Corporation Clustering system and method having interconnect
US7430747B2 (en) * 2002-12-04 2008-09-30 Microsoft Corporation Peer-to peer graphing interfaces and methods
GB0230331D0 (en) * 2002-12-31 2003-02-05 British Telecomm Method and apparatus for operating a computer network
US7137040B2 (en) * 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
US20040181707A1 (en) 2003-03-11 2004-09-16 Hitachi, Ltd. Method and apparatus for seamless management for disaster recovery
US7313619B2 (en) * 2003-03-21 2007-12-25 Intel Corporation System and method for managing distributed objects as a single representation
JP4155399B2 (ja) * 2003-03-28 2008-09-24 株式会社日立製作所 コンピュータ処理方法及びその実施システム並びにその処理プログラム
JP2004302512A (ja) * 2003-03-28 2004-10-28 Hitachi Ltd クラスタコンピューティングシステム、および、そのフェールオーバー方法
US7299229B2 (en) * 2003-04-25 2007-11-20 International Business Machines Corporation Grid quorum
US7562154B2 (en) * 2003-06-30 2009-07-14 International Business Machines Corporation System and method for filtering stale messages resulting from membership changes in a distributed computing environment
US7716323B2 (en) * 2003-07-18 2010-05-11 Netapp, Inc. System and method for reliable peer communication in a clustered storage system
US20060064400A1 (en) 2004-09-21 2006-03-23 Oracle International Corporation, A California Corporation Methods, systems and software for identifying and managing database work
US7937493B2 (en) * 2003-08-14 2011-05-03 Oracle International Corporation Connection pool use of runtime load balancing service performance advisories
US20050256971A1 (en) * 2003-08-14 2005-11-17 Oracle International Corporation Runtime load balancing of work across a clustered computing system using current service performance levels
US7747717B2 (en) * 2003-08-14 2010-06-29 Oracle International Corporation Fast application notification in a clustered computing system
US7664847B2 (en) * 2003-08-14 2010-02-16 Oracle International Corporation Managing workload by service
US7953860B2 (en) * 2003-08-14 2011-05-31 Oracle International Corporation Fast reorganization of connections in response to an event in a clustered computing system
US7302607B2 (en) * 2003-08-29 2007-11-27 International Business Machines Corporation Two node virtual shared disk cluster recovery
US7689685B2 (en) * 2003-09-26 2010-03-30 International Business Machines Corporation Autonomic monitoring for web high availability
US7451201B2 (en) * 2003-09-30 2008-11-11 International Business Machines Corporation Policy driven autonomic computing-specifying relationships
US7533173B2 (en) * 2003-09-30 2009-05-12 International Business Machines Corporation Policy driven automation - specifying equivalent resources
US8892702B2 (en) * 2003-09-30 2014-11-18 International Business Machines Corporation Policy driven autonomic computing-programmatic policy definitions
US7475134B2 (en) * 2003-10-14 2009-01-06 International Business Machines Corporation Remote activity monitoring
US7383313B2 (en) * 2003-11-05 2008-06-03 Hitachi, Ltd. Apparatus and method of heartbeat mechanism using remote mirroring link for multiple storage system
US20050125557A1 (en) * 2003-12-08 2005-06-09 Dell Products L.P. Transaction transfer during a failover of a cluster controller
US7228458B1 (en) * 2003-12-19 2007-06-05 Sun Microsystems, Inc. Storage device pre-qualification for clustered systems
US8190780B2 (en) * 2003-12-30 2012-05-29 Sap Ag Cluster architecture having a star topology with centralized services
US20050188068A1 (en) * 2003-12-30 2005-08-25 Frank Kilian System and method for monitoring and controlling server nodes contained within a clustered environment
JP2005242981A (ja) * 2004-01-28 2005-09-08 Seiko Epson Corp サービス提供システム、アプリケーション管理システム、サービス提供装置、サービス提供プログラム、アプリケーション管理プログラムおよび記憶媒体、並びにサービス提供方法およびアプリケーション管理方法
JP4315016B2 (ja) * 2004-02-24 2009-08-19 株式会社日立製作所 コンピュータシステムの系切替方法
US7900206B1 (en) * 2004-03-31 2011-03-01 Symantec Operating Corporation Information technology process workflow for data centers
US7814064B2 (en) * 2004-05-12 2010-10-12 Oracle International Corporation Dynamic distributed consensus algorithm
US7991753B2 (en) * 2004-05-21 2011-08-02 International Business Machines Corporation Lock acquisition among nodes of divided cluster
US7735085B2 (en) * 2004-05-26 2010-06-08 Qualcomm Incorporated System for application priority based on device operating mode
GB0412655D0 (en) * 2004-06-07 2004-07-07 British Telecomm Distributed storage network
US7334154B2 (en) * 2004-06-18 2008-02-19 Microsoft Corporation Efficient changing of replica sets in distributed fault-tolerant computing system
US20060015584A1 (en) * 2004-07-13 2006-01-19 Teneros, Inc. Autonomous service appliance
US20060015764A1 (en) * 2004-07-13 2006-01-19 Teneros, Inc. Transparent service provider
US7363366B2 (en) 2004-07-13 2008-04-22 Teneros Inc. Network traffic routing
US8825832B2 (en) * 2004-07-21 2014-09-02 Hewlett-Packard Development Company, L.P. Method and system for managing connections
US7383430B1 (en) * 2004-07-29 2008-06-03 Emc Corporation System and method for validating resource groups
US8185776B1 (en) * 2004-09-30 2012-05-22 Symantec Operating Corporation System and method for monitoring an application or service group within a cluster as a resource of another cluster
US20060074940A1 (en) * 2004-10-05 2006-04-06 International Business Machines Corporation Dynamic management of node clusters to enable data sharing
US7451347B2 (en) * 2004-10-08 2008-11-11 Microsoft Corporation Failover scopes for nodes of a computer cluster
US20060168274A1 (en) * 2004-11-08 2006-07-27 Eliezer Aloni Method and system for high availability when utilizing a multi-stream tunneled marker-based protocol data unit aligned protocol
CA2586763C (en) * 2004-11-08 2013-12-17 Cluster Resources, Inc. System and method of providing system jobs within a compute environment
US7475204B2 (en) * 2004-11-24 2009-01-06 International Business Machines Corporation Automatically managing the state of replicated data of a computing environment
US7721152B1 (en) * 2004-12-21 2010-05-18 Symantec Operating Corporation Integration of cluster information with root cause analysis tool
JP4627491B2 (ja) * 2005-01-19 2011-02-09 株式会社イマジオム クラスタコンピュータミドルウェアプログラム、クラスタコンピュータシミュレータプログラム、クラスタコンピュータ用アプリケーションプログラム、およびアプリケーションプログラム開発支援方法
US20060179059A1 (en) * 2005-02-07 2006-08-10 International Business Machines Corporation Cluster monitoring system with content-based event routing
US20060179342A1 (en) * 2005-02-07 2006-08-10 International Business Machines Corporation Service aggregation in cluster monitoring system with content-based event routing
US8489728B2 (en) 2005-04-15 2013-07-16 Microsoft Corporation Model-based system monitoring
US20060248371A1 (en) * 2005-04-28 2006-11-02 International Business Machines Corporation Method and apparatus for a common cluster model for configuring, managing, and operating different clustering technologies in a data center
US7730057B2 (en) * 2005-06-06 2010-06-01 International Business Machines Corporation Computer data systems implemented using a virtual solution architecture
US7624405B1 (en) * 2005-06-17 2009-11-24 Unisys Corporation Maintaining availability during change of resource dynamic link library in a clustered system
US8326990B1 (en) 2005-07-15 2012-12-04 Symantec Operating Corporation Automated optimal workload balancing during failover in share-nothing database systems
US20070028229A1 (en) * 2005-07-28 2007-02-01 International Business Machines Corporation Method and system for dynamic generation of computer system installation instructions
US20070050681A1 (en) * 2005-08-25 2007-03-01 Derobertis Christopher V Global user services management for system cluster
US7937617B1 (en) * 2005-10-28 2011-05-03 Symantec Operating Corporation Automatic clusterwide fail-back
US20070168507A1 (en) * 2005-11-15 2007-07-19 Microsoft Corporation Resource arbitration via persistent reservation
JP4920391B2 (ja) * 2006-01-06 2012-04-18 株式会社日立製作所 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US20070174655A1 (en) * 2006-01-18 2007-07-26 Brown Kyle G System and method of implementing automatic resource outage handling
US8078907B2 (en) * 2006-01-19 2011-12-13 Silicon Graphics, Inc. Failsoft system for multiple CPU system
US20070174484A1 (en) * 2006-01-23 2007-07-26 Stratus Technologies Bermuda Ltd. Apparatus and method for high performance checkpointing and rollback of network operations
US7979460B2 (en) 2006-02-15 2011-07-12 Sony Computer Entainment America Inc. Systems and methods for server management
US8458725B2 (en) * 2006-04-10 2013-06-04 Oracle International Corporation Computer implemented method for removing an event registration within an event notification infrastructure
US9390118B2 (en) * 2006-04-19 2016-07-12 Oracle International Corporation Computer implemented method for transforming an event notification within a database notification infrastructure
US8745503B2 (en) * 2006-04-20 2014-06-03 Hewlett-Packard Development Company, L.P. Graphical interface for managing server environment
US7870248B2 (en) * 2006-05-01 2011-01-11 Microsoft Corporation Exploiting service heartbeats to monitor file share
US7761413B2 (en) * 2006-05-10 2010-07-20 Oracle International Corporation Method of ensuring availability of event notification registrations of a database management system
US8464275B2 (en) * 2006-05-10 2013-06-11 Oracle International Corporation Method of using a plurality of subscriber types in managing a message queue of a database management system
US7895600B2 (en) 2006-05-10 2011-02-22 Oracle International Corporation Method of optimizing propagation of non-persistent messages from a source database management system to a destination database management system
US20070276945A1 (en) * 2006-05-23 2007-11-29 Microsoft Corporation Fault-Tolerant Resource Committal
US20080056249A1 (en) * 2006-05-31 2008-03-06 Teneros, Inc. Extracting shared state information from message traffic
US7624118B2 (en) * 2006-07-26 2009-11-24 Microsoft Corporation Data processing over very large databases
US7770063B2 (en) * 2006-08-26 2010-08-03 International Business Machines Corporation Simulation of failure recovery within clustered systems
US7913105B1 (en) 2006-09-29 2011-03-22 Symantec Operating Corporation High availability cluster with notification of resource state changes
US9106606B1 (en) 2007-02-05 2015-08-11 F5 Networks, Inc. Method, intermediate device and computer program code for maintaining persistency
US8713186B2 (en) * 2007-03-13 2014-04-29 Oracle International Corporation Server-side connection resource pooling
US7757116B2 (en) * 2007-04-04 2010-07-13 Vision Solutions, Inc. Method and system for coordinated multiple cluster failover
US8984108B2 (en) * 2007-05-03 2015-03-17 Telefonaktiebolaget L M Ericsson (Publ) Dynamic CLI mapping for clustered software entities
US8060775B1 (en) 2007-06-14 2011-11-15 Symantec Corporation Method and apparatus for providing dynamic multi-pathing (DMP) for an asymmetric logical unit access (ALUA) based storage system
US7984150B2 (en) * 2007-07-31 2011-07-19 Hewlett-Packard Development Company, L.P. Cell compatibilty in multiprocessor systems
US20090063501A1 (en) * 2007-08-31 2009-03-05 International Business Machines Corporation Systems, methods and computer products for generating policy based fail over configuration for darabase clusters
US7730091B2 (en) * 2007-08-31 2010-06-01 International Business Machines Corporation Systems, methods and computer products for database cluster modeling
US20090070425A1 (en) * 2007-09-12 2009-03-12 Hewlett-Packard Development Company, L.P. Data processing system, method of updating a configuration file and computer program product
US7822841B2 (en) * 2007-10-30 2010-10-26 Modern Grids, Inc. Method and system for hosting multiple, customized computing clusters
US20090158298A1 (en) * 2007-12-12 2009-06-18 Abhishek Saxena Database system and eventing infrastructure
US9112886B2 (en) * 2007-12-27 2015-08-18 Verizon Patent And Licensing Inc. Method and system for providing centralized data field encryption, and distributed storage and retrieval
US20090293053A1 (en) * 2008-05-21 2009-11-26 Jim Leroy Knatcher Method and system for dynamic generation of computer system installation instructions
FR2931970B1 (fr) * 2008-05-27 2010-06-11 Bull Sas Procede de generation de requetes de manipulation d'une base de donnees d'initialisation et d'administration d'une grappe de serveurs , support de donnees et grappe de serveurs correspondants
US8719473B2 (en) 2008-09-19 2014-05-06 Microsoft Corporation Resource arbitration for shared-write access via persistent reservation
US7840730B2 (en) 2008-06-27 2010-11-23 Microsoft Corporation Cluster shared volumes
US8370679B1 (en) * 2008-06-30 2013-02-05 Symantec Corporation Method, apparatus and system for improving failover within a high availability disaster recovery environment
US8019732B2 (en) 2008-08-08 2011-09-13 Amazon Technologies, Inc. Managing access of multiple executing programs to non-local block data storage
US20100114826A1 (en) * 2008-10-24 2010-05-06 Microsoft Corporation Configuration management in distributed data systems
US8166067B2 (en) * 2008-12-26 2012-04-24 Sandisk Il Ltd. Method and apparatus for providing access to files based on user identity
US8239395B2 (en) * 2008-12-26 2012-08-07 Sandisk Il Ltd. Storage device presenting to hosts only files compatible with a defined host capability
US20100169395A1 (en) * 2008-12-26 2010-07-01 Sandisk Il Ltd. Device and method for filtering a file system
US8943409B2 (en) * 2008-12-26 2015-01-27 Sandisk Il Ltd. Storage device managing playable content
US20100211637A1 (en) * 2009-02-17 2010-08-19 Nokia Corporation Method and apparatus for providing shared services
US9454444B1 (en) 2009-03-19 2016-09-27 Veritas Technologies Llc Using location tracking of cluster nodes to avoid single points of failure
US8307085B2 (en) * 2010-03-16 2012-11-06 Microsoft Corporation Storing state of distributed architecture in external store
US8238538B2 (en) 2009-05-28 2012-08-07 Comcast Cable Communications, Llc Stateful home phone service
US8055933B2 (en) * 2009-07-21 2011-11-08 International Business Machines Corporation Dynamic updating of failover policies for increased application availability
US8458515B1 (en) 2009-11-16 2013-06-04 Symantec Corporation Raid5 recovery in a high availability object based file system
US8812799B2 (en) 2009-12-11 2014-08-19 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
US8060773B1 (en) * 2009-12-16 2011-11-15 Symantec Corporation Systems and methods for managing sub-clusters within a multi-cluster computing system subsequent to a network-partition event
US8630980B2 (en) 2010-04-06 2014-01-14 Microsoft Corporation Synchronization framework that restores a node from backup
US8671074B2 (en) 2010-04-12 2014-03-11 Microsoft Corporation Logical replication in clustered database system with adaptive cloning
US8738961B2 (en) * 2010-08-17 2014-05-27 International Business Machines Corporation High-availability computer cluster with failover support based on a resource map
US8290919B1 (en) 2010-08-27 2012-10-16 Disney Enterprises, Inc. System and method for distributing and accessing files in a distributed storage system
US8392368B1 (en) * 2010-08-27 2013-03-05 Disney Enterprises, Inc. System and method for distributing and accessing files in a distributed storage system
US8768981B1 (en) 2010-08-27 2014-07-01 Disney Enterprises, Inc. System and method for distributing and accessing files in a distributed storage system
JP5732133B2 (ja) * 2010-10-25 2015-06-10 株式会社日立製作所 ストレージ装置及びその制御方法
US8495323B1 (en) 2010-12-07 2013-07-23 Symantec Corporation Method and system of providing exclusive and secure access to virtual storage objects in a virtual machine cluster
US8793286B2 (en) 2010-12-09 2014-07-29 International Business Machines Corporation Hierarchical multi-tenancy management of system resources in resource groups
US8484655B2 (en) 2010-12-09 2013-07-09 International Business Machines Corporation Management of copy services relationships via policies specified on resource groups
US20120151163A1 (en) 2010-12-09 2012-06-14 International Business Machines Corporation Management of host passthrough and session commands using resource groups
US8577885B2 (en) 2010-12-09 2013-11-05 International Business Machines Corporation Partitioning management of system resources across multiple users
US9317221B2 (en) * 2011-03-16 2016-04-19 Nec Corporation Distributed storage system and distributed storage method
US9002480B2 (en) * 2011-10-13 2015-04-07 Siemens Aktiengesellschaft Method for operation of a control network, and a control network
DE102012108117A1 (de) * 2012-08-03 2014-02-06 Fujitsu Technology Solutions Intellectual Property Gmbh Hochverfügbares Rechnersystem, Arbeitsverfahren und dessen Verwendung
US9251002B2 (en) 2013-01-15 2016-02-02 Stratus Technologies Bermuda Ltd. System and method for writing checkpointing data
US9823955B2 (en) * 2013-04-23 2017-11-21 Hitachi, Ltd. Storage system which is capable of processing file access requests and block access requests, and which can manage failures in A and storage system failure management method having a cluster configuration
US9529890B2 (en) 2013-04-29 2016-12-27 Moogsoft, Inc. System for decomposing events from managed infrastructures using a topology proximity engine, graph topologies, and k-means clustering
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US9588844B2 (en) 2013-12-30 2017-03-07 Stratus Technologies Bermuda Ltd. Checkpointing systems and methods using data forwarding
WO2015102873A2 (en) 2013-12-30 2015-07-09 Stratus Technologies Bermuda Ltd. Dynamic checkpointing systems and methods
US9760442B2 (en) 2013-12-30 2017-09-12 Stratus Technologies Bermuda Ltd. Method of delaying checkpoints by inspecting network packets
IN2014DE00404A (zh) * 2014-02-13 2015-08-14 Netapp Inc
US10270735B2 (en) * 2014-10-10 2019-04-23 Microsoft Technology Licensing, Llc Distributed components in computing clusters
US9584996B2 (en) * 2014-10-22 2017-02-28 Qualcomm Incorporated Selectively triggering a communicative action based on whether a quorum condition for a peer-to-peer group is satisfied
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US10387415B2 (en) * 2016-06-28 2019-08-20 International Business Machines Corporation Data arrangement management in a distributed data cluster environment of a shared pool of configurable computing resources
US10474653B2 (en) 2016-09-30 2019-11-12 Oracle International Corporation Flexible in-memory column store placement
US10764144B2 (en) * 2016-10-13 2020-09-01 International Business Machines Corporation Handling a split within a clustered environment
CN109257195B (zh) * 2017-07-12 2021-01-15 华为技术有限公司 集群中节点的故障处理方法及设备
US10742724B2 (en) * 2017-08-17 2020-08-11 Hewlett Packard Enterprise Development Lp Cluster computer system with failover handling
CN108052620B (zh) * 2017-12-15 2021-02-12 泰康保险集团股份有限公司 数据状态的存储系统、区块链的节点数据处理系统和方法
KR20190109795A (ko) 2018-03-19 2019-09-27 고려대학교 산학협력단 유휴 컴퓨팅 자원을 이용한 클러스터 구축 장치 및 방법, 상기 방법을 수행하기 위한 저장 매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666486A (en) * 1995-06-23 1997-09-09 Data General Corporation Multiprocessor cluster membership manager framework
US5787249A (en) * 1996-04-30 1998-07-28 International Business Machines Coporation Method for managing membership of a group of processors in a distributed computing environment
US6003075A (en) * 1997-07-07 1999-12-14 International Business Machines Corporation Enqueuing a configuration change in a network cluster and restore a prior configuration in a back up storage in reverse sequence ordered
US5964838A (en) * 1997-09-30 1999-10-12 Tandem Computers Incorporated Method for sequential and consistent startup and/or reload of multiple processor nodes in a multiple node cluster
US6249879B1 (en) * 1997-11-11 2001-06-19 Compaq Computer Corp. Root filesystem failover in a single system image environment
US6154765A (en) * 1998-03-18 2000-11-28 Pasocs Llc Distributed digital rule processor for single system image on a clustered network and method
US6311217B1 (en) * 1998-06-04 2001-10-30 Compaq Computer Corporation Method and apparatus for improved cluster administration

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301599B2 (en) 2003-06-18 2012-10-30 Atos It Solutions And Services Gmbh Cluster arrangement
US11645263B2 (en) 2020-11-25 2023-05-09 Coupang Corp. Systems and methods for managing a highly available and scalable distributed database in a cloud computing environment

Also Published As

Publication number Publication date
KR20000076513A (ko) 2000-12-26
EP1024428A2 (en) 2000-08-02
JP4307673B2 (ja) 2009-08-05
EP1024428A3 (en) 2007-01-10
ATE434218T1 (de) 2009-07-15
JP2000222373A (ja) 2000-08-11
KR100368078B1 (ko) 2003-01-15
US6438705B1 (en) 2002-08-20
EP1024428B1 (en) 2009-06-17
DE60042379D1 (de) 2009-07-30

Similar Documents

Publication Publication Date Title
TW523656B (en) Method and apparatus for building and managing multi-clustered computer systems
US6393485B1 (en) Method and apparatus for managing clustered computer systems
CN106716360B (zh) 支持多租户应用服务器环境中的补丁修补的系统和方法
US7111194B1 (en) Mirror split brain avoidance
US7392421B1 (en) Framework for managing clustering and replication
US7743036B2 (en) High performance support for XA protocols in a clustered shared database
US6360331B2 (en) Method and system for transparently failing over application configuration information in a server cluster
Felber et al. Experiences, strategies, and challenges in building fault-tolerant CORBA systems
KR100326982B1 (ko) 높은 크기 조정 가능성을 갖는 고 가용성 클러스터 시스템 및 그 관리 방법
US6854069B2 (en) Method and system for achieving high availability in a networked computer system
US7260818B1 (en) System and method for managing software version upgrades in a networked computer system
US8055735B2 (en) Method and system for forming a cluster of networked nodes
JP2948496B2 (ja) データ処理システム内で複写データ一貫性を維持するためのシステムおよび方法
US7366742B1 (en) System and method for distributed discovery and management of frozen images in a storage environment
EP1117210A2 (en) Method to dynamically change cluster or distributed system configuration
US20070226359A1 (en) System and method for providing java based high availability clustering framework
US20020161869A1 (en) Cluster resource action in clustered computer system incorporating prepare operation
US6587860B1 (en) Apparatus and method for tracking access to data resources in a cluster environment
WO2009135052A2 (en) Java virtual machine having integrated transaction management system
US8316110B1 (en) System and method for clustering standalone server applications and extending cluster functionality
JP2002091938A (ja) フェールオーバを処理するシステムおよび方法
US7941507B1 (en) High-availability network appliances and methods
US7756830B1 (en) Error detection protocol
JP2001350777A (ja) 分散データベースシステム
Mohd Noor et al. Failure recovery framework for national bioinformatics system

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent