TWI461927B - 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統 - Google Patents

計算機叢集裝置、用於計算機叢集裝置的管理方法及系統 Download PDF

Info

Publication number
TWI461927B
TWI461927B TW101137952A TW101137952A TWI461927B TW I461927 B TWI461927 B TW I461927B TW 101137952 A TW101137952 A TW 101137952A TW 101137952 A TW101137952 A TW 101137952A TW I461927 B TWI461927 B TW I461927B
Authority
TW
Taiwan
Prior art keywords
node
database
information
established
data
Prior art date
Application number
TW101137952A
Other languages
English (en)
Other versions
TW201415244A (zh
Inventor
Ming Jen Wang
Li Chieh Yu
Chuan Lin Lai
Chia Chen Kuo
Hsi Ya Chang
Original Assignee
Nat Applied Res Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nat Applied Res Laboratories filed Critical Nat Applied Res Laboratories
Priority to TW101137952A priority Critical patent/TWI461927B/zh
Publication of TW201415244A publication Critical patent/TW201415244A/zh
Application granted granted Critical
Publication of TWI461927B publication Critical patent/TWI461927B/zh

Links

Landscapes

  • Computer And Data Communications (AREA)

Description

計算機叢集裝置、用於計算機叢集裝置的管理方法及系統
本發明是有關於一種計算機叢集裝置(computer cluster)、用於計算機叢集裝置的管理方法及系統。
近年來,由電影「阿凡達」開始,帶起了一陣三維(3D)顯示的風潮,而,算圖農場(render farm)也隨之而生;算圖農場屬於一種計算機叢集裝置,其主要是用來執行與三維電腦繪圖(3D computer graphics)相關的大量成像工作。更進一步來說,算圖農場係運用多台計算機所建立出的可高度緊密地協作完成龐大計算工作的系統,其通常用於畫面著色、影格合成、模擬布料等相關計算;其中,每一計算機被稱為計算機叢集裝置中的一節點(node)。
針對計算機叢集裝置而言,有可能因為每一節點的角色(例如,叢集監控者(cluster supervisor)、授權伺服器(license server)、計算引擎(computing engine)等)不同、每一節點所配置的硬體不同,或每一節點所使用的作業系統不同,而造成各節點的軟體之安裝與設定的程序有所不同;所以當其中任一節點在運作上發生問題時,如何以最少的人力並有效率地對該節點進行問題排解,為一個值得探討的議題。
一種現有的作業系統影像(operating system image,簡稱OS image)之管理及安裝方法與系統,例如,美國公開第2008/0046708 A1號專利所揭露,其可實現於一作業系統 部署系統(operating system deployment system),該作業系統部署系統包含至少一目標裝置(target device)、至少一伺服器裝置,及一策略庫(policy store);其中,該伺服器裝置包括一作業系統管理伺服器,該策略庫中的策略資料(policy data)定義了特定策略準則資料事件(specific policy criteria data instance)與作業系統影像事件(OS image instance)之間的一關聯。
其中,該目標裝置的一用戶代理程式(client agent)收集該目標裝置的策略準則資料(或稱組態資料(configuration data)),並將其傳送給該作業系統管理伺服器;該作業系統管理伺服器根據來自該目標裝置的該策略準則資料搜尋該策略庫;若找到對應於該策略準則資料的一預存在的(pre-existing)作業系統影像,則將該預存在的作業系統影像下載並安裝至該目標裝置。其中,該策略準則資料包括硬體組態資料(例如,一微處理器識別符、一刀鋒型插槽位置(blade slot location)、一記憶體大小等),以及使用者輸入資料(例如,一使用者識別符)。
然而,上述現有技術主要是將對應該策略準則資料(即,硬體組態資料與使用者輸入資料)的該預存在的作業系統影像提供給該目標裝置以供其進行安裝;對於計算機叢集裝置中任一節點而言,該現有技術僅利用該預存在的作業系統影像覆蓋該節點原本的一作業系統影像,以復元(recovery)該節點的作業系統,難以專門針對該節點運作上所發生的問題提供一整體的解決方案(solution),以供其 自動地進行問題排解。
因此,本發明之目的,即在提供一種計算機叢集裝置。
於是,本發明計算機叢集裝置,包含:至少一節點,及可與該節點進行通訊的一管理系統。
該節點包括一代理器,且該節點對應於預設的一角色資料,該代理器用以收集該節點的一軟體運作資料,當該節點產生一事件訊息時,該代理器還用以傳送一節點資訊,其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息。
該管理系統包括一代理器管理模組,及電連接於該代理器管理模組的一資料庫,其中,該資料庫包括至少一已建立的解決方案資訊,該代理器管理模組用以根據來自該節點的該代理器的該節點資訊對該資料庫進行搜尋,若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作。
該節點的該代理器還用以根據相關於該節點資訊的該已建立的解決方案資訊,配合該角色資料,產生對應於該事件訊息的一完整的解決方案,其中,該完整的解決方案包括可於該節點執行的至少一指令。
本發明之另一目的,即在提供一種用於計算機叢集裝 置的管理方法,該計算機叢集裝置包括至少一節點,及可與該節點進行通訊的一管理系統,該節點對應於預設的一角色資料,該管理系統包括一資料庫,該資料庫包括至少一已建立的解決方案資訊。
於是,本發明用於計算機叢集裝置的管理方法,包含下列步驟:(A)利用該節點收集該節點的一軟體運作資料;(B)當該節點產生一事件訊息時,利用該節點傳送一節點資訊,其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息;(C)利用該管理系統根據來自該節點的該節點資訊對該資料庫進行搜尋;(D)若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則利用該管理系統將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作;及(E)利用該節點根據相關於該節點資訊的該已建立的解決方案資訊,配合該角色資料,產生對應於該事件訊息的一完整的解決方案,其中,該完整的解決方案包括可於該節點執行的至少一指令。
因此,本發明之又一目的,即在提供一種用於計算機叢集裝置的管理系統,其可與至少一節點進行通訊,該節點包括一代理器且對應於預設的一角色資料,該代理器收集該節點的一軟體運作資料,當該節點產生一事件訊息時,該代理器傳送包括該角色資料、該軟體運作資料,及該事件訊息的一節點資訊給該管理系統。
於是,本發明用於計算機叢集裝置的管理系統,包含一資料庫,及一代理器管理模組。
該資料庫包括至少一已建立的解決方案資訊。該代理器管理模組電連接於該資料庫,其中,該代理器管理模組用以根據來自該節點的該代理器的該節點資訊對該資料庫進行搜尋,若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作。
有關本發明之前述及其他技術內容、特點與功效,在以下配合參考圖式之較佳實施例的詳細說明中,將可清楚的呈現。
請參閱圖1,本發明計算機叢集裝置1之一較佳實施例包含至少一節點2,及一管理系統3。該至少一節點2的數量可為一個或多個,每一節點2包括一代理器(agent)21,且該節點2對應於預設的一角色資料;其中,該節點2為一計算機(computer),該代理器21是以軟體方式實施,並安裝於該節點2。該管理系統3可透過網路(intranet/internet)4與該節點2進行通訊;該管理系統3包括一代理器管理模組31、電連接於該代理器管理模組31的一資料庫(database)32、電連接於該代理器管理模組31的一軟體庫(software repository)33,及電連接於該代理器管理模組31與該資料庫32的一資料庫更新介面模組34 ;其中,該資料庫32包括至少一已建立的解決方案資訊。
舉例來說,該計算機叢集裝置1為包括多個節點2的一算圖農場,所述節點2對應的角色資料包括一算圖監控者(render supervisor),及多個算圖工作者(render worker);其中,對應該算圖監控者的節點2主要用於分派(dispatch)工作(job)給對應所述算圖工作者的節點2。該管理系統3主要用於管理所述節點2的軟體環境,例如,與各節點2的軟體環境相關之建置、還原、問題修復(repair)等處理。
其中,每一節點2的該代理器21用以收集該節點2的一軟體運作(software behavior)資料,及一硬體組態資料;當該節點2產生一事件(event)訊息時,該代理器21還用以傳送一節點資訊給該管理系統3,其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息。
其中,該管理系統3的該代理器管理模組31用以根據來自該節點2的該代理器21的該節點資訊對該資料庫32進行搜尋;若於該資料庫32中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點2,其中,該已建立的解決方案資訊用以指示該節點2需對應執行的動作(action),該節點2的該代理器21根據該已建立的解決方案資訊,配合該角色資料,產生對應於該事件訊息的一完整的解決方案,其中,當該已建立的解決方案資訊與該節點2的硬體環境之設定相關時,該代理器21除了配合該角色資料之 外,還需進一步配合該硬體組態資料,方足以產生該完整的解決方案,該完整的解決方案包括可於該節點2執行的至少一指令(command);否則,該資料庫更新介面模組34提供一資料庫更新介面,以供使用者(例如,管理人員(administrator))手動地建立新的相關於該節點資訊的一已建立的解決方案資訊,並將該已建立的解決方案資訊新增且儲存至該資料庫32。
以下配合本發明用於計算機叢集裝置的管理方法之一較佳實施例,進一步說明該至少一節點2與該管理系統3之間的運作。由於每一節點2與該管理系統3之間的運作概念相似,以下僅針對單一節點2與該管理系統3之間的運作進行描述。
值得一提的是,在該節點2的軟體環境的初始建置階段,該節點2需先安裝該代理器21,且在該代理器21的安裝過程中,使用者會依照該節點2所對應的該角色資料,手動地輸入與該節點2相關的一軟/硬體環境設定資料(例如,該節點2需安裝的軟體元件(component)、防火牆設定資料、網際網路協議(Internet Protocol,簡稱IP)設定資料等)。當使用者結束該軟/硬體環境設定資料之輸入,並對應進行一輸入完成操作(例如,點擊該代理器21提供的一設定介面的一確認鍵)後,該節點2產生對應一軟體環境安裝事件的一事件訊息;接著,該代理器21傳送一節點資訊給該管理系統3,該節點資訊包括該事件訊息;然後,該管理系統3根據該節點資訊的該事件訊息,將一已建立的 解決方案資訊回傳給該節點2,其中,該已建立的解決方案資訊用以指示該節點2需進行初始安裝(initial installation);然後,該節點2的該代理器21根據該已建立的解決方案資訊,配合該軟/硬體環境設定資料,產生一完整的解決方案,該完整的解決方案包括一串依序的軟體安裝指令,以及與該串軟體安裝指令相關的軟體安裝路徑(path)及軟/硬體設定值;最後,該節點2依序執行該串軟體安裝指令,以進行軟體環境的建置。
請參閱圖1~2,該用於計算機叢集裝置的管理方法包含下列步驟:在步驟501中,該節點2的該代理器21根據該節點2所對應的該角色資料及相關的軟/硬體環境設定資料,收集該節點2的一軟體運作資料,及一硬體組態資料;其中,該軟體運作資料為該節點2中所安裝的軟體的運作狀態(state)資料。
在步驟502中,該代理器21判斷是否有一事件訊息產生;若是,則繼續進行步驟503的處理;否則,回到步驟501。
在本較佳實施例中,當使用者修改該代理器21的該軟/硬體環境設定資料並對應進行該輸入完成操作後,該節點2會隨之產生對應一設定資料修改事件的一事件訊息;或者,當該節點2運作上有錯誤發生時,該節點2會隨之產生對應一錯誤事件的一事件訊息;或者,當該代理器21接收到對於該節點2的一監控(monitor)軟體狀態(state)要 求時,該節點2會隨之產生對應該監控軟體狀態要求的一事件訊息,其中,該監控軟體狀態要求可以是由可與該管理系統3進行通訊的一用戶電腦(client PC,圖未示)所發起,並透過該管理系統3將該監控軟體狀態要求傳送給該節點2的該代理器21。
在步驟503中,該代理器21傳送一節點資訊給該管理系統3;其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息。
在步驟504中,該管理系統3的該代理器管理模組31根據來自該代理器21的該節點資訊,於該資料庫32中搜尋相關於該節點資訊的一已建立的解決方案資訊;其中,該已建立的解決方案資訊用以指示該節點2需對應執行的動作。
在本較佳實施例中,該資料庫32包括至少一標準(criterion)、至少一已建立的解決方案資訊,及該標準與該已建立的解決方案資訊的一對應關係;其中,該標準包括一已建立的角色資料、一已建立的事件訊息,及一已建立的關鍵(key)資料組。該代理器管理模組31由該節點資訊得到一組查詢(query)條件,再根據該組查詢條件對該資料庫32進行搜尋。更進一步來說,該代理器管理模組31係先由該節點資訊取得該角色資料及該事件訊息;再根據該角色資料及該事件訊息兩者其中至少一者,由該軟體運作資料取出相關的一關鍵資料組;然後,以該角色資料、該事件訊息,及該關鍵資料組作為該組查詢條件,對該資 料庫32進行搜尋。
在步驟505中,該代理器21判斷是否搜尋到相關於該節點資訊的該已建立的解決方案資訊;若是,則繼續進行步驟508的處理;否則,繼續進行步驟506的處理。
在本較佳實施例中,若該代理器管理模組31於該資料庫32中搜尋到與該組查詢條件相符的該標準,則表示搜尋到相關於該節點資訊的該已建立的解決方案資訊,更進一步來說,與該組查詢條件相符的該標準所對應的該已建立的解決方案資訊,即為相關於該節點資訊的該已建立的解決方案資訊;否則,表示未搜尋到相關於該節點資訊的該已建立的解決方案資訊。
在步驟506中,該代理器管理模組31提供相關於該節點資訊的一系統錯誤訊息給使用者。
在步驟507中,該資料庫更新介面模組34提供該資料庫更新介面,以供使用者手動地建立相關於該節點資訊的一已建立的解決方案資訊,並將該已建立的解決方案資訊新增且儲存至該資料庫32;然後,回到步驟504。
在步驟508中,該代理器管理模組31回傳其搜尋到的該已建立的解決方案資訊給該節點2,若該已建立的解決方案資訊需要使用該軟體庫33內所儲存的軟體,則該已建立的解決方案資訊還包括對應於該軟體庫33內所儲存的軟體的一軟體儲存路徑。
在步驟509中,該節點2的該代理器21根據該已建立的解決方案資訊,配合該角色資料,產生一完整的解決方 案,其中,當該已建立的解決方案資訊與該節點2的硬體環境之設定相關時,該代理器21除了配合該角色資料之外,還配合該硬體組態資料,以產生該完整的解決方案,該完整的解決方案包括可於該節點2執行的至少一指令,其中,該完整的解決方案可以僅包括單一指令,或者,也可以包括多個依一特定順序排列的指令。
舉例來說,該已建立的解決方案資訊用以指示該節點2需安裝對應於A硬體的驅動程式(driver);而,該完整的解決方案則包括於該節點2安裝A硬體的驅動程式所需執行的一連串指令,及與該連串指令相關的軟/硬體設定值。換言之,由於各節點2所對應的該角色資料及收集到的該硬體組態資料有所不同,因此,該代理器21必須客制化地產生符合該角色資料及該硬體組態資料的該完整的解決方案。
在步驟510中,該節點2執行該完整的解決方案的指令。
在步驟511中,該節點2的該代理器21檢查該節點2是否已完成對應於該事件訊息的處理;若已完成對應於該事件訊息的處理,則回到步驟501;否則,繼續進行步驟512的處理。
舉例來說,當該事件訊息對應某一錯誤事件,該代理器21即檢查該錯誤事件是否已排除或修復;若該錯誤事件已排除或修復,則回到步驟501;否則,繼續進行步驟512的處理。
在步驟512中,該節點2的該代理器21判斷處理該事件訊息的一時間是否已超過預設的一時間限制(time limit);若是,則至步驟506;否則,回到步驟501。
綜上所述,本發明計算機叢集裝置1藉由每一節點2的該代理器21,協同配合該管理系統3,可以專門針對該節點2運作上所發生的問題提供一整體的解決方案,以供其自動地進行問題排解,故確實能達成本發明之目的。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍,即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
1‧‧‧計算機叢集裝置
2‧‧‧節點
21‧‧‧代理器
3‧‧‧管理系統
31‧‧‧代理器管理模組
32‧‧‧資料庫
33‧‧‧軟體庫
34‧‧‧資料庫更新介面模組
4‧‧‧網路
501~512‧‧‧步驟
圖1是本發明計算機叢集裝置之一較佳實施例的一架構圖;及圖2是本發明用於計算機叢集裝置的管理方法之一較佳實施例的一流程圖。
1‧‧‧計算機叢集裝置
2‧‧‧節點
21‧‧‧代理器
3‧‧‧管理系統
31‧‧‧代理器管理模組
32‧‧‧資料庫
33‧‧‧軟體庫
34‧‧‧資料庫更新介面模組
4‧‧‧網路

Claims (18)

  1. 一種計算機叢集裝置,包含:至少一節點,該節點包括一代理器,且該節點對應於預設的一角色資料,該代理器用以收集該節點的一軟體運作資料,當該節點產生一事件訊息時,該代理器還用以傳送一節點資訊,其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息;及一管理系統,可與該節點進行通訊,該管理系統包括一代理器管理模組,及電連接於該代理器管理模組的一資料庫,其中,該資料庫包括至少一已建立的解決方案資訊,該代理器管理模組用以根據來自該節點的該代理器的該節點資訊對該資料庫進行搜尋,若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作;該節點的該代理器還用以根據相關於該節點資訊的該已建立的解決方案資訊,配合該角色資料,產生對應於該事件訊息的一完整的解決方案,其中,該完整的解決方案包括可於該節點執行的至少一指令。
  2. 依據申請專利範圍第1項所述之計算機叢集裝置,其中,該節點的該代理器還用以收集該節點的一硬體組態資料,且該代理器根據相關於該節點資訊的該已建立的解決方案資訊,配合該角色資料及該硬體組態資料,產生 對應於該事件訊息的該完整的解決方案。
  3. 依據申請專利範圍第2項所述之計算機叢集裝置,其中,該節點的該代理器係根據該節點所對應的該角色資料,及與該節點相關的一軟/硬體環境設定資料,以收集該節點的該軟體運作資料及該硬體組態資料。
  4. 依據申請專利範圍第1項所述之計算機叢集裝置,其中,該資料庫還包括至少一標準,及該標準與該已建立的解決方案資訊的一對應關係。
  5. 依據申請專利範圍第4項所述之計算機叢集裝置,其中,該管理系統的該代理器管理模組由該節點資訊得到一組查詢條件,再根據該組查詢條件對該資料庫進行搜尋,若該代理器管理模組於該資料庫中搜尋到與該組查詢條件相符的該標準,則表示搜尋到相關於該節點資訊的該已建立的解決方案資訊,其中,與該組查詢條件相符的該標準所對應的該已建立的解決方案資訊,即為相關於該節點資訊的該已建立的解決方案資訊。
  6. 依據申請專利範圍第5項所述之計算機叢集裝置,其中,該資料庫中的該標準包括一已建立的角色資料、一已建立的事件訊息,及一已建立的關鍵資料組;其中,該代理器管理模組係先由該節點資訊取得該角色資料及該事件訊息,再根據該角色資料及該事件訊息兩者其中至少一者,由該軟體運作資料取出相關的一關鍵資料組,然後,該代理器管理模組係以該角色資料、該事件訊息,及該關鍵資料組作為該組查詢條件,對 該資料庫進行搜尋。
  7. 依據申請專利範圍第1項所述之計算機叢集裝置,其中,該管理系統還包括一資料庫更新介面模組,若該代理器管理模組未於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則該資料庫更新介面模組用以提供一資料庫更新介面,以供使用者建立新的相關於該節點資訊的一已建立的解決方案資訊。
  8. 一種用於計算機叢集裝置的管理方法,該計算機叢集裝置包括至少一節點,及可與該節點進行通訊的一管理系統,該節點對應於預設的一角色資料,該管理系統包括一資料庫,該資料庫包括至少一已建立的解決方案資訊,該方法包含下列步驟:(A)利用該節點收集該節點的一軟體運作資料;(B)當該節點產生一事件訊息時,利用該節點傳送一節點資訊,其中,該節點資訊包括該角色資料、該軟體運作資料,及該事件訊息;(C)利用該管理系統根據來自該節點的該節點資訊對該資料庫進行搜尋;(D)若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則利用該管理系統將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作;及(E)利用該節點根據相關於該節點資訊的該已建 立的解決方案資訊,配合該角色資料,產生對應於該事件訊息的一完整的解決方案,其中,該完整的解決方案包括可於該節點執行的至少一指令。
  9. 依據申請專利範圍第8項所述之用於計算機叢集裝置的管理方法,其中,在步驟(A)中,還收集該節點的一硬體組態資料;其中,在步驟(E)中,還根據相關於該節點資訊的該已建立的解決方案資訊,配合該角色資料及該硬體組態資料,產生對應於該事件訊息的該完整的解決方案。
  10. 依據申請專利範圍第9項所述之用於計算機叢集裝置的管理方法,其中,在步驟(A)中,係根據該節點所對應的該角色資料,及與該節點相關的一軟/硬體環境設定資料,以收集該節點的該軟體運作資料及該硬體組態資料。
  11. 依據申請專利範圍第8項所述之用於計算機叢集裝置的管理方法,該資料庫還包括至少一標準,及該標準與該已建立的解決方案資訊的一對應關係,其中,在步驟(C)中,係由該節點資訊得到一組查詢條件,再根據該組查詢條件對該資料庫進行搜尋;其中,在步驟(D)中,若於該資料庫中搜尋到與該組查詢條件相符的該標準,則表示搜尋到相關於該節點資訊的該已建立的解決方案資訊,其中,與該組查詢條件相符的該標準所對應的該已建立的解決方案資訊, 即為相關於該節點資訊的該已建立的解決方案資訊。
  12. 依據申請專利範圍第11項所述之用於計算機叢集裝置的管理方法,該資料庫中的該標準包括一已建立的角色資料、一已建立的事件訊息,及一已建立的關鍵資料組,其中,步驟(C)包括下列子步驟:(c-1)由該節點資訊取得該角色資料及該事件訊息;(c-2)根據該角色資料及該事件訊息兩者其中至少一者,由該軟體運作資料取出相關的一關鍵資料組;及(c-3)以該角色資料、該事件訊息,及該關鍵資料組作為該組查詢條件,對該資料庫進行搜尋。
  13. 依據申請專利範圍第8項所述之用於計算機叢集裝置的管理方法,其中,在步驟(D)中,若未於該資料庫中搜尋到與該組查詢條件相符的該標準,則利用該管理系統提供一資料庫更新介面,以供使用者建立新的相關於該節點資訊的一已建立的解決方案資訊。
  14. 一種用於計算機叢集裝置的管理系統,其可與至少一節點進行通訊,該節點包括一代理器且對應於預設的一角色資料,該代理器收集該節點的一軟體運作資料,當該節點產生一事件訊息時,該代理器傳送包括該角色資料、該軟體運作資料,及該事件訊息的一節點資訊給該管理系統,該管理系統包含:一資料庫,包括至少一已建立的解決方案資訊;及一代理器管理模組,電連接於該資料庫,其中,該 代理器管理模組用以根據來自該節點的該代理器的該節點資訊對該資料庫進行搜尋,若於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則將相關於該節點資訊的該已建立的解決方案資訊回傳給該節點,其中,該已建立的解決方案資訊用以指示該節點需對應執行的動作。
  15. 依據申請專利範圍第14項所述之用於計算機叢集裝置的管理系統,其中,該資料庫還包括至少一標準,及該標準與該已建立的解決方案資訊的一對應關係。
  16. 依據申請專利範圍第15項所述之用於計算機叢集裝置的管理系統,其中,該代理器管理模組由該節點資訊得到一組查詢條件,再根據該組查詢條件對該資料庫進行搜尋,若該代理器管理模組於該資料庫中搜尋到與該組查詢條件相符的該標準,則表示搜尋到相關於該節點資訊的該已建立的解決方案資訊,其中,與該組查詢條件相符的該標準所對應的該已建立的解決方案資訊,即為相關於該節點資訊的該已建立的解決方案資訊。
  17. 依據申請專利範圍第16項所述之用於計算機叢集裝置的管理系統,其中,該資料庫中的該標準包括一已建立的角色資料、一已建立的事件訊息,及一已建立的關鍵資料組;其中,該代理器管理模組係先由該節點資訊取得該角色資料及該事件訊息,再根據該角色資料及該事件訊息兩者其中至少一者,由該軟體運作資料取出相關的一 關鍵資料組,然後,該代理器管理模組係以該角色資料、該事件訊息,及該關鍵資料組作為該組查詢條件,對該資料庫進行搜尋。
  18. 依據申請專利範圍第14項所述之用於計算機叢集裝置的管理系統,還包括一資料庫更新介面模組,若該代理器管理模組未於該資料庫中搜尋到相關於該節點資訊的該已建立的解決方案資訊,則該資料庫更新介面模組用以提供一資料庫更新介面,以供使用者建立新的相關於該節點資訊的一已建立的解決方案資訊。
TW101137952A 2012-10-15 2012-10-15 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統 TWI461927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW101137952A TWI461927B (zh) 2012-10-15 2012-10-15 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101137952A TWI461927B (zh) 2012-10-15 2012-10-15 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統

Publications (2)

Publication Number Publication Date
TW201415244A TW201415244A (zh) 2014-04-16
TWI461927B true TWI461927B (zh) 2014-11-21

Family

ID=52388402

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101137952A TWI461927B (zh) 2012-10-15 2012-10-15 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統

Country Status (1)

Country Link
TW (1) TWI461927B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI235299B (en) * 2004-04-22 2005-07-01 Univ Nat Cheng Kung Method for providing application cluster service with fault-detection and failure-recovery capabilities
TWI241484B (en) * 2002-12-31 2005-10-11 Ibm Collective storage system capable of restoring data in case of a storage failure
US20090106603A1 (en) * 2007-10-19 2009-04-23 Oracle International Corporation Data Corruption Diagnostic Engine
US20110314146A1 (en) * 2009-02-18 2011-12-22 Nec Corporation Distribution monitoring system, distribution monitoring method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI241484B (en) * 2002-12-31 2005-10-11 Ibm Collective storage system capable of restoring data in case of a storage failure
TWI235299B (en) * 2004-04-22 2005-07-01 Univ Nat Cheng Kung Method for providing application cluster service with fault-detection and failure-recovery capabilities
US20090106603A1 (en) * 2007-10-19 2009-04-23 Oracle International Corporation Data Corruption Diagnostic Engine
US20110314146A1 (en) * 2009-02-18 2011-12-22 Nec Corporation Distribution monitoring system, distribution monitoring method, and program

Also Published As

Publication number Publication date
TW201415244A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN103635885B (zh) 通过提供预构建环境的即时可用性来部署用于测试的环境
US9471455B2 (en) System, method, and computer program product for managing software updates
US7552447B2 (en) System and method for using root cause analysis to generate a representation of resource dependencies
Lou et al. Software analytics for incident management of online services: An experience report
KR102047216B1 (ko) 서비스의 2차 위치에서의 작업의 재생 기법
US9588794B2 (en) Method, system and device for managing software on virtual machine in cloud environment
US8438625B2 (en) Management apparatus, control method, and storage medium
US9319284B2 (en) Operation delay monitoring method, operation management apparatus, and operation management program
US20140012975A1 (en) Computer cluster, management method and management system for the same
JP2008257675A (ja) マネージメントソフトウェアを履行する方法、予め構成されたソフトウェアを有するハードウェアおよびその履行方法
CN106919485A (zh) 一种基于服务器上配置硬件测试工具的系统
WO2014206099A1 (zh) 一种多节点服务器系统的故障现场信息的收集方法及装置
CN113138794A (zh) 一种代码版本的管理方法和管理系统
CN105591782A (zh) 测试设备的管理方法及装置
CA2973896C (en) Recovery execution system using programatic generation of actionable workflows
CN110890987A (zh) 自动创建集群的方法、装置、设备和系统
CN112925555A (zh) 模型管理方法、装置、设备及存储介质
CN107918564B (zh) 数据传输异常处理方法、装置、电子设备及存储介质
CN112506969A (zh) 一种bmc地址查询方法、系统、设备及可读存储介质
CN107645565A (zh) 服务器状态信息的处理方法、装置、系统及处理器
CN112367186B (zh) 一种基于0penStack裸机的故障保护方法及装置
US8402125B2 (en) Method of managing operations for administration, maintenance and operational upkeep, management entity and corresponding computer program product
TWI461927B (zh) 計算機叢集裝置、用於計算機叢集裝置的管理方法及系統
US20150278293A1 (en) Asynchronous image repository functionality
CN107633026A (zh) 数据同步异常处理方法、装置及服务器