TWI723568B - 針對運算主機之叢集管理與動態調度系統及方法 - Google Patents

針對運算主機之叢集管理與動態調度系統及方法 Download PDF

Info

Publication number
TWI723568B
TWI723568B TW108136166A TW108136166A TWI723568B TW I723568 B TWI723568 B TW I723568B TW 108136166 A TW108136166 A TW 108136166A TW 108136166 A TW108136166 A TW 108136166A TW I723568 B TWI723568 B TW I723568B
Authority
TW
Taiwan
Prior art keywords
computing
cluster
host
computing host
bare metal
Prior art date
Application number
TW108136166A
Other languages
English (en)
Other versions
TW202115585A (zh
Inventor
陳俊智
林怡賢
許順興
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW108136166A priority Critical patent/TWI723568B/zh
Application granted granted Critical
Publication of TWI723568B publication Critical patent/TWI723568B/zh
Publication of TW202115585A publication Critical patent/TW202115585A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明揭露一種針對運算主機之叢集管理與動態調度系統及方法。先提供具有至少一台第一運算主機之第一運算主機叢集、具有至少一台第二運算主機之第二運算主機叢集與具有至少一台裸機之裸機叢集。當第二運算主機叢集具有足夠的運算資源時,由第二運算主機執行運算服務,然而當第二運算主機叢集的運算資源不足時,將第一運算主機動態調度來暫時性支援第二運算主機叢集以提供運算服務。在第一運算主機調度完成後,將裸機叢集的裸機供裝成運算主機,以將運算主機加入第二運算主機叢集中來提供運算服務,再從第二運算主機叢集中將第一運算主機動態調度回第一運算主機叢集。

Description

針對運算主機之叢集管理與動態調度系統及方法
本發明是關於一種叢集管理與動態調度技術,特別是指一種針對運算主機之叢集管理與動態調度系統及方法。
在一般雲端系統中,最主要的精神之一為資源共享,因此當使用者需要運算資源進行運算時,會從共享資源池中選擇資源以分配資源予使用者。又,運算資源常以叢集之方式來劃分,一叢集可包括至少一台(如多台)運算主機,並利用運算主機的運算資源來分類成不同叢集,例如圖形處理器(Graphics Processing Unit;GPU)運算資源叢集、高運算處理器運算資源叢集等。另外,若使用者有特定運算資源之需求時,雲端系統可從具有特定運算資源之叢集中選擇一台運算主機以提供相對應的運算資源予使用者使用,但若叢集的運算資源不足時,則有可能會造成運算主機的供裝失敗。
在一現有技術中,提出一種雲端部署系統,係採取建立複數相容性之部署條件的叢集,並預先將運算主機部署完成後放至運算主機叢 集內。若使用者有使用運算資源之需求時,可以找到複數運算主機叢集來提供運算資源,以避免單一運算主機叢集之資源不足,導致使用者無法使用運算資源的情形。同時,雲端部署系統會設定一使用時間,當使用者的使用時間到達時,雲端部署系統會自動回收運算資源,以避免雲端系統的運算資源的過度浪費。
然而,此現有技術並無法同時管理運算主機叢集的運算主機與裸機叢集的裸機;而在運算主機叢集的運算資源不足時,亦難以應付突發性且大量的運算資源需求;另在運算資源的回收方面,也會受限於使用者的使用時間以致不具有彈性。
因此,如何提供一種新穎或創新之針對運算主機之叢集管理與動態調度技術,實已成為本領域技術人員之一大研究課題。
本發明提供一種新穎或創新之針對運算主機之叢集管理與動態調度系統及方法,有利於管理運算主機叢集的運算主機或裸機叢集的裸機,亦能動態調度運算主機或裸機。
本發明中針對運算主機之叢集管理與動態調度系統包括:一第一運算主機叢集,係具有至少一台第一運算主機;一第二運算主機叢集,係具有至少一台第二運算主機,其中,當第二運算主機叢集具有足夠的運算資源時,由第二運算主機叢集的第二運算主機執行運算服務;一調度模組,係當第二運算主機叢集的運算資源不足時,由調度模組將第一運算主機叢集的第一運算主機動態調度來暫時性支援運算資源不足的第二運算主 機叢集以透過第一運算主機提供運算服務;以及一裸機叢集,係具有至少一台裸機;其中,在第一運算主機調度完成後,將裸機叢集的裸機供裝成一運算主機,以將運算主機加入運算資源不足的第二運算主機叢集中來提供運算服務,再從第二運算主機叢集中將暫時性支援的第一運算主機動態調度回第一運算主機叢集。
本發明中針對運算主機之叢集管理與動態調度方法包括:提供具有至少一台第一運算主機之一第一運算主機叢集、具有至少一台第二運算主機之一第二運算主機叢集與具有至少一台裸機之一裸機叢集;當第二運算主機叢集具有足夠的運算資源時,由第二運算主機叢集的第二運算主機執行運算服務,然而當第二運算主機叢集的運算資源不足時,將第一運算主機叢集的第一運算主機動態調度來暫時性支援運算資源不足的第二運算主機叢集以透過第一運算主機提供運算服務;以及在第一運算主機調度完成後,將裸機叢集的裸機供裝成一運算主機,以將運算主機加入運算資源不足的第二運算主機叢集中來提供運算服務,再從第二運算主機叢集中將暫時性支援的第一運算主機動態調度回第一運算主機叢集。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點,且此等特徵及優點將部分自所述描述內容可得而知,或可藉由對本發明之實踐習得。本發明之特徵及優點借助於在申請專利範圍中特別指出的元件及組合來認識到並達到。應理解,前文一般描述與以下詳細描述兩者均僅為例示性及解釋性的,且不欲約束本發明所欲主張之範圍。
1‧‧‧針對運算主機之叢集管理與動態調度系統
10‧‧‧第一運算主機叢集
11‧‧‧第一運算主機
20‧‧‧第二運算主機叢集
21‧‧‧第二運算主機
30‧‧‧裸機叢集
31‧‧‧裸機
40‧‧‧雲端服務提供端
50‧‧‧調度模組
60‧‧‧控制主機
70‧‧‧伺服器
S11至S13、S21至S23、S31至S36‧‧‧步驟
S41至S49、S51至S55‧‧‧步驟
第1圖為本發明中針對運算主機之叢集管理與動態調度系統之架構示意圖;第2A圖為本發明中建立第一運算主機叢集與第二運算主機叢集之流程示意圖;第2B圖為本發明中建立裸機叢集之流程示意圖;第3圖為本發明中申請運算資源與動態調度之流程示意圖;第4圖為本發明中納管裸機與供裝成運算主機之流程示意圖;以及第5圖為本發明中回收運算資源之流程示意圖。
以下藉由特定的具體實施形態說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其他優點與功效,亦可因而藉由其他不同的具體等同實施形態加以施行或應用。
第1圖為本發明中針對運算主機之叢集管理與動態調度系統1之架構示意圖,其主要技術內容如下,其餘技術內容相同於第2A圖至第5圖之詳細說明,於此不再重覆敘述。
如第1圖所示,針對運算主機之叢集管理與動態調度系統1包括至少一(如多個)第一運算主機叢集10、至少一(如多個)第二運算主機叢集20、至少一(如多個)裸機叢集30、一調度模組50、一控制主機60與 一伺服器70。例如,雲端服務提供端40可在雲端系統(圖未示)上依照不同運算資源劃分至少一第一運算主機叢集10、至少一第二運算主機叢集20與至少一裸機叢集30,且一個第一運算主機叢集10、一個第二運算主機叢集20、一個裸機叢集30可分別具有至少一台(如多台)第一運算主機11、至少一台(如多台)第二運算主機21、至少一台(如多台)裸機31。
同時,在針對運算主機之叢集管理與動態調度系統1及其方法中,當第二運算主機叢集20具有足夠的運算資源時,由第二運算主機叢集20的第二運算主機21直接執行運算服務。反之,當第二運算主機叢集20的運算資源不足時,由調度模組50將第一運算主機叢集10的第一運算主機11動態調度來暫時性支援運算資源不足的第二運算主機叢集20以透過第一運算主機11提供運算服務。在第一運算主機11調度完成後,將裸機叢集30的裸機31供裝成一運算主機,以將運算主機加入運算資源不足的第二運算主機叢集20中來提供運算服務,再從第二運算主機叢集20中將暫時性支援的第一運算主機11動態調度回第一運算主機叢集10。
上述運算資源可為圖形處理器(GPU)、記憶體、中央處理器(Central Processing Unit;CPU)等,第一運算主機11、第二運算主機21或裸機31可為主機、電腦或伺服器等,雲端服務提供端40可為雲端服務提供者或所使用之電子裝置,而下述使用者端可為使用者或所使用之電子裝置。此外,記憶體可為記憶卡、快閃記憶體(Flash)、唯讀記憶體(ROM)、隨機存取記憶體(RAM)、硬碟(如固態硬碟、網路硬碟)、軟碟等,且電子裝置可為電腦主機、電腦、伺服器、智慧手機等。但是,本發明並不以此為限。
舉例而言,假設使用者端申請一運算資源,則調度模組50 會依照此運算資源所對應的元數據(metadata)搜尋出適當或相對應的第二運算主機叢集20,以判斷第二運算主機叢集20是否具有足夠的運算資源可供使用者端使用。若第二運算主機叢集20具有足夠的運算資源可供使用者端使用,則調度模組50直接指派第二運算主機叢集20的第二運算主機21執行運算服務。反之,若第二運算主機叢集20的運算資源不足,則調度模組50將第一運算主機叢集10的第一運算主機11動態調度來暫時性支援運算資源不足的第二運算主機叢集20以透過第一運算主機11提供運算服務。
在第一運算主機11調度完成後,調度模組50會記錄運算資源不足的第二運算主機叢集20的資訊,並通知控制主機60需為第二運算主機叢集20補充運算資源。又,控制主機60收到調度模組50的通知後,即利用調度模組50所記錄的運算資源不足的第二運算主機叢集20的資訊搜尋出適當或相對應的裸機叢集30,且控制主機60可從裸機叢集30中挑選出一台裸機31進行供裝,待裸機叢集30的裸機31供裝成一台運算主機後,將此運算主機加入第二運算主機叢集20中以提供運算服務而補充運算資源不足的第二運算主機叢集的運算資源,同時將暫時性支援的第一運算主機11上的虛擬機(圖未示)線上移轉至新加入的運算主機(即由裸機31供裝而成的運算主機),再從第二運算主機叢集20中將暫時性支援的第一運算主機11動態調度回原來的第一運算主機叢集10。
因此,本發明能將至少一台(如多台)第一運算主機11依照所提供的運算資源分成至少一(如多個)第一運算主機叢集10,並將至少一台(如多台)第二運算主機21依照所提供的運算資源分成至少一(如多個)第 二運算主機叢集20,且運算資源可區分為很多不同的類別,常用的運算資源的類別包括圖形處理器(GPU)、記憶體、中央處理器(CPU)等項目。第一運算主機叢集10或第二運算主機叢集20所提供的運算資源都會標註於元數據中,且第一運算主機11上的虛擬機供裝時會挑選最符合需求規格的第一運算主機叢集10。當選定之第二運算主機叢集20的運算資源不足時,可從具有較多運算資源項目且同時符合運算資源的規格的第一運算主機叢集10中調度第一運算主機11來支援第二運算主機叢集20,以避免第二運算主機叢集20的運算資源不足而導致供裝錯誤發生。
本發明能暫時將可提供相同或同等運算資源的第一運算主機叢集10的第一運算主機11即時調度來支援第二運算主機叢集20以提供運算服務。亦即,為了避免因第二運算主機叢集20的運算資源不足所導致的供裝失敗,利用第一運算主機叢集10的第一運算主機11的即時調度,從運算資源充足的第一運算主機叢集10中挑選第一運算主機11以暫時性支援運算資源不足的第二運算主機叢集20,並提供第一運算主機11的運算資源予第二運算主機叢集20,讓運算資源不足的第二運算主機叢集20不至於面臨供裝失敗的情況。
同時,為了避免運算資源不足的第二運算主機叢集20持續佔用第一運算主機叢集10的運算資源,雲端系統亦能從裸機叢集30中供裝由裸機31所構成的運算主機以補充運算資源不足的第二運算主機叢集20的運算資源。換言之,當雲端系統發現第二運算主機叢集20借用第一運算主機叢集10的第一運算主機11時,雲端系統可從特定資源的裸機叢集30中挑選裸機31來自動供裝出運算主機以填補運算資源不足的第二運 算主機叢集20。
例如,雲端系統會依照元數據中標註的第二運算主機叢集20所提供的運算資源以搜尋出適當或相對應的裸機叢集30,再從裸機叢集30中挑選裸機31進行供裝。在對裸機叢集30的裸機31進行供裝時,雲端系統會先將裸機31上的所有資料清空後,再指派作業系統映像檔對裸機31進行供裝,待裸機31供裝成運算主機後,即可將運算主機加入至運算資源不足的第二運算主機叢集20以提供運算服務。
當第一運算主機11移轉至運算資源不足的第二運算主機叢集20後,裸機叢集30的裸機31會進行運算主機的自動供裝,待裸機31供裝完成後,將新增的運算主機(即由裸機31供裝而成的運算主機)加入至運算資源不足的第二運算主機叢集20,以補充第二運算主機叢集20的運算資源,並從第二運算主機叢集20中將暫時性支援的第一運算主機11上的虛擬機線上移轉至新加入的運算主機,再將暫時性支援的第一運算主機11動態調度回原來的第一運算主機叢集10。亦即,當運算資源不足的第二運算主機叢集20獲得新供裝的運算主機(即由裸機31供裝而成的運算主機)的運算資源後,即會將暫時性支援的第一運算主機11上的虛擬機線上移轉至新供裝的運算主機上,並將暫時性支援的第一運算主機11歸還回原來的第一運算主機叢集10,以避免第一運算主機11上額外的運算資源項目無法提供使用。
為了確保由裸機31供裝而成的運算主機能彌補任何第二運算主機叢集20所缺的運算資源,裸機叢集30也設計成多叢集式架構,以供雲端系統選取正確的裸機31進行供裝。申言之,為了確保由裸機31自 動供裝而成的運算主機能符合原來的第二運算主機叢集20所缺少的運算資源,本發明能將裸機叢集30分成多叢集式架構,例如圖形處理器(GPU)裸機叢集、記憶體裸機叢集、中央處理器(CPU)裸機叢集等,且記憶體裸機叢集可為固態硬碟(Solid-state disk;SSD)裸機叢集,但不以此為限。
具體而言,本發明主要在於維持系統之可用性,雲端系統會將至少一台(如多台)第一運算主機11與至少一台(如多台)第二運算主機21分別依照所提供運算資源的不同而劃分成不同的第一運算主機叢集10與第二運算主機叢集20,也會建立至少一(如多個)裸機叢集30以隨時補充運算資源,並利用元數據標註第一運算主機叢集10、第二運算主機叢集20與裸機叢集30所提供的運算資源。
當使用者端有特定的虛擬機供裝需求時,雲端系統可搜尋出最符合所欲規格需求的第二運算主機叢集20,並將此供裝任務分配至第二運算主機叢集20的第二運算主機21。若第二運算主機叢集20已無足夠的運算資源可供使用者端申租時,雲端系統會尋找環境內是否存在具有較多運算資源項目且同時符合供裝需求規格的第一運算主機叢集10。若存在第一運算主機叢集10,則會從第一運算主機叢集10中調度第一運算主機11以支援運算資源不足的第二運算主機叢集20,讓供裝操作可順利完成。
當環境內第一運算主機叢集10與第二運算主機叢集20之間有發生支援情況時,雲端系統會再從對應的裸機叢集30中,將裸機31自動供裝成運算主機以補充資運算源不足的第一運算主機叢集10的運算資源。當由裸機叢集30的裸機31供裝而成的運算主機加入至第二運算主機叢集20後,雲端系統會將暫時調度支援的第一運算主機11上的虛擬機 線上轉移至新加入的運算主機上,再把暫時調度的第一運算主機11歸還回原來的第一運算主機叢集10,以維持整體雲端系統的可用性與資源最大化利用率。
當使用者端於雲端系統上申租運算資源時,需使用元數據來搜尋出適當或相對應的第二運算主機叢集20,在搜尋出適當或相對應的第二運算主機叢集20後,再依照例如圖形處理器(GPU)的使用率、記憶體的使用率、中央處理器(CPU)的使用率等搜尋出合適的第二運算主機21來執行使用者端所指定的供裝任務。若由元數據所匹配的第二運算主機叢集20的運算資源不足而無法完成供裝任務時,因執行調度的第一運算主機叢集10具有運算資源不足的第二運算主機叢集20所需的運算資源,故會暫時從第一運算主機叢集10動態調度一台第一運算主機11至運算資源不足的第二運算主機叢集20來提供運算服務,以避免第二運算主機叢集20的運算資源不足而導致供裝錯誤發生。
當第一運算主機叢集10執行調度任務時,因執行調度的第一運算主機叢集10具有較多的運算資源項目,如持續支援可能導致部分運算資源項目無法被運用,因此雲端系統會依照第一運算主機叢集10的元數據搜尋出相對應的裸機叢集30,並從裸機叢集30中挑選一台裸機31,以將裸機31自動供裝成能提供運算服務的運算主機。待運算主機供裝完成後,即加入至運算資源不足的第二運算主機叢集20中以提供運算服務,隨後將暫時性支援的第一運算主機11上的虛擬機線上移轉至新的運算主機(即由裸機31供裝而成的運算主機),再將暫時性支援的第一運算主機11移出此第二運算主機叢集20,以使第一運算主機11回歸原來的第一運算 主機叢集10。
雲端系統在對裸機叢集30的裸機31進行供裝時,可先透過例如為DHCP(Dynamic Host Configuration Protocol;動態主機組態協定)伺服器的伺服器70分配或提供一IP(Internet Protocol;網際網路協定)位址予裸機31。因控制主機60需要知道裸機31的IP位址才可進行檔案傳輸,且控制主機60具有至少一(如多個)作業系統映像檔可供使用,故在裸機31已分配到IP位址後即可透過此IP位址連線回控制主機60,並由控制主機60分派一部署映像(Deploy Image)檔以執行裸機31供裝前的清理作業,將裸機31所殘留的資料清空。待裸機31所殘留的資料被清空完畢後,可從控制主機60分派欲安裝至裸機31的作業系統映像檔以執行安裝任務,在裸機31安裝成運算主機後,隨即將運算主機轉入對應的第二運算主機叢集20以提供運算資源。
本發明所提針對運算主機之叢集管理與動態調度系統及方法係可應用在雲端系統(如雲端管控系統)上。第二運算主機叢集20遭遇到運算資源不足的問題時,可動態從第一運算主機叢集10中調度第一運算主機11來提供運算服務,以避免第二運算主機叢集20的運算資源不足而導致無法提運算服務。在第一運算主機11調度完成後,雲端系統(如雲端管控系統)會依照元數據搜尋出對應的裸機叢集30,以從裸機叢集30中挑選一台適當或相對應的裸機31進行供裝,俾為運算資源不足的第二運算主機叢集20新增運算資源,整個流程可採用全自動化進行,不須人工介入。對於雲端服務提供端40(或雲端系統管理端)而言,僅需確保裸機叢集30中裸機31的數量;對於使用者端而言,此雲端系統宛如有一個廣大的資源池, 可使用運算服務,不僅節省人力,也加強了雲端系統(如雲端管控系統)的運算功能及使用者端的體驗。
第2A圖為本發明中建立第一運算主機叢集10與第二運算主機叢集20之流程示意圖,且一併參閱第1圖。在第2A圖之步驟S11中,雲端服務提供端40(或雲端系統管理端)可先建立至少一(如多個)第一運算主機叢集10與至少一(如多個)第二運算主機叢集20。在第2A圖之步驟S12中,將至少一(如多個)第一運算主機叢集10依照所提供的運算資源標註元數據以進行分類而分成至少一類或多類,並將至少一(如多個)第二運算主機叢集20依照所提供的運算資源標註元數據以進行分類而分成至少一類或多類。在第2A圖之步驟S13中,將至少一台(如多台)第一運算主機11依照所提供的運算資源分配至適當或相對應的第一運算主機叢集10,並將至少一台(如多台)第二運算主機21依照所提供的運算資源分配至適當或相對應的第二運算主機叢集20。
第2B圖為本發明中建立裸機叢集30之流程示意圖,且一併參閱第1圖。如圖所示,在第2B圖之步驟S21中,雲端服務提供端40(或雲端系統管理端)可先建立至少一(如多個)裸機叢集30。在第2B圖之步驟S22中,將至少一(如多個)裸機叢集30依照所提供的運算資源標註元數據以進行分類而分成至少一類或多類。在第2B圖之步驟S23中,將至少一台(如多台)裸機31依照所提供的運算資源分配至適當或相對應的裸機叢集30。
第3圖為本發明中申請運算資源與動態調度之流程示意圖,且一併參閱第1圖。如圖所示,在第3圖之步驟S31中,使用者端可先選 擇或指定此次欲使用的運算資源,並設定運算資源的規格及名稱等基本資訊,以建立至少一(如多個)第一運算主機叢集10與至少一(如多個)第二運算主機叢集20。
在第3圖之步驟S32中,將使用者端所選擇或指定的運算資源及運算資源的規格帶入或轉換成元數據。在第3圖之步驟S33中,依據元數據搜尋出適當或相對應的第二運算主機叢集20。
在第3圖之步驟S34中,判斷第二運算主機叢集20是否具有足夠的運算資源可供使用者端使用?若是(第二運算主機叢集20具有足夠的運算資源可供使用者端使用),則執行第3圖之步驟S35,以指派第二運算主機叢集20中的運算資源供使用者端使用及提供第二運算主機21的運算服務。反之,若否(第二運算主機叢集20的運算資源不足而無法供使用者端使用或滿足使用者端的需求),則執行第3圖之步驟S36,以由調度模組50從可提供相同或同等運算資源的第一運算主機叢集10中暫時調度第一運算主機11來支援運算資源不足的第二運算主機叢集20,並指派第一運算主機叢集10中的運算資源供使用者端使用及提供第一運算主機11的運算服務。
第4圖為本發明中納管裸機31與供裝成運算主機之流程示意圖,用以自動部署運算主機之節點及補充運算資源,且一併參閱第1圖。
在第4圖之步驟S41中,於建立裸機31時,雲端服務提供端40可先提供或填寫裸機31的識別碼(ID)及運算資源等基本資訊。在第4圖之步驟S42中,執行裸機31的納管程序,即由控制主機60分派一IP位址(如DHCP IP位址)至裸機31,欲納管的裸機31取得IP位址後,控制 主機60可透過或利用此IP位址派送一部署映像檔至裸機31。
在第4圖之步驟S43中,對裸機31的資料執行清理任務,以避免裸機31上有資料殘留。在第4圖之步驟S44中,清理任務完成後,此裸機31即可於裸機叢集30中等待配發。
在第4圖之步驟S45中,判斷是否需要進行運算主機供裝?若否(不需要進行運算主機供裝),則返回前述步驟S44。反之,若是(需要進行運算主機供裝),則執行第4圖之步驟S46,以搜尋出欲補充運算資源的第二運算主機叢集20。在第4圖之步驟S47中,取出第二運算主機叢集20的元數據,並利用此元數據進行比對以搜尋出符合的裸機叢集30,並從裸機叢集30中挑選一台裸機31。
在第4圖之步驟S48中,由控制主機60分配一IP位址(如DHCP IP位址)至指派的裸機31,於被指派的裸機31取得IP位址(如DHCP IP位址)後,由控制主機60分派一作業系統映像檔至裸機31進行供裝,以將裸機31供裝成運算主機。在第4圖之步驟S49中,於裸機31供裝成運算主機後,將供裝完成的運算主機加入資源不足的第二運算主機叢集20。
第5圖為本發明中回收運算資源之流程示意圖,且一併參閱第1圖。如圖所示,若雲端服務提供端40(或雲端系統管理端)發現第一運算主機叢集10的第一運算主機11處於閒置或運算資源過剩(如長期過剩)時,也可透過運算資源回收機制將此第一運算主機11回歸裸機31。
在第5圖之步驟S51中,指定第一運算主機叢集10中閒置或運算資源過剩的第一運算主機11。在第5圖之步驟S52中,通知控制主機60準備將閒置的第一運算主機11回歸裸機31。在第5圖之步驟S53 中,控制主機60分派一部署映像檔至閒置的第一運算主機11。
在第5圖之步驟S54中,對閒置的第一運算主機11的資料執行清理任務,以將第一運算主機11回歸成裸機31。在第5圖之步驟S55中,在清理任務完成後,將已回歸的裸機31加入至裸機叢集30中以等待配發。
此外,本發明在多運算主機叢集(即第一運算主機叢集10與第二運算主機叢集20)的設計方面,考量到第一運算主機叢集10與第二運算主機叢集20之間會有相互調度支援的情形,因此第一運算主機叢集10或第二運算主機叢集20所提供的運算資源可能不只一個,例如一個第一運算主機叢集10或一個第二運算主機叢集20可同時提供圖形處理器(GPU)的運算資源與中央處理器(CPU)的運算資源。
同樣地,在裸機叢集30的設計方面,裸機叢集30會與第一運算主機叢集10和第二運算主機叢集20相對應。又,為縮短裸機31部署成第二運算主機21的時間,可以使用自製的作業系統映像檔,且作業系統映像檔已包括第二運算主機21提供運算服務所需的軟體與相關設定,故裸機31安裝完作業系統映像檔後僅需加入至第二運算主機叢集20中即可馬上當作運算主機使用。
本發明採用多運算主機叢集(即第一運算主機叢集10與第二運算主機叢集20)及裸機叢集31的雲端架構,可讓第一運算主機叢集10與第二運算主機叢集20之間相互分享運算資源,且在第二運算主機叢集20的運算資源不足時也能從相對應的裸機叢集30中供裝運算資源。同時,因第一運算主機叢集10與第二運算主機叢集20可相互支援,故雲端系統 不會因第二運算主機叢集20的運算資源不足而無法提供運算服務。而且,當第一運算主機叢集10的運算資源長期過剩時,也可透過運算資源回收機制,將第一運算主機叢集10的第一運算主機11重回裸機叢集30以等待支援第二運算主機叢集20,使運算資源能夠有更妥善的運用而避免浪費。
綜上,本發明中針對運算主機之叢集管理與動態調度系統及方法可至少具有下列特色、優點或技術功效。
一、本發明在面對第二運算主機叢集的運算資源不足的情形時,能從運算資源充足的第一運算主機叢集中調度第一運算主機來暫時支援,亦能自動從裸機叢集的裸機供裝運算主機來補充運算資源不足的第二運算主機叢集,以利面對突發性且大量的運算資源需求。
二、本發明著重在運算資源的彈性調度,在叢集管理的策略中,當第二運算主機叢集的運算資源不足時,能從具有相同或同等的運算資源的第一運算主機叢集中挑選一台負載較輕的第一運算主機來暫時性支援運算資源不足的第二運算主機叢集,亦能立即提供第一運算主機的運算資源與服務。
三、本發明可將至少一台(如多台)第一運算主機與第二運算主機依照所提供的運算資源分別分成至少一(如多個)第一運算主機叢集與第二運算主機叢集,當使用者端有某一運算資源的供裝需求時,能透過標註的元數據搜尋出適當或相對應的第一運算主機叢集與第二運算主機叢集以快速執行使用者端的運算需求。
四、本發明於第二運算主機叢集的運算資源不足而無法提供運算服務時,能即時從第一運算主機叢集中動態調度第一運算主機以暫時 性支援運算資源不足的第二運算主機叢集,從而避免因無法提供使用者端所要求的運算服務而造成錯誤。
五、本發明的第二運算主機叢集所缺少的運算資源會從適當或相對應的裸機叢集中挑選裸機進行自動部署,待裸機部署完成後隨即加入至第二運算主機叢集中以提供運算資源,從而快速完成運算資源的調度與補充。
六、本發明於雲端系統需要進行裸機自動供裝時,能依據具有不同運算資源的裸機叢集,從正確的裸機叢集中挑選出裸機進行供裝,以即時彌補運算資源不足的第二運算主機叢集。
七、本發明於執行第一運算主機叢集的第一運算主機調度後,會從裸機叢集中挑選一台適當或相對應的裸機進行供裝,供裝前會先將裸機的資料進行清除,在清除完成後由控制主機分派作業系統映像檔至裸機以供裝成運算主機,待供裝完成後即可立即將運算主機加入至運算資源不足的第二運算主機叢集中以提供運算服務。
八、本發明之第二運算主機叢集補充完成運算資源後,會將暫時性支援的第一運算主機上的虛擬機線上轉移至新加入的運算主機,並將暫時性支援的第一運算主機動態調度回原來的第一運算主機叢集,以避免運算主機的運算資源無法被最大化利用。
九、本發明可能應用之產業為例如雲端運算產業等,且可能應用之產品為例如雲端虛擬化基礎資源管控系統。
上述實施形態僅例示性說明本發明之原理、特點及其功效,並非用以限制本發明之可實施範疇,任何熟習此項技藝之人士均可在不違 背本發明之精神及範疇下,對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾,均仍應為申請專利範圍所涵蓋。因此,本發明之權利保護範圍,應如申請專利範圍所列。
1‧‧‧針對運算主機之叢集管理與動態調度系統
10‧‧‧第一運算主機叢集
11‧‧‧第一運算主機
20‧‧‧第二運算主機叢集
21‧‧‧第二運算主機
30‧‧‧裸機叢集
31‧‧‧裸機
40‧‧‧雲端服務提供端
50‧‧‧調度模組
60‧‧‧控制主機
70‧‧‧伺服器

Claims (12)

  1. 一種針對運算主機之叢集管理與動態調度系統,包括:一第一運算主機叢集,係具有至少一台第一運算主機,且該第一運算主機具有一虛擬機;一第二運算主機叢集,係具有至少一台第二運算主機,其中,當該第二運算主機叢集具有足夠的運算資源時,由該第二運算主機叢集的該第二運算主機執行運算服務;一調度模組,係當該第二運算主機叢集的運算資源不足時,由該調度模組將該第一運算主機叢集中具有該虛擬機的該第一運算主機動態調度來暫時性支援運算資源不足的該第二運算主機叢集以透過具有該虛擬機的該第一運算主機提供運算服務;以及一裸機叢集,係具有至少一台裸機;其中,在具有該虛擬機的該第一運算主機調度完成後,將該裸機叢集的該裸機供裝成一運算主機,以將該運算主機加入運算資源不足的該第二運算主機叢集中來提供該運算服務,再從該第二運算主機叢集中將暫時性支援的該第一運算主機及其虛擬機分別動態調度回該第一運算主機叢集與線上移轉至由該裸機叢集的該裸機供裝而成的該運算主機。
  2. 如申請專利範圍第1項所述之叢集管理與動態調度系統,其中,當使用者端申請該運算資源時,該調度模組依照該運算資源所對應的元數據搜尋出該第二運算主機叢集,以判斷該第二運算主機叢集是否具有足夠的運算資源可供該使用者端使用。
  3. 如申請專利範圍第1項所述之叢集管理與動態調度系統,更包括一控制主機,其中,在該第一運算主機調度完成後,該調度模組記錄 運算資源不足的該第二運算主機叢集的資訊並通知該控制主機為該第二運算主機叢集補充該運算資源,而該控制主機收到該調度模組的通知後,利用該調度模組所記錄的運算資源不足的該第二運算主機叢集的資訊搜尋出該裸機叢集。
  4. 如申請專利範圍第1項所述之叢集管理與動態調度系統,其中,在對該裸機叢集的該裸機進行供裝時,先將該裸機上的資料清空,再指派作業系統映像檔對該裸機進行供裝,待該裸機供裝成該運算主機後,將該運算主機加入至運算資源不足的該第二運算主機叢集以提供該運算服務。
  5. 如申請專利範圍第1項所述之叢集管理與動態調度系統,更包括一伺服器與一控制主機,其中,在對該裸機叢集的該裸機進行供裝時,該伺服器分配一IP(網際網路協定)位址予該裸機,以供該裸機在分配到該IP位址後透過該IP位址連線回該控制主機,再由該控制主機分派一部署映像檔以執行該裸機供裝前的清理作業而將該裸機所殘留的資料清空。
  6. 如申請專利範圍第1項所述之叢集管理與動態調度系統,更包括一控制主機,其中,若該第一運算主機叢集的另一台第一運算主機處於閒置或運算資源過剩時,該控制主機分派一部署映像檔至該另一台第一運算主機以對該另一台第一運算主機的資料執行清理任務,俾將該另一台第一運算主機回歸成該裸機。
  7. 一種針對運算主機之叢集管理與動態調度方法,包括: 提供具有至少一台第一運算主機之一第一運算主機叢集、具有至少一台第二運算主機之一第二運算主機叢集與具有至少一台裸機之一裸機叢集,且該第一運算主機具有一虛擬機;當該第二運算主機叢集具有足夠的運算資源時,由該第二運算主機叢集的該第二運算主機執行運算服務,然而當該第二運算主機叢集的運算資源不足時,由一調度模組將該第一運算主機叢集中具有該虛擬機的該第一運算主機動態調度來暫時性支援運算資源不足的該第二運算主機叢集以透過具有該虛擬機的該第一運算主機提供運算服務;以及在具有該虛擬機的該第一運算主機調度完成後,將該裸機叢集的該裸機供裝成一運算主機,以將該運算主機加入運算資源不足的該第二運算主機叢集中來提供該運算服務,再從該第二運算主機叢集中將暫時性支援的該第一運算主機及其虛擬機分別動態調度回該第一運算主機叢集與線上移轉至由該裸機叢集的該裸機供裝而成的該運算主機。
  8. 如申請專利範圍第7項所述之叢集管理與動態調度方法,更包括當使用者端申請該運算資源時,由該調度模組依照該運算資源所對應的元數據搜尋出該第二運算主機叢集,以判斷該第二運算主機叢集是否具有足夠的運算資源可供該使用者端使用。
  9. 如申請專利範圍第7項所述之叢集管理與動態調度方法,更包括在該第一運算主機調度完成後,由該調度模組記錄運算資源不足的該第二運算主機叢集的資訊並通知一控制主機為該第二運算主機叢集補充該運算資源,而該控制主機收到該調度模組的通知後,利用該調度模組所記錄的運算資源不足的該第二運算主機叢集的資訊搜尋出該裸機叢集。
  10. 如申請專利範圍第7項所述之叢集管理與動態調度方法,更包括在對該裸機叢集的該裸機進行供裝時,先將該裸機上的資料清空,再指派作業系統映像檔對該裸機進行供裝,待該裸機供裝成該運算主機後,將該運算主機加入至運算資源不足的該第二運算主機叢集以提供該運算服務。
  11. 如申請專利範圍第7項所述之叢集管理與動態調度方法,更包括在對該裸機叢集的該裸機進行供裝時,由一伺服器分配一IP(網際網路協定)位址予該裸機,以供該裸機在分配到該IP位址後透過該IP位址連線回一控制主機,再由該控制主機分派一部署映像檔以執行該裸機供裝前的清理作業而將該裸機所殘留的資料清空。
  12. 如申請專利範圍第7項所述之叢集管理與動態調度方法,更包括若該第一運算主機叢集的另一台第一運算主機處於閒置或運算資源過剩時,由一控制主機分派一部署映像檔至該另一台第一運算主機以對該另一台第一運算主機的資料執行清理任務,俾將該另一台第一運算主機回歸成該裸機。
TW108136166A 2019-10-05 2019-10-05 針對運算主機之叢集管理與動態調度系統及方法 TWI723568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108136166A TWI723568B (zh) 2019-10-05 2019-10-05 針對運算主機之叢集管理與動態調度系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108136166A TWI723568B (zh) 2019-10-05 2019-10-05 針對運算主機之叢集管理與動態調度系統及方法

Publications (2)

Publication Number Publication Date
TWI723568B true TWI723568B (zh) 2021-04-01
TW202115585A TW202115585A (zh) 2021-04-16

Family

ID=76604403

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108136166A TWI723568B (zh) 2019-10-05 2019-10-05 針對運算主機之叢集管理與動態調度系統及方法

Country Status (1)

Country Link
TW (1) TWI723568B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166630A1 (en) * 2010-12-23 2012-06-28 Electronics And Telecommunications Research Institute Dynamic load balancing system and method thereof
TW201308073A (zh) * 2011-07-07 2013-02-16 Vce Co Llc 自動監控與及時資源提供系統
TW201336264A (zh) * 2012-02-16 2013-09-01 Hon Hai Prec Ind Co Ltd 自動擴充虛擬機的方法
CN105871580A (zh) * 2015-11-02 2016-08-17 乐视致新电子科技(天津)有限公司 跨集群自动化部署运维系统及方法
US20180048532A1 (en) * 2016-08-11 2018-02-15 Rescale, Inc. Dynamic optimization of simulation resources
CN108667654A (zh) * 2018-04-19 2018-10-16 北京奇艺世纪科技有限公司 服务器集群自动扩容方法及相关设备
CN109743261A (zh) * 2019-01-07 2019-05-10 中国人民解放军国防科技大学 一种基于sdn的容器网络资源调度方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166630A1 (en) * 2010-12-23 2012-06-28 Electronics And Telecommunications Research Institute Dynamic load balancing system and method thereof
TW201308073A (zh) * 2011-07-07 2013-02-16 Vce Co Llc 自動監控與及時資源提供系統
TW201336264A (zh) * 2012-02-16 2013-09-01 Hon Hai Prec Ind Co Ltd 自動擴充虛擬機的方法
CN105871580A (zh) * 2015-11-02 2016-08-17 乐视致新电子科技(天津)有限公司 跨集群自动化部署运维系统及方法
US20180048532A1 (en) * 2016-08-11 2018-02-15 Rescale, Inc. Dynamic optimization of simulation resources
CN108667654A (zh) * 2018-04-19 2018-10-16 北京奇艺世纪科技有限公司 服务器集群自动扩容方法及相关设备
CN109743261A (zh) * 2019-01-07 2019-05-10 中国人民解放军国防科技大学 一种基于sdn的容器网络资源调度方法

Also Published As

Publication number Publication date
TW202115585A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
US11134013B1 (en) Cloud bursting technologies
US11836535B1 (en) System and method of providing cloud bursting capabilities in a compute environment
CN109313564B (zh) 用于支持多个不同租户的高度可用虚拟桌面的服务器计算机管理系统
US8656387B2 (en) Method and system for workload distributing and processing across a network of replicated virtual machines
US7281247B2 (en) Software image creation in a distributed build environment
US9075659B2 (en) Task allocation in a computer network
EP1695210B1 (en) Grid application deployment
CN110098946B (zh) 虚拟化网元设备的部署方法以及装置
Zeng et al. An integrated task computation and data management scheduling strategy for workflow applications in cloud environments
US9424096B2 (en) Task allocation in a computer network
US20080229320A1 (en) Method, an apparatus and a system for controlling of parallel execution of services
CN104461744A (zh) 一种资源分配方法及装置
CN108337109A (zh) 一种资源分配方法及装置和资源分配系统
CN106033373A (zh) 一种云计算平台中虚拟机资源调度方法和调度系统
CN104639594A (zh) 分配物理资源和虚拟资源的系统和方法
US10320892B2 (en) Rolling capacity upgrade control
CN103414712A (zh) 一种分布式虚拟桌面管理系统和方法
CN111274033B (zh) 一种资源部署方法、装置、服务器以及存储介质
CN103873534A (zh) 一种应用集群迁移方法及装置
CN107864211A (zh) 集群资源调度方法及系统
US20190294470A1 (en) Multilayered resource scheduling
WO2022267646A1 (zh) 一种容器集的部署方法及装置
Wu et al. ABP scheduler: Speeding up service spread in docker swarm
TWI723568B (zh) 針對運算主機之叢集管理與動態調度系統及方法
US20150286508A1 (en) Transparently routing job submissions between disparate environments