TWI725744B

TWI725744B - 透過多層次相關性建立系統資源預測及資源管理模型的方法

Info

Publication number: TWI725744B
Application number: TW109105383A
Authority: TW
Inventors: 陳文賢; 張琬琪
Original assignee: 先智雲端數據股份有限公司
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2021-04-21
Also published as: US20210255899A1; US11579933B2; TW202133055A

Abstract

本發明公開了一種透過多層次相關性建立系統資源預測及資源管理模型的方法，該方法藉由分析主應用程式流量、主應用程式資源的各資源使用量及子應用程式資源的各資源使用量間的關係來建立預估模型，進而於未來時間點上預先部署特定資源以滿足使用需求。這種跨多層次的分析預測及管理方法不同於僅著眼於個別層面預估與部署資源的現有技術。本發明可以利用多個層面間的互動關係，有效進行預估，進而達到減少應用程式服務運作時的隱藏性資源管理成本的優點。

Description

透過多層次相關性建立系統資源預測及資源管理模型的方法

本發明關於一種建立系統資源預測及資源管理模型的方法，特別是一種透過多層次相關性建立系統資源預測及資源管理模型的方法，可有效預測應用程式流量變化而於未來時間點適當部署資源，以滿足應用程式運作所需。

現今的企業在複雜的環境中，如雲端、本地及邊緣計算，部署其應用程式，然而雲端、本地或者是邊緣計算系統架構不同，因此會造成資源管理與維護上的困難。資訊科技(Information Technology,IT)系統管理人員需要學習不同環境下的系統管理與維護方式，當某些應用程式損壞時，由於複雜的系統管理與維護方式，IT系統管理人員得花費更多時間進行除錯。由此可知，複雜的系統管理與維護方式會增加系統維護的成本，例如資料必須在不同系統之間移轉的相容性整合成本、資料根據不同系統的設定方式而所需的備份設定成本、不同系統的安全性規則設定不同所造成的系統維護成本等隱藏性資源管理成本。一般系統管理方案分成兩種，一種是主動式管理方案，另外一種是被動式管理方案。所謂的主動式系統管理方案就是在系統還沒發生問題的時候，就先預測到系統可能會發生甚麼問題，而提前預警；而被動式的系統管理方案則是當系統發生問題之後，才開始尋找可行的解決策略。由於主動式的系統管理方案通常需要有豐富經驗的IT系統管理者根據過去的經驗分析判斷未來可能發生的狀況，對一般企業而言，具有精通雲端、本地和邊緣計算等不同系統架構，同時又具有豐富經驗的IT系統管理人才不易尋找。因此為了解決前述因應用程式損壞所造成的系統管理維護問題，大多數的企業往往會採用被動式系統管理方案，或只做簡單的主動式管理方案，例如只實施日常性的資料備份。被動式系統管理方案就是當系統發生問題的時候，IT系統管理人員才開始研究如何處理系統的問題。然而這對某些極端情況，比如企業資源計劃(Enterprise resource planning，ERP)系統在因為公司業務擴張太快而導致系統處理的資料量突然增加，記憶體資源不足以應付系統處理的資料量，而使得系統無法正常運作。如果只用被動式的管理方案或者是簡單的主動式管理方案，系統必須暫停營運，才能將資料還原，而系統因為暫停營運而造成的營業損失是難以衡量的。因此，相關產業的IT系統管理人員莫不絞盡腦汁研究設計有效的主動式系統管理方案。

進一步來看，部署的應用程式依照其從屬關聯性，可以分為主應用程式以及主應用程式下的子應用程式。以前述的ERP系統作為例子，通常會包含了超文本傳輸協定(Hypertext Transfer Protocol，HTTP)服務器、訊息傳遞系統、資料庫系統及搜尋引擎等子應用程式。每個子應用程式可以直接安裝部署在叢集中的節點上，以虛擬機器(Virtual Machine)或容器(Container)的方式部署，比如利用如Kubernetes的容器管理系統安裝在叢集中的節點上。每個子應用程式都需要與其它子應用程式互相進行傳遞訊息。IT系統管理人員通常會透過監控管理系統來管理主應用程式和子應用程式的中央處理器(Central Processing Unit，CPU)、記憶體等等資源使用量。舉例，如果主應用程式的記憶體資源使用不足，IT系統管理人員就增加整個系統的記憶體資源；而如果是其中一個子應用程式的記憶體資源不足，IT系統管理人員就只調整該子應用程式的設定，來增加該子應用程式的記憶體資源使用量。IT系統管理人員可以透過監視管理系統的管理介面設定監控每個子應用程式，來監視及管理每個子應用程式的資訊，進而達到監控和管理主應用程式，從而在主應用程式運作時蒐集資料，用以判斷或決定調整相關硬體支援以符合使用者需求。例如將HTTP服務器子應用程式增加三個HPPT服務器複本、減少資料庫系統子應用程式10G的記憶體，甚至因應突發大量的需求，增加一個節點，比如增加一單位的容器，來部署ERP系統(主應用程式)。當主應用程式的流量，即使用者請求訊息量，隨時間變動時，每一個子應用程式對資源(諸如CPU、記憶體、網路流量等)也會變動，以滿足主應用程式的性能要求。舉例，如果主應用程式的記憶體資源使用不足，IT系統管理人員就增加整個系統的記憶體資源；而如果是其中一個子應用程式的記憶體資源不足，IT系統管理人原就會調整該子應用程式的設定來增加該子應用程式的記憶體資源使用量。然而，一般預測主應用程式資源利用率的做法就是去分別預測每個子應用程式資源利用率，再加總成主應用程式資源利用率，這樣的作法會造成系統產生額外大量計算資源浪費在做預測上。因此為了降低預測資源的計算成本，大部分資源管理方案僅顯示和收集即時的資源利用率，並只針對單一子應用程式做簡單分析，使得很多對未來資源的需求只能靠管理人員的經驗來判斷。如此一來，當錯誤發生時，沒有經驗的管理人員會花費大量時間進行除錯(追蹤相關日誌)和查找根本原因。這也是反應式管理方案造成高額隱藏性成本的來由。

相對於被動式資源管理方案，近來也有一些主動式資源管理方案被提出來解決前述的問題。大多主動式資源管理方案針對的是單一子應用程式的資源需求預估及資源提供，並不會根基於主應用程式的流量、資源使用量等多層面來進行管理，更遑論從子應用程式間的關聯性影響來看對資源的需求。若由前述多層面的角度來分析每一層面間的互動關係，就可以有效藉由其間關係進行的未來時間點的需求推估，方能獲得最佳的系統資源預測及資源管理，減少隱藏成本。這也是本發明濫觴的原因。

本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中，各式的修改和類似的排列與組合。

為了滿足前述需求，本發明揭露一種透過多層次相關性建立系統資源預測及資源管理模型的方法。該方法包含步驟：A)於一主應用程式部署的節點中定時蒐集該主應用程式的流量及該主應用程式及其多個子應用程式使用節點中各資源的使用量；B)在T時間點以一時間序列模型預測未來T+1時間點的該主應用程式的流量，並計算每個子應用程式相對於該主應用程式使用節點中各資源的比例值；C)以T時間點以前蒐集到的主應用程式對每一資源的使用量，建立一預估模型以計算在T時間點以後各時間點該主應用程式對每一資源的使用量，並將T+1時間點的該主應用程式預測的流量代入該模型中，以獲得在T+1時間點上預測的該主應用程式對每一資源的使用量；及D)將T+1時間點上預測的該主應用程式對每一資源的使用量依照對應的比例值分派給每一子應用程式。

本發明揭露另一種透過多層次相關性建立系統資源預測及資源管理模型的方法。該方法包含步驟：A)於一主應用程式部署的複數個節點中定時蒐集該主應用程式的流量及該主應用程式及其多個子應用程式使用複數個節點中各資源的使用量，並同步計算主應用程式的每一資源使用量對該主應用程式流量的第一相關性數值及每一子應用程式的每一資源使用量對該主應用程式的每一資源使用量的第二相關性數值；B)在T時間點以一時間序列模型預測未來T+1時間點的該主應用程式的流量，並找出第一相關性數值大於一第一門檻值下的資源；及C)以T時間點以前蒐集到的主應用程式對每一資源的使用量，建立一使用量預估模型以預測在T時間點以後各時間點該主應用程式對每一資源的使用量，並將T+1時間點的該主應用程式預測的流量代入該使用量預估模型中，以獲得在T+1時間點上預測的該主應用程式對先前步驟找出的資源之使用量的增量。

該方法亦可進一步於步驟C)後包含步驟：D)於T+1時間點上增加至少一個節點給主應用程式。

該方法也可進一步於步驟B)後包含步驟B1)及於步驟D)後包含步驟D1)：B1)找出第二相關性數值大於一第二門檻值下對應的子應用程式與子應用程式相關資源，並計算前述子應用程式相對於該主應用程式使用子應用程式相關資源的比例值；及D1)於T+1時間點上將該至少一個節點中子應用程式相關資源之使用量依照對應的比例值分派給相關子應用程式。

最好，該第一門檻值為0.5，該第二門檻值亦為0.5。

在一實施例中，該第一相關性數值的計算方法為以蒐集的該主應用程式的每一資源的使用量及該主應用程式的流量計算相似性度量值，其中若該些相似性度量值為負時，取其絕對值。其中該相似性度量值為以夾角餘弦方式來計算該主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及該主應用程式的流量在連續三蒐集時間點間的二變化值形成的向量。

在一實施例中，該第二相關性數值的計算方法包含步驟：以蒐集的該主應用程式的每一資源的使用量及各子應用程式的每一資源的使用量，計算該主應用程式與任一子應用程式之單一資源使用量間的相似性度量值、該主應用程式之任二資源使用量間的相似性度量值，與任二子應用程式資源使用量間的相似性度量值，其中若該些相似性度量值為負時，取其絕對值，主應用程式或子應用程式之單一資源使用量間的相似性度量值為1；及將主應用程式或單一子應用程式的單一資源使用量之相似性度量值取平均值。其中該相似性度量值為以夾角餘弦方式來計算該主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及任一應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量、主應用程式之任二資源使用量在連續三蒐集時間點間的二變化值形成的向量，或任二應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量。

最好，該使用量預估模型使用機器學習演算法，對T時間點以前蒐集到的主應用程式對每一資源的使用量進行分析，以預測在T時間點以後各時間點該主應用程式對每一資源的使用量。該機器學習演算法可為回歸分析(Regression Analysis)演算法、貝葉斯信念網絡(Bayesian Belief Network)演算法、基於密度的帶噪聲應用程式空間聚類(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)演算法、Q學習(Q-learning)演算法或多元回歸(Poly Regression)演算法。

該方法更可進一步於步驟C)後包含步驟C1)及於步驟D1)後包含步驟D2)：C1)計算T+1時間點每一子應用程式關於各子應用程式相關資源的重要性權重；及D2)如果於T+1時間點上該至少一個節點中子應用程式相關資源之分派使用量無法滿足相關子應用程式之需求，則優先滿足重要性權重較大之子應用程式的子應用程式相關資源的需求。其中該重要性權重為T時間點上，任一子應用程式的第二相關性數值與該子應用程式相對於該主應用程式使用子應用程式相關資源的比例值的平均數值。

最好，該時間序列模型為差分整合移動平均自迴歸(Autoregressive Integrated Moving Average，ARIMA)模型。資源可為中央處理器可使用核心數、記憶體可使用量、儲存設備可使用量或網路頻寬可使用量。

本發明提出的方法藉由分析主應用程式流量、主應用程式資源的各資源使用量及子應用程式資源的各資源使用量間的關係而建立預估模型，進而於未來時間點上預先部署特定資源以滿足使用需求。這種跨多層次的分析預測及管理方法不同於僅著眼於個別層面預估與部署資源的現有技術。本發明可以利用更多層面間的互動關係，有效進行預估，進而達到減少應用程式服務運作時的隱藏性成本的優點。

10:計算機叢集

20:網路

30:客戶端設備

110:第一節點

111:第一CPU核心群

112:第一記憶體群

120:第二節點

121:第二CPU核心群

122:第二記憶體群

130:第三節點

131:第三CPU核心群

132:第三記憶體群

140:第四節點

141:第四CPU核心群

142:第四記憶體群

150:第五節點

151:第五CPU核心群

152:第五記憶體群

160:第六節點

161:第六CPU核心群

162:第六記憶體群

170:第七節點

171:第七CPU核心群

172:第七記憶體群

200:網路路由器

300:網路交換器

400:磁碟陣列

圖1為本發明之透過多層次相關性建立系統資源預測及資源管理模型的方法實施的硬體架構之示意圖。圖2為透過多層次相關性建立系統資源預測及資源管理模型的方法的流程圖。圖3為一主應用程式的二個資源的使用量及主應用程式的流量間相似性度量值的計算表。圖4為透過多層次相關性建立系統資源預測及資源管理模型的方法的另一流程圖。圖5以矩陣表列一例子中相似性度量值的計算結果。圖6表列第二相關性數值、比例值及重要性權重的計算結果。圖7為透過多層次相關性建立系統資源預測及資源管理模型的方法的又一流程圖。

下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述。顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域所屬技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例，都屬於本發明保護的範圍。

請見圖1，該圖為本發明之透過多層次相關性建立系統資源預測及資源管理模型的方法(以下簡稱本方法)實施的硬體架構之示意圖。依照本發明，本方法架設於一計算機叢集10中，用來對同樣安裝在計算機叢集10的主應用程式，進行資源預測及資源管理的工作，以減少主應用程式面對硬體系統損壞時的風險及隱性成本。在本實施例中，計算機叢集10是一個或多個伺服器組成的叢集架構，其架構可以是x86、RISC或ARM。在該計算機叢集10中，可以軟體模擬或硬體區分方式形成不同的節點(node)。在本實施例中，節點是用來安裝容器的。一個節點在系統軟體的規劃下，可以占用特定數量的硬體或流量資源使用而不受其它節點的干擾。每一個容器為一個節點，並安裝了如Kubernetes容器系統架構部署的一個或多個子應用程式。子應用程式是主應用程式執行特定服務的軟體集合，如前面的說明，此處不予贅述。本實施例中包含7個節點(第一節點110、第二節點120、第三節點130、第四節點140、第五節點150、第六節點160及第七節點170，以虛線框表示)，每一個節點分配有一個CPU核心群及一個記憶體群。前者包含一個以上的CPU核心，以斜線方框表示；後者包含一個以上的記憶體單元，以橫線方框表示。為了簡化說明，這邊假設伺服器的硬體規格都相同，而且多個容器節點的CPU和記憶體規格也都相同。多個容器節點會按節點資源需求共用一個伺服器的CPU和記憶體。

要完成本方法所提出的具體步驟，依靠的是安裝於第一節點110的應用軟體。在本實施例中，該應用軟體的代碼及資料儲存在計算機叢集10的磁碟陣列400中，當第一節點110中的一第一CPU核心群111在作業系統的指示下，調用磁碟陣列400中的代碼及資料來運作，該些代碼及資料，連同外部蒐集到的相關數據，都會暫存在一第一記憶體群112中。第一節點110若要向外部(其它個節點)蒐集資料，可透過一網路交換器300為之。第二節點120、第三節點130與第四節點140分別供給主應用程式下的一第一子應用程式、一第二子應用程式及一第三子應用程式安裝及運作。前述的每一個子應用程式在同一時間點會被使用的機會不一定，其預設佔據的資源數量也不同。比如，第一子應用程式的運算需求不大但佇列資料量大，那第二節點120的一第二CPU核心群121就使用2個CPU核心，第二節點120的第二記憶體群122就使用8個記憶體單元；第二子應用程式的運算需求大且佇列資料量也大，那第三節點130的一第三CPU核心群131就使用4個CPU核心，第三節點130的第三記憶體群132使用8個記憶體單元；第二子應用程式的運算需求小且佇列資料量也小，那第四節點140的一第四 CPU核心群141就使用2個CPU核心，第四節點140的第四記憶體群142使用4個記憶體單元。當外部的客戶端設備30(可以是筆記型電腦、平板電腦、桌上電腦或智慧型手機)需要使用子應用程式的服務時，資料連接可以透過網路20接入一網路路由器200，並進一步通過網路交換器300與對應的節點進行互動與資料收發。圖1中的第五節點150(包含一第五CPU核心群151及一第五記憶體群152)、第六節點160(包含一第六CPU核心群161及一第六記憶體群162)與第七節點170(包含一第七CPU核心群171及一第七記憶體群172)作為預備使用，會隨著實施例的說明而使用到，此處不加以細述。但為求說明方便，該些節點的資源量都固定(4個CPU核心及8個記憶體單元)，實作上也可以不使用定量資源的節點設計。

請見圖2，該圖為本方法的流程圖。本方法的第一個步驟為於一主應用程式部署的複數個節點中定時蒐集該主應用程式的流量及該主應用程式及其多個子應用程式使用複數個節點中各資源的使用量，並同步計算主應用程式的每一資源使用量對該主應用程式流量的第一相關性數值及每一子應用程式的每一資源使用量對該主應用程式的每一資源使用量的第二相關性數值(S01)。如前所述，主應用程式的三個子應用程式部署在第二節點120到第四節點140中，第一節點110的應用軟體便能以一定的時間間隔，比如5秒、30秒、一分鐘等，對該些節點內的子應用程式進行流量蒐集，從而得到主應用程式的流量；也可以知道子應用程式使用該些節點中各資源的使用量，進而知道主應用程式的各資源的使用量。這裡要說明的是，流量是衡量主應用程式佔據資源的一個客觀標準。流量的定義是每單位時間使用者傳送到整個叢集系統的請求訊息數量。此外，在本發明中所提及的資源，指的是每個節點或子應用程式實際能夠使用硬體的使用量。如前面所述的中央處理器可使用核心數與記憶體可使用量。雖然在本實施例中，磁碟陣列400中的儲存設備不歸於節點或子應用程式所控管，但在其它實施例中，儲存設備可使用量也可以被設定為資源。同樣地，網路路由器200對每個節點或子應用程式所分配的網路頻寬可使用量也可以算是資源的一種。

在此同時，第一節點110的應用軟體便能依照前述蒐集的資料，同步計算主應用程式的每一資源使用量對該主應用程式流量的第一相關性數值及每一子應用程式的每一資源使用量對該主應用程式的每一資源使用量的第二相關性數值。第一相關性數值的計算方式為：以蒐集的主應用程式的每一資源的使用量及主應用程式的流量計算相似性度量值，其中若該些相似性度量值為負時，取其絕對值。要注意的是，相似性度量值是衡量兩個變量之間變動的相依程度，一般會以一個介於-1到1的數據來呈現。-1表示完全負相關，0表示不相關，1表示完全正相關。為了簡化分析，負值的部分皆轉為正值，從而僅表示不相關(0)到相關(1)間的相似性度量。現有許多統計方法可以計算獲得相似性度量值，然而考慮在伺服器層面的資源調度應用，本發明採取以下的方法：相似性度量值為以夾角餘弦方式來計算主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及主應用程式的流量在連續三蒐集時間點間的二變化值形成的向量。舉例來說，請見圖3，該圖為一主應用程式的二個資源的使用量及主應用程式的流量間相似性度量值的計算表。在時間點為3秒時，蒐集到的主應用程式的流量為8.3Gb/s，主應用程式的CPU核心使用量為6.2個，主應用程式的記憶體使用量為3.3GB。在時間點為4秒時，蒐集到的主應用程式的流量為9.0Gb/s，主應用程式的CPU核心使用量為6.3個，主應用程式的記憶體使用量為5.3GB。在時間點為5秒時，蒐集到的主應用程式的流量為9.5Gb/s，主應用程式的CPU核心使用量為5.8個，主應用程式的記憶體使用量為7.9GB。3秒與4秒間的流量增量為0.7Gb/s，CPU核心使用量增量為0.1個，記憶體使用量增量為2GB。4秒與5秒間的流量增量為0.5Gb/s，CPU核心使用量增量為-0.5個，記憶體使用量增量為2.6GB。因此，主應用程式之CPU核心使用量在連續三蒐集時間點間的二變化值形成的向量為(0.1,-0.5)，主應用程式之記憶體使用量在連續三蒐集時間點間的二變化值形成的向量為(2,2.6)，主應用程式的流量在連續三蒐集時間點間的二變化值形成的向量為(0.7,0.5)。夾角餘弦的公式為

，因此可以得到CPU核心的使用量及主應用程式的流量間相似性度量值為-0.41，記憶體的使用量及主應用程式的流量間相似性度量值為0.96。由於前者為負值，其取絕對值後成為了0.41。也就是說，當主應用程式的流量變動後，記憶體的使用量的變化率會非常接近主應用程式的流量的變化率，而到CPU核心的使用量的變化率會較主應用程式的流量的變化率來的低得多。

接著，本方法的第二個步驟為在T時間點以一時間序列模型預測未來T+1時間點的該主應用程式的流量，並找出第一相關性數值大於一第一門檻值下的資源(S02)。T時間點為任何要開始進行下一時間主應用程式流量預測及資源部署的時點，在本實施例中，取時間為第5秒為例子來說明。T+1時間點並不是特指時間為6秒的時點，而是泛指未來特定的一個時間點，比如30秒、20分鐘、一個鐘頭等較短時間，甚至是3天、二星期後的較長時間。當然，如果要對較長時間點後進行預估，步驟S01中的蒐集時間要長，數量也要多。這裡，時間序列模型採用差分整合移動平均自迴歸(Autoregressive Integrated Moving Average，ARIMA)模型。本步驟中取第一門檻值的目的在於篩選與主應用程式的流量的變化較敏感的資源，從而可以在有限的硬體(節點)環境中，優先選出影響大的資源與以改變配置。在本實施例中，第一門檻值為0.5，配合以上的計算說明，找出的資源為記憶體使用量。當然，如果未部署使用的硬體相當多，第一門檻值可以降低，以便讓更多種類的資源能夠於下一個時間點調整增加。

接著，本方法的第三個步驟為以T時間點以前蒐集到的主應用程式對每一資源的使用量，建立一使用量預估模型以預測在T時間點以後各時間點該主應用程式對每一資源的使用量，並將T+1時間點的該主應用程式預測的流量代入該使用量預估模型中，以獲得在T+1時間點上預測的該主應用程式對先前步驟找出的資源之使用量的增量(S03)。在本步驟中，使用量預估模型使用機器學習演算法，對T時間點以前蒐集到的主應用程式對每一資源的使用量進行分析，以預測在T時間點以後各時間點該主應用程式對每一資源的使用量。可以建立使用量預估模型的機器學習演算法，比如回歸分析(Regression Analysis)演算法、貝葉斯信念網絡(Bayesian Belief Network)演算法、基於密度的帶噪聲應用程式空間聚類(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)演算法、Q學習(Q-learning)演算法、多元回歸(Poly Regression)演算法等。最好，可以使用兩種以上的機器學習演算法交互進行，以取得更貼近未來資源使用量的使用量預估模型。在後文中其它實施例提到的使用量預估模型，也和本實施例中一樣。至此，可由T+1時間點的主應用程式預測的流量，推出記憶體使用量的增量。

最後，本方法的第四個步驟為於T+1時間點上增加至少一個節點給主應用程式(S04)。本步驟為自動設定增加節點而不需人工調整，可以將第五節點150及其所屬的第五CPU核心群151及第五記憶體群152分給主應用程式使用，至於具體分給哪一個子應用程式，在此不予限制。然而，本方法也可以只進行到第三步驟，讓管理人員手動來增加節點。

前述的實施例僅在推估主應用程式的流量以及挑選出對主應用程式較有影響的資源來進行節點的分布，以下的實施例將進一步揭露要如何將節點資源分配到子應用程式上。

請見圖4，該圖為透過多層次相關性建立系統資源預測及資源管理模型的方法的另一個流程圖。和圖2相比，本實施中的方法多了兩個步驟：於步驟S02後包含步驟S021及於步驟S04後包含步驟S041。步驟S021為找出第二相關性數值大於一第二門檻值下對應的子應用程式與子應用程式相關資源，並計算前述子應用程式相對於該主應用程式使用子應用程式相關資源的比例值(以下簡稱比例值)。步驟S041為於T+1時間點上將該至少一個節點中子應用程式相關資源之使用量依照對應的比例值分派給相關子應用程式。這裡，子應用程式相關資源特指第二相關性數值大於第二門檻值下對應的子應用程式所使用的資源。子應用程式所使用的資源不一定都在計算第二相關性數值時會大於第二門檻值。如果子應用程式的CPU核心使用量計算的第二相關性數值大於第二門檻值而記憶體使用量的第二相關性數值小於第二門檻值，那麼只有CPU核心使用量會被用來進行T+1時間點上的分派。此外，第二相關性數值包含了兩個步驟：第一步驟為以蒐集的該主應用程式的每一資源的使用量及各子應用程式的每一資源的使用量，計算該主應用程式與任一子應用程式之單一資源使用量間的相似性度量值、該主應用程式之任二資源使用量間的相似性度量值，與任二子應用程式資源使用量間的相似性度量值，其中若該些相似性度量值為負時，取其絕對值，主應用程式或子應用程式之單一資源使用量間的相似性度量值為1；第二步驟為將主應用程式或單一子應用程式的單一資源使用量之相似性度量值取平均值。和第一相關性數值計算相似，第二相關性數值中的相似性度量值為以夾角餘弦方式來計算兩個向量。但兩個向量分別為主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及任一應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量、主應用程式之任二資源使用量在連續三蒐集時間點間的二變化值形成的向量，或任二應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量。此處省略計算過程，茲將某一例子中相似性度量值的計算結果以矩陣表列於圖5。圖5中相同的應用程式的特定資源使用量在交會處的值為1，因為其為完全相關。整體來說，圖5中的矩陣為一個對稱矩陣。以第三欄(黑點背景)為例來說明矩陣中數值的意義。主應用程式的記憶體使用量與主應用程式的CPU核心使用量間的相似性度量值為0.49，主應用程式的記憶體使用量與本身的相似性度量值為1，主應用程式的記憶體使用量與第一子應用程式的CPU核心使用量間的相似性度量值為0.66，主應用程式的記憶體使用量與第一子應用程式的記憶體使用量間的相似性度量值為-0.99(取絕對值後為0.99)，主應用程式的記憶體使用量與第二子應用程式的CPU核心使用量間的相似性度量值為0.41，主應用程式的記憶體使用量與第二子應用程式的記憶體使用量間的相似性度量值為0.96，主應用程式的記憶體使用量與第三子應用程式的CPU核心使用量間的相似性度量值為-0.68(取絕對值後為0.68)，主應用程式的記憶體使用量與第三子應用程式的記憶體使用量間的相似性度量值為0.86。將主應用程式或單一子應用程式的單一資源使用量之相似性度量值取平均值的結果如下(請見圖6)：主應用程式的CPU核心使用量之第二相關性數值為0.74，主應用程式的記憶體使用量之第二相關性數值為0.76，第一子應用程式的CPU核心使用量之第二相關性數值為0.82，第一子應用程式的記憶體使用量之第二相關性數值為0.70，第二子應用程式的CPU核心使用量之第二相關性數值為0.70，第二子應用程式的記憶體使用量之第二相關性數值為0.60，第三子應用程式的CPU核心使用量之第二相關性數值為0.82，第三子應用程式的記憶體使用量之第二相關性數值為0.86。取第二門檻值為0.5，所有的應用程式各資源使用量皆滿足步驟S021前半段的要求，但是必須得移除被步驟S02剔除的資源。

步驟S021中的比例值乃是利用T時間點前蒐集的資料，找出一個代表子應用程式相對於該主應用程式使用子應用程式相關資源的比例，比如第一子應用程式相對於主應用程式使用記憶體的比例。如此，各子應用程式相對於主應用程式使用特定子應用程式相關資源的比例值之和會為1。圖6顯示各個子應用程式相對於主應用程式使用特定子應用程式相關資源的比例值。比例值的計算可以是各蒐集時間點上計算結果的平均值，數值越大表示該子應用程式對特定子應用程式相關資源的使用量也大。

步驟S041是在T+1時間點上對各子應用程式分派步驟S04取得的節點中的各資源。如果在步驟S02中CPU核心可使用量及記憶體可使用量都是第一相關性數值大於一第一門檻值下的資源，那麼圖1中第五節點150、第六節點160及第七節點170的硬體都可以被用來分派。以CPU核心使用量來看，如果步驟S03中計算出來的使用量的增量為兩個節點，第五節點150與第六節點160中的第五CPU核心群151與第六CPU核心群161的8個CPU核心便能在T+1時間點上分派給各子應用程式(第七節點170的第七CPU核心群171預留給下一時間點)。依照圖6的數據，第一子應用程式分派到3.76個CPU核心使用量，第二子應用程式分派到1.76個CPU核心使用量，第三子應用程式分派到2.48個CPU核心使用量，同樣的方法可應用在記憶體使用量的分派上。當然，還有更簡潔的分派方式：直接對一個子應用程式分派一個複本所需的資源數量，也就是直接加一套該子應用程式。由於每個子應用程式使用的資源總量不見得是一個節點的資源總量，在分派前要特別注意。

如上所述，各種分派資源的結果都是在資源足夠的情形下產生。對於預留的節點不夠或者分派給主應用程式的節點資源不足以滿足特定子應用程式的需求時，需要一種決定資源分配的機制。在此情況下，圖4的流程中可進一步於步驟S03後包含步驟S031及於步驟S041後包含步驟S042。步驟S031為計算T+1時間點每一子應用程式關於各子應用程式相關資源的重要性權重，步驟S042為如果於T+1時間點上該至少一個節點中子應用程式相關資源之分派使用量無法滿足相關子應用程式之需求，則優先滿足重要性權重較大之子應用程式的子應用程式相關資源的需求。重要性權重為T時間點上，任一子應用程式的第二相關性數值與該子應用程式相對於該主應用程式使用子應用程式相關資源的比例值的平均數值。為了對重要性權重的計算有較佳理解，請復見圖6。圖6中各子應用程式相關資源的重要性權重為其左邊二欄位值之平均。重要性權重的意義在於顯示T+1時間點上每一個子應用程式的子應用程式相關資源出現預估及被使用量的可能性大小。對主應用程式來說，重要性權重大的子應用程式的子應用程式相關資源要優先被滿足，以免主應用程式發生系統性的錯誤。如圖6所示，如果在T+1時間點上CPU核心的使用量不夠了，第一子應用程式的CPU核心使用量要優先被滿足(重要性權重為0.64)，其次是第三子應用程式的CPU核心使用量(重要性權重為0.57)，第二子應用程式的CPU核心使用量可能會不夠，從而造成第二子應用程式的效能變差。

以上是考慮三個層面，主應用程式流量、主應用程式資源使用量及子應用程式資源使用量的三層相關性建立系統資源預測及資源管理模型的方法。也就是依照主應用程式流量分派節點給主應用程式，再進一步將節點中的資源分派給子應用程式。然而，依照本發明的精神，也可以在知道主應用程式流量的情況下，直接分派資源給子應用程式。相關的作業流程請見圖7。

圖7中，第一個步驟為於一主應用程式部署的節點中定時蒐集該主應用程式的流量及該主應用程式及其多個子應用程式使用節點中各資源的使用量(S11)，第二個步驟為在T時間點以一時間序列模型預測未來T+1時間點的該主應用程式的流量，並計算每個子應用程式相對於該主應用程式使用節點中各資源的比例值(S12)。同前所述，該時間序列模型為差分整合移動平均自迴歸模型，其使用目的亦相同。第三個步驟為以T時間點以前蒐集到的主應用程式對每一資源的使用量，建立一預估模型以計算在T時間點以後各時間點該主應用程式對每一資源的使用量，並將T+1時間點的該主應用程式預測的流量代入該模型中，以獲得在T+1時間點上預測的該主應用程式對每一資源的使用量(S13)。第四步驟為將T+1時間點上預測的該主應用程式對每一資源的使用量依照對應的比例值分派給每一子應用程式(S14)。很明顯，這種分配的方法是在建立主應用程式流量與子應用程式使用節點中各資源的使用量的關係後，從而藉由預估結果直接對子應用程式分派資源的使用量。

以上實施例雖然以容器為例子，但實作上，相同的方式也可以應用在虛擬機器，甚至透過虛擬機器去建立每個容器的系統資源預測及資源管理模型。

儘管以上已經示出和描述了本發明的實施例，對於本領域所屬技術人員而言，可以理解在不脫離本發明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型，本發明的範圍由所附申請專利範圍及其均等物限定。

Claims

一種透過多層次相關性建立系統資源預測及資源管理模型的方法，包含步驟：A)於一主應用程式部署的複數個節點中定時蒐集該主應用程式的流量及該主應用程式及其多個子應用程式使用複數個節點中各資源的使用量，並同步計算主應用程式的每一資源使用量對該主應用程式流量的第一相關性數值及每一子應用程式的每一資源使用量對該主應用程式的每一資源使用量的第二相關性數值；B)在T時間點以一時間序列模型預測未來T+1時間點的該主應用程式的流量，並找出第一相關性數值大於一第一門檻值下的資源；及C)以T時間點以前蒐集到的主應用程式對每一資源的使用量，建立一使用量預估模型以預測在T時間點以後各時間點該主應用程式對每一資源的使用量，並將T+1時間點的該主應用程式預測的流量代入該使用量預估模型中，以獲得在T+1時間點上預測的該主應用程式對先前步驟找出的資源之使用量的增量。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，進一步於步驟C)後包含步驟：D)於T+1時間點上增加至少一個節點給主應用程式。
如申請專利範圍第2項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，進一步於步驟B)後包含步驟B1)及於步驟D)後包含步驟D1)：B1)找出第二相關性數值大於一第二門檻值下對應的子應用程式與子應用程式相關資源，並計算前述子應用程式相對於該主應用程式使用子應用程式相關資源的比例值；及 D1)於T+1時間點上將該至少一個節點中子應用程式相關資源之使用量依照對應的比例值分派給相關子應用程式。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該第一門檻值為0.5。
如申請專利範圍第3項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該第二門檻值為0.5。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該第一相關性數值的計算方法為以蒐集的該主應用程式的每一資源的使用量及該主應用程式的流量計算相似性度量值，其中若該些相似性度量值為負時，取其絕對值。
如申請專利範圍第6項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該相似性度量值為以夾角餘弦方式來計算該主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及該主應用程式的流量在連續三蒐集時間點間的二變化值形成的向量。
如申請專利範圍第3項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該第二相關性數值的計算方法包含步驟：以蒐集的該主應用程式的每一資源的使用量及各子應用程式的每一資源的使用量，計算該主應用程式與任一子應用程式之單一資源使用量間的相似性度量值、該主應用程式之任二資源使用量間的相似性度量值，與任二子應用程式資源使用量間的相似性度量值，其中若該些相似性度量值為負時，取其絕對值，主應用程式或子應用程式之單一資源使用量間的相似性度量值為1：及將主應用程式或單一子應用程式的單一資源使用量之相似性度量值取平均值。
如申請專利範圍第8項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該相似性度量值為以夾角餘弦方式來計算該主應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量及任一應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量、主應用程式之任二資源使用量在連續三蒐集時間點間的二變化值形成的向量，或任二應用程式之單一資源使用量在連續三蒐集時間點間的二變化值形成的向量。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該使用量預估模型使用機器學習演算法，對T時間點以前蒐集到的主應用程式對每一資源的使用量進行分析，以預測在T時間點以後各時間點該主應用程式對每一資源的使用量。
如申請專利範圍第10項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該機器學習演算法為回歸分析(Regression Analysis)演算法、貝葉斯信念網絡(Bayesian Belief Network)演算法、基於密度的帶噪聲應用程式空間聚類(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)演算法、Q學習(Q-learning)演算法或多元回歸(Poly Regression)演算法。
如申請專利範圍第3項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，進一步於步驟C)後包含步驟C1)及於步驟D1)後包含步驟D2)：C1)計算T+1時間點每一子應用程式關於各子應用程式相關資源的重要性權重；及D2)如果於T+1時間點上該至少一個節點中子應用程式相關資源之分派使用量無法滿足相關子應用程式之需求，則優先滿足重要性權重較大之子應用程式的子應用程式相關資源的需求。
如申請專利範圍第12項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該重要性權重為T時間點上，任一子應用程式的第二相關性數值與該子應用程式相對於該主應用程式使用子應用程式相關資源的比例值的平均數值。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中該時間序列模型為差分整合移動平均自迴歸(Autoregressive Integrated Moving Average，ARIMA)模型。
如申請專利範圍第1項所述的透過多層次相關性建立系統資源預測及資源管理模型的方法，其中資源為中央處理器可使用核心數、記憶體可使用量、儲存設備可使用量或網路頻寬可使用量。