TW202030617A

TW202030617A - 基於因果學習之資料中心基礎設施最佳化方法

Info

Publication number: TW202030617A
Application number: TW108143174A
Authority: TW
Inventors: 吉列強巴提斯畢諾
Original assignee: 美商3M新設資產公司
Priority date: 2018-11-28
Filing date: 2019-11-27
Publication date: 2020-08-16
Also published as: CN116991215A; EP3887922A1; CN113039506A; WO2020109937A1; EP3887922A4; US20220004475A1; CN113039506B

Abstract

一種用於主動資料中心管理的方法，其係藉由在資料中心之冷卻基礎設施之操作控制項中注入經隨機化受控信號，並接收對應於該等經注入信號的回應信號。經注入之信號係用於調整冷卻基礎設施之操作控制項，且回應信號係關於資料中心中的操作條件。基於回應信號連同獨立及外部變數，經隨機化信號持續地注入至冷卻基礎設施中並基於該等回應信號而微調。用於控制資料中心之冷卻基礎設施的最佳或改良參數係基於信號注入及對應的回應而判定。

Description

基於因果學習之資料中心基礎設施最佳化方法

資料中心在使用於冷卻伺服器及於其等中的其他電腦設備消耗大量的電力。隨著資料的需求增加，資料中心以具能源效率的方式來操作係重要的。一個度量為功率使用效率：用以運轉資料中心基礎設施之能量對用以向電腦設備(例如，伺服器及開關)供電的能量之比。非常最佳化之數據中心可具有低至1的年化電力利用效率；然而，1.3或更高的電力利用效率更為常見。其他度量包括收益、投資報酬率、延遲率、及客戶保留率。

隨網路負載及外部環境條件(諸如溫度、雲區、及能量成本)而根據前後情形來最佳化資料中心基礎設施冷卻系統處理程序控制項係一複雜的問題。已將先進的機器學習技術(諸如，卷積神經網路)應用至此問題，以發展可預料能源需求並更佳地管理能量用量的預測模型。已顯示的是，此類型的機器學習系統可能可達到將用於冷卻之能量量減少40百分比，其等同於在考慮電力損失及其他非冷卻的低效率後將整體電力利用效率製造費用減少15百分比。

然而，基於觀察資料的此類機器學習技術全部面臨一基本的取捨：其等越複雜，用於訓練模型所需的資料越多，通常係數年的操作資料。考慮到一般的電腦設備再新率係三年，此意謂機器學習模型在其準確性及精確性開始降級之前會有短期間的最佳化操作，且需要重新訓練以反映更新之電腦設備及基礎設施。取決於變化之量值，此可觸發已知為機器學習領域中的「災難性遺忘(catastrophic forgetting)」，其需要該模型以完全新的資料而重新開始。因此，存在著需要更具資料及時間效率的演算法，用於識別最佳資料中心控制設定，其中學習的速度及質量係與資料中心基礎設施的變化速度相稱的。

一種用於主動資料中心管理的第一方法包括在一資料中心之操作控制項中注入經隨機化受控信號，並確保該等信號注入發生在正常操作範圍及限制內。該方法亦包括回應於此等信號注入而監測該資料中心中之操作條件及操作結果，並基於操作條件而根據前後情形來運算關於該等信號注入與操作結果之間的因果關係之信賴區間。基於經運算之該等信賴區間及操作條件而針對該資料中心之該等操作控制項來選擇最佳信號。

一種用於主動資料中心管理之第二方法包括提供針對一資料中心之操作控制項提供信號注入，並接收對應於該等信號注入的回應信號。該方法亦包括測量該等回應信號的一效用，及存取關於控制該資料中心之操作條件的資料。用於操作控制項之資料係基於該等回應信號之效用而修改。

10:伺服器室

11:冷水

12:冷卻塔

13:冷空氣

14:泵

15:冷空氣

16:冷卻器

17:熱空氣

18:泵

19:熱空氣

20:泵

21:熱水、熱水線

22:電腦室內空調器、空調器

23:處理器

24:電腦室內空調器、空調器

25:輸入

26:外部資料、輸入

27:資料儲存裝置

28:輸出

29:輸出

30:步驟

32:步驟

34:步驟

36:步驟

38:步驟

40:步驟

42:步驟

44:步驟

46:步驟

48:步驟

50:步驟

52:步驟

54:步驟

56:步驟

58:步驟

60:步驟

62:步驟

64:步驟

66:步驟

68:步驟

70:步驟

72:步驟

74:步驟

76:步驟

78:步驟

80:步驟

82:步驟

84:步驟

隨附圖式併入並構成本說明書之一部分，且與詳細說明一起釋明本發明之優勢與理論。在圖式中：

圖1A係繪示一資料中心之例示性冷卻基礎設施組件的圖式；

圖1B係繪示用於實施資料中心基礎設施最佳化方法之系統的圖式；

圖2係用於系統之搜尋空間方法的流程圖；

圖3係用於系統之信號注入方法的流程圖；

圖4係用於系統之持續學習方法的流程圖；及

圖5係用於系統之記憶體管理方法的流程圖。

本發明之實施例包括一種用於改良資料中心能量效率的方法，其係藉由對冷卻系統參數(諸如冷走道溫度設定點、運轉中冷卻系統的數目及時間點、及冷卻器溫度)實施隨機擾動實驗，以及推論對於效用度量(諸如電力利用效率、操作成本、及影響半徑)的其等因果效應。此主動實驗方法可導致比基於對資料中心或一般建築能量管理的觀察資料之被動機器學習技術更快、更健全的學習。

圖1A係繪示一資料中心之例示性冷卻基礎設施組件的圖式。一資料中心包括伺服器室10，該伺服器室具有數架伺服器、儲存裝置、電子開關設備、及可能的其他電腦設備。一般冷卻基礎設施包括冷卻塔12，該冷卻塔提供冷水至冷卻器16，其透過泵18及20提供冷水11至電腦室內空調器22及24。空調器22及24提供新鮮的冷空氣13及15至伺服器室10中並通過該伺服器室，並從伺服器室10接收排出的熱空氣17及19。空調器22及24將熱水21提供返回至冷卻器16，其經由泵14將溫水循環返回至冷卻塔12。冷卻基礎設施亦可包括在熱水線21上的水側節熱器(waterside economizer)、及用於空調器22及24的空氣側節熱器(airside economizer)。冷卻基礎設施一般亦會包括風扇，以將空氣循環通過伺服器室10，圍繞並通過伺服器室10中之數架設備。冷卻基礎設施可針對資料中心中的額外伺服器而複製，或適應資料中心具有額外伺服器及電腦設備的擴建。

圖1B係繪示用於實施資料中心基礎設施最佳化方法之系統的圖式。該系統包括處理器23，該處理器電耦合至資料儲存裝置27。處理器23接收來自資料中心的輸入25。具體而言，處理器23會如根據圖1所述與資料中心的冷卻基礎設施組件耦合以提供信號傳輸，並與感測器耦合以接收用於監測資料中心之操作狀況的信號。此等信號可以電信號(有線或無線)或光學信號來傳輸。處理器23亦可接收外部資料26，諸如資料中心外部的環境溫度及天氣條件。輸入25及26可包括例如量化或關於表3至表5中所列出之變數的資訊。

處理器23可根據本文中所述之因果分析及方法來處理該等輸入並提供輸出28至資料中心操作控制項，以最佳化或改良資料中心效率或其他效用度量，諸如延遲率、收益、及客戶保留率。具體而言且基於該等方法，處理器23可提供信號以控制資料中心冷卻基礎設施，例如泵、空調器、冷卻器、及風扇。處理器23可能可提供輸出29至用於資料中心能量效率的其他控制項。

該資料中心可選性地可針對冷卻基礎設施的最佳化而分割成數區域。該等區域之數目及屬性亦可為用於最佳化之實驗的一部分，且可隨時間動態改變。各區域可經識別為資料中心之一特定區(例如伺服器室10之一部分)，且與用於該區域之輸入及控制項相關聯。舉例而言，該等輸入可係監測在對應區域中之操作條件的感測器，且該等控制項可係對應區中之冷卻基礎設施組件。該等區域可以單一架、或在伺服器室中的一架之一部分為一單位。表1提供用於儲存區域識別連同對應之輸入及控制項的例示性資料結構。

圖2至圖5係用於資料中心基礎設施最佳化方法的流程圖。此等方法可實施在例如軟體模組中以供處理器23執行。

圖2係搜尋空間方法的流程圖。搜尋空間方法包括以下步驟：接收控制項資訊(包括成本)30；建構所有可能控制項狀態之多維度空間32；限制潛在控制項信號之空間34；在正常條件下判定正常/基線取樣分佈36，等效於歷史取樣分佈；判定最高效用取樣分佈 38；且在經限制空間內的自動化控制項選擇40。在搜尋空間方法開始時，操作決策會類似於歷史模式(「正常分佈」)，直到獲得足夠的證據而利用更佳者。

圖3係信號注入方法的流程圖。信號注入方法包括以下步驟：接收潛在信號注入之組42；運算信號注入之空間及時間範圍44；於空間及時間中協調信號注入46；實施信號注入48；收集回應資料50；且使回應資料與信號注入相關聯52。

該等信號注入係針對資料中心冷卻基礎設施的控制參數之變化。對信號注入的回應一般係由來自信號注入的控制參數之變化所導致或相關於該等變化的資料中心效能。例如，演算法可改變或修改控制項及設定點，以獲得在資料中心基礎設施內之所欲溫度。信號注入的時間範圍及空間範圍分別係關於何時及何處測量針對用於運算因果關係之該等信號注入的回應信號。空間範圍可解釋為一特定控制項的影響半徑，而時間範圍可解釋為其時間回應(包括可能的延遲、變動及衰變)。信號注入的成本係關於實施特定信號之成本，包括固定成本(例如，操作成本)、可變成本(例如，能量成本)、及機會成本(例如，信號注入相對於其他信號如何影響資料中心基礎設施效能)，且由特定實驗範圍所控制。信號注入之佇列涉及信號注入之順序及優先順序，且依賴於阻斷及隨機化以保證隨時的高內部有效性，即使是當利用推論的因果關係來最佳化效用時。對信號注入之回應效用涉及信號注入透過效用測量所量化的有效性，該等效用測量諸如電力利用效率(power utilization efficiency,PUE)、投資報酬率、收益、延遲率、客戶保留率、及可能的其他因素。此等度量可進一步結合至單一多目標最佳化函數。

圖4係持續學習方法的流程圖；持續學習方法包括以下步驟：接收潛在信號注入之組54；接收目前信念狀態56；運算針對信號注入的學習值58；接收針對信號注入之成本60；選擇且協調信號注入62；實施信號注入64；收集回應資料66；且更新信念狀態68。

該潛在信號注入之組可基於外部及環境因素而隨時間變化，例如冷卻器溫度的安全搜尋空間可視外部溫度條件而定。該等信念狀態係回應於各種參數的資料中心冷卻基礎設施效能之一組不同的因果模型。此等信念狀態可具有附加的不確定值，該不確定值反映，在目前試驗之組及可能傾向於確認或否認此等不同模型的知識給定的情況下，其等正確的可能性，及可進一步確認或否認該等模型可被包括在此資料中、或從該特定模型及基本系統之物理的基礎特性導出之資訊。

學習值係導因於信號注入所產生的知識可提供至一系統之後續決策的值之測量，諸如判定用於冷卻基礎設施之一特定組件的一特定控制參數很可能是最佳的。學習值可透過例如預測下列者來運算：根據部分可觀察馬可夫決策過程(Partially Observable Markov Decision Process,POMDP)或其他統計模型之預測可能被否認的信念狀態之原始碼、信號注入對在此類模型中之信念狀態中之不確定位準的預測影響、或基於目前樣本大小之增加而運算不確定性降低及信賴區間之縮小的實驗分析。最初，因為模型缺乏建議最佳控制決策的精確性，所以學習值高。當關於因果效應並因此關於控制決策之效用的信賴度隨著時間改良，邊際學習值降低，而實施及探索彼學習的機會成本增加。

圖5係記憶體管理方法的流程圖。記憶體管理方法包括以下步驟：接收歷史叢集之組70；接收歷史信號注入之組72；且運算目前叢集的信號注入之效應之時間穩定性74。若來自步驟74之信號注入之效應係穩定76，則記憶體管理方法執行以下步驟：接收歷史外部因素狀態之組78；運算信號注入之效應之穩定性對外部因素狀態80；若在外部因子狀態之二或更多個叢集上偵測到效應的變異，且在各叢集內可取得足夠的資料來運算關於此等效應的信賴區間，則選擇兩個狀態以將叢集分裂82並更新歷史叢集之組84。

一叢集係實驗單位的一群組，該等實驗單位相對於所測得之效應係在統計上相等、可互換的。實驗單位可係例如整個資料中心、資料中心之走道或其他部分或區域、或其他類似子集。在叢集內，效應係在無來自效應修正因子(effect modifier)(例如，在實驗控制之外的環境因數及外部變數)的偏差以及無導因於隨機分配的混淆變數的情況下而測量，因此確保所測得之效應代表因果關係，且不僅僅是相關性或關聯性。各叢集內所測得之效應的分佈近似正常分佈，從而允許運算關於其等真實平均的信賴區間。對於各控制設定點而言，信賴區間邊界的平均提供在一給定叢集內的其因果效應之預期值之無偏差評估。

表1提供用於自動產生及施加用於資料中心基礎設施最佳化之因果知識之一實施例的演算法。此演算法可實施在軟體或韌體中以供處理器23執行。

本發明之實施例使用因果分析而非相關性。有兩個使因果(動作A與結果Y之間的關係)有別於相關性的因素：混淆因子(L)及效應修正因子(M)。在因果分析語言中，A=IV(獨立變數)、Y=DV(相依變數)、M=EV(外部變數)，如下所示。

用以消除混淆因子(L)的單一機制係動作選擇的隨機化，其係主動實驗方法之核心(諸如本說文中所述之因果學習)。觀察方法(諸如深度學習)無法識別、量化、及/或消除混淆因子。效應修正因子亦可由在大量之限制中的隨機化消除，但阻斷及分群對小樣本中之因果推論係更有效率消除其等影響(減少偏差)的機制。深度學習嘗試藉由允許一演算法找到可代表效應修正因子之「特徵」(即，數個EV之組合)來實現相同的事，但在混淆因子的存在下找到此等特徵係相當困難以且因此係為何需要很多資料。此外，深度學習不適應於其中因果效應及效應修正因子可能隨著時間改變的非靜態系統、或者可能在歷史操作視窗外漂移的非靜態系統。相較之下，因果分析或學習可係本質上適配於非靜態或動態系統，因為其透過主動原位實驗持續改良其學習的準確性及精確性，且僅需最能代表系統目前狀態的有限小資料量來驅動最佳控制決策。

不同於其他依靠被動收集之歷史資料來訓練一模型並建立在訓練結束時傳出所有值的物理過程之「數位孿生(digital twin)」的機械學習技術，藉由利用具有正面期待之效用的效應只要有足夠的證據能傳出值，因果分析更快的傳出值。雖然權限效能可與該兩項技術相同，但隨時間由因果分析傳出的累積值大得多。此亦指，因果分析可配置在具有非常有限量歷史操作資料的新系統中。相反地，若已存在著數位孿生，則因果分析可藉由在數位孿生上實驗而初始化，且學習之準確性與精確性可接著由在原位上實驗而改善。此外，因為因果分析從未在100%時間內處於一純利用階段(pure exploit phase)並持續監測因果效應是否隨時間穩定，因此其較不會遭受「災難性遺忘(catastrophic forgetting)」。

不同於依靠控制回應矩陣之對角線元素(M_ii)的一般閉迴路控制系統，因果分析技術允許在一複雜控制系統中之所有矩陣元素 (包括非對角交互元素)的精確量化。在此形式中，因果回應元素M係透過對至資料中心冷卻基礎設施中的隨機化信號注入之回應而判定，且非簡單數值係數，而是相當複雜的時間、空間、獨立變數(不同位準或設定點的不同元素)、及外部因素(不同叢集之不同元素)之非線性函數。彼等因果元素亦隨時間被監測，且接著用於精選或判定新信號注入。對於此等矩陣元素的預期值的信賴區間之量化進一步允許操作風險評估，且因此因應風險來調整控制決策的最佳化。

以下矩陣提供用於資料中心最佳化的矩陣元素之實例。基於控制項(Ctrl ₁,Ctrl ₂,Ctrl ₃)可針對區域之目標溫度(T _z1,T _z2,T _z3)來量化矩陣元素(M_ii)。基於控制項(Ctrl ₁,Ctrl ₂,Ctrl ₃)可針對成本(Cost ₁,Cost ₂,Cost ₃)來量化矩陣元素(M_ii)。基於策略(Policy ₁,Policy ₂,Policy ₃)亦可針對操作目標(OpGoal ₁,OpGoal ₂,OpGoal ₃)來量化矩陣元素(M_ii)。矩陣可針對更多或更少的元素擴展(或縮小)。

用於區域中之目標溫度(Tzi)的控制實例(Ctrli)包括風扇速度、冷卻水溫度的溫度、及水流。用於成本(Cost _i)的控制實例(Ctrl _i) 包括跨伺服器的能量源、能量儲存、及負載分佈。用於操作目標(OpGoal _i)的策略實例(Policy _i)包括設備之配置、維護及停用，以及任務優先順序。

下列係因果分析實驗方法對資料中心控制及設計的益處。

健康監測及診斷：監測隨時間變化的因果元素M作為用於預防性維護的健康指標(即，因果效應M的變化可指示設備中的物理變化)。

控制決策最佳化：開立控制項之最佳組合以維持在最低成本下的安全局部溫度；判定用於資料中心之各區域的最佳溫度；針對不同控制項及用於能量組合最佳化的能量源，來監測成本基礎評估項(例如，在數天或數季或數年期間變動的能量成本)；針對更好的反應性及穩定性(例如，較少的溫度變動)，而使用矩陣元素的時間延遲來最佳化動作的時間順序；及至少部分基於伺服器或其他設備中的熱負載，來判定將網路流量導向何處。

尺寸化及安置最佳化：使用矩陣元素來評估各控制項或裝置的影響半徑，並識別系統中的間隙及/或冗餘；及使用矩陣元素，針對額外控制裝置或替代基礎設施組態，來評估對投資的邊際報酬。

因果分析實驗方法亦可如下應用於資料中心管理。

有效性監測及診斷：使用矩陣元素測量隨時間變化的策略有效性，並消除具有差勁效能及/或低節約的策略。

策略最佳化：如實例，開立最佳局部溫度控制策略(各區域中的目標溫度T _zi)，以最小化能量消耗(短期成本)及最大化設備壽命(長期成本)；最佳化順序及/或維護優先順序，以最小化操作中斷/風險；及針對各區域及針對資料中心之擴展來最佳化投資策略。

引導及測試新策略：使用矩陣稀疏性作為資源間隙及冗餘的指標，來引導未來投資策略；及持續設計及測試新操作及投資策略以作為消耗、資源、需求、及設備變化。

雖然上文所使用的矩陣表示係用於描述因果分析是如何與其他技術不同及如何傳出值的一形式，但是因果分析不需要控制項與效能度量(例如，溫度感測器)之間的因果關係為線性或遵循任何特定分佈。因果分析有效地運算控制變數之各位準的不同係數M。

本發明之實施例係如下應用於資料中心電力利用效率最佳化。首先，識別獨立控制變數(較佳的是所有變數)，以及外部變數。用於獨立控制變數的一般操作範圍係例如使用歷史感測器資料來識別。不同於其他技術，可在任何時間添加變數，例如添加新的控制變數以反映控制基礎設施中的變化，且可捨棄變數，(例如，移除經顯示為不具有簡化該模型之效應的外部變數。

表3至表5分別提供外部變數、獨立變數、及相依變數之實例。

對於各獨立的變數，實驗範圍係定義在操作者相信改變設定點對資料中心操作不具有不良影響的範圍內。此等範圍在時間上不一定係固定的，但可基於外部/環境因素而變化，例如天氣條件。在此情況下，藉由比較與實施在各相異搜尋空間內的實驗相關聯的結果來運算因果效應，以確保正向性(positivity)。變更各獨立變數之設定同時監測關鍵效能指標(Key Performance Indicators,KPIs)之效應來執行一系列實驗。隨著IVs與KPIs之間的因果關係被識別，演算法逐漸更頻繁地利用較佳的設定。最初，可修改IV與KPI之間關係的外部變數之變化將導致系統更頻繁地探索系統設定。然而，當在一個外部條件具有不同於第二外部條件之較佳IV設定之組的情況下識別叢集，系統會學習並針對正在發生的特定外部條件而根據前後情形來利用最佳設定。演算法可與獨立及封閉控制項之組合運作。例如，個別伺服器上的風扇速度可藉由彼伺服器之中央處理單元(central processing unit,CPU)溫度而直接控制。然而，將CPU溫度降低至所欲位準的有效性將取決於冷走道溫度，以及來自附近裝置的熱負載。

因果分析之應用不限於空氣冷卻資料中心。類似複雜控制迴圈可存在於浸入式冷卻槽與冷卻器中，以最小化流體損失，同時最大化冷卻效率。