TW202030617A - 基於因果學習之資料中心基礎設施最佳化方法 - Google Patents

基於因果學習之資料中心基礎設施最佳化方法 Download PDF

Info

Publication number
TW202030617A
TW202030617A TW108143174A TW108143174A TW202030617A TW 202030617 A TW202030617 A TW 202030617A TW 108143174 A TW108143174 A TW 108143174A TW 108143174 A TW108143174 A TW 108143174A TW 202030617 A TW202030617 A TW 202030617A
Authority
TW
Taiwan
Prior art keywords
data center
signals
signal injection
data
control items
Prior art date
Application number
TW108143174A
Other languages
English (en)
Inventor
吉列 強 巴提斯 畢諾
Original Assignee
美商3M新設資產公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商3M新設資產公司 filed Critical 美商3M新設資產公司
Publication of TW202030617A publication Critical patent/TW202030617A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • G05D23/1917Control of temperature characterised by the use of electric means using digital means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

一種用於主動資料中心管理的方法,其係藉由在資料中心之冷卻基礎設施之操作控制項中注入經隨機化受控信號,並接收對應於該等經注入信號的回應信號。經注入之信號係用於調整冷卻基礎設施之操作控制項,且回應信號係關於資料中心中的操作條件。基於回應信號連同獨立及外部變數,經隨機化信號持續地注入至冷卻基礎設施中並基於該等回應信號而微調。用於控制資料中心之冷卻基礎設施的最佳或改良參數係基於信號注入及對應的回應而判定。

Description

基於因果學習之資料中心基礎設施最佳化方法
資料中心在使用於冷卻伺服器及於其等中的其他電腦設備消耗大量的電力。隨著資料的需求增加,資料中心以具能源效率的方式來操作係重要的。一個度量為功率使用效率:用以運轉資料中心基礎設施之能量對用以向電腦設備(例如,伺服器及開關)供電的能量之比。非常最佳化之數據中心可具有低至1的年化電力利用效率;然而,1.3或更高的電力利用效率更為常見。其他度量包括收益、投資報酬率、延遲率、及客戶保留率。
隨網路負載及外部環境條件(諸如溫度、雲區、及能量成本)而根據前後情形來最佳化資料中心基礎設施冷卻系統處理程序控制項係一複雜的問題。已將先進的機器學習技術(諸如,卷積神經網路)應用至此問題,以發展可預料能源需求並更佳地管理能量用量的預測模型。已顯示的是,此類型的機器學習系統可能可達到將用於冷卻之能量量減少40百分比,其等同於在考慮電力損失及其他非冷卻的低效率後將整體電力利用效率製造費用減少15百分比。
然而,基於觀察資料的此類機器學習技術全部面臨一基本的取捨:其等越複雜,用於訓練模型所需的資料越多,通常係數年的操作資料。考慮到一般的電腦設備再新率係三年,此意謂機器學習模型在其準確性及精確性開始降級之前會有短期間的最佳化操作,且需要重新訓練以反映更新之電腦設備及基礎設施。取決於變化之量值,此可觸發已知為機器學習領域中的「災難性遺忘(catastrophic forgetting)」,其需要該模型以完全新的資料而重新開始。因此,存在著需要更具資料及時間效率的演算法,用於識別最佳資料中心控制設定,其中學習的速度及質量係與資料中心基礎設施的變化速度相稱的。
一種用於主動資料中心管理的第一方法包括在一資料中心之操作控制項中注入經隨機化受控信號,並確保該等信號注入發生在正常操作範圍及限制內。該方法亦包括回應於此等信號注入而監測該資料中心中之操作條件及操作結果,並基於操作條件而根據前後情形來運算關於該等信號注入與操作結果之間的因果關係之信賴區間。基於經運算之該等信賴區間及操作條件而針對該資料中心之該等操作控制項來選擇最佳信號。
一種用於主動資料中心管理之第二方法包括提供針對一資料中心之操作控制項提供信號注入,並接收對應於該等信號注入的回應信號。該方法亦包括測量該等回應信號的一效用,及存取關於控 制該資料中心之操作條件的資料。用於操作控制項之資料係基於該等回應信號之效用而修改。
10:伺服器室
11:冷水
12:冷卻塔
13:冷空氣
14:泵
15:冷空氣
16:冷卻器
17:熱空氣
18:泵
19:熱空氣
20:泵
21:熱水、熱水線
22:電腦室內空調器、空調器
23:處理器
24:電腦室內空調器、空調器
25:輸入
26:外部資料、輸入
27:資料儲存裝置
28:輸出
29:輸出
30:步驟
32:步驟
34:步驟
36:步驟
38:步驟
40:步驟
42:步驟
44:步驟
46:步驟
48:步驟
50:步驟
52:步驟
54:步驟
56:步驟
58:步驟
60:步驟
62:步驟
64:步驟
66:步驟
68:步驟
70:步驟
72:步驟
74:步驟
76:步驟
78:步驟
80:步驟
82:步驟
84:步驟
隨附圖式併入並構成本說明書之一部分,且與詳細說明一起釋明本發明之優勢與理論。在圖式中:
圖1A係繪示一資料中心之例示性冷卻基礎設施組件的圖式;
圖1B係繪示用於實施資料中心基礎設施最佳化方法之系統的圖式;
圖2係用於系統之搜尋空間方法的流程圖;
圖3係用於系統之信號注入方法的流程圖;
圖4係用於系統之持續學習方法的流程圖;及
圖5係用於系統之記憶體管理方法的流程圖。
本發明之實施例包括一種用於改良資料中心能量效率的方法,其係藉由對冷卻系統參數(諸如冷走道溫度設定點、運轉中冷卻系統的數目及時間點、及冷卻器溫度)實施隨機擾動實驗,以及推論對於效用度量(諸如電力利用效率、操作成本、及影響半徑)的其等因果效應。此主動實驗方法可導致比基於對資料中心或一般建築能量管理的觀察資料之被動機器學習技術更快、更健全的學習。
圖1A係繪示一資料中心之例示性冷卻基礎設施組件的圖式。一資料中心包括伺服器室10,該伺服器室具有數架伺服器、儲存裝置、電子開關設備、及可能的其他電腦設備。一般冷卻基礎設施 包括冷卻塔12,該冷卻塔提供冷水至冷卻器16,其透過泵18及20提供冷水11至電腦室內空調器22及24。空調器22及24提供新鮮的冷空氣13及15至伺服器室10中並通過該伺服器室,並從伺服器室10接收排出的熱空氣17及19。空調器22及24將熱水21提供返回至冷卻器16,其經由泵14將溫水循環返回至冷卻塔12。冷卻基礎設施亦可包括在熱水線21上的水側節熱器(waterside economizer)、及用於空調器22及24的空氣側節熱器(airside economizer)。冷卻基礎設施一般亦會包括風扇,以將空氣循環通過伺服器室10,圍繞並通過伺服器室10中之數架設備。冷卻基礎設施可針對資料中心中的額外伺服器而複製,或適應資料中心具有額外伺服器及電腦設備的擴建。
圖1B係繪示用於實施資料中心基礎設施最佳化方法之系統的圖式。該系統包括處理器23,該處理器電耦合至資料儲存裝置27。處理器23接收來自資料中心的輸入25。具體而言,處理器23會如根據圖1所述與資料中心的冷卻基礎設施組件耦合以提供信號傳輸,並與感測器耦合以接收用於監測資料中心之操作狀況的信號。此等信號可以電信號(有線或無線)或光學信號來傳輸。處理器23亦可接收外部資料26,諸如資料中心外部的環境溫度及天氣條件。輸入25及26可包括例如量化或關於表3至表5中所列出之變數的資訊。
處理器23可根據本文中所述之因果分析及方法來處理該等輸入並提供輸出28至資料中心操作控制項,以最佳化或改良資料中心效率或其他效用度量,諸如延遲率、收益、及客戶保留率。具體而言且基於該等方法,處理器23可提供信號以控制資料中心冷卻基礎 設施,例如泵、空調器、冷卻器、及風扇。處理器23可能可提供輸出29至用於資料中心能量效率的其他控制項。
該資料中心可選性地可針對冷卻基礎設施的最佳化而分割成數區域。該等區域之數目及屬性亦可為用於最佳化之實驗的一部分,且可隨時間動態改變。各區域可經識別為資料中心之一特定區(例如伺服器室10之一部分),且與用於該區域之輸入及控制項相關聯。舉例而言,該等輸入可係監測在對應區域中之操作條件的感測器,且該等控制項可係對應區中之冷卻基礎設施組件。該等區域可以單一架、或在伺服器室中的一架之一部分為一單位。表1提供用於儲存區域識別連同對應之輸入及控制項的例示性資料結構。
Figure 108143174-A0202-12-0005-1
圖2至圖5係用於資料中心基礎設施最佳化方法的流程圖。此等方法可實施在例如軟體模組中以供處理器23執行。
圖2係搜尋空間方法的流程圖。搜尋空間方法包括以下步驟:接收控制項資訊(包括成本)30;建構所有可能控制項狀態之多維度空間32;限制潛在控制項信號之空間34;在正常條件下判定正常/基線取樣分佈36,等效於歷史取樣分佈;判定最高效用取樣分佈 38;且在經限制空間內的自動化控制項選擇40。在搜尋空間方法開始時,操作決策會類似於歷史模式(「正常分佈」),直到獲得足夠的證據而利用更佳者。
圖3係信號注入方法的流程圖。信號注入方法包括以下步驟:接收潛在信號注入之組42;運算信號注入之空間及時間範圍44;於空間及時間中協調信號注入46;實施信號注入48;收集回應資料50;且使回應資料與信號注入相關聯52。
該等信號注入係針對資料中心冷卻基礎設施的控制參數之變化。對信號注入的回應一般係由來自信號注入的控制參數之變化所導致或相關於該等變化的資料中心效能。例如,演算法可改變或修改控制項及設定點,以獲得在資料中心基礎設施內之所欲溫度。信號注入的時間範圍及空間範圍分別係關於何時及何處測量針對用於運算因果關係之該等信號注入的回應信號。空間範圍可解釋為一特定控制項的影響半徑,而時間範圍可解釋為其時間回應(包括可能的延遲、變動及衰變)。信號注入的成本係關於實施特定信號之成本,包括固定成本(例如,操作成本)、可變成本(例如,能量成本)、及機會成本(例如,信號注入相對於其他信號如何影響資料中心基礎設施效能),且由特定實驗範圍所控制。信號注入之佇列涉及信號注入之順序及優先順序,且依賴於阻斷及隨機化以保證隨時的高內部有效性,即使是當利用推論的因果關係來最佳化效用時。對信號注入之回應效用涉及信號注入透過效用測量所量化的有效性,該等效用測量諸如電力利用效率(power utilization efficiency,PUE)、投資報酬率、收益、 延遲率、客戶保留率、及可能的其他因素。此等度量可進一步結合至單一多目標最佳化函數。
圖4係持續學習方法的流程圖;持續學習方法包括以下步驟:接收潛在信號注入之組54;接收目前信念狀態56;運算針對信號注入的學習值58;接收針對信號注入之成本60;選擇且協調信號注入62;實施信號注入64;收集回應資料66;且更新信念狀態68。
該潛在信號注入之組可基於外部及環境因素而隨時間變化,例如冷卻器溫度的安全搜尋空間可視外部溫度條件而定。該等信念狀態係回應於各種參數的資料中心冷卻基礎設施效能之一組不同的因果模型。此等信念狀態可具有附加的不確定值,該不確定值反映,在目前試驗之組及可能傾向於確認或否認此等不同模型的知識給定的情況下,其等正確的可能性,及可進一步確認或否認該等模型可被包括在此資料中、或從該特定模型及基本系統之物理的基礎特性導出之資訊。
學習值係導因於信號注入所產生的知識可提供至一系統之後續決策的值之測量,諸如判定用於冷卻基礎設施之一特定組件的一特定控制參數很可能是最佳的。學習值可透過例如預測下列者來運算:根據部分可觀察馬可夫決策過程(Partially Observable Markov Decision Process,POMDP)或其他統計模型之預測可能被否認的信念狀態之原始碼、信號注入對在此類模型中之信念狀態中之不確定位準的預測影響、或基於目前樣本大小之增加而運算不確定性降低及信賴區間之縮小的實驗分析。最初,因為模型缺乏建議最佳控制決策的精 確性,所以學習值高。當關於因果效應並因此關於控制決策之效用的信賴度隨著時間改良,邊際學習值降低,而實施及探索彼學習的機會成本增加。
圖5係記憶體管理方法的流程圖。記憶體管理方法包括以下步驟:接收歷史叢集之組70;接收歷史信號注入之組72;且運算目前叢集的信號注入之效應之時間穩定性74。若來自步驟74之信號注入之效應係穩定76,則記憶體管理方法執行以下步驟:接收歷史外部因素狀態之組78;運算信號注入之效應之穩定性對外部因素狀態80;若在外部因子狀態之二或更多個叢集上偵測到效應的變異,且在各叢集內可取得足夠的資料來運算關於此等效應的信賴區間,則選擇兩個狀態以將叢集分裂82並更新歷史叢集之組84。
一叢集係實驗單位的一群組,該等實驗單位相對於所測得之效應係在統計上相等、可互換的。實驗單位可係例如整個資料中心、資料中心之走道或其他部分或區域、或其他類似子集。在叢集內,效應係在無來自效應修正因子(effect modifier)(例如,在實驗控制之外的環境因數及外部變數)的偏差以及無導因於隨機分配的混淆變數的情況下而測量,因此確保所測得之效應代表因果關係,且不僅僅是相關性或關聯性。各叢集內所測得之效應的分佈近似正常分佈,從而允許運算關於其等真實平均的信賴區間。對於各控制設定點而言,信賴區間邊界的平均提供在一給定叢集內的其因果效應之預期值之無偏差評估。
表1提供用於自動產生及施加用於資料中心基礎設施最佳化之因果知識之一實施例的演算法。此演算法可實施在軟體或韌體中以供處理器23執行。
Figure 108143174-A0202-12-0009-2
本發明之實施例使用因果分析而非相關性。有兩個使因果(動作A與結果Y之間的關係)有別於相關性的因素:混淆因子(L)及效應修正因子(M)。在因果分析語言中,A=IV(獨立變數)、Y=DV(相依變數)、M=EV(外部變數),如下所示。
Figure 108143174-A0202-12-0009-3
用以消除混淆因子(L)的單一機制係動作選擇的隨機化,其係主動實驗方法之核心(諸如本說文中所述之因果學習)。觀察方法(諸如深度學習)無法識別、量化、及/或消除混淆因子。效應修正因子亦可由在大量之限制中的隨機化消除,但阻斷及分群對小樣 本中之因果推論係更有效率消除其等影響(減少偏差)的機制。深度學習嘗試藉由允許一演算法找到可代表效應修正因子之「特徵」(即,數個EV之組合)來實現相同的事,但在混淆因子的存在下找到此等特徵係相當困難以且因此係為何需要很多資料。此外,深度學習不適應於其中因果效應及效應修正因子可能隨著時間改變的非靜態系統、或者可能在歷史操作視窗外漂移的非靜態系統。相較之下,因果分析或學習可係本質上適配於非靜態或動態系統,因為其透過主動原位實驗持續改良其學習的準確性及精確性,且僅需最能代表系統目前狀態的有限小資料量來驅動最佳控制決策。
不同於其他依靠被動收集之歷史資料來訓練一模型並建立在訓練結束時傳出所有值的物理過程之「數位孿生(digital twin)」的機械學習技術,藉由利用具有正面期待之效用的效應只要有足夠的證據能傳出值,因果分析更快的傳出值。雖然權限效能可與該兩項技術相同,但隨時間由因果分析傳出的累積值大得多。此亦指,因果分析可配置在具有非常有限量歷史操作資料的新系統中。相反地,若已存在著數位孿生,則因果分析可藉由在數位孿生上實驗而初始化,且學習之準確性與精確性可接著由在原位上實驗而改善。此外,因為因果分析從未在100%時間內處於一純利用階段(pure exploit phase)並持續監測因果效應是否隨時間穩定,因此其較不會遭受「災難性遺忘(catastrophic forgetting)」。
不同於依靠控制回應矩陣之對角線元素(Mii)的一般閉迴路控制系統,因果分析技術允許在一複雜控制系統中之所有矩陣元素 (包括非對角交互元素)的精確量化。在此形式中,因果回應元素M係透過對至資料中心冷卻基礎設施中的隨機化信號注入之回應而判定,且非簡單數值係數,而是相當複雜的時間、空間、獨立變數(不同位準或設定點的不同元素)、及外部因素(不同叢集之不同元素)之非線性函數。彼等因果元素亦隨時間被監測,且接著用於精選或判定新信號注入。對於此等矩陣元素的預期值的信賴區間之量化進一步允許操作風險評估,且因此因應風險來調整控制決策的最佳化。
以下矩陣提供用於資料中心最佳化的矩陣元素之實例。基於控制項(Ctrl 1,Ctrl 2,Ctrl 3)可針對區域之目標溫度(T z1,T z2,T z3)來量化矩陣元素(Mii)。基於控制項(Ctrl 1,Ctrl 2,Ctrl 3)可針對成本(Cost 1,Cost 2,Cost 3)來量化矩陣元素(Mii)。基於策略(Policy 1,Policy 2,Policy 3)亦可針對操作目標(OpGoal 1,OpGoal 2,OpGoal 3)來量化矩陣元素(Mii)。矩陣可針對更多或更少的元素擴展(或縮小)。
Figure 108143174-A0202-12-0011-4
Figure 108143174-A0202-12-0011-5
Figure 108143174-A0202-12-0011-6
用於區域中之目標溫度(Tzi)的控制實例(Ctrli)包括風扇速度、冷卻水溫度的溫度、及水流。用於成本(Cost i)的控制實例(Ctrl i) 包括跨伺服器的能量源、能量儲存、及負載分佈。用於操作目標(OpGoal i)的策略實例(Policy i)包括設備之配置、維護及停用,以及任務優先順序。
下列係因果分析實驗方法對資料中心控制及設計的益處。
健康監測及診斷:監測隨時間變化的因果元素M作為用於預防性維護的健康指標(即,因果效應M的變化可指示設備中的物理變化)。
控制決策最佳化:開立控制項之最佳組合以維持在最低成本下的安全局部溫度;判定用於資料中心之各區域的最佳溫度;針對不同控制項及用於能量組合最佳化的能量源,來監測成本基礎評估項(例如,在數天或數季或數年期間變動的能量成本);針對更好的反應性及穩定性(例如,較少的溫度變動),而使用矩陣元素的時間延遲來最佳化動作的時間順序;及至少部分基於伺服器或其他設備中的熱負載,來判定將網路流量導向何處。
尺寸化及安置最佳化:使用矩陣元素來評估各控制項或裝置的影響半徑,並識別系統中的間隙及/或冗餘;及使用矩陣元素,針對額外控制裝置或替代基礎設施組態,來評估對投資的邊際報酬。
因果分析實驗方法亦可如下應用於資料中心管理。
有效性監測及診斷:使用矩陣元素測量隨時間變化的策略有效性,並消除具有差勁效能及/或低節約的策略。
策略最佳化:如實例,開立最佳局部溫度控制策略(各區域中的目標溫度T zi),以最小化能量消耗(短期成本)及最大化設備壽命(長期成本);最佳化順序及/或維護優先順序,以最小化操作中斷/風險;及針對各區域及針對資料中心之擴展來最佳化投資策略。
引導及測試新策略:使用矩陣稀疏性作為資源間隙及冗餘的指標,來引導未來投資策略;及持續設計及測試新操作及投資策略以作為消耗、資源、需求、及設備變化。
雖然上文所使用的矩陣表示係用於描述因果分析是如何與其他技術不同及如何傳出值的一形式,但是因果分析不需要控制項與效能度量(例如,溫度感測器)之間的因果關係為線性或遵循任何特定分佈。因果分析有效地運算控制變數之各位準的不同係數M。
本發明之實施例係如下應用於資料中心電力利用效率最佳化。首先,識別獨立控制變數(較佳的是所有變數),以及外部變數。用於獨立控制變數的一般操作範圍係例如使用歷史感測器資料來識別。不同於其他技術,可在任何時間添加變數,例如添加新的控制變數以反映控制基礎設施中的變化,且可捨棄變數,(例如,移除經顯示為不具有簡化該模型之效應的外部變數。
表3至表5分別提供外部變數、獨立變數、及相依變數之實例。
Figure 108143174-A0202-12-0014-7
Figure 108143174-A0202-12-0014-8
Figure 108143174-A0202-12-0014-9
對於各獨立的變數,實驗範圍係定義在操作者相信改變設定點對資料中心操作不具有不良影響的範圍內。此等範圍在時間上不一定係固定的,但可基於外部/環境因素而變化,例如天氣條件。在 此情況下,藉由比較與實施在各相異搜尋空間內的實驗相關聯的結果來運算因果效應,以確保正向性(positivity)。變更各獨立變數之設定同時監測關鍵效能指標(Key Performance Indicators,KPIs)之效應來執行一系列實驗。隨著IVs與KPIs之間的因果關係被識別,演算法逐漸更頻繁地利用較佳的設定。最初,可修改IV與KPI之間關係的外部變數之變化將導致系統更頻繁地探索系統設定。然而,當在一個外部條件具有不同於第二外部條件之較佳IV設定之組的情況下識別叢集,系統會學習並針對正在發生的特定外部條件而根據前後情形來利用最佳設定。演算法可與獨立及封閉控制項之組合運作。例如,個別伺服器上的風扇速度可藉由彼伺服器之中央處理單元(central processing unit,CPU)溫度而直接控制。然而,將CPU溫度降低至所欲位準的有效性將取決於冷走道溫度,以及來自附近裝置的熱負載。
因果分析之應用不限於空氣冷卻資料中心。類似複雜控制迴圈可存在於浸入式冷卻槽與冷卻器中,以最小化流體損失,同時最大化冷卻效率。
23:處理器
25:輸入
26:外部資料、輸入
27:資料儲存裝置
28:輸出
29:輸出

Claims (20)

  1. 一種用於主動資料中心管理的方法,其包含以下步驟:
    注入經隨機化受控信號至一資料中心之操作控制項中;
    確保該等信號注入發生在正常操作範圍及限制內;
    回應於該等受控信號而監測該資料中心中之操作條件的效能;
    運算關於該等操作條件與該等受控信號之間的因果關係之信賴區間;及
    基於經運算之該等信賴區間而選擇用於該資料中心之該等操作控制項的最佳信號。
  2. 如請求項1之方法,其中該注入步驟包含注入該等受控信號以調整用於該資料中心之冷卻基礎設施之參數。
  3. 如請求項1之方法,其中該等操作條件包含該資料中心中之一溫度。
  4. 如請求項1之方法,其中該注入步驟包含注入該等受控信號至該資料中心之特定區域中。
  5. 如請求項1之方法,其中該等正常操作範圍包含基於控制項資訊及操作限制所產生的可能控制項狀態之一多維度空間。
  6. 如請求項1之方法,其中該選擇步驟進一步包含基於外部資料而選擇該等最佳信號。
  7. 如請求項1之方法,其中該注入步驟進一步包含阻斷及平衡跨外部可變狀態的該等經隨機化受控信號,並基於所測量之效應之空間及時間範圍來最小化遺留效應(carry over effect)。
  8. 如請求項1之方法,其進一步包含在空間及時間上監測該效能。
  9. 如請求項1之方法,其中該運算步驟進一步包含運算在叢集內的該等信賴區間以消除效應修正因子。
  10. 如請求項1之方法,其中該選擇步驟進一步包含藉由機率匹配來選擇該等最佳信號,在該機率匹配中,該等信號的一分配頻率係由該信賴區間及該信賴區間與其他信賴區間之重疊的一平均來判定。
  11. 如請求項1之方法,其中該等信號注入具有一空間範圍。
  12. 如請求項1之方法,其中該等信號注入具有一時間範圍。
  13. 一種用於主動資料中心管理的方法,其包含以下步驟:
    針對一資料中心之冷卻基礎設施之操作控制項,提供信號注入;
    接收對應於該資料中心中之該等信號注入及操作條件之回應信號;
    測量該等回應信號之一效用;
    存取關於用於該資料中心之該冷卻基礎設施之該等操作控制項的參數之資料;及
    基於該等回應信號之該效用而修改用於該等操作控制項的該資料。
  14. 如請求項13之方法,其中該提供步驟包含調整用於該資料中心之該冷卻基礎設施之參數。
  15. 如請求項13之方法,其中該接收步驟包含接收該資料中心中的一溫度。
  16. 如請求項13之方法,其中該提供步驟包含提供該等信號注入至 該資料中心之特定區域中。
  17. 如請求項13之方法,其中該等信號注入具有一空間範圍。
  18. 如請求項13之方法,其中該等信號注入具有一時間範圍。
  19. 如請求項13之方法,其中該修改步驟進一步包含基於外部資料而修改用於該等操作控制項之該資料。
  20. 如請求項13之方法,其中該等信號注入係經隨機化。
TW108143174A 2018-11-28 2019-11-27 基於因果學習之資料中心基礎設施最佳化方法 TW202030617A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862772131P 2018-11-28 2018-11-28
US62/772,131 2018-11-28

Publications (1)

Publication Number Publication Date
TW202030617A true TW202030617A (zh) 2020-08-16

Family

ID=70851933

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108143174A TW202030617A (zh) 2018-11-28 2019-11-27 基於因果學習之資料中心基礎設施最佳化方法

Country Status (5)

Country Link
US (1) US20220004475A1 (zh)
EP (1) EP3887922A4 (zh)
CN (2) CN113039506B (zh)
TW (1) TW202030617A (zh)
WO (1) WO2020109937A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190326A1 (en) 2019-03-15 2020-09-24 3M Innovative Properties Company Determining causal models for controlling environments
US11751360B2 (en) * 2020-03-17 2023-09-05 International Business Machines Corporation Intelligently deployed cooling fins
US11895808B2 (en) * 2020-05-27 2024-02-06 Nvidia Corporation Intelligent refrigeration-assisted data center liquid cooling
US11997830B2 (en) * 2020-10-29 2024-05-28 Nvidia Corporation Intelligent radiator-assisted power and coolant distribution unit for datacenter cooling systems
US20220264764A1 (en) * 2021-02-18 2022-08-18 Nvidia Corporation Intelligent fan wall-cooled overhead liquid-to-air heat exchanger for datacenter cooling systems
US20230106101A1 (en) * 2021-10-02 2023-04-06 Innogrit Technologies Co., Ltd. Adaptive thermal calibration for throttling prevention
CN115696871B (zh) * 2022-11-04 2023-06-13 中国电子工程设计院有限公司 一种基于机器学习的数据中心水冷系统调控方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419917B (en) * 1998-03-30 2001-01-21 Toshiba Corp Communication network system
US8621881B2 (en) * 2005-09-14 2014-01-07 Arzel Zoning Technology, Inc. System and method for heat pump oriented zone control
US20090179080A1 (en) * 2008-01-10 2009-07-16 Glacier Bay, Inc. HVAC system
US8224519B2 (en) * 2009-07-24 2012-07-17 Harley-Davidson Motor Company Group, LLC Vehicle calibration using data collected during normal operating conditions
US20130173062A1 (en) * 2009-12-08 2013-07-04 Pamela Koenig-Richardson Smart building unified managed solutions
US8386086B2 (en) * 2010-04-26 2013-02-26 Accenture Global Services Limited Methods and systems for analyzing energy usage
US8560291B2 (en) * 2010-06-22 2013-10-15 International Business Machines Corporation Data center physical infrastructure threshold analysis
CN102004671B (zh) * 2010-11-15 2013-03-13 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法
US8949091B2 (en) * 2011-03-09 2015-02-03 Tata Consultancy Services Limited Method and system for thermal management by quantitative determination of cooling characteristics of data center
US10417575B2 (en) * 2012-12-14 2019-09-17 Microsoft Technology Licensing, Llc Resource allocation for machine learning
US10678279B2 (en) * 2012-08-01 2020-06-09 Tendril Oe, Llc Optimization of energy use through model-based simulations
US10101048B2 (en) * 2013-03-15 2018-10-16 Honeywell International Inc. Supervisory controller for HVAC systems
CN103346572B (zh) * 2013-07-29 2015-03-25 国家电网公司 基于灵敏度和多Agent的电网无功智能控制方法
WO2015134655A2 (en) * 2014-03-05 2015-09-11 Adeptdc Co. Systems and methods for intelligent controls for optimal resource allocation for data center operations
US10175681B2 (en) * 2014-05-01 2019-01-08 Johnson Controls Technology Company High level central plant optimization
US10074977B2 (en) * 2014-07-17 2018-09-11 3M Innovative Properties Company Systems and methods for coordinating signal injections to understand and maintain orthogonality among signal injections patterns in utility grids
WO2016076946A2 (en) * 2014-11-12 2016-05-19 Carrier Corporation Automated functional tests for diagnostics and control
US20160131382A1 (en) * 2014-11-12 2016-05-12 Howard Rosen Method and apparatus of networked thermostats providing for reduced peak power demand
US10180261B1 (en) * 2015-12-28 2019-01-15 Amazon Technologies, Inc. Model based cooling control system
US10235443B2 (en) * 2016-03-01 2019-03-19 Accenture Global Solutions Limited Parameter set determination for clustering of datasets
US11216048B1 (en) * 2016-03-16 2022-01-04 ZT Group Int'l, Inc. System and method for controlling computer cooling using ideal cooling system settings, actual cooling system settings, and computer component data
US10038322B2 (en) * 2016-06-21 2018-07-31 General Electric Company Systems and methods for controlling performance parameters of an energy storage device
US10339471B2 (en) * 2017-01-17 2019-07-02 International Business Machines Corporation Ensemble based labeling
CN107126193B (zh) * 2017-04-20 2020-02-28 杭州电子科技大学 基于滞后阶数自适应选择的多变量因果关系分析方法
US10997052B2 (en) * 2017-05-01 2021-05-04 Dell Products L.P. Methods to associate workloads to optimal system settings based upon statistical models
DE102017116955B3 (de) * 2017-07-26 2018-11-15 Schlemmer Holding GmbH Verfahren und Vorrichtung zur Fertigungskontrolle eines extrudierten Kunststoffprodukts sowie Extrusionsanlage zum Extrudieren eines derartigen Kunststoffprodukts
FR3073602B1 (fr) * 2017-11-10 2019-11-22 Gaztransport Et Technigaz Methode de determination d'une valeur optimale d'au moins un parametre de mise en oeuvre d'un procede de mise en froid d'une cuve etanche et themiquement isolante
US10820452B2 (en) * 2018-07-05 2020-10-27 Baidu Usa Llc Control and optimization of indirect evaporative cooling units for data center cooling
US20200065712A1 (en) * 2018-08-23 2020-02-27 Microsoft Technology Licensing, Llc Efficient configuration selection for automated machine learning

Also Published As

Publication number Publication date
CN116991215A (zh) 2023-11-03
EP3887922A1 (en) 2021-10-06
CN113039506A (zh) 2021-06-25
WO2020109937A1 (en) 2020-06-04
EP3887922A4 (en) 2022-08-17
US20220004475A1 (en) 2022-01-06
CN113039506B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
TW202030617A (zh) 基於因果學習之資料中心基礎設施最佳化方法
WO2021063033A1 (zh) 空调能耗模型训练方法与空调系统控制方法
US20200301408A1 (en) Model predictive maintenance system with degradation impact model
US10101048B2 (en) Supervisory controller for HVAC systems
US20200356087A1 (en) Model predictive maintenance system with event or condition based performance
US9996092B2 (en) Determining a time for corrective action in a data center
Brown et al. Kernel regression for real-time building energy analysis
Sun et al. Event-based optimization within the Lagrangian relaxation framework for energy savings in HVAC systems
US20160061469A1 (en) Building power management systems
US11514358B2 (en) Automatic control artificial intelligence device and method for updating a control function
Wang et al. Event-driven optimal control of central air-conditioning systems: Event-space establishment
WO2021026370A1 (en) Model predictive maintenance system with degradation impact model
Vu et al. Data driven chiller plant energy optimization with domain knowledge
CN116048235B (zh) 基于双向gru和曼-肯德尔法的温感未来趋势检测方法
Gao et al. Comparative study of model-based and model-free reinforcement learning control performance in HVAC systems
JP2023532492A (ja) 空調制御方法及び装置、電気機器、媒体
MirhoseiniNejad et al. ALTM: Adaptive learning-based thermal model for temperature predictions in data centers
CN114326987B (zh) 制冷系统控制及模型训练方法、装置、设备及存储介质
Zhang et al. A two-layer optimal scheduling framework for energy savings in a data center for Cyber–Physical–Social Systems
CN113821903B (zh) 温度控制方法和设备、模块化数据中心及存储介质
CN114970358A (zh) 一种基于强化学习的数据中心能效优化方法和系统
Lee et al. On-policy learning-based deep reinforcement learning assessment for building control efficiency and stability
Biemann et al. Data centre HVAC control harnessing flexibility potential via real-time pricing cost optimisation using reinforcement learning
Orouskhani et al. Fuzzy adaptive cat swarm algorithm and Borda method for solving dynamic multi‐objective problems
CN115066658B (zh) 用于高级模型预测控制的深度因果学习