TWI756933B - 伺服器的PCIe晶片的溫度預測系統及方法 - Google Patents

伺服器的PCIe晶片的溫度預測系統及方法 Download PDF

Info

Publication number
TWI756933B
TWI756933B TW109140917A TW109140917A TWI756933B TW I756933 B TWI756933 B TW I756933B TW 109140917 A TW109140917 A TW 109140917A TW 109140917 A TW109140917 A TW 109140917A TW I756933 B TWI756933 B TW I756933B
Authority
TW
Taiwan
Prior art keywords
temperature
pcie
server
chip
speed
Prior art date
Application number
TW109140917A
Other languages
English (en)
Other versions
TW202222121A (zh
Inventor
李建明
童凱煬
Original Assignee
英業達股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英業達股份有限公司 filed Critical 英業達股份有限公司
Priority to TW109140917A priority Critical patent/TWI756933B/zh
Application granted granted Critical
Publication of TWI756933B publication Critical patent/TWI756933B/zh
Publication of TW202222121A publication Critical patent/TW202222121A/zh

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一種伺服器的PCIe晶片的溫度預測方法,包含使用循環神經網路的門控循環單元定義用於PCIe晶片的溫度預測模型包含輸入端及輸出端,根據複數個控制變數之間彼此的響應變化收集該溫度預測模型的訓練數據,在該輸入端使用該訓練數據訓練該溫度預測模型,用以從該輸出端獲得接近該PCIe晶片的量測溫度的訓練結果,評估該訓練結果以獲得最能反應該PCIe晶片溫度變化的複數個特徵,對該訓練結果進行誤差分析以從該複數個特徵中獲得一組關鍵特徵,根據該關鍵特徵與該溫度預測模型形成溫度預測器,以及通過該溫度預測器產生該PCIe晶片的預測溫度。

Description

伺服器的PCIe晶片的溫度預測系統及方法
本發明係關於一種伺服器溫度預測的方法,尤指一種使用神經網路模型來預測伺服器溫度的方法。
伺服器散熱的能力直接影響伺服器性能的優劣與穩定性,因此伺服器搭載著管理伺服器操作環境的管理晶片(baseboard management controller,BMC),包含電源、電壓、溫度、風扇轉速等資訊都由BMC負責處理。BMC在讀取各元件溫度後,會根據各種不同的條件下控制伺服器的風扇轉速,使其可以及時散熱。
伺服器內部多數元件,如中央處理器(CPU)、記憶體(DIMM)等,可以回傳本身的溫度給管理晶片。但許多高速的序列電腦匯流排PCIe(PCI express)卡本身的晶片無法回傳溫度。PCIe卡製造廠商僅規範卡的入口溫度作為伺服器設計製造時的散熱依據。因此,伺服器散熱工程師通常在PCIe卡前方置放環境溫度感測器以偵測PCIe卡的入口溫度。然後根據此入口環境溫度調控風扇轉速。然而,單純依據入口溫度為PCIe卡上晶片散熱,在設計風扇控制時將產生兩個主要的問題。第一,以PID(Proportional-Integral-Derivative)控制器為例,如果以PID控制器作為PCIe卡入口溫度的轉速調控,那溫度控制的設定值必須得比PCIe卡的入口溫度還要低許多。即使PID回授控制可以將入口溫度控制在設定值,若風扇處於低轉 速狀態,就會造成PCIe卡的入口風量不足而使得卡上的晶片溫度過熱,伺服器也常因PCIe卡的晶片過熱造成系統當機。因此實務上PCIe卡的轉速皆採取較保守的高轉速策略以確保其散熱要求。第二,PCIe卡通常位於伺服器風扇散熱系統的下游處,在讀取入口溫度進行風扇控制時,因感測器本身處於下游位置,依據感測結果控制風扇轉速會有時間延遲,因此需花較多時間調整控制器參數來達成較好的控制結果。
為防止卡上晶片過熱,散熱工程師在設計階段時,通常會在PCIe卡晶片接上熱電耦(thermocouple)感測器,以此熱電耦監測晶片溫度,經過反覆的修改控制參數及驗證,確認晶片溫度的安全性。通常在最嚴苛的條件下(worse case),PCIe卡的入口溫度會設定在40℃或更低。如此一來,為符合PCIe卡入口溫度的要求,系統風扇經常處於高轉速而浪費過多的能源。
綜合上述問題,保守的伺服器PCIe卡晶片的溫度控制,經常讓風扇處於較高轉速以防止PCIe卡過熱。而主要的原因皆因PCIe卡上的晶片無法回傳溫度。因此,本提案提出可預測PCIe卡上晶片溫度的方法與系統設計,如此一來直接針對其晶片的溫度設計控制器,以解決PCIe卡上晶片無法回傳溫度值的問題。且溫度預測系統不單是得到當下的晶片溫度,更可以預測其未來溫度趨勢的變化,如此可以解決風扇轉速反應時的時間延遲問題。
實施例提供一種伺服器的PCIe晶片的溫度預測方法,包含使用循環神經網路的門控循環單元定義用於PCIe晶片的溫度預測模型,該溫度預測模型包含輸入端及輸出端,根據複數個控制變數之間彼此的響應變化收集該溫度預測 模型的訓練數據,在該輸入端使用該訓練數據訓練該溫度預測模型,用以從該輸出端獲得接近該PCIe晶片的量測溫度的訓練結果,評估該訓練結果以獲得最能反應該PCIe晶片溫度變化的複數個特徵,對該訓練結果進行誤差分析以從該複數個特徵中獲得一組關鍵特徵,根據該關鍵特徵與該溫度預測模型形成溫度預測器,以及通過該溫度預測器產生該PCIe晶片的預測溫度。
實施例提供一種伺服器的PCIe晶片的溫度預測系統包含伺服器,溫度預測器及基板管理控制器。伺服器包含PCIe晶片與伺服器風扇。溫度預測器包含由循環神經網路的門控循環單元定義用於該伺服器的該PCIe晶片的溫度預測模型,及最能反應該PCIe晶片溫度變化的組關鍵特徵。基板管理控制器用以控制該溫度預測模型根據該組關鍵特徵產生該PCIe晶片的預測溫度,並根據該預測溫度控制該伺服器風扇的轉速。
100:伺服器溫度預測裝置
200:溫度預測模型
2:中央處理器
4:記憶體
6:硬碟模組
8:風扇模組
10:電源供應器
12:PCIe卡
20:基板管理控制器
30:伺服器
Tamb:進氣溫度
TCPU:中央處理器溫度
Tin:PCIe卡入口溫度
TPCIE:PCIe卡晶片溫度
P:PCIe卡晶片功率
U:風扇轉速
第1圖為本發明實施例中伺服器的PCIe晶片的溫度預測系統的示意圖。
第2圖為本發明實施例中溫度預測模型的示意圖。
第3圖為第1圖之伺服器的PCIe晶片的溫度預測系統的另一示意圖。
第4圖為第2圖之溫度預測模型的訓練示意圖。
第5圖為第2圖之溫度預測模型的預測示意圖。
第1圖為本發明實施例中伺服器的PCIe晶片的溫度預測系統100的示意圖。伺服器的PCIe晶片的溫度預測系統100包含伺服器30及基板管理控制器 (baseboard management controller)20。伺服器30包含中央處理器2、記憶體4、硬碟模組6、風扇模組8、電源供應器10、PCIe卡12。基板管理控制器20用以控制溫度預測模型根據關鍵特徵產生PCIe卡12的晶片的預測溫度,並根據預測溫度控制伺服器風扇的轉速。
伺服器的PCIe晶片的溫度預測系統100還包含溫度預測器。溫度預測器包含由循環神經網路的門控循環單元定義用於伺服器的PCIe卡12晶片的溫度預測模型,及最能反應PCIe卡12晶片溫度變化的一組關鍵特徵。溫度預測模型及一組關鍵特徵可儲存於記憶體中,且由處理器執行。記憶體及處理器可為任何形式。
請參照第2圖及第3圖。第2圖為本發明實施例中溫度預測模型200的示意圖。第3圖為本發明實施例中伺服器的PCIe晶片的溫度預測系統100的另一示意圖。本實施例使用循環神經網路(recurrent neural network,RNN)中的門控循環單元(gated recurrent unit,GRU)作為溫度預測模型200的架構。循環神經網路因具有對過去歷史數據記憶的功能,利用此深度學習架構,能有效的從歷史數據中預測未來的趨勢。溫度預測模型200的目標是由已知的輸入端的訓練數據x1,x2....推論輸出數據y(k),y(k+1),y(k+2)...。k為取樣點,取樣週期1秒,但不以此為限。訓練數據的選擇對預測系統準確度有絕對的影響。實施例選擇了以下的訓練數據:伺服器30的進氣溫度Tamb、風扇模組8的風扇轉速、中央處理器2的溫度TCPU、PCIe卡12的功率P及PCIe卡12的入口溫度Tin。另外,溫度預測模型的輸出數據為PCIe卡12的晶片溫度TPCIE。訓練數據的產生、數據的儲存與處理、模型的訓練與評估可透過程式以自動化的方式實現。
Figure 109140917-A0305-02-0008-2
參考第1表中的控制變數,其中控制範圍調變僅為示意,並非用於限制本發明。控制變數可用以產生預測模型的輸入數據。PCIe卡12的晶片功率P有開啟(ON)跟關閉(OFF)兩種狀態,風扇轉速U的控制訊號為脈衝調變寬度訊號(Pulse-width modulation,PWM)包含30%轉速、40%轉速、50%轉速、60%轉速、70%轉速、80%轉速、90%轉速、100%轉速八種狀態。中央處理器2的使用率包含閒置狀態(Idle)、25%使用率、50%使用率、75%使用率及100%使用率五種狀態,其是主要影響下游PCIe卡12的發熱源。在實施例中,可藉由程式操控風扇轉速、PCIe卡12的晶片功率P及中央處理器2的使用率,並偵測伺服器進氣溫度Tamb,中央處理器2的溫度TCPU及PCIe卡12的晶片溫度TPCIE的變化,來訓練溫度預測模型200。在伺服器30的設計階段可以預先使用熱電耦感測器來感測PCIe卡12的晶片,藉此可以得到晶片的溫度。待訓練完成後,實際的PCIe卡12上的晶片並沒有熱電耦感測器,但可以藉由實施例中的溫度預測模型200預測晶片溫度TPCIE的變化。
Figure 109140917-A0305-02-0008-3
Figure 109140917-A0305-02-0009-4
第2表為各種不同輸入特徵下,訓練後的結果的誤差分析,其中誤差資料是根據本發明實驗結果的示意,並非用於限制本發明。其中o代表使用該特徵,x代表不使用該特徵。而PCIe卡的晶片功率P和風扇轉速U皆為關鍵特徵。從均方根誤差(RMSE)分析來看,加入中央處理器的溫度TCPU、PCIe卡的入口溫度Tin、PCIe卡晶片功率P及風扇轉速U可產生相對小的誤差範圍(第4組輸入特徵)。因此,實施例選擇PCIe卡晶片功率P、風扇轉速U、中央處理器的溫度TCPU、PCIe卡的入口溫度Tin為此溫度預測器的關鍵特徵。然而,本發明不限於此,在另一實施例中,關鍵特徵可為第2表之特徵的任意組合。
第4圖為本發明實施例中溫度預測模型200的訓練示意圖。在實施例中,中央處理器為閒置狀態,並且使用第1表的控制變數來訓練溫度預測模型200。當PCIe卡12的晶片為開啟(ON)狀態時,PCIe卡12的晶片功率為100%,晶片溫度TPCIE上升。當PCIe卡12的晶片為關閉(OFF)狀態時,PCIe卡12的晶片功率為0%,晶片溫度TPCIE則下降。中央處理器的溫度TCPU,則因受到PCIe卡12的晶片的開關而變化。訓練時的風扇轉速U則有80%及70%兩種模式。本實施例中的控制 變數以及其他參數產生的訓練數據可用來訓練溫度預測模型200,使模型的輸出數據,也就是晶片溫度TPCIE,能接近量測溫度。
第5圖為本發明實施例中溫度預測器的預測示意圖。溫度預測器由關鍵特徵溫度預測模型200形成。由圖可見,當風扇模組8的風扇轉速由40%逐步提高至80%,中央處理器溫度TCPU及伺服器進氣溫度Tamb皆變化不大,然而PCIe卡12的晶片溫度TPCIE在PCIe卡12的晶片開啟(ON)狀態下,會隨著風扇轉速的提高而下降。而且,PCIe卡12的晶片溫度TPCIE的實際值與預測值相當接近,證明溫度預測器可實際預測PCIe卡12的晶片溫度TPCIE
綜上所述,實施例揭露一種伺服器的PCIe晶片的溫度預測系統及方法,包含定義伺服器的PCIe晶片的溫度預測模型的訓練數據及輸出數據,使用訓練數據以訓練並測試溫度預測模型,調整溫度預測模型使溫度預測模型的輸出數據接近測量值,及使用溫度預測模型與關鍵特徵形成的溫度預測器來預測伺服器PCIe卡晶片的溫度。如此便可預測伺服器PCIe卡晶片的溫度趨勢變化,並解決風扇轉速反應的時間延遲問題。
在本發明的一實施例中,本發明之伺服器的PCIe晶片的溫度預測系統及方法係可應用於伺服器,該伺服器係可用於人工智慧(Artificial Intelligence,簡稱AI)運算、邊緣運算(edge computing),亦可當作5G伺服器、雲端伺服器或車聯網伺服器使用。以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
100:伺服器的PCIe晶片的溫度預測系統
2:中央處理器
4:記憶體
6:硬碟模組
8:風扇模組
10:電源供應器
12:PCIe卡
20:基板管理控制器
30:伺服器

Claims (9)

  1. 一種伺服器的PCIe晶片的溫度預測方法,包含:使用循環神經網路的門控循環單元(gated recurrent unit,GRU)定義用於一PCIe晶片的一溫度預測模型,該溫度預測模型包含一輸入端及一輸出端;根據複數個控制變數之間彼此的響應變化收集該溫度預測模型的一訓練數據;在該輸入端使用該訓練數據訓練該溫度預測模型,用以從該輸出端獲得接近該PCIe晶片的一量測溫度的一訓練結果,評估該訓練結果以獲得最能反應該PCIe晶片溫度變化的複數個特徵;對該訓練結果進行一誤差分析以從該複數個特徵中獲得一組關鍵特徵;根據該關鍵特徵與該溫度預測模型形成一溫度預測器;以及通過該溫度預測器產生該PCIe晶片的一預測溫度。
  2. 如請求項1所述之伺服器的PCIe晶片的溫度預測方法,其中該控制變數包含:一PCIe卡的功率,包含開跟關兩種狀態;一處理器的使用率,包含閒置狀態、25%使用率、50%使用率、75%使用率及100%使用率五種狀態;一伺服器風扇的轉速,包含30%轉速、40%轉速、50%轉速、60%轉速、70%轉速、80%轉速、90%轉速、100%轉速八種狀態;以及一伺服器的進氣溫度,包含18℃到25℃。
  3. 如請求項2所述之伺服器的PCIe晶片的溫度預測方法,其中該訓練數據包含該處理器的使用率、該伺服器風扇的轉速、該PCIe卡的功率及該 PCIe晶片的量測溫度。
  4. 如請求項3所述之伺服器的PCIe晶片的溫度預測方法,其中該量測溫度係從該PCIe晶片上所設置的一熱電耦所取得。
  5. 如請求項3所述之伺服器的PCIe晶片的溫度預測方法,其中該複數個特徵係包含一PCIe卡的功率、一伺服器風扇的轉速、一伺服器的進氣溫度、一處理器的溫度、或一PCIe卡的入口溫度中的任意組合;以及該組關鍵特徵係包含該PCIe卡的功率、該伺服器風扇的轉速、該處理器的溫度、及該PCIe卡的入口溫度。
  6. 如請求項1所述之伺服器的PCIe晶片的溫度預測方法,其中該誤差分析係為一均方根誤差分析。
  7. 如請求項1所述之伺服器的PCIe晶片的溫度預測方法,其中更包含根據該PCIe晶片的該預測溫度控制一伺服器風扇的轉速。
  8. 一種伺服器的PCIe晶片的溫度預測系統,包含:一伺服器,包含一PCIe晶片與一伺服器風扇;一溫度預測器,包含:由循環神經網路的門控循環單元定義用於該伺服器的該PCIe晶片的一溫度預測模型;及最能反應該PCIe晶片溫度變化的一組關鍵特徵;以及一基板管理控制器,用以控制該溫度預測模型根據該組關鍵特徵產生該PCIe 晶片的一預測溫度,並根據該預測溫度控制該伺服器風扇的轉速。
  9. 如請求項8所述之伺服器的PCIe晶片的溫度預測系統,其中該組關鍵特徵係包含該PCIe卡的功率、該伺服器風扇的轉速、處理器的溫度、及該PCIe卡的入口溫度。
TW109140917A 2020-11-23 2020-11-23 伺服器的PCIe晶片的溫度預測系統及方法 TWI756933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109140917A TWI756933B (zh) 2020-11-23 2020-11-23 伺服器的PCIe晶片的溫度預測系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109140917A TWI756933B (zh) 2020-11-23 2020-11-23 伺服器的PCIe晶片的溫度預測系統及方法

Publications (2)

Publication Number Publication Date
TWI756933B true TWI756933B (zh) 2022-03-01
TW202222121A TW202222121A (zh) 2022-06-01

Family

ID=81710920

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109140917A TWI756933B (zh) 2020-11-23 2020-11-23 伺服器的PCIe晶片的溫度預測系統及方法

Country Status (1)

Country Link
TW (1) TWI756933B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010028509A (ko) * 1999-09-21 2001-04-06 윤종용 반도체 칩을 냉각시키기 위한 장치
CN101566965A (zh) * 2008-04-22 2009-10-28 鸿富锦精密工业(深圳)有限公司 风扇转速控制方法
CN103246331A (zh) * 2012-02-10 2013-08-14 鸿富锦精密工业(深圳)有限公司 服务器温度控制系统
TW201527961A (zh) * 2014-01-03 2015-07-16 Univ Nat Central 偵測中央處理器散熱器狀態之系統及方法
US10133323B2 (en) * 2013-03-14 2018-11-20 Arizona Board Of Regents For And On Behalf Of Arizona State University Processor control system
CN110009037A (zh) * 2019-04-03 2019-07-12 中南大学 一种基于物理信息耦合的工程风速短时预测方法及系统
CN110018722A (zh) * 2018-11-06 2019-07-16 联想企业解决方案(新加坡)有限公司 用于热控制的机器学习装置、系统和方法
TWI704859B (zh) * 2019-08-21 2020-09-11 宏碁股份有限公司 智慧風扇轉速調整方法、電腦裝置及伺服器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010028509A (ko) * 1999-09-21 2001-04-06 윤종용 반도체 칩을 냉각시키기 위한 장치
CN101566965A (zh) * 2008-04-22 2009-10-28 鸿富锦精密工业(深圳)有限公司 风扇转速控制方法
CN103246331A (zh) * 2012-02-10 2013-08-14 鸿富锦精密工业(深圳)有限公司 服务器温度控制系统
US10133323B2 (en) * 2013-03-14 2018-11-20 Arizona Board Of Regents For And On Behalf Of Arizona State University Processor control system
TW201527961A (zh) * 2014-01-03 2015-07-16 Univ Nat Central 偵測中央處理器散熱器狀態之系統及方法
CN110018722A (zh) * 2018-11-06 2019-07-16 联想企业解决方案(新加坡)有限公司 用于热控制的机器学习装置、系统和方法
CN110009037A (zh) * 2019-04-03 2019-07-12 中南大学 一种基于物理信息耦合的工程风速短时预测方法及系统
TWI704859B (zh) * 2019-08-21 2020-09-11 宏碁股份有限公司 智慧風扇轉速調整方法、電腦裝置及伺服器

Also Published As

Publication number Publication date
TW202222121A (zh) 2022-06-01

Similar Documents

Publication Publication Date Title
US7596464B2 (en) Determining the thermal influence of components within a system and usage of a matrix for power and thermal management
Cochran et al. Consistent runtime thermal prediction and control through workload phase detection
US20190042979A1 (en) Thermal self-learning with reinforcement learning agent
CN110196624A (zh) 用于服务器和固态设备的人工智能冷却方法
CN1581019A (zh) 电脑装置的冷却系统
Khan et al. Online learning of timeout policies for dynamic power management
US9841773B2 (en) Cooling system management
CN113962142B (zh) 一种基于两段式lstm的数据中心温度预测方法及系统
TWI724329B (zh) 一種具有可分級調整散熱功能的電子裝置
WO2024098774A1 (zh) 基于模型的服务器散热方法、装置、服务器和存储介质
US20160092616A1 (en) Thermal simulations using convolution and iterative methods
CN115434937A (zh) 控制装置及控制方法
CN116594442A (zh) 一种温度调节模块的控制方法、装置及计算设备
TWI756933B (zh) 伺服器的PCIe晶片的溫度預測系統及方法
US7925873B2 (en) Method and apparatus for controlling operating parameters in a computer system
US7725285B2 (en) Method and apparatus for determining whether components are not present in a computer system
US12019530B2 (en) Temperature prediction system and method for predicting a temperature of a chip of a PCIE card of a server
Beldachi et al. Run‐time power and performance scaling in 28 nm FPGAs
CN108628425A (zh) 一种服务器散热方法和装置
US20220156171A1 (en) Temperature prediction system and method for predicting a temperature of a chip of a pcie card of a server
CN115047953B (zh) 一种服务器散热方法、系统、装置及介质
Abad et al. A neuro-fuzzy fan speed controller for dynamic management of processor fan power consumption
US20220374059A1 (en) Customized thermal throttling using environmental conditions
TWI827938B (zh) 控制裝置及控制方法
Lucchese et al. On server cooling policies for heat recovery: exhaust air properties of an Open Compute Windmill V2 platform