TW202013198A - 透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體 - Google Patents

透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體 Download PDF

Info

Publication number
TW202013198A
TW202013198A TW107147587A TW107147587A TW202013198A TW 202013198 A TW202013198 A TW 202013198A TW 107147587 A TW107147587 A TW 107147587A TW 107147587 A TW107147587 A TW 107147587A TW 202013198 A TW202013198 A TW 202013198A
Authority
TW
Taiwan
Prior art keywords
image processor
peripheral component
fast peripheral
component interconnection
identification information
Prior art date
Application number
TW107147587A
Other languages
English (en)
Other versions
TWI684866B (zh
Inventor
王鈞弘
Original Assignee
廣達電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 廣達電腦股份有限公司 filed Critical 廣達電腦股份有限公司
Application granted granted Critical
Publication of TWI684866B publication Critical patent/TWI684866B/zh
Publication of TW202013198A publication Critical patent/TW202013198A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/004Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20718Forced ventilation of a gaseous coolant
    • H05K7/20727Forced ventilation of a gaseous coolant within server blades for removing heat from heat source
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/30Control parameters, e.g. input parameters
    • F05D2270/303Temperature
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/21Pc I-O input output
    • G05B2219/21156Over temperature protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Abstract

本揭露提供一種系統與方法,係透過快速週邊組件互連拓樸以擷取伺服器系統的圖像處理器的溫度資訊,以及至少基於圖像處理器的溫度資訊,使用基板管理控制器控制冷卻風扇的風扇轉速。在一些實施例中,管理控制器可透過作業系統來決定伺服器系統的快速週邊組件互連拓樸,並取得伺服器系統每個圖像處理器或是圖像處理器卡的匯流排識別。基於匯流排識別,管理控制器可以從圖像處理器資料庫(例如:輝達管理資料庫)中擷取與圖像處理器相關的溫度資訊,甚至是至少基於溫度資訊來控制冷卻風扇的風扇轉速。

Description

透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體
本揭露泛指一種電腦系統中的溫度管理。
現代的電腦系統包括了許多電子元件,例如:圖像處理器(GPU)、中央處理器(CPU)、以及隨機存取記憶體(RAM)…等。當電子元件變得越快速且更有效能時(例如:具有更小型要素且更快的圖形處理器或中央處理器),電子元件內也伴隨著產生更多的熱量。若沒有充分冷卻,有可能發生過熱並對元件造成物理上的損害;有時候甚至會導致系統當機以及資料遺失。
因此,監控系統的關鍵元件(例如:圖像處理器)的溫度以避免過熱就很重要。傳統的系統中,系統可以透過積體電路連結(Inter-Integrated Circuit (I2 C) connection)讀取圖像處理器的溫度,接著再使用冷卻風扇主動地排出累積的熱空氣來消除過多的熱量,從而在圖像處理器內維持合適的溫度。
然而,在某些電腦系統中,圖像處理器並沒有積體電路連結可以傳輸溫度資訊。
根據本揭露各種例示的系統與方法,提供了上述問題一種解法,該解法係透過快速週邊組件互連拓樸,擷取伺服器系統的圖像處理器的溫度資訊,並且至少基於圖像處理器的溫度,使用管理控制器(例如:基板管理控制器)來控制冷卻風扇的風扇轉速。在某些實施中,管理控制器可藉由作業系統決定伺服器系統的快速週邊組件互連拓樸;並取得伺服器系統每個圖像處理器或是圖像處理器卡的匯流排識別。基於匯流排識別,管理控制器可以從圖像處理器資料庫(例如:輝達管理資料庫)中擷取與圖像處理器相關的溫度資訊,甚至是至少基於溫度資訊來控制相關冷卻風扇的風扇轉速。在某些實施中,管理控制器管理冷卻風扇的風扇轉速,使得對應的圖像處理器可運作在合適的溫度,並且達到最佳化的使用率。
在某些實施中,伺服器系統使用快速週邊組件互連拓樸樹,以識別伺服器系統中的快速週邊組件互連拓樸,接著透過作業系統代理傳輸快速週邊組件互連匯流排資訊給基板管理控制器。在快速週邊組件互連匯流排識別資訊與圖像處理器卡有關的情況下,基板管理控制器可以根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取圖像處理器卡的溫度資訊。至少基於圖像處理器卡的溫度資訊,基板管理控制器可透過頻內積體電路,控制與圖像處理器卡有關的冷卻風扇的風扇轉速。
在快速週邊組件互連匯流排識別資訊與快速週邊組件互連交換器有關的情況下,基板管理控制器可以使用快速週邊組件互連交換器的快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與快速週邊組件互連交換器有關的圖像處理器的溫度資訊。基於與快速週邊組件互連交換器有關的圖像處理器的溫度資訊,並且基於伺服器系統的中央處理器的溫度資訊,基板管理控制器可透過頻內積體電路,控制與快速週邊組件互連交換器有關的冷卻風扇的風扇轉速。舉例來說,感應器組可設置在中央處理器以及快速週邊組件互連交換器之間,用以偵測中央處理器的溫度,或是偵測在中央處理器以及快速週邊組件互連交換器之間的溫度。基板管理控制器至少基於圖像處理器的溫度資訊,以及中央處理器的溫度資訊,控制與快速週邊組件互連交換器有關的冷卻風扇的風扇轉速。
在快速週邊組件互連匯流排識別資訊與重定時器卡有關的情況下,基板管理控制器可以使用重定時器卡的快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與重定時器卡有關的圖像處理器的溫度資訊。基於與重定時器卡有關的圖像處理器的溫度資訊,基板管理控制器可透過頻外積體電路,調整與重定時器卡有關的冷卻風扇的風扇轉速。舉例來說,集束磁碟(JBOD)可包括圖像處理器、快速週邊組件互連交換器、重定時器卡、以及冷卻風扇。基板管理控制器可以使用重定時器卡的快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與重定時器卡有關的圖像處理器的溫度資訊。至少基於圖像處理器的溫度資訊,基板管理控制器可透過頻外積體電路,控制與重定時器卡有關的冷卻風扇的風扇轉速。
根據本揭露其中之一的觀點,一種電腦實施方法,透過伺服器系統的快速週邊組件互連拓樸,用以控制風扇轉速,包括:使用快速週邊組件互連拓樸樹,決定伺服器系統的快速週邊組件互連拓樸;透過作業系統代理,傳輸快速週邊組件互連匯流排識別資訊;在快速週邊組件互連匯流排識別資訊對應圖像處理器卡的情況下,根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取圖像處理器卡的溫度資訊;以及至少基於圖像處理器卡的溫度資訊,透過頻內積體電路管理與圖像處理器卡有關的冷卻風扇的風扇轉速。在某些實施中,電腦實施方法更包括:在快速週邊組件互連匯流排識別資訊對應重定時器卡的情況下,根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與重定時器卡有關的圖像處理器的溫度資訊;以及至少基於圖像處理器的溫度資訊,透過頻外積體電路管理與重定時器卡有關的冷卻風扇的風扇轉速。
根據本揭露其中之一的觀點,提供了一種的儲存指令非暫態電腦可讀取儲存媒體,當指令由處理器執行時,使得處理器執行操作,操作包括:使用快速週邊組件互連拓樸樹,決定伺服器系統的快速週邊組件互連拓樸;透過作業系統代理,傳輸快速週邊組件互連匯流排識別資訊;在快速週邊組件互連匯流排識別資訊對應圖像處理器卡的情況下,根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取圖像處理器卡的溫度資訊;以及至少基於圖像處理器卡的溫度資訊,透過頻內積體電路管理與圖像處理器卡有關的冷卻風扇的風扇轉速。
本揭露的其他特徵和優點將於下面的說明中闡述,並且從說明中部份係顯而易見;或者可以透過實踐本文闡述的原理來學習。本揭露的特徵和優點,可以藉由所附的申請專利範圍中特別指出的儀器和組合加以理解和實現。
本揭露可用各種不同的形式據以實施。見於圖式的代表性實施例將於此詳細說明。這些實施例為本揭露的原理之範例或解說,但不應將本揭露寬廣的觀點限縮至這些實施例。至於,若於本案發明摘要、發明內容、以及實施方式等當中所揭露的元件與限制,而不在申請專利範圍所闡明者,不應用隱含、推論或其它方式將其單獨或統合納入申請專利範圍之中。本案的實施方式,除非特別聲明,否則凡是涉及到單數名詞,則應包括複數名詞,且反之亦然;文中「包括」一詞係指「不排除未記載之項目」。另外,「大約」、「幾乎」、「大致上」、「近似於」等表示近似的詞彙,在此可解釋為「於」、「接近」、「差不多」、「在3%-5%的範圍內」、「在可接受的製造公差內」或是任何邏輯上的組合。
本揭露的各種例示提供系統與方法,透過快速週邊組件互連(Peripheral Component Interconnect express;PCIe)拓樸,用以擷取伺服器系統的圖像處理器的溫度資訊,並且至少基於圖像處理器的溫度,使用基板管理控制器來控制冷卻風扇的風扇轉速。在某些實施中,管理控制器可藉由作業系統決定伺服器系統的快速週邊組件互連拓樸,並取得伺服器系統每個圖像處理器或是圖像處理器卡的匯流排識別。基於匯流排識別,管理控制器可以從圖像處理器資料庫(例如:輝達(NVIDIA)管理資料庫)中擷取與圖像處理器相關的溫度資訊,甚至是至少基於溫度資訊來控制冷卻風扇的風扇轉速。
第1A圖描述一個在資料中心的系統之範例,該系統根據本揭露之實施具有圖像處理器(Graphic processing unit;GPU),該圖像處理器不含積體電路連結(I2 C connection)而沒有傳輸溫度資訊之示意圖。在本例中,伺服器系統100A包括圖像處理器(GPU)112、處理器104、快速週邊組件互連(PCIe)交換器113、一個或多個冷卻模組110、主記憶體(MEM)111、以及至少一個供電單元(PSU)102,用來接收源自於交流電源101的交流電,並供電給伺服器系統100A的各種元件,例如處理器104、北橋(NB)邏輯106、快速週邊組件互連(PCIe)插槽160、南橋(SB)邏輯108、儲存裝置109、工業標準結構(ISA)插槽150、週邊組件互連(PCI)插槽170、以及管理裝置103。在本例中,至少有一個圖像處理器112不具有積體電路連結,而不能傳輸與圖像處理器112相關的溫度資訊。快速週邊組件互連交換器113使多個輸入/輸出裝置以及圖像處理器112之間能夠進行高速串列的點對點連結,而處理器104用於優化與端點流量到主機之間的聚合、扇出、或者同級間通訊。在某些例子中,伺服器系統100A更包括重定時器卡(retimer card,圖中並未畫出),連接處理器104以及快速週邊組件互連交換器113。重定時器卡為一種混合訊號裝置,具有等化功能和時脈資料回復(clock data recovery;CDR)功能,以對確定性抖動和隨機抖動進行補償,並依次向下游傳輸乾淨的訊號。
處理器104可以是中央處理器(CPU),被配置來執行特定功能的程式指令。舉例來說,在開機流程中,處理器104可以存取儲存在管理裝置103或快閃儲存裝置的韌體資料,並執行基本輸出入系統(BIOS)105以初始化伺服器系統100A。在開機流程之後,處理器104可以執行作業系統,以執行和管理伺服器系統100A的特定任務。
在某些配置中,處理器104可以是多核心處理器,每個核心處理器透過連接到北橋邏輯106的中央處理器匯流排耦接在一起。在某些配置中,北橋邏輯106可以整合到處理器104。北橋邏輯106還可以連接到多個快速週邊組件互連插槽160以及南橋邏輯108(選用)。多個快速週邊組件互連插槽160可用來作為連結以及匯流排,例如PCI Express x1、USB 2.0、系統管理匯流排(SMBus)、SIM卡、快速週邊組件互連插槽通道的另一個將來擴充、1.5V和3.3V電源、以及診斷伺服器系統100A機殼上的發光二極體的導線。
在伺服器系統100A中,北橋邏輯106與南橋邏輯108由週邊組件互連(PCI)匯流排107所連接。南橋邏輯108可以透過擴充匯流排將週邊組件互連匯流排107耦接到工業標準結構插槽150(例如:工業標準結構插槽151)的擴充卡。南橋邏輯108更耦接到管理裝置103,該管理裝置103至少連結一個供電單元102。在某些實施中,管理裝置103可以是基板管理控制器或是機櫃管理控制器。
管理裝置103可以使用快速週邊組件互連拓樸樹(圖中並未畫出)來識別伺服器系統100A中的快速週邊組件互連拓樸,接著透過作業系統代理(圖中並未畫出),接收快速週邊組件互連匯流排識別資訊。在某些實施中,快速週邊組件互連拓樸樹可以是從lspci查詢到的資訊。lspci是用來測量系統中的硬體的實際快速週邊組件互連資訊之系統工具。順序可以是:根複合體(Root Complex)→根埠(Root Port)→橋/端點(Bridge/End Point)。lspci可以顯示從根複合體到端點的架構。在某些實施中,不同的中央處理器插座可以有各自不同的根複合體。利用快速週邊組件互連匯流排識別以及它們的分支,可以協助確定伺服器系統100A的硬體拓樸中的硬體的實體位置。
基於快速週邊組件互連(PCIe)匯流排識別資訊,管理裝置103可以從輝達管理資料庫(圖中並未畫出)中擷取與圖像處理器112相關的溫度資訊,以及進一步至少基於溫度資訊來控制與圖像處理器112有關的冷卻風扇110的風扇轉速。
在快速週邊組件互連匯流排識別資訊與圖像處理器卡112有關的情況下,管理裝置103可以根據快速週邊組件互連匯流排識別資訊,從輝達管理資料庫中擷取圖像處理器卡112的溫度資訊。至少基於圖像處理器卡的溫度資訊,管理裝置103可透過頻內積體電路(in-band I2 C)連結,控制與圖像處理器卡有關的冷卻風扇110的風扇轉速。在快速週邊組件互連匯流排識別資訊與快速週邊組件互連交換器113有關的情況下,管理裝置103可以使用快速週邊組件互連交換器113的快速週邊組件互連匯流排識別資訊,從輝達管理資料庫中擷取與快速週邊組件互連交換器113有關的圖像處理器112的溫度資訊。基於與快速週邊組件互連交換器113有關的圖像處理器112的溫度資訊,管理裝置103可透過頻內積體電路連結,控制與快速週邊組件互連交換器113有關的冷卻風扇110的風扇轉速。在快速週邊組件互連匯流排識別資訊與重定時器卡(圖中並未畫出)有關的情況下,管理裝置103可以使用重定時器卡的快速週邊組件互連匯流排識別資訊,從輝達管理資料庫中擷取與重定時器卡有關的圖像處理器112的溫度資訊。基於與重定時器卡有關的圖像處理器卡112的溫度資訊,管理裝置103可透過頻外積體電路(out-band I2 C)連結,控制與重定時器卡有關的冷卻風扇110的風扇轉速。
在某些實施中,風扇控制服務可以是管理裝置103的服務,為管理裝置103所提供的軟體服務。軟體服務可以查詢圖像處理器112的資訊。若作業系統執行嵌入在作業系統中的作業系統代理,則作業系統代理傳送2位元組的服務代碼(例如0x0A),通知管理裝置103開始風扇控制服務。
第1B圖中更描述了第1A圖配置的一個範例。在第1B圖中,伺服器系統100B包括中央處理器(CPU)104-1與中央處理器104-2,以及圖像處理器卡112,圖像處理器卡112擁有多個圖像處理器,且圖像處理器卡112連接到輝達管理資料庫114。中央處理器104-1與中央處理器104-2彼此之間透過超級通道互連(UltraPath Interconnect;UPI)104-3連接。至少有一個圖像處理器(即GPU0、GPU1、GPU2及GPU3)不具有積體電路連結,而不能傳輸溫度資訊。
第1C圖中更描述了第1A圖風扇轉速控制的一個範例。在第1C圖中,伺服器系統100C包括快速週邊組件互連(PCIe)拓樸樹118、中央處理器(CPU)根複合體104、作業系統(OS)代理116、以及基板管理控制器103,且中央處理器根複合體104連接圖像處理器(GPU)112、快速週邊組件互連交換器113、重定時器卡115、以及其他快速週邊組件互連裝置。快速週邊組件互連拓樸樹118可以識別在伺服器系統100C中的快速週邊組件互連拓樸,接著透過作業系統(OS)代理116傳輸快速週邊組件互連匯流排識別資訊給基板管理控制器103。基於快速週邊組件互連匯流排識別資訊,基板管理控制器103可以從資料庫(例如:輝達管理資料庫114)擷取與圖像處理器112相關的溫度資訊,以及進一步至少基於溫度資訊來控制有關的冷卻風扇110的風扇轉速。在某些實施中,基板管理控制器103可透過風扇控制服務117,來控制冷卻風扇110的風扇轉速。
第1D圖描述第1C圖中,圖像處理器卡112的快速週邊組件互連匯流排識別資訊被傳輸到基板管理控制器(BMC)103的情形。在本例中,中央處理器(CPU)104-1與中央處理器(CPU)104-2直接連結到圖像處理器卡112,該圖像處理器卡112具有多個圖像處理器。輝達管理資料庫114透過統一計算架構(CUDA)驅動器121收集圖像處理器(例如GPU0、GPU1、GPU2及GPU3)的溫度資訊。透過作業系統(OS)116,基板管理控制器103可以根據圖像處理器卡112的快速週邊組件互連匯流排識別資訊,從輝達管理資料庫114擷取圖像處理器(例如GPU0、GPU1、GPU2及GPU3)的溫度資訊。至少基於圖像處理器(例如GPU0、GPU1、GPU2及GPU3)的溫度資訊,基板管理控制器103透過頻內積體電路連結,控制與圖像處理器卡112有關的冷卻風扇110的風扇轉速。
第1E圖描述第1C圖中,快速週邊組件互連(PCIe)交換器113-1、113-2的快速週邊組件互連匯流排識別資訊被傳輸到基板管理控制器103的情形。在本例中,快速週邊組件互連交換器113-1連接中央處理器104-1,以及連接包括GPU0、GPU1、GPU2及GPU3之圖像處理器叢集;而快速週邊組件互連交換器113-2連接中央處理器104-2,以及連接包括GPU4、GPU5、GPU6及GPU7之圖像處理器叢集。輝達管理資料庫114透過統一計算架構(CUDA)驅動器121收集圖像處理器112的溫度資訊。透過作業系統(OS)116,基板管理控制器103可以根據快速週邊組件互連交換器113-1、113-2的快速週邊組件互連匯流排識別資訊,從輝達管理資料庫114擷取圖像處理器(例如GPU0-GPU7)的溫度資訊。至少基於圖像處理器(例如GPU0-GPU7)的溫度資訊,基板管理控制器103可透過頻內積體電路連結,控制與圖像處理器112有關的冷卻風扇110的風扇轉速。
在某些實施中,感應器組122被設置在中央處理器(即104-1、104-2)以及快速週邊組件互連交換器(即113-1、113-2)之間。感應器組122被設置來偵測中央處理器(即104-1、104-2)的溫度,或者偵測中央處理器(即104-1、104-2)以及快速週邊組件互連交換器(即113-1、113-2)之間的溫度。至少基於中央處理器(即104-1、104-2)以及圖像處理器(例如GPU0-GPU7)的溫度資訊,基板管理控制器103可透過頻內積體電路連結,控制與快速週邊組件互連交換器(即113-1、113-2)有關的冷卻風扇110的風扇轉速。
在某些實施中,當lspci偵測到伺服器系統100E的拓樸包含快速週邊組件互連交換器時,基板管理控制器(BMC)103可以自動考慮中央處理器(即104-1、104-2)的溫度,使風扇控制服務117去收集感應器組122的溫度資料。
在某些實施中,IPMITOOL用來透過鍵盤訊號控制(keyboard signal control;KSC)呼叫基板管理控制器103,以控制基板管理控制器103的服務。基板管理控制器原始資料為一個儲存由圖像處理器(例如GPU0-GPU7)所收到的圖像處理器資訊的空間。當作業系統116使基板管理控制器103啟動基板管理控制器服務時,風扇控制服務117可自動從基板管理控制器原始資料中載入圖像處理器資訊。
第1F圖描述第1C圖中,重定時器卡115-1、115-2的快速週邊組件互連匯流排識別資訊被傳輸到基板管理控制器(BMC)103-1的情形。在本例中,重定時器卡115-1連接中央處理器(CPU)104-1以及快速週邊組件互連(PCIe)交換器113-1;而重定時器卡115-2連接中央處理器(CPU)104-2以及快速週邊組件互連(PCIe)交換器113-1。快速週邊組件互連交換器113-1連接快速週邊組件互連交換器113-2,且快速週邊組件互連交換器113-2耦接至GPU0、GPU1、GPU2及GPU3;快速週邊組件互連交換器113-1還連接快速週邊組件互連交換器113-3,且快速週邊組件互連交換器113-3耦接至GPU4、GPU5、GPU6及GPU7。輝達管理資料庫114透過統一計算架構(CUDA)驅動器121收集圖像處理器112的溫度資訊。
在本例中,透過作業系統(OS)116,基板管理控制器103-1可以根據重定時器卡115-1、115-2的快速週邊組件互連匯流排識別資訊,從輝達管理資料庫114擷取圖像處理器(例如GPU0-GPU7)的溫度資訊。至少基於圖像處理器(例如GPU0-GPU7)的溫度資訊,基板管理控制器103-1可透過頻外積體電路連結(I2 C to BMC)120,控制與圖像處理器(例如GPU0-GPU7)有關的冷卻風扇110-2的風扇轉速。
在某些實施中,頻外(out-band)被用來連接重定時器卡115-1、115-2到集束磁碟系統(just-bunch-of-disks:JBOD;第1F圖左下部分)。集束磁碟系統並不需要任何中央處理器,可以只擁有迷你序列先進技術附件(SATA)以連接重定時器卡115-1、115-2。
在本例中,重定時器卡115-1、115-2將第1F圖的左上部分和左下部分這兩個獨立的系統連接在一起。當作業系統代理116檢查拓樸以識別伺服器系統100F的快速週邊組件互連拓樸時,它可以確定某些資訊沒辦法從本地的元件中取得,並且自動考慮集束磁碟的基板管理控制器103-2的資訊,該資訊包括圖像處理器(例如GPU0-GPU7)的溫度資訊。因此,作業系統代理116會使用鍵盤訊號控制來啟用風扇控制服務117,風扇控制服務117為獨立於與基板管理控制器(BMC)103-2、103-1之程式。
如上所述,伺服器系統100A-100F不必要求圖像處理器(GPU)112藉由積體電路連結傳輸溫度資訊,即可有效控制圖像處理器的溫度。第1G圖為一個特定範例。在本例中,圖像處理器與基板管理控制器的溫度各別達到了84℃和32℃,且冷卻風扇110的風扇轉速為60%。一旦基板管理控制器(BMC)103擷取圖像處理器溫度,基板管理控制器103可以確定圖像處理器的溫度84℃太接近減速溫度的85℃。基板管理控制器103則可將冷卻風扇110的風扇轉速從60%增加到80%。因此,圖像處理器與基板管理控制器的溫度各自降低到82℃和30℃。因此,圖像處理器112可有效地運作在合適的溫度,並維持高使用率。
上述討論用以描述本揭露的原理以及各種範例。一旦完全理解上述揭露,多種變化和更改將變得顯而易知。
第2圖為根據本揭露之實施,透過伺服器系統的快速週邊組件互連拓樸,用以控制風扇轉速的方法之範例。應該理解的是,範例的方法200僅出自於說明之目的而呈現,且根據本揭露的其他方法,可涵蓋用類似、交換順序、或同步的方式來執行增加、減少、或替代的步驟。範例的方法200由步驟202:決定伺服器系統的快速週邊組件互連拓樸開始。在某些實施中,伺服器系統中的快速週邊組件互連拓樸樹可用來決定伺服器系統的快速週邊組件互連拓樸。
於步驟204,快速週邊組件互連匯流排識別資訊可以透過作業系統代理,而被傳輸到伺服器系統的管理控制器(例如:基板管理控制器),如第1A-1F圖所示。在某些實施中,快速週邊組件互連拓樸樹可以透過作業系統代理,傳輸快速週邊組件互連匯流排識別資訊給管理控制器。於步驟206,管理控制器可以識別與接收到快速週邊組件互連匯流排識別資訊有關的特定裝置。
於步驟208,如第1C、1D圖所示,在快速週邊組件互連匯流排識別資訊與圖像處理器卡有關的情況下,管理控制器可以根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫(例如:輝達管理資料庫)中擷取與圖像處理器卡有關的溫度資訊。於步驟210,至少基於圖像處理器卡的溫度資訊,管理控制器可透過頻內積體電路連結,控制與圖像處理器卡有關的冷卻風扇的風扇轉速。
於步驟212,如第1C、1E圖所示,在快速週邊組件互連匯流排識別資訊與快速週邊組件互連交換器有關的情況下,管理控制器可以根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與快速週邊組件互連交換器有關的溫度資訊。在某些實施中,如第1E圖所示,感應器組可設置在中央處理器以及快速週邊組件互連交換器之間,用以偵測中央處理器的溫度,或是偵測在中央處理器以及快速週邊組件互連交換器之間的溫度。於步驟214,管理控制器可使用感應器組來決定中央處理器的溫度。於步驟216,至少基於圖像處理器卡與中央處理器的溫度資訊,管理控制器可透過頻內積體電路連結,控制與快速週邊組件互連交換器有關的冷卻風扇的風扇轉速。
於步驟218,如第1C、1F圖所示,在快速週邊組件互連匯流排識別資訊與重定時器卡有關的情況下,管理控制器可以根據快速週邊組件互連匯流排識別資訊,從圖像處理器資料庫中擷取與重定時器卡有關的圖像處理器的溫度資訊。於步驟220,至少基於圖像處理器的溫度資訊,管理控制器可以透過頻外積體電路連結,控制與重定時器卡有關的冷卻風扇的風扇轉速。
100A-100F:伺服器系統101:電源102:供電單元103:管理裝置104:處理器104-1、104-2:中央處理器104-3:超級通道互連105:基本輸出入系統106:北橋邏輯107:週邊組件互連匯流排108:南橋邏輯109:儲存裝置110:冷卻模組110-1、110-2:冷卻風扇111:主記憶體112:圖像處理器113:快速週邊組件互連交換器113-1、113-2、113-3:快速週邊組件互連交換器114:輝達管理資料庫115:重定時器卡115-1、115-2:重定時器卡116:作業系統代理117:風扇控制服務118:快速週邊組件互連拓樸樹119:基板管理控制器(BMC)主機板120:頻外積體電路連結121:統一計算架構驅動器122:感應器組150、151:工業標準結構(ISA)插槽160、161:快速週邊組件互連(PCIe)插槽170、171:週邊組件互連(PCI)插槽200:流程202、204、206、208、210、212、214、216、218、210:步驟
本揭露及其優點以及圖式,在參考以下的例示性實施例的說明並配合所附圖式後,將能益加明顯易懂。以下圖式僅為例示性實施例,並非用於限制本發明之各種實施方式或申請專利範圍。 第1A圖描述一個在資料中心的系統之範例,該系統根據本揭露之實施具有圖像處理器,該圖像處理器不含積體電路連結而不能傳輸溫度資訊之示意圖。 第1B圖描述第1A圖所述的系統之範例中,該系統根據本揭露之實施包括複數圖像處理器及中央處理器之示意圖。 第1C圖描述第1A圖所述的系統之範例中,該系統根據本揭露之實施,藉由快速週邊組件互連拓樸來控制風扇轉速之示意圖。 第1D圖描述第1C圖所述的系統之範例中,該系統根據本揭露之實施,其圖像處理器卡的快速週邊組件互連匯流排識別被傳輸至基板管理控制器之示意圖。 第1E圖描述第1C圖所述的系統之範例中,該系統根據本揭露之實施,其快速週邊組件互連交換器的快速週邊組件互連匯流排識別被傳輸至基板管理控制器之示意圖。 第1F圖描述第1C圖所述的系統之範例中,該系統根據本揭露之實施,其重定時器卡的快速週邊組件互連匯流排識別被傳輸至基板管理控制器之示意圖。 第1G圖描述第1A圖所述的系統之範例中,該系統根據本揭露之實施,有效地控制圖像處理器的溫度,不必要求圖像處理器藉由積體電路連結來傳輸溫度資訊之示意圖。 第2圖為一種方法之範例,該方法根據本揭露之實施,透過伺服器系統的快速週邊組件互連拓樸,用以控制風扇轉速之示意圖。
200:流程
202、204、206、208、210、212、214、216、218、210:步驟

Claims (10)

  1. 一種電腦實施方法,透過一快速週邊組件互連(PCIe)拓樸,用以控制一伺服器系統的複數冷卻風扇的風扇轉速,包括: 決定該伺服器系統的該快速週邊組件互連拓樸; 透過一作業系統代理,傳輸一快速週邊組件互連匯流排識別資訊; 在該快速週邊組件互連匯流排識別資訊對應一圖像處理器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從一圖像處理器資料庫中擷取該圖像處理器卡的溫度資訊;以及 至少基於該圖像處理器卡的該溫度資訊,透過複數頻內積體電路(in-band I2 C)連結,管理與該圖像處理器卡有關的複數冷卻風扇的風扇轉速。
  2. 如申請專利範圍第1項所述之電腦實施方法,包括: 在該快速週邊組件互連匯流排識別資訊對應一快速週邊組件互連交換器的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該快速週邊組件互連交換器有關的圖像處理器的溫度資訊;以及 至少基於該至少一圖像處理器的溫度資訊,透過該等頻內積體電路連結,管理與該快速週邊組件互連交換器有關的複數冷卻風扇的該風扇轉速。
  3. 如申請專利範圍第1項所述之電腦實施方法,包括: 在該快速週邊組件互連匯流排識別資訊對應一重定時器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該重定時器卡有關的至少一圖像處理器的溫度資訊;以及 基於該圖像處理器的溫度資訊,透過複數頻外積體電路連結,管理與該重定時器卡有關的複數冷卻風扇的風扇轉速。
  4. 一種伺服器系統,包括: 一處理器; 一管理控制器;以及 一電腦可讀取媒體,儲存複數指令,當該等指令由該處理器執行時,使得該伺服器系統執行複數操作,該等操作包括: 決定該伺服器系統的一快速週邊組件互連(PCIe)拓樸; 透過一作業系統代理,傳輸一快速週邊組件互連匯流排識別資訊; 在該快速週邊組件互連匯流排識別資訊對應一圖像處理器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從一圖像處理器資料庫中擷取該圖像處理器卡的溫度資訊;以及 至少基於該圖像處理器卡的該溫度資訊,透過複數頻內積體電路連結,管理與該圖像處理器卡有關的複數冷卻風扇的風扇轉速。
  5. 如申請專利範圍第4項所述之伺服器系統,其中該電腦可讀取媒體,儲存該等指令,當該等指令由該處理器執行時,更使得該伺服器系統執行: 在該快速週邊組件互連匯流排識別資訊對應一快速週邊組件互連交換器的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該快速週邊組件互連交換器有關的圖像處理器的溫度資訊;以及 至少基於該圖像處理器的溫度資訊,透過該等頻內積體電路連結,管理與該快速週邊組件互連交換器有關的複數冷卻風扇的該風扇轉速。
  6. 如申請專利範圍第4項所述之伺服器系統,其中,該電腦可讀取媒體儲存複數指令,當該等指令由該處理器執行時,還使得該伺服器系統執行複數操作,該等操作包括: 在該快速週邊組件互連匯流排識別資訊對應一重定時器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該重定時器卡有關的至少一圖像處理器的溫度資訊;以及 基於該至少一圖像處理器的溫度資訊,透過複數頻外積體電路連結,管理與該重定時器卡有關的複數冷卻風扇的風扇轉速。
  7. 如申請專利範圍第4項所述之伺服器系統,其中,該伺服器系統的該快速週邊組件互連拓樸被決定使用一快速週邊組件互連拓樸樹,其中,該快速週邊組件互連拓樸樹透過該作業系統代理傳輸該快速週邊組件互連匯流排識別資訊給該管理控制器。
  8. 一種非暫態電腦可讀取儲存媒體,包括複數指令,當該等指令由一伺服器系統的至少一處理器執行時,使得該伺服器系統執行複數操作,該等操作包括: 決定該伺服器系統的一快速週邊組件互連拓樸; 透過一作業系統代理,傳輸一快速週邊組件互連匯流排識別資訊; 在該快速週邊組件互連匯流排識別資訊對應一圖像處理器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從一圖像處理器資料庫中擷取該圖像處理器卡的溫度資訊;以及 至少基於該圖像處理器卡的該溫度資訊,透過複數頻內積體電路連結,管理與該圖像處理器卡有關的複數冷卻風扇的風扇轉速。
  9. 如申請專利範圍第8項所述之非暫態電腦可讀取儲存媒體,其中,當該等指令由至少一處理器執行時,還使得該伺服器系統執行複數操作,該等操作包括: 在該快速週邊組件互連匯流排識別資訊對應一快速週邊組件互連交換器的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該快速週邊組件互連交換器有關的圖像處理器的溫度資訊;以及 至少基於該至少一圖像處理器的溫度資訊,透過該等頻內積體電路連結,管理與該快速週邊組件互連交換器有關的複數冷卻風扇的該風扇轉速。
  10. 如申請專利範圍第8項所述之非暫態電腦可讀取儲存媒體,其中,當該等指令由至少一處理器執行時,還使得該伺服器系統執行複數操作,該等操作包括: 在該快速週邊組件互連匯流排識別資訊對應一重定時器卡的情況下,根據該快速週邊組件互連匯流排識別資訊,從該圖像處理器資料庫中擷取與該重定時器卡有關的至少一圖像處理器的溫度資訊;以及 基於該至少一圖像處理器的溫度資訊,透過複數頻外積體電路連結,管理與該重定時器卡有關的複數冷卻風扇的風扇轉速。
TW107147587A 2018-09-21 2018-12-28 透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體 TWI684866B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/138,260 US10776304B2 (en) 2018-09-21 2018-09-21 Fan speed control via PCIE topology
US16/138,260 2018-09-21

Publications (2)

Publication Number Publication Date
TWI684866B TWI684866B (zh) 2020-02-11
TW202013198A true TW202013198A (zh) 2020-04-01

Family

ID=66397123

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107147587A TWI684866B (zh) 2018-09-21 2018-12-28 透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體

Country Status (5)

Country Link
US (1) US10776304B2 (zh)
EP (1) EP3627283B1 (zh)
JP (1) JP6876105B2 (zh)
CN (1) CN110941313B (zh)
TW (1) TWI684866B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI786829B (zh) * 2021-09-16 2022-12-11 英業達股份有限公司 具人工智慧的效能調節系統及其調節方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI710953B (zh) * 2019-05-31 2020-11-21 緯創資通股份有限公司 韌體更新裝置以及韌體更新方法
CN114579385A (zh) * 2020-11-18 2022-06-03 英业达科技有限公司 服务器的PCIe芯片的温度预测系统及方法
US11509751B2 (en) * 2020-12-23 2022-11-22 Dell Products L.P. Self-describing system using single-source/multi-destination cable
JP7174281B2 (ja) * 2021-02-17 2022-11-17 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システムおよびプログラム
CN114035662B (zh) * 2021-10-15 2023-07-14 苏州浪潮智能科技有限公司 Ai服务器散热调控方法、系统、终端及存储介质
WO2023075750A1 (en) * 2021-10-25 2023-05-04 Hewlett-Packard Development Company, L.P. Temperature settings for temperature control circuits
CN114253897B (zh) * 2021-12-16 2023-07-14 苏州浪潮智能科技有限公司 一种系统PCIe拓扑动态切换系统与方法
CN114356057A (zh) * 2021-12-30 2022-04-15 浙江大华技术股份有限公司 控制PCIe卡散热的方法、装置、设备及存储介质
US20230213996A1 (en) * 2022-01-06 2023-07-06 Nvidia Corporation Techniques for controlling computing performance for power-constrained multi-processor computing systems
CN117591378B (zh) * 2024-01-17 2024-04-05 苏州元脑智能科技有限公司 一种服务器的温度控制方法、系统、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253918B (zh) * 2010-05-05 2014-04-23 英业达股份有限公司 计算机系统
CN202183065U (zh) * 2011-07-25 2012-04-04 华美科技(苏州)有限公司 塔式4gpu计算机装置
US20130342989A1 (en) * 2012-06-21 2013-12-26 Gregory L. Singleton Disk drive carrier apparatus for a computer system
US9244872B2 (en) * 2012-12-21 2016-01-26 Ati Technologies Ulc Configurable communications controller
US9213379B2 (en) * 2013-10-17 2015-12-15 Nvidia Corporation Distributed fan control
US20150212755A1 (en) * 2014-01-30 2015-07-30 Avalanche Technology, Inc. Method of managing throughput of redundant array of independent disks (raid) groups in a solid state disk array
CN104202194B (zh) * 2014-09-10 2018-05-29 华为技术有限公司 PCIe拓扑的配置方法和装置
US10127055B2 (en) * 2015-10-16 2018-11-13 Quanta Computer Inc. iSCSI based bare metal OS image deployment and diskless boot
CN105808499A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种cpu互联装置以及多路服务器cpu互联拓扑结构
CN106640721B (zh) * 2016-12-28 2017-11-10 郑州云海信息技术有限公司 一种改善服务器噪声的风扇控制方法及系统
CN106815156A (zh) * 2017-01-22 2017-06-09 联想(北京)有限公司 一种实现固态硬盘交互的装置、方法和和电子设备
CN107819834A (zh) * 2017-10-27 2018-03-20 郑州云海信息技术有限公司 Linux下快速确认服务器PCIe设备的状态及位置的方法和系统
CN108196999A (zh) 2018-01-02 2018-06-22 郑州云海信息技术有限公司 服务器bmc获取gpu温度的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI786829B (zh) * 2021-09-16 2022-12-11 英業達股份有限公司 具人工智慧的效能調節系統及其調節方法

Also Published As

Publication number Publication date
TWI684866B (zh) 2020-02-11
CN110941313B (zh) 2022-03-15
EP3627283A1 (en) 2020-03-25
US10776304B2 (en) 2020-09-15
JP2020053032A (ja) 2020-04-02
JP6876105B2 (ja) 2021-05-26
EP3627283B1 (en) 2022-04-06
US20200097431A1 (en) 2020-03-26
CN110941313A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
TWI684866B (zh) 透過快速週邊組件互連拓樸控制風扇轉速之方法、伺服器系統以及電腦可讀取儲存媒體
US9934187B2 (en) Hot-pluggable computing system
US9921933B2 (en) System and method for indicator light control of storage devices
US10127170B2 (en) High density serial over LAN management system
US10102035B2 (en) Techniques for computing resource discovery and management in a data center
US8626973B2 (en) Pseudo multi-master I2C operation in a blade server chassis
US20170220506A1 (en) Modular Software Defined Storage Technology
US9804980B2 (en) System management through direct communication between system management controllers
US10019402B2 (en) Flexible NVME drive management solution via multiple processor and registers without multiple input/output expander chips
US10783109B2 (en) Device management messaging protocol proxy
US20240045751A1 (en) Lighting Method and Apparatus Based on AMD Platform, Device and Readable Medium
CN104049692A (zh) 一种刀片服务器
TWI791913B (zh) 經由邊帶介面恢復場域可程式閘陣列韌體之系統及方法
CN100476794C (zh) 一种四路服务器主板
US10489328B2 (en) Universal sleds server architecture
CN205230035U (zh) 一种基于高端服务器的PCIE Box板卡
CN107908585A (zh) 一种具有pcie卡及gpu超运算功能的pcie box板
US20230098298A1 (en) Scalable secure speed negotiation for time-sensitive networking devices
CN216352292U (zh) 服务器主板及服务器
US10146720B2 (en) Flexible configuration server system
US20130144457A1 (en) Server system for updating heat dissipation solution
US9794120B2 (en) Managing network configurations in a server system
US10409940B1 (en) System and method to proxy networking statistics for FPGA cards
TWI658366B (zh) 硬體資源擴充系統及熱插拔管理裝置
CN117931582A (zh) 一种服务器监控管理系统、系统主板、监控方法