WO2024139222A1 - 冷却装置及ai服务器 - Google Patents
冷却装置及ai服务器 Download PDFInfo
- Publication number
- WO2024139222A1 WO2024139222A1 PCT/CN2023/110865 CN2023110865W WO2024139222A1 WO 2024139222 A1 WO2024139222 A1 WO 2024139222A1 CN 2023110865 W CN2023110865 W CN 2023110865W WO 2024139222 A1 WO2024139222 A1 WO 2024139222A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- cold plate
- blind
- bracket
- cooling
- cold
- Prior art date
Links
- 238000001816 cooling Methods 0.000 title claims abstract description 142
- 239000007788 liquid Substances 0.000 claims description 19
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 abstract description 11
- 239000000110 cooling liquid Substances 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 30
- 239000002826 coolant Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 239000004020 conductor Substances 0.000 description 10
- 239000000463 material Substances 0.000 description 7
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 4
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 3
- 239000010949 copper Substances 0.000 description 3
- 230000017525 heat dissipation Effects 0.000 description 3
- 239000012782 phase change material Substances 0.000 description 3
- 229910000838 Al alloy Inorganic materials 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 229910000881 Cu alloy Inorganic materials 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 239000010935 stainless steel Substances 0.000 description 1
- 229910001256 stainless steel alloy Inorganic materials 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/18—Packaging or power distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Definitions
- AI Artificial Intelligence
- TDP of the GPU modules is relatively high, so the heat dissipation requirements for the GPU modules are also relatively high.
- the present application provides a cooling device and an AI server to solve the problem that when a cold plate in the cooling device is blocked or leaking, the entire cooling device needs to be disassembled, which will result in time-consuming and labor-intensive operation and maintenance.
- the cold plate includes a cold plate body and a cold plate handle, the cold plate handle is fixed on the cold plate body, the second cooling channel is located in the cold plate body and the cold plate handle, the four locking nuts are arranged on the cold plate body, and the two blind plug male heads are arranged on the cold plate handle.
- the plurality of fixing positions are located on the bracket body, and the blind-plug female connector of the blind-plug quick connector is located on the flow channel cover plate.
- a locking hole is provided on the bracket body, and the locking hole is used to fix the bracket body on the GPU module of the AI server.
- the flow channel cover plate is located below the upper surface of the bracket body, and the flow channel cover plate and the bracket body form a liquid collection groove, and the liquid collection groove is used to collect leakage occurring during the disassembly and assembly of the cold plate or to collect leakage between the flow channel cover plate and the bracket body;
- a drain port and a drain channel are provided on the bracket body, and the drain channel connects the liquid accumulation groove on the cold plate bracket with the drain port.
- the cold plate module includes four cold plate groups, the four cold plate groups are arranged in parallel, each cold plate group includes two cold plates, and the second cooling channels of the two cold plates are arranged in series.
- the cold plate support is provided with at least one inflow joint and at least one outflow joint, and the inflow joint and the outflow joint are respectively communicated with the first cooling channel.
- the present application provides a cooling device and an AI server, which connect or disconnect each cold plate with a cold plate bracket through a blind-plug quick connector.
- a cold plate of the cooling device is blocked or leaking
- the blind-plug male head and the blind-plug female head of the blind-plug quick connector corresponding to the blocked or leaking cold plate are quickly disconnected, so that the coolant is respectively sealed in the blocked or leaking cold plate and the cold plate bracket, eliminating the need to disassemble and assemble the entire cooling device, thereby achieving quick disassembly and replacement of blocked or leaking cold plates, thereby saving time and effort in operation and maintenance.
- FIG2 is an exploded schematic diagram of the AI server in FIG1 ;
- FIG3 is a schematic top view of the AI server in FIG1 ;
- FIG6 is a schematic diagram of the structure of a cold plate bracket and a blind plug female connector of the cooling device in FIG5 ;
- FIG7 is a schematic diagram of the structure of the cold plate and the blind plug male connector of the cooling device in FIG5 ;
- a first feature being “on” or “under” a second feature may mean that the first and second features are in direct contact, or the first and second features are in indirect contact through an intermediate medium.
- a first feature being “above”, “above” or “above” a second feature may be “on” or “below” a second feature.
- the first feature is directly above or obliquely above the second feature, or simply means that the first feature is higher in level than the second feature.
- the first feature being “below”, “below” or “below” the second feature may mean that the first feature is directly below or obliquely below the second feature, or simply means that the first feature is lower in level than the second feature.
- multiple GPU modules of AI servers are equipped with cooling devices, which include multiple cold plates, multiple hoses and water distributors. Multiple cold plates are connected in series with the water distributors through hoses. Heat-conducting materials are arranged between each cold plate and each GPU module, and each cold plate is fixed on the GPU module.
- cooling devices which include multiple cold plates, multiple hoses and water distributors. Multiple cold plates are connected in series with the water distributors through hoses. Heat-conducting materials are arranged between each cold plate and each GPU module, and each cold plate is fixed on the GPU module.
- the cooling device has undergone high-voltage reliability testing, and a single cold plate cannot be disassembled at will. Therefore, the entire cooling device needs to be disassembled and returned to the factory for inspection and repair, which will result in time-consuming and labor-intensive operation and maintenance.
- the present application integrates the pipeline into the cold plate bracket, eliminating the hose and reducing the interference of the hose material.
- the cold plate bracket replaces the hose, which increases the reliability of the cooling device and saves space for the cooling device.
- the bureau is concise.
- the present application only disassembles and assembles the cold plate that is blocked or leaking, and only replaces the thermal conductive material corresponding to the cold plate that is blocked or leaking, thereby reducing operation and maintenance costs.
- the heat conductive material added between the cold plate and the GPU module will exhaust the air under pressure, and the heat conductive material will tightly adsorb the cold plate and the GPU module together, which will cause the problem of difficulty in disassembly when the cold plate is disassembled.
- the GPU module will use phase change material as the heat conductive material, which has strong adsorption force at room temperature.
- FIG 1 is a structural schematic diagram of an AI server provided in an embodiment of the present application. It should be noted that the AI server in the embodiment of the present application does not display the casing and the cooling system; Figure 2 is an exploded schematic diagram of the AI server in Figure 1; Figure 3 is a top view schematic diagram of the AI server in Figure 1; and Figure 4 is an A-A cross-sectional schematic diagram in Figure 3.
- the blind-plug quick connector 30 includes a blind-plug male head 31 and a blind-plug female head 32.
- Each cold plate 21 corresponds to two blind-plug quick connectors 30.
- Two blind-plug male heads 31 are arranged on each cold plate 21.
- the two blind-plug male heads 31 are respectively located at both ends of the second cooling channel 211.
- Two blind-plug female heads 32 corresponding to each cold plate 21 are installed on the cold plate bracket 10.
- the two blind-plug female heads 32 are connected to the first cooling channel 102.
- the blind-plug quick connector 30 is used to realize the connection or disconnection of each cold plate 21 with the cold plate bracket 10.
- the second cooling channels 211 of the multiple cold plates 21 are arranged in series and/or in parallel. Specifically, the second cooling channels 211 of the multiple cold plates 21 are arranged in series; the second cooling channels 211 of the multiple cold plates 21 are arranged in parallel; the second cooling channels 211 of the multiple cold plates 21 are both arranged in series and in parallel.
- the AI server includes eight GPU modules 2
- the cold plate bracket 10 is provided with eight fixed positions 101
- the cold plate module includes four cold plate groups 20, the four cold plate groups 20 are arranged in parallel
- each cold plate group 20 includes two cold plates 21, and the second cooling channels 211 of the two cold plates 21 are arranged in series.
- the blind plug quick connector 30 is a connector that can realize quick connection or disconnection of pipelines.
- the two blind plug male connectors 31 on the cold plate 21 can be inserted into the corresponding blind plug female connectors 32 on the cold plate bracket 10.
- the center position deviation can be absorbed.
- the operation and maintenance cost can be reduced. It should be noted that when the heat-conducting material is a phase change material, the phase change material can be preheated before the cold plate 21 is maintained.
- the blind plug female head 32 of the blind plug quick connector 30 corresponding to the clogged or leaking cold plate 21 will push open the blind plug male head 31, and the clogged or leaking cold plate 21 can use the pushing force to assist in disassembly, thereby reducing the difficulty of disassembling the cold plate 21.
- four locking studs 103 are provided in each fixing position 101, and four locking nuts 212 are provided on the cold plate 21.
- the four locking nuts 212 can be respectively screwed on the locking studs 103.
- the blind plug male head 31 on the cold plate 21 is used to insert into the corresponding blind plug female head 32 on the cold plate bracket 10 when the four locking nuts 212 are respectively screwed on the four locking studs 103.
- the blind plug male head 31 on the cold plate 21 is used to be pushed open by the corresponding blind plug female head 32 on the cold plate bracket 10 after the four locking nuts 212 are respectively removed from the four locking studs 103.
- the four locking nuts 212 are evenly spaced on the cold plate 21, so that when the four locking nuts 212 are respectively screwed on the four locking studs 103, the cold plate 21 is evenly stressed.
- the four locking studs 103 may be provided with tapered polished rods, and when the cold plate 21 is fixed, the four locking nuts 212 on the cold plate 21 are first guided by the four polished rods and then screwed on the four locking studs 103.
- the blind plug male head 31 on the cold plate 21 will be pushed open by the corresponding blind plug female head 32 on the cold plate bracket 10, and the cold plate 21 can be easily disassembled with the help of the cold plate handle 23.
- the bracket body 11 is provided with a drain port 112 and a drain channel 113, and the drain channel 113 connects the liquid accumulating groove 105 on the cold plate bracket 10 with the drain port 112.
- the leaked liquid in the liquid accumulating groove 105 is discharged to the drain port 112 through the drain channel 113, and then discharged to a position in the AI server that does not affect the operation of the GPU module 2 through the drain port 112, thereby reducing the damage caused by the leakage of the cooling device 1.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
一种冷却装置(1)及AI服务器,涉及服务器技术领域。冷却装置(1)包括冷板支架(10)、冷板模组和盲插快速连接器(30),通过盲插快速连接器(30)实现每个冷板(21)与冷板支架(10)连通或断开,当冷却装置(1)的冷板(21)出现堵塞或泄漏时,出现堵塞或泄漏的冷板(21)对应的盲插快速连接器(30)的盲插公头(31)和盲插母头(32)快速断开,使得冷却液分别封闭在出现堵塞或泄漏的冷板(21)内和冷板支架(10)内,摒弃了将整个冷却装置(1)拆装,从而可以实现对出现堵塞或泄漏的冷板(21)快拆快换,进而使得运维省时省力。
Description
本申请要求于2022年12月28日提交中国专利局、申请号为202211697582.4、申请名称为“冷却装置及AI服务器”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及服务器技术领域,尤其涉及一种冷却装置及AI服务器。
人工智能(Artificial Intelligence,AI)在计算机领域内得到了愈加广泛的重视,并在机器人、控制系统、仿真系统中得到应用。AI服务器作为人工智能的载体之一,随着人工智能的发展,AI服务器也得到广泛的应用,AI服务器一般都包含多个GPU模块,并且GPU模块的TDP比较高,此时对GPU模块的散热要求也就比较高。
相关技术中,AI服务器的多个GPU模块配置有冷却装置,冷却装置包括多个冷板、多个软管和分水器,多个冷板通过软管与分水器串联,每个冷板和每个GPU模块之间设置有导热材料。
然而,冷却装置中冷板出现堵塞或泄漏时,需要将整个冷却装置拆卸,会存在运维费时费力的问题。
发明内容
本申请提供一种冷却装置及AI服务器,以解决冷却装置中冷板出现堵塞或泄漏时,需要将整个冷却装置拆卸,会存在运维费时费力的问题。
一方面,本申请提供一种冷却装置,包括冷板支架、冷板模组和盲插快速连接器;
所述冷板模组包括多个冷板,所述冷板支架上设置有多个固定位,每个所述冷板可拆卸固定在一个所述固定位上,所述冷板支架具有第一冷却通道,所述冷板具有第二冷却通道,所述冷板的第二冷却通道可串联在所
述冷板支架的第一冷却通道上,多个所述冷板的第二冷却通道之间串联和/或并联设置;
所述盲插快速连接器包括盲插公头和盲插母头,每个所述冷板对应两个所述盲插快速连接器,每一个所述冷板上设置有两个所述盲插公头,两个所述盲插公头分别位于所述第二冷却通道的两端,所述冷板支架上安装有与每一个所述冷板相对应的两个所述盲插母头,两个所述盲插母头与所述第一冷却通道连通,所述盲插快速连接器用于实现每个所述冷板与所述冷板支架连通或断开。
可选地,每一个所述固定位内设置有四个锁固螺柱,所述冷板上设置有四个锁固螺母,四个所述锁固螺母可分别螺接在所述锁固螺柱上,所述冷板上的盲插公头用于在四个所述锁固螺母分别螺接在四个所述锁固螺柱上时插入所述冷板支架上对应的盲插母头,所述冷板上的盲插公头用于在四个所述锁固螺母分别从四个所述锁固螺柱拆卸后被所述冷板支架上对应的盲插母头顶开。
可选地,所述冷板包括冷板主体和冷板把手,所述冷板把手固定在所述冷板主体上,所述第二冷却通道位于所述冷板主体和所述冷板把手内,四个所述锁固螺母设置在所述冷板主体上,两个所述盲插公头设置在所述冷板把手上。
可选地,所述冷板支架包括支架主体、支架把手和流道盖板,所述支架把手和所述流道盖板分别固定在所述支架主体上,所述流道盖板和所述支架主体围成所述第一冷却通道;
多个所述固定位位于所述支架主体上,所述盲插快速连接器的盲插母头位于所述流道盖板上。
可选地,所述支架主体上设置有锁固孔,所述锁固孔用于将所述支架主体固定在AI服务器的GPU模块上。
可选地,所述流道盖板位于所述支架主体的上表面的下方,所述流道盖板和所述支架主体围成积液槽,所述积液槽用于收集所述冷板拆装过程中出现的泄漏或收集所述流道盖板与所述支架主体之间的泄漏;
所述积液槽内设置有泄漏传感器。
可选地,所述支架主体上设置有排液口和排液通道,所述排液通道将所述冷板支架上的积液槽与所述排液口连通。
可选地,所述冷板模组包括四个冷板组,四个所述冷板组并联设置,每个所述冷板组包括两个所述冷板,两个所述冷板的第二冷却通道串联设置。
可选地,所述冷板支架设置有至少一个流入接头和至少一个流出接头,所述流入接头和所述流出接头分别与所述第一冷却通道连通。
另一方面,本申请提供一种AI服务器,包括:电路板、多个GPU模块和如上所述的冷却装置;
多个所述GPU模块设置在所述电路板上,所述冷却装置可拆卸地安装在所述电路板上,每个所述GPU模块对应所述冷却装置的一个冷板。
本申请提供一种冷却装置及AI服务器,通过盲插快速连接器实现每个冷板与冷板支架连通或断开,当冷却装置的冷板出现堵塞或泄漏时,出现堵塞或泄漏的冷板对应的盲插快速连接器的盲插公头和盲插母头快速断开,使得冷却液分别封闭在出现堵塞或泄漏的冷板内和冷板支架内,摒弃了将整个冷却装置拆装,从而可以实现对出现堵塞或泄漏的冷板快拆快换,进而使得运维省时省力。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种AI服务器的结构示意图;
图2为图1中的AI服务器的爆炸示意图;
图3为图1中的AI服务器的俯视示意图;
图4为图3中的A-A剖面示意图;
图5为图1中的冷却装置的结构示意图;
图6为图5中的冷却装置的冷板支架和盲插母头的结构示意图;
图7为图5中的冷却装置的冷板和盲插公头的结构示意图;
图8为图7中的冷板和盲插公头剖面示意图;
图9为图5中的冷板支架的爆炸示意图;
图10为图5中的冷板支架俯视示意图;
图11为图10中的B-B剖面示意图。
附图标记说明:
1-冷却装置;10-冷板支架;101-固定位;102-第一冷却通道;103-锁
固螺柱;104-锁固孔;105-积液槽;11-支架主体;111-上表面;112-排液口;113-排液通道;12-支架把手;13-流道盖板;15-流入接头;16-流出接头;20-冷板组;21-冷板;211-第二冷却通道;212-锁固螺母;22-冷板主体;23-冷板把手;30-盲插快速连接器;31-盲插公头;32-盲插母头;2-GPU模块;3-电路板。
1-冷却装置;10-冷板支架;101-固定位;102-第一冷却通道;103-锁
固螺柱;104-锁固孔;105-积液槽;11-支架主体;111-上表面;112-排液口;113-排液通道;12-支架把手;13-流道盖板;15-流入接头;16-流出接头;20-冷板组;21-冷板;211-第二冷却通道;212-锁固螺母;22-冷板主体;23-冷板把手;30-盲插快速连接器;31-盲插公头;32-盲插母头;2-GPU模块;3-电路板。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“安装”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接或彼此可通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”
可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在以上描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指接合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式接合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
相关技术中,AI服务器的多个GPU模块配置有冷却装置,冷却装置包括多个冷板、多个软管和分水器,多个冷板通过软管与分水器串联,每个冷板和每个GPU模块之间设置有导热材料,每个冷板固定在GPU模块上。然而,冷却装置中冷板出现堵塞或泄漏时,冷板和软管之间固定连接,对出现堵塞或泄漏的冷板进行拆卸,会使冷却液泄漏,而且冷却装置中的冷却液经过高压可靠度测试,单冷板不可以随意拆卸,因此需要将整个冷却装置拆卸并返厂检修,从而会存在运维费时费力的问题。
为了解决上述问题,本申请通过盲插快速连接器实现每个冷板与冷板支架连通或断开,当冷却装置的冷板出现堵塞或泄漏时,出现堵塞或泄漏的冷板对应的盲插快速连接器的盲插公头和盲插母头快速断开,使得冷却液分别封闭在出现堵塞或泄漏的冷板内和冷板支架内,摒弃了将整个冷却装置拆装,从而可以实现对出现堵塞或泄漏的冷板快拆快换,进而使得运维省时省力。
相关技术中,冷却装置采用多个软管,软管长期通冷却液,软管的材质可能与冷却液发生反应,可能导致冷却液变质,以及软管老化,从而使得软管长期使用的可靠性风险增大。
为了解决上述问题,本申请将管路集成在冷板支架内,省去了软管,减少了软管材质干扰,冷板支架替代软管,使得冷却装置可靠性增加,而且还使冷却装置节省空间。冷板固定在冷板支架的固定位上,使得冷板布
局简洁。
相关技术中,冷却装置中冷板出现堵塞或泄漏时,需要将整个冷却装置拆装,整个冷却装置拆装需要更换每个冷板对应的导热材料,从而会使运维成本增加。
为了解决上述问题,本申请只对出现堵塞或泄漏的冷板进行拆装,且只对出现堵塞或泄漏的冷板对应的导热材料进行更换,从而可以降低运维成本。
相关技术中,当冷板与GPU模块固定后,冷板与GPU模块之间添加的导热材料在受压下排尽空气,导热材料会紧紧将冷板和GPU模块吸附到一起,在拆卸冷板时,会出现拆卸困难的问题。需要说明的是,GPU模块为了散热和可靠性考虑,导热材料会选用相变材料,使得常温下的吸附力强。
为了解决上述问题,本申请当冷却装置的冷板出现堵塞或泄漏时,出现堵塞或泄漏的冷板从冷板支架上拆卸后,出现堵塞或泄漏的冷板对应的盲插快速连接器的盲插母头会将盲插公头顶开,出现堵塞或泄漏的冷板可以利用顶开的力辅助拆卸,从而使得冷板的拆卸难度降低。
下面结合具体实施例对本申请实施例提供的冷却装置及AI服务器进行详细说明。
图1为本申请实施例提供的一种AI服务器的结构示意图,需要说明的是,本申请实施例的AI服务器未对箱体和冷却系统进行显示;图2为图1中的AI服务器的爆炸示意图;图3为图1中的AI服务器的俯视示意图;图4为图3中的A-A剖面示意图。
如图1至图4所示,本申请实施例提供一种AI服务器,包括冷却装置1、多个GPU模块2和电路板3;多个GPU模块2设置在电路板3上,冷却装置1可拆卸地安装在电路板3上,每个GPU模块2对应冷却装置1的一个冷板21。
图5为图1中的冷却装置的结构示意图;图6为图5中的冷却装置的冷板支架和盲插母头的结构示意图;图7为图5中的冷却装置的冷板和盲插公头的结构示意图;图8为图7中的冷板和盲插公头的剖面示意图。
如图4至图8所示,本申请实施例提供一种冷却装置1,包括冷板支架10、冷板模组和盲插快速连接器30;冷板模组包括多个冷板21,冷板支架10上设置有多个固定位101,每一个固定位101固定一个冷板21,冷
板支架10具有第一冷却通道102,冷板21具有第二冷却通道211,冷板21的第二冷却通道211可串联在冷板支架10的第一冷却通道102上,多个冷板21的第二冷却通道211之间串联和/或并联。
如图4、图6和图7所示,盲插快速连接器30包括盲插公头31和盲插母头32,每个冷板21对应两个盲插快速连接器30,每一个冷板21上设置有两个盲插公头31,两个盲插公头31分别位于第二冷却通道211的两端,冷板支架10上安装有与每一个冷板21相对应的两个盲插母头32,两个盲插母头32与第一冷却通道102连通,盲插快速连接器30用于实现每个冷板21与冷板支架10连通或断开。
其中,冷板支架10可拆卸安装在AI服务器的多个GPU模块2对应的电路板3上。冷板支架10的材质选用强度可靠、刚度可靠、质地轻盈以及与冷却液兼容性高的金属。在一些示例中,冷板支架10的材质可以选用铜、不锈钢、铝合金中的至少一种。
冷板支架10的固定位101的数量与GPU模块2的数量保持一致。当冷却装置1安装在电路板3上时,冷板21与GPU模块2接触,冷板21可带走GPU模块2的热量。需要说明的是,冷板21与GPU模块之间可设置导热材料。
冷板支架10可以通过内部设置流道,该流道形成第一冷却通道102,也可以在内部嵌入金属管形成第一冷却通道102。在一些示例中,冷板支架10内部嵌入铜管,冷板支架10除去铜管的其他部分的材质为铝合金。
冷板支架10可与冷却系统的主管路连接,冷却系统的主管路中的冷却液可流入冷板支架10的第一冷却通道102中,冷板支架10的第一冷却通道102中的冷却液可流出到冷却系统的主管路中。
冷板21的材质可以与冷板支架10的材质相同,也可以不相同。冷板21可以通过内部设置流道,该流道形成第二冷却通道211。
冷板21可以根据散热需求中的热阻与流阻需求设计。根据AI服务器的需求,可以设计固定位101的数量不同的冷板支架10,以适应对于GPU模块2的数量不相同的AI服务器。
多个冷板21的第二冷却通道211之间串联和/或并联设置。具体而言,多个冷板21的第二冷却通道211的串联设置;多个冷板21的第二冷却通道211的并联设置;多个冷板21的第二冷却通道211既有串联也有并联。
多个冷板21共用冷板支架10。多个冷板21的第二冷却通道211之间的串并联关系可以根据实际需求进行设置。
在一种可选的实施方式中,如图2和图5所示,AI服务器包括八个GPU模块2,冷板支架10设置八个固定位101,冷板模组包括四个冷板组20,四个冷板组20并联设置,每个冷板组20包括两个冷板21,两个冷板21的第二冷却通道211串联设置。
盲插快速连接器30为可实现管路快速连通或断开的连接器。当冷板21固定在冷板支架10的固定位101上时,冷板21上的两个盲插公头31可插入冷板支架10上对应的盲插母头32中。盲插公头31在插入盲插母头32的过程中,可吸收中心位置偏差。
需要说明的是,盲插母头32内设置有弹簧,当盲插公头31插入盲插母头32中时,盲插公头31会压缩盲插母头32内的弹簧,可产生40~50N的压缩力。当冷板21从冷板支架10的固定位101拆卸后,冷板支架10上的两个盲插母头32内的弹簧会将冷板21上的两个盲插公头31顶开,对冷板21可产生80~100N的力。
盲插快速连接器30的盲插公头31插入盲插母头32中后,第一冷却通道102中的冷却液可流入到第二冷却通道211中,第二冷却通道211中的冷却液可流出第一冷却通道102中;盲插快速连接器30的盲插公头31被盲插母头32顶开后,使得冷却液分别封闭在冷板21内和冷板支架10内,冷板支架10内的冷却液不会通过盲插母头32流出,冷板21内的冷却液不会通过盲插公头31流出。
当冷板21固定在冷板支架10上,且冷板支架10安装在电路板3上时,整个液冷回路形成,冷却液可带走工作的GPU模块2上的热量。
当冷却装置1的冷板21出现堵塞或泄漏时,对AI服务器断电,将出现堵塞或泄漏的冷板21对应的盲插快速连接器30的盲插公头31和盲插母头32快速断开,使得冷却液分别封闭在出现堵塞或泄漏的冷板21内和冷板支架10内,堵塞或泄漏的冷板21内的冷却液不流动,摒弃了将整个冷却装置拆装,从而可以实现对出现堵塞或泄漏的冷板21快拆快换,进而使得运维省时省力。需要说明的是,除了可以对堵塞或泄漏的冷板21进行维护,还可以对堵塞或泄漏的冷板21对应的GPU模块2进行维护。
将第一冷却通道102集成在冷板支架10内,省去了软管,减少了管路
材质干扰,冷板支架10替代软管,使得冷却装置可靠性增加,而且还使冷却装置1节省空间。冷板21固定在冷板支架10的固定位101上,使得冷板布局简洁。
通过只对出现堵塞或泄漏的冷板21进行拆装,且只对出现堵塞或泄漏的冷板21对应的导热材料进行更换,从而可以降低运维成本。需要说明的是,当导热材料为相变材料时,可先对相变材料进行预热,再对冷板21进行维护。
当冷却装置1的冷板21出现堵塞或泄漏时,出现堵塞或泄漏的冷板21从冷板支架10上拆卸后,出现堵塞或泄漏的冷板21对应的盲插快速连接器30的盲插母头32会将盲插公头31顶开,出现堵塞或泄漏的冷板21可以利用顶开的力辅助拆卸,从而使得冷板21的拆卸难度降低。
可选地,如图6和图7所示,每一个固定位101内设置有四个锁固螺柱103,冷板21上设置有四个锁固螺母212,四个锁固螺母212可分别螺接在锁固螺柱103上,冷板21上的盲插公头31用于在四个锁固螺母212分别螺接在四个锁固螺柱103上时插入冷板支架10上对应的盲插母头32,冷板21上的盲插公头31用于在四个锁固螺母212分别从四个锁固螺柱103拆卸后被冷板支架10上对应的盲插母头32顶开。
其中,四个锁固螺母212在冷板21上均匀间隔设置,以使在四个锁固螺母212分别螺接在四个锁固螺柱103时,冷板21受力均匀。可选地,四个锁固螺柱103上可以均设置带有锥度的光杆,在固定冷板21时,冷板21上的四个锁固螺母212先分别通过四个光杆导向后,再分别与四个锁固螺柱103螺接。
如图5和图7所示,冷板21包括冷板主体22和冷板把手23,冷板把手23固定在冷板主体22上,第二冷却通道211位于冷板主体22和冷板把手23内,四个锁固螺母212设置在冷板主体22上,两个盲插公头31设置在冷板把手23上。通过冷板把手23,可以方便冷板21拆装。
当冷板21的四个锁固螺母212分别螺接在四个锁固螺柱103上时,冷板21上的盲插公头31插入冷板支架10上对应的盲插母头32内,以使第一冷却通道102中的冷却液可流入到第二冷却通道211中,第二冷却通道211中的冷却液可流出第一冷却通道102中。此外,当冷板21的四个锁固螺母212分别螺接在四个锁固螺柱103上时,冷板21与四个锁固螺柱103
的底座相抵接,可以限制冷板21在安装方向上的自由度。
当冷板21的四个锁固螺母212分别从四个锁固螺柱103上拆卸后,冷板21上的盲插公头31会被冷板支架10上对应的盲插母头32顶开,同时借助冷板把手23,可以使得冷板21便于拆卸。
图9为图5中的冷板支架的爆炸示意图;图10为图5中的冷板支架俯视示意图;图11为图10中的B-B剖面示意图。
可选地,如图5和图6所示,冷板支架10包括支架主体11、支架把手12和流道盖板13,支架把手12和流道盖板13分别固定在支架主体11上,如图9至图11所示,流道盖板13和支架主体11围成第一冷却通道102。通过支架把手12,可以方便冷板支架10拆装和搬运。
其中,支架把手12的数量可以根据需要进行设置。在一些示例中,支架把手12的数量可为两个。
在支架主体11上加工出流道,流道盖板13与支架主体11固定连接,流道盖板13将该流道封闭,封闭的流道为第一冷却通道102。具体而言,流道盖板13可以焊接在支架主体11上。在其他方式中,流道盖板13也可以通过螺栓固定在支架主体11上,流道盖板13与支架主体11之间设置有密封圈。
多个固定位101位于支架主体11上,盲插快速连接器30的盲插母头32位于流道盖板13上。
支架主体11上设置有锁固孔104,锁固孔104用于将支架主体11固定在AI服务器的电路板3上。锁固孔104可以为螺纹孔,支架主体11可以通过螺栓穿过锁固孔104固定在AI服务器的电路板3上。
进一步地,如图9和图11所示,流道盖板13位于支架主体11的上表面111的下方,流道盖板13和支架主体11围成积液槽105,积液槽105用于收集冷板21拆装过程中出现的泄漏或收集流道盖板13与支架主体11之间的泄漏。通过积液槽105收集泄漏的冷却液,可以防止泄漏的冷却液流到GPU模块上造成短路。
其中,支架主体11的上表面111为支架主体11远离GPU模块2的一面。流道盖板13位于支架主体11的上表面111的下方,流道盖板13的上方为积液槽105,流道盖板13的下方为第一冷却通道102。
流道盖板13在支架主体11上可能因为固定不恰当,导致第一冷却通
道102内的冷却液可能通过流道盖板13与支架主体11之间泄漏。
如图10和图11所示,积液槽105内设置有泄漏传感器。具体而言,当冷板21拆装过程中出现的泄漏或收集流道盖板13与支架主体11之间的泄漏时,泄漏传感器可以检测冷却装置1有泄漏,也即是说,泄漏传感器可以检测到积液槽105中有冷却液。泄漏的冷却液流入积液槽105,可以为冷板装置1维护提供缓冲时间。泄漏传感器为可以检测泄漏的传感器。
支架主体11上设置有排液口112和排液通道113,排液通道113将冷板支架10上的积液槽105与排液口112连通。积液槽105中的泄漏液通过排液通道113排至排液口112,然后通过排液口112排至AI服务器中不影响GPU模块2工作的位置,从而可以降低冷却装置1泄漏带来的损坏。
可选地,如图6和图10所示,冷板支架10设置有至少一个流入接头15和至少一个流出接头16,流入接头15和流出接头16分别与第一冷却通道102连通。
其中,流入接头15和流出接头16均与冷却系统的主管路连通。冷却系统的主管路中的冷却液可通过流入接头15流入冷板支架10的第一冷却通道102中,冷板支架10的第一冷却通道102中的冷却液可流出接头16流出到冷却系统的主管路中。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
- 一种冷却装置,其特征在于,包括冷板支架、冷板模组和盲插快速连接器;所述冷板模组包括多个冷板,所述冷板支架上设置有多个固定位,每个所述冷板可拆卸固定在一个所述固定位上,所述冷板支架具有第一冷却通道,所述冷板具有第二冷却通道,所述冷板的第二冷却通道可串联在所述冷板支架的第一冷却通道上,多个所述冷板的第二冷却通道之间串联和/或并联设置;所述盲插快速连接器包括盲插公头和盲插母头,每个所述冷板对应两个所述盲插快速连接器,每一个所述冷板上设置有两个所述盲插公头,两个所述盲插公头分别位于所述第二冷却通道的两端,所述冷板支架上安装有与每一个所述冷板相对应的两个所述盲插母头,两个所述盲插母头与所述第一冷却通道连通,所述盲插快速连接器用于实现每个所述冷板与所述冷板支架连通或断开。
- 根据权利要求1所述的冷却装置,其特征在于,每一个所述固定位内设置有四个锁固螺柱,所述冷板上设置有四个锁固螺母,四个所述锁固螺母可分别螺接在所述锁固螺柱上,所述冷板上的盲插公头用于在四个所述锁固螺母分别螺接在四个所述锁固螺柱上时插入所述冷板支架上对应的盲插母头,所述冷板上的盲插公头用于在四个所述锁固螺母分别从四个所述锁固螺柱拆卸后被所述冷板支架上对应的盲插母头顶开。
- 根据权利要求2所述的冷却装置,其特征在于,所述冷板包括冷板主体和冷板把手,所述冷板把手固定在所述冷板主体上,所述第二冷却通道位于所述冷板主体和所述冷板把手内,四个所述锁固螺母设置在所述冷板主体上,两个所述盲插公头设置在所述冷板把手上。
- 根据权利要求1所述的冷却装置,其特征在于,所述冷板支架包括支架主体、支架把手和流道盖板,所述支架把手和所述流道盖板分别固定在所述支架主体上,所述流道盖板和所述支架主体围成所述第一冷却通道;多个所述固定位位于所述支架主体上,所述盲插快速连接器的盲插母头位于所述流道盖板上。
- 根据权利要求4所述的冷却装置,其特征在于,所述支架主体上设 置有锁固孔,所述锁固孔用于将所述支架主体固定在AI服务器的GPU模块上。
- 根据权利要求4所述的冷却装置,其特征在于,所述流道盖板位于所述支架主体的上表面的下方,所述流道盖板和所述支架主体围成积液槽,所述积液槽用于收集所述冷板拆装过程中出现的泄漏或收集所述流道盖板与所述支架主体之间的泄漏;所述积液槽内设置有泄漏传感器。
- 根据权利要求6所述的冷却装置,其特征在于,所述支架主体上设置有排液口和排液通道,所述排液通道将所述冷板支架上的积液槽与所述排液口连通。
- 根据权利要求1-7任一项所述的冷却装置,其特征在于,所述冷板模组包括四个冷板组,四个所述冷板组并联设置,每个所述冷板组包括两个所述冷板,两个所述冷板的第二冷却通道串联设置。
- 根据权利要求1-7任一项所述的冷却装置,其特征在于,所述冷板支架设置有至少一个流入接头和至少一个流出接头,所述流入接头和所述流出接头分别与所述第一冷却通道连通。
- 一种AI服务器,其特征在于,包括:电路板、多个GPU模块和如权利要求1-9任一项所述的冷却装置;多个所述GPU模块设置在所述电路板上,所述冷却装置可拆卸地安装在所述电路板上,每个所述GPU模块对应所述冷却装置的一个冷板。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211697582.4A CN116027864A (zh) | 2022-12-28 | 2022-12-28 | 冷却装置及ai服务器 |
CN202211697582.4 | 2022-12-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024139222A1 true WO2024139222A1 (zh) | 2024-07-04 |
Family
ID=86077468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2023/110865 WO2024139222A1 (zh) | 2022-12-28 | 2023-08-02 | 冷却装置及ai服务器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116027864A (zh) |
WO (1) | WO2024139222A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116027864A (zh) * | 2022-12-28 | 2023-04-28 | 西安易朴通讯技术有限公司 | 冷却装置及ai服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130277008A1 (en) * | 2012-04-19 | 2013-10-24 | Hitachi, Ltd. | Liquid leakage prevention device, liquid leakage prevention method, and liquid cooling system |
CN109521860A (zh) * | 2018-11-06 | 2019-03-26 | 郑州云海信息技术有限公司 | 一种用于gpu服务器带漏液检测的水冷系统 |
CN112492828A (zh) * | 2020-11-27 | 2021-03-12 | 腾讯科技(深圳)有限公司 | Pcb板组件、分水器、液冷模组、液冷系统和电子设备 |
CN113805673A (zh) * | 2021-08-24 | 2021-12-17 | 中航光电科技股份有限公司 | 一种cpu或gpu分体式液冷冷板固定结构 |
CN217238759U (zh) * | 2022-02-24 | 2022-08-19 | 上海闻泰电子科技有限公司 | 冷却系统 |
CN114995612A (zh) * | 2022-06-28 | 2022-09-02 | 西安易朴通讯技术有限公司 | 一种液冷模块及液冷模块的组装结构 |
CN217683828U (zh) * | 2022-03-30 | 2022-10-28 | 比赫电气(太仓)有限公司 | 一种液冷系统的盲插快速接头 |
CN116027864A (zh) * | 2022-12-28 | 2023-04-28 | 西安易朴通讯技术有限公司 | 冷却装置及ai服务器 |
-
2022
- 2022-12-28 CN CN202211697582.4A patent/CN116027864A/zh active Pending
-
2023
- 2023-08-02 WO PCT/CN2023/110865 patent/WO2024139222A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130277008A1 (en) * | 2012-04-19 | 2013-10-24 | Hitachi, Ltd. | Liquid leakage prevention device, liquid leakage prevention method, and liquid cooling system |
CN109521860A (zh) * | 2018-11-06 | 2019-03-26 | 郑州云海信息技术有限公司 | 一种用于gpu服务器带漏液检测的水冷系统 |
CN112492828A (zh) * | 2020-11-27 | 2021-03-12 | 腾讯科技(深圳)有限公司 | Pcb板组件、分水器、液冷模组、液冷系统和电子设备 |
CN113805673A (zh) * | 2021-08-24 | 2021-12-17 | 中航光电科技股份有限公司 | 一种cpu或gpu分体式液冷冷板固定结构 |
CN217238759U (zh) * | 2022-02-24 | 2022-08-19 | 上海闻泰电子科技有限公司 | 冷却系统 |
CN217683828U (zh) * | 2022-03-30 | 2022-10-28 | 比赫电气(太仓)有限公司 | 一种液冷系统的盲插快速接头 |
CN114995612A (zh) * | 2022-06-28 | 2022-09-02 | 西安易朴通讯技术有限公司 | 一种液冷模块及液冷模块的组装结构 |
CN116027864A (zh) * | 2022-12-28 | 2023-04-28 | 西安易朴通讯技术有限公司 | 冷却装置及ai服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN116027864A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10337800B2 (en) | Modular plate and shell heat exchanger | |
CA2864231C (en) | Modular plate and shell heat exchanger | |
US10175004B2 (en) | Method of servicing modular plate and shell heat exchanger | |
US5144531A (en) | Electronic apparatus cooling system | |
WO2024139222A1 (zh) | 冷却装置及ai服务器 | |
CN220821716U (zh) | 液冷管路和具有其的电池柜 | |
CN218448145U (zh) | 液冷管路系统及储能设备 | |
CN218472081U (zh) | 液冷组件及电池总成 | |
CN219626737U (zh) | 电池包液冷装置 | |
CN216600665U (zh) | 供回液管路及采用该供回液管路的液体冷却系统 | |
CN223077503U (zh) | 一种带管路固定的波浪板热交换器 | |
CN110081766A (zh) | 一种可拼装的换热装置 | |
CN216081139U (zh) | 一种撬装底座及余热利用装置 | |
CN215991728U (zh) | 换热装置 | |
CN219572791U (zh) | 一种侧出水可拆卸式水室封头结构 | |
CN219995599U (zh) | 热泵水路集成模块 | |
CN221943902U (zh) | 燃气轮机发电机组不停机更换润滑油冷却器的装置 | |
CN219267756U (zh) | 一种储能装置水冷板 | |
CN217682028U (zh) | 一种进气管总成 | |
CN221486602U (zh) | 电池箱及电池包 | |
CN222261180U (zh) | 一种液冷机组的液冷管路系统 | |
CN213811876U (zh) | 一种管式换热器 | |
CN220893081U (zh) | 一种余热回收装置 | |
CN221239669U (zh) | 同程式液冷管路结构及其系统和储能设备 | |
CN116471814A (zh) | 一种用于ate测试设备的集分水器结构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23909164 Country of ref document: EP Kind code of ref document: A1 |