一文详解深度学习冷板式液冷散热技术规范及要求之二
液冷应用案例
一、超聚变液冷解决方案
超聚变数字技术有限公司经过 10 年可靠性积累,170 余项可靠性测试,已经成功在国内外交付商用液冷服务器 10000+台,商用案例有互联网、高校、云数据中心、政企、超算、金融等。
超聚变打造整创新架构整机柜液冷服务器,整机柜使用机柜上走电下走水架构,原生液冷设计实现天然可靠性保障,支持 100%液冷散热,PUE 达 1.10 以下,满足国家政策要求,是东数西算最佳的液冷解决方案,整机柜支持高密部署,整机柜可支持 144 个 CPU,同时机房免冷机部署,机房空间利用率再提升20%;业界首创液、网、电三总线盲插,机柜内 0 线缆部署,支持机房向机器人运维演进,同时配套超聚变智能运维管理软件业务上线效率提升 10 倍以上。通过架构创新和整机工程技术创新打造最佳的商用液冷方案,致力为客户提供绿色节能算力,为东数西算主要枢纽节点提供优质方案。
在国内某液冷数据中心布署有超聚变上万液冷节点,是全球最大液冷集群,TCO 降低 30%,交付效率提升 100%。
二、英特尔助力京东云打造冷板液冷解决方案
到 2025 年,重点工业行业能效全面提升,数据中心等重点领域能效明显提升,绿色低球能源利用比例显著是高,节能提效进一步成为绿色任碳的"等一能源"和降相成碳的首要举措,新建大型超大型数挺中心电能利用效率(PUE)优于1.3。
1、数据中心能耗持续增长液冷散热比风冷更具优势
现代化高密度数据中心,不断提升的整体功耗给救热效率,节能减排、运营成本等带来了极大挑战,相比传统的空气冷却方案,液体冷却(液冷)有着更高的冷却效率与解源效率:
热量能够在更靠近其来源的地方与液冷介质进行交换
同体积的传热介质,冷却剂传递热量的速度是空气的6倍,蓄热量是空气的1000倍
冷却液传热次数更少,容量缩减更小,可更有效降低XPU等关键组件的运行温度及性能损失
2、高密度工作负载计算能力需求不断提升
芯片整体TDP随性能增加而增加,京东云 x86 处理器典型TDP,2013年为105瓦,2022年为350瓦
CPU漏电功率随温度升高而增加,占用更多功率预算,冷却系统要帮助将热阻降低到典型范围:0.3-0.5 c/w
液冷与风冷在设计上有较大差异,在效率、稳定性、经济性等方面还有很多优化空间
3、面向可持续发展的冷板液冷解决方案
京东云冷板液冷解决方案是从数据中心级到系统级的整体方案,涵盖CDU、机架、服务器等不同层级的产品与技术,在CDU、工作液、歧管、服务器等方面进行了针对性的设计。
CDU
在整体液冷解决方案中,CDU 必须具有泵、热交换器、过滤器、补水系统、变频器、监视器功能(如温度和压力传感器)和其他组件
工作液
一次回路侧选择去离子水+乙二醇作为工作流体。去离子水有低电阻特性,乙二醇确保流体在低环境温度下冻结而导致管道破裂的低风险。二次回路选择纯去离子水以提高热性能。
歧管
安装在机架上的歧管将冷流体分配到每个服务器节点,在歧管顶部的快速连接器可方使机架部署;歧管底端设计了手动排污口,方便系统排水维护。
服务器
服务器液冷方案主要由冷板、管路、快速接头和检漏线组成,单相冷板供液温度范围为 40~45℃,工作液容乙二酶溶液(去离子水)。为防范液体泄露,京东云采用检漏线包裹液冷系统,特别是在冷板和管路接头处,确保漏液情况下及时报告并启动漏液应急措施。
4、第三代英特尔”至强”可扩展平台助力京东云服务器液冷设计
第三代英特尔至强可扩展处理器
提供8个插措配置的多插槽内核计数密度
性能、吞吐量和 CPU频率显著提升
内置AI加速功能,提供无规性能基础,加快多云、智能边缘和后端等数据的变革性影响。
京东云已于 2021年第二季度在数据中心部署了冷板液冷解决方案采用了基于第三代英特尔至强可扩展处理器的定制化服务器,调整了核心数、基础和 Turbo题率,TDP、RAS特性、T机箱等主要基数,以适配其可持续的液冷数据中心。
5、实际工程部署结束,京东云冷板液冷方案优势显著
通过部署冷板液冷整体解决方案,京东云自建数据中心实现:
数据中心PUF 降至1.1
每个14KW 机柜每年节电31031度
每个14KW 机柜每年碳减排24.4吨
三、蓝海大脑冷板液冷解决方案
蓝海大脑通过多年的努力,攻克了各项性能指标、外观结构设计和产业化生产等关键技术问题,成功研制出蓝海大脑高性能冷板散热解决方案,支持快速图形处理,GPU 智能运算,性价比高,外形美观,满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。
快速、高效、可靠、易于管理的蓝海大脑液冷工作站具备出色的静音效果和完美的温控系统。在满负载环境下,噪音控制在 35 分贝左右。借助英伟达 NVIDIA 、英特尔Intel、AMD GPU显卡可加快神经网络的训练和推理速度,更快地创作精准的光照渲染效果,提供高速视频和图像处理能力,加速AI并带来更流畅的交互体验。
深度学习液冷服务器系统突破传统风冷散热模式,采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却,其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式,可大幅提升服务器散热效率,同时,降低主要热源 CPU 散热所耗电能,并增强服务器可靠性。经检测,采用液冷服务器配套基础设施解决方案的数据中心年均 PUE 值可降低至 1.2 以下。
液体冷却方案名词解释
一、冷板式液冷
冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。其中,热量通过装配在需要冷却的电子元器件上的冷板,再通过冷板与液体工质的热交换实现的方式,称为间接式液冷。其与浸没或喷淋式液冷技术不同,后者主要是指电子元器件(通常在热源表面也需要安装散热翅片,以增加热交换面积)与冷却工质直接接触的冷却方式。
二、冷板
冷板是带有内部流体通道并允许冷却工质流过的热交换器或散热器。冷板安装在需要冷却的电子元器件热表面上,将元器件产生的热量通过液体冷却工质传递到冷量分配单元的板式热交换器。冷板的设计多种多样,可以根据不同的需求对其进行结构设计优化,其内部流道可以是沟槽、扣合翅片、铲齿、折叠翅片等构造。对于一些高功耗或高热密度元器件的散热设计,流道通常还会设计成更复杂的微通道结构,以增加接触面积,提高其散热性能。
冷板基本结构形态包括散热模块和固定模块,固定模块设计应最大限度满足扣合力正压冷板。根据散热模块和固定模块之间的连接方式可分为分体式液冷冷板(冷板散热模块与固定模块由螺钉或其他方式连接,可根据需求进行拆卸与组装),以及一体式液冷冷板(冷板散热模块与固定模块不可拆卸与组装)。根据密封形式则可分为密封圈组装式或焊接密封等。
三、混合冷却
指同时使用风冷和冷板液冷的方式。常见的混合冷却是对高功率和高热密度元器件使用液冷冷却,而对于低功率元件的冷却则使用风冷的方式。以 IT 设备的冷却为例,对于 CPU / GPU 或内存模块上会安装液冷冷板,而风扇则用于形成强迫风冷对其他元器件进行冷却。
此外,还有一种将冷板、泵及换热器集成在计算系统里面的设计应用。所以采用混合冷却方式的设计仍然需要空调,来满足非液冷元器件的散热需求。为进一步降低机房空调的功耗,可以在机柜门安装液冷背板门对热空气进行初步冷却,这种方式可以用于高温机房的设计,甚至可以取消机房空调,构成全液冷冷却设计。
四、全液冷却
全液冷却指的是将所有元器件产生的热量全部通过液体冷却工质传递至外部环境的冷却方式。对于 IT 设备,采用全液体冷却大致有两种方式,一种是通过冷板设计实现服务器热量完全导入冷却工质,一种是通过冷板和液冷背板门组合的方式将服务器的热量全部导入冷却工质。前者需要通过设计一个与服务器设计相匹配的复合冷板组件为所有元器件提供冷却工质的热传递路径。
对于全液冷机架的设计,机架通常会有一个冷板背板门安装在热空气出口,将服务器中的热量传递到液冷工质中。全液体冷却方式只需要最低能耗限度的室内空调,来消除残余在空气中的热量。在可接受高温机房的设计中,室内空调甚至可以取消,以进一步降低数据中心 PUE。
五、单相和两相冷却工质(冷却工质 / 冷媒)
依据冷却工质在吸收或释放热量过程中可能保持液相或产生气液相转化的特性,可将冷却工质区分为单相冷却工质和两相冷却工质。对于在整个运行过程中保持单一液态的冷却工质称之为单相冷却工质,通常包含水基冷却工质和非水基冷却工质两类。
水基冷却工质中,以纯水为溶剂,不添加任何其他材料或只依据耐零下温度需求添加一定比例(0%~60%)防冻剂构成的,为纯水液,需要配合工质纯化模块使用;以纯水为溶剂,添加缓蚀剂、杀生剂等,并依据耐零下温度需求添加一定比例(0%~60%)防冻剂构成的,为配方液,使用时需要定期取样检测添加剂状况。非水基冷却工质,一般为沸点不低于水的氢氟醚、全氟碳等介电液体或矿物油,使用时需在浸润材料兼容性上应进行严格审查和测试。
对于在吸热和放热过程中会发生气液两相转换的液体,称之为两相冷却工质。两相冷却工质的沸点通常较低,主要通过液体的气化潜热吸收热量,在循环中形成携带热量的两相流。两相冷却工质通常是介电液体或冷媒。不同两相冷却工质的沸点通常不同。
冷板式相变液冷技术的冷板有时也被称为蒸发器。在本文中,冷板指用于单相冷却工质或两相冷却工质的冷板,冷却工质指单相或两相冷却工质。冷却工质和所有暴露在冷却工质中的材料(称为浸润材料)之间必须具有相容性,以降低在长期工作环境下腐蚀、加速老化、渗透等风险。且即使在确保冷却工质和所有浸润材料相容,在实际操作中仍然需要定期检查冷却工质,以确保冷却工质的品质稳定可靠。
六、冷量分配单元
冷量分配单元的主要作用是隔离一次侧与二次侧回路,并在其内部提供一次侧与二次侧的热交换能力。冷量分配单元主要分为机架式(嵌柜式)、机柜式和平台式等。机柜式 CDU 通常为一个或多个 IT设备的机架甚至整个机房提供冷却,具备比机架式 CDU 所需更大的冷却能力和供液能力。平台式 CDU 通常是一种带有更大冷却能力和供液能力的 CDU 类型,最大冷却能力可达到 10MW 以上,可以为整个数据中心提供冷却。为避免 CDU 故障造成冷量不足,需要结合实际情况充分考虑 CDU 的 N+1、N+2 冗余备份,或对 CDU内部的泵驱模块进行 N+1 冗余设计,以确保足够的冷量用于冷却 IT设备,或构成冗余设计实现 CDU 的可在线维护。
CDU 中通常包含热交换模块、一二次侧过滤组件、二次侧泵驱模块、定压脱气模块、定压补液模块、恒温恒压监控模块、漏液检测模块、冷却工质品质参数(电导率、pH)检测模块、控制系统、防凝露及去离子装置等。其中,二次侧过滤组件的过滤能力须匹配冷却回路中对颗粒最敏感的部件,如自封式快换接头和微通道冷板的需求,以确保冷却工质中潜在的颗粒不会在流体回路中造成堵塞,并阻止冷却工质的流动,或插拔时部件失去自封能力。建议过滤精度为 50 微米。
七、机架式冷却工质供回液歧管
冷却工质供回液歧管主要功能是将从 CDU 分配进入各机架内的冷却工质再次均匀分流到各 IT 设备,并从冷板出液端收集回流液体。歧管必须能够提供符合 IT 设备需求的冷却流量,确保机架内冷却工质流量分布均匀,保障 IT 设备可在线移出或接入液冷系统。这些因素在设计中必须仔细考量。
八、自封式快换接头
自封式快换接头(QD)用于帮助维护人员检修而提供快速连接,或断开 IT 设备或其组件与液冷系统的连接并确保具备自封功能,进而确保冷却工质不会泄漏,液冷系统运行不受影响,IT 设备可持续安全运行。自封式快换接头一般有两种设计,即手动插拔式和盲插式。手动插拔式是需要人为手动握住快换接头,进行插拔连接操作的接头设计,可分为单手插拔和双手插拔式,因为涉及手动插拔动作,需要保证足够插拔操作空间。而盲插接头是一种通过压力将公母头插入导通或拔开断开,无需手动操作的接头设计,需要通过精确的滑轨设计或定位销来辅助定位连接,并要保持导通所需的压力,以避免公母头滑移导致接头液路断开。