2024年7月,国家发改委、国家电子信息主管部门、国家能源局、国家数据局联合发布了《数据中心绿色低碳发展专项行动计划》,政策提出,到2025年全国新建大型、超大型数据中心PUE降到1.3以下,国家枢纽节点进一步降到1.25以下。
生成式AI浪潮让智能算力需求呈爆发式上升,数据中心产业投资开始从通用算力中心迅速转向智能算力中心。随着算力密度爆炸式增长,AI服务器的单机功耗已从数千瓦迅速增长至数十千瓦级别,其热负荷密度甚至超过某些加热设备。如此巨大的功率若发热无法得到及时有效的疏导,将不可避免地引发芯片过热降频、宕机,甚至永久损坏,最终导致价值高昂的算力资源严重浪费。服务器的热管理性能已成为制约其功耗与可靠性表现的关键,数据中心绿色发展导向更进一步要求提高散热效率、降低散热功耗。而实现高效散热的核心,正依赖于服务器内极致精巧的热管理技术。
浪潮计算机通过创新的散热架构设计、散热器布局优化、热源分区布置、智能调控策略研究,成功破解了AI服务器的散热困局,实现了6U空间支持多达8颗热设计风冷功耗可达800W、液冷功耗可达1000W的国内GPU,能效提升20%以上,PUE降至1.15以下,突破国内高性能智算系统散热瓶颈。
►►► 创新的散热架构设计
浪潮计算机AI服务器突破传统风冷架构散热性能边界,在CS5698H3、CS5898H3等AI旗舰机型中,研发高热流液冷散热解决方案,突破传统液冷技术在适配国内1000W级智算芯片时出现的换热能力不足与系统流阻激增瓶颈,实现系统流阻降低40%以上、换热效率提升30%以上,显著增强了对国内超高热流芯片的散热支持能力;开发模块化液冷解耦架构,支持高可靠的系统液冷灵活扩展,覆盖从单个高性能智算节点到高密度整机柜级别的全液冷散热需求。最终形成高效能、全栈液冷的先进智算基础设施解决方案。
在安全层面,开发周密的漏液监测和防护、隔离、收集措施,实现涵盖实时多级监测、秒级响应机制及厘米级精准定位的全面漏液防护体系,确保液体零扩散,全面提升系统运行可靠性与安全性。
►►► 散热器的最优布局
散热器是服务器中散热的核心器件,承担着“导热”、“散热”、“导流”的作用,然而散热器的位置和布局可不仅仅是“放上去”这么简单。
首先,散热器的翅片数量、热管数量并不是越多越好,翅片过多会造成风阻增加,热管过多会侵占散热面积,通过优化布局找到最佳平衡点,实现散热效能最大化。另一方面,散热器组合在一起在机箱内会形成复杂的“气流峡谷”。散热器的大小、位置、机箱内的导流结构、整机配置等因素综合决定了服务器内部的风道,既要确保每个散热器都能获得足量、均匀的冷空气,又要避免在散热器之间或与其他组件(线缆、卡槽)之间形成死区或涡流,还需考虑不同部件在温度上的相互影响,因此散热器的布局设计是一个系统性的流体与热力学工程问题。
在传统散热设计中,往往依赖工程师的经验与反复试错,然而面对功耗动辄超过10kW的AI服务器,此类方法无论在开发成本还是设计效率方面均难以满足要求。浪潮计算机引入了基于数字仿真的系统化设计方法,通过在虚拟环境中进行“沙盘推演”,实现对散热方案的高效寻优。
在研发过程中,浪潮计算机工程师采用先进的热仿真分析方法与布局优化算法,构建服务器的精细化数字模型,模拟不同配置方案下的温度场分布与气流轨迹。通过在数字模型中对散热器翅片间距、热管布局和走向等关键参数进行多轮迭代优化,同时改进系统导流结构设计,借助“仿真-设计-测试”闭环协同机制,逐步逼近热力学与流体性能的最佳平衡,最终确立系统级别的散热最优布局。
►►► 智能调控,按需供给
散热布局是静态的骨骼,风扇则是动态的心脏。如何让这颗心脏跳得既强劲又经济,是智能调控技术的使命。
浪潮计算机开发智能温控策略调度机制,结合热源分区管理、温度均值及滤波算法与功耗寻优算法,构建系统化散热调控体系,有效应对国内芯片热阻偏大、可靠性较差及功耗波动较快所带来的散热挑战,显著降低散热功耗,抑制风扇转速振荡现象,提升系统热稳定性与能效表现。目前已开发十几套智能温控策略,实现“千人千面”、按需所取。
传统策略设定固定高转速或简单的温度-转速曲线,常导致风扇在低负载时仍高速空转,白白消耗电能。浪潮计算机AI服务器部署了遍布CPU、GPU、内存、网卡等各关键点的数十个高精度温度传感器,实时采集并反馈各核心元件的运行温度,并能够依据设备ID实现精准的部件识别与差异化风扇调控。系统可基于实时温度及核心负载动态调节风扇转速,实现了“需要多少冷风,就提供多少风量”, 并支持根据用户需求自行选择运行模式。相比传统方案,该策略可实现风扇功耗降低50%以上,在满足散热需求的同时,显著降低运行噪声,提升整机能效比,最大程度实现节能降耗。
►►► 精准分区,精细管理
浪潮计算机在系统热管理中注重整体调控的灵活性与响应速度。依据不同热源特性实施分区布置与均衡化热负载分配,有效避免热区预混与相互干扰。针对关键核心部件,设计独立隔离风道,借助系统级导流结构汇聚气流,抑制局部热累积,从而实现冷却气流的高效利用。通过风扇分区精准调控与基于热影响权值的分级策略,在保障各部件温度均匀稳定的同时,显著降低系统散热功耗。
假设一台服务器有10个风扇,全部统一高速运行时总功耗为1000W。统一调速的策略下, 即使只有GPU过热,所有10个风扇也必须同时高速运转。而通过分区调控的策略,根据不同区域的温度仅让负责GPU区域的4个风扇高速运转(耗电400W),其他6个风扇维持低速(耗电150W)。总风扇功耗仅为550W,节能高达45%。这种分区调控机制,使服务器在100%负载下的核心部件温差控制在±3℃以内。
依托散热架构设计、布局优化、热源分区布置、智能调控的技术矩阵,浪潮计算机将本为耗电巨兽的AI服务器,驯化为一台能效提升20%、PUE降至1.15以下的“能效高手”,在无声中确保了万亿次计算的稳定运行,支撑正在迈入的智能时代。 浪潮计算机,用科技的力量为数智时代注入澎湃动能。
微信扫描下方的二维码阅读本文
- 热交换核心 :冷板(CPU/GPU专用)、CDU(冷量分配单元);
- 循环网络 :Manifold分液器、EPDM/PTFE管路、快接头;
- 动力与控制 :变频循环泵(如飞龙股份电子泵)、智能温控系统。
