无效的输入。不支持特殊字符。
我们现在使用的 GPU 服务器可能很快就会告别风冷散热。举个例子,目前的风冷系统可能占据 8U 机架空间,如果在前方部署 8 块 SSD,充足的气流可确保所有设备均在规格要求范围内运行。而在新推出的服务器中,由于标配液冷系统,同样的 8 路 GPU 配置所占空间已缩减至 2U。¹突然之间,机箱之内已经没有足够宽敞的空间来从容部署 8 块 SSD 了。这 8 块 SSD 只能挤在一个狭小的空间内,热量聚集,温度很快上升,如果不能及时排出,很容易引发问题。
面对这一新现实,美光开始进行液冷 SSD 设计。存储设备必须主动接入冷却回路,不能被动等待。采用 E1.S(9.5 毫米)外形规格的美光 9650 NVMe™ SSD,正是美光为了上述目的从零开始打造的新一代液冷 SSD 产品。
在本博客中,我会详细介绍液冷技术对 SSD 的重要性、冷板散热的工作原理,以及为何 9650 SSD 的单面架构是实现高效冷板接触的理想设计。
有关散热效率的数学计算
在我们的技术简报中,我们针对配备 32 块 NVMe SSD(每块功耗 25W,总功耗 800W)的服务器,在两种温度场景下进行了建模。对于风扇驱动的气流和泵驱动的液冷系统,我们使用了标准的传热方程,并结合了与实际相符的效率假设。我们模拟了两种情况:一种情况下,数据中心环境温度与 SSD 温度相差 11.1°C,另一种情况温差较小,为 8.3°C。如果温差较大,风冷的效率会提高,这也意味着风冷系统对数据中心环境温度的变化更为敏感。
冷板可将高导热性金属块和高速流动的冷却液放在尽可能靠近热源的位置,而风冷系统只能在插满 SSD 的硬盘托架上方向 SSD 吹送空气。液冷系统既能降低组件温度,又能大幅减少将热量从服务器中排出所需的能耗。
而且,液冷系统还能扩展。Vertiv 的一份案例研究跟踪了四种数据中心配置(液冷采用率逐步增加)。² 当液冷比例从 0% 提升至 75%,设施总能耗降低了 10.7%!这不仅包括计算功耗,还涵盖了所有其他方面:暖通空调、风扇、照明,等等。
SSD 冷板散热工作原理
冷板是一种经过机械加工的金属块,内部带有微通道,通过热界面材料 (TIM) 安装在 SSD 外壳上。水-乙二醇等冷却液流过冷板,直接从器件上吸收热量,然后将热量输送到设施的冷却回路中。
新设计普遍采用带弹簧的冷板,并配备盲插式快速断开集合管。拔出 SSD 后,冷却液管路会自动断开。将替换件插入到位,它们就会重新连接。这种设计完全保留了热插拔维护能力,对企业级和超大规模部署而言,这种能力是不可或缺的。
美光 9650 NVMe PCIe 6.0 SSD:专为液冷设计
在传统 SSD 设计中,控制器、DRAM 和 NAND 等发热器件分散在 PCB 的两个面上。如果冷板只接触其中一侧,另一侧的热量就必须穿过 PCB 板才能传导至冷板。这种设计会增加热阻,降低散热效率,并导致各 NAND 芯片的温度出现差异。诸如双冷板、加厚外壳和辅助散热片等解决方案,不仅会增加成本和复杂性,而且无法从根本上解决问题。这是一个磁盘层面的设计问题,而非系统层面的散热管路架设问题。
美光 9650 SSD 采用了一种创新方案。从上面的示意图中,您可能已经注意到了——我们将大约 90% 的发热器件集中在 PCB 的一侧,而传统设计中这一比例仅为大约 60%。这种创新设计,只需搭配一块冷板,便可让整个散热架构开始工作,并具备以下优势:
- 冷板直接接触:在主要发热表面上覆盖一层均匀的传热界面,最大限度降低热阻
- 更均匀一致的 NAND 温度:芯片间温差减小,从而提升耐用性和可靠性
- 充分释放 PCIe 6.0 速度:即使在更高带宽和功耗下,散热性能仍可与搭配液冷系统的上一代 PCIe 5.0 SSD 相媲美
- 标准 E1.S 外形规格:兼容现有 9.5 毫米 EDSFF 液冷机箱,支持热插拔
对系统层的影响
磁盘层的设计固然重要,但这种设计的真正价值在于为系统层带来的回报。当 SSD 能够主动接入液冷回路,而非依赖流过自身的气流时,系统设计师便获得了从未拥有过的全新选择:
- 存储区域内风扇数量减少(或者完全取消):可以减少为磁盘散热的风扇数量,或者完全取消风扇,从而节省功耗并降低噪音。
- 更高的每服务器 SSD 密度:没有了气流间距限制,可以在更小的机架空间内放置更多磁盘。
- 对于持续运行的 AI 工作负载,热特性更可预测:液冷系统消除了因 GPU、CPU 和存储设备共享气流而产生的温度波动。
这些优势,并非停留在理论上。台达电子等生态系统合作伙伴已经开始出货 集成 SSD 冷板的全液冷服务器平台。³美光 9650 支持这些平台,其 E1.S(9.5 毫米)外形规格专为冷板环境设计。ASHRAE TC 9.9 发布的工业环境热指南定义了数据处理设备的允许温度范围⁴,而液冷技术可确保即使在高磁盘密度下,设备的运行温度也低于建议限值。
还有一个很容易被忽视的因素:效率倍增。人们通常从散热余量角度来讨论液冷技术,但该技术的更大益处体现在每瓦性能上。当数据中心不再因高转速风扇而消耗电力,并且降低了系统级散热开销时,这些节约下来的电力就能转而供其他资源使用。凭借液冷架构,9650 在能效方面较前几代产品显著提升,这不仅有助于实现可持续发展目标,还可直接降低总拥有成本。
展望未来
在高密度 AI 基础设施中,SSD 液冷系统正逐渐成为必备配置。Uptime Institute 的《2024 年全球数据中心调查报告》指出,约 20% 的运营商正在部署或计划部署液冷系统。⁵美光 9650 采用的单面架构专为冷板接触而设计,能让 SSD 液冷系统充分发挥作用。
还有一点:当我们为 SSD 营造出更适宜的工作环境温度时,我们便有可能获得更高的控制器时钟频率、写入吞吐量,以及持续稳定的工作负载性能。美光正在朝着这一目标努力,敬请期待。
如需了解完整的热力学分析(包括气流计算和实施细节),请参阅美光液冷 SSD 技术简报。
如需了解美光 9650 NVMe SSD 的更多信息,请访问 micron.com/9650
参考资料
- Vertiv,《液冷技术对数据中心能耗的影响》,2024 年。以案例研究方式追踪了四种数据中心配置(液冷采用率从 0% 到 75%),结果表明设施总能耗可降低 10.7%。
- 台达电子,《数据中心液冷解决方案》,2024–2025 年。台达提供全液冷服务器平台,集成的冷板可为 CPU、GPU 和存储设备散热。另请参见:Dell PowerEdge XE9680L、HPE ProLiant DL384 以及 Supermicro 等液冷 GPU 服务器平台。
- ASHRAE TC 9.9,《数据处理环境热指南》,第 5 版,2021 年。定义了数据中心内 IT 设备运行环境的建议级别 (A1–A4) 以及允许温度范围。
- Uptime Institute,《2024 年全球数据中心调查报告》。该报告称,约 20% 的数据中心运营商正在部署或积极规划液冷基础设施。