推进 AI 系统散热到极限:不采用浸入式冷却
创始人
2025-05-16 19:21:40
0

现在哪一项更难获得: 1,665 个 Nvidia 的 “Blackwell” B200 GPU 计算引擎,还是在美国东北部地区签订四年期合同的 10 兆瓦电力?

毫无疑问,更难的是后者,而不是前者,而且两者成本大约都是 6600 万美元。

有趣的是,在 GB200 NVL72 机架规模系统配置下,这些 GPU 实际上可能需要 13.4 兆瓦的电力才能运行,这意味着在四年内它们将消耗约 88.5 兆瓦的电力。而且如果你不需要为 GPU 提供机架规模一致性内存域,因为你使用 GPU 设备进行 AI 训练而非推理 ( which operates at a scale of tens of thousands of GPUs ) ,你消耗的电力大致相同,但你可以使用双倍的空间和一半的功率密度。

关于现代 AI 数据中心还有一个有趣的点:如果你无法证明自己获得了规定的电力,在专为处理系统密度而设计的数据中心中,Nvidia 不会向你出售 GPU,直到你能证明你拥有足够的电力。而且,就在上周我们在纽约市 NASDAQ 交易所参加专注于金融服务行业中 AI 的会议时,街头的反馈是,电力公司如今正试图充分利用他们的千兆瓦电力发电量,并在分配电力之前越来越关注你如何分配电力和进行 AI 数据中心的冷却。

越来越多的是,如果你不能证明你在合理使用电力,你就得不到或者得不到所需的电量。

再加上一个事实,即在运行连锁思维模型的 AI 系统中,计算密度是必不可少的,因为这些模型要求 GPU 之间具备超低延迟的一致性内存链接用于 AI 推理。虽然直接液冷在未来并非不可避免,但它现在绝对是必需的。而且很多数据中心并不习惯这种冷却方式,那些早在五六十年前 IBM System/360 和 System/370 大型机时代采用过液冷技术的数据中心,如今已经很久没有见到液冷设备了。

这就是为什么像 Supermicro 这样的公司必须在 GPU 加速系统的直接液冷技术上不断突破极限。

Supermicro 市场和网络安全高级副总裁 Michael McNerney 对 The Next Platform 表示:“我们所接触的所有客户都在思考每兆瓦电力可以支持和冷却多少个 GPU。他们告诉我们他们有多少兆瓦电力,并且希望获得尽可能多的 GPU。讨论的焦点在于 GPU 密度和每兆瓦可容纳的 GPU 数量,而不是节省电费,而是能有更多的 GPU 用于处理 AI 工作负载。”

Supermicro 在 2023 年秋季开发了第一代直接液冷系统,该系统在 CPU 和 GPU 上均配备了冷板,并基于 Nvidia 的 “Hopper” H100 GPU 构建了八 GPU 服务器,由此首次显现出一些在 HPC 系统中使用多年的冷却技术需要在 AI 系统中普及。Supermicro 设计并制造了整个 DLC 系统,包括冷板、机架中的冷却液分配单元 ( CDUs ) 以及为机架设备提供冷水的冷水机。

值得注意的是,xAI 在孟菲斯数据中心中“Colossus”系统的一半 —— 共计 50,000 个 H100 GPU —— 采用 Supermicro 的 DLC-1 技术建成。系统的另一半 ( with another 50,000 H100s ) 则由 Dell 构建,仅采用风冷技术。

Colossus 机器中的这些节点配备了一对 CPU 和八个 H100 GPU。服务器节点还配备了八个 ConnectX-7 网络接口卡 ( one for each GPU ) ,以及一对用于系统管理的低速以太网接口卡、用于连接 GPU 集群与 CPU 及节点内存储的 PCI-Express 交换机和其他若干组件。DLC-1 系统使用温度为 30 摄氏度 ( Celsius ) 的水,能够从系统中移除超过 70% 的热量,这在效率和电力节省方面有了显著改善。DLC-1 配置中的 CDU 额定功率为 100 千瓦。

但鉴于全球电力供应短缺及其昂贵的成本,Supermicro 推出了 DLC-2 液冷系统,该系统本周宣布,并率先在 Blackwell B200 GPU 节点中亮相。

下面展示的是一款采用 DLC-2 冷却的全新 4U 节点的外观:

从技术上讲,根据 Supermicro 的命名规则,上述机器型号为 SYS-422GS-NBRT-LCC。CDU 效率更高,能提供 250 千瓦的冷却流量,且重要的是它可以使用温度仅为 45 摄氏度的液体运行,这意味着它可以使用外部冷却塔而非冷水机组进行冷却,从而降低整体电力需求。

在 B200 HGX SuperServer 中采用 DLC-2 配置时,配备有一对 Intel Xeon 6 CPU 和八个 Blackwell B200 GPU 的处理器拥有冷板,而主内存 DIMM、节点内的 PCI-Express 交换机、电源以及电压调节器也均装有冷板,以便直接散发热量。

而随着 Supermicro 今年晚些时候推出的 HGX B300 系统,ConnectX-7 及之后的网络接口卡也将采用液体冷却,因此系统产生的热量中约 98% 将通过液体散热,而非空气。实际上,SuperServer B300 节点仅配备两个小型风扇,噪音极低。

这一切的结果是,采用 DLC-2 冷却的 GPU 系统在散热方面使用的电力比仅两年前采用完全风冷的 HGX H100 系统低 40%。采用 DLC-2 配置的机架电源使用效率 ( PUE ) 也将降得非常低。普通的传统企业数据中心机架的 PUE 为 1.6 到 2.0,这意味着数据中心机架消耗的电力是运算单元工作所需电力的 1.6 倍到 2 倍,多余的电力用于冷却机架。采用 DLC-1 后,Supermicro 机架的 PUE 降至约 1.2,而 DLC-2 的目标则是低至 1.02 PUE。

另外,DLC-2 机架的噪音水平降低到了约 50 dB,相比之下,DLC-1 机架约为 75 dB。普通对话约 60 dB,繁忙交通 ( outside the car ) 约 85 dB。摇滚音乐会噪音大约 120 dB,而喷气式飞机起飞时则达到 140 dB。

冷却 AI 系统更高效的唯一方法就是将其浸入婴儿油或其他不会损坏计算机组件的冷却液之中。话说回来,这种方法非常极端。

相关内容

热门资讯

凯普斯取得实芯轮胎装配自动扒胎... 金融界2025年8月6日消息,国家知识产权局信息显示,江苏凯普斯工业科技有限公司取得一项名为“实芯轮...
深圳一初中生,入选“国家队” 近日,北京天文馆正式公布入选 2025年度国际天文奥赛 中国代表队学生名单 来自全国多个省市学校的 ...
歌尔股份取得发声装置和电子设备... 金融界2025年8月6日消息,国家知识产权局信息显示,歌尔股份有限公司取得一项名为“发声装置和电子设...
ISC.AI 2025在京开幕... 8月6日,第十三届互联网安全大会(ISC.AI 2025)在北京开幕。智能体作为大会的核心议题,实现...
苏州赛伍取得膜材制备生产线专利... 金融界2025年8月6日消息,国家知识产权局信息显示,苏州赛伍应用技术股份有限公司取得一项名为“膜材...
青原排查整治涉铊企业风险隐患 近日来,青原生态环境局严格按照“全覆盖、零容忍、明责任、严执法、重实效”的要求,通过创新监管模式、引...
聚焦临床科研 破解行业痛点 来源:新民晚报 本报讯(记者 左妍)目前,我国AI技术已在应急救治、远程会诊等场景广泛应用,显著提升...
原创 仅... 赶在去年最后一天,小米低调的上架了一款起售价499的新机红米14C,而在沉默了两天后,这款新机也是如...
青岛恒森聚工贸取得一种激光切割... 金融界2025年8月6日消息,国家知识产权局信息显示,青岛恒森聚工贸有限公司取得一项名为“一种激光切...
AT&T宣布:达成Op... C114讯 8月6日消息(艾斯)美国AT&T官网消息显示,该运营商近期与其合作伙伴爱立信和富士通实现...
泰斗微电子申请定位方法相关专利... 金融界2025年8月6日消息,国家知识产权局信息显示,泰斗微电子科技有限公司申请一项名为“定位方法、...
新疆库车市:科技赋能让棉花管理... 库车市将物联网、大数据技术与棉花种植深度融合,依托智慧水务平台构建起数字棉花智能化管理系统,棉农只需...
原创 地... 能量守恒定律指出:能量既不会凭空产生,也不会凭空消失,它只会从一种形式转化为另一种形式,或者从一个物...
OpenAI发布两款开源大语言... 来源:至顶网 OpenAI今日发布了新的生成式AI模型,虽然不是GPT-5,但这些新模型可能更加有...
立铠精密取得型材自动循环上升夹... 金融界2025年8月6日消息,国家知识产权局信息显示,立铠精密科技(盐城)有限公司取得一项名为“型材...
DJI ROMO P 首发评测... 是的,大疆做了个扫地机器人。 小雷知道很多人都一脸诧异,这家专注运动相机、无人机和影像周边设备的企业...
聚焦2025数博会|今年这些内... 2025数博会脚步渐近,一系列丰富且极具看点的活动安排浮出水面,从前沿产品展示到深度交流研讨,从精彩...
TD产业联盟:2025年2季度... 今天分享的是:TD产业联盟:2025年2季度5G产业和市场发展报告 报告共计:30页 《2025年二...
友邦集成吊顶取得石膏顶用隐藏式... 金融界2025年8月6日消息,国家知识产权局信息显示,浙江友邦集成吊顶股份有限公司取得一项名为“一种...
美的取得三相无源电路线路板布局... 金融界2025年8月6日消息,国家知识产权局信息显示,广东美的制冷设备有限公司、美的集团股份有限公司...