推进 AI 系统散热到极限:不采用浸入式冷却
创始人
2025-05-16 19:21:40
0

现在哪一项更难获得: 1,665 个 Nvidia 的 “Blackwell” B200 GPU 计算引擎,还是在美国东北部地区签订四年期合同的 10 兆瓦电力?

毫无疑问,更难的是后者,而不是前者,而且两者成本大约都是 6600 万美元。

有趣的是,在 GB200 NVL72 机架规模系统配置下,这些 GPU 实际上可能需要 13.4 兆瓦的电力才能运行,这意味着在四年内它们将消耗约 88.5 兆瓦的电力。而且如果你不需要为 GPU 提供机架规模一致性内存域,因为你使用 GPU 设备进行 AI 训练而非推理 ( which operates at a scale of tens of thousands of GPUs ) ,你消耗的电力大致相同,但你可以使用双倍的空间和一半的功率密度。

关于现代 AI 数据中心还有一个有趣的点:如果你无法证明自己获得了规定的电力,在专为处理系统密度而设计的数据中心中,Nvidia 不会向你出售 GPU,直到你能证明你拥有足够的电力。而且,就在上周我们在纽约市 NASDAQ 交易所参加专注于金融服务行业中 AI 的会议时,街头的反馈是,电力公司如今正试图充分利用他们的千兆瓦电力发电量,并在分配电力之前越来越关注你如何分配电力和进行 AI 数据中心的冷却。

越来越多的是,如果你不能证明你在合理使用电力,你就得不到或者得不到所需的电量。

再加上一个事实,即在运行连锁思维模型的 AI 系统中,计算密度是必不可少的,因为这些模型要求 GPU 之间具备超低延迟的一致性内存链接用于 AI 推理。虽然直接液冷在未来并非不可避免,但它现在绝对是必需的。而且很多数据中心并不习惯这种冷却方式,那些早在五六十年前 IBM System/360 和 System/370 大型机时代采用过液冷技术的数据中心,如今已经很久没有见到液冷设备了。

这就是为什么像 Supermicro 这样的公司必须在 GPU 加速系统的直接液冷技术上不断突破极限。

Supermicro 市场和网络安全高级副总裁 Michael McNerney 对 The Next Platform 表示:“我们所接触的所有客户都在思考每兆瓦电力可以支持和冷却多少个 GPU。他们告诉我们他们有多少兆瓦电力,并且希望获得尽可能多的 GPU。讨论的焦点在于 GPU 密度和每兆瓦可容纳的 GPU 数量,而不是节省电费,而是能有更多的 GPU 用于处理 AI 工作负载。”

Supermicro 在 2023 年秋季开发了第一代直接液冷系统,该系统在 CPU 和 GPU 上均配备了冷板,并基于 Nvidia 的 “Hopper” H100 GPU 构建了八 GPU 服务器,由此首次显现出一些在 HPC 系统中使用多年的冷却技术需要在 AI 系统中普及。Supermicro 设计并制造了整个 DLC 系统,包括冷板、机架中的冷却液分配单元 ( CDUs ) 以及为机架设备提供冷水的冷水机。

值得注意的是,xAI 在孟菲斯数据中心中“Colossus”系统的一半 —— 共计 50,000 个 H100 GPU —— 采用 Supermicro 的 DLC-1 技术建成。系统的另一半 ( with another 50,000 H100s ) 则由 Dell 构建,仅采用风冷技术。

Colossus 机器中的这些节点配备了一对 CPU 和八个 H100 GPU。服务器节点还配备了八个 ConnectX-7 网络接口卡 ( one for each GPU ) ,以及一对用于系统管理的低速以太网接口卡、用于连接 GPU 集群与 CPU 及节点内存储的 PCI-Express 交换机和其他若干组件。DLC-1 系统使用温度为 30 摄氏度 ( Celsius ) 的水,能够从系统中移除超过 70% 的热量,这在效率和电力节省方面有了显著改善。DLC-1 配置中的 CDU 额定功率为 100 千瓦。

但鉴于全球电力供应短缺及其昂贵的成本,Supermicro 推出了 DLC-2 液冷系统,该系统本周宣布,并率先在 Blackwell B200 GPU 节点中亮相。

下面展示的是一款采用 DLC-2 冷却的全新 4U 节点的外观:

从技术上讲,根据 Supermicro 的命名规则,上述机器型号为 SYS-422GS-NBRT-LCC。CDU 效率更高,能提供 250 千瓦的冷却流量,且重要的是它可以使用温度仅为 45 摄氏度的液体运行,这意味着它可以使用外部冷却塔而非冷水机组进行冷却,从而降低整体电力需求。

在 B200 HGX SuperServer 中采用 DLC-2 配置时,配备有一对 Intel Xeon 6 CPU 和八个 Blackwell B200 GPU 的处理器拥有冷板,而主内存 DIMM、节点内的 PCI-Express 交换机、电源以及电压调节器也均装有冷板,以便直接散发热量。

而随着 Supermicro 今年晚些时候推出的 HGX B300 系统,ConnectX-7 及之后的网络接口卡也将采用液体冷却,因此系统产生的热量中约 98% 将通过液体散热,而非空气。实际上,SuperServer B300 节点仅配备两个小型风扇,噪音极低。

这一切的结果是,采用 DLC-2 冷却的 GPU 系统在散热方面使用的电力比仅两年前采用完全风冷的 HGX H100 系统低 40%。采用 DLC-2 配置的机架电源使用效率 ( PUE ) 也将降得非常低。普通的传统企业数据中心机架的 PUE 为 1.6 到 2.0,这意味着数据中心机架消耗的电力是运算单元工作所需电力的 1.6 倍到 2 倍,多余的电力用于冷却机架。采用 DLC-1 后,Supermicro 机架的 PUE 降至约 1.2,而 DLC-2 的目标则是低至 1.02 PUE。

另外,DLC-2 机架的噪音水平降低到了约 50 dB,相比之下,DLC-1 机架约为 75 dB。普通对话约 60 dB,繁忙交通 ( outside the car ) 约 85 dB。摇滚音乐会噪音大约 120 dB,而喷气式飞机起飞时则达到 140 dB。

冷却 AI 系统更高效的唯一方法就是将其浸入婴儿油或其他不会损坏计算机组件的冷却液之中。话说回来,这种方法非常极端。

相关内容

热门资讯

无人机助荔枝运输费下降六成 羊城晚报讯 记者全良波报道:满载荔枝的农用无人机从山头果园腾空而起,沿着预定航线精准飞抵冷链中心。5...
可食用机器人开启舌尖上的新科技 科学家与厨师合作,打造出一款可被全部食用的机器人婚礼蛋糕。图片来源:EPFL 想象一下这样的未来图景...
这部法,民营企业期待太久了! 走进南通力威机械有限公司(以下简称“南通力威”)生产车间,南通力威总经理娄兴建迫不及待地向记者介绍起...
郎搏万申请多功能碳纤维复合电解... 金融界 2025 年 5 月 16 日消息,国家知识产权局信息显示,深圳市郎搏万先进材料有限公司申请...
总部面对面|上海生产让全球新品... 央广网上海5月16日消息(记者郭振丹)“研发与生产的紧密协同是产品如期上市的关键,中国成熟的产业链和...
奥克斯取得导风门组件及空调器专... 金融界2025年5月16日消息,国家知识产权局信息显示,宁波奥克斯电气有限公司、奥克斯空调股份有限公...
新宙邦获得发明专利授权:“一种... 证券之星消息,根据天眼查APP数据显示新宙邦(300037)新获得一项发明专利授权,专利名为“一种负...
安徽移动首发四大能力成果 领跑... 5月16日,安徽移动于“世界通信和信息社会日安徽大会”发布低空能力体系四大创新实践成果。安徽移动锚定...
“互联网+”成为新形势下精神文... 中央宣传部文明培育局局长赵树杰5月14日在国务院新闻办公室举行的新闻发布会上表示, 大数据、云计算和...
天通卫星走出国门,中国电信在老... IT之家 5 月 16 日消息,中国电信与老挝通信有限公司 ETL 今日在老挝共同举办天通-手机直连...
电信大王卡套餐比较:哪个套餐性... 如何挑选最适合的电信大王卡套餐? 电信大王卡因其高性价比和灵活配置,在众多手机套餐中脱颖而出,成为不...
临床需求清单对接创新链,区校企... 生物医药科技成果如何跨越“死亡之谷”?临床需求怎样精准对接创新链?在日前举行的第七期“产教融合,协同...
重庆仟和镁业取得镁铝合金电池箱... 金融界 2025 年 5 月 16 日消息,国家知识产权局信息显示,重庆仟和镁业科技有限公司取得一项...
沈阳工学院携手美的集团打造数字... 中国教育报-中国教育新闻网讯(记者 刘玉 通讯员 曲艺)5月15—16日,在沈阳工学院联合美云智数共...
泰衡诺申请数据管理方法等专利,... 金融界2025年5月16日消息,国家知识产权局信息显示,深圳市泰衡诺科技有限公司申请一项名为“数据管...
业界:推进中文域名应用场景创新... 人民网北京5月16日电 (记者黄盛)自2000年我国推出全球首个中文域名试验系统以来,中文域名已走过...
数智四川提振信息消费推进会暨中... 5月15日,由四川省经济和信息化厅、四川省通信管理局指导,中国电信采购供应链管理中心和中国电信四川公...
奥普思智能取得包膜推纸装置专利... 金融界2025年5月16日消息,国家知识产权局信息显示,奥普思智能包装系统(佛山)有限公司取得一项名...
原创 产... 我以前使用的笔记本电脑是华硕的,连续用了十多年,没有任何的毛病。当然,这应该和我平日里不玩游戏,有着...
科技+体育+趣味 这个运动会很... 大象新闻记者 张心杰 为深化“五育融合”,激发学生科学探索热情,郑州市中原区西流湖小学于5月14日成...