来源:市场资讯
(来源:君实财经)
自研 N+1 制程芯片的能耗比主流的 H200 高很多 ——H200 万卡集群功耗约 13MW,而自研芯片万卡要到 25MW,单万卡就多要 12MW 的电源。要是全年落地 12 万到 15 万张自研芯片,累计得新增 500MW 的电源需求,这个量远超常规算力扩容的承载能力,直接成了电源需求爆发的根本原因。
接下来看需求怎么传导,关键节点在 Q3。只有 Q3 自研芯片回片量足够多,能支撑 12 万到 15 万卡的落地,阿里才会决定追加 AIDC 建设。毕竟没有足够电源,芯片根本用不了,所以回片顺不顺利,直接决定电源需求啥时候启动。而且现有数据中心是按 H200 这类低能耗芯片设计的,电源冗余不够,新增的 500MW 需求只能靠新建 AIDC,或者升级现有 AIDC 的电源系统来满足,形成 “芯片回片→AIDC 扩建→电源需求落地” 的闭环。
再看电源具体要满足什么要求,不只是加容量,还得保证稳定,所以主备电源要一起升级。主电源方面,得给 AIDC 新增 500MW 的接入,比如扩电网专线、改高压配电系统,才能扛住万卡 25MW 的高负荷。而且自研芯片算力集群的负荷波动大,像模型训练峰值、多任务切换的时候,还得换更灵活的 UPS 和模块化配电柜,防止供电断了。备用电源里,柴发的需求最关键 —— 高能耗意味着断电损失更大,万卡 25MW 集群断 1 小时,比 H200 损失多得多,所以备用电源的冗余得跟着提。按行业常规,500MW 主电源增量得配 10% 到 15% 的备用容量,也就是要新增 50 到 75MW 的柴发设备,还得能快速启停,应对电网波动。
最后,电源不只是花钱的成本项,还跟业务形成闭环。首先得有电源,12 万到 15 万张自研芯片才能变成实际算力,支撑 Q3 的 QW3、Q4 的 QW3.5 多模态模型研发,不然芯片就是堆着不用的库存,创造不了价值。然后,阿里的 CAPEX 都往 AIDC 和自研芯片倾斜,目的是补外购卡的缺口,而电源建设是 CAPEX 的重要部分,要是电源投得不够,之前在芯片、AIDC 上的投入就浪费了,所以电源需求是 CAPEX 投入的必然延伸。另外,算力租赁也得靠稳定的电源 —— 要是电源不稳,经常断电或者负荷不够,租赁服务就断了,影响变现,所以电源升级也是算力租赁能落地的前提