原创 从万卡到十万卡,国产RDMA何以改写AI基础设施竞争格局?
创始人
2026-03-17 09:54:54

过去几年,大模型竞赛不断刷新人们对算力规模的认知。从最初的百卡集群,到如今动辄万卡、数万卡的训练系统,AI基础设施正在经历一次堪比高性能计算发展的结构性跃迁。

很多业内人士最初以为,大模型训练的核心变量只是GPU数量。但真正参与过大型训练平台建设的工程师们往往会得出另一个结论:决定系统效率的,不只是算力芯片,而是整个集群的互联网络;在百卡时代,网络只是一个配套组件,而到了万卡时代,则变成了决定系统上限的关键变量。

在这一背景下,高速互联网络开始成为AI基础设施的核心竞争力之一。但事实却是,长期以来,全球高端AI集群普遍采用InfiniBand架构,而在国内,随着AI算力规模持续扩大,一条被业内称为“国产IB路线”的技术路径正在逐渐形成。令人惊喜的是,随着国产原生RDMA网络scaleFabric的发布以及万卡集群的落地运行,这一技术路径已经从实验室走向真实应用。

模型训练走向万卡规模,网络互联决定成败

如果把大模型训练比作一条高速公路,那么GPU就是车辆,而高速互联网络则是道路系统。当车辆数量只有几十辆时,道路并不会成为问题,但当车流量上升到成千上万时,路网结构就会直接决定整体效率。具体到AI训练系统,这种所谓的“交通压力”则来自于分布式训练机制。

众所周知,如今的大模型几乎全部采用分布式并行训练,模型参数被拆分到大量计算节点上,每一轮训练都需要在不同节点之间同步梯度数据,而随着模型规模扩大和并行度提升,节点之间的数据交换量呈指数级增长。

例如在一些超大规模训练任务中,网络通信时间甚至会占到整体训练时间的30%—50%,这意味着,如果没有一套极低延迟、极高带宽且能实现“无损”传输的互联架构,花费巨资建设的万卡集群本质上只是一个效率低下的“算力黑洞”。

事实是,很多工程师在第一次接触万卡集群时都会遇到类似问题,主要体现在GPU算力明明充足,但训练效率却远低于预期,最终排查发现,瓶颈往往不在计算,而是通信。

对此,某AI基础设施架构师强调,他们早期在一个万卡训练平台上做测试时,GPU利用率一度只有40%左右。团队最初怀疑是训练框架问题,后来通过网络分析工具才发现,节点之间的大量AllReduce通信被网络延迟拖慢,导致GPU大量时间在等待数据。

正是上述这种对连接性的极致追求,直接催生了对RDMA(远程直接内存访问)网络技术的刚性需求。

RDMA允许服务器之间直接访问彼此内存,而不需要经过操作系统和CPU的数据拷贝,从而显著降低延迟并提高带宽利用率,同时凭借低延迟和无损传输特性,已经成为大型算力中心的基础设施核心。而在在过去二十多年里,InfiniBand一直是这一领域的主导技术。据高性能计算榜单统计,全球约60%的超级计算机系统都采用InfiniBand互联架构。

但随之而来的挑战是,当AI训练规模从几千卡走向数万卡时,传统网络体系开始逐渐接近设计边界。最典型的表现就是规模扩展能力。例如InfiniBand的地址空间设计限制其单子网规模大约在五万卡以内,而随着AI模型规模不断膨胀,越来越多的算力中心开始规划十万卡级甚至更大规模的训练平台,这使得传统IB架构在扩展性上逐渐逼近极限。

与此同时,国内算力基础设施建设还面临另一个现实问题,即InfiniBand产业链长期由海外厂商主导,从高速SerDes IP到交换芯片、网卡设备都高度集中在少数厂商手中。而在算力逐渐成为国家级基础设施的背景下,这种依赖显然难以持续。

正是在这样需求背景的推动下,国内开始探索自主RDMA网络技术,一条被业内称为“国产IB”的路线逐渐形成。

从追赶到重新定义万卡网络,国产IB路线的自主突围

在很多工程师看来,国产IB并非简单复制InfiniBand,而是在吸收其核心理念的基础上,为AI训练场景重新设计网络架构。换言之,以scaleFabric为代表的国产原生RDMA网络,其目标非常明确,那就是构建一套能够支撑超大规模AI集群的高速互联系统,并实现从底层芯片到软件栈的完整自主研发。

与市面上许多基于商用IP授权或成熟以太网方案进行改良的路径不同,scaleFabric选择了从最底层的112G SerDes IP开始,到交换芯片、网卡硬件,再到ScaleOS网络协议栈的全栈自研路径。尽管这种“推倒重来”的做法在初期固然艰难,但在进入万卡实战阶段后,其爆发出的技术红利让一线架构师们感到振奋。

以系统核心的两颗自研芯片为例,一颗400G RDMA网卡芯片以及一颗高性能交换芯片,均基于自主研发的112G SerDes技术,实现高速信号传输和低误码率通信。而在实际性能指标上,这套系统已经达到国际主流水平。其中网卡单端口带宽达到400Gbps,实测带宽接近397Gbps,端到端通信延迟约0.9微秒,交换机转发延迟约260纳秒。这意味着,在基础通信能力上,国产RDMA网络已经能够与当前主流的NDR InfiniBand系统处于同一量级。

但真正体现技术差异的地方,则在于其面向万卡集群的架构设计。

首先是扩展能力的重新设计。通过对网络地址空间和协议结构的优化,国产RDMA网络可以支持超过11万卡的单子网规模,大约是传统InfiniBand系统上限的2.3倍,这为未来十万卡级AI集群提供了更大的扩展空间。

其次是并发通信能力。在大规模训练中,网络需要同时维护大量通信连接,连接数量直接影响系统并发能力。而国产RDMA网卡的QP数量达到85万以上,远高于传统IB网卡水平,使系统能够支持更多并行通信任务,尤其在面对超大规模AI集群的密集全对全(All-to-All)通信场景时,展现出极强的吞吐韧性,确保了在万卡规模下,网络连接不会因为资源耗尽而产生崩溃。

最后的关键创新是网络无损机制。在工程师看来,AI训练集群最怕的不是带宽不足,而是丢包。因为一旦发生丢包,RDMA就需要重新传输数据,这在万卡规模下极易引发性能雪崩。针对于此,传统以太网方案通常依赖PFC机制保证无损,但这种方式在大规模环境中容易引发拥塞风暴。为解决这一问题,国产IB方案提出了iLossless智能无损网络,并结合SuperTunnel通信优化体系,从应用层、传输层和网络层三个维度优化通信效率。例如系统可以自动识别AllReduce通信模式,根据拓扑动态调度带宽,并通过硬件卸载减少CPU参与,从而提升整体通信效率。

所谓事实胜于雄辩。从目前已披露的信息来看,scaleFabric网络在部分万卡集群中已连续稳定运行超过数月,在辐照材料分子动力学软件模拟等场景中,当集群从千卡扩展到万卡时,并行效率依然能维持在80%–86%的区间;在堆芯流体力学软件的复杂测试中,通信开销从约50%压缩到10%左右,这些数据无疑为“真无损”提供了初步工程层面的支撑。

当然,从客观的角度,我们也必须正视差距。毕竟国际顶尖方案在生态成熟度、全球化部署的验证广度以及与CUDA软件栈的底层融合上,仍具有深厚的壁垒。相较之下,国产方案目前仍处于从“跑通”向“跑好”的关键跨越期。

尽管如此,国产IB在更高的端口密度、更低的整体组网成本以及更大的网络规模扩展能力已经展现出明显的优势。

更重要的是,由于scaleFabric拥有完整IP自主权,它能够支持更加灵活的网络架构设计。例如在自动驾驶等对Checkpoint写入频率要求极高的训练场景中,系统可以定制化分配存储I/O带宽与计算同步带宽。而在不少工程师眼中,这种“可定义网络”的能力,正是国产高性能网络在真实应用中实现弯道超车的重要基础。

重塑AI基座,国产IB路线的当下与未来

当我们把视线从具体的芯片参数移开,审视scaleFabric对于中国AI基础设施的整体影响时,会发现其意义已经超越了单一的产品范畴。

如果说几年前行业谈论国产化更多还停留在“有没有替代方案”的阶段,那么在万卡级算力机房里,工程师们感受到的变化已经逐渐从“替代”走向“重构”。而当网络这条“算力大动脉”从芯片、协议到管理软件都掌握在自己手中时,很多原本被视为既定约束的系统边界,也开始变成可以重新设计的变量。

例如,传统InfiniBand单子网规模长期被认为大约在五万卡左右,工程师在设计集群时往往会在这一规模附近止步。而国产IB通过对地址编码与路由体系的重新设计,将这一规模上限扩展到了11万卡级别。这个数字或许暂时不会马上被完全用满,但它释放出的信号却十分清晰,即未来在规划区域级乃至跨中心AI集群时,网络规模不再先天受限。

与此同时,这条技术路线也正在改变AI基础设施的工程实践方式。例如在已经投入运行的郑州万卡集群项目中,给不少业内人士留下深刻印象的不只是算力规模,而是部署效率。从网络设备进场到万卡规模训练任务真正跑起来,整个过程只用了大约30小时的时间,再配合自动拓扑发现、集中版本管理、主动压测以及数字孪生可视化运维体系,过去需要数周时间逐一校对链路、人工执行压测脚本的工作,如今已经被压缩成一套高度自动化的流程。而这种“交付难度曲线被压平”的变化,对于那些同时承担多个算力项目却长期面临运维人手不足的团队而言,意味着未来可以更加大胆地规划多套万卡甚至十万卡级集群,而不必每次都担心运维复杂度失控。

至于更长远的影响,则体现在AI基础设施整体形态的变化上。当算力、存储和网络三大子系统逐步实现自主可控之后,工程师的想象空间不再局限于“按既有架构堆接口”,而是能够围绕具体业务场景进行更深层次的协同设计。例如在自动驾驶数据训练中心,可以针对高频Checkpoint和海量日志回传,对计算、存储与网络进行联合调度;在科研和超算场景中,也可以为不同规模作业预配置Fabric网络切片,让网络行为像操作系统资源调度一样精细而可控。

值得一提的是,目前这些设想已经在部分试点项目中开始出现,而国产IB所提供的可编程能力与开放接口,正是实现这种“算网一体化”探索的重要基础。

最后,从更宏观的产业视角来看,高速互联网络的自主能力不仅关系到单个数据中心的性能上限,也将影响未来全国算力资源如何进行跨区域高效协同。而随着多个国家算力枢纽和智算中心陆续落地,算力中心之间的互联方式、协议体系以及运维能力,都将在相当长一段时间里影响大模型训练效率与AI应用创新速度。

在上述背景下,国产IB路线的出现,某种意义上是在为未来十年的算力“高速公路网”铺设路基。一方面,通过推动行业标准与开放生态的形成,让不同厂商的算力芯片、服务器与存储系统能够在统一互联规范下协同演进,避免整个产业长期受制于单一封闭协议体系;另一方面,也让中国企业在参与国际技术标准讨论时,手中不再只是理论方案,而是已经在真实生产环境中运行的大规模工程实践。

写在最后:过去,国内AI基础设施更多依赖国外技术体系,而随着国产RDMA网络、国产AI芯片以及国产并行存储逐渐成熟,一套完整的国产算力基础设施体系正在形成。需要说明的是,这种体系并不是简单替代国外产品,而是在某些维度上形成新的技术路线。例如更大的网络规模、更灵活的通信优化机制以及更低的整体成本结构,都为未来大规模AI训练提供了新的可能性。

展望未来,万卡时代的基础设施革命才刚刚开始,高速互联网络,很可能成为决定未来算力竞争格局的关键一环,而伴随中科曙光下一代交换芯片的研发已在路上,我们正在通过scaleFabric这样的实践,定义出一套符合中国AI产业需求、具有韧性的技术标准。正如某架构师所言:“我们现在做的事,不是简单的复制,而是用我们自己的方式,去翻越那座名为‘算力巅峰’的高山。路可能不一样,但我们终将到达相同的终点。”

相关内容

热门资讯

龙华人工智能再创新 解锁 “A... 龙华再启人工智能创新,率先启动“AI+个体创业”创新模式!3月13日,“OPC共智人才创新创业园区”...
小米汽车官宣苏炳添为品牌代言人... 【CNMO科技消息】3月17日,小米汽车官方正式宣布,中国田径短跑运动员、“亚洲飞人”苏炳添出任小米...
阿里发布全球首个企业级Agen... 极目新闻记者 康旭阳 3月17日,阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队...
黄仁勋演讲省流版:1万亿美元、... 北京时间周二清晨,英伟达创始人兼首席执行官黄仁勋用一场酣畅淋漓的演讲,向全世界展现着算力巨头未来一年...
三星Glasses智能眼镜电池... 【CNMO科技消息】根据SamMobile的最新报道,三星即将推出的首款智能眼镜Galaxy Gla...