记者观察:从首届MDC看摩尔线程的演进逻辑
创始人
2025-12-22 00:41:13

来源:中国经营报

中经记者 李玉洋 北京报道

把GPU事业运行成功的“底层代码”是什么?有人说,是把算力数值做大;有人说,是把游戏性能拉满……作为“国产GPU第一股”,摩尔线程(688795.SH)有自己的回答。

“生态体系是GPU行业的核心护城河与价值所在。”在12月20日举行的首届MUSA开发者大会(MUSA Developer Conference,以下简称“MDC 2025”)上,摩尔线程创始人、董事长兼CEO张建中在主题演讲中表示。

需要指出的是,MUSA是摩尔线程自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。“MUSA是一个完整的从芯片到生态的系统。”张建中说。

不过,《中国经营报》记者注意到,外界通常把MUSA理解为摩尔线程的MUSA软件栈,类比英伟达的CUDA平台。“真正决定主权AI成败的是,是否有足够多的开发者愿意长期在这套栈上写代码。”中国工程院院士、清华大学计算机系教授郑纬民指出,开发者是生态核心,摩尔线程的MUSA这种类似CUDA的生态,使得开发者体验做到从“能用”到“愿用”。

在MDC 2025上,摩尔线程重磅发布了全功能GPU新架构——花港和芯片产品路线——基于花港架构的高性能AI训推一体“华山”AI芯片与专攻高性能图形渲染的“庐山”显卡。此外,摩尔线程还展示了夸娥万卡智算集群、超节点MTT C256架构、智能SoC芯片“长江”、个人智算平台MTT AIBOOK、具身智能等新动态。

“算力就是国力。我们希望能够从芯片到集群以加速计算的能力,利用全功能GPU打造国之重器,建立超大型人工智能基础设施,为各行业的科研工作者和科技开发者,让他们有条件做得更好。”张建中如是说。

全功能GPU的硬件基础:推出新一代架构和万卡集群

对于全功能GPU的理解,摩尔线程的答案依旧,即全功能GPU需要拥有“AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码”四大核心引擎,它们让全功能GPU在AI科学计算、工业智能、数字孪生、具身智能、量子计算、6G通信、生物医药等领域得到广泛应用。

摩尔线程方面表示,公司目前已成功构建起一套以自主统一架构MUSA为根基、贯穿“芯—边—端—云”的完整技术栈,实现了从底层硬件到上层应用的系统化闭环。据了解,历经5年的研发与迭代,MUSA已成功量产5颗芯片,迭代4代GPU架构和智能SoC产品。

继苏堤、春晓、曲院和平湖之后,摩尔线程在本次大会上揭晓了新一代架构的名称——花港。“摩尔线程迭代周期是一年一代架构,我们2022年量产第一代苏堤架构(对应产品S10),2023年发布春晓架构(对应产品S80和S3000),2024年量产了曲院架构(对应产品S4000),今年量产了平湖架构(对应产品S5000)。”张建中这样回忆道。

据介绍,花港架构具有以下核心特性:基于新一代指令集,算力密度提升50%;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持;集成新一代异步编程模型,通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展;内置AI生成式渲染架构(AGR),增强硬件光线追踪加速引擎;通过四层硬件安全架构,提供从芯片到系统的可验证安全守护。

而基于花港架构,摩尔线程公布了芯片产品规划——主打AI训推一体、超大规模智能计算的“华山”和高性能图形渲染的“庐山”。

华山的算力有多强?“在浮点计算方面,我们对标目前行业当中最高的两个产品,华山是介于这两者之间的一颗芯片。”张建中表示,华山在存储和通讯方面也有了改进和提升。

“除了华山的本身性能外,我们知道用户肯定不是简单买一张卡就用。大模型训练万卡还不够,怎样扩展更多的GPU为广大的用户服务?这就需要提供超过十万卡级别以上的AI工厂的技术,要提高更大的Scale-up(纵向拓展)和Scale-out(横向扩展)。”张建中说。

据了解,对应业界更为通俗的说法是,Scale Up和Scale Out是业界构建大规模GPU集群的两种方式。不过,张建中认为Scale-up存在问题。

“如果摩尔线程坚持自己的MTLink的路线,可能很多用户的Switch就无法使用。所以,在华山架构上,我们不光支持MTLink 4.0,同时更加开放支持多种类的以太协议,这些协议都会内置在华山里。”张建中表示,华山还支持SHARP,让所有的通信变得更高效。“基于新一代Scale-up系统,目前华山支持能力高达1024,也就是一个超节点可以连接1024个GPU。”此外,华山芯片里还内置了RAS 2.0能力并集成了ACE 2.0新一代异步通信引擎。

就庐山而言,张建中指出,这颗芯片专为图形计算使用。“庐山相比S80,整体游戏性能提升15倍。”据他介绍,庐山充分利用花港架构,还内置AI原生算力,拥有AI生成式渲染特性,光线追踪性能相比S80提升了50倍。

在MUSA的统一系统架构中,位于全功能GPU之上的是智算集群。“摩尔线程的智算集群叫KUAE(夸娥),我们在2024年有千卡(集群),今年有万卡(集群),再下来要做的产品是十万卡等。”在大会上,张建中发布了KUAE万卡智算集群。

对标国际主流水平,张建中强调了KUAE万卡智算集群在万亿参数模型训练上的核心能力:浮点运算能力达到10Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%,MoE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,与国际主流生态高度兼容,并在多项指标上具备显著能效优势。

在训练方面,KUAE万卡集群基于原生FP8能力,复现顶尖大模型训练流程,并且在技术层面实现关键优化:Flash Attention算力利用率>95%,并突破FP8累加精度等瓶颈。

在推理方面,摩尔线程联合硅基流动,在运行DeepSeekR1671B满血版大模型时,MTTS5000单卡Prefill吞吐速度突破4000tokens/s,Decode吞吐速度突破1000tokens/s。

超节点作为当前智算集群Scale Up的最优解,“不做超节点就掉队”已成为今年业界共识。行至2025年年底,摩尔线程也把自己的超节点解决方案——MTT C256推出来。

“超节点对于很多应用场景还是很需要的,尤其在大量的吞吐速度和加快训练集群的效率方面。”张建中提到。

据介绍,MTT C256采用计算与交换一体化的高密设计,以一层Scale Up网络实现两柜256GPU全互联,规避两层以上网络带来的带宽损失和额外延迟。

益于开发的软件灵魂:全新升级MUSA 5.0

MUSA是全生态系统的英文缩写,不只是芯片本身。在全功能GPU、KUAE智算集群的基础上,MUSA全栈软件历经5年得到升级。

“MUSA 5.0正式全面升级,可以在GPU的四大引擎基础之上,完整覆盖今天所有用户的应用场景,完美支持全功能GPU的所有生态。”张建中表示,MUSA 5.0不仅支持国际通用CPU系统,也支持国产CPU操作系统和国内的开发环境,统一的软件栈能覆盖摩尔线程“云—边—端”全系列产品,即用同一套软件就能支撑不同的硬件产品。

据介绍,全新升级的MUSA 5.0标志着架构步入成熟新阶段。在编程模型方面,MUSA 5.0原生MUSA C,深度兼容北京智源研究院开发的TileLang、Triton等编程语言,为开发者提供灵活高效的全栈开发体验。

在计算效能优化方面,MUSA 5.0核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。

在开源生态扩大方面,MUSA 5.0计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力。

此外,MUSA 5.0还拓展了前沿特性边界。“为了让所有的开发者更加灵活、充分高效地使用硬件,我们准备推出四大基础库。这四大基础工具非常有价值。”张建中表示,首先是MTX,在GPU上要想用汇编语言操纵里面的资源,其实很难。“为了满足高端开发者和专业开发者的需要,我们会把MTX在明年上半年开放给所有的开发者,这样他们可以更加精准操纵GPU每一个资源。”

“摩尔线程全功能GPU有一个很重要的特色,就是3D图形+AI应用,如何在3D图形+AI应用的场景中编程,我们要提供一个特别的语言叫muLang。它的主要价值,是让开发者通过一套指令集可以完成3D图形和AI计算场景中的编程。”他说。

此外,摩尔线程还计划推出量子计算融合框架MUSA-Q,让经典的计算框架结合量子框架更好赋能量子计算的应用场景。为了加快国产工艺的半导体生产的进步,摩尔线程也联合国内几家晶圆厂推出计算光刻库muLitho,让更多的晶圆厂在传统OPC的基础上利用GPU加速OPC计算,大大缩短时间。

布局未来计算与加快生态建设

在张建中看来,打造万卡集群、十万卡集群和超节点等,是为了让整个国产智算集群得到更广泛的应用,而这需要更多的开发者一起协力打造开放生态。图形计算,是摩尔线程的强势领域,公司一定会在此深耕,推动国产GPU向兼容性更广、技术更深的方向发展。

据悉,该公司产品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流图形与计算API,并与国产主流CPU及操作系统完成了全栈适配,持续扩展游戏及专业应用的兼容覆盖。同时宣布,即将完整支持DirectX 12 Ultimate,进一步接轨行业顶级图形标准。

在核心渲染技术上,摩尔线程拥抱“图形+AI”范式革命,实现两项关键突破:一是基于“花港”架构的硬件光线追踪加速引擎,可实现对DirectX Raytracing(DXR)的支持,使实时、逼真的光影效果在国产GPU上成为可能。二是定义AI生成式渲染(AGR),推出全自研MTAGR 1.0技术,推动渲染技术范式从“计算”走向“生成”,为下一代数字内容创作及数字孪生等场景构建国产技术基座。

而面向更广阔的未来计算场景,摩尔线程已展开前瞻性布局。具身智能方面,摩尔线程发布了MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建了开发、仿真、训练的高效统一环境。

摩尔线程还推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案。“公司将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA,以开放协作助力机器人产业研发效率提升。”张建中表示。

此外,MUSA生态还与合作伙伴在科学智能(AI for Science)、量子科技、AI for 6G等其他前沿交叉领域展开探索工作。

“做出一个芯片固然很重要,但如果没有足够多的开发者愿意长期在上面写代码,那就是白生产。”正如郑纬民所说的那样,国产计算卡与国外主流产品的性能差距正在持续缩小,而“开发者是生态建设的关键,国产芯片平台必须构建起友好、易用的开发环境,以有效服务开发者社群”。

据介绍,以摩尔学院为平台,摩尔线程已构建起产教融合的开发者成长体系,目前汇聚近20万名开发者与学习者,并通过“国产计算生态与AI教育共建行动”将前沿技术与产业实践带入全国200多所高校,吸引超10万名学子参与。

值得一提的是,本次开发者大会发布了AI算力本MTT AIBOOK,其搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力,首次实现从芯片、驱动到开发环境的全栈整合,不仅实现了专业AI开发的“开箱即用”,更打破Linux开发、Windows办公与Android应用之间的场景壁垒。同时,摩尔线程还预告了公司将基于“长江”SoC打造的迷你型计算设备MTT AICube,进一步丰富端侧计算产品形态。

(编辑:吴清 审核:李正豪 校对:颜京宁)

相关内容

热门资讯

千兆宽带缩水,上网需要不打折扣... 近日,知名博主罗永浩吐槽网速一事引发热议。他在朋友圈称,自己搬到上海开了电信的独享千兆宽带半年多来,...
追觅科技俞浩荣膺“2025封面... 本报讯 (记者袁传玺)12月19日,追觅科技(苏州)有限公司(以下简称“追觅科技”)创始人兼CEO俞...
记者观察:从首届MDC看摩尔线... 来源:中国经营报 中经记者 李玉洋 北京报道 把GPU事业运行成功的“底层代码”是什么?有人说,是把...
11月微信入境支付交易金额同比... 深圳商报·读创客户端首席记者 袁静娴 12月17日,30位来自欧洲、美洲、南美等地区的IESE商学院...
一个人就是一支队伍!上海首个人... 来源:市场资讯 (来源:文汇报) 这是一个属于“超级个体”的时代。在徐汇区,一种深度融合“超级个体...