数智之道
刘劲 段磊 李嘉欣/文
算力是人工智能最重要的基础设施和发展引擎。AI算力的代表企业英伟达(NVIDIA)凭借性能先进的产品和难以复制的生态,在AI训练及推理芯片领域建立起了近乎垄断的领导地位,成为地球上价值最高的上市公司。截至2025年11月,英伟达的市值约为4.5万亿美元,2025年第三季度营收的同比增长约为62%。
英伟达并不缺少挑战者,在美国有传统芯片巨头安谋(AMD)和英特尔,也有谷歌的TPU、亚马逊的Trainium(训练芯片)和Inferentia(推理芯片)等科技巨头的自研算力,还有Cerebras、Groq等专注机器学习优化架构的新锐挑战者;中国市场也有华为、寒武纪、燧原等快速成长的AI算力芯片厂商。但到目前为止,他们都很难称得上是英伟达的对手,难以撼动其领导地位。不过,未来这一点未必不会改变。
竞争壁垒
AI算力芯片有两个主要应用场景:训练和推理。训练是模型从大量数据中“学习”知识(调整神经网络的参数),推理是把训练好的模型用在实际场景中。
在大模型发展的初期和中期,训练算力是核心瓶颈,决定了模型的“高度”,是算力芯片的战略制高点。因此,我们在此着重讨论训练。
英伟达在训练算力上有统治性的地位。这种优势来自两个方面:先进的技术和生态的垄断。
主流大模型的参数规模已达千亿、万亿级别,训练时要对海量数据进行大规模计算,单机算力早已远远不够,必须依托大规模芯片集群完成训练;要令这复杂而成本高昂的训练易于展开、效率高、稳定可靠,还需要一整套的软件系统和工具来作为连接训练工程师、算力芯片和模型的桥梁。
因此,我们大致可以将训练对算力芯片的要求拆解成单芯片性能(单卡性能)、互联能力和软件生态三部分。
单芯片性能原本主要指计算能力(FLOPS,每秒浮点运算次数)。训练大模型需要加载海量参数、进行大量的数据快速吞吐,所以还需要为训练芯片配置大容量高带宽的存储(HBM)。
因为工艺的差异,厂商通常会把显存和算力芯片做成独立的芯片,然后封装在一起或在电路板上进行集成,所以叫单卡性能更准确。用户们会关注单卡的计算能力、显存容量与带宽、计算精度、功率与能效等。
英伟达在单卡性能上处于行业顶尖水平,但竞争对手也在追赶,尤其是AMD的最新产品在主要性能指标上已经达到接近英伟达同期产品的水平。不过,对于AMD等企业的坏消息是:单卡的性能迫近英伟达,并不足以撼动其在AI训练领域的领先优势。
互联能力对大模型训练非常重要。大模型训练本质上是“分布式并行计算”问题,互联就是分布式的“血管与神经”。前沿大模型的训练已经要求数万张算力卡的互联并行工作,这对大模型厂商是极具挑战的工程,对算力芯片厂商的要求也极高。
英伟达凭借专有互联技术NVLink、高性能的通信交换硬件NVSwitch等做到了万卡级的高效、稳定互联。其他AI芯片企业实际落地的集群规模大部分仍停留在千卡规模,且很多是采用切割成多个小规模集群的方式进行部署,与英伟达的纯万卡并行计算集群差距很大。
互联的规模、质量、稳定性对算力利用效率、训练时间、训练成本甚至训练成功与否都有显著影响,选择次优方案带来的潜在损失,可能远大于成本的节省,这令英伟达方案有极大的吸引力。这导致即便其他厂商的互联技术能有提升,其缺乏大规模的落地商用实践去发现问题和优化方案,无疑加大了他们在互联能力上挑战英伟达的难度。
除了技术上的优势之外,英伟达更重要的优势在于对算力生态的统治地位。这个生态优势来自软件,而不是硬件。和硬件不同,软件有很强的网络效应,因此能对用户产生巨大的黏性。
CUDA是英伟达有20年积累的GPU并行计算的编程平台,这个平台上提供了成熟的开发和调试工具、丰富且经过充分验证的软件库和函数库、海量的文档和教程支持,让开发者的工作变得更简单、高效。400多万开发者通过贡献开源库和工具、反馈bug(漏洞)和提供最佳实践,又令CUDA的软件生态变得更好。
英伟达的其他软件和工具又能和CUDA生态配合,对用户形成更强粘性,如英伟达提供的大模型开发框架NeMoFramework、帮助企业快速部署AI的NVIDIAAIEnterprise等。
除了开发者,学术界研究员发表的最新AI论文(如Transformer架构的变体),其开源代码通常只在英伟达GPU上验证过。如果用其他芯片,研究者可能需要自己去写底层适配代码,才能跑通新模型。这意味着使用英伟达,研究者能最早用上最先进的技术。
更进一步,全球的高校计算机专业、AI实验室,教学和实验用的设备几乎全是英伟达的GPU。一个刚毕业的AI工程师,大概率已经熟练掌握了CUDA编程。如果一家公司决定使用非英伟达芯片,他们可能需要花费巨大的成本来培训员工学习新的开发环境。
这种生态优势有很强的延展性,会吸引众多玩家的深度参与。比如,Py-Torch和TensorFlow是最流行的深度学习框架,分别由Meta和Google主导,但却和英伟达的CUDA有深度的生态协同。某种程度上,它们是生长在CUDA这个生态系统上的,将CUDA的生态组件像积木一样构建在自己的底层中。它们凭借CUDA的并行计算能力触达百万开发者,又反过来作为生态的一部分巩固了CUDA和英伟达的竞争优势。
生态优势实际上是一种网络效应。在自然市场中,弱网络很难和强势网络竞争,因为随着网络规模增长,网络价值/竞争力呈现超线性的增长(梅特卡夫定律描述为网络的价值和用户数的平方成正比)。英伟达一旦在这种强网络效应的竞争中胜出,就有了非常深的护城河。
相对弱势领域
一个万卡训练的超大模型,在部署做推理的时候是不需要这么多卡的,通常仅需要几张到几十张卡互联。因为训练时要计算前向传播、反向传播、梯度计算、参数更新的任务,推理时只需要计算前向传播;显存的存储任务也大幅减少。
这意味着人们对推理芯片的互联能力要求大幅降低,甚至在一些应用场景下,人们还会把模型蒸馏、量化,使其更小以便可以通过单卡完成部署,智能驾驶芯片就是典型例子。
相较于训练场景,推理场景下英伟达的生态优势就没有那么显著了。模型训练完成时就已经是一个算法框架确定的成品了,对英伟达丰富的开发生态依赖度降低。
此外,行业已经发展出成熟的跨平台迁移办法,可以把英伟达芯片训练好的模型转换成ONNX等中间格式,再编译部署到其他的算力平台进行推理工作。
因此,理论上,英伟达在大模型推理领域的统治力远不如在训练领域,但这也只是比较而言。实际上,英伟达在推理市场仍占据超过70%的市场份额,因为综合考虑性能、价格、稳定性、开发成本、学习成本、迁移成本等,英伟达在推理芯片领域的性价比仍很有竞争力。
根据我们对某大厂工程师的访谈结果,将模型从英伟达平台迁移至其他品牌集群,可能会导致开发周期延长6个月,成本增加40%。
谁能挑战英伟达
任何与英伟达的竞争都必须面对来自技术和生态两方面的挑战。
由于生态的壁垒远高于技术的壁垒,要想成功,竞争者就只有两种选项:如果不能避开生态的劣势,竞争者就必须在技术上有非常大的超越;如果技术上没有很大的超越,就必须利用经济以外的方法,人为形成一个保护性的市场,避开与英伟达在生态上的正面竞争。
在美国,英伟达的挑战者主要来自技术方面——定制AI芯片(ASIC芯片)。近期,谷歌发布的表现优异的大模型Gemini3,就是完全基于谷歌TPU训练的。ASIC和GPU的竞争前景取决于牺牲灵活性换取的计算效率是否划算。
从CPU到GPU再到TPU为代表的ASIC发展,有些像物种的演变,从通用到适应环境和需求的特化。CPU有最高的适应性,几乎支持运行任何程序和代码。GPU为图形渲染这个生态位演化,大幅简化了核心,牺牲了在复杂控制逻辑和高度不规则任务上的效率,但通过堆叠数千个简单的核心,擅长同时处理大量相似的计算任务,后来发现这一点也适合用于AI计算。ASIC芯片更进一步,只保留和优化支持AI计算(矩阵乘法、卷积计算等)的电路,去除所有不必要的单元。自然,ASIC芯片在做AI计算时效率、功耗等方面就更有优势,但一旦模型结构/算法范式变动太大,就容易“过时”。
这种来自技术的挑战,在短期内不会对英伟达产生实质性影响,因为技术上的跨越并非巨大,但生态上的劣势却是全方位的。
在中国市场,英伟达遇到的挑战更为根本。
随着美国政府禁止英伟达将先进的芯片出售给中国市场,中国市场就被动地变成“被保护”的市场,英伟达的生态优势无处发力。
中国的大模型厂商、云厂商、广大开发者、技术人员原本都是英伟达生态的一部分,但现在即使他们想用CUD-A,也面临很大限制。
禁令使中国AI产业中短期面临阵痛,因为国产算力芯片和生态还不成熟,要面对算力效率下降的局面。对于中国算力芯片企业而言,这又是重大的发展机遇期。因为在正常的市场情况下,华为很难说服开发者放弃好用的CUDA,改用不成熟的CANN(ComputeArchitec-tureforNeuralNetworks)生态。
如今,很多开发者开始转向学习CANN等平台,也出现不少抱怨之声,包括平台的技术问题、需要付出很多学习成本、需要经历“踩坑之路”等等。但这也意味着,随着更多开发者投入,这些生态会逐渐成熟。等到学习、迁移成本被“消化”,未来即使禁令解除,他们也不一定愿意回去了。
这种地缘政治造成的旧霸主网络效应失效和新生本土网络崛起的故事,在互联网时代屡见不鲜,中国大部分互联网巨头的崛起都与此有关。芯片和互联网有所差异,技术突破困难得多,但其生态的网络效应逻辑高度类似。
因此,美国对中国的芯片禁运,目的本是为限制中国AI技术的发展,但副作用却是给英伟达催生了一个长期的强劲对手。
在我们本次研究即将完成之际,美国政府对中国出口英伟达芯片的最新政策发生了重大转变。2025年12月8日,美国政府批准了英伟达向中国市场出售较为先进的H200芯片,但附带了政府收入分成和客户审查的条款。这反映出美国意识到原来的禁运做法会削弱英伟达的长期竞争力,转而通过梯度管控的做法保持芯片技术代差的同时,维持英伟达的生态影响力。
中国市场和政府该如何接招?原来的特供版H20和国产领先AI芯片处在大致相当的性能区间,而H200的算力大约是H20的6倍,显存容量约为1.5倍,综合来看训练时的表现大概领先数倍到十倍以上。
理性的应对策略既不是一禁了之,也不是无条件放开。为了更大的大局——人工智能领域的竞争力,必要的采购应该被允许,比如短期内国产芯片无法满足的核心AI项目、前沿大模型的训练和探索性研究等。但另一方面,完全的市场竞争可能令刚刚起步的国产AI芯片不堪重负,中国需要设计一套机制来鼓励和扶持国内AI芯片企业的发展,让他们有机会在一个相对或局部被保护的市场发展自己的生态。
战略考量
需要提醒的是,在看待包括AI技术在内的科技竞争时,人们容易犯的一个错误是国产替代思维,但如果仅仅用国产替代来解决卡脖子问题就会引发一个新的问题:世界上其它国家会不会也做同样的事情,对来自中国的技术产生卡脖子的担忧?如果其它国家也采取国产替代的策略来排挤中国科技,我们岂不是又回到了自我封闭的道路?
和英伟达的竞争一定是生态与生态之间的竞争,所以开源思维是最优解。
开源的战略意义在于构建一个远超14亿人的全球性网络,放大人才数量和创新效率,打破脱钩陷阱。
华为在今年8月宣布将其对标CUDA生态的CANN和Mind工具链全面开源开放,正是这种思维的体现。
开源生态可以快速汇聚全球开发者的智慧,更快地发现并修复错误,贡献代码,提出新的功能和优化办法。因为是开源的,理论上国内外的其他芯片厂商也可以加入到这一生态(实际因为芯片架构、指令集差异,目前较为困难),这就能更有凝聚力地打造一个开放、有竞争力的生态。
(刘劲系大湾区人工智能应用研究院理事、特聘专家,长江商学院会计与金融学教授,段磊系大湾区人工智能应用研究院研究总监,李嘉欣系大湾区人工智能应用研究院研究员)