2025年10月29日,英伟达创造了历史,成为了人类商业史上首家突破5万亿市值的公司。天文数字般的市值固然有AI狂热的泡沫存在,但是1300多亿美元年营收、730亿美元净利润、超50%净利润率的恐怖财务数据,又让这个市值看起来合情合理。
而同在AI赛道的其他玩家就没这么滋润了。大模型头号种子选手OpenAI在2025年的第三季度,仅仅一个季度就亏掉了115亿美元,而其上半年营收也就43亿。在全球的AI产业链中,大部分企业仍处在烧钱探路的阶段。
能有今天的江湖地位,怕是英伟达自己也没预料到的。
早在1993年黄仁勋成立英伟达的时候,最初的构想是专注于图形处理芯片的研发生产。在度过了有惊无险的初创阶段之后,1999年,英伟达上市了,并在业内率先提出了GPU的概念。
与CPU相比,GPU最大的优势是并行计算能力。用人才来类比CPU与GPU的区别,CPU就好比是公司的CEO,个人能力出众,逻辑思维强,可以处理非常复杂的决策,但是每次就只能同时处理几件事;而GPU就好比工厂里成千上万的流水线工人,虽然每个人能力都不太强,只能处理诸如拧螺丝、钉钉子这样的简单工作,但优点在于所有人可以同时进行工作,能够在瞬间完成海量产品的组装。这样的信息处理方式非常适合画面的渲染,英伟达逐渐在游戏显卡领域奠定了优势地位。
不过阶段性的胜利并没有让英伟达停止对未来发展方向的探索。黄仁勋曾在一次采访中说到,在2000年前后,公司内部逐渐意识到,作为单一功能的图像处理器,GPU将来会有被市场淘汰的风险。这里面最大的问题在于,GPU的功能太过单一,只能用来处理3D图形渲染,并且还经常处于闲置状态,非常的不经济。英伟达如果想未来持续做这门GPU的生意,就一定要想办法让GPU出现在更高频、更刚需的应用场景中。
GPU所具备的大规模并行计算能力,让英伟达看到了其在通用科学计算领域的巨大潜力。以首席科学家David Kirk为首的技术团队建议公司开发一个平台,使开发者可以对GPU编程,以便于直接调动GPU的计算能力。
这一构想一经提出就遭到了董事会的强烈反对,反对者给出的理由是,当时英伟达几乎所有的收入都来自于游戏显卡市场,GPU也是专门为图形渲染所设计的硬件。生意做的好好的,为什么要投入巨额资源去开发一个让GPU处理通用计算任务的平台呢?这跟公司主业有什么关系?并且这不仅仅是推出一个平台的事情,未来英伟达的芯片也要为了这个平台而重新设计硬件架构,芯片成本上升了怎么办?良率下降了怎么办?对于大部分普通用户来说,开发平台这种冗余功能他们不愿意买单怎么办?
站在当时的视角来看,用公司的核心业务去赌一个并不明确的未来,风险是极大的。但是黄仁勋则坚信未来的计算一定是并行的,而GPU天生适合并行处理,必然会赢来极其广阔的市场前景。于是他力排众议,在2006年11月推出了如今被视为英伟达商业帝国最核心的那一根支柱——CUDA。
套用前文的类比,如果说流水线工人们是GPU里一个个独立运作的工作单元,那么CUDA就是员工管理手册,它能告诉使用者应该如何让这个万人团队分工协作。在CUDA平台上,开发者可以使用类似于C语言等高级编程语言,直接调用GPU的并行计算能力,将原本专用于图形渲染的GPU转变为通用计算引擎。
黄仁勋的前瞻性布局在2012年遇到了历史性的转折点。那一年,深度学习三巨头之一的Geoffrey Hinton和他的学生Alex,仅用了两块GTX580显卡,花了6天时间就训练出了深度神经网络AlexNet,然后带着这个模型去参加了计算机视觉领域最受瞩目的赛事——ImageNet挑战赛,在全球顶级的人工智能比赛中一战成名,以比第二名低了10.8%的错误率夺得冠军。那一天之后,全世界都意识到了GPU在深度学习上的巨大威力,英伟达的GPU成为了现代AI基础设施的核心。
这里解释一下为什么GPU能够完美适配训练人工智能所需的算力需求。
GPU渲染图像的原理就是涂格子,也就是把一张图片拆解成成千上万个小格子,也就是像素点,然后GPU里无数个核心单元在同一时刻对这些小格子分别上色,把涂好颜色的小格子拼起来,这就成为一张图了。
而目前人工智能的工作原理,就非常适合GPU的能力。以横扫围棋界的AlphaGo为例,AlphaGo下围棋的原理简单总结下来就是:AlphaGo在决定走一步棋的时候,会去推演在棋盘上的每一个点上落子的赢棋概率分别会有多大,然后再选出其中的最优解作为下一步落子的决策。而GPU的并行计算能力,就好比为AlphaGo提供了成千上万个小棋手,每个小棋手都在同一时刻、分别推演每一个落子决策之后的对弈走势,最终可以快速的选出赢棋概率最大的那个落子方案。当然AlphaGo的实际推理过程比我描述的要复杂的多,但是原理就是这么个原理,目前生成式AI的基本工作原理也是类似的,而GPU无疑就是最适合人工智能的芯片了。
在CUDA出现之前,开发者如果想用GPU做图形渲染之外的计算,就只能按照图形渲染的规则,把其他类型的计算模拟成图形渲染,但是有了CUDA之后就简单的多了。AI大神吴恩达曾说过,在CUDA之前,全世界能用GPU编程的人可能不超过100个,有了CUDA之后,通过编程调度GPU算力就变得容易的多了。英伟达搭建了一套软硬件结合的生态标准,在生态内搞开发,效率倍增,但如果要离开这个生态,你就寸步难行。AMD后来也搞出了类似的开发平台,但是足足晚了10年,已经几乎无法再撼动英伟达的统治力了。
如今,在CUDA的生态圈里,已经聚集了超500万的开发者和超百万款的适配应用,全球95%的AI大模型开发都基于该平台。这种生态粘性产生的迁移成本极高,后来者几乎难以赶超,更何况CUDA也一直在迭代,一直在向着AI适配的方向上进化。竞争对手虽然能在硬件性能上缩小差距,但在软件生态的完整性上落后很多。可以说,CUDA的存在,为英伟达构建了当今计算机产业最深、最宽的护城河之一。
而在硬件方面,英伟达采用的是"一代研发、一代量产、一代预研"的梯队布局策略。
2017年,英伟达推出了基于Volta架构下的V100芯片,这款芯片被称为"AI第一芯片",其AI算力达到了前代产品的12倍,一经推出便迅速成为了OpenAI等初创公司的首选。
2020年,生成式AI的突破为英伟达打破了增长天花板。OpenAI训练GPT-3所用的1024块A100芯片全部来自英伟达,而这款芯片的持续缺货状态让英伟达的营收数据翻着倍的增长。
而2024年发布的Blackwell架构则成为了英伟达技术领先的标志性产品。该架构采用了4nm制程,集成了2080亿个晶体管,推理吞吐量较上一代Hopper架构提升了30倍,成本降至原来的4%。这一突破完美契合了大模型从训练向推理延伸的需求,上市首季度即贡献110亿美元营收,成为科技史上增速最快的产品之一。
截至2025年10月,Blackwell芯片已出货600万片,在手订单达1400万片,预计未来5个季度Blackwell与Rubin架构合计销售额将达5000亿美元。这种技术领先使竞争对手始终落后英伟达1-2个产品周期。
除了软件和硬件之外,英伟达的盈利模式也从单纯地卖硬件,向提供全栈解决方案转型,旨在向客户提供即买即用的整合服务包,以提升客户部署AI的效率。
英伟达目前可提供三类网络技术,分别对应纵向扩展、横向扩展和跨域扩展三种场景:NVLink技术专注于构建功能强大的虚拟GPU;InfiniBand和定制化Spectrum以太网解决企业横向扩展的需求;而Spectrum XGS则是面向吉瓦级场景的技术,可将多个数据中心连接成超级数据工厂。
这种商业模式的转变,带来的最直接的好处便是毛利率的显著提升。2025年第二季度的财报显示,英伟达整体业务的毛利率已经突破70%,远高于半导体行业40%的平均毛利水平,体现了公司极强的定价能力。
随着全球AI基础设施建设的竞争越来越激烈,英伟达所处赛道的行业天花板也被越顶越高。单个超大规模AI数据中心的算力规模,已从2023年的百兆瓦级,跃升至2025年的吉瓦级,1吉瓦大致相当于100万个GPU芯片,建设1吉瓦AI数据中心的成本高达350亿美元,这其中,芯片的采购成本占比就要超过60%,不用细想也能知道,这块儿业务里最大的肥肉大概率是属于英伟达的。
回顾英伟达的创业史,公司起家于细分赛道的硬件设计,但真正奠定其行业龙头地位的关键转向,毫无疑问要归功于黄仁勋孤注一掷的推出了CUDA。2016 年,黄仁勋在接受福布斯采访时说过,他一直都知道,英伟达图形芯片的潜力,远不止于为视频游戏提供动力,但他也没想到GPU会在深度学习领域里大放异彩。但即便没有完全看清前路,也依然敢于下重注,这就是梦想家与企业家之间的区别。