英伟达突然发布新GPU!单机架AI性能暴涨650%,100TB大内存,专攻长上下文推理
创始人
2025-09-10 16:21:09
0

企业每投资1亿美元,即可获得50亿美元的token收益。

作者 | ZeR0

编辑 | 漠影

芯东西9月10日报道,昨晚,英伟达又放AI计算大招,推出专为长上下文推理和视频生成应用设计的新型专用GPU——NVIDIA Rubin CPX

英伟达创始人兼CEO黄仁勋说:“正如RTX彻底改变了图形和物理AI一样,Rubin CPX是首款专为海量上下文AI打造的CUDA GPU,这种AI模型可以同时处理数百万个知识token的推理。”

Rubin CPX配备128GB GDDR7内存,NVFP4精度下AI算力可达30PFLOPS,非常适合运行长上下文处理(超过100万个token)和视频生成任务。

Vera Rubin NVL144 CPX平台可在单机架集成144张Rubin CPX GPU、144张Rubin GPU、36张Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速内存,内存带宽达到1.7PB/s

其AI性能是英伟达Vera Rubin NVL144平台的2倍多,是基于Blackwell Ultra的GB300 NVL72系统的7.5倍,相比GB300 NVL72系统还能提供3倍更快的注意力机制。

Rubin CPX GPU预计将于2026年底上市。

9月17日,智猩猩发起主办的2025全球AI芯片峰会将在上海举办。大会设有主论坛,大模型AI芯片、AI芯片架构两大专题论坛,以及存算一体、超节点与智算集群两大技术研讨会,近40位嘉宾将分享和讨论。IEEE Fellow王中风教授将开场,华为昇腾等国产AI芯片力量集结,华为云、阿里云领衔超节点与智算集群势力。扫码报名~

01.

全新专用GPU:

128GB内存,30PFLOPS算力

Rubin CPX基于NVIDIA Rubin架构构建,采用经济高效的单芯片设计,配备128GB GDDR7内存,采用NVFP4精度,并经过优化,算力可达30PFLOPS,能够为AI推理任务,尤其是长上下文处理(超过100万个token)和视频生成,提供了远超现有系统的性能和token收益。

与英伟达GB300 NVL72系统相比,这款专用GPU还提供了3倍更快的注意力机制,从而提升了AI模型处理更长上下文序列的能力,而且速度不会降低。

相比之下,今年3月发布的Rubin GPU,在FP4精度下峰值推理能力为50PFLOPS。而英伟达在今年6月才公布创新型4位浮点格式NVFP4,这种格式的目标是在超低精度下力求保持模型性能。

其分析表明,当使用训练后量化(PTQ)将DeepSeek-R1-0528从原始FP8格式量化为NVFP4格式时,其在关键语言建模任务上的准确率下降幅度不超过1%。在AIME 2024中,NVFP4的准确率甚至提高了2%。

Rubin CPX采用的GDDR7,价格比Rubin GPU配备的288GB HBM4高带宽内存更便宜。

02.

单机架AI性能达8EFLOPS,

提供100TB快速内存、1.7PB/s内存带宽

Rubin CPX与全新NVIDIA Vera Rubin NVL144 CPX平台中的英伟达Vera CPU和Rubin GPU协同工作,进行生成阶段处理,形成一个完整的高性能分解式服务解决方案。

Vera Rubin NVL144 CPX平台可在单机架集成144张Rubin CPX GPU、144张Rubin GPU、36张Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速内存,内存带宽达到1.7PB/s

其AI性能是英伟达Vera Rubin NVL144平台的2倍多,是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍

英伟达还在周二分享了GB300 NVL72系统的基准测试结果,其DeepSeek-R1推理性能提升到上一代的1.4倍。该系统还创下MLPerf Inference v5.1套件中添加的所有新数据中心基准测试的记录,包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的记录。

英伟达计划为希望重复使用现有Vera Rubin 144系统的客户配备专用的Rubin CPX计算托盘(tray)。

Rubin CPX提供多种配置,包括Vera Rubin NVL144 CPX,可与NVIDIA Quantum‑X800 InfiniBand横向扩展计算架构或搭载英伟达Spectrum-XGS以太网技术和ConnectX-9 SuperNIC的Spectrum-X以太网网络平台结合使用。

英伟达预计将推出一款双机架产品,将Vera Rubin NVL144和Vera Rubin NVL144机架结合在一起,将快速内存容量提升至150TB

03.

为分解式推理优化而生,

与英伟达旗舰GPU搭配用

这款全新的专用GPU,跟英伟达之前发布的旗舰GPU有什么区别?

据英伟达数据中心产品总监Shar Narasimhan分享,Rubin CPX将作为英伟达的专用GPU,用于上下文和预填充计算,从而显著提升海量上下文AI应用的性能。原版Rubin GPU则负责生成和解码计算。

推理由两个阶段组成:上下文阶段生成阶段。这两个阶段对基础设施的要求截然不同。

上下文阶段受计算能力限制,需要高吞吐量处理来提取和分析大量输入数据,最终生成第一个token输出结果。

生成阶段受内存带宽限制,依赖于快速内存传输和高速互连(如NVLink)来维持逐token输出性能。

分解式推理使这些阶段能够独立处理,从而实现对计算和内存资源的有针对性的优化。这种架构转变可提高吞吐量,降低延迟,并提升整体资源利用率。

但分解会带来新的复杂性,需要在低延迟键值缓存传输、大语言模型感知路由和高效内存管理之间进行精确协调。

英伟达打造Rubin CPX GPU,就是为了在计算密集型长上下文阶段实现专业的加速,并将该专用GPU无缝集成到分解式基础架构中。

英伟达通过将GPU功能与上下文和生成工作负载相结合来优化推理。

Rubin CPX GPU专为高效处理长序列而优化,旨在增强长上下文性能,补充现有基础架构,提升吞吐量和响应速度,同时提供可扩展的效率,并最大化大规模生成式AI工作负载的投资回报率(ROI)。

为了处理视频,AI模型可能需要处理1小时内容中多达100万个token,这挑战了传统GPU计算的极限。Rubin CPX将视频解码器和编码器以及长上下文推理处理集成在单芯片中,为视频搜索和高质量生成视频等应用提供了前所未有的功能。

Rubin CPX将能够运行NVIDIA Nemotron系列最新的多模态模型,为企业级AI agent提供最先进的推理能力。对于生产级AI,Nemotron模型可以通过NVIDIA AI Enterprise软件平台交付。

04.

结语:30~50倍投资回报率,

每投资1亿美元可带来50亿美元收益

Vera Rubin NVL144 CPX采用英伟达Quantum-X800 InfiniBand或Spectrum-X以太网,搭配ConnectX-9 SuperNIC并由Dynamo平台协调,旨在为下一波百万token上下文AI推理工作负载提供支持,降低推理成本。

在规模化运营下,该平台可实现30~50倍的投资回报率,相当于每1亿美元的资本支出即可带来高达50亿美元的token收益。英伟达称这“为推理经济学树立了新的标杆”。

Rubin CPX将使AI编程助手从简单的代码生成工具转变为能够理解和优化大型软件项目的复杂系统。

知名的美国AI编程平台Cursor、AI视频生成创企Runway、AI编程创企Magic等正在探索用Rubin CPX GPU加速他们的代码生成、复杂视频生成等应用。

相关内容

热门资讯

园区弱电系统集成解决方案提升体... 智慧园区弱电系统集成解决方案旨在打破传统弱电系统“各自为政”的局面,通过构建一个统一平台、数据融合、...
首份AIDC标准文件即将发布 ... 来源:证券时报e公司 随着业界首份标准文件即将发布,AIDC(算力基础设施)领域或将迈入规范化发展阶...
聚焦2025智博会|从智博会成... (记者 陈洲)2025世界智能产业博览会(以下简称“2025智博会”)于9月5日至8日在重庆举行。本...
华为中国行2025·自主创新展... 来源:重庆卫视 在2025世界智能产业博览会期间,华为中国行2025·重庆AI+制造行业大会等一系列...
WAVE SUMMIT 202... 深度学习技术及应用国家工程研究中心主办、百度飞桨与文心大模型联合承办的WAVE SUMMIT深度学习...
卓兆点胶获得发明专利授权:“点... 证券之星消息,根据天眼查APP数据显示卓兆点胶(873726)新获得一项发明专利授权,专利名为“点胶...
长盈精密发力人形机器人核心零部... 人形机器人已从概念憧憬大步迈向商业化实战。 记者从长盈精密(300115)获悉,公司在机器人领域已经...
斑马技术:软硬件协同与场景深耕... 在全球产业数字化浪潮下,企业对流程优化、效率提升与智能化转型的需求日益迫切。作为全球领先的物联网解决...
英国政府研究显示:AI技术或在... 虽然科技公司将AI作为面向所有人的生产力工具进行推广,但英国政府的一项研究揭示了意外发现:神经多样性...
大连工业企业数字化转型产业园开... 来源:滚动播报 (来源:千龙网) 9月9日,大连市工业企业数字化转型产业园开园运营,该产业园作为东北...
手机通讯录删除了怎么恢复?试试... 当你火急火燎地想联系朋友或同事,点开手机通讯录的瞬间,却发现对方的号码凭空消失——这种时候,你是不是...
鸿合科技入选工信部《2025年... 鸿合科技入选工信部《2025年5G工厂名录》,成为智能交互显示制造行业5G全连接工厂标杆。该名录涵盖...
从“秀场”到“工厂”,机器人工... 新华网北京9月10日电今年年初,人形机器人登上春晚舞台跳起“秧歌”;不久前,在北京举办的2025世界...
三星Galaxy S26 Ul... IT之家 9 月 10 日消息,博主 @i冰宇宙 今天在微博透露了三星 Galaxy S26 Ult...
梅泽Meze新头戴耳机105 ... 前言 Meze 105 SILVA头戴耳机是梅泽Meze Audio最新推出的开放式动圈耳机,与10...
全国劳动模范林实践:扎根通信事... 在中国电信泉州分公司智能云网调度运营中心互联网技术工程师林实践的办公室里,全国劳动模范、福建省五一劳...
数研院助力二七区全国科普月,共... 9月9日,郑州市二七区首个全国科普月活动启动仪式在迪空间·新能源汽车科普馆盛大举行。中科大数据研究院...
美版iPhone 17印度造,... 文 | 崔鹏CP 北京时间9月10日早晨,苹果正式发布新款iPhone 17系列手机,它成为5年来...
破纪录!美国猪肾移植男子存活超... 据媒体报道,于今年1月接受基因编辑猪肾移植后出院的美国男子Tim Andrews已经存活超6个月。 ...
真我徐起谈苹果新机:iPhon... 【CNMO科技消息】9月10日,苹果发布iPhone 17系列新款手机后,真我realme副总裁徐起...