Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
创始人
2025-08-19 12:24:42
0

新智元报道

编辑:定慧

【新智元导读】英伟达发布全新架构9B模型,以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍,对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

万万没想到,现在还紧跟我们的开源模型竟然是英伟达。

刚刚,英伟达发布了一个只有9B大小NVIDIA Nemotron Nano 2模型

对标的是业界标杆,千问的Qwen3-8B,但这个模型是一个完全不同的混合架构。

用英伟达的说法,这是一款革命性的Mamba-Transformer混合架构语言模型。

在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率,并且吞吐量最高可达其6倍

它的诞生只有一个目标:在复杂的推理任务中,实现无与伦比的吞吐量,同时保持同级别模型中顶尖的精度!

在官网简单测试一下,一些经典问题,都能答对。

英伟达还做了3个小工具,可以实时查天气、描述哈利波特里的角色和帮你想颜色。

不过9B模型还是小了点,当你问「SamAltman、马斯克和黄仁勋谁更值得信任」时,模型会犯蠢把马斯克翻译成麻克,哈哈哈。

而且,也不愧是亲儿子,模型认为黄仁勋最值得信任

速度的奥秘

Mamba-2架构加持!

Nemotron-Nano-9B-v2的强大,源于其创新的Nemotron-H架构

用闪电般快速的Mamba-2,替换了传统Transformer架构中绝大多数的自注意力层

当模型需要进行长篇大论的思考、生成复杂的长思维链时,它的推理速度得到了史诗级的提升!

简单介绍下Mamba架构

我们都知道Transformer架构,但是这么年过去,有没有新架构出现?

有的。

比如Meta公开推进JEPA(联合嵌入预测架构)和大概念模型(LCMs)、状态空间模型(就是Mamba)、记忆模型或扩散语言模型等。

谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了约50%研究力量。

OpenAI虽然嘴上说着有信心训练到GPT-8,但很可能也在储备新架构

而根据Reddit社区的讨论,Ilya的SSI最可能就是用全新的架构,但是什么,还没人知道。

Mamba是一种完全无注意力机制的序列建模架构,基于结构化状态空间模型(SSMs)。

通过「选择性机制」根据当前输入动态调整参数,从而专注于保留相关信息并忽略无关信息。

在处理超长序列时,Mamba的推理速度据称可比Transformer快3–5倍,且其复杂度为线性级别,支持极长的上下文(甚至达到百万级token)。

为什么要混合Mamba与Transformer?

Transformer虽然效果出众,但在处理长序列时存在显著的计算和内存瓶颈(自注意力机制导致的O(n^2)规模)。

而Mamba擅长在长上下文中高效建模,但在「记忆复制(copying)」或「上下文学习(in‑contextlearning)」等任务上可能稍显不足。

从120亿到90亿的极限淬炼

NemotronNanov2的训练按照下面几个步骤:

· 「暴力」预训练

首先在一个拥有20万亿Token的海量数据集上,利用先进的FP8训练方案,锻造出一个120亿参数基础模型——Nemotron-Nano-12B-v2-Base

这听着就非常像DeepSeek-R1:DeepSeek‑R1-Zero是直接基于DeepSeek‑V3-Base进行纯强化学习训练的初始模型。

而DeepSeek‑R1则在此基础上加入了监督微调作为冷启动,再用强化学习精炼,从而获得更好的可读性与性能。

Nemotron-Nano-12B-v2-Base的预训练,涵盖高质量网页、多语言、数学、代码、学术等数据,重点构建了高保真的数学和代码数据集。

· 极限压缩与蒸馏

结合SFT、DPO、GRPO、RLHF等多阶段对齐方法,提升了推理、对话、工具调用与安全性。

完成对齐后,祭出Minitron策略,对这个120B参数的模型进行极限压缩与蒸馏。

Minitron策略是一种由NVIDIA提出的模型压缩方法,主要通过结构化剪枝(pruning)与知识蒸馏(distillation)来实现对大型语言模型的高效压缩与性能保持。

· 最终目标

通过Minitron剪枝与蒸馏,将12B基础模型压缩为9B参数,确保单张A10GGPU(22GiB)即可支持128k上下文。

性能碾压,精度与速度全都要!

是骡子是马,拉出来遛遛!

Qwen3-8B等同级别强手相比,Nemotron-Nano-9B-v2在各大推理基准测试中,精度平起平坐,甚至更胜一筹!

在数学(GSM8K、MATH)、代码(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、长上下文(RULER128k)等基准测试中表现优于或持平同类开源模型(如Qwen3-8B、Gemma3-12B).

并在8k输入/16k输出场景下实现6.3×吞吐量提升

全面开源

英伟达宣布在HuggingFace平台上,全面开放以下资源:

正在HuggingFace上发布以下三个模型,它们均支持128K的上下文长度:

  • NVIDIA-Nemotron-Nano-9B-v2:对齐并剪枝的推理模型

  • NVIDIA-Nemotron-Nano-9B-v2-Base:一个经过剪枝的基础模型

  • NVIDIA-Nemotron-Nano-12B-v2-Base:对齐或剪枝之前的基模型

除了模型,英伟达表示我们的数据集也很强,并开源了用于预训练的大部分数据。

Nemotron-Pre-Training-Dataset-v1数据集集合包含6.6万亿个高质量网页爬取、数学、代码、SFT和多语言问答数据的token,该数据集被组织为四个类别:

  • Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后续版本,新增了八组CommonCrawl快照(2024–2025)。该数据经过全局去重,并使用Qwen3-30B-A3B进行了合成改写。此外,它还包含以15种语言翻译的合成多样化问答对,支持强大的多语言推理和通用知识预训练。

  • Nemotron-CC-Math-v1:一个专注于数学的1330亿Tokens数据集,源自NVIDIA的Lynx+LLM流水线对CommonCrawl的处理结果,该方法在将数学内容标准化为LaTeX的同时保留了公式和代码格式。这确保了关键的数学内容和代码片段保持完整,从而生成出在基准测试中优于以往数学数据集的高质量预训练数据。

  • Nemotron-Pretraining-Code-v1:一个大规模的精选代码数据集,来源为GitHub,经过多阶段去重、许可证执行和启发式质量检查筛选。该数据集还包含11种编程语言的LLM生成代码问答对

  • Nemotron-Pretraining-SFT-v1:一个合成生成的数据集,涵盖STEM(科学、技术、工程和数学)、学术、推理及多语言领域。其中包括从高质量的数学和科学原始数据中生成的复杂选择题和分析型问题、研究生水平的学术文本,以及涵盖数学、编程、通用问答和推理任务的指令调优SFT数据。

  • Nemotron-Pretraining-Dataset-sample:数据集的一个小规模采样版本提供了10个具有代表性的子集,展示了高质量的问答数据、面向数学的抽取内容、代码元数据以及SFT风格的指令数据。

最后是感慨下,Meta作为一开始的开源旗帜,现在也逐渐开始转向闭源,或者起码是在Llama上的策略已经被调整。

目前真正在开源领域努力还是以国内的模型为主,虽然OpenAI前不久也开源了两个,不过雷声大雨点小。

英伟达虽然一直卖铲子,但也静悄悄的发布了不少开源。

感兴趣可以在如下网址体验,除了英伟达自家的,很多开源模型都能找到。

模型体验网址:

https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2

参考资料:

https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/

英伟达又发新模型了

相关内容

热门资讯

从信号盲区到全域覆盖:物联网聚... 物联网设备的 “死亡之区”—— 深山峡谷、高速隧道、远海孤岛,这些地方曾让单网物联网卡束手无策。物联...
2025未来网络创新技术与成果... 在人工智能等信息技术迎来颠覆式演进的当下,网络通信技术创新已成为驱动社会高质量发展的重要引擎。8月1...
当AI浪潮来到西部山乡小县 这些女性出生在西部山乡,都是土生土长的农民。在家种地或外出务工,曾是她们最常见的人生选择。在人工智能...
原创 库... 不出意外的话,再过20天,也就是9月9日,新一代的iPhone17系列就要发布了。 这次最大的看点,...
眉山彭山:“筑日月模型 悟天地... 为点燃儿童探索星空的好奇心,让深奥的科学原理从课本走进生动实践,近日,一场由眉山彭山区科协主办、区图...
浙江君睿取得叠片分张上料机专利... 金融界2025年8月19日消息,国家知识产权局信息显示,浙江君睿智能装备有限公司取得一项名为“一种叠...
格力高管回应空调市场份额被小米... 【CNMO科技消息】近日,关于“小米空调7月线上销量超越格力”的话题在社交媒体引发热议。起因是部分网...
技术应用 | 大模型在远程银行... 文/兴业银行金融科技研究院 黄健 陈明雁 莫迪 何平 近年来,数字化转型浪潮驱使银行业务模式发生了前...
注意:谷歌其他方式搞客户! 不... 注意:谷歌其他方式搞客户! 不是只有SEO和SEM! 大家好,我是郑州悉知科技的丹丹,别老惦记着谷...
拆解报告:Xiaomi小米开放... 小米在近期的「人车家全生态发布会」上,发布了多款智能穿戴产品,包括小米首款AI眼镜、小米Watch ...
浙江赛思电子,第一份额拿下中国... 近日,中国移动2025-2027年同步网设备集采结果重磅落槌。浙江赛思电子科技有限公司(以下简称“赛...
移动快检车开进京郊农副市场 “... 央广网北京8月19日消息(记者 庞婷)近日,北京市市场监管局将“移动快检车”开进海淀区上庄水乡农副产...
2025年国产开放式耳机测评!... 开放式耳机可以说是我认为最好用的耳机类型了,作为一个耳机测评博主,也用过不少的开放式耳机,发现大家对...
浙江企业负面舆情优化处置行业发... 一、引言 1.1 研究背景与目的 在数字化时代,互联网的普及使信息传播速度呈指数级增长,网络舆情已成...
Meta没做的,英伟达做了!全... 新智元报道 编辑:定慧 【新智元导读】英伟达发布全新架构9B模型,以Mamba-Transform...
外媒爆ARM挖角亚马逊AI芯片... 【环球网科技综合报道】8月19日消息,据路透社报道,全球芯片架构公司ARM已聘请亚马逊前AI芯片部门...
江苏长灵贵金属取得高温熔炉内部... 金融界2025年8月19日消息,国家知识产权局信息显示,江苏长灵贵金属有限公司取得一项名为“一种高温...
2025年iOS云手机推荐:七... 在iOS云手机市场,用户面临着多样化的选择,这些选择不仅涵盖了iOS系统控制安卓设备的方案,还包含了...
原创 英... 7月31日,北京网信办针对英伟达算力芯片(H20)的紧急约谈正在进行。国家互联网信息办公室依据《网络...
原创 美... 一个美国网友在网上抛出个火药味十足的问题:如果中国不让美国加入天宫空间站,美国有没有权利直接把它给打...