谷歌为Gemma 4系列AI模型推出MTP起草器,推理速度最高提升3倍
创始人
2026-05-07 18:33:00

IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍。

Gemma 4 作为谷歌目前能力最强的开源模型,在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器,目的是不降低输出质量或推理逻辑的前提下,突破推理效率的极限。

IT之家援引博文介绍,谷歌表示目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。

而为了解决这个核心痛点,谷歌为 Gemma 4 系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。

起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。

实测数据显示,在 Apple Silicon 芯片上,当 batch sizes 设置为 4 至 8 时,Gemma 4 26B 模型实现了约 2.2 倍的本地加速。开发者可利用该技术在个人电脑及消费级显卡上流畅运行复杂的离线编程与智能体工作流,同时显著降低边缘设备的能耗。

此次更新主要面向对低延迟要求极高的应用场景,包括聊天机器人、编程助手、自主智能体及移动端应用。开发者能在资源受限的环境中部署先进的语言模型,无需牺牲响应速度或计算精度,进一步拓展 AI 应用的边界。

参考

相关内容

热门资讯

国际最新研究:蝴蝶蜜蜂等传粉者... 北京5月7日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇生态学论文称,一项研究显示,在尼泊尔...
Anthropic发布10个金... 2026年5月5日晚,Anthropic的一次发布,让华尔街的很多人没睡好觉。 这家AI公司一口气推...
原创 4... ## 933图片插入失败: 'NoneType' object has no attribute '...
三星造工厂机器人、Meta做家... 据韩国中央日报5月7号报道,全球人工智能竞争正加速向物理AI领域延伸,人形机器人成为产业霸权新焦点。...
超22万颗GPU!SpaceX... 来源:环球网 【环球网科技综合报道】5月7日消息,据《福布斯》报道,美国太空探索技术公司(Spac...