IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍。
Gemma 4 作为谷歌目前能力最强的开源模型,在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器,目的是不降低输出质量或推理逻辑的前提下,突破推理效率的极限。
IT之家援引博文介绍,谷歌表示目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。
而为了解决这个核心痛点,谷歌为 Gemma 4 系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。
起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。
实测数据显示,在 Apple Silicon 芯片上,当 batch sizes 设置为 4 至 8 时,Gemma 4 26B 模型实现了约 2.2 倍的本地加速。开发者可利用该技术在个人电脑及消费级显卡上流畅运行复杂的离线编程与智能体工作流,同时显著降低边缘设备的能耗。
此次更新主要面向对低延迟要求极高的应用场景,包括聊天机器人、编程助手、自主智能体及移动端应用。开发者能在资源受限的环境中部署先进的语言模型,无需牺牲响应速度或计算精度,进一步拓展 AI 应用的边界。
参考