通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
创始人
2025-05-17 13:20:53
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。

但问题来了:

一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。

另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。

现在,来自阿里通义实验室的解决方案公开了:开源ZeroSearch,提供了一种无需与真实搜索引擎交互的强化学习框架。

实验表明,ZeroSearch仅需3B参数的LLM作为检索模块,即可有效提升搜索能力,节省了高昂API成本。

ZeroSearch让LLM“自给自足”实现搜索进化

研究团队用模拟搜索环境+渐进式抗噪训练,让LLM不再依赖昂贵搜索引擎API。

轻量微调:把LLM变成“搜索引擎模拟器”

用少量标注数据微调LLM,使其能按指令生成两种文档——有用结果噪声干扰

通过收集与真实搜索引擎交互的数据,ZeroSearch对LLM进行轻量级监督微调。

在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。

这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。

课程化抗噪训练:像打游戏升级一样练模型

训练初期返回高质文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。

ZeroSearch引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。

这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。

强化学习闭环:自产自销的搜索生态

ZeroSearch通过模拟搜索引擎,完全消除了与真实搜索引擎交互的API费用,使得大规模强化学习训练变得更加经济可行。

并且,ZeroSearch兼容多种强化学习算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。

这些算法为模型提供了不同的优化策略,使得ZeroSearch能够在不同的模型和任务中表现出色。

实验表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch的零API成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

在图中,我们可以清晰地看到ZeroSearch在多个问答数据集上的表现。

无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch都显著优于现有的基线方法,包括直接提示、RAG和Search-R1等。

这表明ZeroSearch不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。

上图展示了ZeroSearch和Search-R1(使用真实搜索引擎)在LLaMA-3.2-3B模型上的奖励曲线对比。

ZeroSearch的学习曲线更加平滑且最终性能优于Search-R1,表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

可以看到使用7B参数的检索模块就能达到与谷歌搜索相当的性能,而14B参数的检索模块甚至能够超越谷歌搜索

这表明ZeroSearch不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为LLM的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

比较了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch与PPO和GRPO两种强化学习算法的兼容性。

实验结果表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

相关内容

热门资讯

数字化转型智慧城市大脑建设方案... 一、调研工作回顾 (一)调研概况 2021年5月31日-6月11日,对蒙城县生态环境局、农业农村局等...
数字赋能重塑未来教学课堂:AI... 央视网消息:2025世界数字教育大会教育数字化成果展现在正在湖北武汉举行。从小朋友到老年人,从课堂到...
苹果20周年纪念版iPhone... 苹果将在2027年推出重磅新品 北京时间5月17日,2027年,iPhone将迎来20周年纪念日。苹...
利元亨获得发明专利授权:“一种... 证券之星消息,根据天眼查APP数据显示利元亨(688499)新获得一项发明专利授权,专利名为“一种异...
天文一本大学:优势学科突出,师... 天文一本大学是众多高校中在天文学教育和研究方面表现尤为出色的院校,它们依靠自身显著的优势,吸引了众多...
南京南轻中轻取得一种焊管机组专... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,南京南轻中轻成套设备制造有限公司...
人机组合共享荣耀时刻 人形机器... 中新网上海5月17日电 (记者 郑莹莹)2025年上海科技节17日在沪拉开帷幕,今年的“AI科学红毯...
百度申请时间戳生成相关专利,提... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,北京百度网讯科技有限公司申请一项...
从“沙漠之眼”到算力高地 在腾格里沙漠边缘,占地200亩的中国移动宁夏中卫数据中心一期工程正在满载运行。作为宁夏首个大型绿色数...
千寻位置申请接收机的时钟自校准... 金融界2025年5月17日消息,国家知识产权局信息显示,千寻位置网络(北京)有限公司申请一项名为“接...
朱雀二号改进型遥二运载火箭发射... 5月17日12时12分,朱雀二号改进型遥二运载火箭在东风商业航天创新试验区发射升空,将搭载的天仪29...
北京中航鼎成申请网络故障处理专... 金融界2025年5月17日消息,国家知识产权局信息显示,北京中航鼎成科技有限公司申请一项名为“网络故...
人工智能在交通领域业务应用-中... 今天分享的是:人工智能在交通领域业务应用-中国人工智能产业发展联盟 报告共计:79页 《人工智能在交...
华为全球首个市级城市一张网样板... 5月16日,第二十届“中国光谷”国际光电子博览会期间,武汉市数据局与华为共同举办华为全球首个市级城市...
潍柴动力获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示潍柴动力(000338)新获得一项实用新型专利授权,专利名为“...
OpenAI将帮助阿联酋建设超... 据彭博社报道,OpenAI 准备帮助在阿布扎比开发一个容量高达 5 千兆瓦的数据中心园区,该公司将成...
当认知成为你的超能力 这个时代正在以秒速刷新着我们的认知,曾经那些所谓的“生活的标准答案”正在逐一消散,蜕变成无数个闪烁的...
杭州电信“焕新启航·双万兆”发... 潮新闻客户端 记者 张云山 通讯员 周文渊 4K电影秒下、低空无人机的自如调度、车路协同的智慧交通…...
如何确认家谱的真实性? 编辑 | 趙英雄 家谱作为记录家族成员及其血缘关系的文献,其真实性的验证至关重要。系统性交叉考证是一...
闲置智能设备里藏有大秘密 国家... 随着技术的不断进步,智能设备更新迭代速度越来越快,当升级更换设备时,如何处理旧智能设备成为大家面临的...