通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
创始人
2025-05-17 13:20:53
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。

但问题来了:

一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。

另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。

现在,来自阿里通义实验室的解决方案公开了:开源ZeroSearch,提供了一种无需与真实搜索引擎交互的强化学习框架。

实验表明,ZeroSearch仅需3B参数的LLM作为检索模块,即可有效提升搜索能力,节省了高昂API成本。

ZeroSearch让LLM“自给自足”实现搜索进化

研究团队用模拟搜索环境+渐进式抗噪训练,让LLM不再依赖昂贵搜索引擎API。

轻量微调:把LLM变成“搜索引擎模拟器”

用少量标注数据微调LLM,使其能按指令生成两种文档——有用结果噪声干扰

通过收集与真实搜索引擎交互的数据,ZeroSearch对LLM进行轻量级监督微调。

在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。

这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。

课程化抗噪训练:像打游戏升级一样练模型

训练初期返回高质文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。

ZeroSearch引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。

这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。

强化学习闭环:自产自销的搜索生态

ZeroSearch通过模拟搜索引擎,完全消除了与真实搜索引擎交互的API费用,使得大规模强化学习训练变得更加经济可行。

并且,ZeroSearch兼容多种强化学习算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。

这些算法为模型提供了不同的优化策略,使得ZeroSearch能够在不同的模型和任务中表现出色。

实验表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch的零API成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

在图中,我们可以清晰地看到ZeroSearch在多个问答数据集上的表现。

无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch都显著优于现有的基线方法,包括直接提示、RAG和Search-R1等。

这表明ZeroSearch不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。

上图展示了ZeroSearch和Search-R1(使用真实搜索引擎)在LLaMA-3.2-3B模型上的奖励曲线对比。

ZeroSearch的学习曲线更加平滑且最终性能优于Search-R1,表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

可以看到使用7B参数的检索模块就能达到与谷歌搜索相当的性能,而14B参数的检索模块甚至能够超越谷歌搜索

这表明ZeroSearch不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为LLM的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

比较了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch与PPO和GRPO两种强化学习算法的兼容性。

实验结果表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。

相关内容

热门资讯

联想副总裁陈振宽:打造多元AI... 本报讯 (记者贾丽)8月23日,2025中国算力大会在山西大同举办。联想集团有限公司(以下简称“联想...
均普智能上半年盈利质量持续提升... 均普智能8月23日发布的2025年半年度报告显示,上半年,公司实现营业收入10.32亿元,同比减少7...
全球首例!深铁集团新技术为隧道... 【深圳商报讯】(首席记者 李秀瑜)一种名为“缪子”(μ子)的基本粒子虽看不见、摸不着,却能轻松穿透岩...
兰州打造“读者之城” 延伸阅读... 20日至24日,一场融合科技感与人文温度的文化盛宴在甘肃兰州开启。2025兰州书展携30万册图书、近...
“一句话就能让角色动起来”,这... 来源:市场资讯 (来源:上观新闻) 如今我们在刷短视频的时候,经常会看到文物活起来,照片动起来,甚...
海拔4000米高原上,深圳造机... 8月24日上午,海拔4000米的西藏那曲市比如县人民医院手术室内,一场牵动无数目光的手术正在紧张进行...
2025年广东省科普讲解大赛总... 8月22日,2025年广东省科普讲解大赛总决赛在广东科学中心举办。来自全省44支代表队的262名选手...
原创 为... 太阳是宇宙中一个至关重要的恒星,正如阳光普照大地,如果没有太阳,宇宙的温度将会骤降至零下,整个太阳系...
别急着写码:AI 协作超稳两步... 很多人第一次接触 Claude Code,都会忍不住直接甩一句「帮我写个代码」。结果往往不尽人意——...
全球首个机器人消费节总销售额突... 据北京亦庄官方微信公众号消息,近日,2025年“E-TOWN机器人消费节”于北京经济技术开发区(北京...
达迩科技等取得新型轨道盖板及编... 金融界2025年8月23日消息,国家知识产权局信息显示,达迩科技(成都)有限公司、上海凯虹科技电子有...
原创 研... 该研究团队从生物学中获得灵感,研制出一款名为Rhagobot的昆虫大小的机器人。 研究人员发现了水...
美的取得电控盒和空调器专利,利... 金融界2025年8月23日消息,国家知识产权局信息显示,广东美的制冷设备有限公司取得一项名为“电控盒...
对标高端市场?传音5.95毫米... 【CNMO科技新闻】根据最新报道,曾在今年2月MWC(世界移动通信大会)上亮相的传音Tecno超薄概...
山寨 iPhone 17 Pr... 讲个道理,当我看到这则消息的时候,内心确实怀着非常吃惊的想法,要问这则消息是什么“毫无疑问就是iPh...
被戏称“半价理想”的零跑,怎么... 知道零跑卖得好,但不知道它卖得有这么好。 前些天,零跑公布了上半年的财报,上半年净利润0.3亿元,首...
HBM驱动键合革命:AI算力时... 生成式AI的快速发展推动了对高性能AI芯片的需求,进而带动了相关半导体制造设备需求增长。HBM凭借高...
原创 原... 2023年,俄罗斯“月球-25”号成功发射, 以为可以创造近半个世纪以来首次登月,结果呢?印度月船三...
晶科能源等公布“一种光伏组件”... 天眼查APP显示,近日,晶科能源股份有限公司,浙江晶科能源有限公司申请的“一种光伏组件”专利公布。 ...
算力与人工智能协同创新应用集中... 央视网消息:记者从正在山西大同举行的2025中国算力大会上了解到,中国算力平台正加快建设。目前,已有...