CICC科普栏目|大模型推理的天花板在哪里?
创始人
2025-06-15 15:41:06
0

摘要

关键词:Large Reasoning Models (LRMs)、问题复杂度 ,可控谜题环境 (controllable puzzle environments)、思维痕迹 (reasoning traces)、过度思考 (overthinking)、推理计算预算 (inference compute budget)

集智编辑部 丨作者

论文题目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

发表时间:2024年10月22日

论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年来,随着大型语言模型(LLMs)的飞速发展,一类专门针对推理任务进行优化的“大型推理模型”(Large Reasoning Models, LRMs)应运而生。与传统仅输出答案的LLM不同,LRM通过“链式思维”(chain‐of‐thought, CoT)或自我反思机制,先生成详尽的思考过程再给出答案。尽管在诸多数学与编码基准上表现优异,其真正的推理能力、规模化性能及内在局限尚未得到系统评估。近期苹果公司发表论文,借助可控谜题环境(经典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同复杂度下的表现,并揭示其“推理崩溃”与“过度思考”现象。

读书会推荐

集智俱乐部也联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起 ,一起拆解大模型的推理能力的可解释性,邀请你加入:

LRM的崛起与研究动机

随着OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的横空出世,研究者纷纷将其视作通向更通用人工智能的关键一步。早期LLM在推理基准上表现不佳,研究者尝试通过规模化训练数据及推理时计算(inference compute budget)来提升性能。思维链(CoT)与自我校验(self‐verification)策略,虽能在一定程度上提高准确率,却带来了所谓的“过度思考”(overthinking)——在找到正确思路后仍持续无效探索,浪费推理预算。

在模型的评估测试方面,大多只是聚焦于推理模型最终给出答案的准确率。此外,测试所使用的大量经典数学基准,如MATH-500、AIME系列常存在样本泄露或缺乏复杂度可控性等问题,难以分辨模型是凭借记忆还是算法推理。因此,本研究在此基础上,构建可精细控制复杂度且规则明晰的测试环境,同时检验模型的答案与思维痕迹,并通过模拟器精确核验中间解与最终结果,从而揭示LRM的真正“思考”面貌。

可控谜题环境的设计与优势

为了系统操控问题复杂度并保持逻辑结构一致,研究团队选取了四类经典谜题:

  • 河内塔(Tower of Hanoi):通过盘子数量控制组合深度,考察模型的递归规划与状态管理能力;

  • 跳棋谜题(Checkers Jumping):在线性布局中交换红蓝棋子位置,检测模型对局面转换规则的理解与前瞻能力;

  • 过河问题(River Crossing):多对“执行者—保护者”在约束条件下渡河,评估多主体协调与约束管理;

  • 积木世界(Blocks World):在堆栈间转换块状物,考验模型对依赖关系和临时重组的规划思路。

这四种环境均配备专门模拟器,实现对每一步移动合法性与最终目标状态的精确校验,为深入分析LRM“思维”提供了可靠工具。

图 1. 四种谜题环境的图解。每一列展示了谜题从初始状态(上)到中间状态(中)再到目标状态(下)的过程:河内塔(通过木桩运输圆盘)、跳棋(交换两种颜色标记的位置)、渡河(将个体运送过河)和方块世界(堆栈重新配置)。

实验设计与方法

研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeek­R1/V3为代表,允许最大64k推理token预算。对每种谜题、每个复杂度N,均生成25个实例并取平均性能。实验主要衡量:

  • 答案准确率:模型最终是否正确完成谜题;

  • 推理token使用量(thinking tokens):LRM在思维过程阶段消耗的计算预算;

  • 中间解探索轨迹(reasoning traces)利用模拟器提取并标记思考中的每个候选解,分析其先后顺序及正确性。

图 2. 上图:我们的设置可以验证最终答案和中间推理痕迹,允许对模型思维行为进行详细分析。左下和中下:在低复杂度下,非思考模型更准确,效率更高。随着复杂性的增加,推理模型的表现会更好,但需要更多的tokens——直到它们都超过了一个临界阈值,并且跟踪时间更短。右下:对于正确解决的案例,Claude 3.7 Thinking倾向于在低复杂性的情况下早期找到答案,在高复杂性的情况下后期找到答案。在失败的情况下,它通常会关注早期的错误答案,浪费剩余的tokens预算。这两种情况都揭示了推理过程的低效。

复杂度对推理行为的影响:三大阶段

实验结果显示,随着问题复杂度的增加,LRM与非思维LLM在谜题环境中呈现三个显著推理阶段:

  1. 低复杂度阶段:标准LLM表现出色,推理更高效、准确率甚至超过LRM;

  2. 中等复杂度阶段:引入思维痕迹后,LRM开始在准确率上领先,但其推理token消耗也显著攀升;

  3. 高复杂度阶段:无论思维与否,所有模型准确率均骤降,出现“推理崩溃”现象——无法给出任何有效解答。

在高复杂度区域,发现LRM的推理token反而出现下降趋势——尽管仍有充足预算,模型却减少思考长度并放弃探索,导致完全失败;这一“计算规模极限”暗示了模型在面对更深组合链条时的固有障碍。此外,即便在中等复杂度,LRM也常在找到正确解后继续无谓探索,不仅拖慢推理速度,更加重了计算负担,印证了文献中所称的“过度思考”(overthinking)

图 3. 思维模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)与非思维模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有谜题环境和不同问题复杂程度中的准确性。

深入分析思考痕迹:探索与自我校正能力

借助模拟器提取每条思考痕迹中的中间解,本研究将正确与错误解在思维过程中的出现位置进行定量对比。结果显示:

  • 在简单问题中,正确解往往较早出现,但随后的错误解涌现,分布向思维后段倾斜;

  • 在中等复杂度中,模型初期多探索错误路径,只有在后期才汇聚到正确解;

  • 在复杂度阈值以上,思路全线崩溃,思考痕迹中再无任何正确片段。

这一行为模式揭示了LRM有限的自我校正能力:虽然具备一定纠错潜力,却因效率低下或计算预算管理失衡,难以持续收敛至解。

图 4. 左和中:在四个不同复杂程度的谜题的推理轨迹中,中间解决方案的位置和正确性。✓表示正确的解决方案;x 表示不正确的解决方案,用阴影表示分布密度;右图:河内塔在不同复杂程度下的解决方案准确性与思考位置。简单问题(N=1-3)表现出早期的准确性随着时间的推移而下降(过度思考),中等问题(N=4-7)表现出持续推理的准确性略有提高,复杂问题(N≥8)表现出持续接近零的准确性,表明完全推理失败。

意外发现与未解之谜

为验证模型的符号执行能力,研究团队在提示中直接提供了河内塔(Tower of Hanoi)的解决算法,结果却未见性能提升,崩溃阈值与默认场景基本一致,凸显LRM在精确执行给定逻辑步骤时的局限。此外,不同谜题环境中,模型的首个错误移动所处位置相差甚远:在河内塔中可保持数百步无失误,而在过河问题(River Crossing)中第一错仅出现在第四步,或许与训练数据中例子稀缺度有关,提示LRM仍在一定程度上依赖记忆而非纯粹算法推理。

图 5. (a)和(b)尽管在提示符中提供了求解算法,但执行失败发生在相似的点,突出了逻辑步骤执行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河内塔的无错误序列比在过河情景中的早期错误长得多。

结论、展望与思考

通过可控谜题环境的系统评估,研究首次揭示了当前LRM在问题复杂度维度上的三大推理阶段与计算规模极限,深入剖析了“过度思考”与自我校正的不稳定性,并通过思考痕迹量化了模型的探索策略。研究挑战了对LRM推理能力的诸多假设,表明其在泛化与符号操作上仍面临重大瓶颈。

尽管谜题环境提供了优越的复杂度可控性与精确验证,但毕竟狭窄地聚焦于结构化规划问题,难以全面代表真实世界中知识密集型与开放式推理场景。此外,实验依赖闭源API,限制了对模型内部架构与权重的深入剖析。最后,模拟器的精确性在高度非结构化领域或难以复制,提示未来需拓展至自然语言理解、常识推理等更富挑战性的任务域。

彭晨| 编译

本文来源:集智俱乐部

关注

相关内容

热门资讯

文化和自然遗产日:守护文明之光... 每一座古城,每一处山水,都是时光的印记、文明的馈赠。 从考古发掘到文物修复,从生态维护到非遗保护,无...
“蝴蝶”二次登陆,“土台风”路... 今年第1号台风“蝴蝶”于13日夜间 在海南省东方市八所镇登陆 之后继续北上 于14日中午在广东省雷州...
苹果高管谈iPad设计哲学:坚... 2025-06-14 01:20:31 作者:狼叫兽 6 月 13 日消息,苹果软件工程高级主管 ...
原创 O... 据报道,OPPO 正在为中国市场研发 K13 Turbo 智能手机。这款手机据传将搭载骁龙 8s G...
【竞逐低空】山东滨州民用无人机... 6月13日,山东滨州民用无人机试飞运行基地获民航华东地区管理局批复,同意转入正式运行阶段。 山东滨州...
凯特立取得集尘装置及电锤专利,... 金融界2025年6月14日消息,国家知识产权局信息显示,宁海凯特立电器有限公司取得一项名为“集尘装置...
原创 华... 华为对固态电池的野心昭然若揭,在2025年初,就公布了一项制备硫化物材料的专利,而硫化物是制造固态电...
人类如何驾驭AI?科幻作家、编... 分享会现场 封面新闻记者 张杰 在算法日益精进的今天,人类创造力的独特性究竟何在?6月15日下午,一...
力神聚元等申请一种复合隔膜和锂... 金融界2025年6月14日消息,国家知识产权局信息显示,天津力神聚元新能源科技有限公司;天津力神电池...
乐海乐器取得微调轴辅助上弦装置... 金融界2025年6月14日消息,国家知识产权局信息显示,乐海乐器有限公司取得一项名为“微调轴辅助上弦...
AI浪潮下,我们如何乘势而上? 在科技飞速发展的当下,人工智能已成为无法忽视的时代浪潮,深刻影响着我们生活与社会发展的方方面面。从智...
【好物】直降4400元新低:三... 今天,好物栏目为大家带来三星 Galaxy S24 Ultra、一加 13 手机等多款好价单品,部分...
微信附近的人找不到我?7个原因... 你是否曾经打开微信“附近的人”功能,却发现自己的头像迟迟不出现?别急,这个问题困扰过许多人,今天就来...
黑龙江省90余支队伍参加角逐!... 15日,由中国航空学会、黑龙江航空学会、黑龙江无人机行业协会等主办,哈尔滨市剑桥第三中学承办的第九届...
人类软件工程师,是时候让位了! 编者注:如果人类开发的软件系统都是这样的,还要你们干吗?所以,AI(大模型)写了这篇宣言(从标题到正...
16日至18日火星与轩辕十四“... 6月16日至18日傍晚,橙红色的火星靠近蓝白色的轩辕十四,一同现身于西方天空,其中,17日傍晚二者相...
从田间到车间的丰收“接力”——... 新华社济南6月14日电 近日,记者在齐鲁大地农业生产及加工一线看到,智能化农机在金色麦田里穿梭收粮,...
“创新价值”取代“盈利崇拜”,... 未盈利企业科创板IPO申请再增一单! 6月13日,上交所官网显示,被业界称为“半导体‘独角兽’”的上...
为产业找技术、为技术找产业!撬... 深圳商报·读创客户端记者 张郗郡 新技术、新产品想实现创新价值,往往需要完成从科学研究、实验开发到推...
“成都造”脑控外骨骼机器人有望... 12年前,林寒因意外导致下肢瘫痪。近日,在兴隆湖畔的科技融合转化基地,他戴上了一顶布满电极的“脑电帽...