CICC科普栏目｜大模型推理的天花板在哪里？_科技资讯

CICC科普栏目｜大模型推理的天花板在哪里？

创始人

2025-06-15 15:41:06

摘要

关键词：Large Reasoning Models (LRMs)、问题复杂度，可控谜题环境 (controllable puzzle environments)、思维痕迹 (reasoning traces)、过度思考 (overthinking)、推理计算预算 (inference compute budget)

集智编辑部丨作者

论文题目：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

发表时间：2024年10月22日

论文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年来，随着大型语言模型（LLMs）的飞速发展，一类专门针对推理任务进行优化的“大型推理模型”（Large Reasoning Models, LRMs）应运而生。与传统仅输出答案的LLM不同，LRM通过“链式思维”（chain‐of‐thought, CoT）或自我反思机制，先生成详尽的思考过程再给出答案。尽管在诸多数学与编码基准上表现优异，其真正的推理能力、规模化性能及内在局限尚未得到系统评估。近期苹果公司发表论文，借助可控谜题环境（经典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等），深入剖析LRM在不同复杂度下的表现，并揭示其“推理崩溃”与“过度思考”现象。

读书会推荐

集智俱乐部也联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起，一起拆解大模型的推理能力的可解释性，邀请你加入：

LRM的崛起与研究动机

随着OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的横空出世，研究者纷纷将其视作通向更通用人工智能的关键一步。早期LLM在推理基准上表现不佳，研究者尝试通过规模化训练数据及推理时计算（inference compute budget）来提升性能。思维链（CoT）与自我校验（self‐verification）策略，虽能在一定程度上提高准确率，却带来了所谓的“过度思考”（overthinking）——在找到正确思路后仍持续无效探索，浪费推理预算。

在模型的评估测试方面，大多只是聚焦于推理模型最终给出答案的准确率。此外，测试所使用的大量经典数学基准，如MATH-500、AIME系列常存在样本泄露或缺乏复杂度可控性等问题，难以分辨模型是凭借记忆还是算法推理。因此，本研究在此基础上，构建可精细控制复杂度且规则明晰的测试环境，同时检验模型的答案与思维痕迹，并通过模拟器精确核验中间解与最终结果，从而揭示LRM的真正“思考”面貌。

可控谜题环境的设计与优势

为了系统操控问题复杂度并保持逻辑结构一致，研究团队选取了四类经典谜题：

河内塔（Tower of Hanoi）：通过盘子数量控制组合深度，考察模型的递归规划与状态管理能力；
跳棋谜题（Checkers Jumping）：在线性布局中交换红蓝棋子位置，检测模型对局面转换规则的理解与前瞻能力；
过河问题（River Crossing）：多对“执行者—保护者”在约束条件下渡河，评估多主体协调与约束管理；
积木世界（Blocks World）：在堆栈间转换块状物，考验模型对依赖关系和临时重组的规划思路。

这四种环境均配备专门模拟器，实现对每一步移动合法性与最终目标状态的精确校验，为深入分析LRM“思维”提供了可靠工具。

图 1. 四种谜题环境的图解。每一列展示了谜题从初始状态（上）到中间状态（中）再到目标状态（下）的过程：河内塔（通过木桩运输圆盘）、跳棋（交换两种颜色标记的位置）、渡河（将个体运送过河）和方块世界（堆栈重新配置）。

实验设计与方法

研究以Claude 3.7 Sonnet（thinking/no‐thinking）和DeepSeekR1/V3为代表，允许最大64k推理token预算。对每种谜题、每个复杂度N，均生成25个实例并取平均性能。实验主要衡量：

答案准确率：模型最终是否正确完成谜题；
推理token使用量（thinking tokens）：LRM在思维过程阶段消耗的计算预算；
中间解探索轨迹（reasoning traces）：利用模拟器提取并标记思考中的每个候选解，分析其先后顺序及正确性。

图 2. 上图：我们的设置可以验证最终答案和中间推理痕迹，允许对模型思维行为进行详细分析。左下和中下：在低复杂度下，非思考模型更准确，效率更高。随着复杂性的增加，推理模型的表现会更好，但需要更多的tokens——直到它们都超过了一个临界阈值，并且跟踪时间更短。右下：对于正确解决的案例，Claude 3.7 Thinking倾向于在低复杂性的情况下早期找到答案，在高复杂性的情况下后期找到答案。在失败的情况下，它通常会关注早期的错误答案，浪费剩余的tokens预算。这两种情况都揭示了推理过程的低效。

复杂度对推理行为的影响：三大阶段

实验结果显示，随着问题复杂度的增加，LRM与非思维LLM在谜题环境中呈现三个显著推理阶段：

低复杂度阶段：标准LLM表现出色，推理更高效、准确率甚至超过LRM；
中等复杂度阶段：引入思维痕迹后，LRM开始在准确率上领先，但其推理token消耗也显著攀升；
高复杂度阶段：无论思维与否，所有模型准确率均骤降，出现“推理崩溃”现象——无法给出任何有效解答。

在高复杂度区域，发现LRM的推理token反而出现下降趋势——尽管仍有充足预算，模型却减少思考长度并放弃探索，导致完全失败；这一“计算规模极限”暗示了模型在面对更深组合链条时的固有障碍。此外，即便在中等复杂度，LRM也常在找到正确解后继续无谓探索，不仅拖慢推理速度，更加重了计算负担，印证了文献中所称的“过度思考”（overthinking）。

图 3. 思维模型（Claude 3.7 Sonnet with thinking, DeepSeek-R1）与非思维模型（Claude 3.7 Sonnet, DeepSeek-V3）在所有谜题环境和不同问题复杂程度中的准确性。

深入分析思考痕迹：探索与自我校正能力

借助模拟器提取每条思考痕迹中的中间解，本研究将正确与错误解在思维过程中的出现位置进行定量对比。结果显示：

在简单问题中，正确解往往较早出现，但随后的错误解涌现，分布向思维后段倾斜；
在中等复杂度中，模型初期多探索错误路径，只有在后期才汇聚到正确解；
在复杂度阈值以上，思路全线崩溃，思考痕迹中再无任何正确片段。

这一行为模式揭示了LRM有限的自我校正能力：虽然具备一定纠错潜力，却因效率低下或计算预算管理失衡，难以持续收敛至解。

图 4. 左和中：在四个不同复杂程度的谜题的推理轨迹中，中间解决方案的位置和正确性。✓表示正确的解决方案；x 表示不正确的解决方案，用阴影表示分布密度；右图：河内塔在不同复杂程度下的解决方案准确性与思考位置。简单问题（N=1-3）表现出早期的准确性随着时间的推移而下降（过度思考），中等问题（N=4-7）表现出持续推理的准确性略有提高，复杂问题（N≥8）表现出持续接近零的准确性，表明完全推理失败。

意外发现与未解之谜

为验证模型的符号执行能力，研究团队在提示中直接提供了河内塔（Tower of Hanoi）的解决算法，结果却未见性能提升，崩溃阈值与默认场景基本一致，凸显LRM在精确执行给定逻辑步骤时的局限。此外，不同谜题环境中，模型的首个错误移动所处位置相差甚远：在河内塔中可保持数百步无失误，而在过河问题（River Crossing）中第一错仅出现在第四步，或许与训练数据中例子稀缺度有关，提示LRM仍在一定程度上依赖记忆而非纯粹算法推理。

图 5. (a)和(b)尽管在提示符中提供了求解算法，但执行失败发生在相似的点，突出了逻辑步骤执行中的推理模型局限性。(c)和(d)值得注意的是，Claude 3.7 Sonnet模型在河内塔的无错误序列比在过河情景中的早期错误长得多。

结论、展望与思考

通过可控谜题环境的系统评估，研究首次揭示了当前LRM在问题复杂度维度上的三大推理阶段与计算规模极限，深入剖析了“过度思考”与自我校正的不稳定性，并通过思考痕迹量化了模型的探索策略。研究挑战了对LRM推理能力的诸多假设，表明其在泛化与符号操作上仍面临重大瓶颈。

尽管谜题环境提供了优越的复杂度可控性与精确验证，但毕竟狭窄地聚焦于结构化规划问题，难以全面代表真实世界中知识密集型与开放式推理场景。此外，实验依赖闭源API，限制了对模型内部架构与权重的深入剖析。最后，模拟器的精确性在高度非结构化领域或难以复制，提示未来需拓展至自然语言理解、常识推理等更富挑战性的任务域。

彭晨| 编译

本文来源：集智俱乐部

关注

上一篇：刘平均：海信空调变频S架构发布具有重大意义

下一篇：你的手机、智能家电安全吗？国安部发布防风险重要提示

CICC科普栏目｜大模型推理的天花板在哪里？

相关内容

热门资讯