摘要
关键词:Large Reasoning Models (LRMs)、问题复杂度 ,可控谜题环境 (controllable puzzle environments)、思维痕迹 (reasoning traces)、过度思考 (overthinking)、推理计算预算 (inference compute budget)
集智编辑部 丨作者
论文题目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
发表时间:2024年10月22日
论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
近年来,随着大型语言模型(LLMs)的飞速发展,一类专门针对推理任务进行优化的“大型推理模型”(Large Reasoning Models, LRMs)应运而生。与传统仅输出答案的LLM不同,LRM通过“链式思维”(chain‐of‐thought, CoT)或自我反思机制,先生成详尽的思考过程再给出答案。尽管在诸多数学与编码基准上表现优异,其真正的推理能力、规模化性能及内在局限尚未得到系统评估。近期苹果公司发表论文,借助可控谜题环境(经典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同复杂度下的表现,并揭示其“推理崩溃”与“过度思考”现象。
读书会推荐
集智俱乐部也联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起 ,一起拆解大模型的推理能力的可解释性,邀请你加入:
LRM的崛起与研究动机
随着OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的横空出世,研究者纷纷将其视作通向更通用人工智能的关键一步。早期LLM在推理基准上表现不佳,研究者尝试通过规模化训练数据及推理时计算(inference compute budget)来提升性能。思维链(CoT)与自我校验(self‐verification)策略,虽能在一定程度上提高准确率,却带来了所谓的“过度思考”(overthinking)——在找到正确思路后仍持续无效探索,浪费推理预算。
在模型的评估测试方面,大多只是聚焦于推理模型最终给出答案的准确率。此外,测试所使用的大量经典数学基准,如MATH-500、AIME系列常存在样本泄露或缺乏复杂度可控性等问题,难以分辨模型是凭借记忆还是算法推理。因此,本研究在此基础上,构建可精细控制复杂度且规则明晰的测试环境,同时检验模型的答案与思维痕迹,并通过模拟器精确核验中间解与最终结果,从而揭示LRM的真正“思考”面貌。
可控谜题环境的设计与优势
为了系统操控问题复杂度并保持逻辑结构一致,研究团队选取了四类经典谜题:
河内塔(Tower of Hanoi):通过盘子数量控制组合深度,考察模型的递归规划与状态管理能力;
跳棋谜题(Checkers Jumping):在线性布局中交换红蓝棋子位置,检测模型对局面转换规则的理解与前瞻能力;
过河问题(River Crossing):多对“执行者—保护者”在约束条件下渡河,评估多主体协调与约束管理;
积木世界(Blocks World):在堆栈间转换块状物,考验模型对依赖关系和临时重组的规划思路。
这四种环境均配备专门模拟器,实现对每一步移动合法性与最终目标状态的精确校验,为深入分析LRM“思维”提供了可靠工具。
图 1. 四种谜题环境的图解。每一列展示了谜题从初始状态(上)到中间状态(中)再到目标状态(下)的过程:河内塔(通过木桩运输圆盘)、跳棋(交换两种颜色标记的位置)、渡河(将个体运送过河)和方块世界(堆栈重新配置)。
实验设计与方法
研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeekR1/V3为代表,允许最大64k推理token预算。对每种谜题、每个复杂度N,均生成25个实例并取平均性能。实验主要衡量:
答案准确率:模型最终是否正确完成谜题;
推理token使用量(thinking tokens):LRM在思维过程阶段消耗的计算预算;
中间解探索轨迹(reasoning traces):利用模拟器提取并标记思考中的每个候选解,分析其先后顺序及正确性。
图 2. 上图:我们的设置可以验证最终答案和中间推理痕迹,允许对模型思维行为进行详细分析。左下和中下:在低复杂度下,非思考模型更准确,效率更高。随着复杂性的增加,推理模型的表现会更好,但需要更多的tokens——直到它们都超过了一个临界阈值,并且跟踪时间更短。右下:对于正确解决的案例,Claude 3.7 Thinking倾向于在低复杂性的情况下早期找到答案,在高复杂性的情况下后期找到答案。在失败的情况下,它通常会关注早期的错误答案,浪费剩余的tokens预算。这两种情况都揭示了推理过程的低效。
复杂度对推理行为的影响:三大阶段
实验结果显示,随着问题复杂度的增加,LRM与非思维LLM在谜题环境中呈现三个显著推理阶段:
低复杂度阶段:标准LLM表现出色,推理更高效、准确率甚至超过LRM;
中等复杂度阶段:引入思维痕迹后,LRM开始在准确率上领先,但其推理token消耗也显著攀升;
高复杂度阶段:无论思维与否,所有模型准确率均骤降,出现“推理崩溃”现象——无法给出任何有效解答。
在高复杂度区域,发现LRM的推理token反而出现下降趋势——尽管仍有充足预算,模型却减少思考长度并放弃探索,导致完全失败;这一“计算规模极限”暗示了模型在面对更深组合链条时的固有障碍。此外,即便在中等复杂度,LRM也常在找到正确解后继续无谓探索,不仅拖慢推理速度,更加重了计算负担,印证了文献中所称的“过度思考”(overthinking)。
图 3. 思维模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)与非思维模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有谜题环境和不同问题复杂程度中的准确性。
深入分析思考痕迹:探索与自我校正能力
借助模拟器提取每条思考痕迹中的中间解,本研究将正确与错误解在思维过程中的出现位置进行定量对比。结果显示:
在简单问题中,正确解往往较早出现,但随后的错误解涌现,分布向思维后段倾斜;
在中等复杂度中,模型初期多探索错误路径,只有在后期才汇聚到正确解;
在复杂度阈值以上,思路全线崩溃,思考痕迹中再无任何正确片段。
这一行为模式揭示了LRM有限的自我校正能力:虽然具备一定纠错潜力,却因效率低下或计算预算管理失衡,难以持续收敛至解。
图 4. 左和中:在四个不同复杂程度的谜题的推理轨迹中,中间解决方案的位置和正确性。✓表示正确的解决方案;x 表示不正确的解决方案,用阴影表示分布密度;右图:河内塔在不同复杂程度下的解决方案准确性与思考位置。简单问题(N=1-3)表现出早期的准确性随着时间的推移而下降(过度思考),中等问题(N=4-7)表现出持续推理的准确性略有提高,复杂问题(N≥8)表现出持续接近零的准确性,表明完全推理失败。
意外发现与未解之谜
为验证模型的符号执行能力,研究团队在提示中直接提供了河内塔(Tower of Hanoi)的解决算法,结果却未见性能提升,崩溃阈值与默认场景基本一致,凸显LRM在精确执行给定逻辑步骤时的局限。此外,不同谜题环境中,模型的首个错误移动所处位置相差甚远:在河内塔中可保持数百步无失误,而在过河问题(River Crossing)中第一错仅出现在第四步,或许与训练数据中例子稀缺度有关,提示LRM仍在一定程度上依赖记忆而非纯粹算法推理。
图 5. (a)和(b)尽管在提示符中提供了求解算法,但执行失败发生在相似的点,突出了逻辑步骤执行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河内塔的无错误序列比在过河情景中的早期错误长得多。
结论、展望与思考
通过可控谜题环境的系统评估,研究首次揭示了当前LRM在问题复杂度维度上的三大推理阶段与计算规模极限,深入剖析了“过度思考”与自我校正的不稳定性,并通过思考痕迹量化了模型的探索策略。研究挑战了对LRM推理能力的诸多假设,表明其在泛化与符号操作上仍面临重大瓶颈。
尽管谜题环境提供了优越的复杂度可控性与精确验证,但毕竟狭窄地聚焦于结构化规划问题,难以全面代表真实世界中知识密集型与开放式推理场景。此外,实验依赖闭源API,限制了对模型内部架构与权重的深入剖析。最后,模拟器的精确性在高度非结构化领域或难以复制,提示未来需拓展至自然语言理解、常识推理等更富挑战性的任务域。
彭晨| 编译
本文来源:集智俱乐部
关注