苹果论文成连续剧了模型思考能力论战再升级苹果团队的论文，快变成连续剧了……第一集

苹果论文成连续剧了模型思考能力论战再升级

苹果团队的论文，快变成连续剧了……

第一集《思维的错觉》：大模型推理会崩溃。

第二集《思维的错觉的错觉》：大模型崩溃是错觉。

现在进展到第三集《思维的错觉的错觉的错觉》：大模型还是会崩溃。

起初，苹果团队发了一篇论文炮轰所有大模型推理都是假象，遇到高复杂度长推理问题时都会崩溃，即使给他们足够的时间和计算资源。【图1】

有一位网友与Claude Opus“合作”写了一篇长达5页的文章反驳苹果，想要证明大模型这种明显的崩溃是人为因素造成的。【图2】

现在登场的第三篇文章综合了前两篇文章的观点，赞同大模型崩溃是实验设计不合理这一人为因素造成的，但也强调模型在非常长的逐步执行中仍然会出错，尽管方法有所改进，但脆弱性依然存在。【图3】

也就是说，大模型在推理过程中还是会崩溃。

基于上次的经验，网友猜测第三篇文章的第一作者或许是Gemini Pro～

我们一起看看这第三集到底都演了啥：

在第二篇论文当中，作者认为苹果论文里面有三个测试瑕疵：token预算限制、评估误判、以及谜题设计的数学不可解性。

于是，作者进行了模型重新验证。

- 替代表示法的有效性：当要求模型以Lua函数等紧凑形式输出汉诺塔解法时（而非枚举所有步骤），测试模型（如Claude-3.7-Sonnet、Gemini 2.5）在N=15时仍能保持高准确率，且token消耗远低于上下文限制（

玩酷网