玩酷网

苹果论文成连续剧了模型思考能力论战再升级苹果团队的论文,快变成连续剧了……第一集

苹果论文成连续剧了模型思考能力论战再升级

苹果团队的论文,快变成连续剧了……

第一集《思维的错觉》:大模型推理会崩溃。

第二集《思维的错觉的错觉》:大模型崩溃是错觉。

现在进展到第三集《思维的错觉的错觉的错觉》:大模型还是会崩溃。

起初,苹果团队发了一篇论文炮轰所有大模型推理都是假象,遇到高复杂度长推理问题时都会崩溃,即使给他们足够的时间和计算资源。【图1】

有一位网友与Claude Opus“合作”写了一篇长达5页的文章反驳苹果,想要证明大模型这种明显的崩溃是人为因素造成的。【图2】

现在登场的第三篇文章综合了前两篇文章的观点,赞同大模型崩溃是实验设计不合理这一人为因素造成的,但也强调模型在非常长的逐步执行中仍然会出错,尽管方法有所改进,但脆弱性依然存在。【图3】

也就是说,大模型在推理过程中还是会崩溃。

基于上次的经验,网友猜测第三篇文章的第一作者或许是Gemini Pro~

我们一起看看这第三集到底都演了啥:

在第二篇论文当中,作者认为苹果论文里面有三个测试瑕疵:token预算限制、评估误判、以及谜题设计的数学不可解性。

于是,作者进行了模型重新验证。

- 替代表示法的有效性:当要求模型以Lua函数等紧凑形式输出汉诺塔解法时(而非枚举所有步骤),测试模型(如Claude-3.7-Sonnet、Gemini 2.5)在N=15时仍能保持高准确率,且token消耗远低于上下文限制(