玩酷网

AI即使答案对但逻辑全乱AI奥数证明成功率不到一半AI在数学证明中翻车了!哪怕答

AI即使答案对但逻辑全乱AI奥数证明成功率不到一半

AI在数学证明中翻车了!哪怕答案对,逻辑过程却惨不忍睹。

斯坦福、MIT、伯克利等机构首次系统评估29个大语言模型处理奥数级不等式证明的能力,结果发现:它们往往“猜对了”,但推理根本站不住脚。

研究团队构建了一个新数据集“IneqMath”,把复杂的不等式证明拆解为“界限估计”和“关系判断”两部分,并配套开发了“LLM-as-Judge”系统——五位AI“评审员”从不同维度逐步评估模型逻辑的严谨度,解决了“只看结论”的传统盲点。

测试显示,GPT-4等模型在最终答案上看似准确,但详细评分后,其推理链往往漏洞百出。比如Grok 3 mini表面答对71.5%,严谨得分却仅6%。

不仅如此,模型越大,推理不一定更准;推理过程越长,反而可能越乱。

不过也有希望:引入“定理线索”与“自我评分机制”两种策略,能显著提高模型的逻辑表现。