AI即使答案对但逻辑全乱AI奥数证明成功率不到一半AI在数学证明中翻车了！哪怕答

2025-06-19 15:10:36 量子位看科技科技

AI即使答案对但逻辑全乱AI奥数证明成功率不到一半

AI在数学证明中翻车了！哪怕答案对，逻辑过程却惨不忍睹。

斯坦福、MIT、伯克利等机构首次系统评估29个大语言模型处理奥数级不等式证明的能力，结果发现：它们往往“猜对了”，但推理根本站不住脚。

研究团队构建了一个新数据集“IneqMath”，把复杂的不等式证明拆解为“界限估计”和“关系判断”两部分，并配套开发了“LLM-as-Judge”系统——五位AI“评审员”从不同维度逐步评估模型逻辑的严谨度，解决了“只看结论”的传统盲点。

测试显示，GPT-4等模型在最终答案上看似准确，但详细评分后，其推理链往往漏洞百出。比如Grok 3 mini表面答对71.5%，严谨得分却仅6%。

不仅如此，模型越大，推理不一定更准；推理过程越长，反而可能越乱。

不过也有希望：引入“定理线索”与“自我评分机制”两种策略，能显著提高模型的逻辑表现。

阅读：3 点赞：0

2025-06-05 醇香拿铁Mc

标签： ai 人工智能

2025-06-09 澹秋古道边

标签： ai

2025-06-17 吕涛清风来说事阿

标签： ai 人工智能

2025-06-20 茂名阿芳在东莞啊

标签： ai 荣耀折叠屏荣耀magic 人工智能

2025-06-12 深圳情怀车工作室

标签： ai 人工智能

2025-06-17 小猪熊动漫社

标签： ai 园林人工智能

2025-06-20 量子位

标签： ai 诺贝尔奖人工智能人工智能

2025-06-11 IT九熙

标签： ai 人工智能

玩酷网