只训练数学却理化生战胜o1跨学科推理新突破
只在数学数据上进行训练,却在物理、化学、生物等领域取得了惊人的突破?
一项新的强化学习算法——CPGD(Clipped Policy Gradient Optimization with Policy Drift),正打破传统模型的训练瓶颈,它甚至超越了闭源模型o1!
来自上海创智学院和上海AI Lab的团队,在多个基准测试中,基于CPGD的MM-Eureka-CPGD-7B模型,不仅在数学推理上提升了21.8%,在物理、化学和生物等学科领域也表现出了前所未有的泛化能力。令人惊讶的是,尽管这些模型仅在数学数据上经过强化学习训练,它们在其他学科的表现仍然超过了o1,展现了出色的跨学科推理能力。
CPGD算法最大的亮点,不仅仅是性能提升,它还成功解决了强化学习训练中的稳定性问题。传统强化学习方法常面临训练崩溃、梯度不稳定等问题,而CPGD通过创新的策略比值对数化处理和引入策略漂移项,有效提升了训练的稳定性。
[图片]