玩酷网

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。中科

2025-08-02 19:50:21 蚁工厂科技

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。

中科院大学等机构提出了一种新的算法GMPO，通过将GRPO的算术平均值目标替换为几何平均值，并优化了裁剪策略，成功解决了GRPO的训练不稳定性问题。

论文：arxiv.org/pdf/2507.20673

参考实现：github.com/callsys/GMPO

阅读：0 点赞：0