玩酷网

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。 中科

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。

中科院大学等机构提出了一种新的算法GMPO,通过将GRPO的算术平均值目标替换为几何平均值,并优化了裁剪策略,成功解决了GRPO的训练不稳定性问题 。

论文:arxiv.org/pdf/2507.20673

参考实现:github.com/callsys/GMPO ​​​