玩酷网

【[120星]Flow-GRPO:通过在线强化学习训练流匹配模型,让AI生成更精

【[120星]Flow-GRPO:通过在线强化学习训练流匹配模型,让AI生成更精准、更符合人类偏好的内容。亮点:1. 创新性地结合了流匹配与在线强化学习,提升生成效果;2. 提供多种预训练模型,涵盖文本渲染、人类偏好对齐等任务;3. 支持单节点和多节点训练,灵活适应不同计算环境】

'Flow-GRPO: Training Flow Matching Models via Online RL'

GitHub: github.com/yifan123/flow_grpo

强化学习 AI生成 预训练模型 AI创造营