监督学习也能从错误中反思清华英伟达教大模型反思监督学习也能像强化学习一样“自我反

监督学习也能从错误中反思清华英伟达教大模型反思

监督学习也能像强化学习一样“自我反思”了！

清华大学、英伟达和斯坦福联合提出NFT（Negative-aware FineTuning）新算法，不靠外部数据，通过“隐式负向策略”在已有模型结果上训练正向模型，实现了用“错题”练“正解”。

NFT本质上是在传统RFT（Rejection FineTuning）方法基础上，用负向数据（模型自己做错的题）帮助构建一个动态策略模型，再反向优化正向策略。这不是训练一个差模型，而是借贝叶斯公式推导出一种“在错题上练对解”的方法，且证明其梯度在On-Policy条件下与强化学习算法GRPO等价。

阅读：0 点赞：0

玩酷网