监督学习也能从错误中反思清华英伟达教大模型反思
监督学习也能像强化学习一样“自我反思”了!
清华大学、英伟达和斯坦福联合提出NFT(Negative-aware FineTuning)新算法,不靠外部数据,通过“隐式负向策略”在已有模型结果上训练正向模型,实现了用“错题”练“正解”。
NFT本质上是在传统RFT(Rejection FineTuning)方法基础上,用负向数据(模型自己做错的题)帮助构建一个动态策略模型,再反向优化正向策略。这不是训练一个差模型,而是借贝叶斯公式推导出一种“在错题上练对解”的方法,且证明其梯度在On-Policy条件下与强化学习算法GRPO等价。