大模型只学一道题就变强监督学习5小时训练吊打强化学习大模型推理能力还能靠监督学习

大模型只学一道题就变强监督学习5小时训练吊打强化学习

大模型推理能力还能靠监督学习激活？加拿大滑铁卢大学TIGER Lab团队交出了一种新解法：One-Shot CFT，一题训练五小时起飞，20倍效率碾压强化学习。

这个方法全名是“One-Shot Critique Fine-Tuning”，本质仍是监督学习，但不再让模型死记硬背标准答案，而是训练它“点评别人的答案”，像人类一样，从批判中学会推理。

怎么做到的？核心流程三步走：

- 选一个代表性问题，比如一道数学题；

- 用不同开源模型（如MiMo、Qwen3等）生成多种解答；

- 再让更强模型（如GPT-4、Claude）点评这些答案的好坏。

这些点评被当作训练信号，教目标模型（如Qwen2.5、LLaMA3.2）去理解答案背后的推理逻辑。

阅读：0 点赞：0

玩酷网