玩酷网

大模型只学一道题就变强监督学习5小时训练吊打强化学习大模型推理能力还能靠监督学习

大模型只学一道题就变强监督学习5小时训练吊打强化学习

大模型推理能力还能靠监督学习激活?加拿大滑铁卢大学TIGER Lab团队交出了一种新解法:One-Shot CFT,一题训练五小时起飞,20倍效率碾压强化学习。

这个方法全名是“One-Shot Critique Fine-Tuning”,本质仍是监督学习,但不再让模型死记硬背标准答案,而是训练它“点评别人的答案”,像人类一样,从批判中学会推理。

怎么做到的?核心流程三步走:

- 选一个代表性问题,比如一道数学题;

- 用不同开源模型(如MiMo、Qwen3等)生成多种解答;

- 再让更强模型(如GPT-4、Claude)点评这些答案的好坏。

这些点评被当作训练信号,教目标模型(如Qwen2.5、LLaMA3.2)去理解答案背后的推理逻辑。