AI热门论文

监督微调（SFT）通常用于训练语言模型，以模仿给定指令的标注回答。在本文中，我们挑战了这一范式，并提出了批评微调（CFT），即让模型学习批评有噪声的回答，而不仅仅是简单地模仿正确的回答。受人类学习过程的启发，这些过程强调批判性思维，CFT鼓励更深入的和细致的理解——这些特质常常被标准的SFT所忽视。为了验证CFT的有效性，我们从WebInstruct构建了一个包含5万个样本的数据集，使用GPT-4作为教师生成批评对（[查询；有噪声的回答]，批评）。在这个数据集上进行CFT，在六个不同的数学基准测试中，与SFT相比，使用如Qwen2.5、Qwen2.5-Math和DeepSeek-Math等基础模型时，CFT表现出了一致的4-10%的提升。我们进一步扩展到MetaMath和NuminaMath数据集，并观察到与SFT相似的改进。值得注意的是，我们的模型Qwen2.5-Math-CFT仅需在8个H100 GPU上用1小时的时间训练5万个样本，就能在大多数基准测试中匹配或超越像Qwen2.5-Math-Instruct这样的强劲对手，后者使用了超过200万个样本。此外，它还能匹敌SimpleRL的表现，而SimpleRL是通过140倍更多的计算资源训练的deepseek-r1复现版本。消融研究表明，CFT对有噪声的回答来源和教师批评模型具有鲁棒性。通过这些发现，我们认为CFT为推进语言模型的推理能力提供了一种更为有效的替代方案。