AI热门论文

AI百科6个月前更新 快创云
54 0

  监督微调(SFT)是训练语言模型以模仿给定指令的标注回答的一种常见方法。然而,我们挑战了这一传统范式,提出了批评微调(CFT)的概念。CFT旨在让模型学习批评有噪声的回答,而不仅仅是简单地模仿正确的回答。这一方法受到人类学习过程的启发,强调批判性思维,并鼓励更深入的分析和细致的理解——这些都是标准SFT所忽视的。

  为了验证CFT的有效性,我们构建了一个包含5万个样本的数据集,使用GPT-4作为教师生成批评对([查询;有噪声的回答],批评)。在这个数据集上进行CFT,我们在六个不同的数学基准测试中,与使用SFT相比,观察到了一致的4-10%的性能提升。这些基础模型包括Qwen2.5、Qwen2.5-Math和DeepSeek-Math等。

  我们进一步扩展到MetaMath和NuminaMath数据集,并观察到了类似的改进。值得注意的是,我们的模型Qwen2.5-Math-CFT在8个H100 GPU上仅用1小时的时间训练5万个样本,就能在大多数基准测试中匹配或超越像Qwen2.5-Math-Instruct这样的强劲对手,后者使用了超过200万个样本。此外,它还能与SimpleRL相媲美,而SimpleRL是通过140倍更多的计算资源训练的deepseek-r1复现版本。

  消融研究表明,CFT对有噪声的回答来源和教师批评模型具有鲁棒性。通过这些发现,我们认为CFT为推进语言模型的推理能力提供了一种更为有效的替代方案。

© 版权声明

相关文章