AI热门论文

AI百科6个月前更新 快创云
60 0

监督微调(SFT)通常用于训练语言模型,以模仿给定指令的标注回答。在本文中,我们挑战了这一范式,并提出了批评微调(CFT),即让模型学习批评有噪声的回答,而不仅仅是简单地模仿正确的回答。受人类学习过程的启发,这些过程强调批判性思维,CFT鼓励更深入的和细致的理解——这些特质常常被标准的SFT所忽视。为了验证CFT的有效性,我们从WebInstruct构建了一个包含5万个样本的数据集,使用GPT-4作为教师生成批评对([查询;有噪声的回答],批评)。在这个数据集上进行CFT,在六个不同的数学基准测试中,与SFT相比,使用如Qwen2.5、Qwen2.5-Math和DeepSeek-Math等基础模型时,CFT表现出了一致的4-10%的提升。我们进一步扩展到MetaMath和NuminaMath数据集,并观察到与SFT相似的改进。值得注意的是,我们的模型Qwen2.5-Math-CFT仅需在8个H100 GPU上用1小时的时间训练5万个样本,就能在大多数基准测试中匹配或超越像Qwen2.5-Math-Instruct这样的强劲对手,后者使用了超过200万个样本。此外,它还能匹敌SimpleRL的表现,而SimpleRL是通过140倍更多的计算资源训练的deepseek-r1复现版本。消融研究表明,CFT对有噪声的回答来源和教师批评模型具有鲁棒性。通过这些发现,我们认为CFT为推进语言模型的推理能力提供了一种更为有效的替代方案。

© 版权声明

相关文章