AI热门论文

监督微调(SFT)通常用于训练语言模型,以模仿给定指令的标注回答。在本文中,我们挑战了这一范式,并提出了批评微调(CFT),即让模型学习批评有噪声的回答,而不仅仅是简单地模仿正确的回答。受人类学习过程...
6个月前
59