近期,一篇题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文引起了广泛关注。该论文的核心观点是,在中文大模型训练过程中,数据质量至关重要。
面对中文数据集存在的种种问题,如英文派生、脱离实际等,研究团队积极应对,创新性地推出了COIG-CQIA中文指令微调数据集。这一数据集精选自高质量数据源,包括问答社区、维基、考试以及现有的自然语言处理(NLP)数据集,甚至“弱智吧”也包含在内。
随后,研究人员利用这些数据集对Yi-6B进行了微调,并通过BELLE-EVAL和GPT4进行了评估。评估结果显示,“弱智吧”的表现遥遥领先,远超其他网络媒体如知乎。这一发现不仅令人惊讶,也进一步验证了数据质量在模型训练中的重要性。
此外,在SafetyBench安全测试中,“弱智吧”的数据表现同样出色,显著优于其他数据源。这进一步证明了COIG-CQIA数据集的实用性和可靠性。
对于更多细节和深入解读,读者可访问论文原文链接:https://arxiv.org/abs/2403.18058
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com