弱智吧:AI 届的唯一真神,语料比知乎、豆瓣、小红书都强!

AI百科5个月前更新 快创云
39 0

  近期,一篇题为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的论文引起了广泛关注。该论文的核心观点是,在中文大模型训练过程中,数据质量至关重要。

  面对中文数据集存在的种种问题,如英文派生、脱离实际等,研究团队积极应对,创新性地推出了COIG-CQIA中文指令微调数据集。这一数据集精选自高质量数据源,包括问答社区、维基、考试以及现有的自然语言处理(NLP)数据集,甚至“弱智吧”也包含在内。

  随后,研究人员利用这些数据集对Yi-6B进行了微调,并通过BELLE-EVAL和GPT4进行了评估。评估结果显示,“弱智吧”的表现遥遥领先,远超其他网络媒体如知乎。这一发现不仅令人惊讶,也进一步验证了数据质量在模型训练中的重要性。

  此外,在SafetyBench安全测试中,“弱智吧”的数据表现同样出色,显著优于其他数据源。这进一步证明了COIG-CQIA数据集的实用性和可靠性。

  对于更多细节和深入解读,读者可访问论文原文链接:https://arxiv.org/abs/2403.18058

© 版权声明

相关文章