100%开源大模型OLMo:代码/权重/数据集/训练全过程公开,重定义AI共享

AI百科4个月前更新 快创云
49 0

  前言

  近期,艾伦人工智能研究所携手多个顶尖学术机构,发布了全球首个100%开源的大型模型“OLMo”。这一创举被视为AI开源社区的一个重大里程碑。OLMo不仅公开了模型权重,还囊括了完整的训练代码、数据集及训练过程,为后续的开源工作树立了新的标杆。这一开源模型的推出,无疑将极大促进自然语言处理(NLP)技术的发展与研究。

  (注:由于无法直接进行图片链接的伪原创处理,以下文本中的图片链接将保持不变。)

  OLMo模型的创新之处

  OLMo模型基于仅解码器的Transformer架构,采用了PaLM和Llama所使用的SwiGLU激活函数,并引入了旋转位置嵌入技术(RoPE),同时改进了基于字节对编码(BPE)的分词器,以减少模型输出中的个人可识别信息。此外,该模型还采用了不设置偏置项的策略,以增强模型的稳定性。

  (图片说明:图1展示了OLMo模型架构的改进与创新点;图2和图3进一步阐述了模型的技术细节与优势。)

  开源内容的全面性

  OLMo的开源内容涵盖了模型的所有相关资料:

  • 模型权重和训练代码:提供了四个不同架构、优化器和训练硬件体系下的7B大小的模型,以及一个1B大小的模型。
  • 预训练语料库:包含高达3T token的开源语料库及其生成代码。
  • 评估工具套件:包括每个模型训练过程中每1000步中包含的超过500个的检查点以及评估代码。

  性能评估

  从评估结果来看,OLMo-7B模型在多个核心任务上的准确率呈上升趋势,表现出色。尤其是在生成任务或阅读理解任务上,OLMo-7B甚至超越了Llama 2等同类开源模型,尽管在某些热门的问答任务上表现稍逊。在生成任务或阅读理解任务(例如truthfulQA)上,OLMo-7B均超过了Llama 2,但在一些热门的问答任务(如MMLU或Big-bench Hard)上表现稍差。

  (图片说明:图4展示了9个核心任务准确率的变化趋势;图5展示了OLMo 1B与其同类模型的核心评估结果。)

  开源带来的影响

  OLMo的全面开源不仅为AI研究提供了宝贵的资源,还有助于降低研究和开发的门槛,推动AI技术的创新与发展。通过这一开放模式,研究人员能更深入地探索AI模型的内部运作机制,共同推动语言模型科学的进步。

  结论

  OLMo的发布标志着AI开源模型进入了一个新时代。随着越来越多的研究机构和企业加入开源行列,我们有理由相信,未来的AI技术将更加开放、透明和创新。

  模型下载链接:

© 版权声明

相关文章