摘要:极致调优效率,闪电恢复能力!昇思赋能千亿模型高效稳定训练
依托昇腾AI大集群的强劲实力,运营商合作伙伴成功借助昇思MindSpore AI框架完成了Llama3.1-405B大模型的训练任务。数据表明,该模型训练性能与原生方案持平,同时训练效率及稳定性显著提升,充分展示了昇腾AI处理器与昇思AI框架的卓越结合能力。
本次合作标志着运营商伙伴首次在超大规模集群上,快速构建了基于昇思MindSpore版本的开源千亿稠密大模型,并实现了模型适配后的原生性能提升及训练效率优化。
针对Llama3.1-405B模型原生训练耗时长达54天,且累计发生419次故障的挑战,昇思MindSpore提供了大模型开发套件、多维混合分布式并行、断点续训等关键能力,有效提升了训练速度及稳定性。
一、十倍级效率飞跃,任务启动迅速、配置策略灵活便捷
MindSpore Transformers大模型开发套件支持一键YAML配置多维并行切分策略,相比业界其他产品更为简洁易用,能够在超大集群上迅速启动千亿稠密模型任务,提升计算调度效率。同时,套件封装了轻量接口调用分布式并行接口,采用多种并行策略混合,实现模型切分的计算与内存负载均衡,最大化释放昇腾硬件性能。此外,通过计算通信多流水并行、运行时流水异步调度等特性,进一步提升模型性能。
MindSpore的内存复用技术进一步优化了资源使用,降低了重复计算比例,使得大规模训练更加高效。借助Dryrun模拟功能,开发者可在单卡环境下进行分布式策略选择及优化,将单卡模拟的分布式策略直接应用于超大集群,实现小时级性能调优,相比传统大集群直接调优,效率提升十倍以上。
二、20分钟任务恢复:断点续训与编译缓存技术的强强联合
针对千亿参数模型在超大集群的频繁中断问题,昇思MindSpore采用编译缓存技术打造确定性CKPT,支持断点续训。以小时级颗粒度保存任务状态,减少中断时训练进度的丢失。断点续训显著缩短了故障后任务重新拉起的耗时,自故障发生至新训练出loss的时间跨度缩短至20分钟内,大幅减少了长时间任务中断后的等待时间。