寒武纪发布新款AI训练卡MLU370-X8

AI百科3个月前更新 快创云
46 0

  2022年3月21日,寒武纪公司隆重推出了其最新款训练加速卡——MLU370-X8。这款加速卡搭载了双芯片四芯粒的思元370,并集成了寒武纪独有的MLU-Link™多芯互联技术,专为训练任务设计。在诸如YOLOv3、Transformer等业界广泛应用的训练任务中,8卡计算系统的并行性能可高达350W RTX GPU的155%。

  ▲ 寒武纪训练加速卡MLU370-X8

  该加速卡采用双芯思元370架构,最大训练功耗为250W,能够充分展现AI训练加速中常见的FP32、FP16或BF16计算性能。与标准思元370加速卡相比,MLU370-X8的内存和编解码资源提升至两倍,并配备了MLU-Link™多芯互联技术。在多种训练任务中,8卡并行平均性能达到了350W RTX GPU的155%。

  ▲ MLU370-X8中整合了双芯片四芯粒思元370

  MLU-Link™多芯互联技术使得MLU370-X8在卡内及卡间互联功能方面表现出色。寒武纪为支持多卡系统特别设计了MLU-Link桥接卡,能够实现4张加速卡为一组的8颗思元370芯片全互联。每张加速卡可获得高达200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,从而高效执行多芯多卡训练和分布式推理任务。

  ▲MLU370-X8 MLU-Link 4卡桥接与拓扑图

  Cambricon NeuWare为思元370系列芯片提供训推一体加速。它支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式,并配备了灵活高效的训练工具。高性能算子库已全面覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,满足用户对于算子覆盖率及模型精度的需求。

  ▲Cambricon NeuWare为思元370系列芯片提供训推一体加速

  在Cambricon NeuWare SDK上进行实测,结果显示,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,MLU370-X8在8卡环境下实现了更优的并行加速比。

  ▲MLU370-X8 单机8卡部署配置、单卡与8卡性能对比图

  测试环境及规格表显示,250W MLU370-X8的性能与350W GPU在特定条件下进行了比较。MLU370-X8的推出进一步丰富了寒武纪的训练算力交付方式,与高端训练产品思元290、玄思1000以及基于思元370芯粒技术构建的MLU370-X4、MLU370-S4智能加速卡协同工作,形成了完整的云端训练、推理产品组合。

  目前,MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮与寒武纪在思元370系列产品上的合作进展顺利,我们期待双方能够继续深化合作,为更多行业和客户带来强大的人工智能计算力。”

  寒武纪通过这款新品向市场展示了其致力于推动人工智能技术发展的坚定决心:为人工智能技术的蓬勃发展提供卓越的AI芯片产品,让机器更好地理解和服务人类。

© 版权声明

相关文章