特斯拉的AI训练利器:Dojo超算集群
为了进一步提升其自动驾驶(FSD)和Optimus机器人的性能,特斯拉正在打造一个由10万个H100 GPU组成的超算集群。这个名为Dojo的超级计算机,不仅为特斯拉的AI训练提供了强大的算力支持,还展示了其在硬件与软件协同方面的独特思路。
特斯拉的超级计算机集群
Dojo超算集群不仅配备了大量的英伟达H100 GPU,还整合了特斯拉自家的HW4、AI5和Dojo系统。这个系统由一个高达500兆瓦的大型系统提供电力和冷却,确保高效稳定的运行。马斯克表示,Dojo将拥有约10万个H100/H200 GPU,并配备大规模存储,用于全自动驾驶和Optimus机器人的视频训练。
Dojo的发展进度
自2021年特斯拉AI Day上首次宣布以来,Dojo的建设一直在稳步进行。去年6月,马斯克透露Dojo已经在线并运行了几个月的有用任务。而在今年,Dojo 1预计将达到约8000个相当于H100的算力,到2024年10月,其总计算能力将达到100 exaflops。
D1芯片与ExaPOD架构
D1芯片是特斯拉专为AI训练设计的芯片,拥有500亿晶体管,采用台积电7nm工艺制造。今年5月,D1芯片开始投产,并被用于Dojo超算集群中。通过晶圆级互连技术InFO_SoW,25个D1芯片可以形成一个高性能的tile,进一步构成机架、机柜和ExaPOD。这种架构使得Dojo能够扩展多个ExaPOD,从而构建出庞大的超级计算机系统。
挑战与前景
尽管Dojo在硬件和架构上展现出了强大的潜力,但特斯拉也面临着诸多挑战。首先,Dojo需要重写整个AI生态系统,包括CUDA和PyTorch等,以适应其独特的硬件架构。其次,如何高效地利用这些资源,并将其转化为实际的商业价值,也是特斯拉需要解决的问题。摩根士丹利的报告预测,Dojo有望通过robotaxi和软件服务等形式为特斯拉带来5000亿美元的市场价值。
总的来说,Dojo不仅是特斯拉在AI训练领域的重大投资,更是其实现新智能愿景的关键一步。尽管面临诸多挑战,但一旦成功,Dojo将为特斯拉带来巨大的商业和技术红利。