昇腾AI-910B平台使用文档¶

AI百科3个月前发布 快创云
117 0

  Atlas800训练服务器(型号:9000)

  使用指南:

  通过ssh方式(从π 2.0登录Ascend 910B计算节点),该计算集群包含两个节点,分别命名为“ascend02”及“ascend03”。

  设置昇腾环境变量是运行训练任务的前提。若需执行多卡训练,请确保使用最新版本的CANN软件。当前集群已预装CANN 7.0.RC1.alpha003版本,使用时请相应配置环境变量。

  为监控集群状态,您可执行以下命令查看使用状况:

  根据集群当前负载,您可以通过以下命令指定所需的NPU卡号,以优化资源分配。

  请注意,由于测试集群尚未配置slurm管理系统,为避免资源争用,每晚11点将自动清理未主动释放的进程,请提前备份您的测试结果。

  此训练服务器支持多种Python版本,包括Python3.7.x(3.7.5-3.7.11)、Python3.8.x(3.8.0-3.8.11)以及Python3.9.x(3.9.0-3.9.2),以便与PyTorch无缝对接。

  利用PyTorch提供的迁移分析工具,您可以轻松检查代码中的API兼容性。该工具的主要参数包括:

  • -i: 指定待迁移脚本的文件夹路径;
  • -o: 设定脚本迁移结果文件的输出位置;
  • -v: 同样用于指定输出路径,但增加了详细输出选项。

  关于迁移工具的高级应用及更多功能,请参考昇腾官方文档中的“msFmkTransplt”章节。

  当前节点配置支持单机多卡模式,最多可支持8卡并行计算。

  脚本命名建议遵循统一规范,便于管理与识别。

© 版权声明

相关文章