Atlas800训练服务器(型号:9000)
使用指南:
通过ssh方式(从π 2.0登录Ascend 910B计算节点),该计算集群包含两个节点,分别命名为“ascend02”及“ascend03”。
设置昇腾环境变量是运行训练任务的前提。若需执行多卡训练,请确保使用最新版本的CANN软件。当前集群已预装CANN 7.0.RC1.alpha003版本,使用时请相应配置环境变量。
为监控集群状态,您可执行以下命令查看使用状况:
根据集群当前负载,您可以通过以下命令指定所需的NPU卡号,以优化资源分配。
请注意,由于测试集群尚未配置slurm管理系统,为避免资源争用,每晚11点将自动清理未主动释放的进程,请提前备份您的测试结果。
此训练服务器支持多种Python版本,包括Python3.7.x(3.7.5-3.7.11)、Python3.8.x(3.8.0-3.8.11)以及Python3.9.x(3.9.0-3.9.2),以便与PyTorch无缝对接。
利用PyTorch提供的迁移分析工具,您可以轻松检查代码中的API兼容性。该工具的主要参数包括:
- -i: 指定待迁移脚本的文件夹路径;
- -o: 设定脚本迁移结果文件的输出位置;
- -v: 同样用于指定输出路径,但增加了详细输出选项。
关于迁移工具的高级应用及更多功能,请参考昇腾官方文档中的“msFmkTransplt”章节。
当前节点配置支持单机多卡模式,最多可支持8卡并行计算。
脚本命名建议遵循统一规范,便于管理与识别。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com