自主机器开发是一个涉及数据生成、收集、模型训练与部署的迭代过程,其特点在于它是一个复杂的多阶段、多容器工作流,跨越异构计算资源。在开发过程中,多个团队需要共享和访问计算资源,同时,他们希望将部分工作负载扩展到云端,这通常需要掌握DevOps专业知识,而另一些工作负载则需要在本地进行维护。
然而,目前市场上缺乏一个统一的平台,让开发者能够轻松提交并管理所需的各种计算工作负载。在最近的GTC大会上,NVIDIA推出了OSMO,这是一款云原生工作流程编排平台,它提供了一个单一的界面,用于在跨异构共享计算环境中调度和管理各种自主机器工作负载。这些工作负载包括:
- 合成数据生成(SDG)
- DNN训练和验证
- 强化学习
- SIL或HIL中的机器人(重新)仿真
- 基于SIM或真实数据的感知评估
OSMO的统一计算资源调度功能,使得用户能够轻松在Kubernetes集群上部署和编排多阶段工作负载。这包括共享的异构多节点计算资源,如aarch64和x86-64,确保了跨不同架构的灵活性和兼容性。用户可以通过YAML文件轻松设置多阶段、多节点任务,并简化从SDG、训练到模型验证的端到端开发流程。此外,OSMO还可以集成到现有的CI/CD流程中,以动态调度任务,用于夜间回归测试、基准测试和模型验证。
该服务还采用了OIDC等开放标准进行身份验证,并通过一键键旋转支持凭据和数据集安全的最佳实践。在合规性方面,团队可以管理和追踪用于模型训练的所有数据的沿袭,并在开发中进行版本控制。此功能对于可再现性也非常有价值。
合成数据生成是分布式环境的受益者之一。它通常从本地开始生成较小批量的数据,但随着需要生成大量数据,则需要进行云扩展。OSMO使用弹性资源调配,在降低SDG等离线批量流程的成本方面发挥着关键作用,从而实现高效且经济的大规模数据生成。
OSMO还支持软件在环(SIL)机器人测试,该测试涉及多传感器和多机器人场景或一套测试场景的模拟。这些场景最适合利用云环境中易于访问的计算资源。OSMO能够跨分布式环境调度和管理工作负载,可确保利用云资源的可扩展性和可访问性高效执行SIL测试。另一方面,由于特定机器人或机器硬件的可用性限制,硬件在环(HIL)测试需要本地部署。此外,异构计算对于HIL测试也是必要的,因为仿真和调试等工作负载需要x86架构的支持,同时正在测试的软件需要在aarch64架构上运行以提供准确的性能和硬件功能。直接在目标硬件上运行HIL还可以减少对昂贵模拟器的需求。
OSMO还支持GR00T基础模型的训练。该模型需要在NVIDIA DGX上进行模型训练同时在OVX上进行实时强化学习。此工作负载包括在一个循环中以迭代方式生成和训练模型。OSMO可以跨分布式环境管理和调度工作负载从而实现DGX和OVX系统的无缝协调从而实现高效的迭代模型开发。数据沿袭和管理对于模型审计和确保整个开发过程的可跟踪性至关重要。借助OSMO用户可以跟踪从来源到经过训练的模型的数据沿袭从而提供透明性和可靠性。此外借助OSMO还可以轻松管理大型数据集和创建集合从而实现高效的数据组织和分类。这包括管理真实数据、合成数据或混合数据集合的能力从而为用于模型训练和评估的数据集提供灵活性和控制力。目前NVIDIA OSMO正处于抢先体验阶段。如果您对加速您的自主机器开发工作负载感兴趣请立即申请加入体验计划。