云原生场景下 Fluid 加速 AIGC 工程实践

AI百科3个月前发布 快创云
44 0

  阿里云技术专家车漾在QCon上海会议上分享了关于Fluid项目在云原生AI场景下的数据和任务编排框架,特别是在AIGC模型推理工程化落地方面的优化探索。他强调了简化AI场景的分布式缓存管理和运维,降低资源成本,以及优化推理服务读取模型数据的效率,加速模型加载过程。此外,他还演示了如何通过Fluid将LLM模型的推理加载速度提升近7倍,并提供缓存弹性的能力,避免资源浪费。

  大模型推理在AI商业化时代具有广泛应用前景,比模型训练更具竞争力。然而,大模型推理也面临成本、性能和效率的挑战,其中成本尤为关键。随着模型规模增大,所需运行资源增多,GPU稀缺且价格高昂,导致每次模型推理成本上升。为了降低单位推理成本,基础设施团队需要优化资源配置。

  此外,性能是核心竞争力,特别是在面向消费者领域的大模型中,更快的推理速度和更好的推理效果是吸引和保持用户的关键。随着云原生技术和架构发展,IT架构从传统的企业级应用、Web应用、微服务等领域转向云原生架构。互联网应用大多基于容器、Kubernetes、Prometheus等云原生技术实现,追求弹性、灵活性以及最佳性价比。

  在AIGC推理场景下,计算存储分离导致的数据访问高延迟、带宽受限问题和大模型规模不断增长的矛盾影响了成本、性能和效率。为了解决这个问题,Fluid项目应运而生。

  Fluid在Kubernetes中负责编排数据及其计算任务,包括空间编排和时间编排。空间编排意味着计算任务将优先调度到已缓存数据的节点或近似节点上,提升数据密集型应用的性能。时间编排允许同时提交数据操作和任务,但在任务执行前需要执行数据迁移和预热操作,确保任务在无人值守的情况下顺利进行。

  Fluid提供五种核心功能:标准化、自动化、性能优化、平台独立性和数据与任务编排。在AIGC模型推理场景中,Fluid带来了许多优化方案,包括简化分布式缓存的使用复杂度、提供弹性缓存能力、以数据为中心实现数据感知调度、提供数据流编排能力以及优化读取性能。

  Fluid还提供了可弹性伸缩的计算侧分布式缓存,解决大规模并发场景下快速高效读取数据的问题。测试数据显示,弹性伸缩的计算侧分布式缓存能显著提升AI应用性能。此外,Fluid还通过暴露可观测性接口,配合手动扩缩容、HPA等Kubernetes扩缩容能力,实现根据业务需求弹性扩容、缩容数据缓存。

  最后,Fluid利用Kubernetes的能力,将AI模型上线的业务流程标准化,并通过提供数据操作抽象及数据流编排能力,使得整个流程更为高效,并减少了人工介入的程度。实际测试表明,使用Fluid优化后,服务启动速度可提升约10倍。

  总结:Fluid为AIGC模型弹性加速提供开箱即用、优化内置的方案,在达到更好性能的同时降低成本,还包含端到端的自动化能力。在此基础上使用Fluid SDK可以进一步发挥GPU实例的带宽能力实现极致的加速效果。

© 版权声明

相关文章