在生成式AI蓬勃发展的今天,大语言模型推理已成为关键的工作负载,众多企业正积极提供高效、实时的服务。青云QingCloud利用第四代英特尔®至强®可扩展处理器与BigDL-LLM大语言模型推理方案,成功推出实时低延迟的大语言模型推理服务。本文深入探讨了青云AI在线推理服务及其背后的技术与优化策略。
青云AI在线推理服务
青云科技近期推出的青云模型市场试用版,扩展了“大模型”分类,支持国内外多个开源模型,如ChatGLM3、Baichuan2、LLaMA2等。用户可通过开源模型或上传私有模型镜像,轻松实现大模型的快速部署。该服务运行于青云E4云主机,基于第四代英特尔®至强®可扩展服务器,采用BigDL-LLM运行时,支持实时低延迟的大语言模型推理。用户只需访问青云网站,即可体验高效的大语言模型在线推理服务。
使用界面与操作
用户登录青云公有云后,进入AppCenter控制台,选择“青云AI在线推理”。按页面提示操作,选择intel-runtime,即可创建带有AMX特性的青云E4实例,并指定由BigDL-LLM提供低延迟推理能力。完成配置、网络设置和服务环境配置后,即可提交部署。成功部署后,AI在线推理服务的节点状态将显示为“活跃”,服务状态为“正常”。通过青云负载均衡器提供的公网IP,可在浏览器中访问部署成功的服务。
BigDL-LLM大语言模型推理与性能优化
青云AI在线推理服务依托第四代英特尔®至强®可扩展处理器,通过创新架构提升性能。英特尔®AMX针对硬件和软件优化,为深度学习推理和训练提供显著性能提升。BigDL-LLM作为大语言模型推理的运行时,支持多种数据类型优化,显著降低内存占用并提供低延迟访问。其低比特模型优化技术包括模型量化和访存优化,同时针对英特尔硬件进行特定优化,如CPU上的AVX2、AVX512、AMX指令集,以及GPU上的XMX计算单元。此外,BigDL-LLM还融合了多种业界先进的低比特技术,支持多种模型量化类型和策略。
性能表现与未来展望
测试数据显示,基于英特尔软硬件的大语言模型推理服务能满足实时、低延迟的性能需求。经过BigDL-LLM量化和低比特性能优化后,Baichuan2 7B等模型性能提升可达7倍。未来,青云将继续探索大语言模型的更多应用场景,与英特尔紧密合作,在更多英特尔硬件平台上推出大语言模型推理解决方案,并扩展大语言模型的应用能力,如模型微调功能(基于BigDL-LLM QLoRA),以提供更优质的体验和更大价值。预计2024年中,青云模型市场正式版将随AI智算平台新版本发布,为智算平台用户和开发者提供丰富的开源模型、数据集、管理、部署及推理服务。
本文由青云与英特尔团队共同贡献,旨在分享青云基于第四代英特尔®至强®可扩展处理器和BigDL-LLM方案推出的AI在线推理服务及其技术细节。感谢所有参与者的辛勤付出与宝贵贡献。