大模型在今年的广泛应用,不仅限于对已有业务的改造和效率提升,算力和推理的优化也成为另一项重要实践。腾讯在两个截然不同的业务中,展现了这一趋势的明显体现。
推理成本是当前大模型落地面临的主要挑战之一,整个AI行业都在探索如何高效利用计算资源,并行处理更多推理请求。国内云厂商也在优化现有推理架构,甚至推出新的异构算力解决方案。腾讯推出的Taco-LLM大模型推理加速引擎,在性能上全面优于vLLM框架,吞吐性能提升1-3倍不等。
腾讯乐享,作为知识管理、学习培训和文化构建的内部平台,通过AI深度改造知识管理,不仅提高了效率,还增加了知识的曝光、使用和迭代。AI的引入甚至让企业知识管理从小众成为热门领域。
在4月2日的研讨会上,腾讯大模型相关业务人员分享了其在腾讯业务上的探索与实践。本文基于研讨会视频整理,略有增删。
分享嘉宾:腾讯云异构AI研发副总监 叶帆
TACO-LLM是基于腾讯云异构计算产品推出的大语言模型推理加速引擎,旨在提高语言模型的推理效能。在用户的交互过程中,推理引擎是AI的核心,负责接收和处理用户请求并回应。其架构包括客户端、Request Pool和Server,Server对应腾讯云上的云端实例或用户本地的集群节点。
TACO-LLM支持OpenAI的API输出格式,同时支持流式请求,用户可通过curl访问服务,如同ChatGPT一样。流式输出具有以下优点:一致性、实时性和减少资源占用。此外,TACO-LLM支持分布式推理方案(Pipeline Parallel和Tensor Parallel)和Continuous Batching技术,以提高GPU资源利用率。
Paged Attention技术是一种内存管理优化方法,在处理大型数据序列时显著提高效率和性能。Quantization技术则将模型权重从32位浮点数转换为8位整数,减少存储需求和提升计算速度。
Lookahead Decoding技术用于提高大语言模型的推理效率。TACO-LLM采用Training-Free方案,无需训练即可优化性能。其优化策略包括提高Lookahead Cache命中率和提高算力天花板。实验结果表明,TACO-LLM在性能上全面优于vLLM和其他对比框架。
分享嘉宾:腾讯乐享资深产品架构师 沈林玲
腾讯乐享自2008年在内部诞生,经过15年的发展已成为核心知识学习和沟通平台。95%的员工每天主动访问,80%的原创知识在乐享沉淀,超过150万篇内部文章。2017年产品对外开放,目前注册企业数超过30万,覆盖100多个细分行业。
乐享主要解决知识管理、学习培训和文化建设三个核心场景的问题。目前围绕智能写作、智能生成、智能问答和智能学习四个环节进行探索。智能写作降低创作门槛,智能生成帮助员工快速了解信息,智能问答提高内容利用率,智能学习打破时空限制。
问答环节
关于腾讯在知识管理+大模型领域的新思考,沈林玲表示知识管理以前是小众领域,但AI的引入使其越来越火。乐享作为专业SaaS应用,在知识管理每个环节都会基于大模型进行提效和体验升级。对于大模型商业化的难题,李想认为主要看应用场景所需的人力物力和对准确性的要求。智能客服和数据类服务商是典型落地场景。更多应用场景正在不断被探索和实现。