随着人工智能技术的迅猛发展,AI聊天已经逐渐融入我们的日常生活,无论是智能助手、在线客服还是娱乐互动,都少不了它们的身影。然而,随着应用的广泛化,朋友们会发现AI聊天似乎有点不稳定,有时候会延迟很久。究其原因,在于AI聊天成本过高,制约了AI算力提升。
本文首先通过数据和实例,深入分析当前AI聊天成本的现状。其次,从算法复杂性、计算资源需求、数据存储和处理成本等多个方面入手,揭示成本背后的深层原因。最后,将从算法优化、硬件升级、云服务利用等多个角度展开讨论,探索降低成本的可行路径。
首先,让我们深入探讨一下“算力”这一概念。简而言之,算力衡量的是计算机或处理器在特定时间内执行计算任务的能力。对于人工智能(AI)而言,算力决定了处理庞大数据量、执行复杂计算和实现高级算法的速度。随着AI技术的飞速发展,对算力的需求也呈现出持续增长的态势。
那么,为何AI如此依赖强大的算力呢?这主要源于其两大核心特性:深度学习和神经网络。深度学习模拟了人脑神经网络的工作原理,通过多层神经元对数据进行分析和处理。而神经网络则借鉴了生物神经系统的计算模型,能够自动识别模式并进行预测。这两大特性使得AI能够高效地处理海量的非结构化数据,从而做出更为精准的数据分析和决策。
然而,深度学习和神经网络的复杂性也意味着巨大的计算需求。以图像识别为例,一个典型的卷积神经网络需要处理数百万甚至数十亿个像素点,同时这些网络往往包含数百层甚至上千层的神经元。为了满足这些庞大的计算需求,AI系统必须拥有强大的算力支持。
随着大语言模型的兴起,数据量和参数规模呈现出“指数级”的增长,进一步推动了智能算力需求的爆炸式增长。以OpenAI为例,其2018年推出的GPT模型拥有1.17亿的参数和约5GB的预训练数据量。而到了GPT-3,参数量激增至1750亿,预训练数据量更是高达45TB,相当于约3000亿个tokens。GPT-3的总算力消耗达到了惊人的3646PFLOPS-day。而在实际运行中,GPU算力除了用于模型训练外,还需应对通信、数据读写等任务,进一步加剧了算力的消耗。
面向推理侧的算力需求同样不容小觑。以GPT-4为例,若我们假设日活跃用户达到10亿,每人每天使用7000个tokens(包含上下文信息),并且不考虑其他额外成本,那么每天的推理费用将高达2.1亿美金。按年计算,这一费用将攀升至惊人的600亿美金。这一数字直观地展示了AI算力需求的庞大和昂贵。
600亿美金的AI推理市场费用意味着其巨大的经济规模。如果进一步放大AI推理市场的体量至十倍,其潜在市场规模将逼近甚至超越当前整个云计算产业的总收入。这一对比凸显了AI推理在未来市场中的巨大潜力和无限可能。
从商业角度来看,AI推理无疑是一个充满活力和前景的市场。未来,随着技术的进一步成熟和市场的不断扩大,AI推理市场将展现出更加广阔的发展前景和巨大的商业价值。
训练AI大模型正成为能源消耗的“黑洞”,其电力需求远超传统数据中心。OpenAI的报告揭示了一个惊人的趋势:自2012年以来,AI训练应用的电力需求几乎以指数级增长,每3到4个月就翻倍。而华为AI首席科学家田奇的数据更是震撼,显示AI算力在过去十年间实现了高达40万倍的飞跃。这足以说明,AI大模型已成为名副其实的“能源巨兽”。
具体到实际消耗,训练谷歌的PaLM大语言模型所需的电量高达3436兆瓦时,这一数字令人咋舌,足以供应11.8万个美国家庭一整天的电力需求。即便是规模较小的BERT模型,其训练过程中的电量消耗也达到了惊人的1.5兆瓦时,这相当于连续观看流媒体视频超过2000小时。
因此,对于AI行业而言,如何在满足不断增长的计算需求的同时降低能源消耗、提高能源利用效率已成为一个亟待解决的问题。此外,AI在运行时对水资源的需求同样巨大。这主要源于算力设备在长时间、高强度运行下所产生的热量需要进行大量的冷却工作。谷歌的环境报告显示,2022年该公司为数据中心散热所消耗的水量高达56亿加仑(约212亿升),这相当于8500个奥运会标准游泳池的容量。微软的数据中心在训练GPT-3模型时消耗的水量相当于填满一个核反应堆冷却塔所需的水量约为70万升。即便是用户在使用生成式AI工具时也会产生相应的水资源消耗。ChatGPT每与用户交流25-50个问题就可能消耗掉500毫升的水。除了水资源消耗外AI大模型还是碳排放的“大户”。斯坦福大学的报告显示OpenAI的GPT-3模型在训练期间释放了高达502公吨的碳这一数字相当于8辆普通汽油乘用车一生的碳排放量或人均91年的碳排放量。
在AI的迅猛发展中GPU、ASIC等加速器无疑站在了行业的风口浪尖。然而事实上任何数据中心都无法脱离CPU的支撑它们之间的关系就像鱼与水一样紧密相连。目前AI大模型之间的“竞争”主要围绕着参数量展开通过不断增大参数量来追求更强大的智能涌现。面对AI芯片价格的上涨很多公司并没有话语权因为在这个竞争激烈的市场中错过这个机遇可能会让公司失去竞争力技术不断向前发展大型模型的参数数量也在快速增加比如Mixtral今年推出了一个拥有141B参数的模型Grok也发布了一个341B参数的模型Llama3宣布了一个400B参数的模型而备受瞩目的GPT-5模型预计将达到更高的参数规模尽管具体数字尚未公布这些庞大的模型需要更多的计算能力这也导致推理成本的上升多模态技术的发展尤其是对音视频数据的处理进一步增加了推理的难度尽管Sora模型的参数量据称是10B(官方尚未证实)但音视频生成的长序列特性需要处理的Token数量远超大型语言模型这会导致计算量和显存需求大幅增加推理成本的增长趋势也呈现出指数级上升大模型在进行推理时普遍效率不高这主要是由算法和硬件两个方面的因素造成的从算法角度来看大型模型在自回归推理时随着生成文本长度的增加计算量会呈平方级增长换句话说生成的文本越长推理速度就越慢在硬件方面传统的GPU架构在推理过程中需要频繁进行数据传输这会严重限制推理效率例如推理过程中数据需要在不同层级的缓存之间进行大量通信这不仅占用了GPU的计算能力还导致系统需要花费大量时间等待数据传输完成业务场景的多样化和应用链路的延长往往会间接推高推理成本随着业务需求的不断扩展为了应对各种复杂和多变的情况通常需要开发更加复杂和庞大的模型这些模型往往需要更多的计算和存储资源从而增加了推理过程中的成本应用链路的延长意味着从模型的训练到实际应用部署需要经过多个阶段如数据预处理、模型训练、优化和部署等每个环节都可能需要消耗大量的计算和存储资源都会推高成本在分布式云的应用上我们可以利用市场的力量通过社会、经济和技术的协同作用获取成本更低的生产资料例如GPU和电力资源以GPU为例虽然高端GPU价格不菲但中低端或旧款GPU价格相对低廉我们可以通过分布式云整合大量这类GPU(如RTX 4090等)构建起一个庞大的分布式计算网络有效降低计算成本此外通过智能的能源管理和调度还可以减少能源和散热成本进一步降低推理成本相较于传统的大型数据中心分布式云通过在全球范围内建立小型数据中心或边缘计算节点利用各地的低成本能源和算力资源从而降低整体运营成本尽管分布式云可以降低成本但其降低空间有限实际上通过推理加速技术我们可以实现更大的成本节约推理加速技术以大型语言模型(LLM)为例主要关注以下三个关键指标:Time To First Token (TTFT):首Token延迟即从输入到输出第一个Token的时间在实时流式应用中TTFT至关重要因为它直接影响用户体验Time Per Output Token (TPOT):每个输出Token的延迟(不包括首个Token)。在批处理应用中TPOT是关键指标因为它决定了推理过程的总时长Throughput:吞吐量即系统每秒能生成的Token总数与前两个指标关注单个请求不同吞吐量关注的是所有并发请求的总体性能通过优化这些指标不仅可以提升用户体验还能增加系统的处理能力使系统在单位时间内能处理更多数据从而提高推理效率降低延迟和提高吞吐量不仅改善用户体验还直接影响推理成本优化后的系统能更高效地使用计算资源如CPU、GPU和内存从而降低单次推理任务的成本这种成本降低体现在硬件资源消耗和时间成本上因为更高效的推理过程意味着任务完成时间的缩短例如如果同样的GPU能在更短时间内完成更多任务那么在生产资料不变的情况下单任务的推理成本就会降低推理加速的本质在于解决性能瓶颈:显存、算力和带宽想象一下如果有限的显存能更高效地利用就能存储更多的数据同样如果能在运行时更精细地管理算力就能让更多计算任务并行执行至于带宽它就像是数据在显卡和其他存储设备之间传输的通道如果我们能减少数据在这条通道上的拥堵比如通过降低通信量这也是一种有效的优化策略以 GPU 为例虽然高端 GPU 的价格昂贵但是中低端 GPU/旧 GPU 便宜我们可以通过分布式云的方式利用其强大的市场动员能力将大量中低端 GPU 汇聚起来(如 RTX 4090 等)形成一个庞大的分布式 GPU 算力网络从而降低算力成本同时通过合理的能源管理和调度可以降低能源消耗和散热成本进一步降低推理成本传统的大型数据中心虽然具备强大的处理能力但其成本高昂不仅包括硬件设备的购置和维护还包括能源的消耗和散热的需求分布式云通过建立在全球各个位置小型数据中心或边缘计算节点充分利用各地的廉价能源和算力资源降低整体成本超级AI大脑是一个基于Spring Cloud的GPT机器人已对接GPT-3.5、GPT-4.0、GPT-4Turbo、Kimi、GPT-4o等主流AI聊天模型集成stable diffusion 、DALLE3、MidJourney、百度AI绘画等主流AI绘画模型提供用户管理、订单管理、支付管理、分销管理、提现服务及报表统计等服务支持pc、Android、IOS、H5等全端服务并提供Online在线二次开发App在线开发维护和prompt提示词在线无限扩展能力能够结合GPT的强大的问答系统和知识图谱为用户提供全面、准确的答案整合GPT强大提示词能力为SD、MJ绘图提供丰富的提示词模版