计算机行业算力租赁:大模型发展的关键引擎

AI百科4个月前发布 快创云
59 0

  AI算力需求空间分析

  随着大模型训练规模的扩大,其参数量、数据量及训练轮数等关键因素也显著增长。当模型规模突破临界值,即会出现“智慧涌现”的现象。进入AI智能时代后,计算芯片的依赖已从CPU转向GPU,因为GPU具有强大的并行运算和浮点计算能力,成为神经网络训练和推理的主力军。

大模型训练侧GPU需求测算

  2022年,斯坦福联合研究院共同训练出了万亿级参数的GPT,比GPT-3的参数高出整整一个量级。对于最大的1T规模模型,使用了384台8卡DGX-A100服务器,并通过多种加速技术提高GPU利用率。在训练过程中,英伟达A100卡的使用数量变化范围为[32,3072],GPU利用率随参数量增加而增长。

大模型推理侧GPU需求测算

  2023年8月,ChatGPT的月度访问量为14亿,平均访问时长为7分钟。假设每个访问者平均提问数为10个,每个问题加上回答的Token数量为1000。在推理侧,大模型运算较为简单,假设GPU利用率为45%。以GPT-3的参数量1750亿为例,每张A100的峰值吞吐量为624 TOPS。未来,每家龙头大模型厂商的推理侧A100需求有望达到十万张量级。

大模型推理侧GPU需求测算——Copilot

  2023年9月21日,基于GPT-4的Copilot将全面开放。微软全球版Copilot和365 Copilot分别融入不同的应用程序中。假设Microsoft 365中Copilot的使用率为15%-80%,企业用户使用Copilot时,输入和输出的平均Token数量为2000-30000。

A100 & H100供不应求的现状

  自年初以来,A100一直处于供不应求的状态,其他加速卡由于性能、生态等方面与英伟达存在较大差距,大部分场景无法实现替代。大模型技术突破遭遇瓶颈,算力资源短缺成为重要原因之一。OpenAI表示GPU供应不足阻碍了其研发计划的推进。

大模型训练中的故障与中断问题

  大模型架构复杂,训练周期较长。硬件、系统、软件、驱动等需要稳定运转才能最大化加速卡并行运算的能力。然而,加速卡虽然具有优异的计算性能,但软、硬件等故障时常发生,训练经常中断、持续时间较短。如果训练中断后不能及时恢复,不仅会影响训练成功率,还会使得训练成本居高不下。

阿里云面向AI大模型的解决方案

  阿里云推出SCC高性能弹性计算集群,通过优化集群互联和存储,提升并行运算的效率。同时,基于自身IaaS资源推出AI加速套件AIACC,用于优化基于AI主流计算框架搭建的模型,显著提升训练和推理性能。

竞争格局和要素

  云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面。算力需求贯穿大模型训练、微调、推理整个周期,未来还将维持高增。各个云厂商在硬件、软件和商业化上的布局不同,所匹配到的客户特征、用户决策偏好以及在LLM发展的客户需求等方面也存在差异。

AI算力租赁的收入和成本结构

  采购端,A800服务器整机含配套采购价格约为120-150万元/台;收入端,按照与青海联通签订的算力服务框架协议,租金按照含税¥12万元/P/年计算。单台8卡A800服务器租金约为60万元/年。采取FP16(稀疏)精度下的算力。单张A800卡算力为624 TFLOPS,则一台8卡A800服务器算力约为5P;单张H800卡算力为1979 TFLOPS,则一台8卡H800服务器算力约为16P。

重点公司算力布局情况

  各家公司纷纷加大AI算力的投入和布局。例如,某公司在2022年8月切入AI算力领域,并与多家公司合作成立北京AI创新赋能中心;某云服务提供商则通过“代建+轻资产”模式提供多元算力服务管理平台;另一家公司则计划年内落地AI算力5000P。这些举措都表明AI算力市场正在快速发展并充满机遇。

© 版权声明

相关文章