计算机行业算力租赁:大模型发展的关键引擎

AI百科16小时前发布 快创云
3 0

来源:雪球App,作者: 江北嘉兰2027,(https//xueqiu.com//9390)

AI算力需求空间测算

训练规模突破临界值,大模型“智慧涌现”

大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。

迈入AI智能时代,计算芯片依赖已从CPU转向GPU

AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的 GPU逐渐成为计算主力军。

大模型训练侧 GPU 需求测算

2025年,、斯坦福联合研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级; 论文中的测试基于DGX A100-80GB集群完成。对于最大的 1T 规模的模型,一共使用了384台8卡DGX-A100服务器,服务器 内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有 8个200Gbps的 InfiniBand网卡; GPU利用率 = 单张GPU训练时吞吐量/单张GPU峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务 器通信优化等加速技术提高GPU利用率。 训练过程中,英伟达A100卡使用数量的变化范围为[32,3072],GPU利用率随参数量增加而增长,变化范围为[44%,52%]。

大模型推理侧 GPU 需求测算——推理侧具备更大的成长空间

根据数据,2025年8月ChatGPT的月度访问量为14亿(包括直接访问、外链等),平均访问时长为7分钟。 假设1:ChatGPT访客平均每次访问提问数为10个,每个问题加上其回答的Token数量平均为1000; 假设2:ChatGPT访客来自全球各地,假设在每日24小时内平均分配访问量和计算量; 假设3:在推理侧,大模型运算更为简单,我们仍保守假设GPU利用率为45%。 推理过程中,每个参数只需执行1次乘法运算和1次加法运算,以GPT-3的参数量1750亿带入以下测算。推理前一般采用量化等技术将模型优化到Int8精度,在此精度下,每张A100的峰值吞吐量(非稀疏)为 624 TOPS。

未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级

2025年9月25日,ChatGPT进行重大更新——GPT-4和GPT-3.5都具有了基于图像进行和对话的能力。我们认为,当模型参数 增长至万亿级且具有多模态能力,能承担更多生成、等任务时,将吸引更多用户,ChatGPT月度访问量将高增(2025年8月, 月度访问量为860亿,约为ChatGPT的70倍)。 在以下三点假设下,来看,我们推测未来ChatGPT推理侧A100需求将超过70万张。 假设1:我们采用外媒SemiAnalysis给出的数据,即使用GPT-4时每次推理只需使用2800亿个参数; 假设2:多模态能力与更强大的能力将使得用户更加依赖大模型,推理侧每日问答的Token平均数量达到甚至更多; 假设3:随着大模型技术发展,假设未来ChatGPT的月度访问量翻20倍,达到300亿。

大模型推理侧 GPU 需求测算 —— Copilot

2025年9月21日,宣布基于GPT-4的Copilot将全面开放: 微软全球版Copilot于2025年9月26日随更新的Windows 11以初期版本 形式推出,融入到画图、照片、Clipchamp 等应用程序中; 全球版 365 Copilot将于2025年11月1日起面向企业用户提供 服务,融入Teams、Outlook、Word、Excel、Loop、OneNote 和 OneDrive等应用程序中,同时微软将推出AI助手 Microsoft 365 Chat。

大模型推理侧 GPU 需求测算 ——Copilot + 365

曾在FY20Q1电话会议上披露,Office 365(现已更名为 365 )商业版的月度活跃用户突破 2 亿,而根据微软的季 报及年报数据,商业版用户数量年增速保持在15%左右,我们推测Microsoft 365 企业用户数目前已突破 3 亿。 假设Microsoft 365中Copilot使用率为15%-80% ,企业用户使用Copilot时,输入和输出的平均Token数量为2000-。

驱动AI发展的关键引擎,A100 & H100 供不应求

自年初以来,A100一直处于供不应求的状态,而其他加速卡由于性能、生态等方面与英伟达存在较大差距,大部分场景无法实现替代, 尤其在训练侧,A100与H100具有极大的优势与较高的技术壁垒。现阶段,大模型技术突破遭遇瓶颈,算力资源短缺为重要原因之一。OpenAI 表示GPU供应不足阻碍了其研发计划的推进,例如模型微调和划拨专用容量等受到影响。

OpenAI联合创始人Andrej Karpathy曾转发了一篇博客文章。这篇文章认为训练大语言模型的初创企业、云服务供应商及其他大需要拥有超 过1000张H100或A100。 A100方面:GPT-4可能在-张A100上进行了训练,拥有约张A100,拥有约7000张A100,Stability AI拥有约 5000张A100,Falcon-40B在384张A100上进行了训练。 H100方面: a) OpenAI可能需要张,Inflection可能需要张,Meta可能需要张。大型云厂商可能每家都需要张(Azure、谷 、AWS、Oracle)。Lambda和CoreWeave以及其他私有云厂商可能总共需要10万张, CoreWeave预订的H100数量约为- 张,而Anthropic、Helsing、Mistral、Character等每家可能需要张。 b) Inflection在其GPT-3.5等效模型中使用了3500张H100。GCP拥有大约张H100。Azure和Oracle可能有-张H100。发展趋势

大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求

大模型架构复杂,训练周期较长。硬件、系统、软件、驱动等等需要稳定运转才能最大化加速卡并行运算的能力,保障模 型训练的效率,缩短训练的时间和成本。 虽然加速卡具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断、持续时间较短。如果 训练中断后不能及时恢复,不仅会影响训练成功率,还会使得训练成本居高不下。

案例:阿里云面向AI大模型的解决方案

SCC高性能弹性计算集群:为提升并行运算的效率,集群中GPU之间使用了最高效的NVSwitch互联。节点之间使用了非阻塞 式的RDMA网络,同时节点间还有VPC网络互联。此外,集群还用了高性能的集群存储CPFS和块存储。算力切割&调度:提供更小的 GPU 计算粒度,通过池化的方式提升资源使用效率。例如,通过 cGPU 技术实现GPU的资源 切割和跨主机资源池,以解决 GPU 资源的使用不充分、或者更加夸张的计算资源配比需求等等,帮助用户获得更有效率 和更有性价比的 GPU 计算资源。

阿里云基于自身IaaS资源推出AI加速套件AIACC,用于优化基于AI主流计算框架搭建的模型,显著提升训练和推理性能。当前AIACC推理引擎包含AIACC-Torch(Pytorch推理加速引擎)、AIACC-MLIR(MLIR推理加速引擎)、AIACC-HRT(AIACC 算子深度加速引擎)几个组件。 AIACC-Torch(Pytorch推理加速引擎)主要用于业界主流的PyTorch 模型的推理加速引 擎;AIACC-MLIR(MLIR推理加速引擎)是基于MLIR用于优化Tensorflow的加速引擎;AIACC-HRT(AIACC算子深度加速引擎) 是阿里云底层高性能的限制加速库。竞争格局和要素

云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面

算力需求贯穿大模型训练、微调、推理整个周期,无论是 国内还是国外,目前AI算力需求都具有较强的确定性,我 们认为AI算力需求未来还将维持高增。各个云厂商在硬件、软件和商业化上的布局不同,所匹配 到的客户特征、用户决策偏好以及在 LLM 发展的客户需 求等方面也存在差异。

硬件:GPU、通信、裸机实例; 从拿货的实力尤为重要:提货优先级>目前所拥 有的绝对数量。NVIDIA 不仅会考虑云厂商服务的大模型 客户的实力,还会考虑LLM生态均衡性、自研芯片的竞 争态势和客户体量等因素; 裸机实例在训练环节更占优势,因为客户需要最大化利 用算力资源;而在微调与推理环节,由于业务复杂度、 成本等考量,传统进行虚拟化后的云服务大概才能满足 各类客户的多样化需求。软件:Kubernetes、ML/AI Ops; 商业化:硬件和运维成本、定价策略、目标客群、用户体 验等。

AI算力租赁的收入和成本结构

采购端,目前A800服务器整机含配套采购价格约为120-150万元/台,我 们按照5-7年折旧; 收入端,按照与青海签订的算力服务框架协议,租金按照 含税¥12万元/P/年计算,单台8卡A800服务器租金约为60万元/年。 采取FP16(稀疏)精度下的算力。单张A800卡算力为624 TFLOPS,则一 台8卡A800服务器算力约为5P;单张H800卡算力为1979 TFLOPS,则一台8 卡H800服务器算力约为16P。重点算力布局情况

:深度绑定,AI算力稳步落地

2025年8月切入AI算力领域, 与中关村中恒文化、、英博数 科签订四方合作协议,合作成立 AI 创新赋能中心。主要业务为:算力 出租、云资源采购一站式服务、人工 智能教育培训、产业实验室。2025年7月,完成共计1000P由英伟达 A&H系列智算服务器组成的AI算力集 群部署调优并交付。9月,已向客户交 付1300P算力。计划于2025年在京落成 3000P以上智算中心。 搏博云平台:跨平台GPU算力管理、 统筹、调度及整合。 截至2025年6月,已完成5120P订单签 约。客户:多模态大模型训练、云渲 染、无人驾驶、量化交易模型训练等。

:云服务技术背景+大集群运维经验,轻资产模式优势尽显

提供 A800和H800云服务器的算力租赁业务,打造第二成长曲线:2025H1,实现AI算力服务收入2651万元。 超级智算平台适用于生命科学、CAE 仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理、模型训练、场景推理等计算场景。 “代建+轻资产”模式优势尽显:在三大国家千亿万次超算中心之一的国家超算济南中心项目上,交付了一整套完整的多元算力服务管理平 台,包括了HPC算力、GPU算力、云计算算力、高性能存储以及海量非结构化数据存储。 AI算力调度平台优势:提供多元算力统一调度、实现智能化算力调度与管理、芯片国产替代、智简运营运维、建设智能生态打造丰富应用。

:智算中心建设加速推进,计划年内落地AI算力5000P

确定发展AI大模型业将智算算力服务作为新基建业务发展重点,目前已部署合肥与两个算力中心,计划 2025 年实现5000P算力 服务能力,未来三年达成万P算力+万卡集群的“双万”战略目标:收购容博达云计算70%股权,合肥算力中心首期投资约10亿元,已完成土建与园区配套,机配套已启动,项目将实现算力3000P,计 划在2025Q4具备服务能力,总体建成后最大可提供算力P的能力; 长三角算力中心计划投资2亿元,提供800-1000P算力能力,机选址已初步确定,正在与当地洽谈投资协议; 前期采购的A800卡与服务器已陆续到位,H800服务器采购订单已经陆续下达,在9-10月份陆续到货,已提供样机给部分客户进行测试。供应端,与浪潮、新华三等签订战略合作协议,在服务器采购供应、资源共享、用户与维护、商业推广等领域开展合作达成行动方案。

:在手算力2500P,携手运营商建设芜湖智算中心

2025年7月,与上海六尺科技集团有限共同出资设立上海润六尺科技有限,计划于上海、福州经开区、 安徽芜湖、山东济宁等地合作建立算力中心,并打造GPU算力中心集群。上海六尺核心团队深耕GPU算力多年, 具有丰富的AI智算中心(GPU算力)建设、运营经验和算力市场资源。与上游GPU供应厂商、新华三等有深度合作 关系。

与运营商合作提供高端算力租赁,基于丰富的经验,能提供针对性的算力租赁服务,帮助运营商优化现有的 算网服务,为客户提供AIDC一站式服务: 8月3日,上海六尺、芜湖分、新华三在芜湖签署战略合作协议,三方将携手建设东数西算芜湖集群首 个大规模智算中心,项目总投资规模超20亿元。 8月29日,上海润六尺与安徽在合肥签订战略合作协议,携手推动芜湖集群大规模智算中心项目建设,共享智 算中心建设能力、运营经验和算力市场资源。此次(芜湖)智算中心和六尺科技长三角智算中心项 目总投资规模超80亿元。#鸿博股份# #中贝通信# #恒润股份# $鸿博股份(SZ9)$ $中贝通信(SH0)$ $恒润股份(SH5)$

支持小兰的友友们请务必养成看完文章点赞、评论、或者评论时勾上同时转发的习惯。因为你的每一次点赞或者评论转发,都将是我前进的动力。点赞和评论越多,我才能有动力每天坚持更新

© 版权声明

相关文章