AI的三大关键基础要素是数据、算法和算力。随着云计算的广泛应用,特别是深度学习成为当前AI研究和运用的主流方式,AI对于算力的需求不断快速提升。
AI的许多数据处理涉及矩阵乘法和加法。在图像识别等领域,常用的是CNN;语音识别、自然语言处理等领域,主要是RNN,这两类算法本质上都是矩阵或向量的乘法、加法,并辅以一些除法、指数等算法。
CPU可以执行AI算法,但由于其内部包含大量其他逻辑,这些逻辑对于目前的AI算法而言是完全用不上的,因此CPU并不能达到最优的性价比。于是,具备海量并行计算能力、能够加速AI计算的AI芯片应运而生。
一般而言,AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。而从广义范畴上讲,面向AI计算应用的芯片都可以称为AI芯片。除了以GPU、FPGA、ASIC为代表的AI加速芯片(基于传统芯片架构,对某类特定算法或场景进行AI计算加速),还有比较前沿的研究,例如类脑芯片、可重构通用AI芯片等(但距离大规模商用还有较长距离)。
以GPU、FPGA、ASIC为代表的AI芯片,是目前可大规模商用的技术路线,是AI芯片的主战场。本文以下主要讨论的就是这类AI芯片。
AI芯片的分类和市场划分
从两个维度对AI芯片进行分类
维度1:部署位置(云端、终端)
AI芯片部署的位置有两种:云端、终端。根据部署位置的不同,AI芯片可以分为:云AI芯片、端AI芯片。
云端即数据中心,在深度学习的训练阶段需要极大的数据量和大运算量,单一处理器无法独立完成,因此训练环节只能在云端实现。
终端即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大,而且需求差异较大。
云AI芯片的特点是性能强大、能够同时支持大量运算、并且能够灵活地支持图片、语音、视频等不同AI应用。基于云AI芯片的技术,能够让各种智能设备和云端服务器进行快速的连接,并且连接能够保持最大的稳定。
端AI芯片的特点是体积小、耗电少,性能不需要特别强大,通常只需要支持一两种AI能力。相比于云AI芯片来说,端AI芯片需要嵌入进设备内部,让设备的AI能力进一步提升,并在没有联网的情况下也能使用相应的AI能力,这样AI的覆盖变得更为全面。
维度2:承担任务(训练、推理)
AI的实现包括两个环节:训练、推理。根据承担任务的不同,AI芯片可以分为:用于构建神经网络模型的训练芯片和利用神经网络模型进行推理预测的推理芯片。
训练是指通过大数据训练出一个复杂的神经网络模型,即用大量标记过的数据来“训练”相应的系统,使之可以适应特定的功能。训练需要极高的计算性能、较高的精度、能处理海量的数据以及有一定的通用性。
推理是指利用训练好的模型,使用新数据推理出各种结论。即借助现有神经网络模型进行运算,利用新的输入数据来一次性获得正确结论的过程。也有叫做预测或推断。
训练芯片注重绝对的计算能力,而推断芯片更注重综合指标,如单位能耗算力、时延、成本等都要考虑。训练将在很长一段时间里集中在云端,推理的完成目前也主要集中在云端,但随着越来越多厂商的努力,很多应用将逐渐转移到终端。推理对性能的要求并不高,对精度要求也较低,在特定场景下对通用性要求也低,能完成特定任务即可,但因为推理的结果直接提供给终端用户,所以更关注用户体验方面的优化。
AI芯片市场划分

以部署位置(云端、终端)和承担任务(训练、推理)为横纵坐标,可以清晰地划分出AI芯片的市场领域。上表列出了适用于各个市场的技术路线及相应厂商。
-
云端训练:训练芯片受算力约束,一般只在云端部署。CPU由于计算单元少、并行计算能力较弱,不适合直接执行训练任务,因此训练一般采用“CPU+加速芯片”的异构计算模式。目前NVIDIA的GPU+CUDA计算平台是最成熟的AI训练方案,此外还包括第三方异构计算平台OpenCL + AMD GPU或OpenCL + Intel/Xilinx FPGA以及云计算服务商自研加速芯片(如Google的TPU)。训练市场目前能与NVIDIA竞争的就是Google,传统CPU/GPU厂家Intel和AMD也在努力进入训练市场。
-
云端推理:如果说云端训练芯片是NVIDIA一家独大,那云端推理芯片则是百家争鸣、各有千秋。相比训练芯片,推理芯片考虑的因素更加综合:单位功耗算力、时延、成本等等。AI发展初期推理也采用GPU进行加速,目前来看竞争态势中英伟达依然占大头,但由于应用场景的特殊性,依据具体神经网络算法优化会带来更高的效率,FPGA/ASIC的表现可能更突出。除了Nvidia、Google、Xilinx、Altera(Intel)等传统芯片大厂涉足云端推理芯片以外,Wave computing、Groq等初创公司也加入竞争。中国公司里寒武纪、比特大陆等同样积极布局云端芯片业务。
-
终端推理:在面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR、智能家居设备、各种IoT设备等设备的终端推理AI芯片方面目前多采用ASIC还未形成一家独大的态势。终端的数量庞大而且需求差异较大。AI芯片厂商可发挥市场作用面向各个细分市场研究应用场景以应用带动芯片发展传统芯片大厂如NVIDIA、Intel、ARM、高通等都积极布局中国芯片创业企业如寒武纪地平线等也在一些细分市场领域颇有建树。
AI芯片技术路线
AI芯片主要技术路线
目前作为加速应用的AI芯片主要的技术路线有三种:GPU、FPGA和ASIC。

1. GPU:GPU(Graphics Processing Unit)即图形处理器是一种由大量核心组成的大规模并行计算架构专为同时处理多重任务而设计。GPU是专门处理图像计算的包括各种特效的显示更加针对图像的渲染等计算算法这些算法与深度学习的算法还是有比较大的区别当然GPU非常适合做并行计算也可以用来给AI加速。GPU因良好的矩阵计算能力和并行计算优势最早被用于AI计算在数据中心中获得大量应用。GPU采用并行架构超过80%部分为运算单元具备较高性能运算速度相比较下CPU仅有20%为运算单元更多的是逻辑单元因此CPU擅长逻辑控制与串行运算而GPU擅长大规模并行运算。GPU最早作为深度学习算法的芯片被引入人工智能领域因其良好的浮点计算能力适用于矩阵计算且相比CPU具有明显的数据吞吐量和并行计算优势。2011年谷歌大脑率先应用GPU芯片当时12颗英伟达的GPU可以提供约等于2000颗CPU的深度学习性能展示了其惊人的运算能力目前GPU已经成为人工智能领域最普遍最成熟的智能芯片应用于数据中心加速和部分智能终端领域在深度学习的训练阶段其性能更是无可匹敌在深度学习上游训练端(主要用在云计算数据中心里)GPU是当仁不让的第一选择目前GPU的市场格局以英伟达为主(超过70%)AMD为辅预计未来几年内GPU仍然是深度学习训练市场的第一选择另外GPU无法单独工作必须由CPU进行控制调用才能工作CPU可单独作用处理复杂的逻辑运算和不同的数据类型当需要大量的处理类型统一的数据时则可调用GPU进行并行计算。2. FPGA:FPGA(Field-Programmable Gate Array)即现场可编程门阵列作为专用集成电路领域中的一种半定制电路出现FPGA利用门电路直接运算速度快而用户可以自由定义这些门电路和存储器之间的布线改变执行方案以期得到最佳效果FPGA可以采用OpenCL等更高效的编程语言降低了硬件编程的难度还可以集成重要的控制功能整合系统模块提高了应用的灵活性与GPU相比FPGA具备更强的平均计算能力和更低的功耗FPGA适用于多指令单数据流的分析与GPU相反因此常用于推理阶段FPGA是用硬件实现软件算法因此在实现复杂算法方面有一定的难度缺点是价格比较高FPGA因其在灵活性和效率上的优势适用于虚拟化云平台和推理阶段在2015年后异军突起2015年Intel收购FPGA市场第二大企业Altera开始了FPGA在人工智能领域的应用热潮因为FPGA灵活性较好处理简单指令重复计算比较强用在云计算架构形成CPU+FPGA的混合异构中相比GPU更加的低功效和高性能适用于高密度计算在深度学习的推理阶段有着更高的效率和更低的成本使得全球科技巨头纷纷布局云端FPGA生态国外包括亚马逊微软都推出了基于FPGA的云计算服务而国内包括腾讯云阿里云均在2017年推出了基于FPGA的服务百度大脑也使用了FPGA芯片中国刚刚被Xilinx收购的深鉴科技也是基于FPGA来设计深度学习的加速器架构可以灵活扩展用于服务器端和嵌入式端。3. ASIC:ASIC(Application Specific Integrated Circuits)即专用集成电路是一种为专用目的设计的面向特定用户需求的定制芯片在大规模量产的情况下具备性能更强体积更小功耗更低成本更低可靠性更高等优点ASIC与GPU和FPGA不同GPU和FPGA除了是一种技术路线之外还是实实在在的产品而ASIC就是一种技术路线或者方案其呈现出的最终形态与功能也是多种多样的近年来越来越多的公司开始采用ASIC芯片进行深度学习算法加速其中表现最为突出的是Google的TPUTPU比同时期的GPU或CPU平均提速1530倍能效比提升3080倍相比FPGAASIC芯片具备更低的能耗与更高的计算效率但是ASIC研发周期较长商业应用风险较大等不足也使得只有大企业或背靠大企业的团队愿意投入到它的完整开发中AlphaGo就使用TPU同时TPU也支持着Google的Cloud TPU平台和基于此的机器学习超级计算机此外国内企业寒武纪开发的Cambricon系列芯片受到广泛关注华为的麒麟980处理器所搭载的NPU就是寒武纪的处理器。二、AI芯片技术路线走向 1. 短期:GPU仍延续AI芯片的领导地位FPGA增长较快 GPU短期将延续AI芯片的领导地位目前GPU是市场上用于AI计算最成熟应用最广泛的通用型芯片在算法技术和应用层次尚浅时期由于强大的计算能力较低的研发成本和通用性将继续占领AI芯片的主要市场份额GPU的领军厂商英伟达仍在不断探寻GPU的技术突破新推出的Volta架构使得GPU一定程度上克服了在深度学习推理阶段的短板在效率要求和场景应用进一步深入之前作为数据中心和大型计算力支撑的主力军GPU仍具有很大的优势 FPGA是目前增长点FPGA的最大优势在于可编程带来的配置灵活性在目前技术与运用都在快速更迭的时期具有巨大的实用性而且FPGA还具有比GPU更高的功效能耗比企业通过FPGA可以有效降低研发调试成本提高市场响应能力推出差异化产品在专业芯片发展得足够重要之前FPGA是最好的过渡产品所以科技巨头纷纷布局云计算+FPGA的平台随着FPGA的开发者生态逐渐丰富适用的编程语言增加FPGA运用会更加广泛因此短期内FPGA作为兼顾效率和灵活性的硬件选择仍将是热点所在 2. 长期:三大类技术路线各有优劣会长期并存 1)GPU主攻高级复杂算法和通用型人工智能平台 GPU未来的进化路线可能会逐渐发展为两条路一条主攻高端复杂算法的实现由于GPU相比FPGA和ASIC高性能计算能力较强同时对于指令的逻辑控制上也更复杂一些在面临需求通用型AI计算的应用方面具有较大优势第二条路则是通用型人工智能平台由于设计方面通用性强性能较高应用于大型人工智能平台能够高效地完成不同种类的调用需求 2) FPGA适用变化多的垂直细分行业 FPGA具有独一无二的灵活性优势对于部分市场变化迅速的行业非常适用同时FPGA的高端器件中也可以逐渐增加DSPARM核等高级模块以实现较为复杂的算法FPGA以及新一代ACAP芯片的具备了高度的灵活性可以根据需求定义计算架构开发周期远远小于设计一款专用芯片更适用于各种细分的行业ACAP的出现引入了AI核的优点势必会进一步拉近与专用芯片的差距随着 FPGA 应用生态的逐步成熟的优势也会逐渐为更多用户所了解 3) ASIC 芯片是全定制芯长远看适用于人工智能 因为算法复杂度越强越需要一套专用的芯片架构与其进行对应而ASIC基于人工智能算法进行定制其发展前景看好ASIC是AI领域未来潜力较大的芯片 AI 算法厂商有望通过算法嵌入切入该领域ASIC具有高性能低消耗的特点可以基于多个人工智算法进行定制其定制化的特点使其能够针对不同环境达到最佳适应在深度学习的训练和推理阶段皆能占据一定地位目前由于人工智能产业仍处在发展的初期较高的研发成本和变幻莫测的市场使得很多企业望而却步未来当人工智能技术平台和终端的发展达到足够成熟度人工智能应用的普及程度使得专用芯片能够达到量产水平此时ASIC 芯片的发展将更上一层楼此外 AI 算法提供商也有望将已经优化设计好的算法直接烧录进芯片从而实现算法IP的芯片化这将为 AI 芯片的发展注入新的动力 三、互联网巨头入局与新模式 1. 互联网巨头入局 全球互联网巨头纷纷高调宣布进入半导体行业阿里微软GoogleFacebook亚马逊等都宣布在芯片领域的动作当互联网巨头开始进入芯片市场时会对 芯片行业产生巨大的影响首先互联网巨头追求硬件能实现极致化的性能以实现差异化用户体验用来吸引用户由于摩尔定律即将遇到瓶颈之际想要追求极致体验需要走异构计算自己定制化芯片的 道路光靠采购传统半导体厂商的芯片已经没法满足互联网巨头对于硬件的需求至少在核心 芯片部分是这样因此FacebookGoogle阿里等互联网巨头都是异构计算的积极拥护者为了自己的硬件布局或计划设计 芯片或已经开始设计 芯片这样一来原来是半导体公司下游客户的互联网公司现在不需要从半导体公司采购 芯片了这样的产业分工变化会引起行业巨变其次互联网巨头制造硬件的目的只是为了吸引用户进入自己的生态使用自己的服务其最终盈利点并不在贩卖硬件上而是在增值服务上因此互联网巨头在为了自己的硬件设计 芯片时可以不计成本从另一个角度来说一旦自己设计核心芯片的互联网公司进入同一个领域那些靠采购半导体公司标准 芯片搭硬件系统的公司就完全没有竞争力了无论是从售价还是性能拥有自己核心芯片的互联网巨头都能实施降维打击一旦这些硬件公司失去竞争力那么依赖于这些客户的半导体公司的生存空间又会进一步被压缩总而言之互联网巨头进入 芯片领域首先出于性能考虑不再从半导体公司采购核心 芯片这冲击了传统行业分工使传统 芯片公司失去了一类大客户另一方面互联网巨头的生态式打法可以让自研硬件 芯片不考虑成本这又冲击了那些从半导体公司采购 芯片的传统硬件公司从而进一步压缩了半导体公司的市场在这两个作用下半导体 芯片公司的传统经营模式必须发生改变才能追上新的潮流 2. Designless-Fabless模式 目前半导体行业领域的分工大概可以分为定义设计设计定案制造等几个环节今天的半导体行业最为大家熟知的是Fabless模式即 芯片设计公司负责定义设计和设计定案而制造则是在提供代工的Fab完成如高通是Fabless的典型代表在互联网巨头入局半导体行业后又出现了一种新的模式即互联网公司负责定义 芯片完成小部分设计并花钱完成设计定案流片设计服务公司负责大部分设计而代工厂负责 芯片制造这种新模式可以称为Designless-Fabless模式历史上半导体公司从传统的IDM走到Fabless模式主要是因为Fab开销过高成为了半导体公司发展的包袱而代工厂则提供了一个非常灵活的选项今天互联网公司入局半导体后走Designless-Fabless模式把大量设计外包则主要是因为时间成本互联网巨头做 芯片追求的除了极致性能之外还有快速的上市时间对于他们来说如果要像传统半导体公司一样需要从头开始培养自己的前端+后端设计团队从头开始积累模块IP恐怕第一块 芯片上市要到数年之后这样的节奏是跟不上互联网公司的快速迭代节奏的那么如何实现高性能加快速上市呢?最佳方案就是这些巨头自己招募 芯片架构设计团队做 芯片定义用有丰富经验的业界老兵来根据需求定制架构以满足性能需求而具体的实现包括物理版图设计甚至前端电路设计都可以交给设计服务公司去做半导体 芯片的一个重要特点就是细节非常重要ESD散热IR Drop等一个小细节出错就可能导致 芯片性能大打折扣无法达到需求因此如果把具体设计工作交给有丰富经验的设计服务公司就可以大大减少细节出错的风险从而减小 芯片需要重新设计延误上市时间的风险随着分工的进一步细化原先起辅助作用的设计服务公司将越来越重要能够与互联网巨头产生互补效应不少半导体公司也注意到了设计服务的潮流并开始向设计服务靠拢联发科前一阵高调公开设计服务业务就是半导体公司转向的重要标志对于国内的 AI 芯片初创公司来说善用这种Designless-Fabless模式对于缩短产品研发周期提升产品设计水平都有很大帮助 四、AI 芯片展望 一、 AI 芯片发展面临的问题 目前 AI 芯片发展速度虽然很快但是现在的人工智能新算法也是层出不穷这样一来就没有一个具体的标准也没有对相应的规格进行固定其次现在的人工智能算法都仅仅只是针对于单个应用进行研发的并没有能够覆盖全方位所以鲜有杀手级别的 AI 应用在发展过程中 AI 芯片首要解决的问题就是要适应现在人工智能算法的演进速度并且要进行适应这样才能够保证匹配发展此外 AI 芯片也要适当的对架构进行创新兼容让其能够兼容适应更多的应用这样能够开发出更好的包容性应用目前全球人工智能产业还处在高速变化发展中广泛的行业分布为人工智能的应用提供了广阔的市场前景快速迭代的算法推动人工智能技术快速走向商用 AI 芯片是算法实现的硬件基础也是未来人工智能时代的战略制高点但由于目前的 AI 算法往往都各具优劣只有给它们设定一个合适的场景才能最好地发挥其作用因此确定应用领域就成为发展 AI 芯片的重要前提从 芯片发展的大趋势来看现在还是 AI 芯片的初级阶段无论是科研还是产业应用都有巨大的创新空间从确定 算法应用场景的 AI 加速 芯片向具备更高灵活性适应性的通用智能 芯片发展是技术发展的必然方向未来几年 AI 芯片产业将持续火热公司扎堆进入但也很可能会出现一批出局者行业洗牌最终的成功与否则将取决于各家公司技术路径的选择和产品落地的速度 二、 半导体行业周期:下一个黄金十年 分析半导体市场的历史我们会看到典型的周期性现象即每个周期都会有一个明星应用作为引擎驱动半导体市场快速上升而在该明星应用的驱动力不足时半导体市场就会陷入原地踏步甚至衰退直到下一个明星应用出现再次引领增长这些明星应用包括90年代的PC 21世纪第一个十年的手机移动通信以及 2010年前后开始的智能手机在两个明星应用之间则可以看到明显的半导体市场回调例如 1996-1999年之间那段时间处于 PC和手机之间的青黄不接而 2008-2009年则是传统移动通信和智能手机之间的调整 半导体过去的十年是以 iPhone 为首的智能手机带动的黄金十年现在的半导体行业即将进入两个明星应用出现之间的调整期谁将成为引领半导体下一个黄金十年的明星应用?一个 应用对于整个半导体行业的驱动作用可以分为两部分即 应用的 芯片出货量以及技术驱动力半导体行业是一个十分看重出货量的领域只有 应用的 芯片出货量足够大时这个市场才能容下足够多的竞争公司从而驱动半导体行业有些应用市场总额很大但是其走的是高售价高利润率的模式 芯片出货量反而不大这样的话其对于半导体行业的驱动作用就有限除了出货量之外另一个重要因素是 应用的技术驱动力即该 应用是否对于半导体技术的更新有着强烈而持续的要求因为只有当半导体技术一直在快速更新迭代时半导体行业才能是一个高附加值的朝阳行业才能吸引最好的人才以及资本进入否则一旦半导体技术更新缓慢整个行业就会陷入僵化的局面 PC时代的 PC 机就是对半导体有强烈技术驱动力的典型 PC 上的多媒体 应用对于处理器速度有着永不满足的需求而这又转化成了对于 处理器相关 半导体技术强烈而持续的更新需求直接推动了摩尔定律和半导体行业在 90年代的黄金时期反之有一些 应用的出货量很大但是其对于半导体的技术驱动力并不大例如传统家电中的主控 MCU 芯片这些 MCU 芯片出货量很大但是在技术上并没有强烈的进步需求不少传统家电多年如一日一直在用成熟 半导体工艺实现的