探秘高通NPU,极致性价比与每瓦TOPS的AI加速器

AI百科4周前更新 快创云
16 0

  以下文本对您的文章进行了简单的二次改写,保持了主题内容不变,并删除了作者和来源信息:


高通8gen3的Die Shot

  上图展示了高通8gen3的Die Shot,其Die Size为10.71*12.81=137.19平方毫米。其中,左边中间部分的低功率AI系统就是NPU,也就是高通的V73 AI系统。这一系统与高通第三代车载芯片SA8650/8775/8770/8255的AI系统完全一致,算力为整数8位精度下45TOPS。有猜测称,SA8650可能是两个NPU。NPU的面积约占整个芯片的1/13,约10平方毫米。相比之下,英伟达的Orin芯片Die Size约为455平方毫米,其中AI部分占一半面积,即220平方毫米,是高通NPU的22倍。尽管如此,其性能仅是高通NPU的5.6倍。若不考虑英伟达Orin因三星8纳米工艺带来的低密度问题,其性价比也明显落后于高通。

高通NPU架构

  上图来自高通官方。从图中可以看出,高通NPU的前端设计异常简洁。与典型的x86或ARM CPU微架构相比,高通的VLIW Bundle架构显得更为直接和高效。VLIW架构通过软件(编译器)的静态调度,将多条无依赖关系的指令组合成一个指令包(Instruction Bundle),然后同时发送给多个独立的功能部件进行并行执行。这种设计不仅简化了硬件结构,还提高了执行效率。

V73架构与高通8 Elite

  V73架构有四个标量执行单元和六个矢量执行单元。在最新的8Elite芯片中,采用了更新的V79架构,标量单元增加到了八个。高通的这种VLIW前端指令集架构与整体的DSP(哈佛)架构相结合,使得其在数字信号处理领域具有独特的优势。同时,由于数字信号处理领域的算法较为稳定且单一,VLIW架构的并行运算能力和简化的硬件结构被充分发挥出来。

高通NPU的数据流与矢量处理单元

  高通的NPU主体采用VLIW架构,但标量ISA指令集依然存在,用于控制数据流和串行计算任务调度。其标量计算采用SIMD(单指令多数据)方式扩展,能够并行输入数据。矢量处理单元采用1024位宽度,与GPU领域的SIMT设计不同,但成本更低、效率更高。张量处理单元采用空间三维布局,等效于16K的MAC阵列,可根据频率调整算力。

高通NPU的存储模式

  张量单元完全使用TCM(Tightly Coupled Memory,紧耦合内存),因为无需存储中间值。标量单元则使用传统的L2指令缓存和L1数据缓存。这种设计使得高通NPU在性价比和每瓦TOPS方面取得了显著优势。然而,VLIW架构的静态编译特性也带来了灵活性不足的问题,需要频繁升级以应对新算法的出现。目前,高通的NPU架构已经发展到了V79版本。


  免责声明:本文观点和数据仅供参考,可能与实际情况存在偏差。本文不构成投资建议,所有观点和数据仅代表个人立场,不具有任何指导、投资和决策意见。

© 版权声明

相关文章