存算一体芯片,人工智能时代的潜力股

算力与经济增长紧密相关,算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰。目前,城市、交通、能源、金融、零售都开始冠以智慧的称号,大面积搭载人工智能(AI),这背后是每两个月就要翻一倍的算力需求[1]

然而,传统计算芯片存在瓶颈,算力渐趋饱和,同时在碳中和和可穿戴的背景下,芯片还要保持低功耗特性。有什么捷径,能让芯片获得成百上千倍的能效比?

看似痴人说梦,但早在上世纪90年代,业界就已提出存算一体的全新芯片架构,可显著降低延迟和功耗。人脑作为大自然的造物,其实也是存算一体的,这何尝不是最科学的计算架构。

受限于技术的复杂度、高昂的设计成本和匮乏的应用场景,过去几十年业界对存算一体芯片的研究进展缓慢,业内也仅存一些小算力存算一体芯片。

随着AI的爆发,业界迫切需要这项技术来解决算力瓶颈。时至今日,新型存算技术和新型存储介质都发展到新阶段,大算力存算一体芯片已成可能,终端智能电子设备和云端服务器等领域即将迎来新的一拨商业落地[2]

付斌丨作者

李拓、刘冬宇丨编辑

果壳硬科技团队丨策划

500

用存算一体越过两面墙

计算芯片要遵循PPA的设计原则。PPA是Performance、Power、Area的简称,即性能、功耗、尺寸,通常计算芯片会根据使用场景平衡三者的分配。

但摩尔定律(Moore's Law)趋近的极限和冯·诺依曼架构(Von Neumann Architecture)长期固有的缺陷,限制着计算芯片在保持优良的功耗和尺寸上进一步发挥性能,制约了现有计算机技术和算力发展[3]

摩尔定律正在放缓甚至失效:半个多世纪以来,集成电路一直遵循摩尔定律的技术轨迹发展,定律中指出集成电路芯片上所容纳的晶体管数目每隔18~24个月将增加一倍,同时处理器功能和处理速度会翻一番[4]。但在2010年后,晶体管密度增速放缓,逐渐偏离摩尔定律预测的周期。2016年,Nature论文指出,半导体技术发展或将不再以摩尔定律为目标[5];同年,全球半导体技术路线图(ITRS)史无前例地放弃了以摩尔定律为主导的思路[6];其创造者戈登·摩尔也曾表示摩尔定律是有极限的[7]。现阶段,摩尔定律已在物理、功耗、成本三个方面趋近极限[8],并被业界称为“后摩尔时代”。

冯·诺依曼架构长期拥有缺陷:当前最先进的计算机采用基本都是冯·诺依曼架构,分为运算器、控制器、存储器、输入系统、输出系统五个部分,并遵循二进制和程序顺序执行的特性[9]。但这种架构中,数据的处理和存储却是分离的。

500

以CPU为例的冯·诺依曼架构示意图,图源丨中国教育网络

摩尔定律和冯·诺依曼架构的现状会引发存储墙与功耗墙两大问题

存储墙:冯·诺依曼架构的存算分离会导致外部存储器运行速度远远小于处理器的运算速度,系统整体会受到传输带宽瓶颈的限制,导致算力会远低于处理器标定的理论算力[10]

功耗墙:冯·诺依曼架构中,数据在处理器和外部存储器中频繁高速传递,会导致系统功耗很高。与此同时,摩尔定律接近瓶颈,芯片特征尺寸已进入量子效应显著的范围,引起一系列次级物理效应,包括栅隧穿泄漏、载流子界面散射、强场速度饱和、源漏寄生电阻占比增大等,导致功耗密度快速上升[11]

为什么人们要死磕这两堵墙?这是因为只有低功耗基础上的大算力才可持续。在泛人工智能时代,地球将无法承受今天芯片的能量消耗。后摩智能向笔者展示的一组数据显示,全球数据中心2025年的耗电量将达到总耗电量20%,而L5级无人驾驶所需的4000 TPOS算力水平,预计一年需要3万多亿度电,将占全球发电量12%;再比如AlphaGo下棋打败了人类,但人类只用了20瓦的大脑能耗,而AlphaGo的能耗则达到2万瓦,如果更多的脑力劳动被机器取代,芯片散发的热量会让地球变得滚烫。

面对两堵墙的挑战,一种是继续延续摩尔定律和冯·诺依曼架构,采用类硅模式材料;另一种则是跳出冯·诺依曼架构(non-von Neumann)的思路,采用低电压亚阈值数字逻辑ASIC、神经模态(Neuromorphics)计算和模拟计算等新兴技术,而其中存算一体是最直接高效的一种[12],也是目前能够最接近落地的技术。

500

后摩尔时代下芯片架构的进化行径

500

存储的变形记

存算一体是将存储器和处理器合并为一体,但由于实现形式不同,目前存内计算的概念并没有非常明确的定义

阿里达摩院告诉笔者,就目前和未来的趋势来看,存算一体芯片分为近存储计算(Processing Near Memory)、内存储计算(Processing In Memory)、内存执行计算(Processing With Memory)三种技术路线。

500

存内计算几种实现形式,制图丨果壳硬科技

资料来源丨阿里达摩院,信息通信技术与政策

让芯片存算一体化拥有两种方案:其一是将处理器和存储器放在同一芯片上,以减少数据交换、提升计算效率,但处理器和存储器的制备工艺不兼容,且芯片中存储器密度受限,以目前及未来一段时间的技术水平来看,制造这种存算一体芯片的难度较大;其二是基于新型存储材料和器件,是目前业界积极推进的一种方案[13]

存储器有许多种介质,不同介质实现存算一体的关键点也不同。从目前的存算一体发展技术路径来看,处于多种存储介质百花齐放的格局,包括各种易失性存储器件和非易失性存储器件(NVM)。

500

不同介质类型存储器对比,制表丨果壳硬科技

近期前沿研究更多偏向于技术成熟的SRAM来探索和设计存算一体架构。SRAM方案在现阶段具有三点优势:其一,SRAM是所有存储类型中最快的,且没有写次数限制,对于追求快响应的场景几乎是必选;其二,SRAM可向先进制程兼容,从而达到更高的能效比和面效比;其三,相对新型存储器,SRAM的工艺成熟度较高,可以相对较快地实现技术落地与量产。

但SRAM也有瓶颈,其较大的单元面积会导致随着工艺发展,CMOS扩展难度会相应增大,芯片计算密度增长会逐渐放缓。

相比之下非易失性存储(NVM)在计算密度方面表现出更大的潜力[14]。不过,目前NVM尚不成熟,基于该技术设计的存算一体架构短时间很难得到广泛应用[15]

500

存算一体芯片发展路径,图源丨清华大学

500

以AI为契机的国产市场

近几年,存算一体在学术界受到的关注度越来越高,如ISSCC 2022就有多篇关于存算一体技术的论文。在市场需求驱动下,存算一体领域正在从学术界向工业界进军。

国外巨头早已布局这一领域,英特尔、三星、IBM、东芝、SK海力士等持续进行相关产品的研发,代表存储器未来趋势的磁性存储器(MRAM)和忆阻器(RRAM)相继在头部代工厂传出量产消息。

目前成果较为明显的是三星在2021年发布的HBM2-PIM,其使用的Aquabolt-XL技术是围绕HBM2 DRAM这种存储介质进行内存储计算,可实现高达1.2 TFLOPS的计算能力,从而使内存芯片能够处理通常需要CPU、GPU、ASIC或FPGA的任务。

国产方面,主要以AI为契机,实现特定领域、特定功能的AI存算一体芯片。现有AI芯片基本也都采用的是冯·诺依曼架构,算力提升有限,同时AI属于数据密集型计算应用,大量的数据搬运导致功耗居高不下,“芯片大算力和高能效比”是人工智能场景必须解决的刚性需求。

当前大量存算一体芯片公司陆续出现,且大都还在A轮之前,未来存算一体芯片发展还有巨大潜力,有望成为AI时代变革算力格局的源动力。

据果壳硬科技(ID:guokr233)统计,天眼查网站共计40条专利与存算一体相关,以存算一体芯片为目标的企业已超过十家,量产产品以SRAM为主要形式,Nor Flash、RRAM等NVM为主要布局方向。另外,一些国产企业也正利用2.5D/3D封装等相关集成技术实现近存储计算。

后摩智能认为,存算一体这种颠覆性的新兴技术才是真正赶超巨头的机会。“高举国产替代旗帜的GPGPU赛道,已经聚集了一只手数不过来的创企。要替代英伟达,起码要比英伟达的产品性能好5~10倍,只需要1~2倍的改良客户可以等待英伟达下一代产品,没必要忍受一个新的、没那么顺手的产品。存算一体是不与业界同质化,且能兼顾高能效与通用性优势的产品[16]。”

500

国内主要存算一体芯片企业情况,制表丨果壳硬科技

资料来源丨各公司官网、公告、新闻

笔者探问了阿里达摩院、九天睿芯、苹芯科技、后摩智能四家具有代表性的存算一体企业,展现了国产企业在存算一体上的不同理解。

阿里达摩院

阿里达摩院向笔者表示,其布局的方向是与现有计算芯片架构设计最为接近的近存储计算方案,通过在内存单元采用异质集成嵌入式DRAM,将计算资源和存储资源距离拉近。在此技术路线上,阿里达摩院采用了基于混合键合(Hybrid Bonding)的3D堆叠技术进行芯片封装,将计算芯片和存储芯片face-to-face用特定金属材质和工艺进行互联。比起业内常见的封装方案HBM,混合键合3D堆叠技术拥有高带宽、低成本等特点,被认为是低功耗近存计算的完美载体之一。此外,阿里达摩院还研发设计了定制化的流式加速器架构,对推荐系统进行“端到端”的加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题。经AI搜索推荐场景测试验证,达摩院存算一体芯片性能提升达10倍以上,能效比提升高达300倍。

九天睿芯

九天睿芯拥有自有专利的模拟预处理与6T SRAM存算一体技术,解决了传统计算架构的瓶颈和耗电散热难题,做到更低的延迟和更快的处理速度。之所以选取6T SRAM,是因为低功耗模拟前处理可以做更高层次有效信息提取,并且6T SRAM拥有数值与物理运算一一对应、电荷域运算计算数值精度高、较小面积的外围电路、受PVT影响小、迁移到先进工艺节点容易、没有读写次数限制的优势。

使用上述技术的产品包括语音芯片、视觉芯片和高性能ADC,主要面向国内外自动驾驶、AR/VR/XR、智能物联网和可穿戴市场。对于轻量级的应用领域,还会提供完整的芯片级解决方案。产品优势包括:一、采用自主专利授权的主流CMOS存算技术,用成熟制程即可实现与传统数字芯片在先进制程工艺下达成的同样的性能;二、可同时支持CNN、Transformer及以SNN代表的类神经元计算架构;三、架构灵活,阵列化计算效率不衰减。

苹芯科技

“目前苹芯选择了SRAM技术路线,未来将推进基于eNVM新型存储器的计算技术。”苹芯科技向笔者表示,选择这种技术路线的出发点在于工艺成熟度、加入计算功能的复杂度和结果精度、向上对神经网络算法要求的支持程度、落地成本等方面。

苹芯已开发实现多款基于SRAM的存内计算加速单元并已完成流片,目前处于外部测试和demo阶段,同时正与智慧穿戴、图像物体识别领域的头部客户做技术验证。而在研发中的基于eNVM(嵌入式非易失存储器)的新型存储器产品,可提供更高效的存储密度、读写速度和计算效率。另外,苹芯科技还提供以存算一体为基础的超高性能的通用型AI加速计算单元,并以此技术核心搭建面向不同级别应用场景的智能感知决策平台,依靠性能指标数量级的提升和实际成本的降低为AI系统的落地实际赋能。

后摩智能

后摩智能采用CIM(Computing In Memory)-SRAM/MRAM/RRAM等先进的存算一体技术和存储工艺,实现芯片的大算力和高能效。

2021年8月,后摩智能完成了基于存算一体的核心技术验证流片,是国内首家用存算一体技术实现数百Tops大算力的AI芯片公司。其高算力、低功耗芯片及解决方案可应用于无人车、泛机器人等边缘端,以及云端推荐、图像分析等云端推理场景。

后摩智能存算一体技术拥有三个核心优势。一、大算力:非冯·诺伊曼架构的存算一体架构中,计算单元和存储单元完全融合,提升算力只需要复制“存算一体单元”,工程上更简洁,性能上更强力;二、高能效:存算一体在存储单元内完成运算,有效的解决了困扰业界许久的“存储墙”问题,减少数据搬运过程中高达90%的功耗消费,提升计算能效比;三、更安全:存算一体减少了数据迁移和计算单元无效的等待时间,降低了延时,在自动驾驶赛道,低延时可能意味着挽回生命。

500

超前技术是难啃的硬骨头

“当然,要让技术实现真正的规模化落地仍然有很多难题需要攻克,至今业界都没有一家企业和机构的技术解决方案得到市场的广泛认可。”阿里达摩院如是说。

难揽的瓷器活

存算一体技术较传统计算加速单元具有颠覆性的性能优势,其技术本身是一门非常复杂的、技术壁垒极高的设计方法学,属于需要多年经验积累、大量资源以及时间投入才能实现的尖端领域。

拿内存储计算和内存执行计算来说,面临着诸多挑战,例如:外围电路(数模AD/DA转换电路等)的面积和功耗开销,存储单元有限的数值精度,存储单元的失效,计算单元和存储单元的工艺集成等难题。

另外,提升存算一体单元的面效比和能效比和高能效计算如何有效控制存内计算接口,都是重要的挑战。

谁拥有兼顾计算密度与存储密度的存内计算硬件架构,谁就拥有了打开高能效计算的金钥匙,但显然能揽下这种活并不容易。

没有外援的战斗

实际上,存算一体芯片产业化尚处于起步阶段,会面临产业链上游支撑不足,下游应用不匹配的诸多困局。例如,在芯片设计阶段,由于存算一体芯片区别于常规芯片设计方案,所以目前市面上没有成熟的专用EDA工具辅助设计和仿真验证;芯片流片之后,也没有成熟的工具协助测试;在芯片落地应用阶段,暂时没有专用的软件与之匹配[17]

九天睿芯向笔者指出,软件编译器要适配架构完全不同的存算一体,如果编译器做得足够好,可以反过来指导网络模型设计。

苹芯科技向笔者分析,存算一体硬件的出现,本身在催生一种编程观念上的革命,也就不能再套用传统的功能分离的思维去理解。从功能上来说,存内计算既可以存储数据,又可以做特定的计算,本身并不矛盾。从可编程的角度讲,面向AI的存算一体技术的出现将会很大程度上影响人们如何去编写软件,或者说为更有效率的去编写软件提供了一个非常好的基础平台和机会。

阿里达摩院表示,目前存算一体芯片大多是解决特定领域、特定问题的专用芯片,软件上是需要给原本应用程序提供存算一体芯片API的,需要一定程度的软件修改和适配的工作。随着存算一体芯片涵盖的应用领域不断拓广,通用性的处理能力有望引入存算一体芯片,而对于用户软件的影响和修改会进一步缩小甚至消失。虽然现阶段在存算一体的设计中还没有看到软件在运行时配置硬件的范例,但不排除将来会有类似的方案出现的可能,打破软件和硬件之间的壁垒,提供一定程度的硬件可编程性。

活在千里眼里的生意

虽然存算一体的未来是光明的,但超前技术仍然较难导入市场。“至今业界都没有一家企业和机构的技术解决方案得到市场的广泛认可。我们认为,存算一体芯片规模化落地还需要3~5年的时间。”阿里达摩院这样向笔者解答。

行业人士指出,存内计算适合原本就对存储需求较大的场景,这是因为随着容量的增加,成本往往呈指数级增长,性价比不理想导致内存计算无法惠及更多用户、更多场景。而对于本身存储需求并不高的场景,为了引入内存计算而加上一块大内存反倒会适得其反地增加成本。

苹芯科技分析,存算一体中早期产品将更多出现在端侧对低功耗和高能效有强烈需求的场景。“随着智能城市、智能生态等应用的普及,我们预测从边缘端接入的智能设备的市场体量将快速增长,应用场景的多样性也将不断快速拓展。长远地看,存算产品的适用范围也可能会延伸至超大算力领域。”

References:

[1] 浪潮官网:IDC发布全球AI服务器市场数据,浪潮排名全球第一.2021.3.26.https://www.inspur.com/lcjtww/445068/445237/2551384/index.html

[2] 清华大学官网:清华大学微纳电子系在《自然·电子》发表存算一体芯片研究综述.2020.8.11.https://www.tsinghua.edu.cn/info/1175/21347.htm

[3] 李雅琪,温晓君.存算一体化的发展现状与挑战[J].机器人产业,2020,(01):28-31.

[4] Moore, G.E. ,“Cramming More Components onto Integrated Circuits”. Electronics.1965,38(8): pp.114-117.

[5] Waldrop, M. M., “The Chips are Down for Moore’s Law.” Nature.2016, 530(7589): pp.144.

[6] “What Is the IRDS”. IEEE.2021, https: / / irds.ieee.org / .

[7] 纪磊. 摩尔定律的困难与前景——从摩尔第二定律谈起[J]. 科技导报, 2006, 24(0607): 89-92.

[8] 戚聿东, 徐凯歌. 后摩尔时代数字经济的创新方向[J]. 北京大学学报 (哲学社会科学版), 2021, 58(6): 138-146.

[9] 致敬计算机之父——冯·诺依曼[J].中国教育网络,2017,(Z1):38-39.

[10] 恒烁半导体(合肥)股份有限公司:首次公开发行股票招股说明书(申报稿).2021.10.19.https://data.eastmoney.com/notices/detail/A21521/AN202110191523750446.html

[11] 高雅丽,李晨,王之康. 解决重大原创问题  勇闯创新“无人区”[N]. 中国科学报,2021-06-01(004).DOI:10.28514/n.cnki.nkxsb.2021.001764.

[12] 许居衍、黄安君:《后摩尔时代的技术创新》,《电子与封装》2020 年第 12 期,第 3—6 页。

[13] 樊贞. 让拓扑相变存储数据[J]. 物理学进展, 2020, 40(3): 84.

[14] Zhang, W., Gao, B., Tang, J. et al. Neuro-inspired computing chips. Nat Electron 3, 371–382 (2020). https://doi.org/10.1038/s41928-020-0435-7

[15] 曾剑敏, 张章, 虞志益, 等. 基于 SRAM 的通用存算一体架构平台在物联网中的应用[J]. 电 子 与 信 息 学 报, 2021, 43: 6.

[16] 后摩智能官网:对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路.2021.11.15.https://www.houmo.ai/newsdetail.php?id=8

[17] 李雅琪,温晓君.存算一体化的发展现状与挑战[J].机器人产业,2020,(01):28-31.

最近更新的专栏

全部专栏