存算一体,野蛮生长

4年前,寒武纪发布了一枚推理卡——思元370,宣称采用“近存计算”架构,有效提升了带宽效率,迈出了计算与存储深度融合的第一步。
2年前,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,推动“存”与“算”真正实现物理一体。
2024年,后摩智能发布了基于 SRAM 存储介质的后摩鸿途 H30 智驾芯片,这是国内首款存算一体的智驾芯片。
今年,这条长期被看好的技术路线,已经进入了量产的临界点。
01
什么是存算一体?
存算一体解决的问题很具体:AI模型越来越大,而数据从内存送到处理器的速度,越来越跟不上计算需求。这被称为“冯·诺依曼瓶颈”。

冯·诺伊曼计算架构
冯·诺依曼架构用了几十年,数据存储和计算是分开的,所以也叫作存算分离。AI的崛起,让计算芯片疯狂提速,但存储传输速率的提升跟不上。
存储速率上,业内提出AI运算需要的存算通道速率是1PB/s。SRAM的10-100TB/s、DRAM的40GB-1TB/s,都远达不到要求。功能消耗上,在7nm工艺下,数据搬运的功耗占比甚至达到了惊人的63.7%,远远大于数据计算的功耗。
于是,一些团队开始尝试一个朴素想法:既然搬数据耗能又慢,能不能让计算发生在数据所在的地方?
这就是存算一体的基本逻辑。目前CIM技术已经应用在诸多存储器上,如主流存储器SRAM,DRAM,Flash,以及新型NVM,如RRAM,PCM,FeRAM,MRAM等。
目前的主流技术路径是两种:
第一,易失性存储器存算一体方案,如SRAM存算一体方案、eDRAM存算一体方案。目前,SRAM CIM成熟度高、鲁棒性强,是主流方案之一。台积电已经连续五年在ISSCC和VLSI上介绍先进的Digital SRAM CIM工作。国内后摩智能、炬芯科技在做相关产品。
第二,非易失性存储器存算一体方案,如Flash存算一体方案、忆阻器(RRAM、PCM、MRAM)存算一体方案。ReRAM CIM的方案,IMEC、清华团队、中科院微电子所持续研究,国内昕原半导体也有布局。
为什么是现在?
过去十年,存算一体并不是没有出现,但更多的是出现在ISSCC、IEDM等学术会议。2025年起,它开始出现在客户产线和供应链清单上。
背后有三个实实在在的推手:
首先,是存储技术的不断突破。阻变存储器(RRAM)、忆阻器等新型存储介质技术不断突破,为存算一体提供了关键硬件支撑。清华大学团队研发的全球首颗全系统集成的忆阻器存算一体芯片,进一步验证了新型存储介质在存算融合中的可行性,让技术从理论走向实用化成为可能。
其次,是AI推理部署成本倒逼性能优化。AI的耗电主要集中在训练与推理两阶段,而参数量越大的模型,算力与电力消耗就越惊人。这也解释了为何从Cerebras、Dojo到Groq,诸多架构创新都在试图“榨干”片上面积、极致堆叠SRAM容量,甚至不惜让其他设计为此让道,走向高度专用化。例如Groq的设计,其实就已采用了类似“近存计算”的思想,通过最大化片上存储与计算单元的紧密耦合来降低数据搬运开销。

最后,是技术路线的优先级。美国多次修订AI芯片出口规则,限制算力密度和互连带宽,这使得国内厂商不得不重新评估:是否必须追求峰值算力?还是转向更高能效比的专用架构?在此背景下,CIM因其天然低功耗特性,获得更多关注。
02
几家公司的脚印
存算一体的应用场景,天然适合AI相关,不论是端侧还是云侧,AI计算上存算一体芯片都有独到的优势。
联发科早在2023年便通过ISSCC(国际固态电路会议)和VLSI(超大规模集成电路研讨会)两大顶级会议,披露了其在存算一体领域的双重技术路径:一方面推出12nm工艺下的模拟域存算一体宏设计,基于电容型存算阵列实现高鲁棒性(对工艺、电压、温度变化不敏感)与高识别率,适用于对能效比要求极高的边缘场景;另一方面开发数字域存算一体宏,依托紧凑型SRAM单元,在无能效损失(即计算能耗与理论最小值接近)和低峰值电流的条件下完成高性能运算,更适合对实时性要求高的移动端任务。
这一技术积累在今年转化为实际产品——最新旗舰手机芯片天玑9500首次集成存算一体架构,标志着存算技术正式进入大规模消费电子场景,为端侧AI(如影像处理、语音交互、轻量级模型推理)提供了更高效的算力支撑。
美国AI芯片创企d-Matrix在2025年Hot Chips大会上发布的Corsair内存计算加速器,则代表了云端存算一体方案的典型思路。

d-Matrix核心是数字存算一体(DIMC)技术,将存储与计算功能集成于同一芯片,直接在内存中执行计算操作,无需在 CPU 与内存之间频繁传输数据。
Corsair芯片在芯片内部配置了大容量 SRAM 与 LPDDR5X,并让矩阵运算尽可能靠近存储发生,从而降低数据搬运的能耗与延迟。每张卡上包含两颗芯片,每颗芯片由 4 个 Chiplet 组成,每个 Chiplet 又配备了 2GB SRAM 以及 LPDDR5X 通道,使整卡达到 256GB LPDDR5X 的存储能力。这种设计不仅缩短了数据通路,也让推理任务中的权重访问更加高效。
d-Matrix 联合创始人兼 CTO 苏迪普・博哈(Sudeep Bhoja)曾在博客中尖锐指出:“当模型参数超过 1000 亿时,数据搬运的能耗已占推理总能耗的 70% 以上,这也是为何单纯堆叠 GPU 无法解决延迟问题的核心原因。”
存算一体上,中国呈现“学术引领+产业落地”的双轮驱动特征,既有高校团队在前沿材料与基础架构上的原理性突破,也有初创企业基于成熟工艺的产品化尝试,覆盖从忆阻器等新型存储介质到端侧、云侧全场景。

忆阻器存算一体排序系统整体示意图
高校方面,北京大学杨玉超团队在《自然·电子》上发表题为“A fast and reconfigurable sort-in-memory system based on memristors”的论文,首次构建了一个基于1T1R忆阻器阵列、无需比较器的存算一体排序软硬件一体系统。通过忆阻器阵列的独特位读取机制,彻底摒弃传统比较器,实现了排序速度提升7.7倍、能效比提升160倍的惊人突破。
几乎同时,清华大学钱鹤、吴华强团队在另一维度实现突破。提出了基于忆阻器存算一体技术的解决方案,首次用同一忆阻器阵列与外围电路实现计算、密钥生成和误差多项式生成三大核心功能,显著简化了数据路径和系统复杂度。在硬件开销方面,与数字系统相比,忆阻器系统的能耗降低57.72倍、时间降低6.42倍。

企业这边,后摩智能于今年发布了基于存算一体技术的端侧AI芯片“漫界M50”。该芯片可提供单芯片最高160TOPS的算力,并支持最大48GB内存与153.6GB/s的带宽配置。在实际性能方面,漫界M50目前已可实现7B/8B参数量的大模型达到25+ Tokens/s的推理生成速度,并已完成对DeepSeek 70B大模型的适配。该芯片理论上还可支持千亿参数规模的模型运行。
知存计算作为国内最早布局存算一体的企业之一,其量产的WTM2101芯片是全球首款基于NOR Flash的存算一体语音芯片,专注端侧低功耗语音交互场景。目前有WTM2系列,适用高能效场景;WTM-8 系列,新一代计算视觉芯片适用低功耗高算力场景,支持linux,支持AI超分、插帧、HDR、检测与识别。
昕原半导体是国内忆阻器(ReRAM)存算一体技术产业化的领军者,其自主研发的28nm制程ReRAM存储芯片已实现量产。ATOM 产品系列,利用ReRAM兼容先进工艺的特性将存储和计算单元融为一体。
九天睿芯的核心产品ADA100是一款基于SRAM存算一体架构的音频边缘计算芯片,于2023年量产并应用于TWS耳机、助听器等设备。最近,九天睿芯获超亿元B轮融资。九天睿芯专注于超低功耗模数混合感存算一体芯片研发,规划在未来3年内加速后续两代大容量大算力存算一体芯片研发进程,第二代芯片期间版本将支持1~3B级别轻量化大模型,目前已流片成功。
昕原半导体在8月发生了工商变更。原股东上海联知创业投资管理中心(有限合伙)退出,新增股东蚂蚁集团。蚂蚁集团旗下上海云玡的持股比例为1.8692%。这家专注于ReRAM和AI存算一体的企业被阿里盯上了。
苹芯科技已完成首款产业级28nm SRAM存算一体单元流片点亮。已经开发多款产品,包括PIMCHIP-S300、PIMCHIP-N300等。PIMCHIP-S300是一款多模态智慧感知决策AI芯片,搭载基于SRAM的存算一体计算加速单元,具备AI算力整合、多模态融合感知、跨领域智慧决策、超低功耗、极速响应等特点。苹芯科技的芯片主要应用于智能可穿戴设备、智能安防、智慧工业、智慧医疗、教育智能化等行业。
03
结语
如今的先进存储器与存算一体已经不是“单点技术突破”,而是“技术协同+场景适配+生态共建”的系统工程。
不过,当前存算一体依然存在卡点。SRAM方案受限于面积和密度,难撑千亿模型;忆阻器虽能效惊艳,但良率、耐久性和工艺兼容性仍是量产拦路虎。