HBM,挑战加倍
高带宽内存(HBM)作为下一代动态随机存取存储器(DRAM)技术,其核心创新在于独特的 3D 堆叠结构 —— 通过先进封装技术将多个 DRAM 芯片(通常为 4 层、8 层甚至 12 层)垂直堆叠。这种结构使 HBM 的带宽(数据传输速率)远高于 GDDR 等传统内存解决方案。
凭借高带宽、低延迟的特性,HBM 已成为 AI 大模型训练与推理的关键组件。在 AI 芯片中,它扮演着 “L4 缓存” 的角色,能够显著提升数据读写效率,有效缓解内存带宽瓶颈,进而大幅增强 AI 模型的运算能力。
01HBM市场,SK海力士独领风骚
依托 HBM 技术的领先优势,SK 海力士在行业中的地位持续攀升。市场数据显示,自 2024 年第二季度起,美光与 SK 海力士的 DRAM 市场份额持续增长,三星则逐步下滑;而在 HBM 领域,原本与三星近乎平分秋色的格局被打破,截至今年第一季度,两者份额差距已扩大至两倍以上。
更具标志性的是,今年第二季度,SK 海力士以约 21.8 万亿韩元的 DRAM 及 NAND 销售额,首次超越三星电子(约 21.2 万亿韩元),登顶全球存储销售额榜首。这一突破很大程度上得益于其 HBM 产品的强势表现 —— 作为英伟达的主要独家供应商,SK 海力士早期虽未在 HBM 市场脱颖而出,但随着全球 AI 开发热潮兴起,其高性能、高效率的产品需求激增,增长显著。
其中,第五代高带宽内存HBM3E是关键推手。该产品具备高带宽、低功耗优势,广泛应用于AI服务器、GPU等高性能计算领域,2023至2024年间吸引了 AMD、英伟达、微软、亚马逊等科技巨头竞相采购,而SK海力士是全球唯一大规模生产HBM3E的厂商,其2025年的8层及12层HBM3E产能已全部售罄。
反观三星电子,因向英伟达交付延迟错失良机,尤其在AI市场应用最广的 HBM3E 领域,去年和今年均大幅落后于 SK 海力士,市场份额从去年第二季度的 41% 暴跌至今年第二季度的 17%,甚至有报道称其未通过英伟达第三次 HBM3E 认证。
对于未来,光大证券预计 HBM 市场需求将持续增长,带动存储产业链发展;花旗证券则预测,SK 海力士将继续主导 HBM 市场。显然,SK海力士有望在 AI 时代成为 “存储器恐龙”。
02存储厂商开发HBM替代方案
面对SK海力士的强势表现,行业内其他厂商纷纷加速技术创新,探索HBM的替代方案。
三星重启Z-NAND
三星电子在搁置七年后,决定重启 Z-NAND 内存技术,并将其定位为满足人工智能(AI)工作负载增长需求的高性能解决方案。这一消息于 2025 年美国未来内存与存储(FMS)论坛上正式公布,标志着三星重新进军高端企业存储领域。
三星内存业务执行副总裁 Hwaseok Oh 在活动中表示,公司正全力重新开发 Z-NAND,目标是将其性能提升至传统 NAND 闪存的 15 倍,同时把功耗降低多达 80%。即将推出的新一代 Z-NAND 将搭载 GPU 发起的直接存储访问(GIDS)技术,让 GPU 可直接从存储器获取数据,无需经过 CPU 或 DRAM。该架构旨在最大限度降低延迟,加速大型 AI 模型的训练与推理进程。
Z-NAND 的复苏,折射出行业正发生广泛转变 —— 快速扩展的 AI 模型已逐渐超越传统存储基础设施的承载能力。在当前系统中,数据需从 SSD 经 CPU 传至 DRAM,再送达 GPU,这一过程形成严重瓶颈,既导致性能下降,又增加了能耗。而三星支持 GIDS 的架构,可消除这些瓶颈,允许 GPU 将大型数据集从存储器直接加载到 VRAM 中。Oh 指出,这种直接集成能显著缩短大型语言模型(LLM)及其他计算密集型 AI 应用的训练周期。
事实上,三星早在 2018 年就首次推出 Z-NAND 技术,并发布了面向企业级和高性能计算(HPC)应用的 SZ985 Z-SSD。这款 800GB 固态硬盘基于 48 层 V-NAND 和超低延迟控制器,顺序读取速度高达 3200MB/s,随机读取性能达 750K IOPS、写入速度达 170K IOPS,延迟均低于 20 微秒,性能较现有 SSD 高出五倍以上,读取速度更是比传统 3 位 V-NAND 快十倍以上。此外,SZ985 配备 1.5GB 节能 LPDDR4 DRAM,额定写入容量高达 42PB(相当于可存储全高清电影 840 万次),并凭借 200 万小时的平均故障间隔时间(MTBF)保障可靠性。
X-HBM 架构重磅登场
NEO Semiconductor 则重磅推出全球首款适用于 AI 芯片的超高带宽内存(X-HBM)架构。该架构基于其自研的 3D X-DRAM 技术,成功突破传统 HBM 在带宽与容量上的固有瓶颈,其发布或将引领内存产业迈入 AI 时代的 “超级内存” 新阶段。
相比之下,目前仍处于开发阶段、预计 2030 年左右上市的 HBM5,仅支持 4K 位数据总线和每芯片 40Gbit 的容量;韩国科学技术院(KAIST)的最新研究预测,即便是预计 2040 年左右推出的 HBM8,也仅能实现 16K 位总线和每芯片 80Gbit 的容量。
而 X-HBM 却凭借 32K 位总线和每芯片 512Gbit 的容量,可让 AI 芯片设计人员直接绕过传统 HBM 技术需耗时十年才能逐步突破的性能瓶颈。据介绍,X-HBM 的带宽达到现有内存技术的 16 倍,密度为现有技术的 10 倍 —— 其 32Kbit 数据总线与单芯片最高 512Gbit 的存储容量所带来的卓越性能,能显著打破传统 HBM 的局限性,精准满足生成式 AI 与高性能计算日益增长的需求。
Saimemory开发堆叠式DRAM
由软银、英特尔与东京大学联合创立的 Saimemory,正研发全新堆叠式 DRAM 架构,目标是成为 HBM 的直接替代方案,甚至实现性能超越。
这家新公司的技术路径聚焦于 3D 堆叠架构优化:通过垂直堆叠多颗 DRAM 芯片,并改进芯片间互连技术(例如采用英特尔的嵌入式多芯片互连桥接技术 EMIB),在提升存储容量的同时降低数据传输功耗。根据规划,其目标产品将实现容量较传统 DRAM 提升至少一倍,功耗较 HBM 降低 40%-50%,且成本显著低于现有 HBM 方案。
这一技术路线与三星、NEO Semiconductor 等企业形成差异化 —— 后者聚焦容量提升,目标实现单模块 512GB 容量;而 Saimemory 更侧重解决 AI 数据中心的电力消耗痛点,契合当前绿色计算的行业趋势。
在技术合作层面,英特尔提供先进封装技术积累,东京大学等日本学术机构贡献存储架构专利,软银则以 30 亿日元注资成为最大股东。初期 150 亿日元研发资金将用于 2027 年前完成原型设计及量产评估,计划 2030 年实现商业化落地。
闪迪联手SK海力士推进HBF高带宽闪存
闪迪与 SK 海力士近日宣布签署谅解备忘录,双方将联合制定高带宽闪存(High Bandwidth Flash,HBF)规范。这一合作源于闪迪今年 2 月首次提出的 HBF 概念 —— 一种专为 AI 领域设计的新型存储架构,其核心是融合 3D NAND 闪存与高带宽存储器(HBM)的技术特性。按计划,闪迪将于 2026 年下半年推出首批 HBF 内存样品,采用该技术的 AI 推理设备样品则预计在 2027 年初上市。
作为基于 NAND 闪存的内存技术,HBF 创新性地采用类 HBM 封装形式,相较成本高昂的传统 HBM,能显著提升存储容量并降低成本,同时具备数据断电保留的非易失性优势。这一突破标志着业界首次将闪存的存储特性与类 DRAM 的高带宽性能整合到单一堆栈中,有望重塑 AI 模型大规模数据访问与处理的模式。
与完全依赖 DRAM 的传统 HBM 相比,HBF 通过用 NAND 闪存替代部分内存堆栈,在适度牺牲原始延迟的前提下,可在成本与带宽接近 DRAM 型 HBM 的基础上,将容量提升至后者的 8-16 倍。此外,不同于需持续供电以保存数据的 DRAM,NAND 的非易失性让 HBF 能以更低能耗实现持久存储。
03多维度架构创新降低HBM依赖
除了在存储技术上持续创新,厂商们也在积极探索 AI 领域的架构革新,以期降低对 HBM 的依赖。
存算一体架构
上世纪 40 年代,随着现代史上第一台计算机的诞生,基于 “存储 - 计算分离” 原理的冯・诺依曼架构应运而生,此后的芯片设计也基本沿用这一架构。在近 70 年的现代芯片行业发展中,技术进步多集中于软件与硬件的优化设计,计算机的底层架构始终未发生根本性改变。
存算一体(Processing-In-Memory, PIM 或 Compute-in-Memory, CIM)正是在这一背景下被提出的创新架构。其核心理念是在存储器本体或邻近位置集成计算功能,从而规避传统架构中 “计算 — 存储 — 数据搬运” 的固有瓶颈。通过在存储单元内部直接部署运算单元,物理上缩短数据传输距离,存算一体架构能够整合计算与存储单元,优化数据传输路径,突破传统芯片的算力天花板。这不仅能缩短系统响应时间,更能使能效比实现数量级提升。一旦技术成熟,有望将对高带宽内存的依赖度降低一个数量级,部分替代 HBM 的功能。
华为的 AI 突破性技术成果
华为近期发布的 UCM(推理记忆数据管理器),是一款以 KV Cache(键值缓存)为核心的推理加速套件。它融合了多种缓存加速算法工具,可对推理过程中产生的 KV Cache 记忆数据进行分级管理,有效扩大推理上下文窗口,从而实现高吞吐、低时延的推理体验,降低每个 Token(词元)的推理成本。通过这一创新架构设计,UCM 能够减少对高带宽内存(HBM)的依赖,同时显著提升国产大模型的推理性能。
04未来将是多层级架构的时代
无论是训练还是推理场景,算力与存储都是率先受益的领域,二者将成为决定未来十年AI竞争格局的关键因素。
与 GPGPU 产品类似,HBM(尤其是 HBM3 及以上规格)需求旺盛,且长期被国外厂商垄断。2025 年初,HBM3 芯片现货价格较 2024 年初暴涨 300%,而单台 AI 服务器的 DRAM 用量更是达到传统服务器的 8 倍。从市场格局看,海外厂商仍占据主导地位:SK 海力士以 53% 的份额领先,且率先实现 HBM3E 量产;三星电子占比 38%,计划 2025 年将 HBM 供应量提升至去年的两倍;美光科技目前份额为 10%,目标是 2025 年将市占率提升至 20% 以上。
尽管 HBM 凭借卓越性能在高端 AI 应用领域站稳脚跟,但随着其他内存技术在成本控制、性能提升及功耗优化等方面的持续突破,其未来或将面临新兴技术的竞争压力。不过从短期来看,HBM 仍是高带宽需求场景的首选方案。
从长期发展趋势看,市场将随技术演进与应用需求变化不断调整优化。未来 AI 内存市场并非简单的 “替代与被替代” 关系,HBM 替代方案的创新呈现出 “架构哲学的多样性”,而非单一技术迭代。可以预见,AI 计算与内存领域不会出现全面取代 HBM 的 “唯一赢家”,取而代之的将是更复杂、分散化且贴合具体场景的内存层级结构 —— 单一内存解决方案主导高性能计算的时代正在落幕。
未来的 AI 内存版图将是异构多元的层级体系:HBM 聚焦训练场景,PIM 内存服务于高能效推理,专用片上内存架构适配超低延迟应用,新型堆叠 DRAM 与光子互连等技术也将在系统中占据一席之地。各类技术针对特定工作负载实现精准优化,共同构成 AI 时代的内存生态。