从“更快”到“更省”:AI下半场,TPU重构算力版图

当谷歌的大模型 Gemini 3 在2025年末以惊人的多模态处理速度和极低的延迟震撼业界时,外界往往将目光聚焦于算法的精进。然而,真正的功臣正沉默地跳动在谷歌数据中心的机架上——那就是他们潜研10年的 TPU (Tensor Processing Unit)。

长期以来,英伟达凭借其“通用而强大”的 GPU 统治了模型训练的黄金时代。但随着大模型走进规模化应用爆发期,算力逻辑正发生本质改变:“训练为王”的旧秩序正在瓦解,“推理为王”的新时代已经降临。

当专用架构的极致效率突破了通用架构的冗余局限,以 TPU 为代表的 ASIC 芯片正以不可阻挡之势,从英伟达手中接过主角的剧本,重塑全球AI算力的权力版图。

成本为王,芯片变了

这些年,在海内外厂商的共同推动下,大模型和人工智能成为了几乎人尽皆知的热词。所谓大模型,其诞生有点像一个人的成长:先通过预训练“博览群书”,在海量文本中学习语言结构和世界知识;再通过指令微调,学会如何按人类要求组织和表达回答;接着借助基于人类反馈的强化学习,对齐输出风格与边界,使回答更符合人类偏好;最后经过压缩和工程优化部署到服务器上,在与用户交互时实时解析输入,并以逐词预测的方式生成答案。

其中,预训练、微调和强化学习这三个阶段,就是我们常说的“训练”阶段。在这个阶段,谁能更快搭建起大模型,谁就能抢占话语权。基础设施面临着高算力、高显存带宽以及极强多卡互联的需求,以支撑万亿级参数背后的海量矩阵运算和数据同步。凭借高性能的 GPU、CUDA 生态和 NVLink 高速互联技术,英伟达成为了这个阶段毫无争议的赢家。

而在大模型训练完成后,真正的商业价值来自于规模化的推理服务。模型每天要处理数十亿次用户请求,推理成本的高低直接决定了每一次 API 调用的利润空间。此时的核心议题,不再只是能否训练模型,而是能否在保证性能的前提下,降低每一次推理的成本。

500

因为无论是 OpenAI 还是国产大模型,其核心商业模式都是按每百万 Token 计费。只有不断降低单个 Token 的成本,并提升其生成质量与可靠性,才能使得AI像电力一样,以可负担的成本渗透进各行各业的实时对话、决策与创作场景中。这也是今年下半年以来,大家对 Token per dollar(每美元产出的 Token 量)的关注度空前增长的原因。

在这种“成本为王”的背景下,算力竞争版图正在重塑,高盛最近的一份报告指出,以谷歌TPU 为代表的专用架构正成为强有力的挑战者。报告数据显示,从 TPU v6到 TPU v7,谷歌已将每百万 token 的推理成本降低了约70%;英伟达的 GB 200 NVL72 每百万 token 的推理成本约为 0.27 美元,而谷歌的 TPU v7 在同样的任务负载下,成本已经降至相当甚至更优的水平。尽管英伟达仍毫无疑问是市场的主要参与者,其芯片成本曲线还将继续下行,但 TPU v7 的快速赶超甚至局部超越,则标志着算力竞争格局的转折点已经到来。

500

成本曲线的陡峭下行,也在现实世界引发共振。近日,Anthropic——作为 Claude 的开发者与 OpenAI 的头号竞争对手,与博通签订了价值高达210亿美元的 TPU 订单。这一巨额订单标志着以谷歌 TPU 为代表的 ASIC 芯片,从技术探索进入到大规模商业部署阶段。不难推断出 Anthropic 背后的商业考量:若能通过 TPU v7降低30–40%的单位推理成本,在其月度千亿级别的API调用规模下,意味着每年可能带来数十亿美元的利润改善。

这种成本优势甚至成为了博弈筹码。半导体行业研究机构 SemiAnalysis 透露,OpenAI 仅凭“威胁购买 TPU”这一筹码,就迫使英伟达生态链做出了实质性让步,使其计算集群的总拥有成本(TCO)下降了约30%。可以说,英伟达随后对 Groq 核心推理技术的获取以及对其核心人员的招募,也是面对这种新趋势的一种防守之策。

行业变革的齿轮,在成本的重压下,悄然加速转动。从“通用算力竞赛”进入了“能效比对决”时代,以 TPU 为代表的 ASIC 已然崛起,成为头部AI玩家在英伟达之外的第二选择。

TPU 站上舞台中央背后

ASIC 并非新鲜事物。早在 GPU 大红大紫之前,市场上就已经就 FPGA 和 ASIC 的优劣势有了很多的讨论。但在 GPU 统治算力的时代,谷歌 TPU 能成功冲击英伟达筑起的高墙,并非偶然,而是源于其对专用计算的极致追求。

与兼顾通用性的 GPU 不同,TPU采取了极其精简的架构设计:果断砍掉与AI推理无关的图形处理单元,将宝贵的晶体管资源集中于大模型最核心的矩阵运算。

更重要的是,TPU 引入了独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少了对寄存器的频繁读写。配合大容量片上 SRAM 缓存与高效的数据搬运引擎 DMA,TPU 显著降低了“数据搬运”这一主要能耗瓶颈。

500

脉动阵列示意图:数据在计算单元(PE)阵列中流动

然而,长期以来,英伟达凭借“软硬一体”的封闭生态和深厚的 CUDA 护城河,仍然掌握着AI时代的定价权。对于客户而言,迁移至其他芯片平台需要付出高昂的软件适配成本。

打破这种路径依赖,谷歌采取了“硬件进化、软件开源”的双重攻势:其 XLA 编译技术,不仅支持谷歌系的 TensorFlow 和 JAX 框架,也能适配主流开源框架 PyTorch(该框架在全球机器学习开发应用中占比超过80%)。谷歌联合多家科技巨头发起的 OpenXLA 开源项目,打通了从多框架模型到不同硬件的统一编译路径;近期与 Meta 合作推进 TorchTPU 项目,实现 TPU 对 PyTorch 的原生支持,使开发者可将 PyTorch 模型无缝迁移至 TPU。

500

OpenXLA 开源项目

在AI计算从“算力堆叠”转向效率与规模并重的趋势下,通过精简架构、脉动阵列、片上大缓存与数据搬运引擎等硬件创新,再结合软硬件协同的开源生态构建,谷歌 TPU 逐渐构筑起在推理场景下的独特优势。

在这场关乎 Token 成本的“AI下半场”,中国芯片企业并未缺席。观察过去几年的行业轨迹,包括奕行智能在内的本土厂商,长期致力于开发兼顾通用性与专用性的架构,为AI算力的多样化竞争提供了底层支撑。

一家本土芯片厂商的不谋而合

回看奕行智能的发展历程与当前取得的结果,笔者认为,这与他们从成立伊始就一直坚持打造AI技术底座、做AI算力底层赋能者有着莫大的关系。自成立以来,公司在软硬件以及生态等多个方向上全面布局,与 TPU 及 DSA(ASIC)的演进趋势不谋而合。

在硬件层面,奕行智能采用类 TPU 架构,其矩阵、向量、标量的精简架构设计,完全匹配大模型的计算特点,显著降低了传统 GPGPU 架构中用于调度与资源分配的额外开销(包含算力、带宽、编程投入等,通常占总开销的10%-20%),有效提高能效比与面积效率,打满算力。

其大尺寸矩阵运算引擎,采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少了数据前处理的开销。相比同类方案,编程也更为简单易用,限制更少——例如几乎无需为规避bank冲突特意做手动编排,能够直接支持模型中开发难度大的卷积矩阵乘算子等。

面对AI计算中频繁出现的4D数据,奕行智能的高性能4D DMA引擎展现出明显优势。相比竞品往往需要多次数据搬移与处理,该引擎仅通过一次操作即可完成4D数据的整体搬移,并在过程中同步完成数据变换与重排。此外,通过配置大容量片上缓存,将热点与关键数据置于 L1/L2 中,其访问速度相比存放在 DDR 的方案提升1–2个数量级。其近存计算设计,让产品在实测中 Flash Attention 关键算子利用率相比竞品提升4.5倍。

其架构设计的另一亮点,在于率先引入了 RISC-V+RVV(向量扩展)指令集,并率先支持 RVV 1024 bit 位宽,精准捕捉了 RISC-V 向AI计算拓展的机遇。近年来,随着性能提升与生态成熟,RISC-V 已经迈出了从嵌入式市场向数据中心市场的关键一步。谷歌也在 TPU 中集成了 RISC-V 处理器,结合 RVV 向量扩展,实现了AI专用加速与灵活、可编程的 RISC-V 核心的高效协同。

在奕行智能的架构中,图灵完备的 RISC-V 指令集保障了通用的计算能力,模块化设计支持扩展专用AI计算指令,支持其自定义高效的张量计算加速、超越函数、数据搬运等指令。同时,RVV 原生支持复杂向量计算,支持多种数据类型的混合精度计算。

基于类 TPU 架构+ RISC-V 的底座,该公司推出了国内业界首款 RISC-V AI算力芯片 Epoch。该系列产品及计算平台解决方案于2025年启动量产,目前在头部系统厂商、互联网,数据中心及行业客户,均获得了商业突破,斩获大额商业订单,大规模量产出货中。

500

精度演进:低位宽与高精度的平衡艺术

“低位宽、高精度”的数据格式支持,已成为近年来行业突破能效瓶颈的关键路径之一。在深度学习领域,数据精度与计算效率始终存在权衡关系。例如,TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度。以Ironwood(TPU v7)为例,其FP8峰值算力达到4.6PetaFLOPS,而BF16仅为2.3PFLOPS。显存占用和通信数据量也同步减半。

从谷歌 TPU v2 首次引入 BF16,到 DeepSeek 提出分块量化 FP8,以及英伟达发布 NVFP4,采用16元素共享缩放因子并以 FP8 作为缩放数据类型,使4bit精度几乎逼近 BF16水准……这些创新都指向一个共同逻辑:压缩数据位宽能显著释放性能红利,同时保持高精度以保持大模型的“智能”不退化,则直接关系到AI芯片的商业化落地可行性。

奕行智能的AI芯片,除了支持传统的多种浮点及整型数据类型以外,还在国内率先支持DeepSeek 所需的基于分块量化的FP8计算精度,并在其新一代产品支持 NVFP4、MXFP4、MXFP8、MXINT8 等前沿的数据格式,可高效释放算力,大幅降低存储开销。

本质上,“拓宽数据通道”(支持RVV 1024 bit位宽)与“压缩信息体积”(支持低位宽浮点精度)的双重组合,带来了向量算力与矩阵算力吞吐的双重增长与存储成本的下降。上述技术创新精准对标了 DeepSeek 与英伟达引领的技术方向,契合深度学习演进趋势。

超越芯片:软件与生态的协同进化

得益于上述设计,奕行智能在当前 token 成本竞争激烈中更游刃有余。然而,仅靠芯片创新不足以在竞争激烈的市场中突围,还需要再软件和生态上多下功夫,这与国内过去一直在探讨如何突破CUDA包围圈、构建自主计算生态一脉相承。

在软件栈,该公司深度融合了谷歌开源的 StableHLO 和 XLA 技术,全面支持 PyTorch、TensorFlow、JAX、ONNX 等主流框架。其智能编译器ACE(Advanced Compute Engine)已接入 OpenXLA 体系,可无缝迁移至 TorchTPU 方案,让 PyTorch 开发者能够近乎“零代码修改”地实现模型迁移。

500

针对 AI 场景数据规则化的特点,奕行智能还推出了原生适配 Tile(分块)的动态调度架构。该架构通过“虚拟指令+智能编译器+硬件调度器”的闭环,将复杂的指令依赖、流水线管理和内存切分交由硬件自动完成。这不仅让编程变得像“拼积木”一样干净简洁,更打破了传统静态优化的性能上限,实现了对并行算力的实时、极致压榨。

其独创的VISA虚拟指令集技术,就像是在复杂的硬件森林和上层软件之间架起了一座“标准翻译桥梁”,让开发者不再需要为每一颗芯片“贴身肉搏”写底层代码。

500

在生态构建上,奕行智能正与 Triton 社区推进重要合作,将 Triton 编译流引入 RISC-V DSA 后端,并计划开源其虚拟指令集,共同打造面向 RISC-V DSA 的“CUDA式”开发生态。

这种从底层硬件架构到软件生态的全面对标与自主创新,使奕行智能不仅在技术路线上成为了“中国 TPU”的代表,更在未来的 Token 成本竞争中占据了有利市场身位。

写在最后:全栈竞争时代已至

无论是奕行智能等国内新兴力量,还是英伟达、谷歌、AMD 等国际巨头,持续提升单芯片性能始终是业界公认的方向。

然而随着行业对 token 成本的日益关注,竞争焦点正从单纯追求算力规模,转向通过提升算力利用率与能效来降低成本——这不仅是技术演进,更是实现商业价值的关键路径。

在这一范式转变下,“算力竞争”已不再局限于单一芯片的性能较量,而是升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争。

以英伟达为例,其能够成为行业领导者,不仅得益于强大的 GPU 硬件与 CUDA 生态,其高速互联技术 NVLink 同样功不可没。惊艳业界的 GB200 NVL72 系统,正是依托 NVLink 实现高效的 Scale Up 互联架构。

Scale Up 将多个计算节点像单颗芯片内部单元一样紧密互联协同,对于互联带宽、传输延迟及系统容错性都提出了极高要求。奕行智能自研的互联技术方案 ELink,同样支持超大带宽与超低延迟的 Scale Up 扩展,成为其构建算力效率护城河的关键一环。

而在传统AI大规模计算中,归约运算往往需要将大量数据在计算卡间搬运,对互联带宽和延迟有着非常高的要求。前沿的在网计算技术,可将部分计算卸载至网络交换节点,从而减轻带宽负担,降低通信延迟。ELink 配合交换侧,已实现对这一前沿在网计算功能的支持。

此外,ELink 在兼容性与灵活性上也展现出充分的竞争力:全面支持 RoCEv2、SUE(博通提出)、EthLink(字节跳动提出)、C-Link 等主流互联协议,能与支持上述协议的交换设备及芯片无缝高效互联,并支持800G/400G/200G可配置以太网标准协议。

500

ELink互联技术 支持丰富的互联拓扑

ELink互联方案的任意点对点带宽(P2P带宽),可以达到传统互联方案的7倍,根据不同的组网方案单节点聚合带宽则可以达到14.2倍,有效支持大模型的高速推理。

500

AI算力竞争正从“谁算得更快”转向“谁算得更省”。这场竞争的核心不仅是技术维度从性能到能效的转移,更是整个行业商业逻辑的深刻重塑。英伟达虽仍是市场的主导者,但在推理等专用场景中,以TPU为代表的专用架构已崛起为有力的挑战者。

在此变局之中,国内AI芯片企业也找到了属于自己的突破口。凭借“对标前沿技术布局,融入成熟开源生态,同时以自主创新构建核心壁垒”的组合策略,奕行智能正在这场AI基础设施的全栈竞争中稳步突围。

站务

全部专栏