NVLink Fusion:英伟达的护城河

500

本文由半导体产业纵横(ID:ICVIEWS)编译自fabricatedknowledge

当你成为唯一的规则定义者时,何不拓宽护城河呢?

一两年前,整个投资界的目光都聚焦英伟达不可撼动的 CUDA 护城河上,当时有观点指出,网络技术的价值同样被低估了。

两年后,网络技术在英伟达生态系统中的核心地位已清晰显现。具有划时代意义的创新是 NVLink 背板技术,它实现了芯片间的一致性通信,这正是英伟达将 GPU 性能提升至数据中心级别的最关键优势。

由 AMD、英特尔、博通、谷歌等企业支持的开放标准 UALink,试图抵消这一优势。然而联盟的推进速度受制于委员会政治,其 1.0 版本草案直到今年才出炉,而英伟达已开始推出下一代产品。

英伟达宣布将授权 C2C 技术并销售 NVLink 小芯片,这一举措震动了整个行业,两者都将产生深远影响。

C2C 授权与 NVLink 小芯片

英伟达在主题演讲中扔下两颗“重磅炸弹”:

1.C2C(芯片到芯片)授权:开放其短距离芯片间物理层(PHY)及协议的设计蓝图。

2.NVLink 小芯片:销售经过预验证的 I/O 芯片,供第三方集成到自有芯片中。

首先来看 C2C 授权,其主要聚焦于 CPU 及多芯片加速器项目。本文认为该技术存在多种应用方向,但在 NVLink 的公告中,提及的主要产品是 CPU,尤其是富士通的 CPU。

500

为何这一点至关重要?因为富士通的集群是全球最大的 ARM 架构集群之一。其中一个重要机遇是在高性能计算(HPC)工作负载中部署更多 GPU,采用类似 Grace Hopper 配置的 1:1 比例,甚至超越 Grace Blackwell 配置。这使得富士通能够将其定制的 ARM 核心与 GPU 紧密连接,打造真正面向 HPC 的产品。

其次,对于基于小芯片的板载加速器而言,C2C 是最难实现的技术之一。通过授权该技术,有助于加速 GPU 与 CPU 混合架构的发展。这不仅利于 GPU 的更广泛应用,还能通过技术授权推动 GPU 进入 CPU 密集型领域(如 HPC),而全球最可能被采用的 GPU 无疑是英伟达产品。

但这并非全部。以下是 NVLink Fusion 拓扑结构的工作示意图。最值得关注的是,NVLink 最终将成为所有加速器的 “特洛伊木马”。需要特别留意这样的场景:定制 CPU、定制 GPU 与 NVLink Fusion 小芯片共存的世界。

500来源:servethehome

在这种配置下,看上去,英伟达不再强制要求客户购买全套硬件(如GPU+CPU),而是允许第三方通过NVLink Chiplet接入。看似仅销售 I/O 小芯片,实则是在“扼杀” 竞争对手。

英伟达的“锁定式” 完美解决方案

在这种拓扑结构中,下面会分析各项技术实现的难度:

CPU:从 ARM CSS 获取定制 CPU 相对容易。

加速器设计:虽有一定挑战,但前端设计相对简单,只需 100 人配合一些 EDA 工具即可完成。

网络 I/O:这是极具挑战性的部分,往往是多数定制芯片项目成败的关键。

扩展域(Scale Up Domain):实现难度极大,目前除 NVLink 外尚无其他可行方案。

基于此逻辑,可以理解为何黄仁勋决定授权一项技术,同时销售另一项技术的小芯片。

本文看来,C2C 技术虽有挑战但并非不可实现,因此黄仁勋允许授权是合理的。从历史来看,他的理念是在技术差异化较小的领域开放源代码或让生态系统采用该技术。若他认为普通 CPU 将采用 GPU 作为协同封装技术,将其授权给潜在买家不失为明智之举。

但 NVLink 小芯片部分更值得玩味。黄仁勋选择销售小芯片而非授权技术,这一做法耐人寻味 —— 因为该技术具有差异化优势,英伟达显然希望将其保留在内部。

关键的战略举措在于“拥抱、扩展、消灭”(embrace, extend, extinguish),这正是英伟达针对 UALink 采取的策略。

拥抱、扩展、消灭

如今在加速器的扩展域中,NVLink 是唯一可行的架构。它至关重要,英伟达绝不会免费放弃。但 NVLink 也面临潜在竞争对手 ——UALink。据称 UALink 将成为其竞争技术,却受制于 “公地悲剧”:当一个开放标准涉及多个利益冲突的强大方时,问题便会浮现。

每个 UALink 参与者都试图将自身利益纳入标准,这种争论意味着标准推进需耗费漫长时间。此外,UALink 计划以 128G 速率启动,硬件明年才会上市,这在加速器竞赛中已落后太多。而且该标准的多数参与者(除博通外)并不直接销售 IP,而是将其与定制 ASIC 项目捆绑。

英伟达仍是唯一可行的产品,且速度超越竞争对手。若他们将 NVLink 小芯片投入市场,允许竞争对手按需授权,然后在下一代产品中推出非英伟达解决方案,会发生什么?这便是 “特洛伊木马” 策略:一旦进入网络市场,英伟达可能先 “拥抱” 客户,将自身路线图扩展得比 UALink 更快,再逐步 “消灭” 竞争对手。

在开放标准(通过 OCP 和联盟)与单一公司管理的封闭专有标准的竞争中,前者推进速度始终慢于后者,而市场迫切需要替代方案。英伟达恰好提供了 “金鹅” 般的授权 —— 当你涉足其路线图便会发现,英伟达的产品和计划几乎总是优于竞争对手。此外,若开始使用其网络 IP,英伟达将比以往更了解竞争对手。

一切最终都指向英伟达。在加速器短缺的当下,仅仅提供一颗“黄金螺丝”,依赖英伟达的企业就会意识到:他们的核心 IP 正由当今技术统治力最强的公司掌控。这是个错误,却又无可奈何 —— 因为除了英伟达的解决方案,他们别无选择。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

站务

全部专栏