NVLink还是英伟达的护城河吗?

500

在人工智能与高性能计算领域,英伟达凭借多项核心技术占据行业领先地位。其中,除广为人知的 AI 硬件、CUDA 生态外,NVLink 内存共享端口技术同样是其重要的核心竞争力,堪称构筑起英伟达市场优势的关键护城河之一。然而,随着技术的发展与行业竞争的加剧,NVLink 正面临诸多挑战,其作为护城河的稳固性引发广泛关注。

01

NVLink如何构建英伟达AI护城河?

早在 2014 年,英伟达便首次向外界公布了 NVLink 协议,这一创新技术的诞生,为多 GPU 协同工作开启了新的篇章。2016 年,NVLink 1.0 在 DGX - 1 系统中首次得到实际应用,成功连接 8 个 P100 GPU。彼时,传统的 PCIe(Peripheral Component Interconnect Express)互联技术受限于带宽和延迟,已难以满足高性能计算(HPC)应用日益增长的需求。NVLink 1.0 以 80GB/s 的带宽横空出世,有效缓解了数据传输瓶颈,极大地提升了多 GPU 系统的协同效率,开创了高性能计算领域多 GPU 协同工作的新局面。

此后,NVLink 历经多次重要的技术迭代,持续突破性能极限。2017 年,NVLink 2.0 版本推出,引入了 NVSwitch 这一关键组件,进一步拓展了连接规模。借助 NVSwitch,多 GPU 和 CPU 节点能够在更大范围内构建起复杂的互联网络,每个链接的带宽提升至 25GB/s,双向总带宽达到 50GB/s。以 V100 GPU 为例,其最高可支持 6 个链接,实现了 300GB/s 的双向总带宽,为大规模计算任务提供了更强大的支持。

2020 年发布的 NVLink 3.0 在技术上再次取得重大突破,将每个差分对的数据传输速率从 25Gbit/s 提升至 50Gbit/s,同时对差分对数量进行优化,从 8 个减少到 4 个。以基于 Ampere 架构的 A100 GPU 为例,其 12 个链接带来了高达 600GB/s 的总带宽,数据传输效率得到显著提升。

到了 2022 年,NVLink 4.0 在信号技术方面实现重要革新,从 NRZ 进化到 PAM4。基于 Hopper 架构的 GPU 凭借 18 个 NVLink 4.0 链接,实现了 900GB/s 的总带宽,进一步巩固了英伟达在高速互联领域的技术优势。而在 COMPUTEX 2025 上,英伟达推出的第五代 NVLink 更是将带宽提升至惊人的 1.2TB/s,不断刷新高性能计算领域的性能上限。

同时,随着技术的演进,NVLink的应用场景也不断拓展。在人工智能与深度学习领域,大语言模型等AI模型训练需要处理海量参数和数据,单GPU的内存和计算能力远远不足,NVLink允许多GPU共享统一内存池,加速模型训练。

随着技术的不断演进,NVLink 的应用场景也在持续拓展。在人工智能与深度学习领域,大语言模型等 AI 模型训练面临着海量参数和数据处理的巨大挑战,单 GPU 的内存和计算能力远远无法满足需求。NVLink 技术允许众多 GPU 共享统一内存池,通过高效的数据传输和协同计算,大幅加速模型训练进程。实测数据显示,采用 NVLink 互联的千卡集群,参数同步效率提升 2 倍以上,整体算力利用率从 60% 跃升至 90% 量级。正是凭借 NVLink 技术构筑起的强大技术壁垒,英伟达得以在全球 AI 训练市场占据霸主地位,垄断全球高端 GPU 市场,成为高性能计算领域的领军企业。

02

NVLink 的竞争对手越来越多了

当前,英伟达 GPU 凭借高效率的运算能力,广泛应用于全球各高算力领域,使得 NVLink 在事实上成为行业互联标准。然而,这一局面也引发了其他科技巨头的竞争。为了在高性能计算和 AI 领域与英伟达一争高下,AMD、英特尔纷纷推出 CXL、UCIe 等互联方案。这些竞争对手面临着艰难的抉择:若不加速与市场需求和现有生态的兼容适配,其产品很可能在激烈的竞争中被边缘化;反之,在技术研发和市场推广上则需投入巨大成本。

此外,行业内的竞争态势愈发激烈。UALink 联盟近期正式发布 1.0 标准,为市场带来新的技术选择。国内首家对标英伟达 “NVLink&NVSwitch” 的互联通信方案提供商 —— 北京探微芯联科技有限公司,也宣布完成数千万人民币天使轮融资。探微芯联源自清华大学类脑计算研究中心,专注于 GPU 与 GPU 间通信协议和交换芯片的研发,其自研的 ACCLink & ACCSwitch 技术,在性能和功能上可与英伟达的 NVLink & NVSwitch 技术相媲美,为国产高性能计算互联技术的发展注入新的活力,也给英伟达的 NVLink 技术带来了新的竞争压力。

03

英伟达开放NVLink

在 2025 年台北国际电脑展上,英伟达首席执行官黄仁勋宣布开放 NVLink Fusion 技术授权,允许联发科、美满电子、富士通、高通等 12 家第三方企业接入其高速互连体系。这一举措预计将带动 AI 服务器制造成本下降 18%。表面上看,开放 NVLink 意味着英伟达正在放弃其长期以来坚持的硬件闭环优势,但深入分析其背后逻辑可以发现,这实则是英伟达战略转型的重要一步。通过 NVLink Fusion 吸引第三方硬件接入,英伟达旨在扩大 CUDA 生态的 “势力范围”,实现从单纯的硬件卖家向 “技术标准输出 + 区域产能绑定” 模式的蜕变,完成从 “卖铲人” 到 “修路者” 的角色转变。

近期,英伟达首度推出 NVLink Fusion,正式进军 ASIC 市场,与 UALink 联盟展开正面竞争。英伟达执行长黄仁勋表示,目前 90% 的 ASIC 专案都将失败,并强调英伟达的 ASIC 产品会比其他竞争者成长更快。然而,英伟达开放 NVLink Fusion 技术授权的背后,也透露出其对技术护城河被打破的担忧。随着越来越多竞争对手的涌现和技术的快速发展,英伟达不得不通过开放技术来巩固自身的市场地位,但这折射出其核心技术正面临着更多的竞争和挑战。

04

华为超节点技术或打破NVLink垄断

尽管英伟达开放了 NVLink 技术授权,但遗憾的是,首批获得授权的 12 家企业中,没有一家来自大陆。在国内,如何发展相关技术成为构建大规模国产 GPU 集群的关键所在。近期,“超节点” 这一概念在 AI 圈迅速走红。超节点(SuperPod)最初由英伟达公司提出,在 AI 发展进程中,随着大模型参数规模不断增长,对 GPU 集群的规模需求也水涨船高,从千卡级逐步发展到万卡级、十万卡级,未来甚至可能迈向更大规模。构建大规模 GPU 集群主要有两种方式:Scale Up 和 Scale Out。Scale Up 即向上扩展,也称为纵向扩展,通过增加单节点的资源数量来提升算力;Scale Out 则是向外扩展,又称横向扩展,通过增加节点的数量来实现规模增长。例如,在每台服务器中增加几块 GPU,这就是 Scale Up,此时一台服务器可视为一个节点;而通过网络将多台电脑(节点)连接起来,则属于 Scale Out。

近期,华为高调发布了 AI 领域的重磅技术 ——CloudMatrix 384 超节点。该超节点以 384 张昇腾算力卡组成,在目前已商用的超节点中单体规模最大,可提供高达 300 PFLOPs 的密集 BF16 算力,接近英伟达 GB200 NVL72 系统算力的两倍。华为 CloudMatrix 384 超节点通过超高带宽 Scale - Up 新型高速总线网络,实现了从 “传统以太网” 向 “共享总线网络” 的重大演进,将资源互联带宽提升了 10 倍以上,在关键特性上超越了英伟达 NVL72 超节点。

这种集群计算技术有效地弥补了国产芯片在先进制程和算力上的不足。华为华为首席执行官任正非在采访中也表示,“单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”任正非补充说,“中国在中低端芯片上是可以有机会的,中国数十、上百家芯片公司都很努力。特别是化合物半导体机会更大。硅基芯片,我们用数学补物理、非摩尔补摩尔,利用集群计算的原理,可以达到满足我们现在的需求。”他还表示,“芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。软件方面,将来是千百种开源软件满足整个社会需要。”

值得注意的是,英伟达更早就有超节点了,但最多只能做到72块卡。这主要是因为英伟达的卡和卡之间是用铜缆通信,即所谓的NVLink,其可以保证每秒百g级的通信效率,并且不需要经过CPU,这样才能保障多卡之间的训练和推理,会随着卡数的增加而提升吞吐量和效率。但NVLink也有问题,不能超过3米,否则信号会急剧衰减,所以,英伟达的多卡超节点只能放在一个机柜里,最多塞72块,这也是他的上限。

与之相比,华为虽然昇腾单卡性能目前与英伟达仍存在一定差距,但华为作为通讯领域出身的企业,在通信技术方面具有得天独厚的优势,处于行业领先地位。华为另辟蹊径,采用光通信替代铜缆通信,这一创新举措能够在几乎无限长度的传输距离下,保障比 NVLink 更高的带宽。因此,华为的超节点不要求算力卡集中在一个机柜内,甚至可以分布在不同机房。这种优势使得华为能够更大规模地堆叠算力卡,384 超节点的实际算力节点已远超英伟达的 72 超节点,并且未来还有进一步扩展的空间。此外,华为光通信技术在模块化和异构化方面表现出色,不仅支持昇腾卡,还能兼容其他各家的 TPU,形成了一个开放、灵活的生态系统。

05

英伟达也瞄准光通信技术

显然,英伟达也意识到了相关问题,一直以来都在布局研究光通信技术和产品。英伟达正在为当前及下一代光学系统优先采用硅光技术。2025 年 3 月,英伟达宣布推出全球首个采用新型微环调制器的 1.6T CPO 系统,并表示其 Quantum-X 硅光交换机将于 2025 年下半年出货,Spectrum-X 系统也将在 2026 年下半年跟进。

然而,在光通信技术生态建设方面,英伟达面临着诸多挑战。Meta 和微软倡导围绕 CPO 建立新的生态系统,并致力于制定光学引擎制造的行业标准,但初期产品仍将基于专有设计。这对于倾向于自行设计服务器、交换机和所有互连设备的大客户而言,成为了大规模部署的一大障碍。为了加速 CPO 技术的部署,英伟达计划向终端用户提供集成了 CPO 的完整系统,并全面负责系统的运行和维护。如果此类系统能够带来显著的性能提升,客户或许会愿意接受。但从长远来看,完全依赖英伟达的设计并非 Meta、微软等大型云公司可接受的长期战略。要实现 CPO 技术的大规模部署,构建一个全新的、充满竞争的生态系统至关重要。

博通公司也在日前宣布,开始交付 Tomahawk 6 交换机系列芯片,该系列单芯片提供 102.4 Tbps 的交换容量,是目前市场上以太网交换机带宽的两倍。Tomahawk 6 专为下一代可扩展和可扩展 AI 网络而设计,通过支持 100G / 200G SerDes 和共封装光学模块(CPO),提供更高的灵活性。

站务

最近更新的专栏

全部专栏