智驾大模型的「隐形战场」:当GPU堆不动了,行业拼什么?

作者 | 本一

编辑 | 德新

500

算力之外的效率突围

过去两年,随着大模型的发展,智驾行业行业似乎进入一场“军备竞赛”。从大规模装车量产,采集数据喂养模型迭代,“算力”成为一段时间内主机厂们关注的焦点,行业甚至有「千卡是门槛,万卡是入场券」的说法。

从 BEV+Transformer 到端到端,再到如今大热的 VLA(视觉-语言-动作)模型,参数量指数级膨胀,让整个行业陷入了一种“囤卡狂热”。

仿佛只要堆砌了足够的 H100 或 H800,L3 甚至 L4 级别的自动驾驶能力就会在 Scaling Law 的魔法下,自动涌现。

在前不久的 2025 龙蜥操作系统大会(OAC)自动驾驶分论坛上,我们听到了一些冷静得近乎“泼冷水”的声音。 

主持人在圆桌讨论的时候提到一个很有意思的事情: 

之前微软 CEO 萨提亚·纳德拉在接受采访的时候就感慨过,即便拥有大量的 GPU,也面临着缺乏足够的物理基础设施(如机柜与电力环境)来安置它们的尴尬境地。

这也折射出了智驾行业一个被长期掩盖的痛点:单纯依靠堆砌 GPU,想“大力出奇迹”的模式,正在撞上一堵「物理现实与经济成本」的墙。

当行业的焦点都集中在英伟达、华为昇腾这些台前的“算力卡”上时,一场关于操作系统、基础软件与异构计算的“隐形战争”早已在水面下打响。

阿里云副总裁李俊平在开场致辞中提出了一个公式:AI 的效能 = 数据(燃料)× 模型(引擎)× 软件(油门和方向盘)

今天的智驾竞争,正在从单一的模型之争,演变为这三者乘积效应的系统工程对抗。

500

图片来源:龙蜥社区(OpenAnolis)

500

这届智驾,被“数据搬运”卡脖子

“谈卡伤感情,没卡没感情。”这是前两年智驾圈的真实写照。但到了 2025 年,很多车企发现,即便斥巨资买来了卡,训练效率却并没有线性增长。

问题出在哪?GPU 在“偷懒”。

这其实不是什么硬件故障,而是数据“喂”得不够快。

智驾研发并非只有模型训练这一个环节,它是一个包含数据采集、清洗、标注、挖掘、训练、仿真到端侧部署的一条长长的数据闭环。

500

图片来源:龙蜥社区(OpenAnolis)

阿里云智能集团高级架构师张先国分享了一组数据:智驾研发团队,云端存储的数据总量通常已达到 400PB 到 800PB,日增量在 1PB 以上。一个智驾企业同时进行多个模型训练,消耗的算力经常需要万卡以上。

想象一下,GPU 就像是一台拥有 F1 引擎的赛车,但如果给它输油的管子(I/O带宽)只有吸管那么细,引擎空转就在所难免。

500

图片来源:龙蜥社区(OpenAnolis)

在龙蜥大会的现场,多位专家指出了“数据闭环”中存在的隐形关卡: 

一个是数据加载的问题。训练开始前,海量的小文件(图片、标注信息)需要从存储层搬运到计算层。另一个是预处理可能遭受的瓶颈:视频需要抽帧、解码、清洗,训练集群就在那里,但数据卡在缓存层过不来,GPU 只能闲置等待。

500

图片来源:龙蜥社区(OpenAnolis)

阿里云产品专家钱君在演讲中提到,为了解决这个问题,行业正在把目光投向存储与操作系统的底层优化。

例如,龙蜥操作系统(OpenAnolis)给出的方案是全链路的“疏通”:针对 CPFS(并行文件系统),龙蜥在 OS 层面进行了深度适配。缓存写场景下的性能可以直接提升 10 倍。这意味着模型训练中的 Checkpoint 保存时间大幅缩短:以前需要几小时,现在几十分钟就能搞定。 

这种“看不见”的基础设施优化,虽然没有新开发一个大模型那么性感,但它决定了生产智能的效率和成本,是让万卡集群真正跑满的关键。

500

图片来源:龙蜥社区(OpenAnolis)

500

CPU :被忽视的“异构协同”

在智驾的模型训练中,公众通常认为关键的算力在于 GPU;但在本届大会上,“CPU的挖掘”成为当下的新共识

“不能只关注 GPU,CPU 在数据预处理、存储 I/O 及逻辑控制中扮演着关键角色。” 中兴通讯操作系统产品副总经理胡冲在圆桌讨论中直言。

事实上,在视频转图片(抽帧)、数据清洗、以及 Spark 大数据分析环节,CPU 才是主力军。而且,随着架构的演进,Arm 架构的服务器 CPU(例如如阿里云倚天 710 )正在展现出独特的优势。

安谋科技(Arm China)云人工智能事业部总监侯科鑫女士,在演讲中向现场观众展示了数据中心架构的演进逻辑:随着 NVIDIA  Grace Hopper 异构加速平台的推出,CPU 与 GPU 的“紧密协同处理”已成为行业明确的发展方向。

500

图片来源:龙蜥社区(OpenAnolis)

为什么要协同?是为了打破“内存墙”。

“视频处理并不是简单的计算,它对高负载下算力要求极高。”张先国指出。

智驾训练需要把每秒视频抽帧为 8-32 张图片,在视频解码计算(如 H.264/H.265 格式)的高并发场景下,传统的 x86 架构,由于睿频(超线程)机制和功耗墙的存在,在高负载下往往会降频。

而张先国分享的实测数据显示,Arm 架构处理器凭借更多的物理核和大缓存(L1/L2 Cache),在智驾数据处理场景下表现惊人: 

首先是视频抽帧,性能比传统 x86 提升约 20%,成本却降低了 20%-30%; 

大数据清洗方面,由于拥有更大的 Cache(缓存),数据 Miss 率极低,这意味着 CPU 不需要频繁地去内存“搬砖”,从而使端到端性能提升了 30%,在部分场景下甚至实现了翻倍。

500

图片来源:龙蜥社区(OpenAnolis)

一个高效的智驾云端底座,必须是 CPU 与 GPU “各司其职、紧密抱团”的异构系统。

侯科鑫还从更宏观的维度讲述了硬件底座的变迁。她指出,为了打破“内存墙”和功耗瓶颈,数据中心正在从通用服务器向“定制化 SoC + Chiplet”演进。

NVIDIA 的 Grace Hopper 平台就是典型案例——通过将 Arm 架构 CPU 与 Hopper  GPU 紧密互联,实现内存共享,极大降低了数据搬运的延迟。这种 CPU 与 GPU 紧密协作的架构,正是为了解决单一算力无法应对复杂数据流的困境。Arm 推出的 Total Design 生态和 Neoverse CSS,正是以推动异构计算规模化落地为核心目标,让芯片设计公司能节省大量工程投入,快速构建这种异构计算的「高速公路」。

500

图片来源:NVIDIA

500

基础软件的魔法:不堆卡也能让训练变得更快

摩尔定律在放缓,硬件的红利正在吃紧。这时候,软件工程的价值就被进一步放大了。

阿里云智能集团编译器技术总监李三红在圆桌环节提到了一个非常典型的矛盾:模型开发者的“爽”和底层工程师的“痛”。

算法工程师喜欢用 PyTorch 的 Eager 模式,因为这样写代码像写 Python 一样灵活,所见即所得;但这种模式对底层硬件极其不友好,运行效率低。而底层工程师希望用 Compile 模式,把代码编译成极致优化的机器码,但这又要求上层改代码,门槛极高。

“上层的模型开发者追求开发效率(Eager Mode),底层的 Infra 追求成本和性能,这中间的 Gap(鸿沟),就是基础软件的机会。” 阿里云智能集团编译器技术总监李三红在圆桌讨论中一针见血地指出。

针对如何填补这一鸿沟的问题,阿里云智能集团产品专家钱君与高级架构师张先国在随后的演讲中展示了龙蜥操作系统(OpenAnolis)如何通过全链路优化,在不改变硬件的情况下“白捡”性能: 

存储加速(IO 吞吐): 针对 CPFS(并行文件系统),系统在 OS 层面进行了深度适配。钱君披露的数据显示,在缓存写场景下,性能提升了惊人的 10 倍。这意味着模型训练中的 Checkpoint 保存时间大幅缩短,断点续训不再是噩梦。

网络加速(打破 TCP 限制): 张先国指出,通过部署自研的 eRDMA 协议,相比传统 TCP,延迟降低 3 倍,带宽提升 4 倍(实测可达 18GB/s)。这让数据在节点间的跳跃如同在本地总线般顺滑。

编译器优化(榨干每一滴算力): 针对 PyTorch 等框架的运行效率痛点,利用 AI Compiler 进行算子融合。据钱君介绍,这套方案在部分通用模型上带来了接近 100% 的性能提升,有效地解决了开发灵活性与运行效率不可兼得的难题。

500

图片来源:龙蜥社区(OpenAnolis)

效果有多明显? 

地平线和小鹏汽车的案例显示,通过这一套“操作系统+编译器+调度”的组合拳,部分场景下的性能提升可达 30% 甚至 100%,而成本却能下降 20%-60%。

在「降本增效」成为汽车产业主旋律的 2025 年,这种来自基础软件的“软实力”,比盲目堆更多的卡,更有性价比。

500

眺望未来:世界模型与“合成数据”

如果说当下智驾行业发展的痛点是“效率”,那么未来的挑战可能会是“认知”。

清华大学人工智能研究院视觉智能研究中心主任邓志东教授在圆桌论坛上抛出了一个前瞻性观点:智驾模型正在从单纯的感知,向世界模型(World Model)演进。

500

图片来源:CVPR 2024 Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

目前的端到端大模型,虽然能处理很多场景,但面对极端的 Corner Case(长尾场景),靠实车采集的数据永远是不够的。

500

图片来源:NVIDIA

“路是跑不完的,但世界是可以被模拟的。”

但这种演进这种演进对基础设施提出了更苛刻的要求: 

算力需求的指数级爆炸: 世界模型极重,不仅需要理解物理世界,还要生成虚拟物理世界。这可能需要数百亿甚至更高的算力支撑,甚至触及到供电能力的边界。

合成数据的崛起: 真实路采数据的效率太低且稀缺。未来,大量的训练数据将来自“虚拟物理世界”的高效生成。这对GPU 的渲染能力和 CPU 的逻辑模拟能力提出了双重挑战。

软件定义的灵活性:正如中兴操作系统产品线副总经理胡冲在圆桌中所感慨的,算法迭代极快——“去年可能还是 BEV,今年就是 VLA 了”。而阿里云李三红也证实,一线技术团队确实清晰感知到了模型向 VLA 及世界模型演进的趋势。这种软件层面的极速狂奔,与硬件芯片较长的迭代周期形成了鲜明对比。这就要求编译器和操作系统必须具备极强的适应性,通过软件定义来抹平硬件迭代的时间差。AI 不仅要“看懂”视频,还要能“生成”视频,甚至要理解牛顿定律。 

邓教授指出,这需要底层算力支持极其复杂的“虚实迁移”。这意味着,未来的操作系统不仅要调度计算,还要调度“物理世界的规则”。

这也解释了为什么像龙蜥(OpenAnolis)这样的开源社区,开始在这个阶段强调“ AI 原生操作系统”的概念——因为旧的底座,真的撑不住新的世界了。

500

图片来源:龙蜥社区(OpenAnolis)

500

开源底座的长期主义

从 2025 龙蜥操作系统大会的这场自动驾驶分论坛中,我们看到了汽车科技行业的一个明显转折:

大家不再盲目迷信硬件的堆砌,开始回归计算机科学的常识——系统协同。

面对 Arm、x86、RISC-V 等复杂的芯片架构,面对日新月异的模型算法,车企和智驾公司不可能每一家都去从零手搓一套底层软件。

而龙蜥社区的存在,就是为了提供一个标准化的技术底座,屏蔽底层异构硬件(不同架构的 CPU、GPU、NPU)的差异,让车企和智驾公司能够专注于上层模型和算法的创新。正如 Arm 通过 Arm Total Design 联合产业链一样,软件层面也需要这样一个“连接器”来降低全行业的试错成本。

正如胡冲所言:“通过社区共建、共享,降低车企的研发门槛与成本,是解决算力荒的另一种路径。”

在算力资源有限、成本高企、模型日趋复杂的背景下,谁能更高效地榨干每一 Tops 算力的价值,谁能以更低的成本完成数据的闭环流转,谁就能在 L3+ 的量产前夜活下来。

数据是资产,模型是能力,而软件与操作系统,是这一切的根基。

自动驾驶的下半场,不再是单点技术的突破,而是“数据-模型-软件”全链路的生态战争。在这个战场上,那个由 CPU、操作系统、编译器、文件系统构成的庞大“新基座”,正在成为决定胜负的隐形力量。

对中国的自动驾驶产业而言,建立一个自主、可控、高效的基础软件生态,其战略意义或许丝毫不亚于拥有几万张显卡。

因为只有根扎得够深,智能的树才能长得够高够稳。

500

站务

全部专栏