百度智能云,造出了AI时代的擎天柱
最近,AI领域关于AI Infra,即人工智能基础设施的讨论越来越热烈。DeepSeek V3.1发布后,一则适配下一代国产芯片的官方留言让寒武纪的市值预估全面上调。百度的昆仑芯中标了中国移动集采项目的十亿级订单。从产业界到投资界,可以说全面提升了对AI基础软硬件的整体期待。
这种变化的内在原因是什么?为什么AI Infra开始成为AI产业热切追逐的新关键词?如何才能实现符合产业期待的AI Infra?
想要探讨这个问题时,我想到了一个有趣的名字:《变形金刚》里的擎天柱。1984年,上海电影译制厂在引进这部经典动画片的时候,将其中主角汽车人领袖Optimus Prime的中文译名定为“擎天柱”。相比于港台版的“柯博文”和“无敌铁牛”,取自《淮南子》中共工氏怒触不周山故事的“擎天柱”可谓兼具信达雅。这个名字展现出了主角强悍勇猛的外表与战斗力,同时表达出了其能够支撑一切,坚实可靠的精神内核。
在AI时代,我们总是希望让智能化技术打破天花板,探索到人类此前无法触及的未知领域。但想要实现这个目标,首先需要有坚实的基础设施,能够支撑AI模型触达天际。
8月28日,2025百度云智大会在北京举办。期间全面升级的百舸5.0,或许就是这样一座AI擎天柱。
一般意义上来说,AI Infra指用来部署、运行、管理和优化AI模型的软硬件体系,其中包括我们熟悉的AI算力、AI推理引擎,以及一系列模型开发与调用工具等。AI infra可以说自AI技术诞生之日起就存在,但为什么近期才引发广泛关注?
这其中的核心因素在于,在大模型发展的初始阶段,各界对AI infra需求是只要能够支撑大模型训练推理就可以,关于产业创新力与竞争力的聚焦重点更多集中在模型本身。但随着大模型与各个产业场景的融合,以及模型调用体量的规模化,大家逐渐发现基础设施并不仅仅意味着能训练、能推理,而是可以基于基础设施,为模型创造新价值,强化模型本身的训推效率与用户体验。如果说,过去行业对AI Infra的要求是能够跑起来模型,那现在的目标则转为依靠AI Infra赢得未来。
举个例子,今天我们可以在各个平台应用到DeepSeek,但是不同平台间的体验效果却有着明显的差异。有些平台很容易陷入卡顿,有些平台会有普遍过高的推理时长。稍加比对之后,用户就会自然倾向选择那些更流畅、快捷的平台来使用大模型。这就是AI Infra差异给企业带来的竞争力差距。
而在诸多AI Infra的相关能力中,AI算力毫无疑问是最关键的一种。良好的AI算力供给已经不只是模型推训的基础支撑,更是模型效果与商业前景的决定性因素。
一般来说,算力向的AI Infra平台在三方面决定了模型的上限:带来低延迟、高效率的模型访问体验,让AI推理丝滑流畅;实现强大的模型稳定性,确保服务不中断,不降级;提高资源利用率,让更少的硬件处理更多请求,从而降低整体性AI成本。
所谓AI Infra不牢,大模型地动山摇。AI infra已经不再是千篇一律的共性条件,而是其本身就能成为AI竞争力的核心来源。想要让模型突破想象力的天际,首先需要架起AI infra的擎天柱。
全新升级的百舸,目标就是定义擎天柱一般牢固可靠的基础设施。
AI算力基础设施的效果来自多个层面,比如网络、计算、推理等。而百舸新升级的亮点之处就在于,它不是从某个方面提升AI算力的获取效果,而是带来一场近乎全方位的实力增长。也就是说,百舸正在从全维度上定义什么是AI算力的擎天柱。
百度智能云最新发布的百舸AI计算平台5.0,在网络、计算、推理系统,以及训推⼀体效率上进行了全面升级,实现了强化学习效率领先的跨越式迭代,从而全面打破了AI计算的效率瓶颈。
所谓鼎有三足,三角形具有稳定性。具体来看,百舸5.0的支柱作用,就是由极其稳固的三大支点构筑而成的:
1.网络支柱。
百舸5.0对大模型计算多涉及的VPC、RDMA和X-Link网络都进行了全面升级。其中高速VPC网络可以支持200Gbps(GigaBytes)的巨型帧传输,从而显著提升模型的训推效率。百舸自研HPN网络可以支持单集群10万卡RDMA网络互联,并将端到端延迟压缩至4us。面对超大参数规模的MoE模型,百舸打造了百度自研的X-Link协议,实现了更快速度的专家间通信。从而为MoE模型带来更好的推训效果。
2.计算支柱。
面对超大模型对大规模AI计算集群的必然需求,百舸也进行了超节点的全新探索。最新发布的昆仑芯超节点,采用了深受国家重点行业认可,百度全栈自研的昆仑芯,通过将64张卡组成超节点,昆仑芯超节点实现了单卡性能提升95%,单实例推理能力提升8 倍。而公有云是企业获取大规模AI算力的最佳途径。基于百舸,用户可以轻松在几分钟时间内,利用1个云实例,就允许万亿参数的大模型。基于百度智能云强大的技术能力,昆仑芯超节点在各项能力上都实现了业界最佳,从而让百舸在AI Infra上成为国内天花板级别的存在,真正做到了力可擎天。
3.推理支柱。
伴随着大模型成为越来越多用户的日常刚需,模型推理能力的提升进入了非常关键的攀升阶段。为此,百舸5.0全新升级了推理系统,通过“解耦”“自适应”和“智能调度” 三大核心策略,对AI推理的算力、内存、网络等资源进行极致精细化的管理和优化,从而实现性能的数量级提升,最终实现MoE推理吞吐模型提升超过50%,TTFT低至0.5秒。
回到上文讨论过的DeepSeek推理部署场景,在全新升级的百舸中,DeepSeek R1的推理吞吐可以提升50%,从而让百舸用户可以有效获得远超同类平台的模型体验与资源利用效率。
与此同时,百舸发布的强化学习框架可以实现极致压榨算力资源,提升训练、推理效率的全面迭代。框架不再把训练和推理当作两个独立的流程,而是将其实现像工业流水线一般的高度协同、无缝衔接。这种工作模式可以最大化提升资源利用效率,将成为主流的强化学习模型整体效率提升到行业新高度。目前,其已经支撑了百度在金融、教育、编程、客服等垂直领域的强化学习模型训练,接下来将成为产业各界拥抱强化学习模型的关键契机。
这三大支柱的加持,让百舸5.0能够将⼤模型的计算效率提升至极致。也只有如此,模型才能进一步打破极限,自由探索广阔无际的智能奥义。
想让模型捅破天,就要让AI Infra变成擎天柱——这就是百舸5.0的定义的基础设施强度。
《变形金刚》里,擎天柱最常说的一句台词是“汽车人,变形出发”。在现实世界,百舸5.0的台词则应该是:企业智能化,基于AI Infra变形出发。
我们可以通过两个故事,来看看那些最受关注的行业和领域,如何通过百舸打破产业局限,实现将基础设施化为AI生产力的目标。
故事一,“机器人变形”。
具身智能是目前国内炙手可热的科技发展与创业、投资风口。而百度智能云则已经支持了包括北京、上海、浙江、广东创新中⼼在内的具身智能“国家队”,也在为产业链上超过20家重点企业提供算力支持。
百度智能云之所以能够获得青睐,是因为具身智能处在行业发展初期,急需要强大的算力支撑,并且尽可能提高模型的开发效率。百舸在算力高效调度、模型训推加速等方面的产品技术积累,可以大幅提升了具身智能模型的开发效率。在具身智能的高速发展阶段,百舸提供了极其关键的效率与资源利用率支持,让机器人更好、更快地向着实用化、可落地的方向“变形”。
故事二,“创作者出发”。
Vast是一家专注于通用模型研发的AI公司,致力于通过打造大众级3D内容创作工具建立3D UGC内容平台。主要产品是面向游戏、CG影视、动画、建筑室内、XR/VR、数字孪生等行业提供的3D大模型。借助Vast方案,用户仅需上传图片1分钟内便可生成空间3D资产,是这一领域冉冉升起的新星企业。
在业务发展过程中,Vast发现需要面临冗长的模型训练周期与高昂的算力成本,并且从数据筹备到模型训推,每一步都必须精准无误,对团队技术能力考验极高。通过使用百舸平台,Vast获得了专为大模型打造的高性能云原生AI计算支持。其中包含全面的集群运维支持和任务全生命周期管理,同时具备训练/推理加速、故障容错、智能故障诊断等高级功能。通过强大的AI基础设施与成熟的AI工程化能力,百舸有效降低了Vast的大模型训练时间,节约了资源成本,并且极大降低了模型训推的综合门槛。最终实现了Vast可以更快、更好地开发出新一代3D大模型,最终让设计师与内容创作者获得高效探索AI可能性的方案。
百舸对智能化业务的深度理解和有效支撑,深深根植于百度智能云在AI云领域的积累。根据8月18日IDC发布的《中国AI公有云服务市场份额,2024:全面向生成式AI演进》显示,2024年中国AI公有云服务市场规模达195.9亿元,百度智能云以24.6%的市场份额稳居第一,连续六年、累计十次蝉联中国AI公有云市场冠军,充分体现了百度智能云率先提出“云智一体”战略的前瞻性与落地成果。深度理解AI业务,并能提供强有力的AI算力支撑,事实上在公有云市场当中是一种十分稀缺的能力。而这也在成为百度智能云坚固的护城河。
在百度智能云的体系中扮演算力底座的百舸,正在加速成长和壮大。从以上这些故事中不难看出,百舸5.0作为擎天柱,托举着企业打破AI时代的天花板。在降低训练时长、节约资源开支、提升模型体验、降低模型开发难度等方面实现了全方位的AI infra升级。
在它的帮助下,企业可以更简单快捷地出发,去探索,去创造,去将未知收入囊中。AI在这个时代的探索高度,不妨就从百舸定义的AI infra强度开始。