AI云的新分野:芯在,云在

500

2025上半年,中国大模型中标项目数达1810个,金额破64亿元。这一数字不仅超越2024全年总量,更意味着真金白银正加速流向金融、能源、政务、制造等核心产业。AI已经成为生产系统里不能停的齿轮。

需求变了,标准也硬了。今年,浙江政务云招标明确要求“7×24小时安全运营服务”,招商银行强调云平台可用性需达99.999%。客户要的,早不是租几张GPU卡,而是一个可信赖、可持续交付的AI算力系统。

IDC数据显示,2024年中国AI公有云服务市场规模同比增长55.3%,但驱动力从“训推双轮”转向了推理需求激增。当AI成为生产要素,衡量一朵云的标准,不再是峰值算力,而是能否让AI在复杂环境中持续稳跑。

做成这件事,离不开两个底层支点:

一是自研AI芯片,二是芯片与系统的深度协同能力。

01

AI云的底层,早已不是“租卡生意”

很多人以为,云厂商买来GPU装进机柜,就能对外提供AI算力服务。

这是典型的“租卡思维”,把AI云当成硬件租赁生意。但现实早已超越这种简单模式。仅靠从英伟达采购GPU,插进服务器,打上“AI云”标签对外出租,这条路早就走不通了。

第一,成本不可持续。一块Blackwell B200售价3–4万美元,H100也要2万美元。在超大规模AI集群中,GPU成本占总投资近一半。据英伟达最新的财报,云厂商已贡献其数据中心收入的50%。也就是说,也就是全球头部云服务商正把大笔AI开支押注在同一家供应商身上。

第二,有钱也未必买得到。美国出口限制之下,国内厂商举步维艰;而海外云厂同样受限于台积电CoWoS封装产能紧张。

前两天的台积电运动会上,黄仁勋直接喊话“没有台积电就没有英伟达!”这实际上,就是为了抢台积电的产能。更微妙的是,英伟达自己也下场做云了——DGX Cloud Lepton平台已能直接向开发者出租GPU,模式与AWS无异。

第三,客户需要的不只是算力,而是高效的AI能力。大模型训练不是“插卡即用”的简单任务,而是需要万卡协同、低延迟互联、高利用率调度的复杂工程。

如果云厂商只是“采购+集成”,无法从底层干预芯片架构、通信协议、编译器优化,那么再大的集群也只是“纸面算力”。

为什么芯片对云厂商如此重要?

因为作为AI云“心脏”,芯片直接决定了算力供给的质量与成本。这也解释了,为什么顶级的云厂商都在自研芯片。通用GPU无法支撑AI时代的长期算力需求,专用化、定制化、垂直整合是必然方向。

02

云的未来,路径选择

500

今年以来,各大云厂商对于未来AI云的路径,越来越明确了。我们从这些云厂商的芯片布局作为切入,一起来看一下到目前为止顶级云厂商的破局路径都是如何的。

先说AWS。作为全球云计算的老大哥(2025年Q3占比32%),AWS自研芯片的布局堪称最完整Graviton(通用计算)、Trainium(训练)、Inferentia(推理)。尤其是Graviton系列,已在去年贡献AWS全球超一半新增CPU算力,能效较传统平台提升逾40%,显著降低了单位算力成本。

Trainium的表现同样亮眼,在今年Q3的业绩会上,AWS表示自研AI芯片Trainium2已发展为几十亿美元业务,相较于其他GPU选项具备30%~40%的价格性能优势。今年年底Trainium v2液冷版本机柜上线,2026年Trainium v3量产,也预示着其AI基础设施正加速迭代。但问题在于:技术领先并未转化为AI市场胜势。2025年Q3 AWS云业务增速20%,远低于Azure(40%)与谷歌Cloud(34%),AI收入占比仅18%。

目前,AWS采取了双线并进的“对冲战略”。其一,按照传统云厂商的路径,拿下高端客户。前两天,AWS拿下了OpenAI价值380亿美元的七年期协议,OpenAI获得数十万颗B200 GPU的调度能力。尽管OpenAI也与微软、谷歌、甲骨文签约,走向多元供给,但AWS借此实现了高端AI客户的“破冰式接入”。其二,靠自研芯片闭环,绑定核心伙伴。AWS试图复制“OpenAI+微软”模式,押注Anthropic,但是细微差别在于,除了注资以外,亚马逊坚持要Anthropic把训练和部署模型,从英伟达GPU转到AWS上。亚马逊创始人贝佐斯在内部信中称:“双押注既能分散风险,又能对比优化基础设施。”

加上AWS重点推出bedrock,去做大模型的聚合。AWS真正的目标,从来不是成为最好的模型公司,而是让所有AI都依赖它的算力底座。在笔者看来,AWS有点“不争模型之名,只夺算力之权”的意思。

再来看老二,微软云。今年是微软Azure AI战略的转折之年,曾经牢不可破的“模型+云”黄金组合正在松动。我们可以通过三件标志性事件,看清其走向。第一,OpenAI明确转向多云部署。继与AWS、谷歌云、甲骨文接连签署大规模算力协议后,OpenAI CEO山姆・奥特曼公开表示:“2023年GPT-4训练延迟的教训必须吸取,多元供给让我们能抵御单一厂商产能波动。”这话已经是微软算力供给能力的公开质疑。第二,微软自研芯片进程不及预期。原计划2025年形成规模交付的Maia v2,推迟至2026上半年启动,Maia v3因为设计调整延后量产时间。短期内自研芯片出货量极为有限,这意味着,在未来两年内,Azure无法摆脱对NVIDIA GPU的绝对依赖。第三,表面利好背后的被动现实。实际上,今年微软也和Lambda达成数十亿美元AI基础设施协议,不过协议里表示,Lambda将利用微软Azure云平台,部署由英伟达提供的AI基础设施,用于支持其大规模模型的训练与推理任务。

可以说,现在的微软很尴尬。它拥有最强的AI入口,却没有最稳的算力根基。过去靠“抱紧OpenAI”,现在不得不面对“OpenAI不再只抱它”。如果未来还没有有力的芯片支撑,微软会从AI生态定义者滑向算力服务竞争者。

谷歌云之前比较低调,但现在全栈自研战略一发力,惊艳所有人。还是先看芯片,今年谷歌发布的自研芯片TPU v7(Ironwood)整体性能已经十分接近英伟达B200。更加重要的一点:谷歌开始对外销售TPU了。这背后两个潜台词:一是产能自信,二是性能达标。今年Anthropic和谷歌云合作,未来数年将获得高达100万个TPU芯片的专属使用权,计算容量超过1吉瓦,价值数百亿美元。

如今,谷歌已经实现了从底层芯片、编译器、模型架构到终端应用,所有环节都在同一个技术体系内协同进化:底层有TPU v7芯片;中间有TensorFlow编译栈;上层有Gemini系列模型;外围还有Chrome、Gmail、Maps、YouTube等亿级用户级应用构成的神经末梢网络。这套完整且自洽的技术闭环,让谷歌云真正呈现出厚积薄发之势。

全栈AI能力带给谷歌云的是优秀的业绩,今年Q3谷歌云部门营收同比增长34%,收入积压同比增长79%至1550亿美元,运营利润率达到23%。管理层透露,今年前三季度签署的10亿美元以上大额订单数量已超过过去两年的总和,显示出企业AI需求的强劲增长。

03

谁才是云的真强者?

总有人觉得,云厂商搞出自研芯片,就算是“有实力”了。但事实是,单一芯片的突破,顶多算“单点强势”,远算不上真正的行业壁垒。对于云厂商来说,真正的是实力,是具备:从芯片设计→软件栈适配→大规模集群部署→实际业务负载承载→商业化服务输出的端到端自主交付能力。它考验的不是单项突破,而是一个系统工程。放眼全球,真正走通这一路径的,目前仍属少数,我们前文分析的国际厂商Google是典型代表。

而在中国,具备类似潜力的厂商,细数下来,也只有两家:阿里云与百度智能云

500

IDC发布的最新报告里,2024年中国AI公有云服务市场规模达195.9亿元,其中百度智能云和阿里云并列第一。而且从公布的市场份额图来看,仅仅百度和阿里两家厂商就接近占据整个市场一半的市场份额。

阿里依托“倚天+含光+灵骏平台”,构建了“一云多芯”体系,坚持全栈自研路线,在政务、金融等信创场景中已完成大规模推理落地。它的选择很明确:以全栈协同换效率,以自主核心换可控。

而百度,正在走出另一条路。在今年的百度世界大会上,百度创始人李彦宏谈到AI行业需要“倒金字塔”,他表示:“‘倒金字塔’的AI产业结构中,芯片厂商不管赚多少钱,芯片之上的模型要产生10倍的价值,基于模型开发出来的应用要创造100倍的价值。这才是健康的产业生态。”

这里笔者想重点谈谈,百度智能云今年展现出来的独特性。

我们还是先从芯片入手。在百度世界大会2025上,百度发布了新一代芯片。同时发布的还有“天池256”“天池512”超节点方案,最高支持512张卡互联,单个512超节点即可完成万亿参数模型训练。

500500

百度集团执行副总裁沈抖在现场表示:“发布新款芯片和超节点产品,就是希望为企业提供强大、低成本AI算力。”更关键的是,沈抖透露:除了支持绝大多数的大模型推理任务外,并基于五千卡单一集群“高性价比地训练出一款多模态模型”。这就能充分说明,昆仑芯不只是试验品,而是已经成为百度自身AI系统的主力算力底座。

在应用上,昆仑芯更成规模和体系。今年上半年,基于P800的三万卡集群成功点亮,与此同时,昆仑芯的应用早已走出百度内部,在互联网金融、能源、制造、交通和教育等行业落地。

回看百度的造芯之路,其布局早有章法。早在2011年,百度就启动AI加速器立项;2017年发布昆仑芯XPU架构;2018年正式开启AI芯片产品化设计。当大多数云厂商还在抢购GPU时,百度已经在搜索、推荐等核心业务场景中落地自研芯片。以实际场景为出发点,以产业应用为落脚点,从而规避了脱离市场的盲目造芯风险。

具体到模型支撑场景,百度智能云AI计算首席科学家王雁鹏介绍,昆仑芯已在大规模实践中,成功支撑Qianfan 70B VL、Qianfan 30B-A3B-VL、百度蒸汽机等多个复杂模型的训练与推理,无论是多模态模型还是 MoE 结构,都积累了成熟的落地案例。

真正让这些硬件潜力充分释放的,是百舸AI计算平台5.0。

它不像传统资源池那样只做调度,而是深入到底层网络、内存管理、通信协议中去重构效率。比如,自研HPN网络支持10万卡RDMA互联,端到端延迟压缩至4μs;针对MoE模型打造X-Link协议,显著提升专家间通信效率。最值得称道的一点还是:百舸兼容CUDA生态。企业无需重写代码,就能将现有模型迁移到昆仑芯集群上,实测训练效率提升显著。

如果说芯片和平台是基础,那么真正让百度脱颖而出的,是它正在构建的“算力—框架—模型—应用”四层闭环。从昆仑芯的自研芯片,到飞桨深度学习框架、文心大模型,再到千帆平台与应用生态。

在国内云厂商中,百度是唯一同时拥有这四个环节自研能力的企业

500

这一闭环的价值,已在多个客户案例中显现:南方电网深圳供电局借助百度Agent技术,实现配电网监视、操作票审核等核心场景智能化。

北京人形机器人创新中心最新发布的具身多模态大模型 Pelican-VL 1.0,采用百舸作为底层支撑,大幅提升数据采集与训练效率。北京人形机器人创新中心大模型负责人鞠笑竹分享到:“正因为百度智能云的配合攻坚,我们至今还是比GPT-5的平均点数要高。”

正如李彦宏所说:“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”现在,拼卡数的游戏结束了,拼底座的时代开始了。

在中国,阿里与百度正以不同的方式逼近同一个答案:真正的AI云,必须拥有从芯片到应用的全栈控制力。于是,一个新的分野正在形成。未来的AI云,只有两种:一种是有自研芯片+深度协同能力的,一种是没有的。但这不仅仅是技术路线的选择,更是战略耐心的较量。

站务

全部专栏