中国大模型,调用量登顶

500

文/熊逾格

编辑/子夜

没有预热,没有倒计时海报,杨植麟首次亲自出镜。

1月27日下午,Kimi更新了自家最新的开源模型Kimi K2.5,视频里他语速不快,“我们重构了强化学习的基建,并专门优化了训练算法,以确保它能达到极致的效率和性能。”

上线第三天,K2.5登上了LMArena代码能力榜单全球开源第一,视觉能力榜单全球开源第一。而在Artificial Analysis榜单上,它在综合排名中位列第5,在所有开源模型中领跑。

最近爆火出圈的AI智能体OpenClaw也很快宣布,为用户开放Kimi K2.5的免费额度,Kimi K2.5成为首个被OpenClaw官方推荐的主力模型。2月4日至今,在OpenRouter排行中,Kimi K2.5一直位居OpenClaw调用量的榜首,超过Gemini 3 Flash、Claude Sonnet 4.5。

硅谷顶级播客All-In Podcast用大量时间讨论了Kimi K2.5上线这件事。常驻嘉宾、Social Capital创始人Chamath Palihapitiya给出了一个判断:

这是开源模型第一次在综合能力层面真正撼动由OpenAI、Anthropic、Google构建的闭源体系。他把这个时刻称为“Kimi K2.5时刻”。

而据公开报道,受K2.5上线带动,Kimi海外收入已超过国内,全球付费用户4倍增长。

1、为什么更强?

作为曾参与白宫科技圆桌、多次采访美国总统的硅谷意见领袖,Chamath的判断往往被视为资本、政策与产业交汇处的风向标。

500

Social Capital创始人Chamath Palihapitiya讨论Kimi K2.5,图源Youtube

针对自己提出的“Kimi K2.5时刻”,他特别指出,这是因为K2.5及其Agent Swarm技术,让原本只存在于超大规模闭源系统中的高阶推理能力,开始向更广泛的开发者释放。

如何理解Kimi K2.5对于整个大模型赛道的意义?

首先是性能的提升。

在LMArena榜单上,K2.5拿到了全球开源模型代码能力、视觉能力第一,视觉能力上仅次于Gemini和GPT系列模型,代码能力仅次于Claude和Gemini。

500

LMArena榜单全球大模型代码能力榜单,图源LMArena网站

其次是压缩到极致的成本。

“创业第一天起我们就知道,我们没有随意堆砌算力的条件”,2026年1月的达沃斯论坛上,Kimi总裁张予彤曾透露,Kimi大概只用了美国顶尖实验室1%的资源,就做出了性能相当的模型。K2.5的API定价只有Claude的五分之一,而在跑分上两者几乎持平。

当开源、低成本、出色表现结合,Kimi K2.5为开发者带来的是极高的性价比以及充足的自由。

正如Chamath在节目中总结的,不同于以往“性能略逊、但胜在便宜或可控”的开源模型,Kimi K2.5 同时提供了顶级性能与完全透明——模型权重可审计、代码可修改、数据与基础设施掌握在用户手中。

在关乎生产力的平台上,Kimi K2.5的影响已经如涟漪散开。

发布三天,K2.5便在海外知名编程工具Kilo Code,全球最大的众包AI设计平台Design Arena都拿到了调用量全球第一的成绩。截止发稿,Kimi在知名大模型聚合平台OpenRouter上的多个榜单登顶。

500

K2.5登顶OpenRouter大模型编程类调用量排行榜,图源OpenRouter网站

除去模型本身的能力,K2.5大热的另一个原因,还有其独特的Agent技术。在Agent叙事爆发的背景下,K2.5不追赶热度,专注于革新Agent形态,其实相当难得。

与Cowork、OpenClaw的单Agent任务执行不同,K2.5首次引入“Agent Swarm”。面对复杂任务,模型不再单打独斗,而是自主调度多达100个分身并行处理1500个步骤。

500

K2.5的Agent集群能力,图源月之暗面Kimi视频号

据Kimi官方介绍,通过并行智能体强化学习(PARL),Agent集群将达成目标性能所需的关键步骤减少3到4.5倍,实际运行时间最高可缩短4.5倍。

此外,K2.5还从底层升级了多模态能力。过去,大多数AI模型处理图片的方式其实是拼装,文本理解用一个模型,图像识别用另一个模型,中间再加一层翻译对接,总会有信息在传递中损耗。

多项技术升级为K2.5带来的,或许可以称作大模型的“审美”。

月之暗面创始人杨植麟曾在AGI-Next前沿峰会上表示,做模型的过程本质上是在创造一种世界观,让AI有更好的taste。

500

K2.5根据视频直接生成网页,图源Kimi智能助手微信公众号

如今,在Agent集群、原生多模态能力的加持下,K2.5不仅能写代码,还能让写出来的东西具备“审美”。例如,用户传一张截图、一段录屏,K2.5就能理解交互逻辑并输出“带有设计审美”的代码,提供与其他大模型截然不同的体验。

2、为什么是这条路?

2025年初,DeepSeek-R1横空出世。低成本、开源、性能强悍,三个词砸下来,整个大模型行业玩家都在重新审视自家路线。

在浪潮之中,大模型公司也在浮沉,唯有快速决策,并坚定路线的玩家得以生存,并逐渐壮大。

2025年底,杨植麟在内部信中披露,月之暗面当前现金持有量超过100亿元,弹药依然充足。

此外,2025年7月的K2系列模型,使得Kimi在9-11月海外和国内付费用户数平均月环比增长超过170%,海外API收入增长4倍。

再到如今,K2.5发布后,Kimi海外收入已超过国内,全球付费用户4倍增长。

回顾这一年,Kimi的两个决策非常重要:

第一,是商业路径的重新校准。

Deepseek冲击后,Kimi内部快速做了一项决定:放弃流量战争,聚焦技术与生产力。

据彼时的媒体报道,月之暗面大幅收缩投放预算,暂停安卓渠道和第三方广告合作。杨植麟把“持续拿到SOTA结果”定为最重要的工作目标。

这是一条更难但更有价值的路,也这意味着,Kimi主动将自身评价体系与APP月活“解绑”。

随后,Kimi的选择浮出水面:“更强推理、更稳定输出”的生产力工具路线,从“投流换用户”转向“技术换专业用户”。

作为“生产力AI”,Kimi使用场景是“低频、高深度”的生产场景,网页端成为比APP端更重要的战场。相比APP,Researcher、Agent、PPT、Kimi Code等功能都更适用于网页端。

500

K2.5 Agent针对office场景优化,图源Kimi智能助手微信公众号

潜移默化中,Kimi的核心用户画像发生了改变,如今聚集在Web端的,显然是更需要生产力工具的专业人士。

第二,是对基座路线的坚持。

杨植麟在2025年底的内部信中写得很明确,“产品和商业化上聚焦agent,不以绝对用户数量为目标,持续追求智能上限。”

据晚点LatePost报道,DeepSeek出来之后,百川转向医疗,零一万物转向ToB,不少大模型玩家纷纷收缩战线。但月之暗面是少数仍坚持“基座模型+Agent”路径的公司。

坚持做基座意味着持续投入,但Kimi专注地走好了已经决定的路线:从K2到K2.5,技术翻盘的迹象已经显现。

回过头看,过去一年Kimi的缓投放、守基座、押Agent,都在为K2.5这张牌积攒势能。

3、还有哪些想象空间?

2026年初,Kimi面对的竞争格局比任何时候都更复杂。

特别在今天,GPT-5.3-Codex和Claude 4.6同时炸场,又把代码能力提到了新的高度。

一方面,K2.5发布后,Kimi的产品矩阵进一步丰富。

K2.5仍然聚焦Coding+Agent两大高频场景,同步发布了Kimi Code编程工具,可集成VSCode、Cursor等IDE;并将Agent能力扩展到Office领域,掌握Word、Excel、PPT、PDF的高阶技能,这和今早Claude呈现出的路线很像。

另一方面,还是中国模型的性价比,当性能接近而价格只有几分之一时,Kimi海外付费用户的增长迅速就是直观的证明。

在2025年底的内部信中,杨植麟写了一段话:“2026年Kimi会成为一个'与众不同'和'不被定义'的LLM。不管是别人没敢押注的技术无人区,还是需要一点偏执的审美坚持,我相信有更多Kimi-defined的创新能对人类文明加速发展产生独特贡献。”

他还提到,2026年K3模型将提升等效FLOPs至少一个数量级,追平世界前沿。

宏观来说,这是中国AI公司再次来到牌桌前,在技术封锁下的再次突围。

微观来说,这是月之暗面这家公司试图“下定义”,用Agent集群、审美、效率工具来定义一套属于自己的产品哲学。

不管如何,基座能力、生产力场景、开源生态,正将足够优秀的中国AI推向全世界。

站务

全部专栏