AI Coding分水岭:狂卷参数的背后,生态标准之战才刚开始

500

文 / 道哥 

来源 / 智百道 

AI Coding正无可争议地成为人工智能领域商业化最先落地的赛道。

据研究机构Market Research Future预测,AI编程工具市场将从2025年的151.1亿美元增长到2034年的991亿美元,CAGR达到23.24%。

在今年5月举办的Meta LlamaCon大会上,微软CEO纳德拉表示,现在微软30%的代码都是AI写的。微软首席技术官凯文斯科特曾预测,到2030年95%的代码将由AI生成。

再看中国市场,工信部发布的数据显示,2024年前三季度,我国软件业务收入98281亿元,同比增长10.8%;这都有可能转为AI编程的潜在市场空间。

面对万亿级的商业前景,中国模型正在上演一场惊心动魄的参数追击战。

以DeepSeek-V3.2(12月1日推出)为例,衡量大模型代码工程任务解决能力的SWE Verified达到了73.1%,逼近Anthropic旗下的Claude-4.5-Sonnet(9月29日推出)的74.9%。

在《智百道》看来,仅仅盯着数字的差距,或许会让我们错失战局的真相。中美AI编程的胜负手,或许正在从参数性能转向生态标准。

01 国模开源搞基建,美国闭源卖性能500

长久以来,编程被定义为一种严谨的、逻辑驱动工作,能将人类意图转化为机器可理解并执行的语言。也是因为这种严谨的因果逻辑,对于时下主流的LLM来说,编程是PMF最好的领域。

在AI Ascent 2025上,红杉资本直言,AI Coding是第一个被颠覆的市场,这也将成为未来其他行业AI化进程的重要先兆。

在这个高付费意愿的领域,中国与美国走上了两条路。

美国是精英化的闭源路线,靠着不俗的模型性能博得资本市场青睐,撑起了惊人的市值。

AI编程工具 Cursor 近期宣布完成23亿美元D轮融资,股东名单集结了Google、英伟达等头号玩家,其母公司 Anysphere 估值在四个月内翻了3倍,达到293亿美元。而在B端市场攻城略地的 Anthropic,估值更是飙升至3500亿美元。

其于11月25日新推出的 Claude Opus 4.5,在 SWE-Bench Verified 测试中突破 80.9%,不仅超越了 Gemini-3 Pro 和 GPT-5.1,更是首个在该指标上达到80分的大模型,标志着AI的代码修正能力已具备甚至超越人类专家的水准。

更有杀伤力的是价格战。Claude Opus 4.5 的 API 定价降至每百万 tokens 5美元(输入)/25美元(输出),相比上一代直接砍去了三分之二。

相比之下,中国模型走出了截然不同的开源+性价比路线。

今年,DeepSeek 的R1横空出世,不仅拉升了国产模型的基准线,更奠定了中国厂商的开源基调。经过一年角逐,以 Kimi、Qwen、GLM 为首的国产模型军团,在参数表现上已能几乎与海外顶尖模型分庭抗礼。

以DeepSeek 在12月1日新推出的V3.2为例,SWE Verified达到了73.1%,逼近Anthropic旗下Claude-4.5-Sonnet(9月29日推出)的74.9%,这体现出了开源+性价比的可行性。

路线不同也决定了双方的受众并不同。

财富杂志此前报道,许多欧美高管倾向于OpenAI、Anthropic或谷歌等公司专有模型的性能优势。

而亚洲市场则更务实,数据主权和成本控制是核心考量。

中国人工智能云托管服务商硅基流动的联合创始人兼首席执行官袁进辉表示,该公司开发了多种技术,能更经济高效地运行开源模型,这意味着使用开源模型完成任务的成本远低于采用专有人工智能模型。此外,他还表示,如果针对特定应用场景,利用自有数据对开源模型进行微调,其性能表现能超越专有模型并完全避免敏感数据或商业机密泄露的风险。

祥峰投资控股公司的陈逸邦强调,虽然专有模型供应商也会为企业提供基于自有数据的微调服务,通常还会承诺不将这些数据用于更广泛的训练,但真实情况如何我们无从得知。

开源模型允许开发者免费下载、修改和集成,初创企业更易开发产品,也使研究人员更易改进模型。其广泛应用正对人工智能未来走向产生巨大影响,这一逻辑正在全球范围内生效。

新加坡国家人工智能计划(AISG)近期的战略调整最具标志性,其最新版东南亚语言大模型"Sea-Lion"宣布弃用Meta,转而基于阿里的Qwen架构构建。这代表中国开源模型已开始在全球技术版图中凭借实用主义突围。

过去一年,中国团队自主研发的开源AI模型下载份额占比已上升至17.1%,首次超过美国的15.8%。麻省理工学院与Hugging Face数据显示,DeepSeek和阿里巴巴的千问模型,占据中国模型下载量的绝大多数。

02 我们在造车,美国在修路500

随着大模型迭代速度的放缓,在参数上,国内逼近甚至追平美国顶尖模型或许只是时间问题,但从另一个角度看,海外领先的或许不只有模型的工程化能力,而是生态的护城河。

在《智百道》看来,以Anthropic为首的顶级模型厂商在试图定义智能体时代的HTTP。

今年2月,Anthropic推出Claude Code。这不仅仅是一个工具,而是原生的IDE系统。与 Cursor等"套壳"IDE 不同,Claude Code实现了模型与开发环境的深度解耦与重构。它能直接理解代码库、管理上下文,并调用第三方工具。

仅仅4个月,Claude Code 就吸引了11.5万名开发者。Menlo Ventures 预测,仅此一款产品就能为Anthropic贡献1.3亿美元收入。

此外,Google 推出了A2A开放协议,支持模型到模型的互操作性,解决不透明代理系统之间的黑盒状态。

众所周知,每个模型都各有所长,在实际应用场景中,开发者往往需要调用不同模型来共同实现目标。A2A协议支持用户在执行任务时,支持用户调用不同大模型生成不同的Agent共同完成特定目标。

如果说与A2A是指在贯通模型之间的合作,那么与其互补的是MCP。

2024年11月,Anthropic 将MCP开源,率先定义了"模型怎么连接工具和数据源"的标准。简言之,MCP比Claude Code简单做链接更高阶,让模型可自主决定调用哪些工具,并实现复杂任务。

在生态能力上,Anthropic 为了解决MCP重复造轮子的缺点,推出了Skills。Skills并没有创造一个新“功能”,它并不是单纯让Claude去调用工具,而更像是在给模型装上记忆与流程。你可以把一整套业务流程、模板、甚至公司内部知识,打包成一个个Skill模块,让 Claude在合适的时机自动调用。对开发者来说,它就像是给LLM加上一层轻量级Workflow,既可控又灵活。不光省token、省时间,还能提升准确率、方便协作共建。开发者借助Skills将编写的工具与模型对接,给模型扩展能力。

当智能体可以跨平台协作,拥有最丰富工具链和操作系统的玩家自然就掌握了立法权。生态位的竞争,自然先于技术路线的分歧。

海外大模型厂商能对B端应用有较为成熟的理解,和美国更成熟的SaaS生态相关。美国 SaaS 产业起步于上世纪80年代,早已形成标准化、成熟的SaaS工作流。因为强依赖 标准化API与插件体系,对智能体自动化跨平台协作的意愿更强烈。

中国企业SaaS起步晚近10年,很多企业业务并非高度结构化,这就给国内模型厂商的生态化、标准化工具的推广带来阻碍。

好在,觉醒已经开始。

今年8月,阿里推出了Qwen Code 尝试在生态层面追平,这也让我们看到了国模在生态上其实也颇有前景。

Qwen Code 也表示,将持续把开发者体验放在最前面,未来会进一步扩展 IDE 插件、增强工具调用能力,持续靠功能积累提升工程效能。

可以看出Qwen Code 正在慢慢走进“AI 工程化”真正的核心战场,试图开发工作流接管,形成自己的规则。

从长远视角看,未来最重要的不是模型的单点性能,而是哪个国家抢到B端标准制定权,虽然参数提升速度快,追赶成本低;但生态成熟需要多年开发者积累、接口标准、企业垂直理解,这些无法速成。

AI 应用生成工具领域的发展就像基础模型的竞争一样,不是一个赢者通吃的市场,而是各家在逐步找到差异化空间,实现共存,而国模厂商从性价比到生态也在奋起直追,毕竟我们已经意识到,只有建立起自己的生态与标准,中国AI才能真正跨越那道看不见的护城河。

*题图由AI生成

站务

全部专栏