竞逐AI Agent时代
文/王慧莹
编辑/子夜
什么是更接近AGI的形态,是能用脑子思考的大模型,还是能用行动互动的Agent?
随着技术不断进步,应用不断落地,人与机器的互动方式正在发生范式转变,这个答案成了两者的结合——AI Agent。
AI Agent,又被称作是AI智能体,即一种能通过对环境的感知,进行思考决策并执行的智能体。与GPT等应用相比,AI Agent在思考与行动方式上和人类很相似,是人工智能机器人的初级形态。
在过去三年中,大模型在自然语言处理、图像生成等领域展现出惊人能力,但随着参数规模突破千亿级,技术边际效益递减的魔咒开始显现:模型理解能力停留在表层语义,复杂任务执行依赖人工指令拆解,应用落地陷入 "玩具化" 困境。
更重要的是,用户对AI的期待早已超越简单问答,他们需要一个能主动思考的助手,这种供需错位给了AI Agent爆发的机会。AI Agent就像一个能感知、能理解、能行动的AI助手。
尤其是伴随大模型应用元年的到来,技术落地是个备受关注的问题,AI Agent被很多人看作是这轮AI技术落地的最终范式。
去年,市场研究机构Research and Market发布的报告中指出,未来五年AI智能体的市场规模将增加420亿美元。麦肯锡也表示,AI智能体将是生成式AI的下一个前沿。
进入2025年,从OpenAI的Operator到中国AI公司蝴蝶效应研发的Manus,再到大厂和独角兽的竞相加速,一场围绕AI Agent的竞逐赛悄然拉开帷幕。
这场竞速赛注定不容易。算力成本的指数级增长、多轮对话中的幻觉误差、场景落地的复杂程度……一如每一场技术风暴来临之时,这些都是行业玩家们面临的共同难题。
就像比尔·盖茨曾说的,“谁能主宰AI Agent,那才是大事。因为你将永远不用去搜索网站或者亚马逊”。
从实验室走向产业前线,AI Agent的想象力很大,在技术与现实的博弈之间,精准迅速地落地,给用户一个可靠的AI助手,才是这场比赛的赛点。
1、从Operator到Manus,AI Agent为何令人兴奋?
“求一个Manus邀请码”。
上周,科技圈对这个名字一定不陌生。一如ChatGPT和DeepSeek在模型层的爆火,应用层也发生了新的爆点。
这款号称是“全球首款通用型AI Agent产品”,由中国AI创业公司推出。据团队介绍,Manus是一个真正自主的AI Agent,能够解决各类复杂多变的任务。
该产品尚未完全对外开放,内测码一码难求,市场对Manus的好奇度已然达到顶峰。这是一种什么魔力?
很重要的一点在于,Manus展现出了更“类人”的能力。
图源Manus官网
Manus完全在独立虚拟机中,能够独立思考、规划并执行复杂任务,直接交付完整成果。在接到用户指令后,它可以直接操作电脑完成一系列报告撰写、表格制作等工作,并在最后导出符合用户需求的产品。
在筛选简历时,Manus会自动解压文件、上传简历、浏览简历,并记录重要信息,给出自动排名建议,还能根据工作经验等重要维度,将候选人分为不同等级。
换句话说,Manus展现出了更进一步的自我思考和自我规划能力。与普通大模型不同,Manus不只是提供想法,还能帮用户把想法变为现实,解决实际问题。
这背后,Manus的核心竞争力在于其全链路自主执行能力——Multiple Agent架构。Manus通过“规划-执行-验证”的多代理协同架构,用户不需要去对话引导,也不需要提供建议,只需要等待Manus直接交付完整的任务成果。
一夜之间,Manus仿佛革了OpenAI和Anthropic的命。
实际上,市场对AI Agent更早的感知,来自于OpenAI和Anthropic。
今年1月,OpenAI推出了首款AI智能体Operator,基于Computer-Using Agent模型,Operator可以根据用户指令,在云端执行任务,如订餐、制定计划、购物等。
一个月后,OpenAI又推出了面向深度思考领域的智能体Deep Research,相比于Operator AI助手的定位,Deep Research像是一个“AI研究员“,它能将原本人类需要8小时的任务缩减到5分钟,帮助人们在工作中节省几小时甚至几天。
由OpenAI前研究副总裁达里奥·阿莫迪、大语言模型GPT-3论文的第一作者汤姆·布朗等人共同创立的企业Anthropic,布局AI Agent的动作更早。去年10月,Anthropic基于Claude模型,推出了扩展功能Computer Use,用户能够像指挥人类一样指导Claude操作电脑,包括移动光标、点击按钮和输入文本。
值得注意的是,Manus的出现让大家纷纷想起了Devin。这个在去年由Cognition AI推出的全球首个AI软件工程师。Devin也是一个自主Agent,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型。
在一个新兴赛道,先发优势固然重要,但大家都在发力时,好用就成为一个新的评判标准。
AI智能体的工作原理无外乎四个步骤:感知、信息处理、执行、输出。其中,想让AI智能体真正化身人类的AI助手,效率和准确度都很重要,这也是Manus此轮火爆的原因。
据Manus官方介绍,Manus在GAIA基准测试中取得突破性成绩,其解决复杂问题的准确率比Open AI同类产品高出12%。
从Operator,到Maunus,AI Agent这把火显然越烧越旺。本质上,AI Agent之所以让市场如此激动,是因为它让AI完成了从被动响应,到主动执行的跃迁。当AI开始突破认知层,转向行动层,AI时代或许才真正到来。
2、大厂、独角兽集体加速,AI Agent今年是爆发元年?
今年,ChatGPT掀起的大模型浪潮尚未平息,AI Agent也迎来爆发元年。
前不久,百度创始人李彦宏提出观点,2025年可能会成为AI智能体爆发的元年。推理大模型涌现出让人惊叹的深度思考能力,这将推动人工智能的一个重要应用方向,即“AI智能体”的落地。
放眼整个行业,AI Agent处于风口之上也是共识。市场研究机构Gartner将Agentic AI列为2025年十大技术趋势之一,并预测到2028年至少有15%的日常工作决策将由Agentic AI自主完成。德勤AI研究院称,AI智能体将改变基础业务模式,实现新的工作、运营和价值交付方式。
与GPT等对话式AI不同,AI Agent能像人类助手般独立规划任务、调用工具并交付成果。如果说大模型让AI长出了“脑”,那AI Agent就是让AI长出了“手和脚”。
悄然间,AI领域的竞争已悄然转向更具想象力的战场——AI Agent。国内这场竞速赛中,科技大厂和AI独角兽依旧是两大主角。
大厂们的思路在于,利用AI智能体赋能业务,完善AI应用生态,提高业务及自身在AI时代的竞争力。
在AI领域强势的百度,动作莫过于最多。尤其是去年以来,百度多次公布AI的进展,智能体是反复提到的关键词。百度已将智能体应用到移动生态的各个场景,包括百度新搜索、百度文库、百度电商、文小言等产品。
其中,以文心智能体为代表,目前已经吸引了15万家企业和80万名开发者参与。据百度透露,文心智能体为百度搜索带来了多轮对话、超级外脑、创意升级、拟人体验和多元推荐等五大新能力。
另一边,阿里近期将AI智能体重点放在了To C领域,发布并开源推理模型通义千问QwQ-32B没多久,阿里将其融入到通义APP中。3月10日,阿里通义App全新升级,上线超级智能体。通义App以超级智能体作为交互中枢,用户在通义首页能问、能聊,通义超级智能体还能理解图片、生成图片,翻译、写作等复杂功能。
同样聚焦C端的还有腾讯。今年1月的腾讯2024员工大会上,腾讯创始人马化腾表示,腾讯会持续投入资源进行算力的储备,希望各个事业部都能拥抱大模型的产品化落地场景。其中,包括微信、QQ、输入法、浏览器等产品都将推出AI智能体,游戏、微信读书、腾讯视频等产品也将基于混元做更多AI探索。
相比于BAT结合自身深度思考大模型推出智能体,字节跳动的智能体更像是追着OpenAI打。早在Operator发布前两天,字节跳动豆包大模型团队就已经公布了同类型智能体UI-TARS,和Operator的功能基本差不多。识别过程基于视觉模型和推理实现,能够一步一步自动完成跨应用的复杂操作,并兼容各种系统。
不仅如此,凭借算力、数据等优势,大厂基本都是在模型端、应用端、智能体开发平台协同三个领域闭环发展。
一站式智能体开发平台方面,字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼均已上线。
而在AI独角兽中,智谱是最早探索Agent的初创企业。去年10月,推出自主智能体AutoGLM ;一个月后的Agent OpenDay上,智谱展示了AI Agent的最新成果,包括AutoGLM、AutoGLM-Web、GLM-PC三个版本,对应手机、浏览器、电脑的应用场景。
据悉,新升级的AutoGLM能够理解超长指令,执行超长任务,在多步、循环任务中,AutoGLM的速度表现超过人手动操作。今年1月,Agent GLM-PC 1.1正式版上线,操作速度和任务成功率均有提升。
需要注意的是,经过2023年的百模大战,2024年的应用之争,行业淘汰赛加剧,2025年对于初创企业而言,落地路线的选择至关重要。
2月21日,阶跃星辰宣布发力智能终端Agent方向。阶跃星辰与吉利汽车集团、OPPO、智元机器人等企业深化合作关系,尤其是智能终端Agent的开发,同时还展示了在金融财经、内容创作、新零售、数字人等领域的创新和应用。
去年5月,月之暗面的Kimi上线了Kimi+智能体商店,旗下有20多个由官方提供的智能体。
相较于互联网大厂而言,AI初创企业布局智能体的思路在于,通过自身模型能力与智能体的结合,推出更多可场景化的落地方案,寻找商业变现的路径。
随着技术的不断发展和市场的逐渐成熟,AI Agent 领域的竞争将愈发激烈,各企业的产品也将不断迭代升级,以满足用户日益增长的需求。
3、想象力大,落地却不易
Manus的火爆很突然,以至于Manus的团队低估了市场的热情。
Manus AI团队产品负责人张涛近日在朋友圈发文表示,“这本是一个产品探索过程中的阶段性收获分享,因此服务器资源是对标demo水平来准备,不曾想过会引起巨大波澜。”
这段话的背景在于,Manus爆火之后,关于Manus通用型的“套壳”嫌疑、官网卡顿等质疑声层出不穷。所谓“套壳”,即Manus没有自研底层大模型的能力,其模型能力主要来自Anthropic的Claude。
Manus团队已声明,当前的Manus距离正式版想交付给大家的体验还差很远。“像模型幻觉、交付物友好度、运行速度等方面都还有很大的提升空间。”
事实上,Manus的困境是当下AI Agent赛道的缩影。
首当其冲的就是AI幻觉问题。OpenAI的Operator可能因数据污染生成错误结论;Manus在演示中虽流畅,实际应用中却常因系统权限限制无法完成订餐、支付等任务。
这些所谓的幻觉问题是目前的AI技术无法避免的。DeepSeek-R1幻觉率高达14.3%,GPT-4.5幻觉率为7.1%,某种程度上,AI幻觉能力与其推理能力正相关。也就是说,越聪明的AI大概率幻觉越强。
这对AI Agent无疑是个老大难。作为提高效率的AI助手,用户的终极需求莫过于准确性,而幻觉问题可能为用户带来了包括检查、复查等多个环节,势必成为AI Agent爆发的主要障碍。
尤其是在金融、医疗、法律等高风险领域,任何误差都可能引发暴风雨,这也就限制了AI Agent的场景落地。
更重要的是,相比于对话式的GPT,AI Agent的一个重要进步在于“有记忆”。Manus通用型Agent就具备“记忆能力”,若用户曾要求“用表格呈现结果”,下次任务中它会主动生成Excel文件。一旦出现幻觉问题,AI Agent作为工具的实用性也要受到质疑。
本质上,幻觉问题的来源于数据的缺乏。正如人类通过理论和实践在社会发展过程中的不断学习和进化,AI则需要源源不断的数据反馈来进化,而数据的训练离不开实际的应用落地。
就目前实际应用而言,C端智能体大多定位智能助手,可通过读取语音指令理解用户意图,并模拟人类行为,完成订机票、点外卖、筛简历等基础日常需求和工作。
这时候,用户留存和心智培养是个问题。像Manus这类主打通用的Agent,或许很难在垂直场景下发挥作用。而人类社会正是由一个个具体的场景构成的,复杂程度难以想象,通用型Agent最终能在用户生活实际起到多大作用,还是未知。
另一边,B端智能体则需要提供更为专业和定制化的服务。在B端场景下,Agent可充当数字员工、个人助理、营销客服等工种,真正为企业创造价值。
一些声音认为,B端Agent市场有望率先起量。具体到玩家身上,据The Information报道,OpenAI计划为专业人士推出量身定制版Agent,用于执行销售线索分类、软件工程和博士级研究等高级任务。针对“高收入知识工作者”,每月2000美元;用于软件开发的,每月1万美元;博士级研究代理,每月2万美元。
从目前的发展趋势来看,AI Agent 最有可能在企业服务和办公场景中率先落地。在企业服务领域,AI Agent可以帮助企业实现业务流程的自动化和智能化,降低人力成本,提高工作效率。在办公场景中,AI Agent可以成为员工的智能助手,协助完成各种办公任务,提升办公体验。
IDC发布预测称,到2026年将有50%的中国500强数据团队使用AI Agent来实现数据准备和分析,并成为重要组织者和协调者;40%的中国500强企业将实现数据智能与AI模型智能的结合,以统一AI模型和数据的综合治理政策、实践和技术。
不过,想要真正作为AI助手对接企业也有不少难题。企业的业务流程和需求各不相同,如何将AI Agent与企业的现有系统和业务流程进行无缝集成,是一个关键问题。
这需要AI Agent具备高度的定制化能力和兼容性,能够根据企业的具体需求进行灵活配置和调整。同时,企业对数据安全和隐私保护也非常重视,AI Agent 在处理企业数据时,必须确保数据的安全性和保密性,防止数据泄露和滥用。
落地当然是不容易的,这需要不断扩展的算力、数据、场景做支撑,好在市场的热情已经被点燃,玩家都在为“让AI帮人做事”而努力。
当大模型与Agent深度融合,一个更智能、更主动、更个性化的AI时代正加速到来,这一次,独角兽和大厂们都在加速奔跑,没有一个甘心落后于时代。