从大模型到Agent:百度GenFlow2.0,定义新赛点

500

文 | 佘宗明

 

PC互联网时代的技术主要呈现界面是Web(网页),移动互联网时代的是App(客户端),那AI时代的呢?

比尔·盖茨两年前的预言,就给出了答案:AI Agent将是AI最大的赛道,“Agent(智能体)不仅将改变人们与计算机的互动方式,还将颠覆软件行业,引发自键入命令到点击图标以来计算机领域最大的革命。”

如果说彼时他的这番断言还有些超前,那如今“AI Agent时代已来”渐成共识的现实,就是跟他打了个响指。

3个月前,微软CEO纳德拉就在微软2025年Build大会上表示:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问题。”

有意思的是,当时还跟纳德拉进行了连线的马斯克,旗下AI公司xAI前不久还准备筹建名字内涵微软(Microsoft)的子公司巨硬(MacroHard),定位于打造AI Agent生态。

在硅谷掀起“最炫Agent风”之际,大洋彼岸的中国科技企业也正以前瞻的技术布局与独特的技术路径,在这场决定未来若干年AI应用生态格局的赛道上积极卡位,努力将身位从追赶者变为领跑者。

 

01

 

回顾现代技术演进史,技术发展总是遵循着“技术突破-产业聚焦-场景落地”的路径,AI也不例外。

2023年初,ChatGPT出圈揭开了AI大模型军备竞赛的序幕,两年多过去了,在“Agent元年”说法的掩映下,全球科技巨头竞争焦点正从大模型参数转向Agent。

原因很简单:随着大模型参数规模扩大带来的边际效益递减,如何让AI从“被动响应工具”变成“主动规划执行者”,已成行业新命题。而Agent就是AI从“感知智能”迈向“认知智能”的关键载体,也是连接大模型技术与真实场景的核心桥梁。

作为能自主理解任务、规划步骤、调用工具的AI应用形态,Agent可以让AI不再是孤立的技术模块,而是能深度嵌入企业运营系统的“生产力单元”,解决传统AI应用场景碎片化、投入产出比低等问题,推动AI技术在产业侧的应用落地。

在硅谷,OpenAI在GPT-4之后,迅速推出GPT-4o

Agent,试图通过连接代码解释器、网页浏览器等工具,打破大模型“只能对话不能行动”的局限;微软则将Copilot深度集成于Windows系统与Office全家桶,提出“Agent
for Everyone”战略;谷歌则押注“多智能体协作”,发布了Gemini Agent Suite。

500

▲国内外科技巨头们都在发力AI Agent。

在国内,科技企业也在加码发力。动作最大的,当数百度:从2024年发布文心智能体平台AgentBuilder,到今年4月推出全球首个内容操作系统“沧舟OS”、先发在行业内率先实现全场景满足、全链路覆盖的AI
Agent GenFlow1.0、上线通用超级智能体App心响,百度在Agent赛道的深耕轨迹清晰可见。

8月18日的百度AIDAY上,百度文库与百度网盘又联合发布了全球首个全端通用AI Agent GenFlow2.0,以“全端通用”“并行任务”“记忆可溯”等突破性进展,为国产AI在全球Agent领域的竞争注入了强劲动力。

这极具默契的转向背后,是AI产业对AI价值的认知再校准:AI的价值不在于炫技,而在于应用。AI时代,企业需要的是能自动生成财报、拆解项目计划的AI助手,个人需要的是能同步处理邮件、整理资料的AI助力,这些都在倒逼AI从“能说会道”向“能做会干”进化。

 

02

 

尽管被寄予厚望之下,AI Agent迎来了爆发之势,但不得不说,当前行业仍面临着理想与现实的鸿沟:市面上多数Agent产品还停留在“单轮对话+插件”阶段,并没迈过从实验室玩具到生产力工具的那道门槛。

今年4月,Gartner就发布报告称,市场上正充斥着所谓的“智能体洗牌”现象,即厂商将普通AI助手或ChatBot重新包装为“智能体”,但这些产品实际缺乏真正的自主智能能力。

揆诸现实,当下很多Agent跟用户现实期待仍有不小差距,这具体反映在几个方面:

1,任务拆解能力不足许多Agent在处理复杂任务时,会出现逻辑断裂。

你让它“生成新能源汽车市场季度分析报告,需包含政策分析、竞品数据和趋势预测”,它可能要么遗漏“政策分析”等关键模块,要么将“竞品数据”局限于单一品牌,最终产出的结果经常需要人工大幅修改。

这是因为当前很多Agent的任务规划算法仍依赖简单的规则匹配,缺乏对复杂需求的深度理解与动态调整能力,无法像人那样将复杂目标拆解为“数据采集—分析建模—内容生成—格式转换”等有序子任务。

2,结果质量不可控不少Agent生成的内容,动辄存在低级错误。

我曾用某教育类Agent帮我生成讲座课件,结果PPT中出现了“媒介即讯息是尼尔·波兹曼提出”的结论。

根源在于,这些Agent缺乏专业知识库,无法安全访问私域资源(导致内容片面),只能依赖自身大模型训练数据(导致信息滞后)。

3,效率与协作存在瓶颈有些Agent处理跨领域复杂任务,非但耗时久还易卡壳,有些还无法与用户现有工具(如文档、云盘、专业软件)无缝对接,俨然成了信息孤岛。

说白了,是因为这些Agent太依赖单个模型能力和串行工作模式,难以应对多任务并行、动态调整等需求。

500

▲市面上的大多数Agent都存在诸多能力的不足。

理论上讲,Agent应该像拥有超能力的AI管家,接到任务后会先画思维导图(规划),再检查步骤对不对(验证),然后有条不紊地执行。它长着数字眼睛,能“认路避障”(环境感知),带着AI大脑,能权衡利弊(自主决策),揣着工具百宝箱,能“订票叫车”(工具调用),还能有始有终(完成任务闭环)。

可太多Agent不是视障就是智障,可用性、稳定性都不如人意。这就导致,企业将核心业务、重要任务交给Agent处理的意愿不足。

诸如此类的痛点,对应的其实是行业的机会窗口。在Agent竞速进入深水区的背景下,谁能率先解决可用性、稳定性、资源整合等问题,谁就能在Agent时代建立起技术与生态的双重壁垒,掌握定义行业标准的主动权。而GenFlow2.0的解决痛点导向,就来得很明晰。

 

03

 

跟时下那些只能跑在网页或客户端上,还得有邀请码或内测资格才能用的Agent有别,百度文库GenFlow2.0有两个典型特征:一是全端通用;二是现货可用

目前它已同步上线百度文库网页端、百度文库APP,用户无需排队等待,就能开箱即用。

我在移动端试用时,发现它还有个很人性化的地方——将传统“瀑布流”任务展示改为“并列式”进度可视化,我下达指令后,能直观看到每个Agent的分工(如A Agent负责数据搜索、B Agent负责PPT生成)。

我体验完后的内心os是:百度该给产品经理加鸡腿了。比起滚动条没完没了地下拉,这样操作才更切合普通用户日常习惯吧?

值得注意的是,全球“首个全端通用Agent”并非GenFlow2.0的唯一优点——它直接来了几个行业首发,包括并行模式、记忆模式和全程可干预模式。

500

▲我使用GenFlow分析2024年至2025年Agent市场格局演变时,中途就暂停补充了新要求。

先说并行模式。我让GenFlow2.0分析2025年Agent市场格局,生成对比表格并制作竞品分析PPT,它会自动调度“市场分析Agent”“数据可视化Agent”“PPT生成Agent”“网盘检索Agent”等多个专家级Agent并行工作,而非逐一处理。

据了解,GenFlow2.0依托百度文库、网盘自研的Multi-Agent基础架构,可开启“100+专家Agent并行处理”式的多智能体协同作战,让AI执行任务从得慢慢等变成立等可取,实现了分钟级交付(多项复杂任务3分钟就可完成),提升了效率天花板。

再说记忆模式。我前几天就让GenFlow2.0帮我生成过Agent技术发展路径分析,今天又要求它“分析2025年Agent市场格局”,它会自动调用历史数据,无需再次阐述问题背景,避免重复劳动。

这背后是GenFlow2.0首创了“长-短-临”三级记忆中枢,可在多轮任务中记住用户对话、操作偏好、文件交互记录、修改痕迹等,实现“越用越懂你”。

接着说全程可干预模式。我在GenFlow2.0生成内容时,中途提出“加入2024年Agent市场格局情况”,它会立即调整,把我说的“听”进去。

这也是文库GenFlow2.0跟其他Agent的区别所在:一般Agent都是“写
Prompt(提示词)→漫长等待→发现不对→重写
Prompt→新一轮等待”,它是“说一句→看着它干→随时改→立等可取”,其实时干预功能允许用户在任务流任何节点暂停、回退、补充指令或追加文件。

这些突破,显然不只是单点技术升级。

 

04

 

AI技术进步固然不是线性化的,而是指数级的,但绝不会是平地起高楼。GenFlow2.0能揽下Agent领域的很多“首个”,离不开“专项积累+生态协同+全栈布局”三个维度的支撑。

从专项积累看,百度对Agent的探索早已形成累进式突破。

百度文库中PPT、绘本、生图、研究报告等单一Agent在垂直场景的成功,为沧舟OS和GenFlow1.0首次实现多Agent基础调度做了铺垫,也让GenFlow2.0实现“从可用到好用”的跨越有了支点。

可以说,GenFlow2.0 的发布并非“从 0 到 1”,而是“从 100 到 1”——把上百个经过市场验证的成熟 Agent 装进同一个“航母战斗群”,“专项突破—系统整合—体验升级”的路径也由此成型。

从生态协同看,GenFlow2.0构建起“百度自有生态+第三方合作生态”的双循环。

在百度体系内,它跟文库网盘的“三库(文库公域专业资料库+经用户授权的网盘私域数据库+用户记忆库)一平台(百度学术平台)三器(阅读器、编辑器、播放器)”充分打通,跟萝卜快跑(智能出行)、数字人直播(内容创作)、秒哒(无代码开发)等产品深度联动。

你让它生成“十一假期出游计划”,系统可自动调用百度地图生成可交互的行程H5,同步通过萝卜快跑预约接送机服务。

500

▲FenFlow2.0离不开百度AI全栈布局的支撑,又跟百度其他AI产品形成了联动。

在外部生态上,GenFlow2.0兼容MCP协议,荣耀 MagicOS 已原生接入,用户可在手机负一屏一键调用其能力,实现“手机端生成PPT—平板端编辑—电脑端演示”的全场景流转;WPS、钉钉、飞书也在灰度测试。

MCP协议的开放性,让 GenFlow2.0 能像乐高积木那样被嵌入任何应用,让其多重能力不再局限于单一应用,而是渗透到用户的生活与工作全场景中。

从全栈布局看,百度的全栈AI能力为GenFlow2.0提供了底部支撑。

从芯片层的昆仑芯(能提供算力支持),到框架层的飞桨(保障多Agent调度效率),再到模型层的文心大模型(有混合专家模型架构、有多模态理解能力),百度是全球少数实现AI全栈自研的企业。全栈技术沉淀,托起了“端到端优化”的闭环。

 

05

 

历史不会重复,但总会押韵。二十多年前,Windows把DOS从命令行变成图标;十多年前,iOS/Android把键盘变成触控;而在今天,Agent又带来了新人机交互方式与任务执行模式。

接下来,谁能用兼具可用性、稳定性的Agent产品更好地解决用户需求、占领用户心智,谁就能拿到下个十年的门票。

而今,GenFlow2.0就有了Android昔日的模样:Android早些年就把硬件、应用、服务统一在 Linux 内核之上,形成了深厚生态壁垒,GenFlow2.0现在则是把算力、模型、数据、Agent、人统一在自然语言这个最朴素接口之上。

对用户而言,当办成很多任务只用一句语音而非复杂操作,那AI的实用价值也就能得到最大化发掘。这里的实用性,本是立足于对用户需求的深刻洞悉,最终会落脚于对用户体验的深层革新。

500

▲AI Agent,最重要的是实用好用。

这类革新,既会形塑用户对Agent的新期待,也会重塑中国在Agent领域的竞争力。

全球Agent竞争已陷入白热化境地,硅谷巨头们就在试图将PC、移动互联网时代的卡位优势复制到Agent中。

在此形势下,GenFlow2.0多重突破的价值已超出技术升级本身,为国产AI在Agent领域实现能力赶超、标准引领提供了参照系,也积攒了筹码。

跟OpenAI的Agent生态侧重于通用能力、微软的侧重于办公体系不同,百度GenFlow2.0全端通用带来的多场景无缝切换便利+公私域知识融合带来的数据安全可控特点+并行处理、记忆可溯、全程可干预带来的效率提升效果,证明了国产Agent可以有自己的创新引领点和差异化优势,具备变成跟OpenAI、微软和谷歌们抗衡的全球生产力平台。

可以预见,在不久的将来,超级好用的Agent在改变那块名叫“AI应用”的大洋地壳弹性后,AI的潮汐会以新节奏漫过每一道我们习以为常的堤岸。让我们且看,且期待。

站务

全部专栏