Gemini 3住进谷歌Chrome:AI终于开始“替你上网”了
当Gemini 3能自动浏览、比价、下单,浏览器不再只是入口,而是执行层。真正被冲击的,可能不是AI同行,而是大量工具型App。
撰文/海月
编辑/祝余
过去两年,AI产品最常见的叙事是“更聪明了”:更大参数、更强多模态、更会写更会画。但用户的体感经常停留在另一层——“更会聊了”,离“更能办事”还有一段距离。于是市场开始追问一个更具体的问题:到底要把AI放在哪里,才会让它从“功能”变成“习惯”?答案越来越像同一个方向:浏览器。
原因也很直接。浏览器是人类在线生活的默认工作台:打开它,信息流、购物、表单、订票、报销、文档、邮箱、日历都在里面。谁控制浏览器,谁就离“代办一切”更近一步。Perplexity先做了Comet,OpenAI做了Atlas,都是在给同一个命题下注:未来的交互,不是点开哪个App,而是把一句话交给一个能操作网页的智能体。
这时候Google动手,意义就不只是“跟进”,而是“改写分发”。Chrome的优势不是模型有多惊艳,而是它天然把AI变成出厂设置:侧边栏常驻、网页上下文可见、账号体系可调用。
于是AI不再需要用户“想起它”,它在用户每一次打开标签页的时候都在场。类似的逻辑,在另一条赛道上已经被验证过:舞台能把新物种推到聚光灯下,但真正决定它能走多远的,是它什么时候能在真实场景里稳定干活。
入口不是位置,是“权限”
把Gemini放进Chrome侧边栏,看上去像一次产品形态升级:少了复制粘贴、少了跳转页面、多了随时待命的助手。真正更狠的,是它把“入口”从流量概念,升级成能跨应用取信息,所谓入口就不再是“把用户导到哪里”,而是“允许谁替用户动手”。
这轮更新里最具分水岭意味的是“Auto Browse(自动浏览)”。它不是总结网页、也不是帮忙比价那么简单,而是开始承担多步骤工作流:找机票酒店、挑日期、对比价格、把合适的选项加入行程;或者在网页里跑一遍报销、订阅管理、预约、材料收集等繁琐流程。
更关键的是,它把“操作”做在了用户可见的界面上:AI不是在后台生成一个答案,而是在前台完成一个过程。对用户来说,这会带来一种新的信任结构:不是“它说得像真的”,而是“它真的把事办了”。
Google还把“Connected Apps(连接应用)”这套体系往前推了一步:Gmail、日历、地图、航班、购物这些服务本来就是Google的护城河,现在AI能在授权后直接调用它们,让“跨站跳转”的痛点变成可被吞掉的流程成本。举例说,同样是做旅行规划,传统方式是用户在几十个标签页里来回横跳;现在更像是AI在标签页之间穿梭,用户只负责确认关键节点。
对外看是体验升级,对内看是平台重新掌握任务分发权:过去任务分发给App,未来任务分发给Agent,而Agent背后站着谁的账号体系和生态,决定了它能把手伸多长。
这种“权限型入口”的变化,会直接挤压两类产品的空间。第一类是工具型App:比价、领券、表单助手、截图翻译、简单修图、行程整理——这些功能过去靠单点体验生存,一旦浏览器侧边栏常驻、且能直接在网页里完成闭环,用户打开独立App的动机会明显下降。
Google把“Nano Banana”这种网页内图片编辑也塞进侧边栏,本质就是在用浏览器吃掉一批轻量创作和轻量处理工具的场景。
第二类是内容分发型平台:当用户越来越习惯“把问题交给Agent,让它在网页上替自己跑”,内容平台的价值会被重新定价。因为Agent天然倾向于“把信息压缩成结论,把过程变成步骤”。这对用户是效率提升,对平台是流量结构变化:从“人点开页面”转向“Agent读取页面”。
谁能被Agent更好地理解、引用、执行(比如开放结构化数据、提供可调用的流程标准),谁就更可能在新的分发链条里保住存在感。Google提到的开放协议(例如让购物流程更顺滑的标准化尝试)也在往这个方向铺路:让Agent更容易完成交易闭环。
浏览器Agent的真正对手,不是Comet和Atlas,是“事故率”
如果把这轮竞争只看成“Google vs OpenAI vs Perplexity”,容易误判重点。浏览器Agent的真正难点,不在模型能不能写、能不能看,而在它敢不敢动手、动手会不会出事、出了事谁负责。也就是说,决定它能否规模化的不是演示视频,而是事故率与可控性。
从产品设计看,Google已经在刻意把风险边界画出来:涉及付款、发布动态等敏感操作前必须暂停并让用户确认;Auto Browse目前也带订阅门槛与地区限制,先在可控范围内试水。Wired也提到提示词注入(prompt injection)等安全风险:当Agent会点击、会填表、会登录,网页就可能从“信息载体”变成“攻击面”。这会逼着浏览器厂商把安全能力从“拦截恶意网站”升级成“约束AI行为”。
这也是为什么“浏览器里住着AI”听起来很爽,但真正落地会出现大量工程细节的拉扯。
一类是权限与隐私的拉扯。Agent要好用,就得读懂上下文;读懂上下文,就不可避免触及用户数据。Google强调用户可以连接或断开应用、保持掌控权,并计划推出更个性化的“Personal intelligence”。这套叙事能降低心理门槛,但也意味着未来竞争不只是模型能力,而是“谁更让人放心授权”。
另一类是可解释与可回滚的拉扯。传统App出错,用户知道自己点了什么;Agent出错,责任链条会变模糊:是用户指令不清、还是模型误解页面、还是网站结构变化、还是被恶意内容诱导?如果不能把过程做得足够透明、把关键节点做得足够可控,用户会很快从“解放双手”变成“这玩意别乱动”。
所以“在前台执行过程”既是信任加分项,也会逼着产品做更复杂的可视化与审计:它点了哪里、填了什么、为什么这么做、下一步准备做什么。Google把Gemini固定在侧边栏,而不是弹窗式的对话框,本质也是在给“过程可见”让位。
再看竞争对手,Comet和Atlas之所以被反复提及,是因为它们把“AI原生浏览器”这条路提前走通了叙事:浏览器不只是入口,而是助手常驻的操作系统。Comet基于Chromium,Atlas也同样走Chromium路线,本质说明一件事:浏览器战场的技术底座正在趋同,差异会集中在三点——账号生态、分发规模、以及对“事故率”的治理能力。
Google的优势在规模:Chrome的用户量让它可以把新交互范式直接推送给海量用户,而不是慢慢教育市场。
OpenAI的优势在产品心智:Atlas把ChatGPT作为浏览器中心,让“对话即操作”的体验更统一,也更容易形成品牌绑定。
Perplexity的优势在搜索链路:Comet更像把“答案引擎”变成“操作入口”,对比传统浏览器更强调“从搜索到执行”的一体化。
但这些优势能不能兑现,最后都要回到同一个现实问题:当Agent开始替用户上网“上班”,它必须像一个合格的员工——稳定、可预测、可交接、可追责。否则它只能停留在演示与轻量场景里,变成“偶尔用一下的功能”,而不是“每天离不开的工作方式”。
这也是为什么讨论浏览器Agent,不能只聊模型参数与功能清单,更该盯着它什么时候能把任务做到“连续两小时不掉链子”。
结语
Chrome与Gemini 3融合,这件事表面是一次功能更新,底层更像一次“入口换代”:从“人点网页”变成“人下指令,Agent跑流程”。对用户来说,省下的是时间;对行业来说,改变的是分发结构——工具类App会被挤压,平台类流量会被重算,能被Agent顺畅执行的服务会更值钱。
但这条路不会只靠“更聪明”就自然成立。浏览器Agent一旦进入真实任务,就会被迫面对现实世界的复杂:网页结构随时变化、权限边界必须清晰、恶意诱导无处不在、出错成本真实存在。
Google、OpenAI、Perplexity在同一个赛道上互相拉扯,最后拼的很可能不是谁能做出更惊艳的演示,而是谁能把事故率压到足够低,把可控性做到足够强,把“代办”变成一种让人放心托付的默认方式。







