Gemini 3住进谷歌Chrome：AI终于开始“替你上网”了

数智奔流

汇聚智能时代的前沿洞察与实战。02-02 17:24

当Gemini 3能自动浏览、比价、下单，浏览器不再只是入口，而是执行层。真正被冲击的，可能不是AI同行，而是大量工具型App。

撰文/海月

编辑/祝余

过去两年，AI产品最常见的叙事是“更聪明了”：更大参数、更强多模态、更会写更会画。但用户的体感经常停留在另一层——“更会聊了”，离“更能办事”还有一段距离。于是市场开始追问一个更具体的问题：到底要把AI放在哪里，才会让它从“功能”变成“习惯”？答案越来越像同一个方向：浏览器。

原因也很直接。浏览器是人类在线生活的默认工作台：打开它，信息流、购物、表单、订票、报销、文档、邮箱、日历都在里面。谁控制浏览器，谁就离“代办一切”更近一步。Perplexity先做了Comet，OpenAI做了Atlas，都是在给同一个命题下注：未来的交互，不是点开哪个App，而是把一句话交给一个能操作网页的智能体。

这时候Google动手，意义就不只是“跟进”，而是“改写分发”。Chrome的优势不是模型有多惊艳，而是它天然把AI变成出厂设置：侧边栏常驻、网页上下文可见、账号体系可调用。

于是AI不再需要用户“想起它”，它在用户每一次打开标签页的时候都在场。类似的逻辑，在另一条赛道上已经被验证过：舞台能把新物种推到聚光灯下，但真正决定它能走多远的，是它什么时候能在真实场景里稳定干活。

入口不是位置，是“权限”

把Gemini放进Chrome侧边栏，看上去像一次产品形态升级：少了复制粘贴、少了跳转页面、多了随时待命的助手。真正更狠的，是它把“入口”从流量概念，升级成能跨应用取信息，所谓入口就不再是“把用户导到哪里”，而是“允许谁替用户动手”。

这轮更新里最具分水岭意味的是“Auto Browse（自动浏览）”。它不是总结网页、也不是帮忙比价那么简单，而是开始承担多步骤工作流：找机票酒店、挑日期、对比价格、把合适的选项加入行程；或者在网页里跑一遍报销、订阅管理、预约、材料收集等繁琐流程。

更关键的是，它把“操作”做在了用户可见的界面上：AI不是在后台生成一个答案，而是在前台完成一个过程。对用户来说，这会带来一种新的信任结构：不是“它说得像真的”，而是“它真的把事办了”。

Google还把“Connected Apps（连接应用）”这套体系往前推了一步：Gmail、日历、地图、航班、购物这些服务本来就是Google的护城河，现在AI能在授权后直接调用它们，让“跨站跳转”的痛点变成可被吞掉的流程成本。举例说，同样是做旅行规划，传统方式是用户在几十个标签页里来回横跳；现在更像是AI在标签页之间穿梭，用户只负责确认关键节点。

对外看是体验升级，对内看是平台重新掌握任务分发权：过去任务分发给App，未来任务分发给Agent，而Agent背后站着谁的账号体系和生态，决定了它能把手伸多长。

这种“权限型入口”的变化，会直接挤压两类产品的空间。第一类是工具型App：比价、领券、表单助手、截图翻译、简单修图、行程整理——这些功能过去靠单点体验生存，一旦浏览器侧边栏常驻、且能直接在网页里完成闭环，用户打开独立App的动机会明显下降。

Google把“Nano Banana”这种网页内图片编辑也塞进侧边栏，本质就是在用浏览器吃掉一批轻量创作和轻量处理工具的场景。

第二类是内容分发型平台：当用户越来越习惯“把问题交给Agent，让它在网页上替自己跑”，内容平台的价值会被重新定价。因为Agent天然倾向于“把信息压缩成结论，把过程变成步骤”。这对用户是效率提升，对平台是流量结构变化：从“人点开页面”转向“Agent读取页面”。

谁能被Agent更好地理解、引用、执行（比如开放结构化数据、提供可调用的流程标准），谁就更可能在新的分发链条里保住存在感。Google提到的开放协议（例如让购物流程更顺滑的标准化尝试）也在往这个方向铺路：让Agent更容易完成交易闭环。

浏览器Agent的真正对手，不是Comet和Atlas，是“事故率”

如果把这轮竞争只看成“Google vs OpenAI vs Perplexity”，容易误判重点。浏览器Agent的真正难点，不在模型能不能写、能不能看，而在它敢不敢动手、动手会不会出事、出了事谁负责。也就是说，决定它能否规模化的不是演示视频，而是事故率与可控性。

从产品设计看，Google已经在刻意把风险边界画出来：涉及付款、发布动态等敏感操作前必须暂停并让用户确认；Auto Browse目前也带订阅门槛与地区限制，先在可控范围内试水。Wired也提到提示词注入（prompt injection）等安全风险：当Agent会点击、会填表、会登录，网页就可能从“信息载体”变成“攻击面”。这会逼着浏览器厂商把安全能力从“拦截恶意网站”升级成“约束AI行为”。

这也是为什么“浏览器里住着AI”听起来很爽，但真正落地会出现大量工程细节的拉扯。

一类是权限与隐私的拉扯。Agent要好用，就得读懂上下文；读懂上下文，就不可避免触及用户数据。Google强调用户可以连接或断开应用、保持掌控权，并计划推出更个性化的“Personal intelligence”。这套叙事能降低心理门槛，但也意味着未来竞争不只是模型能力，而是“谁更让人放心授权”。

另一类是可解释与可回滚的拉扯。传统App出错，用户知道自己点了什么；Agent出错，责任链条会变模糊：是用户指令不清、还是模型误解页面、还是网站结构变化、还是被恶意内容诱导？如果不能把过程做得足够透明、把关键节点做得足够可控，用户会很快从“解放双手”变成“这玩意别乱动”。

所以“在前台执行过程”既是信任加分项，也会逼着产品做更复杂的可视化与审计：它点了哪里、填了什么、为什么这么做、下一步准备做什么。Google把Gemini固定在侧边栏，而不是弹窗式的对话框，本质也是在给“过程可见”让位。

再看竞争对手，Comet和Atlas之所以被反复提及，是因为它们把“AI原生浏览器”这条路提前走通了叙事：浏览器不只是入口，而是助手常驻的操作系统。Comet基于Chromium，Atlas也同样走Chromium路线，本质说明一件事：浏览器战场的技术底座正在趋同，差异会集中在三点——账号生态、分发规模、以及对“事故率”的治理能力。

Google的优势在规模：Chrome的用户量让它可以把新交互范式直接推送给海量用户，而不是慢慢教育市场。

OpenAI的优势在产品心智：Atlas把ChatGPT作为浏览器中心，让“对话即操作”的体验更统一，也更容易形成品牌绑定。

Perplexity的优势在搜索链路：Comet更像把“答案引擎”变成“操作入口”，对比传统浏览器更强调“从搜索到执行”的一体化。

但这些优势能不能兑现，最后都要回到同一个现实问题：当Agent开始替用户上网“上班”，它必须像一个合格的员工——稳定、可预测、可交接、可追责。否则它只能停留在演示与轻量场景里，变成“偶尔用一下的功能”，而不是“每天离不开的工作方式”。

这也是为什么讨论浏览器Agent，不能只聊模型参数与功能清单，更该盯着它什么时候能把任务做到“连续两小时不掉链子”。

结语

Chrome与Gemini 3融合，这件事表面是一次功能更新，底层更像一次“入口换代”：从“人点网页”变成“人下指令，Agent跑流程”。对用户来说，省下的是时间；对行业来说，改变的是分发结构——工具类App会被挤压，平台类流量会被重算，能被Agent顺畅执行的服务会更值钱。

但这条路不会只靠“更聪明”就自然成立。浏览器Agent一旦进入真实任务，就会被迫面对现实世界的复杂：网页结构随时变化、权限边界必须清晰、恶意诱导无处不在、出错成本真实存在。

Google、OpenAI、Perplexity在同一个赛道上互相拉扯，最后拼的很可能不是谁能做出更惊艳的演示，而是谁能把事故率压到足够低，把可控性做到足够强，把“代办”变成一种让人放心托付的默认方式。

科技举报

数智奔流

汇聚智能时代的前沿洞察与实战。 |

27篇文章 | 0人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

Gemini 3住进谷歌Chrome：AI终于开始“替你上网”了

数智奔流

数智奔流

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

风闻社区小助手_小风

风闻社区2025年度评选结果揭晓！十大热帖，五大神评，花落谁家？

最近更新的专栏

风闻最热

全部专栏