OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布

  2025 年 7 月 18 日北京时间凌晨 1 点,OpenAI 进行了一场直播,介绍了他们最新、最强大的模型。

  他们将 DeepResearch 和 Operator 功能合并到一起,打造了一个同时能够做深度研究和 Browser-Use 的 AI Agent —— ChatGPT Agent。

  或者,你可以更简单地理解为,OpenAI 发布了一个属于他自己的 “ Manus ”。

  由 OpenAI 打造的 AI Agent,按过往经验来看是面向通用型需求的,无论是从成本角度还是技术角度,预计都会对同一赛道中的对手形成降维打击。

  在直播中,Sam Altman 和四位 Agent 项目的研究员( 此前分别是 Operator 和 DeepResearch 的项目成员 )通过参加婚礼策划等演示展示了 ChatGPT Agent 的功能,以及在基准测试中的表现。

  使用该 Agent 的模式很简单,只需在 ChatGPT 用户端点击工具菜单并选择 “ Agent ” 就可以。

500

  ChatGPT Agent 可以独立使用虚拟计算机来执行复杂的任务,能够无缝地从思考切换到行动,以及使用各种工具,比如在终端上写代码,执行网页浏览,制作 Excel 和 PPT 等等。

  首先来一个日常生活的演示:为参加朋友婚礼做准备。

  研究员不仅写明了详细的需求,还给ChatGPT提供了婚礼网站,以及预订酒店的网站。

  提示词:

  我们的朋友今年晚些时候要结婚了!这就是婚礼网站:XXX

  你能帮我找到以下物品吗:

  一套符合所有场合着装要求的服装(男士)- 推荐五个方案。服装要包含一些不错的、中等奢华的物品,要与场地和天气相符。

  帮我找一些可以提前几天预订的酒店 - 使用 booking.com 预订,并确保查看空房情况和当前价格。

  还有,别忘了给他们挑选一份礼物,最好在 500 美元以下

  写一份漂亮的报告

  收到提示词后,ChatGPT Agent 立马开始执行。

  因为需要使用电脑,所以一开始,它需要设置环境,这一步通常需要一两分钟,快的话甚至不到 5 秒钟( 实际演示中为 7 秒 )。准备好环境并理解了提示之后,ChatGPT Agent 会向用户确认自己的理解是否准确,用户点击 “ continue ”,ChatGPT Agent 就会开始工作。

500

  在 ChatGPT Agent 执行任务的时候,用户可以同步看到它操作计算机屏幕的过程,以及每一步操作相关的思维链。

500

  在这个任务中,ChatGPT Agent 最终提供了一份相当全面的报告。

  它会根据链接确定日期和婚礼场地,并以此来确定西装的推荐,以及在哪里可以买到,还有房源信息等,它还会提供关于礼物的建议。特别是,ChatGPT Agent 还提供浏览结果的屏幕截图。

500

  在 ChatGPT Agent 执行完任务之后,用户还可以通过视频的方式回顾它的执行过程。

500

  ChatGPT Agent 可以使用两种不同的方式来浏览互联网。一个是文本浏览器,类似于 DeepResearch,可以非常高效快速地阅读和搜索大量网页。另一个是可视化浏览器,类似于 Operator,使得它能够与网页 UI 进行实际交互。使用该浏览器,ChatGPT Agent 可以执行拖动网页、使用光标点击、打开 UI 组件、填写表单、输入文本等操作。

  OpenAI 团队表示,这两个工具互补性很强。

  OpenAI 在一月份发布了 Operator,可以执行预订和发送电子邮件等在线任务。两周后,OpenAI 又发布了 DeepResearch,可以进行深入的互联网研究,并输出高质量的研究报告。

  后来,OpenAI 意识到这两种方法实际上是深度互补的。一方面,Operator 在阅读超长文章时会遇到一些困难,因为需要滚动,所以很耗时,但这正是 DeepResearch 的强项。另一方面,DeepResearch 在与网页、交互元素、视觉效果( 高度可视化的网页 )交互方面又不如 Operator。

  OpenAI 在用户反馈中也了解到,大家最期待的 DeepResearch 功能之一就是能够登录网站并访问经过身份验证的来源,而 Operator 可以做到这一点。此外,很多用户在使用 Operator 时的提示,实际上和 DeepResearch 类型的提示很相似。

  ChatGPT Agent 的一个关键能力是允许随时打断执行,并补充新的任务指示。这对于执行复杂且耗时很长的任务来说特别重要,很多时候一开始输入的提示是不完整的。比如在准备参加婚礼的这个任务中,你可以中途提示模型:你能再帮我找一双9.5码的男士黑色鞋吗?

  ChatGPT Agent 也可能会在执行过程中主动要求用户澄清和确认一些细节。

  OpenAI 介绍道,与 Agent 合作过程中要注意的一个关键是,模型有时会犯错误,“ 这就是为什么训练模型在重要步骤的最后一步请求用户的确认很重要。”

  例如,在它发送电子邮件之前,它会要求用户查看草稿,内容是否合理,是否有拼写错误等。如果有,你可以要求它修改,或者直接接管浏览器,进入 Agent 的环境自行修改。

  所以,ChatGPT Agent 鼓励的不是完全自主的执行,而是与用户的深度协作。

  ChatGPT 还拥有自己的终端来运行代码,并能用于生成和分析 PPT、Excel 等文件。

  通过终端,它还可以调用 API,包括公共 API 和用于访问用户私有数据源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至还可以让 ChatGPT 调用图像生成 API 来生成图像,这样就可以为 PPT 等内容打造精美的视觉效果。类似 Deep Research Connector,只有当用户明确连接这些 API 时,它才能使用。

500

  在演示中,OpenAI 的研究员通过让 ChatGPT Agent 调用 API 操作,生成了 ChatGPT Agent 的基准测试报告。

  提示词:

  从我们的 Google Drive 中提取你的评估编号,并制作一些幻灯片。形式保持简单,没有引言,没有结论,只用图表呈现结果。

  模型连接到了 Google Drive API,然后在 API 内进行搜索。第一个结果是相关的,于是模型开始详细地读取第一个结果,然后编写代码,并使用图像生成模型来为 PPT 生成图片。

500

  最终模型生成了一个 PPT 文档,可以下载并在本地打开。

  我们来具体看看 ChatGPT Agent 的基准测试结果。

  在 “ 人类最后考试 ”( Humanity's Last Exam,HLE,一个面向人类知识前沿的多模态基准测试 )基准测试中,拥有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(拥有 browser use 和 python 代码能力)、o3( 拥有 browser use 和 python 代码能力 ),其性能相比后两者几乎翻了一番,达到  42% 的通过率,而没有工具使用能力的 ChatGPT Agent 和 o3 则是垫底。

  FrontierMath 基准测试用于衡量高级数学推理能力,ChatGPT Agent 在这个基准测试中达到了 27% 的通过率,超越了拥有 Python 编码能力的 o4-mini 和 o3 。

500

  在 WebArena 基准测试中,ChatGPT Agent 的表现已经很接近人类,并高于 o3 和 4o 。

  在 OpenAI 年初推出的 BrowserComp 基准测试( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 显著优于 o3 和 DeepResearch 模型。

500

  Spreadsheet Bench 基准测试衡量一定程度上的创建和编辑电子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已经可以完成 30% 的任务,当赋予模型访问终端中原始 Excel 文件的权限时,性能进一步提升至 45% 。

  Internal Banking Benchmark 基准测试评估模型执行 1 到 3 年经验投资银行分析师任务的能力,例如为一家财富 500 强公司构建一个三表财务模型。在这项基准测试中,ChatGPT Agent 的表现显著优于 DeepResearch 和 o3 。

500

  OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最强大的模型之一,不仅在基准测试中表现出色,而且还能够推理、浏览和处理现实世界的任务,“ 其水平是我们三个月前无法想象的。而它的强大很大程度上来自于浏览互联网的能力。”

  OpenAI 官方还强调,从安全方面来看,让 AI Agent 执行网页浏览仍然是有风险的,“ 互联网仍然是一个可怕的地方,各种各样的网络攻击、诈骗和网络钓鱼试图窃取人们的信息,而 Agent 模型也无法幸免于所有这些攻击。”

  “ 我们特别担心一种叫做 ‘ prompt injection ’ 的新攻击。假设你让智能体帮你买书,并输入你的信用卡信息,智能体可能会偶然进入一个恶意网站,要求它输入信用卡信息,而这时它可能会照做。”

  “ 我们做了很多工作来防止这种情况发生,比如训练模型忽略可疑网站上的可疑指令,还设置了多层监视器,可以监视 Agent 的运行。我们甚至可以实时更新这些信息,以防范新的攻击。”

  OpenAI 表示,不可能阻止所有风险,所以用户自己意识到风险的存在仍然是必要的,比如尽量不要分享高度敏感的信息,或合理地使用接管模式。

500

  OpenAI 还提供了一个有趣的演示,让 ChatGPT Agent 制定一个最佳行程,以游览所有 30 个 MLB 球场,最后以详细的电子表格形式呈现最终计划。

  有趣的是,ChatGPT Agent 真的使用了代码构建地图,并成功实现了。

500

500

  最后,OpenAI 表示,ChatGPT Agent 将为 Pro、Plus 和 Team 用户上线。Pro 用户每月将获得 400 次查询,Plus 和 Team 用户每月将获得 40 次查询。Pro 版的部署预计将于本月底完成,Plus 版也将很快完成,Team 版将争取在本月底前上线企业版和教育版。

  “ 我们希望你们会喜欢它。虽然现在还处于初期阶段,但我们会迅速改进它,并且我们非常期待看到它后续的发展。” OpenAI 团队表示。

站务

全部专栏