Siri打开了手机的嘴，豆包接通了大脑和手脚

市象
市象官方账号

研究真问题，书写真洞察。2025-12-02 21:00

500

吃上豆包的手机先迈一步。

作者|古廿

编辑|杨舟

12月1日，字节跳动豆包团队发布了一段视频，演示了豆包手机助手的一系列能力。

从视频中的场景看，豆包手机助手的能力覆盖跨应用执行流程、屏幕内容读取、多模态识别、系统级唤醒、跨平台比价下单、远程控制汽车等操作。在开启记忆功能后，执行路径所需的询问也明显减少，具备一定连续任务能力。

这些能力几乎覆盖了过去数年间用户对于“AI手机助手”想象中的典型使用场景。因此尽管目前仍处于技术预览阶段，但还是使语音助手这个沉寂多年的手机能力，被重新放到了主流视野的讨论范围。

这款手机助手并非单一的App，而是以和手机厂商合作的形式推出。目前演示所用机型来自豆包与中兴合作的一款设备，前者主导AI助手的产品定义与交互体验，后者负责硬件研发与制造。

发售仅一天，12月2日据中兴商城显示，首款搭载豆包助手的合作机型已显示“售罄”。对于备货和销量数据，努比亚方面对外公开表示，“目前暂时没有销量数据，因为是第一款，少量对外发售。”

在二手平台闲鱼上，该机标价普遍在4200元至4999元之间，较官方定价溢价700至1500元不等。豆包方面表示，目前并没有开发手机的计划，现阶段推进的方向是与多家手机厂商进行合作落地。

手机助手并非新鲜概念，其在智能手机中存在已久，但定位始终模糊。几乎所有主流厂商在系统更新中都延续了语音助手的入口设计，但它从未成为用户购机决策的关键因素。

背后的原因并不复杂。在多数用户的真实体验里，语音助手能回应，却帮不上忙。过去十年来，语音助手的能力上限基本停留在识别语句、回答问题、打开应用，长期游走在对话交互的界面。

从时间线来看，2011年Siri随iPhone4s推出；2016年Google Assistant发布；国内手机厂商也在此后不断补齐本地化能力。从用户视角看，它们仍然属于同一代产品：可以理解意图，但无法真正代替用户完成任务。

近期行业出现了久违的变化。先是谷歌上个月宣布将在2026年停用Assistant语音助手，把系统级交互入口迁移至Gemini；接着国内本月，字节发布豆包手机助手预览版，实现让AI执行跨应用操作，而不是仅停留在语义对话。

这两件事虽然相隔不同市场，但方向一致：手机助手或许将要走出嘴勤手笨的体验困局了。

01 从一问一答到跨应用执行

乔布斯曾在介绍Siri时说，它不是搜索引擎，而是人工智能。如果语音助手具备学习能力，且长期与数亿用户交互，照理说，它的表现应越来越接近自然语言交流，而不是反复回到“对不起，我不明白你在说什么”的原点。

2011年，iPhone 4S发布会上，Siri首次亮相，标志着语音交互作为系统级能力被引入智能手机。Siri的英文全称是“Speech Interpretation & Recognition Interface”，也即强调语义识别而非命令触发。

在当时，这种一问一答的模式代表了人机交互的一次方向性突破。接下来的十年，这个方向并没有持续推进。

以Siri为代表的语音助手，其功能范围不断从语音控制电话、短信，扩展至语音字幕、智能通话、识屏、家居联动等系统能力。但最核心的能力：理解并执行任务，一直停留在语音问答阶段，几乎没有实质性进展。

这也是为什么，豆包手机助手的演示视频能重新激发行业关注：它不再是对话界面，而是执行界面。产品的核心转向，是将语音助手从“信息返回”升级为“任务完成”，将用户语义直接转译为一整套操作路径。

它关注的不是陪你说学逗唱解闷，而是可以帮助你完成什么任务。

例如，在比价购物场景中，用户只需说一句：“帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单”，助手便会自动在淘宝、京东、拼多多、抖音商城等App中依次搜索、比价、自动领券，筛出最低价后停在支付页，等待用户确认，避免自动扣款带来的误操作或越权风险。

500

再如图片处理，用户说“把这张照片里的人去掉”“把背景清理一下”，助手可以自动识别目标区域、调用图像编辑工具并完成操作，无需用户打开App逐步执行。

500

甚至在更复杂的跨场景链路中，豆包也游刃有余。用户可一次性发出多个指令，如：“订阅这个播客的更新并加入播放列表 → 打开特斯拉前备箱 → 订一个今晚八点半的餐厅”，助手将依次在对应App中完成操作，串联起本地应用与线下行为。

手机助手从回答问题，到完成任务，这一步花了十二年才真正走出来。

02 原生的AI交互体系

能够实现跨应用、多场景执行的手机助手，并不只是语义理解能力的堆叠。支持豆包手机助手能力的，是两个体系的同时成立：模型的执行规划能力和系统层面的原生接入能力。

首先是模型层面。豆包模型不仅做语义理解，还做界面理解与操作规划。它能够识别屏幕中的文本、按钮、布局、步骤逻辑，从而生成稳定的操作路径。最终呈现出不是“告诉用户怎么做”，而是“手机助手完成一系列点击和输入”。

这与传统语音助手停留在响应指令不同，本质上是一套GUI操作能力。

这套能力的核心是豆包在推理、视觉理解、图像创作、视频生成、语音等方面的性能达到国际一流水平，图形界面操作能力更是在多项权威评测中获得业界最佳成绩，可以像人类一样操作手机，完成各种复杂任务。

其次是交互层面。豆包手机助手并不是一个独立App，而是通过与手机厂商合作，在操作系统层获得了调用权限。这意味着模型不再运行在应用层，而是能够调度系统资源，跨应用组织动作。

在豆包手机助手发布的技术预览版演示视频中可以看到，AI助手在与手机厂商深度合作后，可以将豆包大模型融入原生交互体系，在手机使用的任意环节实现直接调用。

500

从演示视频看，两种能力结合后呈现的交互方式发生了明显变化：

用户无需复制内容或切换App，在任意界面都可以直接发起询问；屏幕内容会被即时理解，例如对照片提问“这个景点在哪”“是从什么视角拍的”，助手直接返回信息；原豆包生态中的语音通话、视频通话、屏幕共享等能力被系统级集成，仅需双击AI键即可进入实时对话。

两种体系能力的叠加下，豆包手机助手不再是一个额外功能，而是成为融入系统底层的能力。这意味着，大模型第一次不是作为“插件”存在，而是开始嵌入到系统级交互之中，成为手机操作链路中的一个原生AI节点。

03 AI原生手机的完全体

从演示内容来看，目前展示的能力还可以自定义个性化。豆包手机助手提供可选的记忆功能。在用户授权情况下，助手可以通过常用的个人偏好，提供更符合个人习惯的执行路径规划。

同时，豆包还探索了操作手机Pro模式。相较于基础模式依赖GUI Agent的逐步点击，Pro模式可以直接调用系统工具，并结合记忆数据规划操作方案。这一模式的关键转变，在于从逐条指令执行转向对用户真实意图的整体把握。

发布视频中的示例体现了这种差异：

用户说“帮我给女儿推荐几个礼物放进购物车”，在基础模式下，这是一个至少包含多个搜索、筛选和下单动作的复杂任务；而在Pro模式中，如果记忆中已记录孩子的年龄和兴趣，助手会直接聚焦与其匹配的商品并加入购物车，无需用户逐条补充条件。

跨应用执行解决了能做，记忆和Pro模式尝试解决该怎么做才合理。

需要强调的是，尽管此次演示内容为真实录制，但豆包仍将其定义为技术预览版本。官方提示，大模型当前阶段仍存在不确定性，无法保证在所有场景中稳定复现。这意味着方向已经清晰，但距离产品层面的完全体，仍有一定距离。

不过，即使尚在早期阶段，豆包手机助手在“执行权的可控性”上，已体现出一套较为完整的系统设计。当前演示中至少呈现出三层可控机制：

其一，任务状态可视化。当手机由助手执行任务时，屏幕将呈现动态光效提示；即便用户中途接管操作，屏幕边框仍显示任务提示，避免后台运行造成的信息不对称。

其二，状态栏胶囊机制。在无前台界面的情况下，所有任务进展均通过胶囊形式呈现在状态栏，涉及支付或授权等关键节点时，系统亦会发出明确提醒。

其三，信息补充机制。用户可在任务执行过程中随时进入交互界面，通过补充入口增补必要信息，保障任务结果的准确性和实用性。

这些机制背后的核心逻辑并非追求“最大限度自动化”，而是在明确边界下实现“透明、可中断、可协商”的自动执行能力。

值得注意的是，豆包手机助手的出现并不是一项孤立现象，而是在全球智能手机产业中出现的同类指向。

谷歌上月宣布2026年停用Assistant，将系统级入口迁移至Gemini；Gemini与三星合作的系统级Agent也正在落地测试。行业共识逐渐显现：手机厂商+大模型厂商的深度合作，而不是厂商单独构建语音助手，是新一代手机落地AI的主路径。

从助手入口向系统能力跃迁，手机行业关于AI操作系统的探索，可能正进入到更清晰的阶段。

科技生活财经举报

市象

研究真问题，书写真洞察。 |

493篇文章 | 209人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

Siri打开了手机的嘴，豆包接通了大脑和手脚

市象
市象官方账号

市象

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

风闻社区小助手_小风

全场景数码消费指南：风闻「数码情报局」邀你当消费裁判！

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

Siri打开了手机的嘴，豆包接通了大脑和手脚

市象 市象官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

市象
市象官方账号