Siri打开了手机的嘴,豆包接通了大脑和手脚

500

吃上豆包的手机先迈一步。

作者|古廿

编辑|杨舟

12月1日,字节跳动豆包团队发布了一段视频,演示了豆包手机助手的一系列能力。

从视频中的场景看,豆包手机助手的能力覆盖跨应用执行流程、屏幕内容读取、多模态识别、系统级唤醒、跨平台比价下单、远程控制汽车等操作。在开启记忆功能后,执行路径所需的询问也明显减少,具备一定连续任务能力。

这些能力几乎覆盖了过去数年间用户对于“AI手机助手”想象中的典型使用场景。因此尽管目前仍处于技术预览阶段,但还是使语音助手这个沉寂多年的手机能力,被重新放到了主流视野的讨论范围。

这款手机助手并非单一的App,而是以和手机厂商合作的形式推出。目前演示所用机型来自豆包与中兴合作的一款设备,前者主导AI助手的产品定义与交互体验,后者负责硬件研发与制造。

发售仅一天,12月2日据中兴商城显示,首款搭载豆包助手的合作机型已显示“售罄”。对于备货和销量数据,努比亚方面对外公开表示,“目前暂时没有销量数据,因为是第一款,少量对外发售。”

在二手平台闲鱼上,该机标价普遍在4200元至4999元之间,较官方定价溢价700至1500元不等。豆包方面表示,目前并没有开发手机的计划,现阶段推进的方向是与多家手机厂商进行合作落地。

手机助手并非新鲜概念,其在智能手机中存在已久,但定位始终模糊。几乎所有主流厂商在系统更新中都延续了语音助手的入口设计,但它从未成为用户购机决策的关键因素。

背后的原因并不复杂。在多数用户的真实体验里,语音助手能回应,却帮不上忙。过去十年来,语音助手的能力上限基本停留在识别语句、回答问题、打开应用,长期游走在对话交互的界面。

从时间线来看,2011年Siri随iPhone4s推出;2016年Google Assistant发布;国内手机厂商也在此后不断补齐本地化能力。从用户视角看,它们仍然属于同一代产品:可以理解意图,但无法真正代替用户完成任务。

近期行业出现了久违的变化。先是谷歌上个月宣布将在2026年停用Assistant语音助手,把系统级交互入口迁移至Gemini;接着国内本月,字节发布豆包手机助手预览版,实现让AI执行跨应用操作,而不是仅停留在语义对话。

这两件事虽然相隔不同市场,但方向一致:手机助手或许将要走出嘴勤手笨的体验困局了。

01 从一问一答到跨应用执行

乔布斯曾在介绍Siri时说,它不是搜索引擎,而是人工智能。如果语音助手具备学习能力,且长期与数亿用户交互,照理说,它的表现应越来越接近自然语言交流,而不是反复回到“对不起,我不明白你在说什么”的原点。

2011年,iPhone 4S发布会上,Siri首次亮相,标志着语音交互作为系统级能力被引入智能手机。Siri的英文全称是“Speech Interpretation & Recognition Interface”,也即强调语义识别而非命令触发。

在当时,这种一问一答的模式代表了人机交互的一次方向性突破。接下来的十年,这个方向并没有持续推进。

以Siri为代表的语音助手,其功能范围不断从语音控制电话、短信,扩展至语音字幕、智能通话、识屏、家居联动等系统能力。但最核心的能力:理解并执行任务,一直停留在语音问答阶段,几乎没有实质性进展。

这也是为什么,豆包手机助手的演示视频能重新激发行业关注:它不再是对话界面,而是执行界面。产品的核心转向,是将语音助手从“信息返回”升级为“任务完成”,将用户语义直接转译为一整套操作路径。

它关注的不是陪你说学逗唱解闷,而是可以帮助你完成什么任务。

例如,在比价购物场景中,用户只需说一句:“帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单”,助手便会自动在淘宝、京东、拼多多、抖音商城等App中依次搜索、比价、自动领券,筛出最低价后停在支付页,等待用户确认,避免自动扣款带来的误操作或越权风险。

500

再如图片处理,用户说“把这张照片里的人去掉”“把背景清理一下”,助手可以自动识别目标区域、调用图像编辑工具并完成操作,无需用户打开App逐步执行。

500

甚至在更复杂的跨场景链路中,豆包也游刃有余。用户可一次性发出多个指令,如:“订阅这个播客的更新并加入播放列表 → 打开特斯拉前备箱 → 订一个今晚八点半的餐厅”,助手将依次在对应App中完成操作,串联起本地应用与线下行为。

手机助手从回答问题,到完成任务,这一步花了十二年才真正走出来。

02 原生的AI交互体系

能够实现跨应用、多场景执行的手机助手,并不只是语义理解能力的堆叠。支持豆包手机助手能力的,是两个体系的同时成立:模型的执行规划能力和系统层面的原生接入能力。

首先是模型层面。豆包模型不仅做语义理解,还做界面理解与操作规划。它能够识别屏幕中的文本、按钮、布局、步骤逻辑,从而生成稳定的操作路径。最终呈现出不是“告诉用户怎么做”,而是“手机助手完成一系列点击和输入”。

这与传统语音助手停留在响应指令不同,本质上是一套GUI操作能力。

这套能力的核心是豆包在推理、视觉理解、图像创作、视频生成、语音等方面的性能达到国际一流水平,图形界面操作能力更是在多项权威评测中获得业界最佳成绩,可以像人类一样操作手机,完成各种复杂任务。

其次是交互层面。豆包手机助手并不是一个独立App,而是通过与手机厂商合作,在操作系统层获得了调用权限。这意味着模型不再运行在应用层,而是能够调度系统资源,跨应用组织动作。

在豆包手机助手发布的技术预览版演示视频中可以看到,AI助手在与手机厂商深度合作后,可以将豆包大模型融入原生交互体系,在手机使用的任意环节实现直接调用。

500

从演示视频看,两种能力结合后呈现的交互方式发生了明显变化:

用户无需复制内容或切换App,在任意界面都可以直接发起询问;屏幕内容会被即时理解,例如对照片提问“这个景点在哪”“是从什么视角拍的”,助手直接返回信息;原豆包生态中的语音通话、视频通话、屏幕共享等能力被系统级集成,仅需双击AI键即可进入实时对话。

两种体系能力的叠加下,豆包手机助手不再是一个额外功能,而是成为融入系统底层的能力。这意味着,大模型第一次不是作为“插件”存在,而是开始嵌入到系统级交互之中,成为手机操作链路中的一个原生AI节点。

03 AI原生手机的完全体

从演示内容来看,目前展示的能力还可以自定义个性化。豆包手机助手提供可选的记忆功能。在用户授权情况下,助手可以通过常用的个人偏好,提供更符合个人习惯的执行路径规划。

同时,豆包还探索了操作手机Pro模式。相较于基础模式依赖GUI Agent的逐步点击,Pro模式可以直接调用系统工具,并结合记忆数据规划操作方案。这一模式的关键转变,在于从逐条指令执行转向对用户真实意图的整体把握。

发布视频中的示例体现了这种差异:

用户说“帮我给女儿推荐几个礼物放进购物车”,在基础模式下,这是一个至少包含多个搜索、筛选和下单动作的复杂任务;而在Pro模式中,如果记忆中已记录孩子的年龄和兴趣,助手会直接聚焦与其匹配的商品并加入购物车,无需用户逐条补充条件。

跨应用执行解决了能做,记忆和Pro模式尝试解决该怎么做才合理。

需要强调的是,尽管此次演示内容为真实录制,但豆包仍将其定义为技术预览版本。官方提示,大模型当前阶段仍存在不确定性,无法保证在所有场景中稳定复现。这意味着方向已经清晰,但距离产品层面的完全体,仍有一定距离。

不过,即使尚在早期阶段,豆包手机助手在“执行权的可控性”上,已体现出一套较为完整的系统设计。当前演示中至少呈现出三层可控机制:

其一,任务状态可视化。当手机由助手执行任务时,屏幕将呈现动态光效提示;即便用户中途接管操作,屏幕边框仍显示任务提示,避免后台运行造成的信息不对称。

其二,状态栏胶囊机制。在无前台界面的情况下,所有任务进展均通过胶囊形式呈现在状态栏,涉及支付或授权等关键节点时,系统亦会发出明确提醒。

其三,信息补充机制。用户可在任务执行过程中随时进入交互界面,通过补充入口增补必要信息,保障任务结果的准确性和实用性。

这些机制背后的核心逻辑并非追求“最大限度自动化”,而是在明确边界下实现“透明、可中断、可协商”的自动执行能力。

值得注意的是,豆包手机助手的出现并不是一项孤立现象,而是在全球智能手机产业中出现的同类指向。

谷歌上月宣布2026年停用Assistant,将系统级入口迁移至Gemini;Gemini与三星合作的系统级Agent也正在落地测试。行业共识逐渐显现:手机厂商+大模型厂商的深度合作,而不是厂商单独构建语音助手,是新一代手机落地AI的主路径。

从助手入口向系统能力跃迁,手机行业关于AI操作系统的探索,可能正进入到更清晰的阶段。

站务

全部专栏