打造“无所不能、无处不在”的 AI,百度为何要从“操作系统”做起?

500

聪明又能干的超级生产力。

作者|Cynthia 

编辑|郑玄

大模型能梳理出中国上下五千年都发生了什么,却回答不了现在几点;能解释清楚什么叫量子力学,但却连做一个图文并茂的专业级 PPT 都很难办到。

为什么大模型看似无所不能,但实际用起来却总是差点意思?

原因很简单,聪明、博学不等于能干活。

聪明,需要大模型通过海量的知识训练与学习,练出了发达的大脑,可以很好的回答一个问题;

而同时满足聪明、能干两个要素,则需要给这个聪明的大脑,配上灵活四肢,实现「深度思考+深度交付」。

也是因此,如何推动大模型从聪明的思考,到实现「聪明又能干」的进化,成为了决定这轮大模型热潮究竟是昙花一现,还是改变历史的胜负手。

百度给出了打样。

4 月 25 日,在 Create 2025 百度 AI 开发者大会上,百度创始人李彦宏带来百度文库、百度网盘联合推出的全球首个内容领域的操作系统——沧舟 OS。

其通过充分融通百度文库和网盘过去积累的底层技术、能力、数据,可以像水一样,融通在不同场景里面,以最合理的形式、用户最便捷的交互界面,实现低门槛、和端到端的高质量交付。

依托于沧舟 OS,百度文库、百度网盘对 AI 的愿景和期待,就是在任何时候、任何地方,任何终端设备上,实现真正的一站式、端到端的交付,让 AI 做到「无所不能、无处不在」。

01

沧舟 OS,让 AI 向操作系统级进化

在科技产业有这样一个共识,任何技术从实验室到真正走向千家万户,都需要经历一个漫长的 Gartner 曲线历程。

500

在这条曲线中,第一阶段的增长,主要取决于技术进步带来的市场狂热预期,但随着技术的落地效果不理想,这一阶段的增长会快速进入衰退,直至技术落地所需的条件逐渐成熟,并被具象成几乎零门槛、无所不能、无处不在的基础设施,第二阶段的生态爆发便会随之到来。

软件产业第二阶段开启的标志之一,通常就是一个成熟操作系统的出现,比如 Windows 之于电脑产业,iOS 之于手机产业

那么如何定义一个成熟的操作系统?在大约 15 年前,全球的科技产业,有过这样一个争论:同样是能触屏操作、大屏手机、能打电话、能拍照、能听音乐、发短信,为什么苹果或者说智能手机与过去的功能机会是两个物种。

核心原因之一是,iOS 继承了来自 MAC OS 的内核级稳定性和多任务能力,并将其做成了一个开放生态,开发者们可以任意集成这些苹果的底层能力,做出自己的创新应用。这也让如何定义一个手机,从摩托罗拉、诺基亚一两家巨头的事,变成了整个生态一起参与,无限可能的庞大产业,自此拉开了此后十多年的移动互联网的大门

技术会滚滚向前,但商业故事的剧情总是会踏着相似节拍不断重复演绎,在手机 OS 中被验证过的底层逻辑,在大模型时代的 OS 构建上,依然通用。

总结来说有三:完整的底层能力、灵活的中枢调度、繁荣的应用服务生态。正好对应沧舟 OS 的三层架构:底座基建、中枢系统与应用服务。唯一的不同是,应用与中枢、底座中间的桥梁,从以往的 API,换成了更加标准化、低门槛的 MCP。

500

其中,MCP Server 部分的底座基建,它的核心组件是 Chatfile plus,主要作用是通过知识化框架,对不同模态、不同形态、不同格式的内容做元素级的拆解和解析处理,以及多模理解、多模检索、文件转码解析等一系列工具框架组件。

同时,百度文库和网盘构建了公域知识库、私域知识库、记忆库「三大库」,具体指的是百度文库多年累积的公域知识数据(公域知识库)、网盘的用户授权使用的知识数据(私域知识库)、用户过往在文库或网盘操作的指令、使用习惯和历史生成记录(记忆库)。

这些数据往往以不同模态、不同形态、不同格式呈现。其中,公域知识库提供通用的知识,私域知识库、记忆库则保存用户的个性化数据。

知识化框架中,沧舟 OS 将对「三大库」中的多模态内容进行向量化、标签化的处理,也就是将图片、文本、视频、音频、文档等非结构化数据,通过不同专业模型将其转化为计算机可以读懂的多维向量数据,也就是一组 token。

而在中枢系统上,百度文库和网盘自研了「三大器」,也就是融合编辑器(对应文档、PPT 等内容的编辑)、阅读器(文档与 PPT 等内容的阅读)、播放器(音视频播放)等工具。

同时,沧舟 OS 还可以通过「调度中枢」,通过交互组件、意图模型和传输基建等,结合用户记忆和画像数据,通过模型理解用户意图,高效分配调度 Agent。

最顶层,则是一系列 AI Agent。「沧舟 OS」集成文库、网盘的 PPT、AI 绘本、AI 思维导图、AI 海报、AI 笔记、AI 扫描、AI 听记等数百项 AI Agent,生成模态涵盖了图、文、影、音等各种类型、全面覆盖学习办公、生活娱乐等场景,并依托于融合编辑器的编辑、修改、精细调控能力,进而让检索和内容生成的质量更高、更符合实际的个性化任务需求。

02

在沧舟 OS 上,

打造更多「聪明又能干」的 Agent

围绕最顶层的应用服务,百度文库 & 百度网盘既推出了数亿用户验证过的好用的数百项 AI Agent,同时也接入了大量第三方的专业 Agent 做大应用生态。

作为「一站式 AI 内容获取和创作平台」,百度文库的付费用户已超 4000 万,AI 月活用户达 9700 万。百度网盘也升级为「一站式内容服务平台」,服务超 10 亿用户,使用空间总和超过 1000 亿 GB,AI 月活用户超 8000 万。百度文库、百度网盘已成为大模型时代真正的「超级生产力」。

在大会上,百度文库和百度网盘还展示了基于「沧舟 OS」开发的全新能力:「GenFlow 超能搭子」和「AI 笔记」。

GenFlow 超能搭子是百度文库 APP 推出的多智能体协作能力,有了「沧舟 OS」的加持,内容生成可以做到多任务并行,还能基于最全面专业的联网信息、用户自己的习惯和偏好来完成各项任务交付。

比如用户想要做一个婚礼策划,但是前期的输入只有一句简单的:我想五一在海南办一场户外婚礼,帮我做策划案与邀请函。

需求看似简单,只要对着历史模板完形填空就能搞定。但要做到用户满意,就需要知道用户的审美偏好、预算期望、流程偏好,还需要知道五一期间海南的天气、人流量、场地分布,在此之后还需要将这些图文与知识通过 PPT 工具进行组合,生成一个完整的方案,最后基于方案以及用户审美偏好,生成一张完整的婚礼请柬海报。     

而要完成以上内容,需要分别调度用户的历史聊天记录、历史浏览记录,以及意图识别、全网搜索、PPT 工具,分析用户意图,了解用户偏好,自由组合工具,最终才给出用户非常具体的包含流程、日期、场地、预算、主题、执行细节、风格、人员安排在内的完整策划案。

与此同时,用户需要的策划案与海报是互相搭配的,这也就需要两者的所有信息保持一致,用同一套操作系统并行输出。

当然,AI 一定没办法一次生成让所有人满意的成果,这就需要无论是婚礼策划案还是海报都需要具备可编辑能力,而支撑这一能力的,则是「沧舟 OS」的融合编辑器能力。

不难发现,从深度思考到深度交付,GenFlow 超能搭子几乎是市面上唯一一个真正的「多智能体协作」类产品的现货。不仅解决了多智能体协作类产品成本高、生成时间长、效率低、无法稳定交付、无法多轮对话调优的通病,更是直接内嵌到成熟产品与用户授权的私有数据结合,让 AI 真正有机会实现「无所不能、无处不在」的目标。

百度网盘的 AI 笔记,则是无数办公党、考研考公党的得力干将。

AI 笔记是业内第一个多模态 AI 笔记, 可以将用户在百度网盘存储的各种考研学习视频和笔记页面嵌套在同一个界面,实现丝滑联动,且视频内容和笔记互相强关联,从看视频,到生成 AI 笔记,到总结 AI 脑图再到最后的 AI 出题检验学习成果,完整覆盖用户学习的全周期。

举个例子,英语考研太难成为了前段时间的热门话题,用户想要针对考研英语做集中的复习。AI 笔记会先对用户网盘中存储的相关资料进行检索,同时查询网上公开资料给出的考点,对其进行整理。但整个过程并没有停留于此,AI 笔记还会结合历年真题,对自己生成的考点进行最终校验,只有经过校验的考点,才能在此基础上继续生成思维导图、考题预测,帮助用户加速学习进度。   

而在这过程中,涉及的工具调用,并不比做婚礼策划更少。比如,找考点、找真题需要全网检索能力,而真题往往以 PDF 甚至图片的格式呈现,名师解读则以视频形式呈现,这就需要多模态内容的解析能力。最终的思维导图生成与考题预测,则需要大模型的推理能力、多模态内容生成能力,以及与不同内容之间的映射关联的能力,同时还需要保证内容生成的绝对准确性。

这背后,就是「沧舟 OS」的赋能。

当然,百度支持开发者全面拥抱 MCP,所以沧舟 OS 不只服务于百度的内部生态,操作系统发展壮大最重要的一环是对外开放,激发广大开发者的创新能力。

所以,为了让生态和应用发挥最大价值,百度文库、百度网盘基于「沧舟 OS」,率先将 MCP 充分运用到产品与生态的链接上,构建 MCP Server-Client-Host 三层体系,将文库、网盘的能力通过 MCP Server 形式开放,通过 MCP Client SDK,方便更多企业用户、开发者、智能体应用等 MCP Host 接入。

500

其中,最有代表性的案例当属三星手机。三星手机正在接入百度文库网盘的文件上传、下载、检索、分享和内容理解等多个 MCP server。

一方面,用户在手机的语音助手界面,通过说话方式,就可以直接实现文件的上传网盘备份、云上分享、文档摘要总结和内容问答等功能。

另一方面,这些 server 还能够丰富三星手机系统的云存储能力,解决手机自身对大文件、多文件难以批量备份和分享的问题。

比如用户在手机相册里,唤起语音助手说:「把昨天在奥森拍的照片备份至百度网盘,并把小明的照片发送给他」。相关照片就会被上传到用户授权的网盘账号内,并生成分享链接,手机助手再调用通讯录,把这个链接通过短信方式发到对方手机上,只要点击链接,用户就能直接进入百度网盘查看或转存。

毫无疑问,检验 OS 底层能力是否可靠,并不在于工具的堆砌,或者黑科技的多少。顶层应用服务生态是否好用、成熟与丰富,是 OS 能力的最佳检验标准。

03

OS 的故事没有终点

在资本市场,最被投资者认可的一种企业类型,叫「时间的朋友」。

所谓时间的朋友,就是当企业做对了一件事情之后,接下来只需要继续做下去,那么业绩就会维持永动机式增长,生态开发者也能持续受益。

而操作系统,就是这样一个典型的永动机式市场。只要电脑、手机的市场还依然存在,那么属于微软、苹果、谷歌们的操作系统的故事就没有终点。

大模型也是同理。当「深度思考+深度交付+公私数据+MCP 生态」集合在一起,未来成为新时代无所不能、无处不在的 AI,那么,类似寒武纪的新物种大爆发就将源源不断的产生。

在这个过程中,向下看,是百度文库、百度网盘等对自身能力的开放。通过积极拥抱生态,成为大模型新物种的创造者和新规则的制定者。

向上看,则是无数新的 Agent 基于「沧舟 OS」而被创造出来、被看到,构成磅礴喷涌的新应用服务生态。

而当下,所有故事,才刚刚开始。

*头图来源:百度

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

站务

全部专栏