对话MiniMax Agent团队：“没有Agent企业敢说自己有壁垒”（下）

知危
知危官方账号

1小时前

500

知危：桌面 Agent 是比较新颖的产品形态，又涉及用户的私人数据输入，用户难免会有存储安全和隐私安全方面的担忧，MiniMax 如何解决这些安全隐患？

寻鹭：MiniMax Agent 的运行时（ Agent Loop ）以及与大模型的交互是在云端进行的，但它的所有工具环境包括命令行执行、本地文件读取、文件操作以及浏览器操作全都在用户的本地完成。

这也是为什么桌面端和网页端的记录没有同步，因为两者的工具和文件工作区是完全隔离的，这主要是出于安全和隐私的考虑。

针对本地执行命令行可能带来的安全挑战，我们主要通过产品设计和权限边界控制来应对。这并非新鲜课题，像 Cursor 等成熟 IDE 已有完备的机制。我们的设计参考了行业标准，尤其在处理权限申请时，会明确询问用户是 “ 仅限本次允许 ” 还是 “ 始终允许 ”。当
Agent 涉及操作未授权的文件夹、进入新的工作区，或执行之前未允许过的命令时，都会触发弹窗让用户进行 Double
Check。目前我们拥有一个固定的高风险命令列表，并结合模型进行判断，未来还会根据用户反馈持续补充这一列表，进一步加强在安全和权限边界上的交互，确保
Agent 的行为在用户知情且可控的范围内。

阿岛：从技术层面看，我们对命令安全性的控制主要关注其是否具有破坏性或不可逆性。首先通过基于规则的第一层过滤，确保高召回率以兜底风险，但可能覆盖不全、没那么灵活或有一定的误伤概率；其次通过大模型智能判断进行第二层识别以提高准确率。

技术上最核心的保护对象是数据。相比于容易通过程序命令备份和恢复的开发环境，数据的损失往往是不可逆的。因此，我们让大模型进行智能判断：首先，优先寻找可逆的操作方案来替代不可逆操作，比如用“移动到回收站”代替“直接删除”；其次，如果操作确实不可逆且无法替代，则判断是否可以先备份再执行。在完成这些前置逻辑后，模型会判断是否需要提示用户确认，并同步给出命令的解释以及存在的风险说明。

目前，“ 移动到回收站 ” 功能已在最新版本支持，服务端也已下发风险提示逻辑，前端 UI 正在紧锣密鼓地适配中。

知危：不只是普通用户，即便对于专家级用户，在 Agent 2.0 中构建 “ 专家 ” 可能也不是容易的事情，或者会很繁琐，确实有门槛，MiniMax 如何让用户更轻松地构建“专家”？

阿岛：针对如何帮助用户基于长期积累的 Context 生成专家，我们目前主要提供两种路径，重点解决配置门槛问题。

首先是 AI Creator，对于不熟悉 Sub-agent、Instruction、Skills 或 MCP 配置的普通用户，我们提供了一个 AI 驱动的创建工具。用户只需提供非结构化的知识（如一段 SEO 专家的文本资料），AI
就能自动解析并完成复杂的后端配置。以 SEO 专家为例，AI Creator 可以自动将任务拆解并配置成三个协同工作的
Sub-agent，同时自动配齐对应的 Skill 和调度指令，明确它们之间如何协作。这种方式的优势在于，它能迅速将用户的专业经验转化为可执行的
Agent 架构，而不需要用户具备任何技术背景。

AI
Creator 的核心价值在于将复杂的 SOP 自动转化为最优架构。用户只需将已有的知识库或 SOP 发给
AI，它就能在我们这套功能强大但配置相对复杂的专家框架中，自动匹配出最优的 Sub-agent 组合、Skill
定义和指令集。用户无需手动编辑繁琐的文档或参数。

如果发现专家执行效果不佳，只需像聊天一样告诉 AI：“ 它在某处处理得不好，帮我修改一下提取逻辑或解决方案。”

我们在制作 PGC 专家时也发现，最有效的调优方式并非手动改代码，而是通过对话引导 AI 迭代。因此，我们将这套内部实战经验沉淀到了 AI Creator 框架中，让普通用户也能以自然语言交互的方式，打磨出生产级别的专家。

除了 AI Creator，我们还提供了手动配置模式。这种模式特别适合有经验的 “ 深度玩家 ” 或已有积累的用户。如果用户此前在 Claude code 或其他 Agent 平台上已有成熟的 Prompt、Sub-agent 设定或 Skill（技能），可以直接 “ 丢 ” 进我们的框架中进行复用，实现无缝搬迁。

无论是 AI 自动生成的还是手动搬迁的专家，调优过程都极其简便。用户只需通过自然语言反馈，AI 就会辅助用户完成指令和逻辑的迭代优化。

知危：接入本地计算机 Context，会带来推理成本暴增吗？

寻鹭：确实，大家可能会担心 Agent 场景因为接入了用户个人电脑的数据，输入量变大，成本会比以前的产品高很多。

但其实测试下来还算好。就像有用户问理解图片和视频会不会很费积分，其实这种理解类任务反而不太会，因为这类工具的消耗是比较容易控制的。

当然，如果是生成类任务，确实是另外一个量级，也跟任务复杂度直接挂钩。

阿岛：本地环境的 Context 并不会导致上下文暴增。虽然用户本地可能有很多数据，比如一个一万字的文档，但我们的 Agent 并不是简单地一次性读入这整整一万字。它会根据用户的具体意图，更多地通过检索的形式去获取最相关的段落。所以，在本地处理数据，本质上并不会比其他场景产生更大的消耗差异或负面影响。

知危：说实话，用户真的不好判断积分（使用 2.0 会有积分的消耗）的消耗情况，这不是单纯以 token 多少付费。

寻鹭：官方这边也一直在持续优化消耗速率，目标是让用户的任务能在一个
ROI 比较高的区间内完成。比如下周我们要发布的一个功能就是做模式的 Routing。因为很多时候任务复杂度不高，Agent
完全可以自动调用“高效模式”快速搞定，不一定非要调用昂贵的 Pro 模式。

除此之外，我们一直在优化积分消耗。比如之前为保证最终效果，一些环节会让
Agent 做大量的自动化测评，后来我们增加了 “ 用户确认项 ”，用户可以选择是完全交给 Agent
去跑测试，还是由自己来做测试并把观察到的点反馈给 Agent，从而更高效、更省积分地完成修改。

虽然积分消耗逻辑目前还比较初级，但我们会持续增加它的透明度和用户友好度。比如最近收到不少关于整理文件夹等场景的反馈，我们会不断优化这些具体场景的消耗速率。其实这跟我们内部做 Agent Benchmark 的逻辑是一致的：我们不会为了追求一个极致的结果而不计成本。在我们评估一套新框架时，除了看任务得分，也会严格考察任务时长和 Token 消耗：如果得分很高但 Token 消耗增加了 5 倍，那我们并不认为这是一个好的方案。

知危：您多次强调 Agent Infra 的重要性以及对当前 Agent 发展的限制，行业当前现状到底是怎么样的，距离理想状态还有多远？

阿岛：Agent
Infra 目前确实还处于非常早期的状态。首先从协议标准和交互方式的角度，在我看来，MCP 也不是一个特别完备的定义，其实并不特别适合
Agent，我相信还会有新的标准出现，大家也在不断尝试。另外一个角度是大家要提供面向 Agent 的能力，这种能力可以是
MCP，也可以是一个更完备的定义，比如带有脚本和 API 的 Skill，核心是这些能力要能提供出来。

就像淘宝在电商时代通过支付宝这个创举，利用第三方托管解决了支付这一核心 Infra，电商的另一个核心 Infra 是履约，比如快递和电子面单，Agent 领域也需要类似的底层支撑。

所以，理想的 Agent Infra 应该是：首先是身份认证，要能像担保支付一样，确认 Agent 是安全且代表用户本人的。第二个是像电商履约链路一样，连接各种服务和 SaaS。这包括企业内部 SaaS 和用户常用的外部软件，比如 Notion、外卖、医疗、线上办公相关的文档、IM、邮件、日历，甚至财务系统和支付。

在有身份认证的前提下，信息提供方式也会改变。现在的网页是提供给人看的
HTML，未来也许会有专门提供给 Agent 的格式；或者随着 VLM 的进步，HTML 依然存在，但会从面向 SEO 优化转向面向
Agent 优化。比如为了让 Agent 快速导航，HTML 的标签需要变得更具语义化。

总结一句话，就是所有的基础设施、软件服务和人们的 Mindset，都将面向 AI 和 Agent 来重新定义和提供。我坚信这件事情一定会发生。

500

知危：专家的提示词设计有两点值得注意，一个是专家下还会设置 Sub-agent，这种双层结构的好处是什么？

寻鹭：这种 Sub-agent 结构和单一 Agent（ Single Agent ）或 Skills 的模式相比，核心好处在于：子 Agent 更适合处理那些领域性强、非常具体的任务。子 Agent 可以被看作是一个专注特定领域的 “ 小专家 ”，它能够配备专属于这一块任务的工具和 Skills。Skills 并不是只能挂在最上面那一层，子 Agent 同样可以拥有自己的 Skills。

以制作视频为例，如果用一个 Single Agent 挂载所有 Skills 来做，效果会很差：首先它的上下文会 “ 爆炸 ”，其次满载了各种杂乱信息的上下文会分散它的注意力，工具集也会变得非常臃肿，很难把活儿干细。采用 Sub-agent 结构的好处就在于 “ 专注与共享 ”，比如你可以把导演、脚本分镜、素材生成、后期剪辑分别交给不同的子 Agent。虽然它们各司其职，但因为共享同一个工作区，并且都能调用 Memory 工具，所以它们能拥有同样的上下文记忆。这种模式既保证了信息的同步，又让每个子 Agent 能够专注于自己的专业环节，把事情做得更深、更好。

此外，因为每个 Sub-agent 拥有独立的 Context Window，不容易触发上下文压缩总结。大家应该都知道，一旦触发压缩，模型就非常容易 “ 降智 ”。其次是 Sub-agent 具备不可替代的 “ 并发能力 ”。比如你需要同时创作 3 个分镜，或者同时调研 10 家上市公司。如果你只用一个 Single Agent 配一堆 Skills，它只能像排队一样一家一家做过去，既慢又做不深。

所以这两点最关键：一是专注，通过上下文隔离让任务做得更深、更好；二是能更好地处理并发。

那么
Skills 适合什么场景呢？Skills 适合那种不需要做得特别深、一个任务就解决一件具体事情的场景。比如说，帮我处理一个
Excel，具体用什么 Python 函数，或者需要什么样的 Excel 风格。所以 Skills 这种形式，它更像是一个知识库动态加载的
System Prompt。

当一个 Agent 在处理一件事（比如文档处理）时，它可能会面临不同的情况，一会儿是 Excel，一会儿又是 PDF 或 Word。这种时候你根据需要去动态加载对应的能力，一次只做一件事，就很合适用 Skills。

寻鹭：Agent 与 Sub-agent 之间并非只有单纯的并行执行，而是支持基于 SOP 的序贯协作。以深度调研（ Deep Research ）场景为例，系统会先启动调研
Agent 生成多份分散文档，随后由报告专家接手进行整合并添加图表，最后交给排版专家输出精美的 PDF 或 Word
格式，形成一条完整的流水线。至于更高自主性的多智能体交流，也有一些例子，例如国外的 “ 德州扑克 ” 专家或国内未来可能考虑上线的 “ 狼人杀
”、“ 打麻将 ” 等应用，通过在指令中设定游戏规则，多个智能体可以在规则框架下进行互相交流、对抗或协作。用户既可以作为旁观者观察这套 “
赛博生态 ”，也可以作为玩家参与其中。

知危：另一点是，提示词 Token 数限制是 5 万，但一般在此规模上下文下，模型表现会受限不是吗？

阿岛：对于设定 5 万 token 的高上限，核心逻辑是不希望人为在框架层面限制用户，尽管模型表现可能在这个量级可能受到影响。在产品设想中，用户基本不会手写如此冗长的提示词，而更多是由 Agent 自动生成并分配关于这部分内容是初始加载，动态加载 Skills，还是放入 Sub-agent 运行。

500 ：设定一个非常大的上限，也是为了兼容复杂的业务场景。例如在需要同时调度
10 个 Sub-agent 的情况下，Instruction 需要详细规定各 Agent 的并行调用逻辑或执行顺序。以 PGC Expert
中的“热点追踪”为例，即便经过压缩，其指令量依然巨大，因为它涉及五六个
Sub-agent，执行中间需要并行对挖掘出的热点话题再做一轮深度研究。但在大多数情况下，如果通过 AI Create
的方式生成指令，token 数通常会自然维持在 5000 左右。

知危：目前Agent 2.0的PGC、PUGC专家中，复杂度比较高的专家实例是什么？

寻鹭：我们海外应用端有一个炒股专家实例，融合了两个热门
GitHub 项目：Trading agents 与 AI hedge fund。首先是 Trading agents
负责的精细化调研阶段，它会抓取海量价格数据、分析各项技术指标并实时监测市场舆情。紧接着进入 AI hedge fund 模式，该流程内嵌了 18
个风格迥异的投资专家（如侧重 PE 比率、不同风险偏好或长期持有逻辑等），随后由 18 个专家组成 “ 议会 ” 进行内部磋商并投票决策买入与退出时机；最后，由风险专家和管理专家把控全局，并输出高质量的结项汇报。

阿岛：比如我们以 “ 英伟达能不能买 ” 等具体问题为切入点，通过详细调研后，由类似设定好的 “ 巴菲特 ”、“ 芒格 ”、“ 彼得·林奇 ”、“ 木头姐 ” 等 9 位大师组成模拟议会。每位大师根据各自的投资风格（如价值投资、成长性分析或风险对冲）给出具体的买入/卖出建议、仓位配比以及格式化的逻辑分析。这种模式比盲目满仓更理性，能有效通过多维度分析规避风险。实际测试中，大师们的集体判断往往比个人主观判断更具参考价值，能够帮助理财小白避免掉坑。

500

知危：我们观察桌面端可能还存在 Context 完整性的限制，比如有些企业的数据可能基本都在云办公软件中，MiniMax 打算如何克服这种限制？

寻鹭：其实在公司内部，我们其实有一个在飞书里运行的 Agent 实习生，只要飞书开放 API 就能较好地接入。

对于外部用户，并非所有企业的数据都在即时通讯工具里，云端可能更多起备份作用。

桌面端是我们拓展 Context 和环境的第一步，将 Web 端需要手动上传的形式转变为可以直接操作本地文件，这对于很多小型机构或个人来说已经是非常大的进步，因为他们的资料往往还是存在本地电脑里。

未来我们也希望能利用更多应用和云盘里的上下文环境，这也是我们后续追求的目标。

阿岛：实际上，我们已经有同事正在开发支持
OAuth 协议的功能，希望实现与其他 SaaS 软件的便捷接入。只要这些 SaaS 软件提供了相应的接口，比如通过 MCP或 OAuth
协议，都可以进行接入。但坦白说，目前像飞书等平台的 MCP 支持还不是特别完善。

我们内部目前是通过
API 封装来实现深度接入的。针对企业级场景，我们考虑以 ToB 模式应用，因为这需要企业管理员提供密钥授权才能调用 API。对于像
Notion、Slack 这种 OAuth 或 MCP 授权已相对成熟的平台，我们会尽快接入。我们的终极目标是接入用户所有的
Context。这正是我提到的 Agent Infra 的构建过程：不仅是 Agent 应用层的努力，更是整个行业甚至线下服务（如麦当劳的点餐 MCP ）向 AI 进化的过程。我们将尽可能全、尽可能快地接入这些能力。

寻鹭：获取更多
Context 确实面临巨大挑战。目前我们讨论的仍是具备 API
或能下载到本地操作的工具。但在大型企业中，数据仓库分布在不同平台，且出于隐私安全往往不对外开放。在这种情况下，很多在小环境跑得通的数据分析场景在大型组织里根本无法实现，因为无法打通各个孤立的平台。

这需要所有组织达成共识，认同 Agent 的价值，并齐心协力开放工具、API 和权限接口。因此，Context 的获取分为两步：第一步是努力接入已有的 API 或 MCP 开放应用；而更难的第二步则是，当常用的 SaaS 接入完成后，进一步深入将不再仅仅是软件或技术问题，而是涉及到组织架构与企业管理的深层挑战。

核心在于该公司的基础设施（ Infra ）是否对 Agent 友好，以及组织管理上是否乐于拥抱 “ 由 AI 替代人工节点 ” 的形式。

以数据分析为例，在我们内部，数仓平台与飞书 OAuth 完全打通，权限体系和使用流程非常顺畅，这使得从 Text-to-SQL 到自动生成报告的闭环效率极高。这种顺畅源于我们数据环境相对纯粹，且组织逻辑上更倾向于用 AI 解决问题。

将这一套 Agent 经验平移至大公司时，会面临显著的现实挑战：首先是存量组织与流程的惯性，大公司往往已有成熟细致的人工团队和固定流程，在资源充足的情况下，替代动力可能不如初创公司迫切；其次是系统碎片化与权限复杂度，大厂内部不同部门、组织间的平台与工具往往高度割裂，难以统一接入，导致开发适配
Agent 的基础设施周期漫长，且权限控制极其复杂，极大增加了面向 “ Agent 友好 ” 工具转换的难度。

还有一个现实痛点：ROI（投入产出比），在大公司维度下，当人力资源相对充足时，管理层会权衡：投入大量研发资源去开发工具接口、梳理复杂的权限边界以及界定责任归属，其最终带来的效率提升是否值得？这种涉及权限体系重构和责任控制的决策，往往很难在短期内快速推进。

知危：现在各家厂商都很卷，也有很多厂商先行做出了桌面端，那么MiniMax如何在当前形势下构建自己的竞争壁垒？

寻鹭：在去年没有那么多团队做 Agent 的时候，可能某些团队还能说自己有一些壁垒，但到了今年，坦白说没有任何一个团队有壁垒。

即使去问大厂做
Agent 的团队，或者在 Demo Day 上问那些做 Agent 的团队，也没有人能很好地回答这个问题。大家可能会说有某个行业的
know-how、能把垂直领域做深，或者有好的客户关系能推到企业里，但这些其实都不构成壁垒，大家一定会互相
overlap。所以从我们的角度来说，只能说我们想得更深，做得更新，并且把它落地得更快。

阿岛：如果模型都没有壁垒，怎么期盼一个 Agent 有壁垒？

不管是
Anthropic、Gemini 还是 OpenAI，他们之间都没有壁垒。Claude 3.0 做得很差，但 3.5 专注编程方向做出来了，到
4.0 的时候结合 Claude Code 更是惊艳；大家本也以为 Gemini 很差，结果 Gemini 3 也是专注 Vibe
Coding 追了上来起来。目前 OpenAI 的领先优势正被不断蚕食。未来如何发展谁也没法预料。

本质上，在一个技术的快速上升期，除非技术停滞，否则没有任何人能够拥有壁垒。唯一的壁垒就是你有没有组织优势：有没有相应的人才能保持足够强的认知，有没有相应的底层
Infra，以及整个团队去执行和实现它的技术能力。这其实就是 Anthropic 和 Gemini 能追上来的原因。比如
Gemini，最根本原因的是创始人直接下场写代码，如果没有这一点，其他努力都是白费心机。

知危：Agent 2.0 的下一步是什么？

阿岛：我们会有多个主要努力的方向。第一个方向，是继续完善桌面端设计、做 Experts，涉及 Knowledge 和 Memory 机制的构建，也会涉及思考如何通过 Computer Use 接入更多应用。

其中关于
Agent 的 “ 记忆 ” 功能，正处于规划阶段。展开做 Memory
其实有很多维度：是做长期的、全局的记忆，还是针对特定对话的、可快速清洗和编辑的短期记忆？是侧重于用户的人格画像、专业领域画像，还是基于用户工作流中沉淀的
Knowledge、SOP
以及工具使用习惯？这背后涉及非常多样的更新和清洗机制。目前我们还在内部权衡各种做的方法和维度，等之后正式上线，我们会有一个更清晰的形式来向大家说明这套机制具体是如何
Work 的，以及它如何帮助大家更高效地使用 Agent 来解决问题。

第二个方向是主动性，在我们内部实践中，Agent
任务的触发可以通过 Trigger 的方式主动运行，但现在的产品还是需要你输入一段东西，或者至少设一个定时任务它才能执行，还没有那么
Active，缺乏主动性。所以后续我们也想在接入更多应用后，能够基于一些 Webhook 技术去触发 Agent
做更加主动的行为，而不是让它只是在界面上等待你给它输入命令。

第三个方向是会让它更易用。我们发现，这种复杂的
Agent 要在更多场景达到 production
ready，对用户的友好性非常重要。举个例子，之前用户不一定能准确描述需求，或者只有一个模糊的想法，我们会有一个 clarification
的环节向他澄清意图。以前这个环节只是抛出一个 Markdown
渲染的大长段文字，正常用户看到要回答七个问题，很难手打大段文字说明需求。但今天我们做了 Generative UI，并设计了一些规范，让
Agent
在这种情况下出的是表单形式。原来的五六个问题变成了三步表单，你只需要点选，它就能根据指令做下一步任务，不需要再用文字回答。通过这种友好的交互，让用户提供更多需求并澄清意图，能让我们最后出来的结果更贴合用户的需要。

最后是提供更多的 PGC 和 PUGC 的 Expert，我们也会进一步鼓励 UGC 的生态。我们终归希望用户来用的时候，不是面对一个好像能解决所有问题的通用 Agent，而是带着自己明确要解决的问题。

阿岛：长期来看，我们未来的目标是做一个像个人助理一样的产品，能在生产力场景的
Context 和 Workflow
里为用户交付真正有价值的结果，让用户感觉真的多了几个助理和实习生，自己不用再去干那些琐碎重复的事情，可以专注于更有创意和创造力的事情。我们相信这最终能为用户极大提效，让用户离不开它，我们也得到相应的回报。

在具体技术趋势上，无论是做 Desktop 还是接入各种 OAuth，我们都希望获得更多 Context 并构建 Memory，让用户越用越顺手，甚至包括自动提示用户去生成专家，这源于 Agent 能够自进化。

确实，Agent 的下一个重要方向将是自举（ Self-bootstrapping ）与自我进化。即 Agent 不仅能为用户创造专家，还能根据反馈自我改进。

我们希望达到的下一步目标是：Agent 能够主动观察用户的满意度，并在发现表现不佳时，主动提议具体的修改点。这代表着 Agent 不再是一个 “ 死 ” 的配置，而是一个能与用户不断互动、在工作流中实时进化的实体。以代码编写为例，它能自动纠正那些繁琐的格式错误，而不需要人类反复叮嘱。

目前，我们公司内部处理用户反馈和问题的流程已经由 Agent 自己完成并给出建议。所以，我们正在推进的下一步，就是让 Agent 根据这些反馈自动优化自身。

虽然行业内目前仅有一部分人意识到这一点，但这将是 Agent 真正深度融入人类生产力的关键。

财经举报

知危

570篇文章 | 248人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

对话MiniMax Agent团队：“没有Agent企业敢说自己有壁垒”（下）

知危
知危官方账号

知危

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

风闻社区小助手_小风

风闻年度评选——2025十大热帖评选大会投票开始啦~

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

对话MiniMax Agent团队：“没有Agent企业敢说自己有壁垒”（下）

知危 知危官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

知危
知危官方账号