MiroMind以30B参数实现万亿参数性能,成本仅为1/20

MiroMind的MiroThinker 1.5以30B参数实现万亿参数性能,成本仅为1/20

在日益增多的小型、强大推理模型行列中,又迎来了MiroMind的MiroThinker 1.5。该模型仅拥有300亿参数,而领先的基础大语言模型通常使用数千亿或数万亿参数。

但MiroThinker 1.5在这些小型推理模型中脱颖而出,原因在于:它以极低的推理成本,提供了可与Kimi K2和DeepSeek等万亿参数竞争对手相媲美的智能体研究能力。

此次发布标志着在推动高效、可部署人工智能智能体方面的一个里程碑。企业长期以来被迫在昂贵的前沿模型API调用和性能折衷的本地部署之间做出选择。MiroThinker 1.5提供了第三条路径:专门为扩展的工具使用和多步推理而设计的开源权重模型。

行业内正在兴起的一个最大趋势是从高度专业化的智能体转向更通用的智能体。直到最近,这种能力在很大程度上仍局限于专有模型。MiroThinker 1.5代表了该领域中一个严肃的开源权重竞争者。

通过可验证推理降低幻觉风险

对于评估AI部署的IT团队来说,幻觉仍然是生产中使用开源模型的主要障碍。MiroThinker 1.5通过MiroMind所称的【“科学家模式”】解决了这个问题——这是模型处理不确定性方式上的根本性架构转变。

与根据记忆模式生成统计上看似合理的答案(大多数幻觉的根源)不同,MiroThinker被训练为执行一个可验证的研究循环:提出假设、查询外部来源获取证据、识别不匹配之处、修正结论并再次验证。在训练过程中,模型会因缺乏来源支持的高置信度输出而受到明确惩罚。

对于企业部署的实际意义在于可审计性。当MiroThinker产生答案时,它可以同时展示其推理链和所咨询的外部来源。对于金融服务、医疗保健和法律等受监管行业,这创建了基于记忆的模型无法提供的文档追溯路径。合规团队不仅可以审查模型得出的结论,还可以审查其得出结论的过程。

这种方法也减少了生产AI系统中常见的“自信幻觉”问题。该模型被训练在不确定时寻求验证而非推测——这种行为直接转化为更少的昂贵错误。

基准测试性能:以小搏大

在此框架下,MiroThinker-v1.5-30B提供了与参数多达其30倍的模型(包括万亿参数的Kimi-K2-Thinking模型)相媲美的性能。

在BrowseComp-ZH(网络研究能力的关键基准测试)上,这个300亿参数的模型实际上以69.8分的成绩超越了其万亿参数的竞争对手。

成本差异同样显著。MiroMind报告称,30B变体的推理成本每次调用低至 0.07美元 ——大约是Kimi-K2-Thinking成本的二十分之一——同时推理速度更快。

一个更大的235B变体(在混合专家架构中拥有220亿活跃参数)在多个搜索智能体基准测试中位列全球顶级梯队。在通用智能体搜索评估中,这些模型与DeepSeek V3.2、Minimax、GLM和Kimi-K2的系统表现相当。

在测试中,更大的模型在多个基准测试上接近Gemini 3 Pro,并且比其参数数量所暗示的更接近GPT-5级别的系统。虽然追逐基准测试高分越来越普遍,但更重要的是整体竞争力——而MiroThinker表现良好。

扩展工具使用:每个会话高达400次工具调用

MiroThinker 1.5的定义性能力是持续的工具使用。

该模型支持高达 256,000个令牌的上下文 ,并声称每个会话支持 高达400次工具调用 ——这是涉及广泛信息收集、综合和交叉验证的复杂研究工作流程的关键要求。

这使MiroThinker稳固地跻身于为自主任务完成而非单轮问答而设计的新兴智能体模型类别。实际应用包括深度研究工作流程、内容管线、报告生成以及类似于NotebookLM的播客风格输出。

训练创新:时间敏感训练沙盒

MiroThinker 1.5的另一个主要创新是其 时间敏感训练沙盒 。

传统模型训练基于MiroMind描述的“上帝视角”进行操作,即模型可以访问静态数据集中的最终结果——这造成了事后偏见。MiroThinker的训练消除了这种优势。

在训练过程中,模型只能与给定时间戳之前发布的信息进行交互,防止未来信息泄露,并迫使其在不完整信息的现实条件下进行推理。

该训练管线结合了监督微调和通过 组相对策略优化(GRPO) (一种由DeepSeek推广的高级强化学习算法)使用可验证奖励的强化学习,鼓励模型在正确的时间选择正确的工具。

这种方法对于企业用例尤其重要,因为在这些用例中,模型必须对不断演变的情况进行推理,而不是回忆静态事实。

实际部署考虑

对于考虑部署的IT团队来说,硬件要求仍然很重要。即使是30B模型也需要大量的GPU内存,较小的配置可能会遇到困难。

一个优势是兼容性。MiroThinker在提供OpenAI兼容API端点的vLLM服务器上运行,使其更容易作为即插即用的替代方案集成到现有工具链和函数调用工作流程中。

两种模型尺寸均在Hugging Face上以宽松、对企业友好的 MIT许可证 提供,并有一个在线演示可供评估。该宽松许可证消除了内部部署和微调的主要障碍。

更宏观的图景:交互式扩展 vs. 参数扩展

MiroThinker 1.5的发布正值行业面临传统扩展定律的极限之际。更大的模型不再保证更好的现实世界性能。正如Artificial Analysis所指出的,许多基准测试已经饱和,推动行业朝着基于经济实用性而非仅仅是抽象推理的评估方向发展。

MiroMind的赌注在于 交互式扩展 ——通过更深度的工具交互来提高能力,而非不断增加参数数量。如果正确,这将使得在无需依赖昂贵前沿API的基础设施上运行复杂的智能体成为可能。

该公司由陈天桥和AI科学家贾继峰创立,将其使命描述为构建“原生智能”——通过交互而非记忆进行推理的人工智能。

这种方法会成为主流还是保持为一个专业细分领域,仍然是一个悬而未决的问题。但对于在成本与能力之间权衡取舍的企业来说,MiroThinker 1.5提供了一个引人注目的数据点:有时,教模型如何进行 研究比教它记住一切更重要 。

原文链接:

https://venturebeat.com/technology/mirominds-mirothinker-1-5-delivers-trillion-parameter-performance-from-a-30b

站务

全部专栏