小米开源MiMo-7B模型
近日,小米大模型团队通过“Xiaomi MiMo”官方公众号正式对外发布首款自研大模型 Xiaomi MiMo,并同步宣布该模型全面开源。这款仅7B参数的小体量模型,在多个核心评测中表现亮眼:不仅在AIME 24-25数学测评集上取得领先,还在LiveCodeBench v5代码评测中超越o1-mini与阿里QwQ-32B等多个重量级模型,充分展现出其在推理场景中的突破性能力。
MiMo模型的推理能力来源于其在训练设计上的独特思路:在预训练阶段,小米构建了覆盖广泛推理场景的高质量语料集,合成了超过2000亿tokens的推理数据,并通过三阶段逐步递进的策略,引导模型逐步适应从基础逻辑推理到复杂任务的难度递增。训练总数据量高达25T tokens,为模型推理能力打下坚实基础。
进入后训练阶段,小米团队设计了 Test Difficulty Driven Reward 奖励机制,有效缓解稀疏奖励问题,并通过 Easy Data Re-Sampling 机制提升训练稳定性。配合 Seamless Rollout 技术,RL训练效率提升至原来的2.29倍,验证过程提速1.96倍,模型整体性能显著增强。
从评估结果来看,MiMo-7B在多个推理任务中实现了小模型对大模型的反超:在AIME 24-25的数论、几何题目中超越了13B规模的o1-mini;在LiveCodeBench v5复杂算法题目中,则胜出32B参数的QwQ-32B-Preview,展现了超参数级别的思维逻辑与问题解决能力。
目前,MiMo-7B模型已上线Hugging Face,技术报告同步开源,开发者可直接下载模型权重与推理代码。小米此举不仅释放了轻量级模型在推理场景中的强大潜力,也再次验证了训练策略优化对模型性能提升的决定性作用。