罗福莉首次公开亮相:讲解小米开源模型MiMo-V2-Flash

2025年12月17日,小米人车家全生态合作伙伴大会上罗福莉首次公开亮相,并揭开了开源模型MiMo-V2-Flash实现极致推理速度的核心技术奥秘。

500

据了解,MiMo-V2-Flash 实现高速推理的核心技术包括了混合滑动窗口注意力机制和轻量级多Token预测。

混合滑动窗口注意力机制采用了5层滑动窗口与1层全局注意力交替的结构,大幅降低KV缓存占用,支持最长256K上下文,同时保持长文本处理能力。而轻量级多Token预测则通过3层MTP模块实现并行token预测,平均可接受2.8–3.6个token,推理速度提升2.0–2.6倍。

500

该技术不仅加速推理,还优化训练阶段采样效率,缓解小批量强化学习中的GPU空转问题。

站务

全部专栏