微信群
MiMo-V2.5-Pro
MiMo-V2.5-Pro 是一个开源的专家混合(MoE)语言模型,总参数量达1.02万亿,激活参数量为420亿。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和三层多令牌预测(MTP)技术,上下文长度最高可达100万令牌。
1. 简介
MiMo-V2.5-Pro 是我们迄今为止最强大的模型,专为最严苛的智能体任务、复杂软件工程和长周期任务而设计。它能在 100 万 token 的上下文窗口中保持强大的指令遵循能力和连贯性,支持跨越数千次工具调用的复杂任务流程。主要特性包括:
- 混合注意力架构:以 6:1 的比例交替使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习注意力汇聚偏置(attention sink bias),在减少 KV 缓存存储近 7 倍的同时,保持长上下文性能。
- 多 token 预测(MTP):配备三个基于密集前馈网络(FFN)的轻量级 MTP 模块,推理时输出速度提升三倍,并可加速强化学习训练中的策略推演(rollout)。
- 高效预训练:使用 FP8 混合精度和原生 32k 序列长度,在 27T token 上完成训练。上下文窗口最高支持 100 万 token。
- 智能体能力:训练后阶段结合监督微调(SFT)、大规模智能体强化学习以及多教师同策略蒸馏(MOPD),在最严苛的智能体任务、复杂软件工程和长周期任务上表现卓越。
2. 模型下载
| 模型 | 总参数量 | 激活参数量 | 上下文长度 | 精度 | 下载 |
|---|---|---|---|---|---|
| MiMo-V2.5-Pro | 1.02T | 42B | 1M | FP8 (E4M3) Mixed | 🤗 HuggingFace |
| MiMo-V2.5-Pro-Base | 1.02T | 42B | 256K | FP8 (E4M3) Mixed | 🤗 HuggingFace |
3. 评估结果
基础模型评估
| Category | Benchmark | Setting | MiMo-V2.5-Pro Base | MiMo-V2.5 Base | DeepSeek-V4-Pro Base | DeepSeek-V4-Flash Base | Kimi-K2 Base |
|---|---|---|---|---|---|---|---|
| Params | #Activated / #Total | - | 42B / 1.02T | 15B / 310B | 49B / 1.6T | 13B / 284B | 32B / 1.04T |
| General | BBH | 3-shot | 88.4 | 87.2 | 87.5 | 86.9 | 88.7 |
| MMLU | 5-shot | 89.4 | 86.3 | 90.1 | 88.7 | 87.8 | |
| MMLU-Redux | 5-shot | 92.8 | 89.8 | 90.8 | 89.4 | 90.2 | |
| MMLU-Pro | 5-shot | 68.5 | 65.8 | 73.5 | 68.3 | 69.2 | |
| DROP | 3-shot | 86.3 | 83.7 | 88.7 | 88.6 | 83.6 | |
| ARC-Challenge | 25-shot | 97.2 | 96.5 | - | - | 96.2 | |
| HellaSwag | 10-shot | 89.8 | 88.6 | 88.0 | 85.7 | 94.6 | |
| WinoGrande | 5-shot | 85.6 | 84.7 | 81.5 | 79.5 | 85.3 | |
| TriviaQA | 5-shot | 81.3 | 80.7 | 85.6 | 82.8 | 85.1 | |
| GPQA-Diamond | 5-shot | 66.7 | 58.1 | - | - | 48.1 | |
| Math | GSM8K | 8-shot | 99.6 | 83.3 | 92.6 | 90.8 | 92.1 |
| MATH | 4-shot | 86.2 | 67.7 | 64.5 | 57.4 | 70.2 | |
| AIME 24&25 | 2-shot | 37.3 | 36.9 | - | - | 31.6 | |
| Code | HumanEval+ | 1-shot | 75.6 | 71.3 | - | - | 84.8 |
| MBPP+ | 3-shot | 74.1 | 70.9 | - | - | 73.8 | |
| LiveCodeBench v6 | 1-shot | 39.6 | 35.5 | - | - | 26.3 | |
| SWE-Bench (AgentLess) | 3-shot | 35.7 | 30.8 | - | - | 28.2 | |
| Chinese | C-Eval | 5-shot | 91.5 | 88.6 | 93.1 | 92.1 | 92.5 |
| CMMLU | 5-shot | 90.2 | 88.2 | 90.8 | 90.4 | 90.9 | |
| Multilingual | GlobalMMLU | 5-shot | 83.6 | 77.4 | - | - | 80.7 |
长上下文评估
GraphWalks是OpenAI推出的长上下文基准测试,通过用十六进制哈希节点的有向图填充提示词,要求模型运行广度优先搜索(精确找出深度为N的节点)或列出某个节点的父节点。我们在32k至100万输入标记的范围内进行评估,并应用了Anthropic描述的相同评估修正方案。
MiMo V2.5 Pro实现了长上下文推理的重大突破。当上下文超过128k时,V2 Pro版本性能急剧下降,在100万标记量级时两个子任务得分均归零;而V2.5 Pro在512k标记量级仍保持0.56(BFS)/0.92(父节点)的得分,在100万标记量级也维持0.37/0.62的表现。
四、模型架构与训练流程
MiMo-V2.5-Pro通过交替使用局部滑动窗口注意力(SWA)和全局注意力(GA)机制,解决了长上下文的二次方复杂度问题。与传统推测解码不同,我们的MTP模块实现了训练与推理的原生集成。
模型摘要
| Component | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| Total Parameters | 1.02T | 310B |
| Activated Parameters | 42B | 15B |
| Hidden Size | 6144 | 4096 |
| Num Layers | 70 (1 dense + 69 MoE) | 48 (1 dense + 47 MoE) |
| Full Attention Layers | 10 | 9 |
| SWA Layers | 60 | 39 |
| Num Attention Heads | 128 | 64 |
| Num KV Heads | 8 (GQA) | 8 (GA) / 4 (SWA) |
| Head Dim (QK / V) | 192 / 128 | 192 / 128 |
| Routed Experts | 384 | 256 |
| Experts per Token | 8 | 8 |
| MoE Intermediate Size | 2048 | 2048 |
| Dense Intermediate Size | 16384 (layer 0 only) | 16384 (layer 0 only) |
| SWA Window Size | 128 | 128 |
| Max Context Length | 1M | 1M |
| MTP Layers | 3 | 3 |
训练流程
在后训练阶段,MiMo-V2.5-Pro采用MiMo-V2-Flash提出的三阶段训练范式以实现卓越性能。该范式首先通过监督微调(SFT)阶段,使用精选数据对构建强大的指令跟随基础能力;接着在领域专项训练阶段,针对数学、安全性和复杂工具调用等不同领域,使用特定强化学习奖励分别优化多个教师模型;最终通过多教师策略蒸馏(MOPD)阶段,借助动态策略强化学习,使学生模型能从自身输出中迭代学习,并持续获得专家模型提供的精确词元级指导,从而无缝整合广泛能力。
5. 部署方案
由于推理引擎持续更新优化,本文档仅提供参考部署示例。为获得最佳性能,我们强烈建议参考我们的方案获取最新实践指南和最优性能配置。
SGLang部署说明
为了获得最佳性能,我们强烈推荐使用SGLang社区官方支持的这种部署方式。最新部署指南请参考SGLang MiMo-V2.5-Pro使用手册。
以下是通过SGLang运行模型的示例,引用自sgl-project/sglang#23808:
SGLANG_ENABLE_SPEC_V2=1SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256python3-msglang.launch_server\--model-path XiaomiMiMo/MiMo-V2.5-Pro\--trust-remote-code\--pp-size1\--dp-size2\--ep-size16\--tp-size16\--moe-dense-tp-size1\--enable-dp-attention\--moe-a2a-backend deepep\--dist-init-addr${LWS_LEADER_IP}:20000\--node-rank${LWS_WORKER_INDEX}\--nnodes${LWS_GROUP_SIZE}\--page-size64\--attention-backend fa3\--quantizationfp8\--mem-fraction-static0.7\--max-running-requests128\--cuda-graph-max-bs64\--chunked-prefill-size32768\--context-length1048576\--tokenizer-worker-num64\--speculative-algorithm EAGLE\--speculative-num-steps3\--speculative-eagle-topk1\--speculative-num-draft-tokens4\--enable-multi-layer-eagle\--host0.0.0.0\--port9001\--reasoning-parser mimo\--tool-call-parser mimo\--watchdog-timeout3600\--model-loader-extra-config'{"enable_multithread_load": "true","num_threads": 64}'vLLM 部署
为了获得最佳性能,我们强烈建议采用此方式进行部署,该方式已获得vLLM社区的官方支持。最新部署指南请参阅vLLM MiMo-V2.5-Pro 操作手册。
本地部署时,建议将采样参数设置为temperature=1.0,top_p=0.95。
联系我们
如有疑问或反馈,请通过邮箱mimo@xiaomi.com联系我们,或加入社区:
- 微信群