【小米拥抱开源】Agent 时代新标杆：小米 MiMo-V2.5-Pro 与 MiMo-V2.5 正式开源，赋能全场景 AI 开发-酒店常州论坛

社群
微信群

MiMo-V2.5-Pro

MiMo-V2.5-Pro 是一个开源的专家混合（MoE）语言模型，总参数量达1.02万亿，激活参数量为420亿。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和三层多令牌预测（MTP）技术，上下文长度最高可达100万令牌。

1. 简介

MiMo-V2.5-Pro 是我们迄今为止最强大的模型，专为最严苛的智能体任务、复杂软件工程和长周期任务而设计。它能在 100 万 token 的上下文窗口中保持强大的指令遵循能力和连贯性，支持跨越数千次工具调用的复杂任务流程。主要特性包括：

混合注意力架构：以 6:1 的比例交替使用滑动窗口注意力（SWA）和全局注意力（GA），滑动窗口大小为 128。通过可学习注意力汇聚偏置（attention sink bias），在减少 KV 缓存存储近 7 倍的同时，保持长上下文性能。
多 token 预测（MTP）：配备三个基于密集前馈网络（FFN）的轻量级 MTP 模块，推理时输出速度提升三倍，并可加速强化学习训练中的策略推演（rollout）。
高效预训练：使用 FP8 混合精度和原生 32k 序列长度，在 27T token 上完成训练。上下文窗口最高支持 100 万 token。
智能体能力：训练后阶段结合监督微调（SFT）、大规模智能体强化学习以及多教师同策略蒸馏（MOPD），在最严苛的智能体任务、复杂软件工程和长周期任务上表现卓越。

2. 模型下载

模型	总参数量	激活参数量	上下文长度	精度	下载
MiMo-V2.5-Pro	1.02T	42B	1M	FP8 (E4M3) Mixed	🤗 HuggingFace
MiMo-V2.5-Pro-Base	1.02T	42B	256K	FP8 (E4M3) Mixed	🤗 HuggingFace

3. 评估结果

基础模型评估

Category	Benchmark	Setting	MiMo-V2.5-Pro Base	MiMo-V2.5 Base	DeepSeek-V4-Pro Base	DeepSeek-V4-Flash Base	Kimi-K2 Base
Params	#Activated / #Total	-	42B / 1.02T	15B / 310B	49B / 1.6T	13B / 284B	32B / 1.04T
General	BBH	3-shot	88.4	87.2	87.5	86.9	88.7
MMLU	5-shot	89.4	86.3	90.1	88.7	87.8
MMLU-Redux	5-shot	92.8	89.8	90.8	89.4	90.2
MMLU-Pro	5-shot	68.5	65.8	73.5	68.3	69.2
DROP	3-shot	86.3	83.7	88.7	88.6	83.6
ARC-Challenge	25-shot	97.2	96.5	-	-	96.2
HellaSwag	10-shot	89.8	88.6	88.0	85.7	94.6
WinoGrande	5-shot	85.6	84.7	81.5	79.5	85.3
TriviaQA	5-shot	81.3	80.7	85.6	82.8	85.1
GPQA-Diamond	5-shot	66.7	58.1	-	-	48.1
Math	GSM8K	8-shot	99.6	83.3	92.6	90.8	92.1
MATH	4-shot	86.2	67.7	64.5	57.4	70.2
AIME 24&25	2-shot	37.3	36.9	-	-	31.6
Code	HumanEval+	1-shot	75.6	71.3	-	-	84.8
MBPP+	3-shot	74.1	70.9	-	-	73.8
LiveCodeBench v6	1-shot	39.6	35.5	-	-	26.3
SWE-Bench (AgentLess)	3-shot	35.7	30.8	-	-	28.2
Chinese	C-Eval	5-shot	91.5	88.6	93.1	92.1	92.5
CMMLU	5-shot	90.2	88.2	90.8	90.4	90.9
Multilingual	GlobalMMLU	5-shot	83.6	77.4	-	-	80.7

长上下文评估

GraphWalks是OpenAI推出的长上下文基准测试，通过用十六进制哈希节点的有向图填充提示词，要求模型运行广度优先搜索（精确找出深度为N的节点）或列出某个节点的父节点。我们在32k至100万输入标记的范围内进行评估，并应用了Anthropic描述的相同评估修正方案。

MiMo V2.5 Pro实现了长上下文推理的重大突破。当上下文超过128k时，V2 Pro版本性能急剧下降，在100万标记量级时两个子任务得分均归零；而V2.5 Pro在512k标记量级仍保持0.56（BFS）/0.92（父节点）的得分，在100万标记量级也维持0.37/0.62的表现。

四、模型架构与训练流程

MiMo-V2.5-Pro通过交替使用局部滑动窗口注意力（SWA）和全局注意力（GA）机制，解决了长上下文的二次方复杂度问题。与传统推测解码不同，我们的MTP模块实现了训练与推理的原生集成。

模型摘要

Component	MiMo-V2.5-Pro	MiMo-V2.5
Total Parameters	1.02T	310B
Activated Parameters	42B	15B
Hidden Size	6144	4096
Num Layers	70 (1 dense + 69 MoE)	48 (1 dense + 47 MoE)
Full Attention Layers	10	9
SWA Layers	60	39
Num Attention Heads	128	64
Num KV Heads	8 (GQA)	8 (GA) / 4 (SWA)
Head Dim (QK / V)	192 / 128	192 / 128
Routed Experts	384	256
Experts per Token	8	8
MoE Intermediate Size	2048	2048
Dense Intermediate Size	16384 (layer 0 only)	16384 (layer 0 only)
SWA Window Size	128	128
Max Context Length	1M	1M
MTP Layers	3	3

训练流程

在后训练阶段，MiMo-V2.5-Pro采用MiMo-V2-Flash提出的三阶段训练范式以实现卓越性能。该范式首先通过监督微调(SFT)阶段，使用精选数据对构建强大的指令跟随基础能力；接着在领域专项训练阶段，针对数学、安全性和复杂工具调用等不同领域，使用特定强化学习奖励分别优化多个教师模型；最终通过多教师策略蒸馏(MOPD)阶段，借助动态策略强化学习，使学生模型能从自身输出中迭代学习，并持续获得专家模型提供的精确词元级指导，从而无缝整合广泛能力。

5. 部署方案

由于推理引擎持续更新优化，本文档仅提供参考部署示例。为获得最佳性能，我们强烈建议参考我们的方案获取最新实践指南和最优性能配置。

SGLang部署说明

为了获得最佳性能，我们强烈推荐使用SGLang社区官方支持的这种部署方式。最新部署指南请参考SGLang MiMo-V2.5-Pro使用手册。

以下是通过SGLang运行模型的示例，引用自sgl-project/sglang#23808:

SGLANG_ENABLE_SPEC_V2=1SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256python3-msglang.launch_server\--model-path XiaomiMiMo/MiMo-V2.5-Pro\--trust-remote-code\--pp-size1\--dp-size2\--ep-size16\--tp-size16\--moe-dense-tp-size1\--enable-dp-attention\--moe-a2a-backend deepep\--dist-init-addr${LWS_LEADER_IP}:20000\--node-rank${LWS_WORKER_INDEX}\--nnodes${LWS_GROUP_SIZE}\--page-size64\--attention-backend fa3\--quantizationfp8\--mem-fraction-static0.7\--max-running-requests128\--cuda-graph-max-bs64\--chunked-prefill-size32768\--context-length1048576\--tokenizer-worker-num64\--speculative-algorithm EAGLE\--speculative-num-steps3\--speculative-eagle-topk1\--speculative-num-draft-tokens4\--enable-multi-layer-eagle\--host0.0.0.0\--port9001\--reasoning-parser mimo\--tool-call-parser mimo\--watchdog-timeout3600\--model-loader-extra-config'{"enable_multithread_load": "true","num_threads": 64}'

vLLM 部署

为了获得最佳性能，我们强烈建议采用此方式进行部署，该方式已获得vLLM社区的官方支持。最新部署指南请参阅vLLM MiMo-V2.5-Pro 操作手册。

本地部署时，建议将采样参数设置为temperature=1.0，top_p=0.95。

联系我们

如有疑问或反馈，请通过邮箱mimo@xiaomi.com联系我们，或加入社区：

微信群

企业官网建设流程全解析

MiMo-V2.5-Pro

1. 简介

2. 模型下载

3. 评估结果

基础模型评估

长上下文评估

四、模型架构与训练流程

模型摘要

训练流程

5. 部署方案

SGLang部署说明

vLLM 部署

联系我们

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

MiMo-V2.5-Pro

1. 简介

2. 模型下载

3. 评估结果

基础模型评估

长上下文评估

四、模型架构与训练流程

模型摘要

训练流程

5. 部署方案

SGLang部署说明

vLLM 部署

联系我们

热门文章

文章分类

标签云

相关文章

零基础也能跟上的UCBerkeley CS61B自学指南：从Java环境配置到GitHub项目提交（附2023版资源）

前端安全设计思考

3步快速上手：免费开源图像矢量化工具vectorizer完全指南

需要专业的网站建设服务？