DeepSeek V4-Pro vs MiMo-V2.5-Pro:全面深度对比
2026 年 4 月最后一周,小米 MiMo-V2.5 系列(4月23日)与 DeepSeek V4 系列(4月24日)前后脚发布。两者均为 MIT 协议开源、MoE 架构、百万级上下文,定位高度重叠。本文基于 Artificial Analysis、SuperCLUE 等第三方评测机构数据进行对比,价格均来自各模型官网。
一、项目简介
DeepSeek V4-Pro由深度求索发布,是 V3.2 之后时隔约一年半的大版本更新。架构层面引入 CSA/HCA 混合注意力、mHC 流形约束残差连接、Muon 优化器三项底层创新。配套发布效率版 V4-Flash(284B 总参/13B 激活)。纯文本模型,1M 上下文为全线标配。
MiMo-V2.5-Pro由小米大模型 Core Team 发布,采用混合注意力 + 多 Token 预测架构。特别注意:MiMo-V2.5-Pro 是纯文本模型,不具备多模态能力。小米同期还发布了全模态版 MiMo-V2.5(310B 总参/15B 激活,支持图像/音频/视频),以及 TTS、ASR 模型,均基于 MIT 协议开源。
二、核心参数对比
| 维度 | DeepSeek V4-Pro | MiMo-V2.5-Pro |
|---|---|---|
| 架构 | MoE | MoE |
| 总参数 | 1.6T | 1.02T |
| 激活参数 | 49B | 42B |
| 预训练数据 | 约 33T tokens | 27T tokens |
| 上下文长度 | 100 万 token | 100 万 token |
| 多模态 | 纯文本 | 纯文本⚠️(全模态能力由 V2.5 提供) |
| 开源协议 | MIT | MIT |
三、第三方评测数据
3.1 Artificial Analysis Intelligence Index(数据截至2026年5月6日)
Artificial Analysis Intelligence Index v4.0 是全球公认的独立第三方基准测试,涵盖推理、知识、数学及编程等综合能力。
| 模型 | Intelligence Index 得分 | 全球开源排名 |
|---|---|---|
| Kimi K2.6 | 54 分 | 并列第 1 |
| MiMo-V2.5-Pro | 54 分 | 并列第 1 |
| DeepSeek V4-Pro | 52 分 | 并列第 2 |
| GLM-5.1 | 51 分 | 第 3 |
| DeepSeek V4-Flash | 47 分 | — |
闭源顶尖竞品参照:
| 模型 | Intelligence Index 得分 |
|---|---|
| GPT-5.5 (xhigh) | 60 分(榜首) |
| Claude Opus 4.7 (max) | 57 分 |
| GPT-5.4 (xhigh) | 57 分 |
| Gemini 3.1 Pro Preview | 57 分 |
V4-Pro 相比前代 V3.2 的 42 分跃升至 52 分,进步 10 分。MiMo-V2.5-Pro 以 54 分与 Kimi K2.6 并列开源第一,V4-Pro 以 52 分紧随其后。V4-Flash 得分 47 分,大致处于 Claude Sonnet 4.6 (max) 水平。
3.2 GDPval-AA Agent 基准测试
GDPval-AA 是 Artificial Analysis 推出的基于真实工作任务的 Agent 能力评测。
| 模型 | GDPval-AA 得分 | 开源排名 |
|---|---|---|
| DeepSeek V4-Pro | 1554 | 并列第 1 |
| MiMo-V2.5-Pro | 已纳入评测 | 并列第 1 |
| GLM-5.1 | 1535 | 第 2 |
| Kimi K2.6 | 1484 | 第 3 |
在 Agent 专项能力上,V4-Pro 与 MiMo-V2.5-Pro 并列开源榜首。
3.3 SuperCLUE 中文通用大模型评测(2026年3月 + 4月补测)
SuperCLUE 是国内独立中文通用大模型评测基准,涵盖数学推理、科学推理、代码生成、精确指令遵循、幻觉控制、智能体六大任务。MiMo 参测版本为 V2-Pro(非 V2.5-Pro),DeepSeek V4-Pro 于 4 月 27 日补测加入。
| 评测维度 | DeepSeek V4-Pro (max) | MiMo-V2-Pro | 差值 |
|---|---|---|---|
| 总分 | 70.98 | 60.67 | +10.31 |
| 数学推理 | 87.39 | 84.03 | +3.36 |
| 幻觉控制 | 80.68 | 73.80 | +6.88 |
| 科学推理 | 79.27 | 74.39 | +4.88 |
| 精确指令遵循 | 37.84 | 16.22 | +21.62 |
| 代码生成 | 63.24 | 59.61 | +3.63 |
| 智能体(任务规划) | 77.49 | 55.97 | +21.52 |
SuperCLUE 国内开源模型总榜排名:
| 排名 | 模型 | 总分 |
|---|---|---|
| 1 | Doubao-Seed-2.0-pro (high) | 71.53 |
| 1 | DeepSeek-V4-Pro (max) | 70.98 |
| 2 | DeepSeek-V4-Flash (max) | 68.82 |
| 3 | Kimi-K2.5-Thinking | 64.60 |
| 3 | Qwen3.5-397B-Thinking | 64.48 |
| 3 | GLM-5 | 64.27 |
| 4 | DeepSeek-V3.2-Thinking | 61.92 |
| 5 | MiMo-V2-Pro | 60.67 |
V4-Pro 在精确指令遵循(+21.62)和智能体规划(+21.52)两项上大幅领先 MiMo-V2-Pro。V2.5-Pro 尚未纳入 SuperCLUE 测评,预计较 V2-Pro 有明显提升。
3.4 幻觉率(Artificial Analysis AA‑Omniscience)
AA‑Omniscience 是 Artificial Analysis 设计的私有基准测试,专门考察模型在知识边界上的行为选择——面对不确定或完全未知的问题时,是选择承认“不知道”,还是强行编造一个答案。该指标统计的是非正确回答中错误回答的占比,因此可以更真实地反映模型在高压知识盲区下的可靠性。
| 模型 | 幻觉率 | 说明 |
|---|---|---|
| DeepSeek V4‑Pro | 94% | 相比 V3.2(82%)大幅上升,几乎总是强行回答 |
| DeepSeek V4‑Flash | 96% | 幻觉率最高,符合其轻量版定位 |
| GPT‑5.5 (xhigh) | 86% | 准确率 57% 登顶,但幻觉代价沉重 |
| Kimi K2.6 | 39% | 较上代 K2.5(65%)显著改善,逼近闭源前沿 |
| Gemini 3.1 Pro Preview | 50% | 居中,处于 Anthropic 与 OpenAI 之间 |
| Claude Opus 4.7 (max) | 36% | 当前幻觉控制最严的顶级模型 |
| MiMo‑V2.5‑Pro | 暂无 AA 数据 | 尚未在 AA‑Omniscience 中公布幻觉率 |
关键结论:幻觉率与 Intelligence Index 并非正相关。GPT‑5.5 以 60 分登顶,幻觉率却高达 86%;Claude Opus 4.7 幻觉率仅 36%,是法律、医疗等高可靠性场景的首选。DeepSeek V4 全系幻觉率超过 90%,在知识可靠性上存在明显短板。
3.5 Chatbot Arena 用户偏好
V4-Pro 在众包用户偏好平台 Chatbot Arena 编码竞技场上位列开源第 3 位、综合第 14 位。用户主观感受评分落后于官方基准测试所呈现的水准。MiMo-V2.5-Pro 暂无 Chatbot Arena 公开排名数据。
3.6 编程能力
| 评测项目 | DeepSeek V4-Pro | MiMo-V2.5-Pro | 说明 |
|---|---|---|---|
| LiveCodeBench Pass@1 | 93.5% | — | 对比组最高 |
| Codeforces Rating | 3206(人类第23名) | — | 对比组最高 |
| SWE-bench Verified | 80.6% | 78.9 | 真实 GitHub Issue 修复 |
| SWE-bench Pro | 55.4 | 57.2 | 复杂软件工程任务 |
| Terminal-Bench 2.0 | 67.9 | 68.4 | 终端任务执行 |
| ClawEval (Pass³) | 59.8 | 63.8 | 长程 Agent 成功率 |
| τ³-bench | 71.8 | 72.9 | 跨任务 Agent 协作 |
| Agentic Coding 内部评测 | 优于 Sonnet 4.5,接近 Opus 4.6 非思考模式 | MiMo Coding Bench 73.7,与 Opus 4.6(77.1)差距缩小 | — |
3.7 推理速度与思考时间
根据开发者社区的实际使用反馈,V4-Pro 在处理复杂推理任务时的思考时间普遍长于 MiMo-V2.5-Pro。这不是单纯的“慢”,而是 DeepSeek 在推理链上倾向于更长的内在思辨过程——在数学证明、竞赛编程等场景中,这恰恰是它能够做到更高精度的重要原因。但对于追求快速响应的日常对话或轻量级 Agent 任务,较长的等待时间确实会影响使用体验。
3.8 综合评测对比一览
| 评测维度 | DeepSeek V4-Pro | MiMo 对应版本 | 评价 |
|---|---|---|---|
| AA Intelligence Index | 52 分 | V2.5-Pro: 54 分 | MiMo 并列第 1,V4-Pro 并列第 2 |
| GDPval-AA Agent | 1554 分 | V2.5-Pro 已纳入 | 并列开源第 1 |
| SuperCLUE 总分 | 70.98 | V2-Pro: 60.67 | V2.5-Pro 未参测 |
| 幻觉率 | 94% | 暂无数据 | V4-Pro 较高,Claude Opus 4.7 仅 36% |
| Chatbot Arena | 编码第 3/综合第 14 | 暂无数据 | 用户主观评分低于基准测试 |
| 思考时间 | 较长,推理链深入 | 相对更短,响应敏捷 | 前者适合深度解题,后者适合日常任务 |
四、Token 效率
MiMo-V2.5-Pro 在 Agent 长程任务中展现出极强的 Token 效率。相比竞品 Kimi K2.6 节省约 42% Token,在 ClawEval 评测中比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 节省 40% 至 60% 的 Token 用量。这直接转化为更低的规模化部署成本和更高的吞吐量。
五、API 价格对比(人民币计价,来源:各模型官网)
| 模型 | 输入(¥/百万token) | 输出(¥/百万token) | 备注 |
|---|---|---|---|
| DeepSeek V4-Flash | ¥1 | ¥2 | 日常轻量任务极致低价 |
| DeepSeek V4-Pro | ¥12.5 | ¥24 | 限时折扣期间输出降至 ¥6.0 |
| MiMo-V2.5-Pro(≤256K) | ~¥7 | ~¥21 | 搭配 Coding Plan 实际成本更优 |
| MiMo-V2.5-Pro(256K-1M) | ~¥14 | ~¥42 | 超长上下文价格翻倍 |
| MiMo-V2.5(全模态版) | ~¥2.88 | ~¥14.4 | 多模态任务性价比突出 |
| Claude Sonnet 4.5 | — | ~¥108 | 参照 |
| Claude Opus 4.6 | ~¥36 | ~¥180 | 参照 |
| GPT-5.5 Pro | ~¥36 | ~¥216 | 参照 |
价格要点:
- 短期:V4-Pro 缓存命中率高,限时折扣期间输出仅 ¥6.0,现阶段价格优势明显。折扣结束后恢复原价 ¥24,优势将被削弱。
- V4-Flash 的独特位置:输出仅 ¥2,处理日常任务而非深度解题时几乎唯一选择,价格低得像电费。
- 多模态性价比:V2.5 全模态版(输入约 ¥2.88 / 输出约 ¥14.4)在多模态任务中也有明显定价优势。
- V4-Pro 性价比定位:以 ¥24 获得超越 Sonnet 4.5(¥108)、接近 Opus 4.6(¥180)的质量,相当于 Sonnet 价格的 22%、Opus 的 13%。
小米另提供 Token Plan 年费订阅方案,四档从 $63.36 到 $1,056 不等。优惠机制:北京时间 00:00–08:00,所有模型 Credits 消耗速率再打 8 折;TokenPlan 不再区分 256K 和 1M 窗口的 Credit 倍率。
六、架构差异
| 维度 | DeepSeek V4-Pro | MiMo-V2.5-Pro |
|---|---|---|
| 注意力机制 | CSA(4x压缩)+ HCA(128x压缩)交替 | 滑动窗口 + 全局 6:1 交错 |
| KV Cache 压缩 | 100 万下为 V3.2 的 ~10%(FLOPs 为 27%) | 减少约 7 倍 |
| 多 Token 预测 | 未提及 | 3 层 MTP,输出速度 ~3x |
| 残差连接 | mHC 流形约束(谱范数 ≤1) | 标准设计 |
| 优化器 | Muon + AdamW 辅助 | 未披露 |
| 精度 | FP4+FP8 混合(专家参数用 FP4) | 未披露 |
| 部署门槛 | 较高,底层 kernel 级改动 | 较低,主流框架可直接部署 |
V4 架构创新更激进,四项底层技术突破,推理效率显著提升。MiMo 更偏工程化,兼顾性能与部署便利性。两者在底层技术路线上确有区别——DeepSeek 更倾向于从注意力机制和优化器层面重新设计基础设施,而小米则选择了更务实、更贴近现有生态的工程优化路径。这两条路究竟是平行发展,还是短暂相交后渐行渐远,需要下一代模型给出答案。
七、市场观察:DeepSeek 的隐忧与出路
7.1 同身位竞争已成事实
从第三方数据来看,DeepSeek V4 和 MiMo V2.5-Pro 在综合能力上已处于同一身位。Intelligence Index 上 MiMo 54 分对 V4-Pro 52 分,Agent 能力并列开源第一。价格咬得很紧——短期 V4-Pro 靠限时折扣和缓存命中优化维持优势,但折扣结束恢复原价后,差距将明显缩小。
7.2 V4-Flash:真正的差异化壁垒
这场拉锯战中,真正的看点不在 V4-Pro vs MiMo 的正面交锋,而在 V4-Flash 开辟的差异化赛道。输出 ¥2,处理日常任务而非深度解题时几乎唯一选择,便宜得像电费。这不是靠定价策略就能模仿的——背后是足够低的推理成本支撑,是真正的成本侧护城河。
7.3 底层路线的分岔
小米能这么快追赶到与 V4-Pro 同身位的程度,速度本身就值得尊重。但从底层技术路线看,两家公司走了不同的路。
DeepSeek 更像在重新定义基础设施——CSA/HCA 混合注意力、mHC 流形约束、Muon 优化器、FP4+FP8 混合精度,每一项都在底层数学和工程上动刀。这条路让思考时间偏长,但在数学和编程上优势明显。
小米则选择了更务实的路径:混合注意力、多 Token 预测、Token Plan 订阅,以及将纯文本旗舰(Pro)与全模态(V2.5)分线发展以覆盖更广场景。
这两条路,目前交汇在同一个身位上。但它们是平行发展,还是短暂相交,下一代模型会给出答案。
7.4 DeepSeek 需要回答的问题
V4-Pro 是一款好模型——在编程和数学上做到了开源最强。但“好模型”与“不可替代的模型”之间有距离。
曾经 R1 之所以成为现象级产品,是因为它让所有人惊讶——用开源追平甚至超越闭源前沿,同时价格低一个数量级。这种“不可能三角”的打破,才是品牌势能的真正来源。
V4-Pro 的问题在于:做到了更好,但没做到让所有人惊讶。Intelligence Index 排在并列第 2 不是第 1,SuperCLUE 并列第 1 不是独占,Chatbot Arena 编码榜第 3/综合第 14 用户主观评价低于预期,幻觉率 94% 仍是硬伤。据 CAISI 评估,V4-Pro 落后美国前沿约 8 个月——尽管在公开 benchmark 上差距要小得多。
如果下一代 DeepSeek 仍只是 benchmark 上的小幅领先而非断崖式突破,同时折扣结束恢复原价后丧失价格优势,它可能真的会淹没在同质化竞争中。
7.5 DeepSeek 的下一张牌
从技术报告和公开交流来看,DeepSeek 可能在布一个更大的局。
第一张牌:Agent 规模化交付。靠“确定性”而非跑分说话——做到你能放心把一整条任务链交给它、几乎不需要人工修改。一旦“一次通过率”接近 99%,就完全进入另一个维度。小米目前领先的是过程流畅,DeepSeek 赌的是最终交付的可靠性。
第二张牌:生态战而非价格战。与华为昇腾深度绑定,下半年超节点批量上市后形成“DeepSeek 模型 + 华为昇腾 + 国产算力集群”方案。这不是降价逻辑,而是锁定政企市场的国产化护城河。
地面缠斗正酣,但战略意图在天上。成败就看下一到两代模型。