注意:DeepSeek-V4-Pro-DSpark并非新模型,而是在原有检查点基础上增加了推测解码模块的相同模型。最小推理示例可在inference文件夹中查看。详情请参考:https://github.com/deepseek-ai/DeepSpec
简介
我们推出DeepSeek-V4系列的预览版本,包含两款强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro(1.6万亿参数,激活490亿参数)和DeepSeek-V4-Flash(2840亿参数,激活130亿参数),两者均支持百万级上下文长度。
DeepSeek-V4系列在架构和优化方面进行了多项关键升级:
- 混合注意力架构:设计了结合压缩稀疏注意力(CSA)和高度压缩注意力(HCA)的混合机制,极大提升了长上下文效率。在百万token上下文场景下,DeepSeek-V4-Pro的单token推理FLOPs仅需DeepSeek-V3.2的27%,KV缓存仅需10%。
- 流形约束超连接(mHC):通过mHC增强传统残差连接,在保持模型表达力的同时提升跨层信号传播的稳定性。
- μ子优化器:采用μ子优化器实现更快收敛和更高训练稳定性。
两款模型均在超过32万亿多样化高质量token上进行预训练,并经过完整的训练后流程。后训练采用两阶段范式:先通过SFT和GRPO强化学习独立培养领域专家,再通过策略蒸馏统一整合,将跨领域能力融合至单一模型。
DeepSeek-V4-Pro-Max作为DeepSeek-V4-Pro的最大推理效能模式,显著提升了开源模型的知识能力,稳居当前最佳开源模型地位。其在编程基准测试中表现顶尖,并在推理和智能体任务上大幅缩小与闭源领先模型的差距。而DeepSeek-V4-Flash-Max在增加思考预算时可达到接近Pro版的推理性能,但由于参数规模较小,在纯知识任务和最复杂智能体工作流上略逊一筹。
模型下载
| 模型 | 总参数量 | 激活参数量 | 上下文长度 | 精度 | 下载链接 |
|---|---|---|---|---|---|
| DeepSeek-V4-Flash-Base | 2840亿 | 130亿 | 100万 | FP8混合精度 | HuggingFace | ModelScope |
| DeepSeek-V4-Flash | 2840亿 | 130亿 | 100万 | FP4+FP8混合精度* | HuggingFace | ModelScope |
| DeepSeek-V4-Pro-Base | 1.6万亿 | 490亿 | 100万 | FP8混合精度 | HuggingFace | ModelScope |
| DeepSeek-V4-Pro | 1.6万亿 | 490亿 | 100万 | FP4+FP8混合精度* | HuggingFace | ModelScope |
*FP4+FP8混合精度:MoE专家参数采用FP4精度,其他大部分参数采用FP8精度。
评估结果
基础模型
| 测试集(指标) | 样本数 | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|---|
| 架构 | - | MoE | MoE | MoE |
| 激活参数量 | - | 370亿 | 130亿 | 490亿 |
| 总参数量 | - | 6710亿 | 2840亿 | 1.6万亿 |
| 世界知识 | ||||
| AGIEval(精确匹配) | 0样本 | 80.1 | 82.6 | 83.1 |
| MMLU(精确匹配) | 5样本 | 87.8 | 88.7 | 90.1 |
| MMLU-Redux(精确匹配) | 5样本 | 87.5 | 89.4 | 90.8 |
| MMLU-Pro(精确匹配) | 5样本 | 65.5 | 68.3 | 73.5 |
| MMMLU(精确匹配) | 5样本 | 87.9 | 88.8 | 90.3 |
| C-Eval(精确匹配) | 5样本 | 90.4 | 92.1 | 93.1 |
| CMMLU(精确匹配) | 5样本 | 88.9 | 90.4 | 90.8 |
| MultiLoKo(精确匹配) | 5样本 | 38.7 | 42.2 | 51.1 |
| Simple-QA验证集(精确匹配) | 25样本 | 28.3 | 30.1 | 55.2 |
| SuperGPQA(精确匹配) | 5样本 | 45.0 | 46.5 | 53.9 |
| FACTS参数化(精确匹配) | 25样本 | 27.1 | 33.9 | 62.6 |
| TriviaQA(精确匹配) | 5样本 | 83.3 | 82.8 | 85.6 |
| 语言与推理 | ||||
| BBH(精确匹配) | 3样本 | 87.6 | 86.9 | 87.5 |
| DROP(F1值) | 1样本 | 88.2 | 88.6 | 88.7 |
| HellaSwag(精确匹配) | 0样本 | 86.4 | 85.7 | 88.0 |
| WinoGrande(精确匹配) | 0样本 | 78.9 | 79.5 | 81.5 |
| CLUEWSC(精确匹配) | 5样本 | 83.5 | 82.2 | 85.2 |
| 代码与数学 | ||||
| BigCodeBench(通过率@1) | 3样本 | 63.9 | 56.8 | 59.2 |
| HumanEval(通过率@1) | 0样本 | 62.8 | 69.5 | 76.8 |
| GSM8K(精确匹配) | 8样本 | 91.1 | 90.8 | 92.6 |
| MATH(精确匹配) | 4样本 | 60.5 | 57.4 | 64.5 |
| MGSM(精确匹配) | 8样本 | 81.3 | 85.7 | 84.4 |
| CMath(精确匹配) | 3样本 | 92.6 | 93.6 | 90.9 |
| 长文本理解 | ||||
| LongBench-V2(精确匹配) | 1样本 | 40.2 | 44.7 | 51.5 |
指导模型
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式:
| 推理模式 | 特点 | 典型用例 | 响应格式 |
|---|---|---|---|
| 非思考模式 | 快速、直观的响应 | 日常任务、低风险决策 | </think>总结 |
| 高思考模式 | 有意识的逻辑分析,较慢但更准确 | 复杂问题解决、规划 | <think>思考</think>总结 |
| 极限思考模式 | 将推理能力发挥到极致 | 探索模型推理能力边界 | 特殊系统提示 +<think>思考</think>总结 |
DeepSeek-V4-Pro-Max 与前沿模型对比
| 基准测试(指标) | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max |
|---|---|---|---|---|---|---|
| 知识与推理 | ||||||
| MMLU-Pro (EM) | 89.1 | 87.5 | 91.0 | 87.1 | 86.0 | 87.5 |
| SimpleQA-Verified (Pass@1) | 46.2 | 45.3 | 75.6 | 36.9 | 38.1 | 57.9 |
| Chinese-SimpleQA (Pass@1) | 76.4 | 76.8 | 85.9 | 75.9 | 75.0 | 84.4 |
| GPQA Diamond (Pass@1) | 91.3 | 93.0 | 94.3 | 90.5 | 86.2 | 90.1 |
| HLE (Pass@1) | 40.0 | 39.8 | 44.4 | 36.4 | 34.7 | 37.7 |
| LiveCodeBench (Pass@1) | 88.8 | - | 91.7 | 89.6 | - | 93.5 |
| Codeforces (Rating) | - | 3168 | 3052 | - | - | 3206 |
| HMMT 2026 Feb (Pass@1) | 96.2 | 97.7 | 94.7 | 92.7 | 89.4 | 95.2 |
| IMOAnswerBench (Pass@1) | 75.3 | 91.4 | 81.0 | 86.0 | 83.8 | 89.8 |
| Apex (Pass@1) | 34.5 | 54.1 | 60.9 | 24.0 | 11.5 | 38.3 |
| Apex Shortlist (Pass@1) | 85.9 | 78.1 | 89.1 | 75.5 | 72.4 | 90.2 |
| 长上下文 | ||||||
| MRCR 1M (MMR) | 92.9 | - | 76.3 | - | - | 83.5 |
| CorpusQA 1M (ACC) | 71.7 | - | 53.8 | - | - | 62.0 |
| 代理能力 | ||||||
| Terminal Bench 2.0 (Acc) | 65.4 | 75.1 | 68.5 | 66.7 | 63.5 | 67.9 |
| SWE Verified (Resolved) | 80.8 | - | 80.6 | 80.2 | - | 80.6 |
| SWE Pro (Resolved) | 57.3 | 57.7 | 54.2 | 58.6 | 58.4 | 55.4 |
| SWE Multilingual (Resolved) | 77.5 | - | - | 76.7 | 73.3 | 76.2 |
| BrowseComp (Pass@1) | 83.7 | 82.7 | 85.9 | 83.2 | 79.3 | 83.4 |
| HLE w/ tools (Pass@1) | 53.1 | 52.0 | 51.6 | 54.0 | 50.4 | 48.2 |
| GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | 1535 | 1554 |
| MCPAtlas Public (Pass@1) | 73.8 | 67.2 | 69.2 | 66.6 | 71.8 | 73.6 |
| Toolathlon (Pass@1) | 47.2 | 54.6 | 48.8 | 50.0 | 40.7 | 51.8 |
模式间对比
| 基准测试(指标) | V4-Flash 非思考模式 | V4-Flash 高思考模式 | V4-Flash 极限模式 | V4-Pro 非思考模式 | V4-Pro 高思考模式 | V4-Pro 极限模式 |
|---|---|---|---|---|---|---|
| 知识与推理 | ||||||
| MMLU-Pro (EM) | 83.0 | 86.4 | 86.2 | 82.9 | 87.1 | 87.5 |
| SimpleQA-Verified (Pass@1) | 23.1 | 28.9 | 34.1 | 45.0 | 46.2 | 57.9 |
| Chinese-SimpleQA (Pass@1) | 71.5 | 73.2 | 78.9 | 75.8 | 77.7 | 84.4 |
| GPQA Diamond (Pass@1) | 71.2 | 87.4 | 88.1 | 72.9 | 89.1 | 90.1 |
| HLE (Pass@1) | 8.1 | 29.4 | 34.8 | 7.7 | 34.5 | 37.7 |
| LiveCodeBench (Pass@1) | 55.2 | 88.4 | 91.6 | 56.8 | 89.8 | 93.5 |
| Codeforces (Rating) | - | 2816 | 3052 | - | 2919 | 3206 |
| HMMT 2026 Feb (Pass@1) | 40.8 | 91.9 | 94.8 | 31.7 | 94.0 | 95.2 |
| IMOAnswerBench (Pass@1) | 41.9 | 85.1 | 88.4 | 35.3 | 88.0 | 89.8 |
| Apex (Pass@1) | 1.0 | 19.1 | 33.0 | 0.4 | 27.4 | 38.3 |
| Apex Shortlist (Pass@1) | 9.3 | 72.1 | 85.7 | 9.2 | 85.5 | 90.2 |
| 长上下文 | ||||||
| MRCR 1M (MMR) | 37.5 | 76.9 | 78.7 | 44.7 | 83.3 | 83.5 |
| CorpusQA 1M (ACC) | 15.5 | 59.3 | 60.5 | 35.6 | 56.5 | 62.0 |
| 代理能力 | ||||||
| Terminal Bench 2.0 (Acc) | 49.1 | 56.6 | 56.9 | 59.1 | 63.3 | 67.9 |
| SWE Verified (Resolved) | 73.7 | 78.6 | 79.0 | 73.6 | 79.4 | 80.6 |
| SWE Pro (Resolved) | 49.1 | 52.3 | 52.6 | 52.1 | 54.4 | 55.4 |
| SWE Multilingual (Resolved) | 69.7 | 70.2 | 73.3 | 69.8 | 74.1 | 76.2 |
| BrowseComp (Pass@1) | - | 53.5 | 73.2 | - | 80.4 | 83.4 |
| HLE w/ tools (Pass@1) | - | 40.3 | 45.1 | - | 44.7 | 48.2 |
| MCPAtlas (Pass@1) | 64.0 | 67.4 | 69.0 | 69.4 | 74.2 | 73.6 |
| GDPval-AA (Elo) | - | - | 1395 | - | - | 1554 |
| Toolathlon (Pass@1) | 40.7 | 43.5 | 47.8 | 46.3 | 49.0 | 51.8 |
对话模板
本次发布未提供 Jinja 格式的对话模板,而是提供了一个专用的encoding文件夹,其中包含 Python 脚本和测试用例,演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。完整文档请参考encoding文件夹。
简要示例:
fromencoding_dsv4importencode_messages,parse_message_from_completion_text messages=[{"role":"user","content":"hello"},{"role":"assistant","content":"Hello! I am DeepSeek.","reasoning_content":"thinking..."},{"role":"user","content":"1+1=?"}]# messages -> stringprompt=encode_messages(messages,thinking_mode="thinking")# string -> tokensimporttransformers tokenizer=transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")tokens=tokenizer.encode(prompt)本地运行指南
请参阅 inference 文件夹获取在本地运行DeepSeek-V4的详细说明,包括模型权重转换和交互式聊天演示。
对于本地部署,我们建议将采样参数设置为temperature = 1.0, top_p = 1.0。对于Think Max推理模式,我们建议将上下文窗口设置为至少384Ktokens。
许可证
本代码库及模型权重采用 MIT许可证 授权。
联系我们
如有任何疑问,请提交问题或通过service@deepseek.com与我们联系。