DeepSeek-V4: 迈向高效百万令牌上下文智能
2026/7/2 11:07:40 网站建设 项目流程


注意:DeepSeek-V4-Pro-DSpark并非新模型,而是在原有检查点基础上增加了推测解码模块的相同模型。最小推理示例可在inference文件夹中查看。详情请参考:https://github.com/deepseek-ai/DeepSpec

简介

我们推出DeepSeek-V4系列的预览版本,包含两款强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro(1.6万亿参数,激活490亿参数)和DeepSeek-V4-Flash(2840亿参数,激活130亿参数),两者均支持百万级上下文长度

DeepSeek-V4系列在架构和优化方面进行了多项关键升级:

  1. 混合注意力架构:设计了结合压缩稀疏注意力(CSA)和高度压缩注意力(HCA)的混合机制,极大提升了长上下文效率。在百万token上下文场景下,DeepSeek-V4-Pro的单token推理FLOPs仅需DeepSeek-V3.2的27%,KV缓存仅需10%
  2. 流形约束超连接(mHC):通过mHC增强传统残差连接,在保持模型表达力的同时提升跨层信号传播的稳定性。
  3. μ子优化器:采用μ子优化器实现更快收敛和更高训练稳定性。

两款模型均在超过32万亿多样化高质量token上进行预训练,并经过完整的训练后流程。后训练采用两阶段范式:先通过SFT和GRPO强化学习独立培养领域专家,再通过策略蒸馏统一整合,将跨领域能力融合至单一模型。

DeepSeek-V4-Pro-Max作为DeepSeek-V4-Pro的最大推理效能模式,显著提升了开源模型的知识能力,稳居当前最佳开源模型地位。其在编程基准测试中表现顶尖,并在推理和智能体任务上大幅缩小与闭源领先模型的差距。而DeepSeek-V4-Flash-Max在增加思考预算时可达到接近Pro版的推理性能,但由于参数规模较小,在纯知识任务和最复杂智能体工作流上略逊一筹。

模型下载

模型总参数量激活参数量上下文长度精度下载链接
DeepSeek-V4-Flash-Base2840亿130亿100万FP8混合精度HuggingFace | ModelScope
DeepSeek-V4-Flash2840亿130亿100万FP4+FP8混合精度*HuggingFace | ModelScope
DeepSeek-V4-Pro-Base1.6万亿490亿100万FP8混合精度HuggingFace | ModelScope
DeepSeek-V4-Pro1.6万亿490亿100万FP4+FP8混合精度*HuggingFace | ModelScope

*FP4+FP8混合精度:MoE专家参数采用FP4精度,其他大部分参数采用FP8精度。

评估结果

基础模型

测试集(指标)样本数DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
架构-MoEMoEMoE
激活参数量-370亿130亿490亿
总参数量-6710亿2840亿1.6万亿
世界知识
AGIEval(精确匹配)0样本80.182.683.1
MMLU(精确匹配)5样本87.888.790.1
MMLU-Redux(精确匹配)5样本87.589.490.8
MMLU-Pro(精确匹配)5样本65.568.373.5
MMMLU(精确匹配)5样本87.988.890.3
C-Eval(精确匹配)5样本90.492.193.1
CMMLU(精确匹配)5样本88.990.490.8
MultiLoKo(精确匹配)5样本38.742.251.1
Simple-QA验证集(精确匹配)25样本28.330.155.2
SuperGPQA(精确匹配)5样本45.046.553.9
FACTS参数化(精确匹配)25样本27.133.962.6
TriviaQA(精确匹配)5样本83.382.885.6
语言与推理
BBH(精确匹配)3样本87.686.987.5
DROP(F1值)1样本88.288.688.7
HellaSwag(精确匹配)0样本86.485.788.0
WinoGrande(精确匹配)0样本78.979.581.5
CLUEWSC(精确匹配)5样本83.582.285.2
代码与数学
BigCodeBench(通过率@1)3样本63.956.859.2
HumanEval(通过率@1)0样本62.869.576.8
GSM8K(精确匹配)8样本91.190.892.6
MATH(精确匹配)4样本60.557.464.5
MGSM(精确匹配)8样本81.385.784.4
CMath(精确匹配)3样本92.693.690.9
长文本理解
LongBench-V2(精确匹配)1样本40.244.751.5

指导模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式:

推理模式特点典型用例响应格式
非思考模式快速、直观的响应日常任务、低风险决策</think>总结
高思考模式有意识的逻辑分析,较慢但更准确复杂问题解决、规划<think>思考</think>总结
极限思考模式将推理能力发挥到极致探索模型推理能力边界特殊系统提示 +<think>思考</think>总结
DeepSeek-V4-Pro-Max 与前沿模型对比
基准测试(指标)Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max
知识与推理
MMLU-Pro (EM)89.187.591.087.186.087.5
SimpleQA-Verified (Pass@1)46.245.375.636.938.157.9
Chinese-SimpleQA (Pass@1)76.476.885.975.975.084.4
GPQA Diamond (Pass@1)91.393.094.390.586.290.1
HLE (Pass@1)40.039.844.436.434.737.7
LiveCodeBench (Pass@1)88.8-91.789.6-93.5
Codeforces (Rating)-31683052--3206
HMMT 2026 Feb (Pass@1)96.297.794.792.789.495.2
IMOAnswerBench (Pass@1)75.391.481.086.083.889.8
Apex (Pass@1)34.554.160.924.011.538.3
Apex Shortlist (Pass@1)85.978.189.175.572.490.2
长上下文
MRCR 1M (MMR)92.9-76.3--83.5
CorpusQA 1M (ACC)71.7-53.8--62.0
代理能力
Terminal Bench 2.0 (Acc)65.475.168.566.763.567.9
SWE Verified (Resolved)80.8-80.680.2-80.6
SWE Pro (Resolved)57.357.754.258.658.455.4
SWE Multilingual (Resolved)77.5--76.773.376.2
BrowseComp (Pass@1)83.782.785.983.279.383.4
HLE w/ tools (Pass@1)53.152.051.654.050.448.2
GDPval-AA (Elo)161916741314148215351554
MCPAtlas Public (Pass@1)73.867.269.266.671.873.6
Toolathlon (Pass@1)47.254.648.850.040.751.8
模式间对比
基准测试(指标)V4-Flash 非思考模式V4-Flash 高思考模式V4-Flash 极限模式V4-Pro 非思考模式V4-Pro 高思考模式V4-Pro 极限模式
知识与推理
MMLU-Pro (EM)83.086.486.282.987.187.5
SimpleQA-Verified (Pass@1)23.128.934.145.046.257.9
Chinese-SimpleQA (Pass@1)71.573.278.975.877.784.4
GPQA Diamond (Pass@1)71.287.488.172.989.190.1
HLE (Pass@1)8.129.434.87.734.537.7
LiveCodeBench (Pass@1)55.288.491.656.889.893.5
Codeforces (Rating)-28163052-29193206
HMMT 2026 Feb (Pass@1)40.891.994.831.794.095.2
IMOAnswerBench (Pass@1)41.985.188.435.388.089.8
Apex (Pass@1)1.019.133.00.427.438.3
Apex Shortlist (Pass@1)9.372.185.79.285.590.2
长上下文
MRCR 1M (MMR)37.576.978.744.783.383.5
CorpusQA 1M (ACC)15.559.360.535.656.562.0
代理能力
Terminal Bench 2.0 (Acc)49.156.656.959.163.367.9
SWE Verified (Resolved)73.778.679.073.679.480.6
SWE Pro (Resolved)49.152.352.652.154.455.4
SWE Multilingual (Resolved)69.770.273.369.874.176.2
BrowseComp (Pass@1)-53.573.2-80.483.4
HLE w/ tools (Pass@1)-40.345.1-44.748.2
MCPAtlas (Pass@1)64.067.469.069.474.273.6
GDPval-AA (Elo)--1395--1554
Toolathlon (Pass@1)40.743.547.846.349.051.8

对话模板

本次发布未提供 Jinja 格式的对话模板,而是提供了一个专用的encoding文件夹,其中包含 Python 脚本和测试用例,演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。完整文档请参考encoding文件夹。

简要示例:

fromencoding_dsv4importencode_messages,parse_message_from_completion_text messages=[{"role":"user","content":"hello"},{"role":"assistant","content":"Hello! I am DeepSeek.","reasoning_content":"thinking..."},{"role":"user","content":"1+1=?"}]# messages -> stringprompt=encode_messages(messages,thinking_mode="thinking")# string -> tokensimporttransformers tokenizer=transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")tokens=tokenizer.encode(prompt)

本地运行指南

请参阅 inference 文件夹获取在本地运行DeepSeek-V4的详细说明,包括模型权重转换和交互式聊天演示。

对于本地部署,我们建议将采样参数设置为temperature = 1.0, top_p = 1.0。对于Think Max推理模式,我们建议将上下文窗口设置为至少384Ktokens。

许可证

本代码库及模型权重采用 MIT许可证 授权。

联系我们

如有任何疑问,请提交问题或通过service@deepseek.com与我们联系。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询