【HCIA-AI笔记(微认证2)】1.2 DeepSeek训练过程介绍
2026/6/30 10:51:02
网站建设
项目流程
Deepseek R1模型训练架构 :训练阶段划分 :整个过程分为监督微调(SFT)和基于推理的强化学习两个主要阶段。SFT阶段 :从Deepseek V3 base基础模型开始,使用SFT数据(含长推理示例)进行监督微调,生成SFT checkpoint,使模型具有一定推理能力。强化学习阶段 :从SFT checkpoint开始,使用强化学习方法针对模型推理能力进行优化,最终得到Deepseek 21,拥有强大推理和通用能力。Deepseek R1模型核心创新 :含R1 Zero的中间推理模型 :推理导向的强化学习得到中间推理模型,首次验证纯强化学习能大幅提升大模型推理能力,开源的Deepseek R1 Zero能生成高质量推理数据支持SFT阶段。通用强化学习 :针对RL Zero出现的语言混合、非推理任务回复效果差问题,提出通用强化学习训练框架。Deepseek R1 Zero模型训练流程 :SFT阶段 :从Deepseek V3 base模型开始,使用监督微调数据训练,生成SFT checkpoint模型,具备初步语言理解和生成能力。RL1阶段 :以SFT checkpoint为起点,使用冷启动推理数据进行强化学习,得到Deepseek R1 Zero模型,具备强大推理能力,冷启动数据是训练关键。Deepseek R1强化学习训练流程 :基础能力 :SFT checkpoint具备初步语言能力,但缺乏高级推理和对话能力。数据集与奖励模型 :使用包含多种提示的数据集,设置衡量帮助性和安全性的奖励模型,帮助模型生成有益、安全且高质量输出。规则校验机制 :引入rule - BASED Verifier对模型输出进行评估,保证模型一致性和可靠性。Deepseek长文本处理技术突破 :三重技术架构创新 :智能信息分层系统(含语义压缩引擎、记忆机制、动态筛选系统)、滑动窗口优化降低冗余计算量;硬件级优化(内存访问优化器、指令流水线重构、解码预测器)提升处理速度和降低显存占用;原生可训练设计支持端到端梯度传播,提升准确率。核心数据对比 :NSA机制在64K超长文本处理中速度最高提升达11.6倍。Deepseek技术突破影响 :技术层面 :终结参数内卷时代,70亿参数模型在64K长文本任务中表现超越传统1.5万亿参数模型,推动行业竞赛转向计算效率维度;国产算力生态崛起,昇腾芯片原生稀疏算子库加速比达5.7倍。行业层面 :重构市场格局,传统大模型厂商面临战略调整;产业应用爆发,在法律、医疗、金融、教育等领域有显著应用效果。社会层面 :技术普及带来双重效应,企业AI部署成本降低,中小企业使用率提升,但引发数据隐私争议和深度伪造检测需求激增;就业市场岗位需求变化,催生新兴职业;教育体系转型,人才需求结构改变。会议总结要点 :模型架构 :Deepseek模型架构是Transformer的变体,有独特优势。训练方式和数据 :了解其使用的数据和训练策略以获得强大语言能力。实际应用表现 :对比其在不同NLP任务上与其他模型的区分能力。