别再瞎调PID了!用Python快速验证你的PI控制器参数是否收敛
2026/4/27 10:55:26
在大语言模型(LLM, Large Language Model)的训练和对齐流程中,CPT、SFT、DPO是三个关键阶段的缩写,分别代表:
有时也称为Domain-specific Pre-Training或Post-Pretraining
在通用预训练(如 LLaMA、Qwen 的原始训练)之后,用特定领域或高质量语料继续训练模型,使其掌握更专业、更新或更符合目标场景的知识。
也叫Instruction Tuning(指令微调)
教会模型理解和遵循人类指令,将“通用语言模型”转变为“有用助手”。
{"instruction":"解释牛顿第一定律","output":"牛顿第一定律指出:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。"}一种替代 RLHF(基于强化学习的人类反馈)的对齐方法
让模型输出更符合人类偏好的回答(如有帮助、诚实、无害),而不仅仅是模仿 SFT 数据。
如果人类认为回答 A 比 B 好,那么模型对 A 的 log-probability 应该显著高于 B。
| 项目 | RLHF | DPO |
|---|---|---|
| 是否需要奖励模型(RM) | ✅ 需要先训练 RM | ❌ 不需要 |
| 是否使用强化学习(PPO) | ✅ 是,复杂不稳定 | ❌ 否,纯监督式训练 |
| 实现难度 | 高 | 低 |
| 训练稳定性 | 较差 | 更好 |
| 阶段 | 全称 | 输入数据 | 目标 | 是否需要标注 |
|---|---|---|---|---|
| CPT | Continued Pre-Training | 大量无标签文本 | 扩展知识/领域适应 | ❌ 无监督 |
| SFT | Supervised Fine-Tuning | (指令, 回答) 对 | 学会遵循指令 | ✅ 人工编写 |
| DPO | Direct Preference Optimization | (prompt, chosen, rejected) | 对齐人类偏好 | ✅ 人工偏好标注 |
大模型训练,典型的流程就是:
CPT → SFT → DPO,逐步从“知识丰富”到“听话”再到“靠谱”。