三者都属于模型轻量化 / 压缩加速技术,目标都是:减小体积、降低算力、提升推理速度、适配边缘设备,但底层原理、作用对象、优缺点完全不同。
一、核心定义与本质区别
1. 模型剪枝(Pruning)
核心逻辑:删掉没用的参数 / 权重神经网络存在大量接近 0、对预测无贡献的权重,直接剔除。
- 操作对象:网络权重、通道、神经元、层
- 思路:筛选冗余参数 → 删除 → 微调恢复精度
- 分类:
- 权重剪枝:删掉单个小权重,稀疏网络
- 通道剪枝:整段卷积通道删除,硬件友好(工业最常用)
- 效果:减小参数量、降低计算量 FLOPs
2. 量化(Quantization)
核心逻辑:降低数值存储精度原始模型用 32 位浮点数(FP32),转成 16 位 (FP16)/8 位整数 (INT8)/4 位 (INT4) 存储计算。
- 操作对象:权重、激活值的数值精度
- 思路:浮点映射到低比特整数,减少每位占用空间
- 分类:训练后量化 PTQ、量化感知训练 QAT
- 效果:缩小模型文件体积、加速硬件计算、降低显存占用
3. 知识蒸馏(Knowledge Distillation)
核心逻辑:大模型 “教” 小模型大高精度教师模型输出软标签,指导小型学生模型学习分布,不是单纯压缩权重。
- 操作对象:模型输出概率分布(知识)
- 思路:大模型(教师)提取特征知识 → 小模型(学生)拟合
- 变体:自蒸馏、多教师蒸馏、特征蒸馏
- 效果:用小模型达到接近大模型精度,侧重提升小模型性能
二、关键维度对比表
表格
| 对比维度 | 剪枝 | 量化 | 知识蒸馏 |
|---|---|---|---|
| 核心原理 | 删除冗余参数 | 压缩数值比特位 | 大模型迁移知识给小模型 |
| 优化目标 | 减少参数、减少计算量 | 降低存储、硬件加速 | 提升小模型预测精度 |
| 模型大小影响 | 显著减少参数量 | 同等结构下体积减半 / 3/4 倍 | 模型结构不变,仅提升精度,不压缩体积 |
| 硬件适配 | 通道剪枝友好,权重剪枝需稀疏加速库 | 所有芯片通用(NPU/GPU/ 单片机) | 无硬件依赖,纯算法优化 |
| 精度损失 | 轻微,微调可恢复 | INT8 损失极小,低比特损失大 | 大概率涨精度,几乎无损失 |
| 能否单独使用 | 可以 | 可以 | 可以,常搭配前两者 |
| 典型适用场景 | 大模型通道冗余严重 | 边缘端、嵌入式低算力设备 | 小模型精度不足、毕设提升指标 |
三、优缺点
剪枝
优点:大幅降低 FLOPs,推理更快;通道剪枝无稀疏开销 缺点:权重剪枝稀疏结构普通 GPU 加速弱;复杂网络微调成本高
量化
优点:落地最简单,工业标配;推理延迟大幅下降;内存占用低 缺点:4bit 及以下低比特容易掉精度,需 QAT 训练补偿
知识蒸馏
优点:低成本涨点,不改变模型结构;可和剪枝、量化叠加使用 缺点:不能压缩模型大小,只优化精度;需要训练大教师模型
四、工程落地组合方案(光伏 / 时序 / 视觉通用)
- 最优流水线:知识蒸馏 → 通道剪枝 → 量化
- 逻辑:先用大模型蒸馏拉高小模型基础精度 → 剪去冗余通道减计算 → INT8 量化部署到边缘设备
- 单独使用场景:
- 只需要提速、不改精度:量化
- 模型参数过于庞大:剪枝
- 小模型预测误差大、指标低:知识蒸馏
五、一句话极简区分
- 剪枝:删多余权重,变少、算得快
- 量化:数字少占内存,存得小、跑更快
- 蒸馏:大师教小学生,小模型变准,不缩小体积