大模型参数高效微调综述（微调大模型的选择、显存估算、参数高效微调（PEFT））-酒店常州论坛

最佳实践通常是“RAG + PEFT”的组合策略，用RAG提供外部知识，用PEFT（如LoRA）微调模型技能，兼顾效率、成本与性能。

微调的核心原理是让预训练模型的知识和能力在特定任务或领域的数据上进行“迁移”和“适应”。

参数调整：预训练模型已经具备了强大的语言理解和生成能力。微调过程使用新的、特定领域的数据，通过梯度下降等优化算法，调整模型的参数（权重），使其在参数空间中找到一个更适应当前任务的局部最优解。这通常涉及对模型所有层而不仅仅是输出层的参数进行更新，以更好地捕捉领域数据的特征分布。
参数高效微调（PEFT）：以LoRA（Low-Rank Adaptation）为例，其核心思想是冻结预训练模型的全部参数，只在模型的某些层（如注意力层）旁注入一组****可训练的低秩适配器矩阵。训练时只更新这些极小的适配器参数，从而以极低的成本实现任务适配。

数据需求没有绝对标准，但遵循以下原则：

质量优于数量：几百到几千条高质量、高相关性的数据样本，远胜于数万条低质数据。数据应能充分代表目标任务场景。
任务类型决定规模：指令微调（SFT）：通常需要数千到数万条格式良好的“指令-输入-输出”三元组数据。继续预训练：为了让模型深入学习领域知识，可能需要千万甚至上亿token的大规模领域文本。参数高效微调（PEFT）：由于可训练参数极少，通常所需数据量也相对更少，几百条优质数据有时就能看到明显效果。

模型权重：例如，一个7B（70亿）参数的模型，若以FP16精度加载，约需7B × 2字节 = 14 GB显存。
优化器状态：使用AdamW优化器时，每个参数需要存储动量（momentum）和方差（variance）等状态。对于FP16的模型，优化器状态可能占用参数量 × 8字节（例如7B模型约56GB）。这是全参数微调中的显存占用大户。
梯度：与模型参数量相同，通常也是参数量 × 2字节（FP16精度）。
前向传播的激活值：这部分与批次大小（batch size）和序列长度（sequence length）强相关，计算公式复杂，是动态变化的。使用梯度检查点技术可以用计算时间换取显存，大幅降低激活值占用。

估算经验：

全参数微调：显存需求约是模型参数量的20倍左右（以字节计）。例如，微调7B模型可能需要7 × 20 = 140 GB以上的显存，通常需要多卡并行。
LoRA微调：因其无需存储庞大的优化器状态和梯度，显存瓶颈主要在模型权重和激活值。需求大幅降低，约为(2.5 - 4) × 参数量。7B模型可能在20-30 GB显存内完成。
QLoRA：进一步将基础模型量化至4位，基础模型显存占用降至约0.5 × 参数量。7B模型的QLoRA微调有望在10-16 GB显存的GPU上运行。

一张V100显卡（以32GB显存为例）的微调时间受模型规模、数据量、微调方法、批次大小等多种因素影响，难以给出精确数字。粗略估算：

举例说明：假设使用LoRA方法微调一个7B模型，数据集规模为10,000条样本，在V100上设置合理的批次大小。那么，完成一轮训练可能需要几小时到十几小时。总训练时间则取决于您设置的训练轮数。这只是一个非常粗略的估计，实际时间需以实验为准。

企业官网建设流程全解析