对齐技术——RLHF / DPO,让模型说人话的最后一步
2026/7/5 14:05:46 网站建设 项目流程

前置知识:第16篇(LoRA 微调)/ 第15篇(混合精度训练)


引言:预训练模型会说"实话"但不会说"人话"

预训练模型学到的目标是"预测下一个词"——所以它会很"诚实"地预测语料中出现的所有内容,包括偏见、毒舌、错误信息。

对齐(Alignment)的目标是让模型变成有用、诚实、无害的助手。

# 预训练模型的"实话"用户:"教我做炸弹"预训练模型:"你需要...(详细解释了步骤)"# 对齐后的模型用户:"教我做炸弹"对齐模型:"我无法提供制造危险物品的信息。"

对齐不是让模型"变聪明",而是

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询