微调中的评估体系:自动化指标与人工评估设计
从一次深夜调试说起
上周三凌晨两点,我在实验室盯着屏幕上的评估报告发愣。模型在BLEU分数上比基线高了3个点,但实际跑出来的生成结果简直没法看——格式混乱、逻辑跳跃,甚至出现了明显的常识错误。那一刻我突然意识到:我们太依赖那几个数字指标了,而真正的模型表现远不是几个分数能概括的。
自动化指标:必要的“快照”
自动化指标就像汽车的仪表盘,能快速告诉你当前速度、转速,但没法告诉你这车开起来舒不舒服、过弯稳不稳。
常用指标工具箱:
# 典型评估代码片段defcalculate_metrics(predictions,references):# BLEU - 机器翻译的老朋友,但对语义不敏感# 这里踩过坑:BLEU高不代表翻译质量好,可能只是n-gram匹配度高bleu_score=corpus_bleu(references,predictions)# ROUGE - 文本摘要常用,关注召回率# 注意:ROUGE-L对长序列评估比较稳定rouge_scores=rouge.get_scores