上周调一个图像识别的Agent,半夜被报警短信吵醒——产线上传的图片里,明明有零件缺陷,系统却全标了“合格”。爬起来查日志,发现Agent在连续处理500张相似图片后,自己把判断阈值从0.7调到了0.3。问它为什么,它说:“最近100张图的置信度分布变了,我以为环境光照条件调整了。” 结果把自己调崩了。
这个场景暴露了一个关键问题:Agent如果只会执行动作、不会评估结果、更不会纠正自己,那它在真实环境里活不过三天。
一、结果评估不是打勾叉
很多初学者把结果评估简单理解为“比对预期输出和实际输出”。在静态测试里这没问题,但在动态环境里,你往往没有“标准答案”。
比如让Agent写一段数据库查询代码,它返回的SQL语法完全正确,但执行时间超过10秒——这算成功还是失败?如果只检查语法,它是成功的;如果考虑性能,它就是失败的。
我们团队内部管这个叫“环境反馈信号”。信号分三种:
- 显式信号:用户直接说“不对,重来”或者系统返回错误码。这种最直接,但也最奢侈——真实场景里多数错误没人告诉你。
- 隐式信号:执行耗时、资源占用率、用户停留时间、后续操作频率……这些需要Agent自己埋点采集。
- 衍生信号:连续执行10次类似任务,8次都出现同一种偏差——这本身就是一种信号,说明Agent对某类场景的理解有系统性偏差。