Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
2026/6/25 14:32:24 网站建设 项目流程

没有指标的代价

Skill 变差了,你怎么知道?

  • 等到用户投诉,已经发生了多少次糟糕体验
  • 等到有人抱怨"AI 最近感觉变差了",无法定位是哪个 Skill、哪个维度
  • 等到业务指标下降,追溯成本极高

有了指标,质量下降可以在用户感知之前被发现。


L1/L2/L3 分层框架

L3 — 系统健康(System Health) ↳ 可用率、时延、Token 消耗、错误率 ↳ 采集:每次调用自动记录 L2 — 输出质量(Output Quality) ↳ 格式合规率、LLM-as-Judge 质量分 ↳ 采集:定期抽样评测(高频 Skill 每天,低频每周) L1 — 业务价值(Business Outcome) ↳ 任务完成率、输出采纳率、用户评分 ↳ 采集:用户反馈 + 行为追踪

三层依赖关系:

L3 健康 → L2 质量 → L1 价值 L3 频繁超时 → L2 输出被截断 → L1 任务失败 L3 健康但 L2 质量差 → L1 用户不采纳 三层正常 → Skill 真正有价值

L3 是基础,L2 是中间层,L1 是最终目标。报警时从 L3 往上排查,比从 L1 往下倒推快得多。


Demo 设计

测试对象:rnd-technical-writer,给定主题写 Markdown 技术文章。

6 次调用覆盖中英文混合:

ID输入(截断)语言
T01Python asyncio event loop internalsEN
T02Redis 缓存穿透、击穿、雪崩CN
T03Docker multi-stage buildsEN
T04LangGraph 状态管理入门教程CN
T05HTTP/2 multiplexingEN
T06Rust 所有权模型(面向 Python 读者)CN

L2 格式检查规则(代码检查,不依赖 LLM):

defcheck_format(article:str)->tuple[bool,list[str]]:issues=[

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询