SkillOpt: Executive Strategy for Self-Evolving Agent Skills
论文地址:https://arxiv.org/abs/2605.23904
项目页面:https://microsoft.github.io/SkillOpt/
目录
0. 前言
1. 传统 Agent Skill 方案到底差在哪?
2. SkillOpt 核心创新理念
3. SkillOpt 工作原理
3.1 问题设定
3.2 具体流程和关键技术
4. 实验
4.1 实验配置:全方位覆盖
4.2 实验结果:全场景碾压
4.3 消融实验
5. 核心优势总结
6. 行业价值与落地思考
0. 前言
前沿语言模型正越来越多地被部署为 Agent——从单一提示调用者,到具备工具、文件和验证器的多步执行框架。在此类设置中,领域适应不再仅仅关乎模型权重或提示词,还需要优化 Agent 收集证据、调用工具、遵循领域规范以及格式化输出的过程。
AI 智能体的技能(Agent Skill)为这种程序性适应提供了自然的接口:
- Skill 是一种可移植的自然语言工件,封装了流程、领域启发规则、工具策略、输出约束和失败模式,使冻结的 Agent 能够通过外部文本来适应。
- 若适应对象是 Agent 的程序性知识,那么 Skill 文档本身应该是可训练的。
近期系统将执行经验转化为可复用的文本工件——例如从轨迹中提炼教训、通过失败分析改进 Skill 文件夹、构建领域特定 Skill 库,或从轨迹反馈中优化提示词——但一个更基本的问题尚未解决:如果 Skill 是适应层,应该如何优化它们?
本文提出SkillOpt,首个系统化、可控制的 Agent Skill文本空间优化器,彻底改变传统 Agent Skill 打造模式,在多基准、多模型、多运行框架下实现全维度碾压式领先。
1. 传统 Agent Skill 方案到底差在哪?
现有 Agent Skill 生成 / 进化的三大主流方式,以及各自核心缺陷:
- 人工手工定制:耗时耗力,依赖专家经验,无法批量适配不同模型和任务,难以快速迭代优化。
- LLM 一次性生成(One-shot):生成即定型,没有后续优化闭环,任务表现波动大、稳定性差。
- 松散式自我修正进化:没有严格的约束和验证机制,迭代过程不可控,经常出现越改效果越差的情况,无法保证优于初始版本。
2. SkillOpt 核心创新理念
本文提出一个颠覆性思路:把 Agent Skill 当作冻结智能体(Frozen Agent)的外部状态来训练,沿用深度学习权重优化的严谨逻辑,打造专属文本空间优化器。
简单理解:大模型 Agent 本身固定不动,单独针对它的Skill 文档(提示词 / 规则手册类文本)做精细化训练优化,而不是改动 Agent 模型本身。
3. SkillOpt 工作原理
图 2:SkillOpt 流程
- 一个冻结的目标模型使用当前 Skill 执行一个推演(Rollout)批次;
- 一个优化器模型对成功与失败案例进行微批次反思,提出有界的添加/删除/替换编辑,在调度的编辑预算下对这些编辑进行合并与排序,并通过保留验证集门控来接受候选 Skill(仅当性能严格提升时)。
- 在不同轮次之间,慢速/元更新保留更长期的教训,而不改变目标模型。
SkillOpt 的整个优化流程非常规整,核心靠独立优化器模型完成,
- 采用类似深度学习的控制机制(批次、学习率、验证门控、负反馈缓存、慢速/元更新),使冻结的 LLM 通过紧凑的 best_skill.md(约 300–2,000 token)稳定提升性能,
- 全程不改动 Agent 主模型,部署时也不会增加任何额外模型调用开销。
3.1 问题设定
Skill 是在执行前插入到 Agent 上下文中的自然语言策略,
- 在直接对话基准测试中,它被添加到系统或开发者指令之前;
- 在工具使用框架中,它成为持久的程序性记忆。
用s表示 Skill,M表示被冻结的目标模型(其行为通过 Skill 优化来适应)。对于框架h、任务x和 Skills,执行产生一个轨迹τ和一个标量分数r:
给定训练集 D_tr、选择集 D_sel 和测试集 D_test,SkillOpt 使用 D_tr 生成候选 Skill 集 C(D_tr),在 D_sel 上选择最佳 Skill,并在 DtestDtest 上报告最终性能:
- 训练集提供经验,选择集门控更新,测试集仅用于最终报告。
- 优化器状态包含当前 Skill、最佳验证门控 Skill、缓存的 Skill 哈希、轮次局部的被拒绝步骤缓冲区(epoch-local rejected-step buffer),以及可选的慢速/元更新状态。
- 只有最佳接受 Skill 被导出为
best_skill.md。
【
优化算法的逻辑万变不离其宗:选择参数 → 构建模型 → 评估模型 → 选出最优结果对应的模型和参数
一文吃透基于贝叶斯优化的超参数搜索:以游戏地图探索为喻,附公式 + 代码实操
】
3.2 具体流程和关键技术
- 1)前向传播:用当前 Skill 在训练集上运行 Rollout 批次,获得轨迹和评分。
- 2)反思生成编辑:将成功/失败轨迹分组为 Minibatch,由优化器模型提出结构化的编辑(添加/删除/替换)。
- 3)有界更新:按文本学习率预算(每步最多 L_t 条编辑,防止无节制重写)排序并裁剪编辑池,生成候选 Skill。
- 4)保留验证门控:在保留验证集上评估候选 Skill,仅当分数严格提升时才接受为新版本。
- 5)负反馈:被拒绝的编辑存入缓冲区(epoch-local rejected-step buffer),避免重复错误。
- 6)跨轮次慢速/元更新:比较相邻轮次 Skill,生成持久领域教训(哪些编辑有帮助,哪些被拒绝)。
- 7)输出:导出验证集上最佳 Skill 工件
best_skill.md,部署时无额外推理开销。
4. 实验
4.1 实验配置:全方位覆盖
论文的实验设计非常全面,没有局限于单一场景,覆盖多维度变量:
6 个权威评测基准:SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench 和 ALFWorld
2 个模型家族的 7 个主流目标大模型:GPT 和 Qwen
基准测试套件意图多样化:包含单轮 QA(SearchQA、DocVQA、LiveMathematicianBench 多选题)、多轮工具循环(OfficeQA)、多轮代码生成(SpreadsheetBench)和持久具身交互(ALFWorld)
3 种主流运行框架:普通对话直连、Codex、Claude Code
对比基线涵盖业内主流 Skill 方案:人工编写、LLM 一次性生成、Trace2Skill、TextGrad、GEPA、EvoSkill。
4.2 实验结果:全场景碾压
全维度霸榜:
- 在 52 个评测组合(模型 + 基准 + 运行框架)中,SkillOpt 全部取得最优或并列最优成绩,超越所有对比方案。
- 主要增益来自反馈驱动的 Skill 编辑,而非更好的单次提示词。
- 这些比较支持核心设计选择——保持目标模型、框架和评估器固定,仅优化可复用 Skill 工件。
超强迁移泛化能力
- 优化后的 Skill 可跨模型尺寸复用,小模型优化的 Skill 能适配大模型。
- 可在 Codex 和 Claude Code 两大运行环境间无缝迁移。
- 无需二次优化,就能适配相近的数学类评测基准,复用价值拉满。
4.3 消融实验
表 2:文本优化器的超参数分析。每个子表从默认设置出发更改一个标量或调度因素,除非另有说明。
- 子表 (a) 固定数据划分为 4:1:5 的训练/选择/测试比例;其中 1 个样本、20%、40% 和 80% 的行使用训练分区的子集,而 100% 的行复用完整的 4:1:5 划分比例运行结果。结果表明,程序性基准测试需要更多训练证据。
- 子表 (b) 考察反思 Mini-batch 大小 B_m 的变化。结果显示出同样稳健的趋势。
- 子表 (c) 考察 Rollout 批大小 B 的变化。结果在 Rollout 批大小维度上同样平稳。
上表报告了消融实验,验证了 SkillOpt 各组件的贡献。
1)学习率形式:
- 默认学习率 L_t = 4 在 SearchQA 上得 87.1,SpreadsheetBench 上 77.5,LiveMath 上 61.3;
- 动态学习率降至 85.8、71.8、54.0;
- 无学习率(无界编辑)降至 84.6、75.7、57.3。
这表明有界文本学习对性能至关重要。
2)被拒绝缓冲区:
- 带被拒绝缓冲区的配置在三个基准上分别为 87.1、77.5、61.3;
- 不带缓冲区降至 85.5、72.9、58.9。
- 这表明被拒绝编辑作为负反馈有效。
3)慢速/元更新:
- 完整配置(元 Skill + 慢速更新)在三个基准上分别为 87.1、77.5、61.3;不带元 Skill 降至 85.1、75.7、58.1;
- 不带元 Skill 且不带慢速更新降至 86.3、55.0、59.7。
- 这表明跨轮次慢速/元更新对长期优化显著提升 SpreadsheetBench 性能(从 55.0 到 77.5)。
5. 核心优势总结
- 零部署开销:训练阶段单独优化 Skill,部署时无需额外调用模型,不增加推理成本。
- 可控可复现:严格的编辑约束 + 验证准入,优化过程透明可追溯,杜绝随机翻车。
- 泛化性极强:优化好的 Skill 跨模型、跨框架、跨任务可直接复用。
- 落地门槛低:无需改动 Agent 主模型,仅优化 Skill 文本,适配现有各类 Agent 架构。
- 效果上限极高:相比传统方案实现两位数精度提升,大幅强化 Agent 任务能力。
6. 行业价值与落地思考
SkillOpt 给 Agent 工程落地带来了全新思路:
- 告别依赖人工经验写 Agent Skill,实现Skill 自动化工业化迭代。
- 企业无需微调大模型,仅通过优化 Skill 文本就能大幅提升 Agent 业务表现,降本增效。
- 为通用智能体自我进化提供了标准化框架,后续可延伸到办公 Agent、编程 Agent、科研 Agent 等各类垂直场景。
开发者可快速基于 SkillOpt 开源代码搭建专属 Agent Skill 优化流水线,低成本打造高性能定制化 Agent。