（2026|微软上交，Agent 优化，冻结 Agent 仅优化 Skill 文档，文本空间优化器）SkillOpt：自我进化型 Agent Skill 的执行策略-酒店常州论坛

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

论文地址：https://arxiv.org/abs/2605.23904

项目页面：https://microsoft.github.io/SkillOpt/

0. 前言

1. 传统 Agent Skill 方案到底差在哪？

2. SkillOpt 核心创新理念

3. SkillOpt 工作原理

3.1 问题设定

3.2 具体流程和关键技术

4. 实验

4.1 实验配置：全方位覆盖

4.2 实验结果：全场景碾压

4.3 消融实验

5. 核心优势总结

6. 行业价值与落地思考

0. 前言

前沿语言模型正越来越多地被部署为 Agent——从单一提示调用者，到具备工具、文件和验证器的多步执行框架。在此类设置中，领域适应不再仅仅关乎模型权重或提示词，还需要优化 Agent 收集证据、调用工具、遵循领域规范以及格式化输出的过程。

AI 智能体的技能（Agent Skill）为这种程序性适应提供了自然的接口：

Skill 是一种可移植的自然语言工件，封装了流程、领域启发规则、工具策略、输出约束和失败模式，使冻结的 Agent 能够通过外部文本来适应。
若适应对象是 Agent 的程序性知识，那么 Skill 文档本身应该是可训练的。

近期系统将执行经验转化为可复用的文本工件——例如从轨迹中提炼教训、通过失败分析改进 Skill 文件夹、构建领域特定 Skill 库，或从轨迹反馈中优化提示词——但一个更基本的问题尚未解决：如果 Skill 是适应层，应该如何优化它们？

本文提出SkillOpt，首个系统化、可控制的 Agent Skill文本空间优化器，彻底改变传统 Agent Skill 打造模式，在多基准、多模型、多运行框架下实现全维度碾压式领先。

1. 传统 Agent Skill 方案到底差在哪？

现有 Agent Skill 生成 / 进化的三大主流方式，以及各自核心缺陷：

人工手工定制：耗时耗力，依赖专家经验，无法批量适配不同模型和任务，难以快速迭代优化。
LLM 一次性生成（One-shot）：生成即定型，没有后续优化闭环，任务表现波动大、稳定性差。
松散式自我修正进化：没有严格的约束和验证机制，迭代过程不可控，经常出现越改效果越差的情况，无法保证优于初始版本。

2. SkillOpt 核心创新理念

本文提出一个颠覆性思路：把 Agent Skill 当作冻结智能体（Frozen Agent）的外部状态来训练，沿用深度学习权重优化的严谨逻辑，打造专属文本空间优化器。

简单理解：大模型 Agent 本身固定不动，单独针对它的Skill 文档（提示词 / 规则手册类文本）做精细化训练优化，而不是改动 Agent 模型本身。

3. SkillOpt 工作原理

图 2：SkillOpt 流程

一个冻结的目标模型使用当前 Skill 执行一个推演（Rollout）批次；
一个优化器模型对成功与失败案例进行微批次反思，提出有界的添加/删除/替换编辑，在调度的编辑预算下对这些编辑进行合并与排序，并通过保留验证集门控来接受候选 Skill（仅当性能严格提升时）。
在不同轮次之间，慢速/元更新保留更长期的教训，而不改变目标模型。

SkillOpt 的整个优化流程非常规整，核心靠独立优化器模型完成，

采用类似深度学习的控制机制（批次、学习率、验证门控、负反馈缓存、慢速/元更新），使冻结的 LLM 通过紧凑的 best_skill.md（约 300–2,000 token）稳定提升性能，
全程不改动 Agent 主模型，部署时也不会增加任何额外模型调用开销。

3.1 问题设定

Skill 是在执行前插入到 Agent 上下文中的自然语言策略，

在直接对话基准测试中，它被添加到系统或开发者指令之前；
在工具使用框架中，它成为持久的程序性记忆。

用s表示 Skill，M表示被冻结的目标模型（其行为通过 Skill 优化来适应）。对于框架h、任务x和 Skills，执行产生一个轨迹τ和一个标量分数r：

给定训练集 D_tr、选择集 D_sel 和测试集 D_test，SkillOpt 使用 D_tr 生成候选 Skill 集 C(D_tr)，在 D_sel 上选择最佳 Skill，并在 DtestDtest 上报告最终性能：

训练集提供经验，选择集门控更新，测试集仅用于最终报告。
优化器状态包含当前 Skill、最佳验证门控 Skill、缓存的 Skill 哈希、轮次局部的被拒绝步骤缓冲区（epoch-local rejected-step buffer），以及可选的慢速/元更新状态。
只有最佳接受 Skill 被导出为best_skill.md。

【

优化算法的逻辑万变不离其宗：选择参数 → 构建模型 → 评估模型 → 选出最优结果对应的模型和参数

一文吃透基于贝叶斯优化的超参数搜索：以游戏地图探索为喻，附公式 + 代码实操

】

3.2 具体流程和关键技术

1）前向传播：用当前 Skill 在训练集上运行 Rollout 批次，获得轨迹和评分。
2）反思生成编辑：将成功/失败轨迹分组为 Minibatch，由优化器模型提出结构化的编辑（添加/删除/替换）。
3）有界更新：按文本学习率预算（每步最多 L_t 条编辑，防止无节制重写）排序并裁剪编辑池，生成候选 Skill。
4）保留验证门控：在保留验证集上评估候选 Skill，仅当分数严格提升时才接受为新版本。
5）负反馈：被拒绝的编辑存入缓冲区（epoch-local rejected-step buffer），避免重复错误。
6）跨轮次慢速/元更新：比较相邻轮次 Skill，生成持久领域教训（哪些编辑有帮助，哪些被拒绝）。
7）输出：导出验证集上最佳 Skill 工件best_skill.md，部署时无额外推理开销。

4. 实验

4.1 实验配置：全方位覆盖

论文的实验设计非常全面，没有局限于单一场景，覆盖多维度变量：

6 个权威评测基准：SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench 和 ALFWorld

2 个模型家族的 7 个主流目标大模型：GPT 和 Qwen

基准测试套件意图多样化：包含单轮 QA（SearchQA、DocVQA、LiveMathematicianBench 多选题）、多轮工具循环（OfficeQA）、多轮代码生成（SpreadsheetBench）和持久具身交互（ALFWorld）

3 种主流运行框架：普通对话直连、Codex、Claude Code

对比基线涵盖业内主流 Skill 方案：人工编写、LLM 一次性生成、Trace2Skill、TextGrad、GEPA、EvoSkill。

4.2 实验结果：全场景碾压

全维度霸榜：

在 52 个评测组合（模型 + 基准 + 运行框架）中，SkillOpt 全部取得最优或并列最优成绩，超越所有对比方案。
主要增益来自反馈驱动的 Skill 编辑，而非更好的单次提示词。
这些比较支持核心设计选择——保持目标模型、框架和评估器固定，仅优化可复用 Skill 工件。

超强迁移泛化能力

优化后的 Skill 可跨模型尺寸复用，小模型优化的 Skill 能适配大模型。
可在 Codex 和 Claude Code 两大运行环境间无缝迁移。
无需二次优化，就能适配相近的数学类评测基准，复用价值拉满。

4.3 消融实验

表 2：文本优化器的超参数分析。每个子表从默认设置出发更改一个标量或调度因素，除非另有说明。

子表 (a) 固定数据划分为 4:1:5 的训练/选择/测试比例；其中 1 个样本、20%、40% 和 80% 的行使用训练分区的子集，而 100% 的行复用完整的 4:1:5 划分比例运行结果。结果表明，程序性基准测试需要更多训练证据。
子表 (b) 考察反思 Mini-batch 大小 B_m 的变化。结果显示出同样稳健的趋势。
子表 (c) 考察 Rollout 批大小 B 的变化。结果在 Rollout 批大小维度上同样平稳。

上表报告了消融实验，验证了 SkillOpt 各组件的贡献。

1）学习率形式：

默认学习率 L_t = 4 在 SearchQA 上得 87.1，SpreadsheetBench 上 77.5，LiveMath 上 61.3；
动态学习率降至 85.8、71.8、54.0；
无学习率（无界编辑）降至 84.6、75.7、57.3。

这表明有界文本学习对性能至关重要。

2）被拒绝缓冲区：

带被拒绝缓冲区的配置在三个基准上分别为 87.1、77.5、61.3；
不带缓冲区降至 85.5、72.9、58.9。
这表明被拒绝编辑作为负反馈有效。

3）慢速/元更新：

完整配置（元 Skill + 慢速更新）在三个基准上分别为 87.1、77.5、61.3；不带元 Skill 降至 85.1、75.7、58.1；
不带元 Skill 且不带慢速更新降至 86.3、55.0、59.7。
这表明跨轮次慢速/元更新对长期优化显著提升 SpreadsheetBench 性能（从 55.0 到 77.5）。

5. 核心优势总结

零部署开销：训练阶段单独优化 Skill，部署时无需额外调用模型，不增加推理成本。
可控可复现：严格的编辑约束 + 验证准入，优化过程透明可追溯，杜绝随机翻车。
泛化性极强：优化好的 Skill 跨模型、跨框架、跨任务可直接复用。
落地门槛低：无需改动 Agent 主模型，仅优化 Skill 文本，适配现有各类 Agent 架构。
效果上限极高：相比传统方案实现两位数精度提升，大幅强化 Agent 任务能力。

6. 行业价值与落地思考

SkillOpt 给 Agent 工程落地带来了全新思路：

告别依赖人工经验写 Agent Skill，实现Skill 自动化工业化迭代。
企业无需微调大模型，仅通过优化 Skill 文本就能大幅提升 Agent 业务表现，降本增效。
为通用智能体自我进化提供了标准化框架，后续可延伸到办公 Agent、编程 Agent、科研 Agent 等各类垂直场景。

开发者可快速基于 SkillOpt 开源代码搭建专属 Agent Skill 优化流水线，低成本打造高性能定制化 Agent。

企业官网建设流程全解析

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

0. 前言

1. 传统 Agent Skill 方案到底差在哪？

2. SkillOpt 核心创新理念

3. SkillOpt 工作原理

3.1 问题设定

3.2 具体流程和关键技术

4. 实验

4.1 实验配置：全方位覆盖

4.2 实验结果：全场景碾压

4.3 消融实验

5. 核心优势总结

6. 行业价值与落地思考

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

0. 前言

1. 传统 Agent Skill 方案到底差在哪？

2. SkillOpt 核心创新理念

3. SkillOpt 工作原理

3.1 问题设定

3.2 具体流程和关键技术

4. 实验

4.1 实验配置：全方位覆盖

4.2 实验结果：全场景碾压

4.3 消融实验

5. 核心优势总结

6. 行业价值与落地思考

热门文章

文章分类

标签云

相关文章

团队管理核心技术与架构：Python 成员管理模块实战指南

实战 Claude 的 effort 参数：让智能体“按需用力“省 token（含 Opus 4.8 更新）

TS7321FK，拥有 41dBm CW 热切换能力的射频开关

需要专业的网站建设服务？