AI工程师必读:从提示词到循环工程的范式革命 Loop Engineering
2026/6/19 19:50:01 网站建设 项目流程

AI工程师必读:从提示词到循环工程的范式革命 Loop Engineering

两位顶级 AI 工程师说了同一件事,大多数人没听懂。Peter Steinberger,OpenClaw 的创建者,目前在 OpenAI 工作。这条帖子:
“你不应该再直接提示编码代理,而应该设计循环来提示你的代理。”

随后,Anthropic公司claude·科德部门负责人鲍里斯·切尔尼用另一种方式表达了同样的观点:

我不再直接提示claude了。我编写了一些循环程序来提示claude,然后让他自己决定该做什么。我的工作就是编写循环程序。”

两位在世的资深人工智能工程师,传达了相同的信息。

大多数人读完后都会想:这到底是什么意思?

一切从这两句话开始

OpenClaw 创始人、现任职于 OpenAI 的Peter Steinberger发了一条推文:

“你不应该再直接给编码 AI 写提示词了。你应该设计循环,让循环去提示你的 AI。”

紧接着,Anthropic Claude Code 部门负责人Boris Cherny用另一种方式说了同一件事:

“我不再直接提示 Claude 了。我写了一些循环程序,让循环去提示 Claude,让它自己决定该做什么。我的工作,就是写循环。”

两位站在行业最前线、还在世的顶级 AI 工程师,传递了完全相同的信号

大多数人看完后的第一反应是:这到底在说什么?

我深入研究了这件事。下面是全部内容——不讲术语,只给你需要的那套思维模型。

值得收藏。它会改变你看待 AI 的方式。


首先:为什么大多数人从来没真正搭过循环?

循环听起来很美好。然后你看到了账单。

这是没人会事先告诉你的事。

  • 单个 AI 循环完成一个中等编码任务:消耗5 万 ~ 20 万 token
  • 一个由协调者 + 3 个专家组成的舰队循环:消耗50 万 ~ 200 万 token
  • 每天早上定时运行的循环:每周消耗数百万 token

按标准 API 价格算,认真玩一周「循环工程」的费用,比大多数人一整个月的 AI 预算还高。

这就是为什么 Peter Steinberger 的推文底下,全是这样的回复:

“你当然说得轻松——因为你有 OpenAI 的无限额度。”

他们没说错。

预算有限的情况下,循环工程很快就会崩。

每一次重试都要钱。每一次自我纠正都要钱。每一个子智能体都要钱。每一次验证都要钱。那种自由探索的开环?烧 token 的速度快到让你肉疼。

这是没人公开谈论的隐藏障碍:

循环不难设计。难的是,你负担不起。

这正是国产大模型在解决的问题

DeepSeek、Kimi、MiniMax 这类模型,让 AI 循环在经济上第一次变得可行

自主智能体最大的问题从来不是「智能」,而是token 消耗

以 DeepSeek V4 为例,它目前是大规模跑循环最便宜的前沿级模型之一:

  • 100 万 token 上下文窗口—— 为大型项目和长流程而生
  • 最大输出 38.4 万 token—— 大规模生成不崩
  • Flash + Pro 双版本,极低的 token 单价
  • 支持工具调用 + JSON 输出,专为智能体工作流设计
  • 高并发(Flash 版最高 2500 并发请求)

为什么 100 万上下文窗口这么重要?

因为循环需要记忆

一个跑在大型项目上的编码循环,需要同时在内存里装下:

  • 之前几次运行的记录
  • 当前的错误信息
  • 架构文档
  • 测试结果
  • 整个代码库的上下文

大多数模型跑到一半就丢失上下文,循环开始「失忆」,忘了前面发生过什么。上下文越大,长时间运行的循环就越能保持连贯。

再加上价格极低——循环,终于不再让人倾家荡产。


旧方式 vs 新方式

过去两年,我们是这样用 AI 的:

你 → 写提示词 → AI 输出 → 你审查 → 你修改 → 再写提示词 → 重复……

你,就是那个循环。

这种情况正在改变。

与其让 AI 做一个着陆页、然后你亲自盯着每一步,不如搭一个循环,让它自己处理「发现 → 规划 → 执行 → 检查 → 迭代」,直到目标达成。

两者对比:

旧方式(提示):

你 → 提示 → AI → 输出 → 你审查 → 你修复 → 重复

新方式(循环):

你设定目标 → 循环启动 → AI 发现 → 规划 → 执行 → 验证 → 迭代 → 完成

你不再需要提示每一步了,AI 替你重复整个周期。

一句话区分两者:

  • 提示词:给 AI 一个指令
  • 循环:给 AI 一份工作

循环工程到底是什么

循环工程(Loop Engineering),就是设计可重复的反馈闭环,引导 AI 从「开始尝试」一路走到「验证完成」——全程无需人类持续干预

循环是一套你亲手搭建的系统。几乎任何智能体框架都能跑,关键看你怎么接线。

最简单的形态,是一个 AI 对自己做这件事:

→ 研究
→ 起草
→ 拿草稿对照目标检查
→ 修复薄弱环节
→ 再跑一遍,直到工作达标

不管多简单或多复杂,每一个循环都经过相同的 5 个阶段

发现(Discover)→ 规划(Plan)→ 执行(Execute)→ 验证(Verify)→ 迭代(Iterate)
  • 验证通过→ 交付
  • 验证失败→ 再循环一次

这就是全部精髓。本文剩下的内容,都是在讲如何把这个循环搭好。


单兵 vs 战队

循环有两种规模。

单智能体循环

一个 AI 独立跑完整个循环。就像一个人反复打磨自己的草稿——它发现需求、规划工作、执行、验证质量,出问题就迭代。

适合:

  • 任务聚焦
  • 目标简单
  • 范围有限

一个大脑,一个循环,自我完善。

舰队循环(Fleet Loop)

更大的版本。

你给一个协调者智能体设定目标 → 它把目标拆成小块 → 每块交给一个专家智能体→ 专家再把更细的活交给自己的子智能体

整棵树都在循环跑「发现 → 规划 → 执行 → 验证」,直到目标达成。

结构:

  • 协调者:掌控总目标
  • 专家:负责各个步骤
  • 子智能体:做最具体的活
  • 评估门(Eval Gate):确保产出不是垃圾

举个例子,目标是「开发一款效率 App」:

协调者(掌控全局任务) ┌────────┼────────┐ 研究专家 工程专家 QA 专家 ↓ ↓ ↓ 网页调研 代码编写 测试编写 + 调试 + Bug 跟踪

树里的每一个智能体,都在跑同一个 5 阶段循环:发现 → 规划 → 执行 → 验证 → 迭代。

核心区别:单智能体循环像一个人自我打磨草稿;舰队循环像一整个团队端到端跑完一个项目。


开环 vs 闭环

这是 2026 年最重要的实践区分。

不是所有循环都一样,有两种类型。

开环(Open Looping)

探索型,活动空间宽广。

你给 AI 一个目标,放手让它自由游走。它可以尝试不同路径、发现新东西、构建出你没完全设想的成果。

这是最激动人心的那一端,也是 Peter Steinberger 他们在 OpenAI 做的事。

代价是什么?

  • 烧 token 的量大到惊人
  • 对 90% 没有无限 API 预算的人来说,目前还不实际
  • 一旦指向标准松散的项目,它会变成一台「垃圾生产机」——快、乱、贵

闭环(Closed Looping)

有边界。由人类先设计好端到端的路径。

→ 明确的目标
→ 定义好的步骤
→ 每一步都有评估
→ 一个停止点,或交还给你的节点

智能体照样在循环——但跑在你搭建的框架内

它每跑一次都更好,因为每一遍都为下一遍铺路。它能在正常预算内运行,因为路径很紧凑。标准让它保持诚实。

没有质量门:AI 会漂移、跑偏。
有了质量门:AI 越跑越好。

对今天大多数真实工作而言,闭环才是真正能带来回报的那个

该用哪个?

从闭环开始。先搭一个稳定可靠的紧凑系统。等质量门都到位了,再逐步开放。


每个好循环的 6 个积木

概念上,循环有 5 个阶段。但你实际要搭建什么才能让它跑起来?

6 样东西。Claude Code 和 Codex 现在都内置了这 6 样。下面是它们各自在循环里到底做了什么。

1. 自动化(Automations)—— 循环的心跳

触发「发现」、启动整个循环的东西。

自动化是让循环成为「真正的循环」、而不只是「跑过一次」的关键。你定义一个提示词、一个节奏、一个目标,循环就按计划运行,结果主动找你——而不是你到处去查。

  • /loop:按节奏重复运行
  • /goal:一直跑,直到你写的条件真正为真

给它一句:「test/auth 里所有测试通过,且 lint 检查干净。」然后——走开就好。

2. 工作树(Worktrees)—— 并行而不打架

让多个「执行」阶段并行运行而互不破坏的东西。

只要你跑超过一个智能体,文件就开始冲突。两个 AI 写同一个文件,和两个工程师不打招呼就提交到同一行代码,是一模一样的问题。

Git worktree 给每个智能体一个独立的工作目录、独立的分支——共享同一份仓库历史,零冲突。一个智能体的修改,物理上就碰不到另一个的代码。

3. 技能(Skills)—— 让「发现」更快

让智能体在开工前就已经认识你的项目。

别每次循环都从零解释你的项目。

Skill 是一个文件夹,里面放一个SKILL.md——项目约定、构建步骤、还有那句「我们不这么干,因为上次出过事故」。写一次,每次循环都读。

  • 没有技能:循环每个周期都从零重新理解你的整个项目
  • 有了技能:知识会复利积累,智能体开工前就懂你的项目

推荐建立:

  • VISION.md—— 成功长什么样
  • ARCHITECTURE.md—— 技术栈和目录结构
  • RULES.md—— 智能体绝对不能做的事

4. 插件与连接器(Plugins & Connectors)—— 让「执行」真实落地

让循环作用于你真实的环境,而不只是文件系统。

一个只能看见文件系统的循环,是个很小的循环。

基于MCP构建的连接器,让智能体能读你的 issue 追踪器、查数据库、调 Staging API、往 Slack 丢消息。

这就是「这是修复方案」和「已自动开好 PR、关联了 Linear 工单、CI 一变绿就 ping 了频道」之间的区别——全部由它自己完成。

5. 子智能体(Subagents)—— 让「验证」诚实

核查者,永远不能是创作者本人。

写代码的那个模型,给自己的作业打分时太手软。

第二个智能体,带着不同的指令(有时甚至是不同的模型),能抓住第一个智能体自我说服后放过的问题。

有效的分工是:

→ 一个智能体负责探索
→ 一个智能体负责实现
→ 一个智能体对照规格验证

/goal命令底层就是这么干的:决定循环是否结束的,是一个全新的模型,而不是干活的那个。

6. 记忆(Memory)—— 让循环持续

第 47 次运行的「发现」阶段,知道第 1 到第 46 次都试过些什么。

这是整个循环的脊梁。

它可以是一个 Markdown 文件、一块 Linear 看板——任何活在「单次对话之外」的东西。

模型在每次运行之间会忘掉一切,但仓库不会。

记忆文件保存着:试过什么、什么通过了、什么还开着。明天早上,循环从今天停下来的地方继续。

听起来简单到不值一提?所有长时间运行的循环,都依赖它。


真实循环长什么样


loop-examples.png)

编码循环

读取 VISION.md + ARCHITECTURE.md ↓ 规划下一个改动 ↓ 修改代码 ↓ 自动运行测试 ↓ 测试失败 → 读取错误 → 修复 → 重新测试 ↓ 测试通过 → 总结改动 ↓ 停止

全程无人介入。AI 自己写、自己测、自己修、自己验。

研究循环

定义研究问题 ↓ 搜索来源 ↓ 总结发现 ↓ 对照来源验证结论 ↓ 比对冲突信息 ↓ 综合最终答案 ↓ 置信度达标时停止

内容创作循环

定义主题 + 受众 + 目标 ↓ 生成草稿 ↓ 批评智能体审查草稿 ↓ 根据批评重写 ↓ 对照成功标准打分 ↓ 分数通过 → 发布 分数不通过 → 再次重写

销售拓展循环

定义 ICP(理想客户画像) ↓ 找到匹配画像的潜在客户 ↓ 用公司数据做信息增补 ↓ 按标准做资格筛选 ↓ 个性化撰写消息 ↓ 质量审查 ↓ 发送,或升级给人工

每个循环的骨架都一样:目标 → 行动 → 检查 → 修复 → 重复直到完成。


提示词工程师 vs 循环工程师

这是 2026 年正在拉开的技能鸿沟

提示词工程师循环工程师
做的事写更好的指令设计更好的反馈闭环
核心技能语言技巧软件工程
产出更好的单次输出可靠的、经过验证的结果
人的角色就是反馈循环系统是反馈循环
典型动作「帮我写个函数」「写 → 测 → 修,直到通过」
怎么干活写更好的提示词、手动审查、运行一次写 VISION.md、自动测试审查、搭可重复的系统
付费模式为单次输出付费为验证结果付费

工具是一样的。思维方式完全不同。

提示词工程师向 AI 要输出
循环工程师设计出产「已验证结果」的系统

2026 年薪资最高的 AI 工程师,不是能写出更好英文句子的人

他们写的是那套逻辑——控制智能体如何发现、如何规划、如何自检、以及何时知道自己已经完成。


收尾:把所有东西串起来

这就是循环工程。快速回顾一遍:

🔄 这场转变:

  • 过去两年,我们每次提示 AI 做一个任务
  • 现在,我们设计循环来跑完整个周期

🧱 你实际要搭的 6 样东西:

  • 自动化—— 心跳,触发发现
  • 工作树—— 并行而不冲突
  • 技能—— 每次运行复利积累的项目知识
  • 插件与连接器—— 让循环作用于你的真实工具
  • 子智能体—— 创作者和核查者永不为同一个
  • 记忆—— 循环在运行之间永不遗忘

📏 两种规模:

  • 单智能体:一个大脑,自我改进
  • 舰队:协调者 + 专家 + 子智能体,每个都跑同样的循环

🚦 两种类型:

  • 开环:探索性强、强大、昂贵、需要无限预算
  • 闭环:有边界、可靠、负担得起,今天就能带来回报

⚙️ 每个好循环的 5 个组成部分:

  • 目标—— 精确定义「完成」是什么意思
  • 上下文—— VISION.md、ARCHITECTURE.md、RULES.md
  • 行动—— 只给智能体它真正需要的
  • 反馈—— 测试、类型检查、linter、结构化错误
  • 停止条件—— 循环何时知道自己已经做完

💰 成本问题:

  • 循环烧 token 很快
  • 在国产模型上花 20 美元,能比大多数前沿模型走得远得多
  • 这扫除了最后一个真正的障碍

最后一句,没人会公开说出口的话

Peter Steinberger 说得对:别再催你的 AI 了,开始设计循环。

但还有一件事——

两个人可以搭出完全相同的循环,却得到完全相反的结果。

一个人用它,在自己深刻理解的工作上跑得更快。
另一个人用它,来彻底逃避去理解工作本身。

循环分不清这两种人。但你自己知道。

这恰恰是循环设计比提示词工程更难的原因,不是更容易。

Boris Cherny 的意思从来不是「工作变简单了」,而是杠杆点移动了

去搭这个循环吧。

但要像一个打算一直当工程师的人那样去搭——而不是像一个只会按下启动键的人。

因为一个可靠的循环,胜过一千个完美的提示词。

而当 20 美元能买到 17 亿 token 时——你,终于负担得起去搭一个了。


参考: @sairahul1

予人玫瑰手有余!点赞,关注!谢谢!
予人玫瑰手有余!点赞,关注!谢谢!
予人玫瑰手有余!点赞,关注!谢谢!

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询