
AI工程师必读从提示词到循环工程的范式革命 Loop Engineering两位顶级 AI 工程师说了同一件事大多数人没听懂。Peter SteinbergerOpenClaw 的创建者目前在 OpenAI 工作。这条帖子“你不应该再直接提示编码代理而应该设计循环来提示你的代理。”随后Anthropic公司claude·科德部门负责人鲍里斯·切尔尼用另一种方式表达了同样的观点我不再直接提示claude了。我编写了一些循环程序来提示claude然后让他自己决定该做什么。我的工作就是编写循环程序。”两位在世的资深人工智能工程师传达了相同的信息。大多数人读完后都会想这到底是什么意思一切从这两句话开始OpenClaw 创始人、现任职于 OpenAI 的Peter Steinberger发了一条推文“你不应该再直接给编码 AI 写提示词了。你应该设计循环让循环去提示你的 AI。”紧接着Anthropic Claude Code 部门负责人Boris Cherny用另一种方式说了同一件事“我不再直接提示 Claude 了。我写了一些循环程序让循环去提示 Claude让它自己决定该做什么。我的工作就是写循环。”两位站在行业最前线、还在世的顶级 AI 工程师传递了完全相同的信号。大多数人看完后的第一反应是这到底在说什么我深入研究了这件事。下面是全部内容——不讲术语只给你需要的那套思维模型。值得收藏。它会改变你看待 AI 的方式。首先为什么大多数人从来没真正搭过循环循环听起来很美好。然后你看到了账单。这是没人会事先告诉你的事。单个 AI 循环完成一个中等编码任务消耗5 万 ~ 20 万 token一个由协调者 3 个专家组成的舰队循环消耗50 万 ~ 200 万 token每天早上定时运行的循环每周消耗数百万 token按标准 API 价格算认真玩一周「循环工程」的费用比大多数人一整个月的 AI 预算还高。这就是为什么 Peter Steinberger 的推文底下全是这样的回复“你当然说得轻松——因为你有 OpenAI 的无限额度。”他们没说错。预算有限的情况下循环工程很快就会崩。每一次重试都要钱。每一次自我纠正都要钱。每一个子智能体都要钱。每一次验证都要钱。那种自由探索的开环烧 token 的速度快到让你肉疼。这是没人公开谈论的隐藏障碍循环不难设计。难的是你负担不起。这正是国产大模型在解决的问题DeepSeek、Kimi、MiniMax 这类模型让 AI 循环在经济上第一次变得可行。自主智能体最大的问题从来不是「智能」而是token 消耗。以 DeepSeek V4 为例它目前是大规模跑循环最便宜的前沿级模型之一100 万 token 上下文窗口—— 为大型项目和长流程而生最大输出 38.4 万 token—— 大规模生成不崩Flash Pro 双版本极低的 token 单价支持工具调用 JSON 输出专为智能体工作流设计高并发Flash 版最高 2500 并发请求为什么 100 万上下文窗口这么重要因为循环需要记忆。一个跑在大型项目上的编码循环需要同时在内存里装下之前几次运行的记录当前的错误信息架构文档测试结果整个代码库的上下文大多数模型跑到一半就丢失上下文循环开始「失忆」忘了前面发生过什么。上下文越大长时间运行的循环就越能保持连贯。再加上价格极低——循环终于不再让人倾家荡产。旧方式 vs 新方式过去两年我们是这样用 AI 的你 → 写提示词 → AI 输出 → 你审查 → 你修改 → 再写提示词 → 重复……你就是那个循环。这种情况正在改变。与其让 AI 做一个着陆页、然后你亲自盯着每一步不如搭一个循环让它自己处理「发现 → 规划 → 执行 → 检查 → 迭代」直到目标达成。两者对比旧方式提示你 → 提示 → AI → 输出 → 你审查 → 你修复 → 重复新方式循环你设定目标 → 循环启动 → AI 发现 → 规划 → 执行 → 验证 → 迭代 → 完成你不再需要提示每一步了AI 替你重复整个周期。一句话区分两者提示词给 AI 一个指令循环给 AI 一份工作循环工程到底是什么循环工程Loop Engineering就是设计可重复的反馈闭环引导 AI 从「开始尝试」一路走到「验证完成」——全程无需人类持续干预。循环是一套你亲手搭建的系统。几乎任何智能体框架都能跑关键看你怎么接线。最简单的形态是一个 AI 对自己做这件事→ 研究→ 起草→ 拿草稿对照目标检查→ 修复薄弱环节→ 再跑一遍直到工作达标不管多简单或多复杂每一个循环都经过相同的 5 个阶段发现Discover→ 规划Plan→ 执行Execute→ 验证Verify→ 迭代Iterate验证通过→ 交付验证失败→ 再循环一次这就是全部精髓。本文剩下的内容都是在讲如何把这个循环搭好。单兵 vs 战队循环有两种规模。单智能体循环一个 AI 独立跑完整个循环。就像一个人反复打磨自己的草稿——它发现需求、规划工作、执行、验证质量出问题就迭代。适合任务聚焦目标简单范围有限一个大脑一个循环自我完善。舰队循环Fleet Loop更大的版本。你给一个协调者智能体设定目标 → 它把目标拆成小块 → 每块交给一个专家智能体→ 专家再把更细的活交给自己的子智能体。整棵树都在循环跑「发现 → 规划 → 执行 → 验证」直到目标达成。结构协调者掌控总目标专家负责各个步骤子智能体做最具体的活评估门Eval Gate确保产出不是垃圾举个例子目标是「开发一款效率 App」协调者掌控全局任务 ┌────────┼────────┐ 研究专家 工程专家 QA 专家 ↓ ↓ ↓ 网页调研 代码编写 测试编写 调试 Bug 跟踪树里的每一个智能体都在跑同一个 5 阶段循环发现 → 规划 → 执行 → 验证 → 迭代。核心区别单智能体循环像一个人自我打磨草稿舰队循环像一整个团队端到端跑完一个项目。开环 vs 闭环这是 2026 年最重要的实践区分。不是所有循环都一样有两种类型。开环Open Looping探索型活动空间宽广。你给 AI 一个目标放手让它自由游走。它可以尝试不同路径、发现新东西、构建出你没完全设想的成果。这是最激动人心的那一端也是 Peter Steinberger 他们在 OpenAI 做的事。代价是什么烧 token 的量大到惊人对 90% 没有无限 API 预算的人来说目前还不实际一旦指向标准松散的项目它会变成一台「垃圾生产机」——快、乱、贵闭环Closed Looping有边界。由人类先设计好端到端的路径。→ 明确的目标→ 定义好的步骤→ 每一步都有评估→ 一个停止点或交还给你的节点智能体照样在循环——但跑在你搭建的框架内。它每跑一次都更好因为每一遍都为下一遍铺路。它能在正常预算内运行因为路径很紧凑。标准让它保持诚实。没有质量门AI 会漂移、跑偏。有了质量门AI 越跑越好。对今天大多数真实工作而言闭环才是真正能带来回报的那个。该用哪个从闭环开始。先搭一个稳定可靠的紧凑系统。等质量门都到位了再逐步开放。每个好循环的 6 个积木概念上循环有 5 个阶段。但你实际要搭建什么才能让它跑起来6 样东西。Claude Code 和 Codex 现在都内置了这 6 样。下面是它们各自在循环里到底做了什么。1. 自动化Automations—— 循环的心跳触发「发现」、启动整个循环的东西。自动化是让循环成为「真正的循环」、而不只是「跑过一次」的关键。你定义一个提示词、一个节奏、一个目标循环就按计划运行结果主动找你——而不是你到处去查。/loop按节奏重复运行/goal一直跑直到你写的条件真正为真给它一句「test/auth 里所有测试通过且 lint 检查干净。」然后——走开就好。2. 工作树Worktrees—— 并行而不打架让多个「执行」阶段并行运行而互不破坏的东西。只要你跑超过一个智能体文件就开始冲突。两个 AI 写同一个文件和两个工程师不打招呼就提交到同一行代码是一模一样的问题。Git worktree 给每个智能体一个独立的工作目录、独立的分支——共享同一份仓库历史零冲突。一个智能体的修改物理上就碰不到另一个的代码。3. 技能Skills—— 让「发现」更快让智能体在开工前就已经认识你的项目。别每次循环都从零解释你的项目。Skill 是一个文件夹里面放一个SKILL.md——项目约定、构建步骤、还有那句「我们不这么干因为上次出过事故」。写一次每次循环都读。没有技能循环每个周期都从零重新理解你的整个项目有了技能知识会复利积累智能体开工前就懂你的项目推荐建立VISION.md—— 成功长什么样ARCHITECTURE.md—— 技术栈和目录结构RULES.md—— 智能体绝对不能做的事4. 插件与连接器Plugins Connectors—— 让「执行」真实落地让循环作用于你真实的环境而不只是文件系统。一个只能看见文件系统的循环是个很小的循环。基于MCP构建的连接器让智能体能读你的 issue 追踪器、查数据库、调 Staging API、往 Slack 丢消息。这就是「这是修复方案」和「已自动开好 PR、关联了 Linear 工单、CI 一变绿就 ping 了频道」之间的区别——全部由它自己完成。5. 子智能体Subagents—— 让「验证」诚实核查者永远不能是创作者本人。写代码的那个模型给自己的作业打分时太手软。第二个智能体带着不同的指令有时甚至是不同的模型能抓住第一个智能体自我说服后放过的问题。有效的分工是→ 一个智能体负责探索→ 一个智能体负责实现→ 一个智能体对照规格验证/goal命令底层就是这么干的决定循环是否结束的是一个全新的模型而不是干活的那个。6. 记忆Memory—— 让循环持续第 47 次运行的「发现」阶段知道第 1 到第 46 次都试过些什么。这是整个循环的脊梁。它可以是一个 Markdown 文件、一块 Linear 看板——任何活在「单次对话之外」的东西。模型在每次运行之间会忘掉一切但仓库不会。记忆文件保存着试过什么、什么通过了、什么还开着。明天早上循环从今天停下来的地方继续。听起来简单到不值一提所有长时间运行的循环都依赖它。真实循环长什么样loop-examples.png)编码循环读取 VISION.md ARCHITECTURE.md ↓ 规划下一个改动 ↓ 修改代码 ↓ 自动运行测试 ↓ 测试失败 → 读取错误 → 修复 → 重新测试 ↓ 测试通过 → 总结改动 ↓ 停止全程无人介入。AI 自己写、自己测、自己修、自己验。研究循环定义研究问题 ↓ 搜索来源 ↓ 总结发现 ↓ 对照来源验证结论 ↓ 比对冲突信息 ↓ 综合最终答案 ↓ 置信度达标时停止内容创作循环定义主题 受众 目标 ↓ 生成草稿 ↓ 批评智能体审查草稿 ↓ 根据批评重写 ↓ 对照成功标准打分 ↓ 分数通过 → 发布 分数不通过 → 再次重写销售拓展循环定义 ICP理想客户画像 ↓ 找到匹配画像的潜在客户 ↓ 用公司数据做信息增补 ↓ 按标准做资格筛选 ↓ 个性化撰写消息 ↓ 质量审查 ↓ 发送或升级给人工每个循环的骨架都一样目标 → 行动 → 检查 → 修复 → 重复直到完成。提示词工程师 vs 循环工程师这是 2026 年正在拉开的技能鸿沟。提示词工程师循环工程师做的事写更好的指令设计更好的反馈闭环核心技能语言技巧软件工程产出更好的单次输出可靠的、经过验证的结果人的角色你就是反馈循环系统是反馈循环典型动作「帮我写个函数」「写 → 测 → 修直到通过」怎么干活写更好的提示词、手动审查、运行一次写 VISION.md、自动测试审查、搭可重复的系统付费模式为单次输出付费为验证结果付费工具是一样的。思维方式完全不同。提示词工程师向 AI 要输出。循环工程师设计出产「已验证结果」的系统。2026 年薪资最高的 AI 工程师不是能写出更好英文句子的人。他们写的是那套逻辑——控制智能体如何发现、如何规划、如何自检、以及何时知道自己已经完成。收尾把所有东西串起来这就是循环工程。快速回顾一遍 这场转变过去两年我们每次提示 AI 做一个任务现在我们设计循环来跑完整个周期 你实际要搭的 6 样东西自动化—— 心跳触发发现工作树—— 并行而不冲突技能—— 每次运行复利积累的项目知识插件与连接器—— 让循环作用于你的真实工具子智能体—— 创作者和核查者永不为同一个记忆—— 循环在运行之间永不遗忘 两种规模单智能体一个大脑自我改进舰队协调者 专家 子智能体每个都跑同样的循环 两种类型开环探索性强、强大、昂贵、需要无限预算闭环有边界、可靠、负担得起今天就能带来回报⚙️ 每个好循环的 5 个组成部分目标—— 精确定义「完成」是什么意思上下文—— VISION.md、ARCHITECTURE.md、RULES.md行动—— 只给智能体它真正需要的反馈—— 测试、类型检查、linter、结构化错误停止条件—— 循环何时知道自己已经做完 成本问题循环烧 token 很快在国产模型上花 20 美元能比大多数前沿模型走得远得多这扫除了最后一个真正的障碍最后一句没人会公开说出口的话Peter Steinberger 说得对别再催你的 AI 了开始设计循环。但还有一件事——两个人可以搭出完全相同的循环却得到完全相反的结果。一个人用它在自己深刻理解的工作上跑得更快。另一个人用它来彻底逃避去理解工作本身。循环分不清这两种人。但你自己知道。这恰恰是循环设计比提示词工程更难的原因不是更容易。Boris Cherny 的意思从来不是「工作变简单了」而是杠杆点移动了。去搭这个循环吧。但要像一个打算一直当工程师的人那样去搭——而不是像一个只会按下启动键的人。因为一个可靠的循环胜过一千个完美的提示词。而当 20 美元能买到 17 亿 token 时——你终于负担得起去搭一个了。参考 sairahul1予人玫瑰手有余点赞关注谢谢予人玫瑰手有余点赞关注谢谢予人玫瑰手有余点赞关注谢谢