
现在几乎所有人都在讨论构建 Agentic Loop。大 V 们不再写提示词了他们在建循环。每个星期都有新帖子告诉你“为什么你也应该这么做”。但那些帖子几乎都漏掉了最重要的一点。大多数人构建的循环其实只是在烧钱。Human-in-the-Loop vs 真正的 Agentic Loop目前大多数人使用 AI 的方式本质上还是人一直在循环里你提示 → 代理构建 → 你审查 → 你再提示 → ……你就是那个发动机。一旦你停止输入工作就停了。这叫 Human-in-the-Loop。它有效但有硬性上限。而一个真正的 Agentic Loop会把人从大部分循环中移除你只在最开始扔一个规格文档spec然后代理自己构建、自我检查、把结果喂回自己继续迭代直到完成。你只需要在最后回来验收。理论上你睡觉代理发货。现实中你醒来看到几百美元的账单和一堆破损的构建。真实成本远比想象中高一个中等复杂度的编码任务每次迭代大约消耗 3 万输入 tokenClaude Sonnet 4.6 定价。一次迭代约 0.09 美元。听起来还可以接受。但问题在于上下文窗口会随着迭代不断膨胀。到第 5 次迭代时输入可能已经涨到 8 万 token。一个任务跑几次就可能花掉几美元。十个任务下来一早上的花费就能达到 10-20 美元。对 20 美元/月的订阅来说这几乎是整个月的额度。对 100 美元/月的订阅来说也就够用一周。真正大规模跑循环的人比如 Peter一个月能烧掉 130 万美元的 token。你不需要达到那个量级就能明显感受到账单的压力。规格文档无法解决的根本问题即使你愿意承担成本还有一个更深层的问题规格文档永远写不全你脑子里的假设。你给代理一个 spec让它从头到尾把东西做完它就会自己做假设。有时候这些假设是对的但大多数时候是错的。你拿到的结果往往不是你真正想要的。代理会以极快的速度、在极大规模上犯这些假设错误并且让你为每一次错误的尝试付费。如果你要用 spec就必须把重点放在消除假设上而不是描述功能明确约束agent 绝对不能做什么视觉/交互参考链接或明确描述你想要的模式而不是“像我脑子里想的那样”每个功能的验收标准具体到什么情况下你会说“这个完成了”大多数 spec 只告诉代理“要做什么”而代理真正需要的是“怎么知道自己做完了以及绝对不能改动什么”。没有外部拒绝机制的循环 老虎机没有硬性反馈机制的循环本质上就是一个老虎机你拉一下拉杆有时出来一个还不错的结果大多数时候出来一个“差不多但细节不对、基于你从未说过的假设”的东西。循环自己并不知道它做错了。它没有办法知道。只有你知道。而一旦你不在循环里这个信息就永远无法反馈给代理。这不是技术 bug而是结构性限制把创造性判断委托给一个无法访问你脑子里真实想法的系统。循环之所以像老虎机不是偶然而是因为它本来就是老虎机——直到你给它一个能自动拒绝坏输出的外部机制。真正能跑通的循环必须有外部二元拒绝门禁循环从烧钱机器变成有用工具的转折点是拥有一个固定、自动、且不需要你主观判断的拒绝机制。代码审查是目前最清晰的例子。作者把 AI 生成的代码推送到 GitHub 后由 Greptile 自动进行代码审查。它不是总结代码而是给出一个 1-5 分的评分并给出具体问题。规则非常简单评分低于 4 分就不能上生产。具体循环流程Cursor 读取 GitHub 上的 Greptile 审查结果Cursor 根据审查指出的问题进行修改Cursor 把更新后的代码推送到 GitHubGreptile 自动运行新的审查如果评分仍低于 4 分循环继续直到评分达到 4 或 5 分或达到最大尝试次数后停止这个循环能工作的核心原因在于反馈是二元的。Greptile 要么通过要么不通过。没有灰色地带也没有“差不多就行”的主观判断。这才是区分“帮你省时间”和“帮你烧钱”的关键。循环真正适用的三种场景代码审查目前最成熟大规模二元输出任务例如按固定模板生成 300 篇 SEO 页面可以用简单脚本检查字数、标题结构、关键词出现等失败就自动打回低风险实验你只想要一个粗糙可用的形状不在乎细节是否完美除此之外对于需要体现产品愿景、细节很重要的工作Human-in-the-Loop 仍然是目前最好的选择。构建循环前必须回答的 4 个问题一个任务是否值得做成循环只需要回答下面这个问题有没有什么机制能自动拒绝坏输出而不需要你主观判断测试套件通过/失败、类型检查零错误、评分超过阈值、构建能否编译等如果答案是 Yes才有可能值得构建循环。如果答案是 No你就是在建造一台一边花你的钱一边自己给自己打分的机器。更完整的判断标准是同时满足以下 4 点任务至少每周重复一次存在能自动拒绝坏输出的外部机制不需要你的判断代理能端到端完成整个工作“完成”的定义是客观的而不是主观品味缺一条就先保持手动提示。先把手动版跑稳再考虑自动化如果你决定要做循环先把手动版本做可靠。先用手跑一次把流程调到你满意的程度。把它做成可复用的技能加入门禁和停止条件最后再放到定时器上。直接跳到自动化是大多数循环在半夜崩溃的主要原因。此外对于无人值守的循环CLAUDE.md 文件比手动模式下重要得多。因为循环里没有中途纠正的机会代理只能依赖启动前上下文里的所有约束和标准。一个可立即使用的自检循环提示词你将以循环方式工作直到任务达到标准。 TASK: [精确描述你要产出的东西] SUCCESS CRITERIA: - [标准 1] - [标准 2] 循环协议每轮重复 1. PLAN: 说明下一步唯一要做的动作 2. DO: 产出或改进工作 3. VERIFY: 按每个标准打 1-10 分并列出具体还差在哪里 4. DECIDE: 如果所有标准都 ≥8 分输出 FINAL 并停止否则输出 ITERATING 并修复最弱的一项 永远不要在所有标准都达到 8 分以上之前宣布完成。不要提问做合理假设并记录下来继续推进。这个提示词可以直接丢进 Claude 或 ChatGPT 使用无需任何额外设置就能先体验一个带自检的循环。总结2026 年 6 月的真实边界未来可能会有完全可靠、能让你安心睡觉的 Agentic Loop。但那个未来还不是现在。目前循环只在以下场景真正靠谱有外部二元拒绝门禁的任务尤其是代码审查大规模二元输出任务低风险、不在乎细节的实验对于真正需要体现你脑子里产品愿景的工作你仍然是最好的那个循环。Human-in-the-loop 不是技术落后而是目前最诚实的答案。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。