Loop Engineering:从提示工程师到循环设计师

2026/06/25 dev Agent · Loop Engineering · AI 工程化 · 提示工程 · 自动化 2358 字 · 约 7 分钟 阅读 ...
一条来自 Anthropic 工程文档和社区实践的 14 步路线图,帮你从手动给 Agent 写提示,转变为设计自动循环系统来驱动 Agent。

原文:Loop engineering: the 14-step roadmap from prompter to loop designer — Codez(@0xCodez),2026-06-09

推广推文:A senior Anthropic engineer just dropped 11-page PDF on “Loop Engineering”… — Codez(@0xCodez),2026-06-24,获 3000+ 赞、470+ 转发、720K+ 阅读

Loop Engineering(循环工程) 正在成为 AI 工程化领域的新热点。核心思想很简单:别再手动给 Agent 写提示了——设计一个系统,让系统替你给 Agent 写提示。

这个思路来自 Anthropic 的工程文档、Addy Osmani 的长期研究和社区的测量数据。@0xCodez 将其整理为一份 14 步路线图,分三个层级:判断是否需要循环 → 学习五个构建块 → 构建最小可用且不伤人的循环

为什么要 Loop Engineering?

过去两年,用编程 Agent 的工作流一直是这样:写提示 → 粘贴上下文 → 读 diff → 再写下一条提示。Agent 是一个工具,你全程握着它。

Loop Engineering 把这个角色反转了。你构建一个小系统,这个系统自己找到工作、交给 Agent、检查结果、记录发生了什么、然后决定下一步——完全自主运行。你只需设计一次循环,之后是循环在驱动 Agent。

Anthropic 的工程师现在每天合并的代码量是 2024 年的 8 倍——连 Anthropic 自己都承认”几乎肯定是夸大了真实效率提升”。数字可以争论,但机制方向很明确:杠杆点已经从”写提示”转移到了”设计提示循环”

要不要建循环?先跑 4 条件测试

建循环是有成本的。以下四个条件缺一不可:

  1. 任务重复发生——循环的搭建成本需要多次运行来摊销。一次性的活,写好一条提示更快更省。
  2. 自动化验证存在——循环需要有人不在场时也能”判错”的东西:测试套件、类型检查、lint、构建。没有自动门禁,你又要回来读每个 diff。
  3. Token 预算能承受浪费——循环会重读上下文、重试、探索。这消耗 token,不管这次运行有没有产出。
  4. Agent 有”高级工程师的工具”——日志、复现环境、能跑自己写的代码并看到哪里挂了。没有这些,循环是瞎子。

适合建循环的团队:有重复性任务、有自动化验证、有 token 预算、已经在用多 Agent 模式的团队。 不适合的:单人开发用消费级套餐、代码没有自动化验证、真正瓶颈在审查不在打字速度。

14 步路线图

第一部分:为什么 & 测试(Tier 1)

01. 用循环替代自己当提示者。 理解从”提示者”到”循环设计师”的范式转移。杠杆点变了。

02. 跑 4 条件测试。 就是上面的四个条件——缺一个就回退到手动提示。循环不是银弹,有明确的适用边界。

03. 谁赢谁输。 有无限 token 的人觉得循环很自然,用 $20 消费计划的人觉得太奢侈。适用性取决于你的预算和代码库现状。

04. 30 秒循环检查清单。 对具体任务跑一遍:周频?有自动门禁?Agent 能跑改的代码?重复间隔 > 1 轮?

第二部分:五个构建块(Tier 2)

05. 发现:让 Agent 自己找活干。 不是把任务列表交给 Agent 跑一遍,而是让 Agent 去检查 CI 状态、看 Issues、读最近提交。它应该自己决定”接下来该做什么”。

06. 交接:隔离的工作区。 每个独立任务拿到自己的 git worktree。并行 Agent 不会互相碰撞。没有共享状态,就没有竞态。

07. 验证:拒绝自己的代码。 最关键的模块——专门构建一个”说不得”的第二 Agent,假设代码是坏的来审查第一 Agent 的输出。关键洞察:Agent 给自己的作业打分总是打高分。需要一个独立的审查者。

08. 持久化:写盘,不留在上下文窗口。 结果写入文件系统,永远不会因为上下文窗口被刷新而丢失。这是个简单但致命的区别——大多数手动调试丢了就丢了。

09. 调度:让时钟唤醒 Agent。 定时器让它变成真正的循环。没有调度,它只是一个你手动启动的脚本。

第三部分:最小可行循环(Tier 3)

10. 从观察开始。 先不要建循环。记录前 10 次手动操作。每次”我做了什么判断?”——这些判断就是你的循环需要复制的逻辑。

11. 构建最小版。 一条线路、一个发现来源、一个验证步骤。不贪多。

12. 增量加固。 加日志,加重试策略,加超时。每次只加一个安全网。

13. 做可逆的决策。 每次 Agent 触发的变更,都必须能回滚。没有”哦糟了”的余地。

14. 持续校验。 每周检查一次循环的产出质量。如果人工干预率上升,说明边界条件变了,需要调整循环。

局限与反思

这份路线图有几个值得注意的边界条件:

  • Token 成本在下降,但还没有消失。 今天的”最适合循环”场景,在有足够测试覆盖且 Agent 可以跑代码的代码库上成立。对弱覆盖代码库,循环可能弊大于利。
  • “8 倍产出”是上限,不是平均值。 Anthropic 自己都标注了 caveat。不要拿头部数据当基线。
  • 循环不等于自主 Agent。 循环处理有明确边界(周频任务 × 可验证 × 可回滚)。超出这个范围,讨论的是另一个话题。
  • MCP、A2A 协议成熟度会改变循环的构建成本。如果工具注册和发现变成标准协议内置能力,”调度 + 验证”循环会更便宜。

参考资料

本文基于 @0xCodez 的 X/Twitter 文章撰写,核心内容来自 Anthropic 工程文档、Addy Osmani 研究和社区测量数据。文中表述了原文的核心框架,未添加未经验证的个人评价。

文档信息