发生了什么
2026 年 6 月 11 日,Anthropic 安全团队向开发者社区发布了一份安全建议,核心信息直接写在标题里:不要默认信任你自己构建的 AI Agent。
这是主流 AI 公司首次以官方身份,明确建议开发者放弃对 Agent 的默认信任模型。
核心论点
Anthropic 安全团队指出一个很多开发者不愿意面对的事实:
即使 Agent 由可信开发者亲手构建,它的运行时行为仍然可能偏离预期。
偏离的来源有三个:
- 提示注入(Prompt Injection) — 外部输入可能劫持 Agent 的行为逻辑,让它在执行过程中偏离原始指令
- 工具滥用(Tool Abuse) — Agent 获得了工具访问权限后,可能在特定上下文中选择性地使用或滥用这些工具
- 上下文劫持(Context Hijacking) — 长期运行的 Agent 会话中,上下文窗口可能被外部信息污染,导致后续决策失准
这三条不是理论风险——它们在公开的 Agent 安全研究中都有真实案例。
建议的三条防线
面对上述风险,Anthropic 给出的对策是一条清晰的防御链路:
1. 最小权限原则(Least Privilege)
Agent 不需要的权限,不给。Agent 只在当前任务中需要的工具,只临时授予。任务完成后立即回收。
这条原则在传统安全领域已经是常识——不给程序管理员权限,它就做不了管理员级别的破坏。但在 Agent 语境下,这条原则常常被忽视:开发者为了让 Agent 更”能干”,倾向于赋予过宽的权限集。
2. 沙箱隔离(Sandbox Isolation)
Agent 的执行环境应与宿主环境做严格隔离。即使 Agent 被注入或劫持,其影响范围也应被限制在沙箱之内。
这相当于给 Agent 戴上了一个”笼子”——你在里面可以自由活动,但不能破坏笼子外的任何东西。
3. 实时行为监控(Real-time Behavior Monitoring)
不信任不代表不工作。Anthropic 建议在 Agent 运行期间持续监控其行为,而不是在它说”做完了”之后才做事后检查。
监控的目的不是限制 Agent,而是在偏离发生时尽早发现。一个行为模式突然改变的 Agent,比一个稳定执行任务的 Agent 更值得关注。
安全部署检查清单
Anthropic 随建议发布了一份 Agent 安全部署检查清单,涵盖以下关键项:
- Agent 是否只获得了完成任务所需的最小工具集?
- 敏感操作是否需要人类审批(Human-in-the-Loop)?
- Agent 运行环境与系统资源之间是否有隔离层?
- 提示注入攻击是否在输入管道中被检测和过滤?
- Agent 的决策和行为是否被记录以供审计?
- 是否存在回退机制:当 Agent 行为异常时,系统能否安全降级?
- Agent 的凭证和密钥是否遵循了防泄露的最佳实践?
这份清单是当前最权威的 Agent 生产部署安全指南之一。
为什么这件事重要
Anthropic 做出这个表态的时机值得注意——就在 Claude Fable 5 / Mythos 5 发布两天之后。
Fable 5 是目前能力最强的前沿模型之一,但同时 Anthropic 也对它实施了最严格的安全限制:分类器回退、30 天数据留存、可信访问计划。现在,他们进一步提醒开发者:不要因为模型安全就认为 Agent 安全。
这是两个不同的安全层次:
| 层次 | 关注点 | 谁负责 |
|---|---|---|
| 模型安全 | 模型本身不产生有害输出 | 模型提供商 |
| Agent 安全 | Agent 在运行时不被劫持或滥用 | 应用开发者 |
模型安全是 Agent 安全的前提,但不是全部。Agent 应用开发者必须自己负责执行层的安全。
对行业的影响
这是主流 AI 公司第一次明确说”不要信任你自己的 Agent”——不是”要小心”,不是”建议注意”,而是直白的警告。
这件事有几个层面的影响:
最佳实践的信号 — Agent 安全部署正在从”选做题”变成”必做题”。最小权限、沙箱、监控这些在传统安全领域已成熟的做法,正在成为 Agent 开发的标准配置
零信任模型向 AI 延伸 — 「永不信任,始终验证」的原则正在覆盖到 AI Agent 领域。Agent 运行时获得的信任,应该是经过验证的、受限的、可撤销的
基础设施层的缺口暴露 — 当前 Agent 开发框架在安全基础设施上的支持还不够。大多数框架关注 Agent 能做什么,而不是 Agent 不能做什么。这个缺口正在催生新的安全工具需求
写在最后
在 Anthropic 看来,一个安全的 Agent 系统不是靠”模型足够聪明所以不会犯错”来保障的,而是靠无论 Agent 做什么,损害都有限的硬性架构约束来保障的。
这对 Agent 开发者来说不是一个坏消息——恰恰相反,这是一个信号:Agent 正在从实验走向生产,而生产环境需要与能力相匹配的安全水位。
参考链接:
- Anthropic 安全建议原文:abhs.in
- 发布日期:2026-06-11
- 相关阅读:AI Agent vs AI Agent:零点击攻击绕过人工审批
- 相关阅读:OWASP AI Agent 安全成熟度框架
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/anthropic-do-not-trust-agent.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)