一、为什么这份报告值得每个安全团队认真读
2025 年 7 月,OWASP 发布了《智能体安全治理现状 v1.0》,当时主要将智能体风险描述为一组可能出现的威胁,并呼吁治理跟上部署速度。
一年后,v2.01 的核心判断变了——威胁已经真实发生。2025 年还停留在架构担忧层面的风险,现在几乎每一类都已经对应到生产事故、厂商安全通告或 CVE。对于企业安全团队来说,这份报告的价值在于:
- 它把智能体拆成了可治理的对象
- 先分清你部署的是什么类型智能体
- 再看它怎么实现、怎么组合、自治程度多高
- 然后把风险落到 OWASP ASI(Agentic Security Initiative)的十类风险上
- 最后用成熟度模型判断企业当前治理能力是否配得上部署复杂度
这不是一份理论读物,而是一份操作手册级的治理蓝图。
二、从 v1.0 到 v2.01:三个核心判断的升级
v2.01 基于过去一年的真实证据,形成了三项核心判断:
判断一:威胁已不是假设
一年前,提示词注入、工具误用、权限滥用还是研究环境中的实验性攻击。到 2026 年,每类风险都有对应的真实案例:
- ASI01 智能体目标劫持:观察到最普遍的攻击技术,出现在生产力平台、CRM 系统和开发环境的大规模间接提示词注入活动中——一封邮件即可触发 Copilot 泄露机密数据(EchoLeak 事件)
- ASI04 智能体供应链:CVE 披露数量最高的类别之一。MCP 生态在十个月内出现首个恶意包(postmark-mcp)、首个关键基础设施 RCE(CVE-2025-6514,CVSS 9.6)和首个协同行动(ClawHavoc)
- ASI05 非预期代码执行:对主要 AI 编码 IDE 的安全审计发现,所有被测产品均存在漏洞
判断二:AI Safety 和 Security 在部署层必须统一治理
传统软件中,Safety 偏工程可靠性,Security 偏对抗攻击,通常由不同团队负责。但智能体系统改变了这一点。
当智能体能自主执行有后果的动作(发邮件、改文件、调 API、提交代码、触发交易)时,“系统被操纵所以做了坏事”和”系统本来就能做坏事”在运营上很难分开。智能体越有能力、越自治,这两类风险越趋同。
组织的含义很明确:AI Safety 和 AI Security 不能继续作为两条平行线运行。在部署层,它们共享相同的根因,需要相同的控制措施和事件响应能力。
判断三:治理必须跟上部署节奏
监管机构已经接受一个前提——智能体造成损害的速度可能快过人工审核。
| 法规 | 时间窗口 | 含义 |
|---|---|---|
| 欧盟 DORA | 4 小时通知 | 金融业智能体事件必须在 4 小时内上报 |
| NIS2 指令 | 24 小时早期预警 | 关键基础设施智能体事件 24 小时内预警 |
| 纽约 RAISE Act | 72 小时报告 | 前沿模型安全事件 72 小时内报告 |
| 加州 SB 53 | 15 天窗口 | 安全事件 15 天内报告 |
这都指向一个方向:持续监督,而不是周期性审计。按季度节奏设计的治理流程,已经无法满足按小时计算的事件报告时钟。
三、智能体分类体系:先分清楚,再谈治理
v2.01 不再只按”用途”分类,而是用 三个独立维度 描述智能体:
维度一:智能体类型(它做什么,在哪里运行)
| 类型 | 自治范围 | 关键治理挑战 |
|---|---|---|
| 企业智能体 | 人工确认→完全自治 | 权限和上下文不匹配 |
| 编码智能体 | 人工确认→完全自治 | 自治能力超过隔离能力 |
| 面向外部用户的智能体 | 人工确认→半自治 | 对抗暴露和监管压力并存 |
| 个人智能体 | 半自治→完全自治 | 企业不可见,影子 AI 风险高 |
| 基础设施/运维智能体 | 人工确认→完全自治 | 一旦被攻破,横向移动影响范围大 |
维度二:实现模式(它如何构建)
实现模式直接决定审计面、监控能力和组织可见性:
| 实现模式 | 安全含义 |
|---|---|
| 完整编排框架(LangGraph、CrewAI、Dify、OpenAI Agents SDK 等) | 更容易审计和监控,但框架自身 CVE 成为必查项 |
| 轻量库组合(LiteLLM、SDK、自定义控制流) | 安全属性完全由构建者决定,默认没有标准化钩子或遥测 |
| 平台原生/低代码(Copilot Studio、Salesforce Agentforce) | 门槛最低,影子 AI 风险最高,ForcedLeak 事件证明该层也能被利用 |
一个反直觉的结论:安全团队不能假设”用了框架就等于可见”。轻量库组合和低代码平台形成的影子 AI,可能让第一步盘点就变得困难。
维度三:组合模式(智能体如何排列和协作)
| 组合模式 | 关键安全考虑 |
|---|---|
| 单智能体 + 多工具 | “致命三要素”:访问私有数据 + 接触不可信内容 + 具备外发能力 |
| 多智能体系统 | 共享记忆污染传播,编排器是单点失陷点 |
| 分布式智能体链(A2A/ACP/MCP) | 信任传递失败、身份稀释、跨链横向移动、级联故障 |
| 智能体派生(父→子→孙) | 权限继承是核心风险,失陷影响范围随网状结构扩大 |
四、攻击面正在从模型扩展到工具链
v2.01 最值得关注的洞察之一:攻击面扩展的速度远超治理能力提升的速度。具体体现在六类关键攻击面:
4.1 提示词注入进入工具调用链路
对单个模型而言,一次注入可能只影响一个回答。但在智能体系统中,它可以重定向目标、污染多步计划、伪造智能体间消息,并把影响级联到多个系统的工具动作中。
根本挑战在于架构:大语言模型把数据平面和控制平面压缩进同一个通道——系统提示词、用户请求、外部检索内容都被处理为统一文本序列,没有可靠机制在它们之间强制执行权限边界。
Simon Willison 提出的 “致命三要素” 描述了最危险的条件:访问私有数据 + 接触不可信内容 + 能够对外通信。一个智能体在同一会话中同时具备三者时,一次注入就能完成完整攻击链。
Meta 的 “Agents Rule of Two” 将其转化为设计约束:任何不需要人工批准的会话中,智能体最多只能满足三项属性中的两项。如果三项同时满足,必须在行动前引入人工审批。
4.2 供应链风险进入真实利用阶段
2025-2026 年,智能体供应链成为演进最快的攻击路径,攻击者瞄准三层:
协议基础设施:MCP 生态中,研究人员发现首个野外恶意 MCP Server postmark-mcp——先用 15 个版本建立可信度,随后悄悄添加一行外传代码。随后核心 MCP 基础设施中发现 CVE-2025-6514(CVSS 9.6),影响数十万开发者。
Skill 注册中心:ClawHavoc 行动将社会工程内容嵌入伪造 Skill 文档。Snyk 的 ToxicSkills 分析发现,有 Skill 会污染智能体持久记忆文件(SOUL.md 和 MEMORY.md),从而实现跨会话、延迟触发的行为修改。
核心 AI 包:2026 年 3 月,攻击者利用 Aqua Security 凭据轮换不完整的问题攻破 Trivy GitHub Actions,进而获取 LiteLLM 的 PyPI 发布令牌。后门版本在三小时内下载接近 4.7 万次。LiteLLM 是 CrewAI、DSPy、Microsoft GraphRAG 等多种框架的 LLM 网关。
一个特别值得注意的新型攻击面:Tool Poisoning Attacks——把恶意指令藏在人类评审看不见、但模型会当作可信上下文处理的工具描述字段中。攻击载荷不在代码里,而在元数据里。
五、智能体身份:新的边界,被严重低估的风险
v2.01 用大量篇幅讨论智能体身份,这是一个容易被忽视但极其关键的问题。
传统非人身份 vs 智能体身份
| 维度 | 传统 NHI(服务账号) | 智能体身份 |
|---|---|---|
| 性质 | 静态凭据 | 动态密码学身份 |
| 范围 | 预定义、粗粒度 | 基于意图、细粒度 |
| 生命周期 | 长期存在 | 临时/即时授权 |
| 委托基础 | OAuth scope | 保留上下文的委托链 |
| 可审计性 | 基于访问令牌 | 结构化、绑定意图的声明 |
| 信任模型 | 基础设施信任 | 密码学证明和溯源 |
核心差异:NHI 能告诉你一个凭据是否合法,但不能告诉你持有这个凭据的推理实体现在是否应该做这个动作。
智能体身份需要具备的六项能力
- 身份证明:运行时篡改检测(代码签名不能保证运行时完整性)
- 可验证凭据:跨组织证明(API 密钥不可移植,依赖中心化 IdP)
- 身份链:解决混淆代理问题(访问令牌转发无法绑定上游主体)
- 动态范围:解决过度授权(静态 scope 签发后不可变)
- 智能体命名服务:解决发现混乱(注册中心缺乏语义化注册)
- 凭据蔓延治理:Vault 轮换跟不上工具爆炸速度
一个核心结论:在智能体世界里,身份就是新的边界。 组织必须从静态密钥转向经过证明、短生命周期、可追溯的密码学身份。
六、采用层级 × 治理成熟度:交叉判断企业安全水位
v2.01 最大的实操价值在于提出了一套双维评估模型:
采用层级(AT0-AT8):你到底部署了什么
| 层级 | 核心特征 | 示例 |
|---|---|---|
| AT0 | 影子 AI,组织无感知 | 员工把公司数据放进个人 ChatGPT |
| AT1 | 供应商嵌入助手 | M365 Copilot、GitHub Copilot |
| AT2 | 平台集成,不能执行代码 | Custom GPTs、Vertex AI Agents |
| AT3 | 业务人员自建(低代码) | Power Automate、Copilot Studio |
| AT4 | 代码执行智能体 | Claude Code、Devin、Open Interpreter |
| AT5 | 自研智能体 | LangGraph 自定义、Bedrock Agents |
| AT6 | 外部扩展智能体 | 接入 MCP Server 的智能体 |
| AT7 | 多智能体编排 | CrewAI 工作流、AutoGen 团队 |
| AT8 | 联邦/跨边界智能体 | 跨组织供应链智能体 |
治理成熟度(Level 0-4):你的治理能力够不够
| 成熟度 | 关键动作 |
|---|---|
| Level 0 无感知 | 识别影子 AI,建立高层认知 |
| Level 1 试点 | 试点审批,初始自治限制 |
| Level 2 政策+人工确认 | 发布正式政策,人工确认高影响决策 |
| Level 3 持续监督 | 实时监控、停止开关、AI 安全运营 |
| Level 4 自适应 | 自调节策略、密码学身份、自动化审计 |
关键交叉判断
- AT0(影子 AI):默认不可治理,优先任务是发现和盘点
- AT4-AT5(代码执行/自研):高暴露,需要沙箱、代码审查和人工确认
- AT6-AT7(外部扩展/多智能体):需要供应链验证、MCP 认证、智能体到智能体身份
- AT8(联邦):不应部署在 Level 3 以下的环境
七、合规版图:42 项法规的智能体影响映射
v2.01 的另一大亮点:覆盖 10 个司法辖区和国际标准组织的 42 项法规,并用九个维度评估它们对自治智能体的影响。
| 法规框架 | 核心智能体要求 |
|---|---|
| 欧盟 AI Act | 高风险系统需人工监督,供应链责任覆盖智能体调用的各组件 |
| DORA | 金融业 4 小时事件通知,年度威胁主导渗透测试 |
| GDPR 第 22 条 | 有重大影响的自动化决策设自治底线 |
| 加州 SB 53 | 15 天安全事件报告,透明度报告记录安全测试 |
| 新加坡 Agentic AI 框架 | 全球首个专门面向智能体 AI 的治理框架(2026.1) |
| 韩国 AI 基本法 | 亚太首部综合 AI 法,高影响 AI 要求监督和可解释性 |
关键洞察:安全团队的事件报告和合规团队的监管材料,往往会描述同一事实。 这意味着合规建设不应是独立于安全运营的额外工作线——安全团队建设威胁检测可观测性,同时也在建设监管可用证据。
八、安全团队的五大行动清单
如果把这份报告压缩成可落地的操作指令,大致是五件事:
第一,先盘点智能体
不要只看正式采购系统,还要看:
- 员工自带 AI 和浏览器插件
- 低代码工作流(Power Automate、Zapier)
- 个人智能体(本地 LLM、Claude Code)
- MCP Server 和 CI 中的智能体
第二,按采用层级分级
- AT0:发现和收敛影子 AI
- AT4:代码执行智能体→沙箱、最小权限、代码审查
- AT6 以上:进入供应链、协议、身份和级联故障治理
第三,把智能体身份作为新边界
静态 API 密钥、共享服务账号和长期凭据不适合智能体。需要:
- 短生命周期、可证明的密码学身份
- 可绑定任务和上游主体的身份体系
- 每个自治动作绑定到可验证授权来源
第四,把 SBOM 扩展到运行时
智能体安全不只问”安装了什么”,还要问”运行时能发现什么、调用什么、以谁的权限调用、调用后产生什么结果”。需要补充五类清单:
- 将 SBOM 制度化并覆盖 AI 基础设施
- 采用并运营 AIBOM(模型版本、训练谱系、运行环境)
- 建立正式 AI 和智能体组件清单
- 将供应链治理扩展到运行时组合
- 对高影响工作流要求决策级可追溯
第五,把治理从文档变成运行时控制
智能体的风险不可能只靠上线前评审解决。真正有效的是:
- 持续监控和异常检测
- 策略即代码
- 停止开关
- 轨迹级审计
- 按风险分级的人工确认
- 能进入安全运营流程的事件响应机制
九、结语
v2.01 有一个不容易注意到的副线叙事:智能体 AI 不再是少数公司的前沿实验,它正在成为软件系统的基本架构模式。 你的组织可能已经有智能体在运行——只是你还没发现。
这份报告的价值,就是把这个变化拆成了安全团队能够治理的对象。一年前的”可能出现的风险组合”,现在已经变成”有证据的真实案例组合”。真正的差别在于,企业是主动按照真实攻击面建立治理姿态,还是等第一次事件之后再补治理。
是时候把智能体安全从”关注列表”移到”行动列表”了。
参考资料
- OWASP Agentic Security Initiative owasp.org/www-project-ai-security-and-privacy-guide/
- OWASP《智能体安全治理现状 v2.01》解读原文 mp.weixin.qq.com/s/7ME40fr-WYbOrZBoRMqFvg
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/owasp-agent-security-governance-v2-interpretation.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)