OWASP《智能体安全治理现状 v2.01》深度解读——从风险假设到真实事件，企业治理框架全面拆解

一、为什么这份报告值得每个安全团队认真读

2025 年 7 月，OWASP 发布了《智能体安全治理现状 v1.0》，当时主要将智能体风险描述为一组可能出现的威胁，并呼吁治理跟上部署速度。

一年后，v2.01 的核心判断变了——威胁已经真实发生。2025 年还停留在架构担忧层面的风险，现在几乎每一类都已经对应到生产事故、厂商安全通告或 CVE。对于企业安全团队来说，这份报告的价值在于：

它把智能体拆成了可治理的对象
先分清你部署的是什么类型智能体
再看它怎么实现、怎么组合、自治程度多高
然后把风险落到 OWASP ASI（Agentic Security Initiative）的十类风险上
最后用成熟度模型判断企业当前治理能力是否配得上部署复杂度

这不是一份理论读物，而是一份操作手册级的治理蓝图。

二、从 v1.0 到 v2.01：三个核心判断的升级

v2.01 基于过去一年的真实证据，形成了三项核心判断：

判断一：威胁已不是假设

一年前，提示词注入、工具误用、权限滥用还是研究环境中的实验性攻击。到 2026 年，每类风险都有对应的真实案例：

ASI01 智能体目标劫持：观察到最普遍的攻击技术，出现在生产力平台、CRM 系统和开发环境的大规模间接提示词注入活动中——一封邮件即可触发 Copilot 泄露机密数据（EchoLeak 事件）
ASI04 智能体供应链：CVE 披露数量最高的类别之一。MCP 生态在十个月内出现首个恶意包（postmark-mcp）、首个关键基础设施 RCE（CVE-2025-6514，CVSS 9.6）和首个协同行动（ClawHavoc）
ASI05 非预期代码执行：对主要 AI 编码 IDE 的安全审计发现，所有被测产品均存在漏洞

判断二：AI Safety 和 Security 在部署层必须统一治理

传统软件中，Safety 偏工程可靠性，Security 偏对抗攻击，通常由不同团队负责。但智能体系统改变了这一点。

当智能体能自主执行有后果的动作（发邮件、改文件、调 API、提交代码、触发交易）时，“系统被操纵所以做了坏事”和”系统本来就能做坏事”在运营上很难分开。智能体越有能力、越自治，这两类风险越趋同。

组织的含义很明确：AI Safety 和 AI Security 不能继续作为两条平行线运行。在部署层，它们共享相同的根因，需要相同的控制措施和事件响应能力。

判断三：治理必须跟上部署节奏

监管机构已经接受一个前提——智能体造成损害的速度可能快过人工审核。

法规	时间窗口	含义
欧盟 DORA	4 小时通知	金融业智能体事件必须在 4 小时内上报
NIS2 指令	24 小时早期预警	关键基础设施智能体事件 24 小时内预警
纽约 RAISE Act	72 小时报告	前沿模型安全事件 72 小时内报告
加州 SB 53	15 天窗口	安全事件 15 天内报告

这都指向一个方向：持续监督，而不是周期性审计。按季度节奏设计的治理流程，已经无法满足按小时计算的事件报告时钟。

三、智能体分类体系：先分清楚，再谈治理

v2.01 不再只按”用途”分类，而是用 三个独立维度 描述智能体：

维度一：智能体类型（它做什么，在哪里运行）

类型	自治范围	关键治理挑战
企业智能体	人工确认→完全自治	权限和上下文不匹配
编码智能体	人工确认→完全自治	自治能力超过隔离能力
面向外部用户的智能体	人工确认→半自治	对抗暴露和监管压力并存
个人智能体	半自治→完全自治	企业不可见，影子 AI 风险高
基础设施/运维智能体	人工确认→完全自治	一旦被攻破，横向移动影响范围大

维度二：实现模式（它如何构建）

实现模式直接决定审计面、监控能力和组织可见性：

实现模式	安全含义
完整编排框架（LangGraph、CrewAI、Dify、OpenAI Agents SDK 等）	更容易审计和监控，但框架自身 CVE 成为必查项
轻量库组合（LiteLLM、SDK、自定义控制流）	安全属性完全由构建者决定，默认没有标准化钩子或遥测
平台原生/低代码（Copilot Studio、Salesforce Agentforce）	门槛最低，影子 AI 风险最高，ForcedLeak 事件证明该层也能被利用

一个反直觉的结论：安全团队不能假设”用了框架就等于可见”。轻量库组合和低代码平台形成的影子 AI，可能让第一步盘点就变得困难。

维度三：组合模式（智能体如何排列和协作）

组合模式	关键安全考虑
单智能体 + 多工具	“致命三要素”：访问私有数据 + 接触不可信内容 + 具备外发能力
多智能体系统	共享记忆污染传播，编排器是单点失陷点
分布式智能体链（A2A/ACP/MCP）	信任传递失败、身份稀释、跨链横向移动、级联故障
智能体派生（父→子→孙）	权限继承是核心风险，失陷影响范围随网状结构扩大

四、攻击面正在从模型扩展到工具链

v2.01 最值得关注的洞察之一：攻击面扩展的速度远超治理能力提升的速度。具体体现在六类关键攻击面：

4.1 提示词注入进入工具调用链路

对单个模型而言，一次注入可能只影响一个回答。但在智能体系统中，它可以重定向目标、污染多步计划、伪造智能体间消息，并把影响级联到多个系统的工具动作中。

根本挑战在于架构：大语言模型把数据平面和控制平面压缩进同一个通道——系统提示词、用户请求、外部检索内容都被处理为统一文本序列，没有可靠机制在它们之间强制执行权限边界。

Simon Willison 提出的 “致命三要素” 描述了最危险的条件：访问私有数据 + 接触不可信内容 + 能够对外通信。一个智能体在同一会话中同时具备三者时，一次注入就能完成完整攻击链。

Meta 的 “Agents Rule of Two” 将其转化为设计约束：任何不需要人工批准的会话中，智能体最多只能满足三项属性中的两项。如果三项同时满足，必须在行动前引入人工审批。

4.2 供应链风险进入真实利用阶段

2025-2026 年，智能体供应链成为演进最快的攻击路径，攻击者瞄准三层：

协议基础设施：MCP 生态中，研究人员发现首个野外恶意 MCP Server postmark-mcp——先用 15 个版本建立可信度，随后悄悄添加一行外传代码。随后核心 MCP 基础设施中发现 CVE-2025-6514（CVSS 9.6），影响数十万开发者。

Skill 注册中心：ClawHavoc 行动将社会工程内容嵌入伪造 Skill 文档。Snyk 的 ToxicSkills 分析发现，有 Skill 会污染智能体持久记忆文件（SOUL.md 和 MEMORY.md），从而实现跨会话、延迟触发的行为修改。

核心 AI 包：2026 年 3 月，攻击者利用 Aqua Security 凭据轮换不完整的问题攻破 Trivy GitHub Actions，进而获取 LiteLLM 的 PyPI 发布令牌。后门版本在三小时内下载接近 4.7 万次。LiteLLM 是 CrewAI、DSPy、Microsoft GraphRAG 等多种框架的 LLM 网关。

一个特别值得注意的新型攻击面：Tool Poisoning Attacks——把恶意指令藏在人类评审看不见、但模型会当作可信上下文处理的工具描述字段中。攻击载荷不在代码里，而在元数据里。

五、智能体身份：新的边界，被严重低估的风险

v2.01 用大量篇幅讨论智能体身份，这是一个容易被忽视但极其关键的问题。

传统非人身份 vs 智能体身份

维度	传统 NHI（服务账号）	智能体身份
性质	静态凭据	动态密码学身份
范围	预定义、粗粒度	基于意图、细粒度
生命周期	长期存在	临时/即时授权
委托基础	OAuth scope	保留上下文的委托链
可审计性	基于访问令牌	结构化、绑定意图的声明
信任模型	基础设施信任	密码学证明和溯源

核心差异：NHI 能告诉你一个凭据是否合法，但不能告诉你持有这个凭据的推理实体现在是否应该做这个动作。

智能体身份需要具备的六项能力

身份证明：运行时篡改检测（代码签名不能保证运行时完整性）
可验证凭据：跨组织证明（API 密钥不可移植，依赖中心化 IdP）
身份链：解决混淆代理问题（访问令牌转发无法绑定上游主体）
动态范围：解决过度授权（静态 scope 签发后不可变）
智能体命名服务：解决发现混乱（注册中心缺乏语义化注册）
凭据蔓延治理：Vault 轮换跟不上工具爆炸速度

一个核心结论：在智能体世界里，身份就是新的边界。 组织必须从静态密钥转向经过证明、短生命周期、可追溯的密码学身份。

六、采用层级 × 治理成熟度：交叉判断企业安全水位

v2.01 最大的实操价值在于提出了一套双维评估模型：

采用层级（AT0-AT8）：你到底部署了什么

层级	核心特征	示例
AT0	影子 AI，组织无感知	员工把公司数据放进个人 ChatGPT
AT1	供应商嵌入助手	M365 Copilot、GitHub Copilot
AT2	平台集成，不能执行代码	Custom GPTs、Vertex AI Agents
AT3	业务人员自建（低代码）	Power Automate、Copilot Studio
AT4	代码执行智能体	Claude Code、Devin、Open Interpreter
AT5	自研智能体	LangGraph 自定义、Bedrock Agents
AT6	外部扩展智能体	接入 MCP Server 的智能体
AT7	多智能体编排	CrewAI 工作流、AutoGen 团队
AT8	联邦/跨边界智能体	跨组织供应链智能体

治理成熟度（Level 0-4）：你的治理能力够不够

成熟度	关键动作
Level 0 无感知	识别影子 AI，建立高层认知
Level 1 试点	试点审批，初始自治限制
Level 2 政策+人工确认	发布正式政策，人工确认高影响决策
Level 3 持续监督	实时监控、停止开关、AI 安全运营
Level 4 自适应	自调节策略、密码学身份、自动化审计

关键交叉判断

AT0（影子 AI）：默认不可治理，优先任务是发现和盘点
AT4-AT5（代码执行/自研）：高暴露，需要沙箱、代码审查和人工确认
AT6-AT7（外部扩展/多智能体）：需要供应链验证、MCP 认证、智能体到智能体身份
AT8（联邦）：不应部署在 Level 3 以下的环境

七、合规版图：42 项法规的智能体影响映射

v2.01 的另一大亮点：覆盖 10 个司法辖区和国际标准组织的 42 项法规，并用九个维度评估它们对自治智能体的影响。

法规框架	核心智能体要求
欧盟 AI Act	高风险系统需人工监督，供应链责任覆盖智能体调用的各组件
DORA	金融业 4 小时事件通知，年度威胁主导渗透测试
GDPR 第 22 条	有重大影响的自动化决策设自治底线
加州 SB 53	15 天安全事件报告，透明度报告记录安全测试
新加坡 Agentic AI 框架	全球首个专门面向智能体 AI 的治理框架（2026.1）
韩国 AI 基本法	亚太首部综合 AI 法，高影响 AI 要求监督和可解释性

关键洞察：安全团队的事件报告和合规团队的监管材料，往往会描述同一事实。 这意味着合规建设不应是独立于安全运营的额外工作线——安全团队建设威胁检测可观测性，同时也在建设监管可用证据。

八、安全团队的五大行动清单

如果把这份报告压缩成可落地的操作指令，大致是五件事：

第一，先盘点智能体

不要只看正式采购系统，还要看：

员工自带 AI 和浏览器插件
低代码工作流（Power Automate、Zapier）
个人智能体（本地 LLM、Claude Code）
MCP Server 和 CI 中的智能体

第二，按采用层级分级

AT0：发现和收敛影子 AI
AT4：代码执行智能体→沙箱、最小权限、代码审查
AT6 以上：进入供应链、协议、身份和级联故障治理

第三，把智能体身份作为新边界

静态 API 密钥、共享服务账号和长期凭据不适合智能体。需要：

短生命周期、可证明的密码学身份
可绑定任务和上游主体的身份体系
每个自治动作绑定到可验证授权来源

第四，把 SBOM 扩展到运行时

智能体安全不只问”安装了什么”，还要问”运行时能发现什么、调用什么、以谁的权限调用、调用后产生什么结果”。需要补充五类清单：

将 SBOM 制度化并覆盖 AI 基础设施
采用并运营 AIBOM（模型版本、训练谱系、运行环境）
建立正式 AI 和智能体组件清单
将供应链治理扩展到运行时组合
对高影响工作流要求决策级可追溯

第五，把治理从文档变成运行时控制

智能体的风险不可能只靠上线前评审解决。真正有效的是：

持续监控和异常检测
策略即代码
停止开关
轨迹级审计
按风险分级的人工确认
能进入安全运营流程的事件响应机制

九、结语

v2.01 有一个不容易注意到的副线叙事：智能体 AI 不再是少数公司的前沿实验，它正在成为软件系统的基本架构模式。 你的组织可能已经有智能体在运行——只是你还没发现。

这份报告的价值，就是把这个变化拆成了安全团队能够治理的对象。一年前的”可能出现的风险组合”，现在已经变成”有证据的真实案例组合”。真正的差别在于，企业是主动按照真实攻击面建立治理姿态，还是等第一次事件之后再补治理。

是时候把智能体安全从”关注列表”移到”行动列表”了。

参考资料

OWASP Agentic Security Initiative owasp.org/www-project-ai-security-and-privacy-guide/
OWASP《智能体安全治理现状 v2.01》解读原文 mp.weixin.qq.com/s/7ME40fr-WYbOrZBoRMqFvg

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/sec/owasp-agent-security-governance-v2-interpretation.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）