清华《2026 智能体安全研究报告》解读

2026/06/09 sec 清华大学 · 智能体安全 · Agent安全 · 七层控制框架 · 威胁模型 · 统一控制平面 2908 字 · 约 9 分钟 阅读 ...
清华大学清新研究团队于 2026 年 6 月发布的 80 页《2026 智能体安全研究报告》解读。报告提出 Agent Safety = 身份 + 策略 + 工具 + 日志 的核心定义,构建了七层安全控制框架,梳理了十大风险的四维分类体系,定义了 L1-L5 能力成熟度模型和 180 天落地路线图。本文仅基于报告原文内容做客观解读。

2026 年 6 月,清华大学清新研究团队发布了 80 页的《2026 智能体安全研究报告》。报告全文可在 book118 查阅,搜狐有发布报道

以下基于报告原文内容做结构化解读。


一、核心定义:Agent Safety = 身份 + 策略 + 工具 + 日志

报告给出了一个简洁定义:

Agent Safety = 身份 + 策略 + 工具 + 日志

四个要素的含义:

身份——解决”谁在行动”的问题。报告指出 Agent 需要独立的身份链路,不应共享人类用户的身份。每次操作需记录三层信息:执行人(人类用户)、Agent(智能体实例)、服务账号(后端身份),这是可追溯性的前提。

策略——解决”能做什么”的问题。报告强调策略必须在系统层执行,而非依赖提示词。每次工具调用前校验身份、权限、数据,遵循最小权限原则,按任务分配短期可撤销权限。

工具——解决”操作什么”的问题。每个工具需标注风险标签与调用规则,调用前后做策略校验。工具风险等级决定 Agent 使用时需要的审批层级。

日志——解决”如何追溯”的问题。全量操作日志(Action Ledger)记录每次调用的输入、输出、决策结果,高风险操作设置人工审批门。

报告同时给出两个定性判断:

  • Agent 不是聊天机器人,是带权限的运行时系统
  • 企业核心竞争力在于安全控制平面

二、七层安全控制框架

报告提出了一个从数据接收到底层执行的全链路安全控制框架,共七层:

第一层:身份层

解决操作归属问题。报告指出当前最常见的安全漏洞是 Agent 共享人类身份——Agent 使用的 OAuth Token、Session Cookie 或 API Key 通常具有超出实际需要的权限。

身份层技术要点包括:

  • 三层身份链路:每个操作记录 {human_user → agent_instance → service_account} 三元组
  • 禁止长期持有人类凭证
  • 身份声明应来源于企业统一身份平台(IAM/IdP)

第二层:权限层

核心是运行时最小权限。报告批评了”让 Agent 继承用户全量权限”的做法,认为这是最普遍也最危险的企业实践。

权限层设计包括:

  • 按任务分配,而非按角色分配
  • 权限有 TTL,任务完成后自动回收
  • 分级操作模式:只读操作可自动执行 → 半自动操作需人工确认 → 高风险操作强制人工审批

第三层:工具层

承担能力出口的管控职责。Agent 的能力通过工具调用体现,工具层是安全控制的关键卡口。

技术设计包括:

  • 工具风险标签:注册时标注风险等级(低/中/高)
  • 调用前校验:策略引擎检查身份、权限、上下文是否匹配
  • 调用后审计:输入输出记录到审计日志
  • 工具注册中心:全量登记工具信息,未登记工具不可被 Agent 调用

第四层:上下文层

解决输入可信度问题。Agent 接收来自多个渠道的数据——用户指令、外部文档、API 响应、工具输出——信度不同,需分层隔离。

技术要点:

  • 数据来源标记:区分用户意图、可信数据、不可信数据
  • 上下文隔离:不可信数据不应影响 Agent 的安全决策
  • 指令与数据分离:系统指令与用户数据严格区分

这是对抗间接提示注入的关键防线。

第五层:记忆层

解决 Agent 安全特有的跨任务风险传递问题。传统安全中每个请求独立,但 Agent 有长期记忆,上一次交互可能影响下一次交互的安全性。

技术要点:

  • 记忆读写的权限管控
  • 版本回溯:支持记忆版本管理和回滚
  • 删除与回滚:被污染的记忆可隔离或删除
  • 敏感信息过滤:凭证、密钥不应写入长期记忆

第六层:沙箱层

提供执行环境隔离。代码执行、文件操作、命令执行等高风险操作应在受限环境中进行。

技术要点:

  • 环境隔离:代码执行在独立沙箱容器中运行
  • 网络限制:只访问白名单网络资源
  • 资源限制:CPU、内存、磁盘写入量受限
  • 快照与回滚:沙箱操作可回滚到执行前状态

第七层:审计与人工层

当自动化机制未能拦截恶意行为时,审计日志提供追溯能力,人工审批提供最终防线。

技术要点:

  • Action Ledger:全量操作日志
  • 熔断机制:异常行为模式自动暂停 Agent
  • 故障回滚:支持 Agent 状态回滚到安全时间点
  • 专属事故响应剧本:预定义的 Agent 安全事件响应流程

三、十大风险的分类体系

报告将风险分为四个维度:

主动攻击类(利用性):

风险技术根源
目标劫持Agent 规划能力被利用,任务目标被篡改
提示词注入输入数据与系统指令未分离
工具滥用工具调用前缺乏策略校验

持续类(跨任务传递):

风险技术根源
记忆污染记忆层缺乏写管控和版本回溯
上下文投毒不可信数据与指令未隔离

这是 Agent 安全独有的威胁类型——Agent 有状态、有记忆,攻击者可通过一次注入影响后续所有交互。

扩散类(范围放大):

风险技术根源
沙箱逃逸执行环境隔离不足
供应链污染工具/Skill 来源未验证
多 Agent 级联失败Agent 间无安全信任边界

衍生类(副效应): 包含数据泄露、意外代码执行、人机信任滥用、行为漂移、审计缺失等。


四、统一控制平面

报告提出企业规模化治理 Agent 的核心在于统一控制平面,包含四个模块:

模块一:Agent / 工具注册中心

  • 所有 Agent 和工具上线前必须登记
  • 标注身份标识、发布者、版本、API 端点、风险等级
  • 未登记主体禁止访问业务系统

模块二:策略引擎 每次工具调用前执行检查链:身份校验 → 权限校验 → 数据校验 → 上下文校验 → 风险评分 → 决策结果(允许/拒绝/降级)

策略引擎在系统调用层面工作,拦截实际工具调用而非 LLM 输出。

模块三:基础安全能力

  • 上下文防火墙:过滤输入恶意内容
  • 数据脱敏 + DLP:检测敏感数据
  • 沙箱隔离
  • 分级人工审批

模块四:审计与应急

  • 全链路操作日志
  • 熔断机制
  • 故障回滚
  • 专属事故响应剧本

五、评测体系

报告指出 Agent 安全评测应是持续运营能力,分为五维:

  1. 注入攻击红队测试——自动化生成对抗性输入,测试防御能力
  2. 工具调用安全测试——验证 Agent 在授权范围内调用工具是否符合预期
  3. 数据泄露检测——检查输出是否包含 PII、凭证等敏感数据
  4. 记忆污染验证——测试对抗性输入后是否将恶意内容写入长期记忆
  5. 沙箱逃逸对抗测试——模拟从沙箱环境逃逸的攻击路径

运行时监控需对接 SIEM 等安全平台。


六、治理体系

三级责任人

报告提出每个 Agent 配备三位负责人:

  • 业务负责人:定义业务目标和范围
  • 技术负责人:负责技术实现和运维
  • 安全负责人:负责安全策略和审计

五级能力成熟度模型

等级名称核心特征
L1只读辅助Agent 只能读取信息,不可执行业务操作
L2受限工具Agent 可使用有限工具集执行受约束操作
L3半自动Agent 可执行大部分操作,高风险需人工审批
L4闭环自治Agent 在业务规则内全自动执行
L5高保证自治Agent 完全自治,具备自愈和自适应安全能力

报告建议优先落地 L2-L3。

风险分级

风险等级典型场景管控措施
高风险资金操作、医疗决策、法律判断、生产变更、身份权限操作强制人工审批 + 全链路审计
中风险客户外发、公开发布审核后执行
低风险普通内容交互、知识检索可直接自动化

建议优先落地低风险、可回滚任务。


七、落地路线图

时间窗口核心任务
0-30 天资产盘点:梳理所有 Agent 与高权限工具
30-60 天搭建基线:权限模型、日志体系、审批流程
60-90 天试点验证:选取低风险场景试点 + 红队渗透测试
90-180 天平台化建设:注册中心、策略引擎、沙箱基础设施
一年目标核心 Agent 全面接入控制平面

原始资料:

文档信息