清华《2026 智能体安全研究报告》解读

2026 年 6 月，清华大学清新研究团队发布了 80 页的《2026 智能体安全研究报告》。报告全文可在 book118 查阅，搜狐有发布报道。

以下基于报告原文内容做结构化解读。

一、核心定义：Agent Safety = 身份 + 策略 + 工具 + 日志

报告给出了一个简洁定义：

Agent Safety = 身份 + 策略 + 工具 + 日志

四个要素的含义：

身份——解决”谁在行动”的问题。报告指出 Agent 需要独立的身份链路，不应共享人类用户的身份。每次操作需记录三层信息：执行人（人类用户）、Agent（智能体实例）、服务账号（后端身份），这是可追溯性的前提。

策略——解决”能做什么”的问题。报告强调策略必须在系统层执行，而非依赖提示词。每次工具调用前校验身份、权限、数据，遵循最小权限原则，按任务分配短期可撤销权限。

工具——解决”操作什么”的问题。每个工具需标注风险标签与调用规则，调用前后做策略校验。工具风险等级决定 Agent 使用时需要的审批层级。

日志——解决”如何追溯”的问题。全量操作日志（Action Ledger）记录每次调用的输入、输出、决策结果，高风险操作设置人工审批门。

报告同时给出两个定性判断：

Agent 不是聊天机器人，是带权限的运行时系统
企业核心竞争力在于安全控制平面

二、七层安全控制框架

报告提出了一个从数据接收到底层执行的全链路安全控制框架，共七层：

第一层：身份层

解决操作归属问题。报告指出当前最常见的安全漏洞是 Agent 共享人类身份——Agent 使用的 OAuth Token、Session Cookie 或 API Key 通常具有超出实际需要的权限。

身份层技术要点包括：

三层身份链路：每个操作记录 {human_user → agent_instance → service_account} 三元组
禁止长期持有人类凭证
身份声明应来源于企业统一身份平台（IAM/IdP）

第二层：权限层

核心是运行时最小权限。报告批评了”让 Agent 继承用户全量权限”的做法，认为这是最普遍也最危险的企业实践。

权限层设计包括：

按任务分配，而非按角色分配
权限有 TTL，任务完成后自动回收
分级操作模式：只读操作可自动执行 → 半自动操作需人工确认 → 高风险操作强制人工审批

第三层：工具层

承担能力出口的管控职责。Agent 的能力通过工具调用体现，工具层是安全控制的关键卡口。

技术设计包括：

工具风险标签：注册时标注风险等级（低/中/高）
调用前校验：策略引擎检查身份、权限、上下文是否匹配
调用后审计：输入输出记录到审计日志
工具注册中心：全量登记工具信息，未登记工具不可被 Agent 调用

第四层：上下文层

解决输入可信度问题。Agent 接收来自多个渠道的数据——用户指令、外部文档、API 响应、工具输出——信度不同，需分层隔离。

技术要点：

数据来源标记：区分用户意图、可信数据、不可信数据
上下文隔离：不可信数据不应影响 Agent 的安全决策
指令与数据分离：系统指令与用户数据严格区分

这是对抗间接提示注入的关键防线。

第五层：记忆层

解决 Agent 安全特有的跨任务风险传递问题。传统安全中每个请求独立，但 Agent 有长期记忆，上一次交互可能影响下一次交互的安全性。

技术要点：

记忆读写的权限管控
版本回溯：支持记忆版本管理和回滚
删除与回滚：被污染的记忆可隔离或删除
敏感信息过滤：凭证、密钥不应写入长期记忆

第六层：沙箱层

提供执行环境隔离。代码执行、文件操作、命令执行等高风险操作应在受限环境中进行。

技术要点：

环境隔离：代码执行在独立沙箱容器中运行
网络限制：只访问白名单网络资源
资源限制：CPU、内存、磁盘写入量受限
快照与回滚：沙箱操作可回滚到执行前状态

第七层：审计与人工层

当自动化机制未能拦截恶意行为时，审计日志提供追溯能力，人工审批提供最终防线。

技术要点：

Action Ledger：全量操作日志
熔断机制：异常行为模式自动暂停 Agent
故障回滚：支持 Agent 状态回滚到安全时间点
专属事故响应剧本：预定义的 Agent 安全事件响应流程

三、十大风险的分类体系

报告将风险分为四个维度：

主动攻击类（利用性）：

风险	技术根源
目标劫持	Agent 规划能力被利用，任务目标被篡改
提示词注入	输入数据与系统指令未分离
工具滥用	工具调用前缺乏策略校验

持续类（跨任务传递）：

风险	技术根源
记忆污染	记忆层缺乏写管控和版本回溯
上下文投毒	不可信数据与指令未隔离

这是 Agent 安全独有的威胁类型——Agent 有状态、有记忆，攻击者可通过一次注入影响后续所有交互。

扩散类（范围放大）：

风险	技术根源
沙箱逃逸	执行环境隔离不足
供应链污染	工具/Skill 来源未验证
多 Agent 级联失败	Agent 间无安全信任边界

衍生类（副效应）： 包含数据泄露、意外代码执行、人机信任滥用、行为漂移、审计缺失等。

四、统一控制平面

报告提出企业规模化治理 Agent 的核心在于统一控制平面，包含四个模块：

模块一：Agent / 工具注册中心

所有 Agent 和工具上线前必须登记
标注身份标识、发布者、版本、API 端点、风险等级
未登记主体禁止访问业务系统

模块二：策略引擎 每次工具调用前执行检查链：身份校验 → 权限校验 → 数据校验 → 上下文校验 → 风险评分 → 决策结果（允许/拒绝/降级）

策略引擎在系统调用层面工作，拦截实际工具调用而非 LLM 输出。

模块三：基础安全能力

上下文防火墙：过滤输入恶意内容
数据脱敏 + DLP：检测敏感数据
沙箱隔离
分级人工审批

模块四：审计与应急

全链路操作日志
熔断机制
故障回滚
专属事故响应剧本

五、评测体系

报告指出 Agent 安全评测应是持续运营能力，分为五维：

注入攻击红队测试——自动化生成对抗性输入，测试防御能力
工具调用安全测试——验证 Agent 在授权范围内调用工具是否符合预期
数据泄露检测——检查输出是否包含 PII、凭证等敏感数据
记忆污染验证——测试对抗性输入后是否将恶意内容写入长期记忆
沙箱逃逸对抗测试——模拟从沙箱环境逃逸的攻击路径

运行时监控需对接 SIEM 等安全平台。

六、治理体系

三级责任人

报告提出每个 Agent 配备三位负责人：

业务负责人：定义业务目标和范围
技术负责人：负责技术实现和运维
安全负责人：负责安全策略和审计

五级能力成熟度模型

等级	名称	核心特征
L1	只读辅助	Agent 只能读取信息，不可执行业务操作
L2	受限工具	Agent 可使用有限工具集执行受约束操作
L3	半自动	Agent 可执行大部分操作，高风险需人工审批
L4	闭环自治	Agent 在业务规则内全自动执行
L5	高保证自治	Agent 完全自治，具备自愈和自适应安全能力

报告建议优先落地 L2-L3。

风险分级

风险等级	典型场景	管控措施
高风险	资金操作、医疗决策、法律判断、生产变更、身份权限操作	强制人工审批 + 全链路审计
中风险	客户外发、公开发布	审核后执行
低风险	普通内容交互、知识检索	可直接自动化

建议优先落地低风险、可回滚任务。

七、落地路线图

时间窗口	核心任务
0-30 天	资产盘点：梳理所有 Agent 与高权限工具
30-60 天	搭建基线：权限模型、日志体系、审批流程
60-90 天	试点验证：选取低风险场景试点 + 红队渗透测试
90-180 天	平台化建设：注册中心、策略引擎、沙箱基础设施
一年目标	核心 Agent 全面接入控制平面

原始资料：

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/sec/tsinghua-agent-security-report-2026.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

一、核心定义：Agent Safety = 身份 + 策略 + 工具 + 日志

二、七层安全控制框架

第一层：身份层

第二层：权限层

第三层：工具层

第四层：上下文层

第五层：记忆层

第六层：沙箱层

第七层：审计与人工层

三、十大风险的分类体系

四、统一控制平面

五、评测体系

六、治理体系

三级责任人

五级能力成熟度模型

风险分级

七、落地路线图

文档信息

相关文章