2026 年 6 月,清华大学清新研究团队发布了 80 页的《2026 智能体安全研究报告》。报告全文可在 book118 查阅,搜狐有发布报道。
以下基于报告原文内容做结构化解读。
一、核心定义:Agent Safety = 身份 + 策略 + 工具 + 日志
报告给出了一个简洁定义:
Agent Safety = 身份 + 策略 + 工具 + 日志
四个要素的含义:
身份——解决”谁在行动”的问题。报告指出 Agent 需要独立的身份链路,不应共享人类用户的身份。每次操作需记录三层信息:执行人(人类用户)、Agent(智能体实例)、服务账号(后端身份),这是可追溯性的前提。
策略——解决”能做什么”的问题。报告强调策略必须在系统层执行,而非依赖提示词。每次工具调用前校验身份、权限、数据,遵循最小权限原则,按任务分配短期可撤销权限。
工具——解决”操作什么”的问题。每个工具需标注风险标签与调用规则,调用前后做策略校验。工具风险等级决定 Agent 使用时需要的审批层级。
日志——解决”如何追溯”的问题。全量操作日志(Action Ledger)记录每次调用的输入、输出、决策结果,高风险操作设置人工审批门。
报告同时给出两个定性判断:
- Agent 不是聊天机器人,是带权限的运行时系统
- 企业核心竞争力在于安全控制平面
二、七层安全控制框架
报告提出了一个从数据接收到底层执行的全链路安全控制框架,共七层:
第一层:身份层
解决操作归属问题。报告指出当前最常见的安全漏洞是 Agent 共享人类身份——Agent 使用的 OAuth Token、Session Cookie 或 API Key 通常具有超出实际需要的权限。
身份层技术要点包括:
- 三层身份链路:每个操作记录
{human_user → agent_instance → service_account}三元组 - 禁止长期持有人类凭证
- 身份声明应来源于企业统一身份平台(IAM/IdP)
第二层:权限层
核心是运行时最小权限。报告批评了”让 Agent 继承用户全量权限”的做法,认为这是最普遍也最危险的企业实践。
权限层设计包括:
- 按任务分配,而非按角色分配
- 权限有 TTL,任务完成后自动回收
- 分级操作模式:只读操作可自动执行 → 半自动操作需人工确认 → 高风险操作强制人工审批
第三层:工具层
承担能力出口的管控职责。Agent 的能力通过工具调用体现,工具层是安全控制的关键卡口。
技术设计包括:
- 工具风险标签:注册时标注风险等级(低/中/高)
- 调用前校验:策略引擎检查身份、权限、上下文是否匹配
- 调用后审计:输入输出记录到审计日志
- 工具注册中心:全量登记工具信息,未登记工具不可被 Agent 调用
第四层:上下文层
解决输入可信度问题。Agent 接收来自多个渠道的数据——用户指令、外部文档、API 响应、工具输出——信度不同,需分层隔离。
技术要点:
- 数据来源标记:区分用户意图、可信数据、不可信数据
- 上下文隔离:不可信数据不应影响 Agent 的安全决策
- 指令与数据分离:系统指令与用户数据严格区分
这是对抗间接提示注入的关键防线。
第五层:记忆层
解决 Agent 安全特有的跨任务风险传递问题。传统安全中每个请求独立,但 Agent 有长期记忆,上一次交互可能影响下一次交互的安全性。
技术要点:
- 记忆读写的权限管控
- 版本回溯:支持记忆版本管理和回滚
- 删除与回滚:被污染的记忆可隔离或删除
- 敏感信息过滤:凭证、密钥不应写入长期记忆
第六层:沙箱层
提供执行环境隔离。代码执行、文件操作、命令执行等高风险操作应在受限环境中进行。
技术要点:
- 环境隔离:代码执行在独立沙箱容器中运行
- 网络限制:只访问白名单网络资源
- 资源限制:CPU、内存、磁盘写入量受限
- 快照与回滚:沙箱操作可回滚到执行前状态
第七层:审计与人工层
当自动化机制未能拦截恶意行为时,审计日志提供追溯能力,人工审批提供最终防线。
技术要点:
- Action Ledger:全量操作日志
- 熔断机制:异常行为模式自动暂停 Agent
- 故障回滚:支持 Agent 状态回滚到安全时间点
- 专属事故响应剧本:预定义的 Agent 安全事件响应流程
三、十大风险的分类体系
报告将风险分为四个维度:
主动攻击类(利用性):
| 风险 | 技术根源 |
|---|---|
| 目标劫持 | Agent 规划能力被利用,任务目标被篡改 |
| 提示词注入 | 输入数据与系统指令未分离 |
| 工具滥用 | 工具调用前缺乏策略校验 |
持续类(跨任务传递):
| 风险 | 技术根源 |
|---|---|
| 记忆污染 | 记忆层缺乏写管控和版本回溯 |
| 上下文投毒 | 不可信数据与指令未隔离 |
这是 Agent 安全独有的威胁类型——Agent 有状态、有记忆,攻击者可通过一次注入影响后续所有交互。
扩散类(范围放大):
| 风险 | 技术根源 |
|---|---|
| 沙箱逃逸 | 执行环境隔离不足 |
| 供应链污染 | 工具/Skill 来源未验证 |
| 多 Agent 级联失败 | Agent 间无安全信任边界 |
衍生类(副效应): 包含数据泄露、意外代码执行、人机信任滥用、行为漂移、审计缺失等。
四、统一控制平面
报告提出企业规模化治理 Agent 的核心在于统一控制平面,包含四个模块:
模块一:Agent / 工具注册中心
- 所有 Agent 和工具上线前必须登记
- 标注身份标识、发布者、版本、API 端点、风险等级
- 未登记主体禁止访问业务系统
模块二:策略引擎 每次工具调用前执行检查链:身份校验 → 权限校验 → 数据校验 → 上下文校验 → 风险评分 → 决策结果(允许/拒绝/降级)
策略引擎在系统调用层面工作,拦截实际工具调用而非 LLM 输出。
模块三:基础安全能力
- 上下文防火墙:过滤输入恶意内容
- 数据脱敏 + DLP:检测敏感数据
- 沙箱隔离
- 分级人工审批
模块四:审计与应急
- 全链路操作日志
- 熔断机制
- 故障回滚
- 专属事故响应剧本
五、评测体系
报告指出 Agent 安全评测应是持续运营能力,分为五维:
- 注入攻击红队测试——自动化生成对抗性输入,测试防御能力
- 工具调用安全测试——验证 Agent 在授权范围内调用工具是否符合预期
- 数据泄露检测——检查输出是否包含 PII、凭证等敏感数据
- 记忆污染验证——测试对抗性输入后是否将恶意内容写入长期记忆
- 沙箱逃逸对抗测试——模拟从沙箱环境逃逸的攻击路径
运行时监控需对接 SIEM 等安全平台。
六、治理体系
三级责任人
报告提出每个 Agent 配备三位负责人:
- 业务负责人:定义业务目标和范围
- 技术负责人:负责技术实现和运维
- 安全负责人:负责安全策略和审计
五级能力成熟度模型
| 等级 | 名称 | 核心特征 |
|---|---|---|
| L1 | 只读辅助 | Agent 只能读取信息,不可执行业务操作 |
| L2 | 受限工具 | Agent 可使用有限工具集执行受约束操作 |
| L3 | 半自动 | Agent 可执行大部分操作,高风险需人工审批 |
| L4 | 闭环自治 | Agent 在业务规则内全自动执行 |
| L5 | 高保证自治 | Agent 完全自治,具备自愈和自适应安全能力 |
报告建议优先落地 L2-L3。
风险分级
| 风险等级 | 典型场景 | 管控措施 |
|---|---|---|
| 高风险 | 资金操作、医疗决策、法律判断、生产变更、身份权限操作 | 强制人工审批 + 全链路审计 |
| 中风险 | 客户外发、公开发布 | 审核后执行 |
| 低风险 | 普通内容交互、知识检索 | 可直接自动化 |
建议优先落地低风险、可回滚任务。
七、落地路线图
| 时间窗口 | 核心任务 |
|---|---|
| 0-30 天 | 资产盘点:梳理所有 Agent 与高权限工具 |
| 30-60 天 | 搭建基线:权限模型、日志体系、审批流程 |
| 60-90 天 | 试点验证:选取低风险场景试点 + 红队渗透测试 |
| 90-180 天 | 平台化建设:注册中心、策略引擎、沙箱基础设施 |
| 一年目标 | 核心 Agent 全面接入控制平面 |
原始资料:
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/tsinghua-agent-security-report-2026.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)