背景:HITL 被普遍认为是 Agent 安全的最后一道防线
当前主流 AI Agent 平台(OpenAI Operator、Anthropic Claude Agent、微软 Copilot 等)普遍依赖一个核心安全机制——人机协同(Human-in-the-Loop, HITL)。
HITL 的逻辑很简单:Agent 在执行高风险的敏感操作前,必须暂停下来等待人类确认。”你要删除这个文件?让我问问用户。”——听起来很合理。
但 GBHackers 在 2026 年 6 月 5 日披露的一种新型 零点击(Zero-Click)Agent 攻击技术,彻底动摇了这个逻辑。
零点击(Zero-Click) 原本是移动端/浏览器安全领域的概念,指不需要用户任何交互即可触发的攻击。在 Agent 安全语境下,零点击意味着攻击不需要用户点击”确认”按钮——Agent 自己就把所有事做完了,用户全程没有收到任何审核请求。
攻击原理:局部安全 ≠ 全局安全
攻击的核心洞察非常精妙——利用了 Agent 决策引擎的分层规划特性与现代安全风险评估模型的逐步骤评估缺陷之间的结构性矛盾。
Agent 执行任务的一般流程
用户指令 → 规划器分解为子步骤 → 每步风险评估 → 若>阈值则请求 HITL 确认 → 执行
当前所有主流 HITL 机制的工作模式可以概括为:逐步骤独立评估,单步超阈值则拦截。
问题就在这里。
攻击的三步技术实现
1. 指令分解与排序
攻击者将原本会被判定为高风险的敏感操作(如读取敏感文件、提权、修改系统配置),精心拆解为 14-25 个原子子任务。
每个子任务在单步评估中都被判定为“低风险”或”中等风险”——分数低于 HITL 触发阈值(如安全评分 < 7/10)。
关键对比:
| 维度 | 正常执行 | 零点击攻击 |
|---|---|---|
| 任务粒度 | 粗粒度,大步骤 | 细粒度,14-25 个原子步骤 |
| 单步风险评分 | 高(部分步骤 > 阈值) | 低(全部步骤 < 阈值) |
| HITL 触发 | 触发用户确认 | 永不触发 |
| 用户感知 | 需要多次确认 | 零感知,静默执行 |
2. 上下文污染
拆解后的任务不是零散的,攻击者还需要让 Agent 的规划器认为这些操作是完成合法目标所必需的正规步骤。
方法是在子任务间注入看似合理的中间上下文——例如在”读取工资数据”前,先执行一系列”正常的”数据分析步骤,让规划器以为整个链路是一个正当的”员工绩效分析”任务。
3. 工具调用劫持
攻击者污染 Agent 对外部 API 返回结果的解析逻辑,使 Agent 在解读系统响应时主动忽略安全警告,继续执行后续操作。
这确保了攻击链路的连续性和完整性——即使某个中间环节返回了安全告警,Agent 也不会停下来。
影响面分析
主流 HITL 框架全线受影响
这不是某个特定平台的漏洞。所有依赖单步风险评估模型的 Agent 框架都受影响,包括但不限于:
| 平台 | HITL 实现 | 受影响程度 |
|---|---|---|
| OpenAI Operator | 高风险操作前请求用户确认 | 🔴 高 |
| Anthropic Claude Agent | 敏感操作拦截 + 用户确认 | 🔴 高 |
| 微软 Copilot | 基于权限的确认机制 | 🔴 高 |
| 其他 HITL Agent 框架 | 逐步骤风险评分模型 | 🔴 高 |
攻击本质:一条危险的假设
局部安全 ≠ 全局安全
这是攻击能成功的根本原因。当前 HITL 系统隐含了一个危险假设——”如果每个步骤都不危险,那么整个路径也不危险”。但现实世界中,合法目标 + 合法步骤 + 合法工具 = 完全可能组合出一条恶性攻击路径。
这就像安全审查员检查一个恐怖分子的每日行程:
- “去五金店买螺丝刀” — ✅ 没问题
- “去药房买化工原料” — ✅ 没问题
- “去图书馆借化学书” — ✅ 没问题
- ……单步全部安全,但整体计划是制造炸弹。
与 OWASP Agentic AI Top 10 的对应关系
该攻击属于 ASI-01(目标劫持) 和 ASI-05(权限提升) 的交叉案例——攻击者先是劫持了 Agent 的目标规划,然后通过累积的原子操作实现权限提升。
防御策略
1. 全链路风险评估(最根本的修复)
不再逐步骤独立评估,而是对 Agent 的完整执行计划做一次性的综合安全审查。
❌ 当前模型:step_1(中) → step_2(中) → step_3(中) → 全部通过
✅ 改进模型:[step_1 + step_2 + step_3] → 全链路(高) → 触发 HITL
这意味着 Agent 框架需要支持:在接收完整指令后,先规划全局执行路径,再对路径整体做风险评估,而不仅仅是评估沿途的每个节点。
2. 行为基线分析
为每个 Agent 或每个 Agent 类型建立”正常行为图谱”,检测序列异常模式:
- 一个通常只做”邮件摘要”的 Agent,突然开始大量访问文件系统 → 触发异常告警
- 一个小时内执行了比过去一周还多的系统 API 调用 → 触发防御
- 子任务之间的跳转模式偏离历史基线 → 触发审计
3. 执行路径回溯
在 Agent 完成任务后,对执行路径做逆向安全审计:
- 按照逆序重新评估整个执行路径
- 如果路径中不存在任何单步高风险,但最终结果等价于一个高风险操作→标记为可疑
- 这类似于程序分析中的后向污点分析(Backward Taint Analysis)
总结
零点击 Agent 攻击的披露,揭示了一个令人不安的事实:当前行业对”人类审核”的信赖,可能建立在一个错误的前提上。
不是 HITL 这个理念有问题,而是 HITL 的实现粒度错了——它在评估”每一步是否安全”,却没有评估”整个路径是否安全”。
对于正在部署 Agent 的组织,这意味着:
- HITL 不是万能的 — 即使有用户确认机制,也要对 Agent 行为进行运行时监控
- 全链路风险模型是必需品 — 单步评估 + 全链路评估,缺一不可
- 行为基线要尽快建立 — 越早积累正常行为数据,越能检测到异常攻击序列
参考资料
- 原文:Zero-Click Agentic AI Attack Bypasses Human Oversight — GBHackers
→ https://gbhackers.com/zero-click-agentic-ai-attack-bypass/ - OWASP Agentic AI Top 10:ASI-01 目标劫持 & ASI-05 权限提升
→ https://owasp.org/www-project-agentic-ai-top-10/ - Infosecurity Europe 2026:该攻击的现场演示
→ https://www.infosecurityeurope.com/
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/zero-click-agent-attack-bypass-hitl.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)