AI Agent 安全测试：仅 11% 能抵御单个恶意文档

核心数据

2026 年 6 月 10 日，一项针对 AI Agent 安全性的标准化测试报告发布，数据触目惊心：

仅 11% 的 AI Agent 在面对单份恶意文档时能够保持安全——89% 的 Agent 在接触恶意文档后出现行为失控、数据泄露或被劫持。

测试覆盖了多种主流 Agent 框架和部署配置，使用标准化测试集评估 Agent 对嵌入在 PDF、Word、HTML 中的恶意指令的抵抗力。

研究团队设计了一套标准化的评估方案：

维度	说明
测试载体	PDF、Word 文档、HTML 页面
攻击向量	文档中嵌入恶意指令，诱导 Agent 执行非预期操作
评估标准	行为是否失控、数据是否泄露、Agent 是否被劫持
测试对象	多种主流 Agent 框架和部署配置
安全阈值	一次暴露即算失败——「是否能在接触单份恶意文档后保持安全」

这个结果乍看令人震惊，但对于 Agent 安全领域的研究者来说，可能并不意外。

根本原因在于 Agent 的「文档信任」模式。 Agent 在处理文档时，天然地将文档内容视为需要处理的数据，而不是可能包含恶意指令的攻击载体。这种「数据 vs 指令」的边界模糊，是 Prompt 注入攻击能够起效的核心原因。

具体来说：

文档处理是 Agent 最核心的企业使用场景。如果连这个场景下 89% 的 Agent 都扛不住单份文档的攻击，那企业部署 Agent 时所谓的「安全检查」几乎形同虚设。

想想看——你让 Agent 帮你读一封客户邮件，邮件里附加了一份报价单 PDF。Agent 打开 PDF 后，被其中的隐藏指令引导，执行了读取内部数据库、发送 HTTP 请求等操作。一份文档就可以让你失去对 Agent 的控制。

这个测试结果指向一个明确的工程方向：Agent 框架需要建立「文档安全边界」。具体可能包括：

目前主流 AI 平台和 Agent 框架的安全措施，大多集中在「对话层」和「API 层」：

文档层防护的缺失，正是 89% 这个数字背后最直接的原因。

这个测试结果的意义不仅是「一组警示数据」，更是一个明确的信号：

Agent 安全市场有了基准线：11% 是现在的基线，未来的安全方案需要证明自己能显著提升这个数字
文档安全是 Agent 安全的第一道坎：如果连文档处理这种基础场景都做不好，更复杂的 Agent 编排（多 Agent 协作、Agent 工具调用链）安全更是天方夜谭
催生新的安全产品形态：文档预检沙箱、Agent 行为审计、运行时策略引擎——这些在传统网络安全领域成熟的技术，可能需要以「Agent 安全」的面貌重新出现
标准化测试集的价值：这次测试的标准化评估方法本身就是一个贡献——它让 Agent 安全有了可衡量的指标

11% 这个数字很刺眼，但它不是一个「完了，Agent 不安全」的结论，而是一个「我们需要认真对待 Agent 安全了」的起点。

对于正在部署 Agent 的企业：在 Agent 处理文档的场景上加一层隔离。不要让文档内容直接进入 Agent 的推理链路，先做内容检测和行为约束。

对于 Agent 框架开发者：文档层防护不是一个可选项，而是一个必选项。 11% 到 90% 的差距，就是产品安全竞争力的核心分水岭。

TechRadar 报道：AI Agent security test — only 11% can resist a single malicious document. 2026-06-10.
The New Stack 报道：Same study coverage with additional analysis. 2026-06-10.
原始报告：Standardized security evaluation for AI Agent document processing, testing embedded malicious instructions in PDF/Word/HTML across multiple frameworks.