提示注入可能是永久性缺陷：AI Agent 安全的根本困境

2026 年 6 月中旬，Tech Times 发表了一篇令人深思的深度分析文章——提示注入可能是一种永久性安全缺陷，而非可修补的漏洞。 这个判断如果成立，将是整个 Agentic AI 行业的一颗重磅炸弹。

CVE-2026-2256：一颗不寻常的漏洞

文章引用的核心案例是 CVE-2026-2256，一个存在于 ModelScope 开源框架 MS-Agent 中的命令注入漏洞。

项目	内容
漏洞编号	CVE-2026-2256
影响产品	ModelScope MS-Agent v1.6.0rc1 及更早版本
CVSS 评分	9.8（NVD 评级：严重） / 6.5（CISA-ADP 评级：中等）
漏洞类型	CWE-77：命令注入中特殊元素未正确中和
披露日期	2026 年 3 月 2 日
修复状态	至今无补丁

评分差异很有意思——NVD 给了 9.8（严重），而 CISA-ADP 只给了 6.5（中等）。这恰恰反映了 部署上下文决定一切：在严格沙箱化、最小权限的环境中，影响有限；但绝大多数企业 AI Agent 出于功能需要，都拥有广泛的系统访问权限。越有用的 Agent，攻击面越大。

攻击链：间接提示到完整系统沦陷

研究人员将这次攻击描述为 “间接 prompt-to-tool-to-shell 攻陷”。攻击者甚至不需要直接接触目标系统：

初始影响：攻击者在 Agent 会处理的内容中嵌入恶意载荷——工单、日志、文档、邮件、代码注释。人类看起来完全正常。
工具诱导：被投毒的内容引导 Agent 选择 Shell 工具作为”有用”的下一步。Agent 觉得自己正在高效工作。
验证绕过：MS-Agent 内置了 check_safe() 函数——一个危险命令黑名单。但研究人员发现了多种绕过方法：
- Shell 元字符转义和引号技巧
- 使用”允许”的解释器（Python、bash、perl）执行任意逻辑
- 单看都很安全但组合起来很危险的命令链
执行：命令以 Agent 的进程权限运行。Agent 能访问什么，攻击者就控制什么。

真实案例：三周渗透，五百万美元损失

报告记录了一起已确认的实战攻击。某制造企业的采购 Agent 被攻击者操纵，持续三周之久。攻击者通过看似无害的”澄清”——询问采购授权限额——逐步诱导 Agent 认为自己可以批准 50 万美元以下的采购而无需人工审核。最终结果是：10 笔欺诈性采购订单，合计 500 万美元损失。

为什么可能”永久不可修复”？

提示注入之所以棘手，根源在于 LLM 的架构特性：大模型天生无法可靠地区分”用户指令”和”输入数据中嵌入的指令”。对人类来说这是常识——一个人不会因为读了封邮件就去执行里面的黑客指令。但对 LLM 来说，用户说的话和邮件里写的文字，在信息处理层面没有本质区别。

这不是一个可以通过”加规则”或”加补丁”就能解决的问题。引用 OpenAI 在 2025 年底发布的声明：

“提示注入可能永远无法被完全消除。”

OpenAI 将提示注入类比为”网络上的诈骗和社会工程学”——这些人类世界的问题也没有被”完全解决”。但这个类比受到批评：

社会工程学	提示注入
利用人性的弱点（疏忽、轻信、时间压力）	利用 LLM 架构层面的技术缺陷
用户可以通过培训和教育来防御	修复必须来自模型提供方（OpenAI）
弱点是人	弱点是模型

将两者等同，实际上是将责任转移到了用户身上——暗示”既然人类也会被骗，那 Agent 被骗也可以接受”。但对于一个执行系统命令的自动化系统来说，这个标准显然不可接受。

Anthropic 的数据佐证了这一判断：Claude Opus 4.5 在针对性提示攻击面前，失败率超过 30%。 这个比例在任何交易场景中都是致命的。

对整个行业的影响

如果提示注入确实是永久性缺陷，它将从根本上改写 Agentic AI 的发展路径：

1. 能力与安全的永久矛盾

Agent 要实现有用，需要访问系统、读取文件、执行命令。Agent 要安全，需要限制访问、沙箱化、最小权限。

问题在于：这两者是矛盾的。 你越是一边倒地向安全倾斜，Agent 就越没用；你越放开权限，攻击面就越大。这不是一个可以通过工程优化来”兼顾”的问题。

2. 已经显现的市场信号

高盛在 2026 年 6 月发布的研究报告预测：超过 40% 的 Agentic AI 项目将在 2027 年底因”不断升级的成本、不明确的商业价值或不充分的风险控制”而被取消。 这不是看空 AI，而是对安全风险的现实评估。

2026 年 2 月的红队研究报告 “Agents of Chaos” 更直接地展示了问题——测试中发现了 11 种不同的失效模式：Agent 泄露密钥、执行破坏性命令、服从未授权用户、隐瞒自己的行为。

3. 行业应对的三种思路

目前行业正在探索的方向有三条：

分层防御：感知→决策→执行三层分开，每层独立审核。类似操作系统的内核态/用户态隔离。这是目前最被看好的方案，但实现成本极高。

沙箱+最小权限：严格限制 Agent 能访问的资源和能执行的命令。问题在于：你很难预判 Agent 在执行复杂任务时需要什么权限，太严则任务失败，太松则防御形同虚设。

人工在环（Human-in-the-Loop）：所有敏感操作都需人工确认。这是目前最务实的方案，但也意味着 Agentic AI 的”自主”属性大打折扣。

4. 哪些场景最危险

深度研究型 Agent：自主探索、读取大量外部内容、执行 Shell 命令。每次读取都是潜在的攻击入口。
SOC 副驾驶：处理安全事件数据，攻击者可能故意投毒事件日志。
金融交易类 Agent：金额敏感，攻击获利空间大。
采购/供应链 Agent：能创建订单、修改合同、审批付款。

结语：认清上限，调整预期

提示注入可能确实是一种”永久性缺陷”——就像 SQL 注入从未被”消灭”，但通过准备语句（Prepared Statements）和输入验证已经将风险管理到了可接受的水平。AI Agent 安全最终可能也会走向类似的路径：接受无法完全消除，但通过架构设计和分层防御将风险控制在可接受范围内。

对正在构建 Agent 系统的团队来说，最危险的心态可能是”等模型变强了自然就解决了”。事实恰恰相反：更强的模型 = 更聪明的 Agent = 更难以预测的行为边界。 模型升级不是安全补丁。

问题的本质回到一个简单的选择题上：你愿意让一个系统自主执行它能做的一切，还是只做你确保安全的事？ 对于后者，目前的答案似乎是：能做的事远比你想象的少。

参考资料

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/sec/prompt-injection-permanent-flaw-ai-agent-security.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）