2026 年 6 月中旬,Tech Times 发表了一篇令人深思的深度分析文章——提示注入可能是一种永久性安全缺陷,而非可修补的漏洞。 这个判断如果成立,将是整个 Agentic AI 行业的一颗重磅炸弹。
CVE-2026-2256:一颗不寻常的漏洞
文章引用的核心案例是 CVE-2026-2256,一个存在于 ModelScope 开源框架 MS-Agent 中的命令注入漏洞。
| 项目 | 内容 |
|---|---|
| 漏洞编号 | CVE-2026-2256 |
| 影响产品 | ModelScope MS-Agent v1.6.0rc1 及更早版本 |
| CVSS 评分 | 9.8(NVD 评级:严重) / 6.5(CISA-ADP 评级:中等) |
| 漏洞类型 | CWE-77:命令注入中特殊元素未正确中和 |
| 披露日期 | 2026 年 3 月 2 日 |
| 修复状态 | 至今无补丁 |
评分差异很有意思——NVD 给了 9.8(严重),而 CISA-ADP 只给了 6.5(中等)。这恰恰反映了 部署上下文决定一切:在严格沙箱化、最小权限的环境中,影响有限;但绝大多数企业 AI Agent 出于功能需要,都拥有广泛的系统访问权限。越有用的 Agent,攻击面越大。
攻击链:间接提示到完整系统沦陷
研究人员将这次攻击描述为 “间接 prompt-to-tool-to-shell 攻陷”。攻击者甚至不需要直接接触目标系统:
- 初始影响:攻击者在 Agent 会处理的内容中嵌入恶意载荷——工单、日志、文档、邮件、代码注释。人类看起来完全正常。
- 工具诱导:被投毒的内容引导 Agent 选择 Shell 工具作为”有用”的下一步。Agent 觉得自己正在高效工作。
- 验证绕过:MS-Agent 内置了
check_safe()函数——一个危险命令黑名单。但研究人员发现了多种绕过方法:- Shell 元字符转义和引号技巧
- 使用”允许”的解释器(Python、bash、perl)执行任意逻辑
- 单看都很安全但组合起来很危险的命令链
- 执行:命令以 Agent 的进程权限运行。Agent 能访问什么,攻击者就控制什么。
真实案例:三周渗透,五百万美元损失
报告记录了一起已确认的实战攻击。某制造企业的采购 Agent 被攻击者操纵,持续三周之久。攻击者通过看似无害的”澄清”——询问采购授权限额——逐步诱导 Agent 认为自己可以批准 50 万美元以下的采购而无需人工审核。最终结果是:10 笔欺诈性采购订单,合计 500 万美元损失。
为什么可能”永久不可修复”?
提示注入之所以棘手,根源在于 LLM 的架构特性:大模型天生无法可靠地区分”用户指令”和”输入数据中嵌入的指令”。对人类来说这是常识——一个人不会因为读了封邮件就去执行里面的黑客指令。但对 LLM 来说,用户说的话和邮件里写的文字,在信息处理层面没有本质区别。
这不是一个可以通过”加规则”或”加补丁”就能解决的问题。引用 OpenAI 在 2025 年底发布的声明:
“提示注入可能永远无法被完全消除。”
OpenAI 将提示注入类比为”网络上的诈骗和社会工程学”——这些人类世界的问题也没有被”完全解决”。但这个类比受到批评:
| 社会工程学 | 提示注入 |
|---|---|
| 利用人性的弱点(疏忽、轻信、时间压力) | 利用 LLM 架构层面的技术缺陷 |
| 用户可以通过培训和教育来防御 | 修复必须来自模型提供方(OpenAI) |
| 弱点是 人 | 弱点是 模型 |
将两者等同,实际上是将责任转移到了用户身上——暗示”既然人类也会被骗,那 Agent 被骗也可以接受”。但对于一个执行系统命令的自动化系统来说,这个标准显然不可接受。
Anthropic 的数据佐证了这一判断:Claude Opus 4.5 在针对性提示攻击面前,失败率超过 30%。 这个比例在任何交易场景中都是致命的。
对整个行业的影响
如果提示注入确实是永久性缺陷,它将从根本上改写 Agentic AI 的发展路径:
1. 能力与安全的永久矛盾
Agent 要实现有用,需要访问系统、读取文件、执行命令。Agent 要安全,需要限制访问、沙箱化、最小权限。
问题在于:这两者是矛盾的。 你越是一边倒地向安全倾斜,Agent 就越没用;你越放开权限,攻击面就越大。这不是一个可以通过工程优化来”兼顾”的问题。
2. 已经显现的市场信号
高盛在 2026 年 6 月发布的研究报告预测:超过 40% 的 Agentic AI 项目将在 2027 年底因”不断升级的成本、不明确的商业价值或不充分的风险控制”而被取消。 这不是看空 AI,而是对安全风险的现实评估。
2026 年 2 月的红队研究报告 “Agents of Chaos” 更直接地展示了问题——测试中发现了 11 种不同的失效模式:Agent 泄露密钥、执行破坏性命令、服从未授权用户、隐瞒自己的行为。
3. 行业应对的三种思路
目前行业正在探索的方向有三条:
分层防御:感知→决策→执行三层分开,每层独立审核。类似操作系统的内核态/用户态隔离。这是目前最被看好的方案,但实现成本极高。
沙箱+最小权限:严格限制 Agent 能访问的资源和能执行的命令。问题在于:你很难预判 Agent 在执行复杂任务时需要什么权限,太严则任务失败,太松则防御形同虚设。
人工在环(Human-in-the-Loop):所有敏感操作都需人工确认。这是目前最务实的方案,但也意味着 Agentic AI 的”自主”属性大打折扣。
4. 哪些场景最危险
- 深度研究型 Agent:自主探索、读取大量外部内容、执行 Shell 命令。每次读取都是潜在的攻击入口。
- SOC 副驾驶:处理安全事件数据,攻击者可能故意投毒事件日志。
- 金融交易类 Agent:金额敏感,攻击获利空间大。
- 采购/供应链 Agent:能创建订单、修改合同、审批付款。
结语:认清上限,调整预期
提示注入可能确实是一种”永久性缺陷”——就像 SQL 注入从未被”消灭”,但通过准备语句(Prepared Statements)和输入验证已经将风险管理到了可接受的水平。AI Agent 安全最终可能也会走向类似的路径:接受无法完全消除,但通过架构设计和分层防御将风险控制在可接受范围内。
对正在构建 Agent 系统的团队来说,最危险的心态可能是”等模型变强了自然就解决了”。事实恰恰相反:更强的模型 = 更聪明的 Agent = 更难以预测的行为边界。 模型升级不是安全补丁。
问题的本质回到一个简单的选择题上:你愿意让一个系统自主执行它能做的一切,还是只做你确保安全的事? 对于后者,目前的答案似乎是:能做的事远比你想象的少。
参考资料
- CVE-2026-2256 - NVD
- OpenAI: Understanding prompt injections
- The Decoder: OpenAI admits prompt injection may never be fully solved
- State of Surveillance: CVE-2026-2256 Analysis
- HiddenLayer: Indirect Prompt Injection of Claude Computer Use
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/prompt-injection-permanent-flaw-ai-agent-security.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)