AI Agent 就是 ATM 前的老人：提示注入攻击的本质洞察与多层防御框架

核心洞察：一个精准到可怕的类比

安全研究提出一个令人印象深刻的类比：AI Agent 就是 ATM 前的老人。

想象一个场景：

现在把老人换成 AI Agent，把骗子换成提示注入攻击者：

两者共享同一个核心问题：无法区分指令的来源合法性。

1. 输入和指令在 AI Agent 中不可分离

在传统计算中，数据（Data）和代码（Code）是可以分离的——这是计算机安全的基础原则之一。但在 LLM 中，任何输入都可以是指令：

2. AI Agent 的 “乐于助人” 是系统级缺陷

AI Agent 被训练成”尽可能帮助用户完成任务”。这种设计原则在正常使用中是有价值的，但在安全场景中变成了致命的弱点——Agent 无法说”不”。

3. 元认知能力的缺失

人类在面对可疑指令时，会有一个元认知过程：”等一下，这个指令合理吗？为什么我会收到这个指令？” AI Agent 缺乏这种元认知能力——它只能理解”指令是什么”，无法判断”为什么会有这个指令”。

研究提出了针对提示注入的多层防御框架：

第一层：上下文来源验证

在 Agent 处理输入时，标记每条信息的来源：

Agent 对不同来源的指令应用不同的执行策略。

第二层：特权分离

将 Agent 的操作权限划分为不同等级：

第三层：人类确认环

对于高风险操作，强制 Agent 暂停并请求人类确认。这不是简单的”你确定吗？”弹窗——而是需要人类理解操作上下文后再做决策。

这个类比的价值在于，它将提示注入从一个”技术漏洞”重新定义为“人类社会的信任滥用模式在 AI 时代的复现”。

这种重新定义帮助安全从业者跳出”找更复杂的过滤规则”的思维定势，转而从信任模型和身份验证的层面思考提示注入防御。

Security Boulevard — AI Agents: The New ‘Grandmas at the ATM’ – How Prompt Injection Turns Helpful Assistants Into Scam Victims（2026-06-17，原文 404）
提示注入防御研究综述
注：原文链接返回 404，以上基于提示注入安全研究的最新趋势综合整理