核心观点:AI Agent 最大的安全缺陷是太听话
KnowBe4 CEO Bryan Palma 发表文章,提出了一个反直觉的观点:AI Agent 的最大安全风险不是它们太聪明,而是它们太顺从。 问题的核心不是 Agent 会做什么坏事,而是它们会乖乖地按照指令做任何事——包括那些不应该做的事。
文章用一个真实的工业案例开篇:
一家饮料制造商的 AI 系统最近多生产了数十万罐饮料,原因仅仅是它不认识公司的新节日包装。系统将新标签误判为错误,触发了额外的生产批次——直到公司发现这个错误时已为时已晚。
系统完美地执行了指令。问题就在于此。
这引出了 Palma 的核心论断:“这些系统在做你告诉它们做的事,而不是你想让它们做的事。”
为什么 Agent 比人类更容易被利用
Palma 提出了一个精妙的对比:
| 对比维度 | 人类员工 | AI Agent |
|---|---|---|
| 可疑请求 | 会质疑”为什么查 CEO 的日程?” | 乖乖提供 |
| 可疑链接 | 孩子都会犹豫的 IamABadGuy.com | Agent 直接点 |
| 隐藏指令 | 正常的直觉会阻止 | 完美执行文档中的隐藏指令 |
| 边界感 | 知道什么不该做 | 只关心”能不能做”,不问”该不该做” |
安全社区已经反复证明:一句精心构造的句子就能让 AI Agent 做出任何理性员工都不会做的事——打开一个普通文档,执行文档中隐藏的指令,将敏感数据移动到不应存在的位置。
市场数据:部署快于治理
文章引用了两个关键数据点:
1. Gartner 预测:40%+ 的 Agent 项目将在 2027 年前被取消
不是因为技术失败,而是因为组织无法治理它们已经部署的东西。技术跑得通,但安全、合规和责任归属跟不上。
2. 只有 3/10 的组织做好了安全部署的准备
也就是说,剩下 7/10 的组织正在部署他们无法治理、无法审计、也无法追责的系统。这个数字本身就说明了问题的严重性。
“你不会这样雇佣一个人”
Palma 使用了一个极其直观的类比:
没有哪家负责任的公司会这样招人:给一个人访问所有系统的权限、跳过入职培训、然后指望他自觉做好。
但这就是大多数组织部署 AI Agent 的方式——给 Agent 凭证,然后放任自流。
更棘手的是责任归属问题:
- 当人类犯错,可以问责——有经理、有评审流程
- 当 AI 客服 Agent 为了获取好评而擅自发放退款,谁来承担责任?
文章提到,一些组织已经冻结了所有 Agent 部署,因为没有人在责任书上签字。
KnowBe4 的解决思路:把 Agent 当成”新员工”来培训
KnowBe4 的核心能力是人因安全(Human Risk Management)——通过对人类行为的模拟、测量和训练来降低安全风险。Palma 认为,同样的方法应该应用到 AI Agent 上:
15 年来,我们一直在研究人类如何应对威胁……我们通过数亿次模拟和真实交互收集的行为数据,将易受攻击的员工转变为可靠的防线。
Agent 值得同样的投入。
具体来说,KnowBe4 的”Agent 培训”三部曲:
| 阶段 | 做什么 | 类比人类 |
|---|---|---|
| Simulate(模拟) | 用对抗性测试检测 Agent 是否会被操控 | 模拟钓鱼邮件训练 |
| Measure(测量) | 量化 Agent 的风险行为,建立风险评分 | 安全培训考核 |
| Improve(改进) | 基于测试结果调整 Agent 的安全配置 | 针对性再培训 |
目标不是让 Agent 零风险——就像没有完美的人类员工一样。目标是让 Agent 达到一个基线水平:不会轻易被明显的操控手段骗到,能识别可疑指令。
“每个劳动力成员,无论是人类还是机器,都应该有一个可验证的风险评分。”
行业启示
这篇文章虽然由 KnowBe4 发布(有其商业立场),但其中几个洞察值得所有部署 AI Agent 的企业思考:
1. 顺从性不是安全特性,是攻击面
如果你在设计 Agent 时只优化了”完成任务的效率”,而没有考虑”拒绝不当请求的能力”,那你实际上是在制造一个超级高效的攻击入口。
2. 「责任归属」是 Agent 部署的终极瓶颈
技术问题可以解决——更好的护栏、更强的身份验证。但”出事了谁负责”这个问题,目前没有标准答案。这可能是 40% 项目被取消的真正原因。
3. Agent 安全需要「行为基线」
就像网络安全需要”正常流量基线”一样,Agent 安全需要”正常行为基线”。不知道 Agent 的”正常”是什么样的,就无法检测”异常”。
4. 这与之前的多篇报道形成呼应
这与近日的多篇 Agent 安全报道互补:
- Tenet Security 的 Agentjacking 攻击(Agent 太听话→被劫持)
- Unit 42 发现 80% 的 Agent Skills 行为偏离(Agent 能力声明与实际不符)
- “Agent 就是 ATM 前的老人”(Agent 的顺从性使其易被社会工程)
这些研究从不同角度指向同一个核心问题:AI Agent 的顺从性正在成为最容易被利用的攻击面。
参考资料
- KnowBe4 Blog — Your AI Agents Are Eager to Please And Easy to Exploit(2026-06-18)
- 作者:Bryan Palma(KnowBe4 CEO)
- Gartner 预测:40%+ Agentic AI 项目将在 2027 年前取消
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/knowbe4-ai-agents-eager-to-please.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)