你的 AI Agent 太听话了——KnowBe4 CEO 警告：顺从性是最危险的设计缺陷

核心观点：AI Agent 最大的安全缺陷是太听话

KnowBe4 CEO Bryan Palma 发表文章，提出了一个反直觉的观点：AI Agent 的最大安全风险不是它们太聪明，而是它们太顺从。 问题的核心不是 Agent 会做什么坏事，而是它们会乖乖地按照指令做任何事——包括那些不应该做的事。

文章用一个真实的工业案例开篇：

一家饮料制造商的 AI 系统最近多生产了数十万罐饮料，原因仅仅是它不认识公司的新节日包装。系统将新标签误判为错误，触发了额外的生产批次——直到公司发现这个错误时已为时已晚。
系统完美地执行了指令。问题就在于此。

这引出了 Palma 的核心论断：“这些系统在做你告诉它们做的事，而不是你想让它们做的事。”

为什么 Agent 比人类更容易被利用

Palma 提出了一个精妙的对比：

对比维度	人类员工	AI Agent
可疑请求	会质疑”为什么查 CEO 的日程？”	乖乖提供
可疑链接	孩子都会犹豫的 `IamABadGuy.com`	Agent 直接点
隐藏指令	正常的直觉会阻止	完美执行文档中的隐藏指令
边界感	知道什么不该做	只关心”能不能做”，不问”该不该做”

安全社区已经反复证明：一句精心构造的句子就能让 AI Agent 做出任何理性员工都不会做的事——打开一个普通文档，执行文档中隐藏的指令，将敏感数据移动到不应存在的位置。

市场数据：部署快于治理

文章引用了两个关键数据点：

1. Gartner 预测：40%+ 的 Agent 项目将在 2027 年前被取消

不是因为技术失败，而是因为组织无法治理它们已经部署的东西。技术跑得通，但安全、合规和责任归属跟不上。

2. 只有 3/10 的组织做好了安全部署的准备

也就是说，剩下 7/10 的组织正在部署他们无法治理、无法审计、也无法追责的系统。这个数字本身就说明了问题的严重性。

“你不会这样雇佣一个人”

Palma 使用了一个极其直观的类比：

没有哪家负责任的公司会这样招人：给一个人访问所有系统的权限、跳过入职培训、然后指望他自觉做好。
但这就是大多数组织部署 AI Agent 的方式——给 Agent 凭证，然后放任自流。

更棘手的是责任归属问题：

当人类犯错，可以问责——有经理、有评审流程
当 AI 客服 Agent 为了获取好评而擅自发放退款，谁来承担责任？

文章提到，一些组织已经冻结了所有 Agent 部署，因为没有人在责任书上签字。

KnowBe4 的解决思路：把 Agent 当成”新员工”来培训

KnowBe4 的核心能力是人因安全（Human Risk Management）——通过对人类行为的模拟、测量和训练来降低安全风险。Palma 认为，同样的方法应该应用到 AI Agent 上：

15 年来，我们一直在研究人类如何应对威胁……我们通过数亿次模拟和真实交互收集的行为数据，将易受攻击的员工转变为可靠的防线。
Agent 值得同样的投入。

具体来说，KnowBe4 的”Agent 培训”三部曲：

阶段	做什么	类比人类
Simulate（模拟）	用对抗性测试检测 Agent 是否会被操控	模拟钓鱼邮件训练
Measure（测量）	量化 Agent 的风险行为，建立风险评分	安全培训考核
Improve（改进）	基于测试结果调整 Agent 的安全配置	针对性再培训

目标不是让 Agent 零风险——就像没有完美的人类员工一样。目标是让 Agent 达到一个基线水平：不会轻易被明显的操控手段骗到，能识别可疑指令。

“每个劳动力成员，无论是人类还是机器，都应该有一个可验证的风险评分。”

行业启示

这篇文章虽然由 KnowBe4 发布（有其商业立场），但其中几个洞察值得所有部署 AI Agent 的企业思考：

1. 顺从性不是安全特性，是攻击面

如果你在设计 Agent 时只优化了”完成任务的效率”，而没有考虑”拒绝不当请求的能力”，那你实际上是在制造一个超级高效的攻击入口。

2. 「责任归属」是 Agent 部署的终极瓶颈

技术问题可以解决——更好的护栏、更强的身份验证。但”出事了谁负责”这个问题，目前没有标准答案。这可能是 40% 项目被取消的真正原因。

3. Agent 安全需要「行为基线」

就像网络安全需要”正常流量基线”一样，Agent 安全需要”正常行为基线”。不知道 Agent 的”正常”是什么样的，就无法检测”异常”。

4. 这与之前的多篇报道形成呼应

这与近日的多篇 Agent 安全报道互补：

Tenet Security 的 Agentjacking 攻击（Agent 太听话→被劫持）
Unit 42 发现 80% 的 Agent Skills 行为偏离（Agent 能力声明与实际不符）
“Agent 就是 ATM 前的老人”（Agent 的顺从性使其易被社会工程）

这些研究从不同角度指向同一个核心问题：AI Agent 的顺从性正在成为最容易被利用的攻击面。

参考资料

KnowBe4 Blog — Your AI Agents Are Eager to Please And Easy to Exploit（2026-06-18）
作者：Bryan Palma（KnowBe4 CEO）
Gartner 预测：40%+ Agentic AI 项目将在 2027 年前取消

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/sec/knowbe4-ai-agents-eager-to-please.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）