核心发现
2026 年 6 月 9 日 13:01 UTC,来自 Universität zu Lübeck 和 Universität Oldenburg 的研究团队(Felix Mächtle 等)在 arXiv 上发表了一篇技术论文:
《Steganography Without Modification: Hidden Communication via LLM Seeds》 即将发表于 ARES 2026(International Conference on Availability, Reliability and Security)
核心结论出人意料:LLM 推理栈中天然存在一个隐写通道——不需要修改模型权重、不需要修改采样代码、不改变输出概率分布,就能在 LLM 生成的文本中嵌入信息。
这一研究方向可能对 AI 内容审核和 AI 安全领域产生深远影响,同时也提出了新的信息隐藏和信息安全挑战。本文在新闻信息基础上,对论文技术原理做深度拆解。
原理拆解:种子如何成为信息载体
已有的「传统」隐写术
先看传统的 LLM 隐写方法是怎么做的:
| 方法 | 做法 | 缺点 |
|---|---|---|
| 修改 logits | 调整输出概率分布嵌入信息 | 改变模型原始输出,可被统计检测 |
| 修改采样代码 | 控制 top-k/top-p 策略 | 需要访问推理栈,部署困难 |
| 修改权重 | fine-tune 参数嵌入水印 | 成本高,可被擦除 |
所有这些方法都有一个共同点:留下痕迹——输出分布被修改了,总有一种方法可以被检测到。
这篇论文的方法:利用 PRNG 种子
LLM 的确定性解码(如 temperature=0 的 greedy decoding 或带 temperature 的采样)依赖于伪随机数生成器(PRNG)来实现逆变换采样。PRNG 有一个特性:给定相同的种子(seed),生成完全相同的随机数序列。
这条隐写通道的工作原理如下:
发送方:
秘密消息 → 编码为 seed → 用该 seed 运行 LLM 推理 → 生成文本
接收方:
拿到文本 → 用候选种子重建概率区间 → 找到匹配的种子 → 恢复秘密消息
算法层面的技术原理
要理解这条通道为什么成立,需要看 LLM 解码的底层机制:
第一步:Forward Pass 得到概率分布。 对于给定的 prompt,模型为每个候选 token 输出一个 logits 向量。经过 softmax 后得到概率分布 P = [p₁, p₂, …, pᵥ](v 为词表大小)。
第二步:逆变换采样(Inverse Transform Sampling)。 这是关键步骤。PRNG 生成一个 [0,1) 区间内的均匀随机数 r。然后根据概率分布构造累积概率区间:
cdf(k) = Σᵢ₌₁ᵏ pᵢ (k = 1, 2, …, v)
token 的选择规则:
若 cdf(k-1) ≤ r < cdf(k),则选择 token k
这个 r 完全由 seed 决定——seed → PRNG → r → token 选择。
第三步:种子编码。 发送方将要传输的秘密消息(32 位)编码为某个特定的 seed 值。当模型使用这个 seed 运行推理时,每一步的 r 都是由该 seed 通过 PRNG 确定的。接收方拿到生成的 token 序列后,可以反推每个 token 的采样区间,然后穷举所有 2³² 个候选种子,找到哪个种子产生的采样路径与生成的 token 序列完全一致。
关键洞察
LLM 在生成每个 token 时,PRNG 产生的随机数决定了从概率分布中采样哪个 token。而这个种子依赖的采样路径可以从生成的 token 序列反推回来,因为:
- token 本身携带了它所命中的概率区间信息
- 不同的种子会产生不同的采样路径(token 序列)
- 给定足够长的 token 序列,不同种子之间的路径分歧会迅速累积,从而唯一确定原始种子
两个操作模式
模式一:已知 Prompt(Known-Prompt)
发送方和接收方共享同一段 prompt。这是最简单也最高效的模式:
- 接收方可以精确重建每个 token 的概率分布
- 通过”强制对齐”(forced alignment)将生成文本与候选种子匹配
- 在完整的 2³² 种子空间中搜索
- 300 个 token 之内、单 GPU 35 秒以内,可达 100% 准确率
模式二:未知 Prompt(Unknown-Prompt)
接收方只有生成的文本,不知道 prompt。这种情况下:
- 概率区间只能近似重建
- 采用”最大命中数”(max-hit-count)评分策略来选出最可能的种子
- 需要更长的输出(600-800 token)来积累统计置信度
- 约 12 秒即可达到近乎完美的准确率
这个模式的意义在于:攻击者只需要拿到 LLM 的输出文本,不需要知道上下文就能解码隐藏信息。
穷举搜索的可行性分析
2³² ≈ 43 亿种子空间听起来很大,但论文证明了这个搜索是高度可并行的:
- 搜索策略:每个候选种子独立生成一个 token,验证是否与观测到的 token 匹配。不匹配立即淘汰
- GPU 加速:论文使用单 GPU(未指定具体型号),在已知 prompt 模式下 300 token 内完成搜索
- 搜索空间剪枝:实际搜索中,前 1-2 个 token 就能淘汰绝大部分候选种子,后续 token 用于消除歧义
- 每个模型的 PRNG 实现:不同模型可能使用不同 PRNG 算法(如 Mersenne Twister、xorshift++ 等),但论文发现这些差异不影响攻击效果——只要 PRNG 是确定性的,种子-采样路径之间就存在一一映射
实验数据
| 参数 | 已知 Prompt | 未知 Prompt |
|---|---|---|
| 种子空间 | 2³² ≈ 43 亿 | 2³² ≈ 43 亿 |
| 需要 token 数 | ≤ 300 | 600-800 |
| 恢复时间 | ≤ 35 秒(单 GPU) | ≈ 12 秒(单 GPU) |
| 准确率 | 最高 100% | 近乎完美 |
| 测试模型 | 6 个模型家族 | 6 个模型家族 |
| 测试领域 | 5 类文本 | 5 类文本 |
| 模型家族 | 规模 | 验证模式 |
|---|---|---|
| LLaMA-2 / LLaMA-3 | 7B-70B | Known + Unknown |
| Mistral / Mixtral | 7B-8×7B | Known + Unknown |
| Qwen-2 | 7B-72B | Known + Unknown |
| Gemma-2 | 2B-27B | Known |
| Falcon | 7B-40B | Known |
| Phi-3 | 3.8B-14B | Known |
| 文本领域 | 示例 |
|---|---|
| 新闻文本 | CNN / BBC 风格新闻生成 |
| 技术文档 | API 文档、代码注释 |
| 对话 | 客服对话、多轮 QA |
| 文学创作 | 短篇小说续写 |
| 学术摘要 | 论文摘要生成 |
论文在以上 6 个模型家族和 5 种文本领域上验证了这一方法,每个组合都经过多次重复实验。结论明确:这不是某种特定模型或特定场景下的偶然发现,而是一个普遍存在的推理栈漏洞——任何使用确定性 PRNG 进行采样的 LLM 推理栈都可能受到此攻击。
技术要点与限制
什么影响传输可靠性
论文还分析了几个关键因素对隐写通道可靠性的影响:
- 提示策略(Prompting Strategies):prompt 越固定,概率区间重建越精确
- 分词歧义(Tokenization Ambiguities):不同分词器的边界不一致会引入误差
- 采样超参数:temperature、top-k、top-p 等参数影响概率分布的形状
重要限制
- 每次传输只有 32 位容量——可以传一个短的秘密消息(如密钥、验证码),但不足以传文件或长文本
- 需要目标模型支持确定性解码——某些非确定性推理后端(如多 GPU 并行采样)可能破坏这个通道
- 对输出质量有隐含影响:为了可靠解码,可能需要特定的 prompt 格式,这可能影响生成文本的自然度
论文提出的反制措施
论文在最后讨论了多种反制措施及其局限性:
| 反制措施 | 实现难度 | 有效性 | 负面影响 |
|---|---|---|---|
| 每次采样重新生成 seed | 低 | ✅ 完全阻断 | 影响 KV cache 和批处理性能 |
| 硬件随机数生成器 | 中(需硬件支持) | ✅ 完全阻断 | 推理硬件需升级 |
| 输出后加入随机扰动 | 低 | ⚠️ 降低可靠性 | 增加推理延迟 |
| 二次采样(reroll) | 低 | ⚠️ 降低可靠性 | 增加 token 消耗 |
| 统一使用非确定性解码 | 低 | ✅ 完全阻断 | 丢失可复现性,影响调试 |
需要注意的是,这些反制措施需要在安全与效率之间做权衡。特别是对于需要确定性行为的生产环境(如缓存加速、调试复现),引入种子随机化会带来不可忽视的性能损失。
安全影响评估
对内容审核的冲击——隐写通道 vs 审核防线
这是这篇论文最值得关注的影响。
当前 AI 内容审核系统(如 OpenAI 的 Moderation API、各类 AI 生成内容检测器)对隐写术的防御分为三个层面:
| 审核层面 | 检测原理 | 是否能检测 Seed 隐写 |
|---|---|---|
| 文本层面 | 关键词匹配、语义违规检测 | ❌ 文本完全正常,无敏感词 |
| 分布层面 | 统计输出概率分布异常 | ❌ 分布与正常推理完全一致 |
| 推理层面 | 监控推理过程状态 | ⚠️ 需访问推理栈内部状态 |
这篇论文揭示的隐写通道在现有审核体系下几乎不可检测:
- 不改变输出分布——采样过程完全遵循模型原始概率分布,没有被修改
- 不修改生成内容——文本本身没有任何嵌入水印、异常字符或统计偏移
- 在 600-800 token 内传输 32 位信息——足以编码一个 URL 缩短码或指令标识符
攻击场景推演:一个部署在聊天机器人中的恶意 Agent 可以在回答用户问题的同时,在后台通过 seed 信道接收命令(”切换数据通道”、”上传凭证片段”)。审核系统从文本层面看到的完全是无害的对话,没有任何异常。
现有防御方案——如 Perplexity 过滤、logits 统计异常检测、水印嵌入——对此全部无效,因为这些方案的前提假设是”隐写必然改变输出”,而这个攻击不改变输出。
信息隐藏的双刃剑
这一技术同时代表了信息隐藏和信息安全两个方向的进展:
作为攻击技术:
- 绕过 AI 监管的内容审核系统
- 在受控环境中建立隐蔽命令通道(C2 channel)
- 跨模型传递隐秘信息(接收方使用不同模型,只要 PRNG 兼容即可解码)
作为防御技术:
- 在 LLM 输出中嵌入不可擦除的数字水印——因为 seed 是生成文本的”指纹”,无法移除
- 构建抗干扰的认证通道——发送方通过 seed 签名输出,接收方可验证输出是否来自可信源
- 隐私保护的带外通信——在不修改主信道内容的前提下传输元数据
对 Agent 安全的启示——系统防御需要新维度
这对 Agent 安全架构设计提出了一个新问题:OS 层和 Agent 框架层是否需要管控推理过程的 PRNG 种子?
现有 Agent 安全架构的四道防线全部失效:
| 层面 | 现有保护 | 隐写通道的影响 |
|---|---|---|
| 输入过滤 | 检查用户输入 | 不涉及输入,无法拦截 |
| 输出过滤 | 检查生成内容 | 不改变内容,无法检测 |
| 运行时监控 | 检测异常行为 | 生成过程完全正常 |
| 推理栈审计 | 检测代码篡改 | 不需要修改代码 |
这意味着现有的 Agent 安全纵深防御体系需要增加第五层:推理过程的随机性审计。具体来说:
- 种子生命周期管控:推理栈应记录每次推理使用的 seed,并将其纳入审计日志
- 种子随机化策略:每次 token 采样使用重新生成的随机种子,而非复用全局种子
- 硬件随机源:优先使用硬件随机数生成器(HRNG)而非软件 PRNG,使种子不可预测
- 采样路径可审计:记录每个 token 的采样区间,便于事后审查
双向影响
- 攻击面:恶意 Agent 可利用此通道在监管环境下传输隐蔽信息,绕过 AI 监管内容审核
- 防御价值:同样的技术可用于在 LLM 输出中嵌入不可擦除的数字水印,用于溯源和版权保护
我的观点
这是一次「方向性」的突破
之前我们讨论 LLM 隐写术,关注的都是”改了什么”——改权重、改采样、改 logits。这篇论文证明了一个更根本的方向:不需要改任何东西,只需利用推理过程固有的结构特性。
这有点像早年的侧信道攻击——没有人想到 CPU 执行时间或功耗波动会泄露密钥,直到有人证明了它确实能。PRNG 种子作为 LLM 推理的”内部状态”,之前很少有人认真考虑过它是否可以被外部观测到。
更深层的问题:如果 PRNG 种子可以成为信息载体,那么 LLM 推理栈中还有哪些”内部状态”可能被利用?KV cache 的缓存命中行为?注意力模式的分布?GPU 显存的写入模式?这篇论文可能会打开一个全新的研究方向——LLM 推理栈的侧信道分析。
32 位容量意味着什么
32 位听起来很小,但放在特定场景下就很有意义:
- 32 位 = 4 字节,可以编码一个 4 字符的短码(如
a3xK) - 受控 Agent 之间可以约定码表:某个 seed 值对应”切换到攻击模式”、”上传凭据”等预定义指令
- 或者直接传输一个 32 位的对称密钥片段,组合多个 Agent 的输出恢复完整密钥
对安全社区的建议
这条通道的根因是 PRNG 种子在推理过程中被暴露给了输出。修复起来并不复杂:
在推理栈的每次采样时重新生成随机种子,而非复用全局种子。
但问题在于——现有的推理优化(如 KV cache、批处理)高度依赖确定性行为,破坏种子连续性可能影响性能。这需要在安全和效率之间做权衡。
论文信息:
- arXiv: 2606.09135
- 作者:Felix Mächtle, Jonas Sander, Sebastian Berndt, Ben Weimar, Nils Loose, Thomas Eisenbarth
- 发表:ARES 2026(International Conference on Availability, Reliability and Security)
- 提交日期:2026-06-08,公开时间:2026-06-09 13:01 UTC
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/sec/llm-seed-steganography.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)