2026 年 5 月 20 日,一篇来自多机构团队的论文 “HRM-Text: Efficient Pretraining Beyond Scaling” 在 arXiv 上发布,迅速引起了关注。
论文的核心主张非常直接:现有的大模型预训练范式——海量数据 + 原始文本 + 自回归——不是唯一的路径,甚至可能不是高效的路径。 通过架构和训练目标的联合设计(co-design),可以用极低的成本达到与主流开源模型竞争的水平。
核心数据:1500 美元能做什么
先上实证结果。一个 1B 参数的 HRM-Text 模型,从零开始训练:
- 训练数据:仅 40B 唯一 token(注意这是唯一 token,不是重复数据)
- 训练成本:约 $1,500(46 小时,2×8×H100 节点)
- 对比当前范式:使用常规模型所需训练的 1/100 ~ 1/900 的训练 token 量,1/96 ~ 1/432 的计算量
| 基准 | HRM-Text 1B | 对比同等性能的 2-7B 模型 |
|---|---|---|
| MMLU | 60.7% | 与 Llama 3.2 3B (58.0%)、Gemma 3 4B (59.6%) 同一水平 |
| ARC-C | 81.9% | 高于 Qwen 3.5 2B (81.0%) |
| DROP | 82.2% | 大幅高于 Llama 3.2 3B (45.2%) 和 Gemma 3 4B (60.1%) |
| GSM8K | 84.5% | 高于 Llama 3.2 3B (77.7%) |
| MATH | 56.2% | 远高于 Qwen 3.5 2B (34.2%) 和 Llama 3.2 3B (48.0%) |
关键对比:Qwen 3.5 2B 用了 432×10²¹ FLOPs 和 36T token;HRM-Text 1B 只用了 1×10²¹ FLOPs 和 0.06T token。成本差距接近三个数量级。
三大技术创新
HRM-Text 的成功不是单一改进,而是架构和训练目标的联合设计。论文将其拆解为三个方向:
1. 层级循环架构(HRM)
受生物多时间尺度处理(特别是额顶叶回路的功能组织)启发,HRM 将计算解耦为两个层次:
| 模块 | 角色 | 工作机制 |
|---|---|---|
| 慢速 H 模块 | 战略层 | 缓慢演化,维护稳定的语义上下文 |
| 快速 L 模块 | 执行层 | 快速迭代,进行局部精炼 |
每个模块内部是 16 层的 Transformer,隐藏维度 1536。处理流程:
- 输入 token embedding 初始化高层状态 zH⁰
- 固定低层状态 zL⁰
- 交替运行:H 模块更新 → L 模块更新 → H 更新 → L 更新 …
- 完整配置:H 模块 2 步 + L 模块 3 步 = 4 次递归
HRM 对比 Token 级递归模型的关键优势:不是逐 token 递归,而是在模块粒度递归,避免了传统深度循环模型中的梯度爆炸/消失问题。
2. MagicNorm——稳定深度递归的训练黑科技
训练深度循环模型最头疼的是梯度不稳定——Transformer 本身就有归一化层放置的权衡,递归会放大这个矛盾。
论文指出了 PostNorm 和 PreNorm 各自的缺陷:
| 方案 | 优点 | 缺点 |
|---|---|---|
| PostNorm | 约束激活方差,表达能力好 | 破坏恒等路径,深层梯度消失 |
| PreNorm | 保留恒等路径,梯度流通好 | 无归一化的残差累积导致表示崩塌 |
MagicNorm 的解决方案:利用前向和后向计算范围的不对称性。
前向传播执行 N 步递归,后向传播只截断 K 步(TBPTT,K ≪ N)。MagicNorm 在模块内部使用 PreNorm 块,但在模块出口加一层最终归一化:
z_n = Norm(z_{n-1} + Σ Sublayer(Norm(·)))
这相当于”PreNorm 内部 + PostNorm 出口”——在梯度流通路径上保持恒等映射,在前向传播中防止激活爆炸。
Warmup deep credit assignment 进一步优化:从短 BPTT 窗口开始训练,随着训练过程逐步拉长——类似于课程学习(temporal curriculum),让模型先学会短期依赖,再逐步扩展到长期依赖。
3. 任务完成目标 + PrefixLM
这是最反直觉的改进:论文完全不使用传统的大规模原始文本无监督预训练。
当前范式的典型流程是:
- 大规模无监督预训练(原始文本,自回归)
- 高质量中间训练
- 指令微调
HRM-Text 的做法是:从零开始,直接在 (Instruction, Response) 对上进行训练。
训练目标:任务完成损失(Task-completion objective)
L = -log P(response | instruction)
即只在回答部分计算损失,指令部分只作为条件上下文。
PrefixLM 掩码:指令 token 之间允许双向注意力(bidirectional attention),而回答部分用因果掩码(causal attention)。这使得模型能在指令部分充分理解上下文,在回答部分确保自回归生成。
论文通过消融实验证明了这个组合的价值:
| 架构 | 训练目标 | 注意力 | MMLU | ARC-C | GSM8K | MATH |
|---|---|---|---|---|---|---|
| Transformer 1B | P(x) | Causal | 40.55 | 51.91 | 48.37 | 35.44 |
| P(xa|xq) | Causal | 47.72 | 62.88 | 69.75 | 47.04 | |
| P(xa|xq) | PrefixLM | 53.15 | 74.32 | 75.06 | 48.36 | |
| HRM 1B | P(x) | Causal | 43.68 | 60.24 | 66.19 | 44.32 |
| P(xa|xq) | Causal | 50.60 | 69.80 | 79.91 | 54.18 | |
| P(xa|xq) | PrefixLM | 60.73 | 81.91 | 84.53 | 56.16 |
关键观察:
- 训练目标切换(从 P(x) 到 P(xa|xq))带来大幅提升(+7~15% MMLU)
- PrefixLM 在 Transformer 和 HRM 上都进一步大幅提升(+5~11% MMLU)
- HRM + Task-completion + PrefixLM 的组合达到最优
与开源模型的全面对比
| 模型 | 架构 | FLOPs (10²¹) | Tokens (T) | MMLU | ARC-C | GSM8K | MATH |
|---|---|---|---|---|---|---|---|
| HRM-Text 1B | Recurrent | 1 | 0.06 | 60.7 | 81.9 | 84.5 | 56.2 |
| Huginn 3.5B | Recurrent | 127 | 0.8 | 31.4 | 38.2 | 34.6 | 12.6 |
| Olmo3 7B | Dense | 252 | 6 | 65.8 | 81.6 | 75.5 | 40.0 |
| Llama 3.2 3B | Dense | 162 | 9 | 58.0 | 69.1 | 77.7 | 48.0 |
| Gemma 3 4B | Dense | 96 | 4 | 59.6 | 56.2 | 38.4 | 24.2 |
| Qwen 3.5 2B | Dense | 432 | 36 | 64.5 | 81.0 | 53.0 | 34.2 |
HRM-Text 1B 以 不到 1/400 的计算量 和 不到 1/600 的训练数据,在 MMLU/ARC-C/GSM8K/MATH 上全面超过 Llama 3.2 3B 和 Gemma 3 4B,在 MMLU 上仅落后 Qwen 3.5 2B 约 4 个百分点。
有效深度分析
论文还深入分析了为什么 HRM 有效。通过一个巧妙的设计——计算每个 token 在不同递归深度下的表示变化率——他们发现:
- 标准 Transformer 的有效深度接近物理层数(随层数增加,表示变化线性减少)
- Looped Transformer 的有效深度有限(循环 4 次但有效深度不到 2 层)
- HRM 的有效深度显著高于物理层数(4 次递归对应远超过 4 层的有效深度)
这解释了为什么 HRM 能在相同 FLOPs 下胜出:递归带来的隐式计算深度(latent computation depth)比堆叠更多物理层更高效。
训练细节:开源数据集 + 严格去污染
论文在训练数据上保持了完全开源:
| 类型 | 数据集 | Token 量 |
|---|---|---|
| 通用指令 | FLAN, Tasksource, NoRobots | 138.7B |
| 改写维基百科知识 | SYNTH | 21.7B |
| 数学与推理 | Platypus, OpenMathInstruct2, OmniMATH 等 | 6.8B |
| 符号任务 | DMMath, AMPS, Sudoku-Extreme | 6.2B |
| 思考链推理 | AceReason, OpenThoughts2 | 2.4B |
总共 176.5B token 的候选语料,最后通过 每数据集的采样上限 控制为约 40B 唯一 token。
论文做了严格的数据污染分析,以 DROP 为例:干净子集准确率 81.1%,污染子集 85.5%,差距 4.4 个百分点,在合理范围内。但论文坦承残余污染可能仍存在。
训练配置:Adam-atan2 优化器,lr 2.2×10⁻⁴,batch size 196,608 tokens,FP8 混合精度训练,单次连续运行(无中间 checkpoint、无崩溃恢复、无 loss spike 跳过)。
讨论和局限
论文并非没有局限,作者自己也坦诚指出几条:
- 知识覆盖有限:训练数据仅 40B token,很多领域知识模型没有见过。论文将此定位为”把知识和推理能力部分解耦”的探索。
- 未使用自适应计算:HRM 原本有自适应计算模块(简单的题可提前终止),为简化训练去掉了。加上去可能进一步降低计算量。
- Prefill 加载:PrefixLM 在推理时需要在 prefilling 阶段处理自定义注意力掩码,好在 vLLM 等框架支持。
- Pollution 风险:部分预训练数据与被测基准来自同源数据集,尽管做了去污染分析,但不可能 100% 排除。
个人看法
这篇论文的价值不一定是”推翻了规模法则”——毕竟 60.7% MMLU 离一线模型还有距离。它的真正贡献在于提供了一个可验证的存在性证明(existence proof):
“当训练成本降到 1500 美元、40B token,任何人都有可能独立验证和改进这项研究。”
当前大模型领域的一个隐忧是:预训练的门槛越来越高(数千亿 token、数万 GPU 小时),实际上只有大厂和超级实验室在做。如果 HRM-Text 的结论能被独立复现和扩展,那它打开的是一扇门——让研究机构、创业公司甚至个人研究者都能做预训练研究。
毕竟,一个 1B 模型用 40B token 训就达到 60% MMLU,那用 200B token 训一个 7B 版本呢?那个方向可能更有想象空间。
参考资料
- 论文:HRM-Text: Efficient Pretraining Beyond Scaling(arXiv:2605.20613,2026-05-20)
- PDF:https://arxiv.org/pdf/2605.20613
- 作者:Wang, Guan, Liu, Changling, Wang, Chenyu, Zhou, Cai, Sun, Yuhao, Wu, Yifei, Zhen, Shuai, Scimeca, Luca, Yadkori, Yasin Abbasi
- 相关:HRM 原始论文(Wang et al., 2025)
文档信息
- 本文作者:zhupite
- 本文链接:https://zhupite.com/ai/hrm-text-efficient-pretraining-beyond-scaling.html
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)