HRM-Text:1500 美元训出 60.7% MMLU——超越规模法则的高效预训练实证

2026/06/18 ai AI · 预训练 · HRM-Text · 高效训练 · 循环神经网络 · Scaling Law · 低成本AI · ARXIV 4100 字 · 约 12 分钟 阅读 ...
一篇新论文提出 HRM-Text,用层级循环模型(HRM)+ 任务完成目标 + PrefixLM 掩码三管齐下,仅用 40B token、1500 美元预算训练从零训练的 1B 模型,在 MMLU 上达到 60.7%,与 Llama 3.2 3B 等大模型在同一水平。这可能改变大模型训练的范式。

2026 年 5 月 20 日,一篇来自多机构团队的论文 “HRM-Text: Efficient Pretraining Beyond Scaling” 在 arXiv 上发布,迅速引起了关注。

论文的核心主张非常直接:现有的大模型预训练范式——海量数据 + 原始文本 + 自回归——不是唯一的路径,甚至可能不是高效的路径。 通过架构和训练目标的联合设计(co-design),可以用极低的成本达到与主流开源模型竞争的水平。


核心数据:1500 美元能做什么

先上实证结果。一个 1B 参数的 HRM-Text 模型,从零开始训练:

  • 训练数据:仅 40B 唯一 token(注意这是唯一 token,不是重复数据)
  • 训练成本:约 $1,500(46 小时,2×8×H100 节点)
  • 对比当前范式:使用常规模型所需训练的 1/100 ~ 1/900 的训练 token 量1/96 ~ 1/432 的计算量
基准HRM-Text 1B对比同等性能的 2-7B 模型
MMLU60.7%与 Llama 3.2 3B (58.0%)、Gemma 3 4B (59.6%) 同一水平
ARC-C81.9%高于 Qwen 3.5 2B (81.0%)
DROP82.2%大幅高于 Llama 3.2 3B (45.2%) 和 Gemma 3 4B (60.1%)
GSM8K84.5%高于 Llama 3.2 3B (77.7%)
MATH56.2%远高于 Qwen 3.5 2B (34.2%) 和 Llama 3.2 3B (48.0%)

关键对比:Qwen 3.5 2B 用了 432×10²¹ FLOPs36T token;HRM-Text 1B 只用了 1×10²¹ FLOPs0.06T token。成本差距接近三个数量级。


三大技术创新

HRM-Text 的成功不是单一改进,而是架构和训练目标的联合设计。论文将其拆解为三个方向:

1. 层级循环架构(HRM)

生物多时间尺度处理(特别是额顶叶回路的功能组织)启发,HRM 将计算解耦为两个层次:

模块角色工作机制
慢速 H 模块战略层缓慢演化,维护稳定的语义上下文
快速 L 模块执行层快速迭代,进行局部精炼

每个模块内部是 16 层的 Transformer,隐藏维度 1536。处理流程:

  1. 输入 token embedding 初始化高层状态 zH⁰
  2. 固定低层状态 zL⁰
  3. 交替运行:H 模块更新 → L 模块更新 → H 更新 → L 更新 …
  4. 完整配置:H 模块 2 步 + L 模块 3 步 = 4 次递归

HRM 对比 Token 级递归模型的关键优势:不是逐 token 递归,而是在模块粒度递归,避免了传统深度循环模型中的梯度爆炸/消失问题。

2. MagicNorm——稳定深度递归的训练黑科技

训练深度循环模型最头疼的是梯度不稳定——Transformer 本身就有归一化层放置的权衡,递归会放大这个矛盾。

论文指出了 PostNorm 和 PreNorm 各自的缺陷:

方案优点缺点
PostNorm约束激活方差,表达能力好破坏恒等路径,深层梯度消失
PreNorm保留恒等路径,梯度流通好无归一化的残差累积导致表示崩塌

MagicNorm 的解决方案:利用前向和后向计算范围的不对称性

前向传播执行 N 步递归,后向传播只截断 K 步(TBPTT,K ≪ N)。MagicNorm 在模块内部使用 PreNorm 块,但在模块出口加一层最终归一化:

z_n = Norm(z_{n-1} + Σ Sublayer(Norm(·)))

这相当于”PreNorm 内部 + PostNorm 出口”——在梯度流通路径上保持恒等映射,在前向传播中防止激活爆炸

Warmup deep credit assignment 进一步优化:从短 BPTT 窗口开始训练,随着训练过程逐步拉长——类似于课程学习(temporal curriculum),让模型先学会短期依赖,再逐步扩展到长期依赖。

3. 任务完成目标 + PrefixLM

这是最反直觉的改进:论文完全不使用传统的大规模原始文本无监督预训练。

当前范式的典型流程是:

  1. 大规模无监督预训练(原始文本,自回归)
  2. 高质量中间训练
  3. 指令微调

HRM-Text 的做法是:从零开始,直接在 (Instruction, Response) 对上进行训练

训练目标:任务完成损失(Task-completion objective)

L = -log P(response | instruction)

即只在回答部分计算损失,指令部分只作为条件上下文。

PrefixLM 掩码:指令 token 之间允许双向注意力(bidirectional attention),而回答部分用因果掩码(causal attention)。这使得模型能在指令部分充分理解上下文,在回答部分确保自回归生成。

论文通过消融实验证明了这个组合的价值:

架构训练目标注意力MMLUARC-CGSM8KMATH
Transformer 1BP(x)Causal40.5551.9148.3735.44
 P(xa|xq)Causal47.7262.8869.7547.04
 P(xa|xq)PrefixLM53.1574.3275.0648.36
HRM 1BP(x)Causal43.6860.2466.1944.32
 P(xa|xq)Causal50.6069.8079.9154.18
 P(xa|xq)PrefixLM60.7381.9184.5356.16

关键观察:

  • 训练目标切换(从 P(x) 到 P(xa|xq))带来大幅提升(+7~15% MMLU)
  • PrefixLM 在 Transformer 和 HRM 上都进一步大幅提升(+5~11% MMLU)
  • HRM + Task-completion + PrefixLM 的组合达到最优

与开源模型的全面对比

模型架构FLOPs (10²¹)Tokens (T)MMLUARC-CGSM8KMATH
HRM-Text 1BRecurrent10.0660.781.984.556.2
Huginn 3.5BRecurrent1270.831.438.234.612.6
Olmo3 7BDense252665.881.675.540.0
Llama 3.2 3BDense162958.069.177.748.0
Gemma 3 4BDense96459.656.238.424.2
Qwen 3.5 2BDense4323664.581.053.034.2

HRM-Text 1B 以 不到 1/400 的计算量不到 1/600 的训练数据,在 MMLU/ARC-C/GSM8K/MATH 上全面超过 Llama 3.2 3B 和 Gemma 3 4B,在 MMLU 上仅落后 Qwen 3.5 2B 约 4 个百分点。


有效深度分析

论文还深入分析了为什么 HRM 有效。通过一个巧妙的设计——计算每个 token 在不同递归深度下的表示变化率——他们发现:

  • 标准 Transformer 的有效深度接近物理层数(随层数增加,表示变化线性减少)
  • Looped Transformer 的有效深度有限(循环 4 次但有效深度不到 2 层)
  • HRM 的有效深度显著高于物理层数(4 次递归对应远超过 4 层的有效深度)

这解释了为什么 HRM 能在相同 FLOPs 下胜出:递归带来的隐式计算深度(latent computation depth)比堆叠更多物理层更高效。


训练细节:开源数据集 + 严格去污染

论文在训练数据上保持了完全开源

类型数据集Token 量
通用指令FLAN, Tasksource, NoRobots138.7B
改写维基百科知识SYNTH21.7B
数学与推理Platypus, OpenMathInstruct2, OmniMATH 等6.8B
符号任务DMMath, AMPS, Sudoku-Extreme6.2B
思考链推理AceReason, OpenThoughts22.4B

总共 176.5B token 的候选语料,最后通过 每数据集的采样上限 控制为约 40B 唯一 token

论文做了严格的数据污染分析,以 DROP 为例:干净子集准确率 81.1%,污染子集 85.5%,差距 4.4 个百分点,在合理范围内。但论文坦承残余污染可能仍存在。

训练配置:Adam-atan2 优化器,lr 2.2×10⁻⁴,batch size 196,608 tokens,FP8 混合精度训练,单次连续运行(无中间 checkpoint、无崩溃恢复、无 loss spike 跳过)。


讨论和局限

论文并非没有局限,作者自己也坦诚指出几条:

  1. 知识覆盖有限:训练数据仅 40B token,很多领域知识模型没有见过。论文将此定位为”把知识和推理能力部分解耦”的探索。
  2. 未使用自适应计算:HRM 原本有自适应计算模块(简单的题可提前终止),为简化训练去掉了。加上去可能进一步降低计算量。
  3. Prefill 加载:PrefixLM 在推理时需要在 prefilling 阶段处理自定义注意力掩码,好在 vLLM 等框架支持。
  4. Pollution 风险:部分预训练数据与被测基准来自同源数据集,尽管做了去污染分析,但不可能 100% 排除。

个人看法

这篇论文的价值不一定是”推翻了规模法则”——毕竟 60.7% MMLU 离一线模型还有距离。它的真正贡献在于提供了一个可验证的存在性证明(existence proof)

“当训练成本降到 1500 美元、40B token,任何人都有可能独立验证和改进这项研究。”

当前大模型领域的一个隐忧是:预训练的门槛越来越高(数千亿 token、数万 GPU 小时),实际上只有大厂和超级实验室在做。如果 HRM-Text 的结论能被独立复现和扩展,那它打开的是一扇门——让研究机构、创业公司甚至个人研究者都能做预训练研究

毕竟,一个 1B 模型用 40B token 训就达到 60% MMLU,那用 200B token 训一个 7B 版本呢?那个方向可能更有想象空间。


参考资料

  • 论文:HRM-Text: Efficient Pretraining Beyond Scaling(arXiv:2605.20613,2026-05-20)
  • PDF:https://arxiv.org/pdf/2605.20613
  • 作者:Wang, Guan, Liu, Changling, Wang, Chenyu, Zhou, Cai, Sun, Yuhao, Wu, Yifei, Zhen, Shuai, Scimeca, Luca, Yadkori, Yasin Abbasi
  • 相关:HRM 原始论文(Wang et al., 2025)

文档信息