HRM-Text：1500 美元训出 60.7% MMLU——超越规模法则的高效预训练实证

2026 年 5 月 20 日，一篇来自多机构团队的论文 “HRM-Text: Efficient Pretraining Beyond Scaling” 在 arXiv 上发布，迅速引起了关注。

论文的核心主张非常直接：现有的大模型预训练范式——海量数据 + 原始文本 + 自回归——不是唯一的路径，甚至可能不是高效的路径。 通过架构和训练目标的联合设计（co-design），可以用极低的成本达到与主流开源模型竞争的水平。

核心数据：1500 美元能做什么

先上实证结果。一个 1B 参数的 HRM-Text 模型，从零开始训练：

训练数据：仅 40B 唯一 token（注意这是唯一 token，不是重复数据）
训练成本：约 $1,500（46 小时，2×8×H100 节点）
对比当前范式：使用常规模型所需训练的 1/100 ~ 1/900 的训练 token 量，1/96 ~ 1/432 的计算量

基准	HRM-Text 1B	对比同等性能的 2-7B 模型
MMLU	60.7%	与 Llama 3.2 3B (58.0%)、Gemma 3 4B (59.6%) 同一水平
ARC-C	81.9%	高于 Qwen 3.5 2B (81.0%)
DROP	82.2%	大幅高于 Llama 3.2 3B (45.2%) 和 Gemma 3 4B (60.1%)
GSM8K	84.5%	高于 Llama 3.2 3B (77.7%)
MATH	56.2%	远高于 Qwen 3.5 2B (34.2%) 和 Llama 3.2 3B (48.0%)

关键对比：Qwen 3.5 2B 用了 432×10²¹ FLOPs 和 36T token；HRM-Text 1B 只用了 1×10²¹ FLOPs 和 0.06T token。成本差距接近三个数量级。

三大技术创新

HRM-Text 的成功不是单一改进，而是架构和训练目标的联合设计。论文将其拆解为三个方向：

1. 层级循环架构（HRM）

受生物多时间尺度处理（特别是额顶叶回路的功能组织）启发，HRM 将计算解耦为两个层次：

模块	角色	工作机制
慢速 H 模块	战略层	缓慢演化，维护稳定的语义上下文
快速 L 模块	执行层	快速迭代，进行局部精炼

每个模块内部是 16 层的 Transformer，隐藏维度 1536。处理流程：

输入 token embedding 初始化高层状态 zH⁰
固定低层状态 zL⁰
交替运行：H 模块更新 → L 模块更新 → H 更新 → L 更新 …
完整配置：H 模块 2 步 + L 模块 3 步 = 4 次递归

HRM 对比 Token 级递归模型的关键优势：不是逐 token 递归，而是在模块粒度递归，避免了传统深度循环模型中的梯度爆炸/消失问题。

2. MagicNorm——稳定深度递归的训练黑科技

训练深度循环模型最头疼的是梯度不稳定——Transformer 本身就有归一化层放置的权衡，递归会放大这个矛盾。

论文指出了 PostNorm 和 PreNorm 各自的缺陷：

方案	优点	缺点
PostNorm	约束激活方差，表达能力好	破坏恒等路径，深层梯度消失
PreNorm	保留恒等路径，梯度流通好	无归一化的残差累积导致表示崩塌

MagicNorm 的解决方案：利用前向和后向计算范围的不对称性。

前向传播执行 N 步递归，后向传播只截断 K 步（TBPTT，K ≪ N）。MagicNorm 在模块内部使用 PreNorm 块，但在模块出口加一层最终归一化：

z_n = Norm(z_{n-1} + Σ Sublayer(Norm(·)))

这相当于”PreNorm 内部 + PostNorm 出口”——在梯度流通路径上保持恒等映射，在前向传播中防止激活爆炸。

Warmup deep credit assignment 进一步优化：从短 BPTT 窗口开始训练，随着训练过程逐步拉长——类似于课程学习（temporal curriculum），让模型先学会短期依赖，再逐步扩展到长期依赖。

3. 任务完成目标 + PrefixLM

这是最反直觉的改进：论文完全不使用传统的大规模原始文本无监督预训练。

当前范式的典型流程是：

大规模无监督预训练（原始文本，自回归）
高质量中间训练
指令微调

HRM-Text 的做法是：从零开始，直接在 (Instruction, Response) 对上进行训练。

训练目标：任务完成损失（Task-completion objective）

L = -log P(response | instruction)

即只在回答部分计算损失，指令部分只作为条件上下文。

PrefixLM 掩码：指令 token 之间允许双向注意力（bidirectional attention），而回答部分用因果掩码（causal attention）。这使得模型能在指令部分充分理解上下文，在回答部分确保自回归生成。

论文通过消融实验证明了这个组合的价值：

架构	训练目标	注意力	MMLU	ARC-C	GSM8K	MATH
Transformer 1B	P(x)	Causal	40.55	51.91	48.37	35.44
	P(xa\|xq)	Causal	47.72	62.88	69.75	47.04
	P(xa\|xq)	PrefixLM	53.15	74.32	75.06	48.36
HRM 1B	P(x)	Causal	43.68	60.24	66.19	44.32
	P(xa\|xq)	Causal	50.60	69.80	79.91	54.18
	P(xa\|xq)	PrefixLM	60.73	81.91	84.53	56.16

关键观察：

训练目标切换（从 P(x) 到 P(xa|xq)）带来大幅提升（+7~15% MMLU）
PrefixLM 在 Transformer 和 HRM 上都进一步大幅提升（+5~11% MMLU）
HRM + Task-completion + PrefixLM 的组合达到最优

与开源模型的全面对比

模型	架构	FLOPs (10²¹)	Tokens (T)	MMLU	ARC-C	GSM8K	MATH
HRM-Text 1B	Recurrent	1	0.06	60.7	81.9	84.5	56.2
Huginn 3.5B	Recurrent	127	0.8	31.4	38.2	34.6	12.6
Olmo3 7B	Dense	252	6	65.8	81.6	75.5	40.0
Llama 3.2 3B	Dense	162	9	58.0	69.1	77.7	48.0
Gemma 3 4B	Dense	96	4	59.6	56.2	38.4	24.2
Qwen 3.5 2B	Dense	432	36	64.5	81.0	53.0	34.2

HRM-Text 1B 以 不到 1/400 的计算量 和 不到 1/600 的训练数据，在 MMLU/ARC-C/GSM8K/MATH 上全面超过 Llama 3.2 3B 和 Gemma 3 4B，在 MMLU 上仅落后 Qwen 3.5 2B 约 4 个百分点。

有效深度分析

论文还深入分析了为什么 HRM 有效。通过一个巧妙的设计——计算每个 token 在不同递归深度下的表示变化率——他们发现：

标准 Transformer 的有效深度接近物理层数（随层数增加，表示变化线性减少）
Looped Transformer 的有效深度有限（循环 4 次但有效深度不到 2 层）
HRM 的有效深度显著高于物理层数（4 次递归对应远超过 4 层的有效深度）

这解释了为什么 HRM 能在相同 FLOPs 下胜出：递归带来的隐式计算深度（latent computation depth）比堆叠更多物理层更高效。

训练细节：开源数据集 + 严格去污染

论文在训练数据上保持了完全开源：

类型	数据集	Token 量
通用指令	FLAN, Tasksource, NoRobots	138.7B
改写维基百科知识	SYNTH	21.7B
数学与推理	Platypus, OpenMathInstruct2, OmniMATH 等	6.8B
符号任务	DMMath, AMPS, Sudoku-Extreme	6.2B
思考链推理	AceReason, OpenThoughts2	2.4B

总共 176.5B token 的候选语料，最后通过 每数据集的采样上限 控制为约 40B 唯一 token。

论文做了严格的数据污染分析，以 DROP 为例：干净子集准确率 81.1%，污染子集 85.5%，差距 4.4 个百分点，在合理范围内。但论文坦承残余污染可能仍存在。

训练配置：Adam-atan2 优化器，lr 2.2×10⁻⁴，batch size 196,608 tokens，FP8 混合精度训练，单次连续运行（无中间 checkpoint、无崩溃恢复、无 loss spike 跳过）。

讨论和局限

论文并非没有局限，作者自己也坦诚指出几条：

知识覆盖有限：训练数据仅 40B token，很多领域知识模型没有见过。论文将此定位为”把知识和推理能力部分解耦”的探索。
未使用自适应计算：HRM 原本有自适应计算模块（简单的题可提前终止），为简化训练去掉了。加上去可能进一步降低计算量。
Prefill 加载：PrefixLM 在推理时需要在 prefilling 阶段处理自定义注意力掩码，好在 vLLM 等框架支持。
Pollution 风险：部分预训练数据与被测基准来自同源数据集，尽管做了去污染分析，但不可能 100% 排除。

个人看法

这篇论文的价值不一定是”推翻了规模法则”——毕竟 60.7% MMLU 离一线模型还有距离。它的真正贡献在于提供了一个可验证的存在性证明（existence proof）：

“当训练成本降到 1500 美元、40B token，任何人都有可能独立验证和改进这项研究。”

当前大模型领域的一个隐忧是：预训练的门槛越来越高（数千亿 token、数万 GPU 小时），实际上只有大厂和超级实验室在做。如果 HRM-Text 的结论能被独立复现和扩展，那它打开的是一扇门——让研究机构、创业公司甚至个人研究者都能做预训练研究。

毕竟，一个 1B 模型用 40B token 训就达到 60% MMLU，那用 200B token 训一个 7B 版本呢？那个方向可能更有想象空间。

参考资料

论文：HRM-Text: Efficient Pretraining Beyond Scaling（arXiv:2605.20613，2026-05-20）
PDF：https://arxiv.org/pdf/2605.20613
作者：Wang, Guan, Liu, Changling, Wang, Chenyu, Zhou, Cai, Sun, Yuhao, Wu, Yifei, Zhen, Shuai, Scimeca, Luca, Yadkori, Yasin Abbasi
相关：HRM 原始论文（Wang et al., 2025）

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/ai/hrm-text-efficient-pretraining-beyond-scaling.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）