SRAM 芯片在 AI 世界卷土重来：GPU 之外的内存层级革命

HPCwire 近日发表分析文章指出，SRAM（静态随机存取存储器）芯片在 AI 推理和高性能计算场景中正重新获得关注。在一个被 GPU 和 HBM 统治的时代，这种”老技术”的复兴，揭示了 AI 硬件格局正在发生的结构性变化。

SRAM 是什么

SRAM（Static Random-Access Memory）是一种不需要周期性刷新就能保持数据的存储技术。与 DRAM（需要不断刷新）相比，它的特点：

过去数十年，SRAM 的”领地”一直稳定在 CPU 的 L1/L2/L3 缓存和 GPU 的内部寄存器中。DRAM 和 HBM 则包揽了更大容量、更低成本的内存需求。

AI 推理负载给内存系统带来了一些独特的需求，SRAM 在这些方面有天然优势：

1. 推理的瓶颈不在算力，在带宽

训练阶段需要巨大的算力，但推理阶段（尤其是低延迟推理）真正的瓶颈是内存带宽——把模型参数从内存搬到计算单元的速度。

SRAM 的超低延迟（低至 1ns）意味着它可以将数据以接近计算单元的速度送到。对于需要实时响应的 AI 应用来说，这比 HBM 的更高带宽更重要。

2. 存内计算（Compute-in-Memory）的兴起

SRAM 阵列可以自然地执行向量-矩阵乘法——这是神经网络推理的核心运算。通过在 SRAM 单元内直接进行计算，而不用把数据搬到专用的计算单元，可以大幅降低功耗和延迟。

这被称为”SRAM-based Compute-in-Memory”（SRAM-CIM），是近两年学术界和工业界都非常活跃的方向。

3. 端侧推理对能效的极致要求

对于需要部署在端侧的 AI 模型（手机、IoT、游戏设备），能效比（performance per watt）比峰值算力更重要。SRAM 的低静态功耗使其在端侧推理场景中比 HBM/DRAM 更有竞争力。

这则新闻说的”SRAM 领先”，本质上是在说 AI 计算需要更丰富的内存层级，而不是只靠 HBM 一条路：

SRAM 最近被”重估”的关键驱动力是：AI 推理需要在这几个层级之间找到更优的平衡，而不是简单地堆 HBM 容量。

NVIDIA 已经在 Blackwell 架构中大幅增加了 LLC（L2 缓存，基于 SRAM）的容量——从 Hopper 的 50MB 增加到约 100MB 级别。更大的片上 SRAM 意味着更多的模型参数可以留在离计算单元最近的地方。

同时，多个初创公司和研究团队正在探索SRAM-CIM 的具体实现：

这些方案在特定场景下（尤其是低精度推理）可以达到 10-100 倍 的能效提升。

SRAM 的复兴不是一个孤立的技术事件。它是 AI 硬件生态从”唯 GPU 论”走向多样化的一个缩影：

对于一个行业的健康度来说，不在单一技术上押注全部，而是根据负载特性选择最优方案——这是成熟的标志。

参考资料