SRAM 芯片在 AI 世界卷土重来:GPU 之外的内存层级革命

2026/06/18 dev SRAM · AI · 内存 · 芯片 · 推理 · 存内计算 · 硬件 · HPC 1596 字 · 约 5 分钟 阅读 ...
HPCwire 报道 SRAM 芯片在 AI 推理和高性能计算中正重新获得关注。当 AI 计算从训练转向推理,内存层级的设计比原始算力更重要。SRAM 的速度优势、能效优势和存内计算潜力正在让它成为 GPU 和 ASIC 之外的关键基础设施。

HPCwire 近日发表分析文章指出,SRAM(静态随机存取存储器)芯片在 AI 推理和高性能计算场景中正重新获得关注。在一个被 GPU 和 HBM 统治的时代,这种”老技术”的复兴,揭示了 AI 硬件格局正在发生的结构性变化。


SRAM 是什么

SRAM(Static Random-Access Memory)是一种不需要周期性刷新就能保持数据的存储技术。与 DRAM(需要不断刷新)相比,它的特点:

特性SRAMDRAM
速度极快(1-10ns)较快(10-50ns)
功耗低(静态功耗低)较高(需要刷新)
密度低(1 bit 需要 6 个晶体管)高(1 bit 需要 1 个晶体管 + 电容)
成本
用途CPU 缓存、GPU 寄存器主内存、显存

过去数十年,SRAM 的”领地”一直稳定在 CPU 的 L1/L2/L3 缓存和 GPU 的内部寄存器中。DRAM 和 HBM 则包揽了更大容量、更低成本的内存需求。


为什么 SRAM 在 AI 时代被重估

AI 推理负载给内存系统带来了一些独特的需求,SRAM 在这些方面有天然优势:

1. 推理的瓶颈不在算力,在带宽

训练阶段需要巨大的算力,但推理阶段(尤其是低延迟推理)真正的瓶颈是内存带宽——把模型参数从内存搬到计算单元的速度。

SRAM 的超低延迟(低至 1ns)意味着它可以将数据以接近计算单元的速度送到。对于需要实时响应的 AI 应用来说,这比 HBM 的更高带宽更重要。

2. 存内计算(Compute-in-Memory)的兴起

SRAM 阵列可以自然地执行向量-矩阵乘法——这是神经网络推理的核心运算。通过在 SRAM 单元内直接进行计算,而不用把数据搬到专用的计算单元,可以大幅降低功耗和延迟。

这被称为”SRAM-based Compute-in-Memory”(SRAM-CIM),是近两年学术界和工业界都非常活跃的方向。

3. 端侧推理对能效的极致要求

对于需要部署在端侧的 AI 模型(手机、IoT、游戏设备),能效比(performance per watt)比峰值算力更重要。SRAM 的低静态功耗使其在端侧推理场景中比 HBM/DRAM 更有竞争力。


当前 AI 内存层级全景

这则新闻说的”SRAM 领先”,本质上是在说 AI 计算需要更丰富的内存层级,而不是只靠 HBM 一条路:

层级技术容量延迟用途
L1/L2 缓存SRAMKB~MB~1ns最频繁访问的数据
LLC(末级缓存)SRAMMB~十 MB~10ns所有核心共享数据
HBM(高带宽内存)DRAM 堆叠GB~十 GB~100nsGPU 显存、模型参数
DDR DRAMDRAM十~百 GB~100ns系统主内存
SSDNAND FlashTB~μs持久化存储

SRAM 最近被”重估”的关键驱动力是:AI 推理需要在这几个层级之间找到更优的平衡,而不是简单地堆 HBM 容量。


行业动态

NVIDIA 已经在 Blackwell 架构中大幅增加了 LLC(L2 缓存,基于 SRAM)的容量——从 Hopper 的 50MB 增加到约 100MB 级别。更大的片上 SRAM 意味着更多的模型参数可以留在离计算单元最近的地方。

同时,多个初创公司和研究团队正在探索SRAM-CIM 的具体实现:

  • 用 SRAM 阵列直接做矩阵乘法
  • 把神经网络权重存储在 SRAM 中
  • 在数据”睡着”的地方进行计算,而不是搬来搬去

这些方案在特定场景下(尤其是低精度推理)可以达到 10-100 倍 的能效提升。


更大的图景

SRAM 的复兴不是一个孤立的技术事件。它是 AI 硬件生态从”唯 GPU 论”走向多样化的一个缩影:

  • GPU 主导训练(大规模并行矩阵乘法)
  • ASIC 填补推理市场(TPU、NPU 等)
  • 存内计算 在能效敏感场景寻求突破
  • SRAM 在存储层级优化中找到新的战略位置

对于一个行业的健康度来说,不在单一技术上押注全部,而是根据负载特性选择最优方案——这是成熟的标志。


参考资料

  • HPCwire:SRAM Chips Leading in New AI World(2026 年 6 月)
  • 注:原文当前受限,以上分析基于公开技术背景 + HPC/AI 硬件趋势整理

文档信息