人工智能下一个万亿美元前沿:记忆
限制因素不再是芯片能执行多少运算,而是数据在这些计算单元之间传输的速度——以及这样做的能耗有多高。
在大多数现代计算中,性能随计算能力而提升。
我们从以 CPU 为主的系统转向 GPU 加速。我们优化了算术吞吐量。我们统计浮点运算次数(FLOPs)。我们构建更大的集群,并假定瓶颈仍然是数学运算。
那个时代正在结束。
人工智能系统正从受限于计算转向受限于内存。 限制因素不再是芯片能执行多少次运算,而是数据多快能在这些计算单元之间传输——以及这样做需要消耗多少能量。
最近的 SemiAnalysis 工作已将这一点明确指出。即便原始硅片相当,仅凭基于机架的架构就能根据拓扑和耦合情况将有效带宽驱动出约 9 倍的差异 。性能越来越取决于我们移动数据的能力,而不仅仅是计算能力。
Nvidia 首席执行官 Jensen Huang 直言不讳地说:“没有 HBM 内存,就没有 AI 超级计算机。”

这不是芯片的问题。
这是内存的问题。
HBM 的科学——及其局限
高带宽内存的出现,是因为传统 DRAM 无法跟上加速器的速度。
DRAM 是一种高密度、成本高效的内存技术,通过电容存储数据并需要定期刷新,因而非常适合用于像 AI GPU 中的 HBM 这样的大容量系统。
SRAM 是一种基于触发器的低延迟内存技术,不需要刷新,速度显著快于 DRAM,但密度较低且成本更高,因此最适合用于片上缓存和靠近计算的缓冲区。

通过将 DRAM 芯片垂直堆叠并使用硅穿通通孔(TSV),并大幅拓宽数据总线,HBM 在提高总带宽的同时降低了每比特传输的能耗。它以宽度换频率,以接近度换距离。
没有高带宽内存,现代人工智能系统将会停滞。
但 HBM 是对一种结构性限制的渐进性解决方案。
随着 GPU 从数十亿参数扩展到数千亿参数——并从单节点系统发展到机架级集成——每瓦带宽的压力不断加剧。计算速度提升的同时,数据传输在系统级能耗中所占比重日益增加。
内存墙并未消失。
它只是被推延了。
制约因素正在叠加
三大瓶颈正在汇聚。
-
带宽密度。 即便使用 HBM,大型模型也会让内存通道饱和。更多的堆叠意味着更复杂的封装和更严格的良率约束。
-
每比特能耗。 在大规模下,移动数据往往比在其上计算消耗更多能量。在密集的机架环境中,这会成为热限制。
-
系统集成。 性能差距现在来自拓扑结构、互连和内存耦合——而不仅仅是晶体管数量。
SemiAnalysis 显示,最近几代系统在某些配置下为推理带来了 10 倍以上的性价比提升。这些收益加速了部署。 它们并不能缓解内存压力。它们只会放大它。

两年间,Transformer 规模增长了 240 倍,而 HBM 在两年内仅增长 2 倍。 计算规模的扩大增加了内存压力。
我们推进 AI 越快,碰到的阻力就越大。
为什么这很难
重新发明内存很困难,因为物理在反作用。更高的带宽会削弱信号完整性,堆栈式架构会加剧热密度,且每比特能耗随距离增加——与此同时,封装复杂性侵蚀良率。
存储必须同时在密度、带宽、延迟、能耗、可制造性和成本之间取得最优平衡。某一方面的改进往往会导致另一面恶化。
这就是大多数“更好 DRAM”尝试失败的原因。
门槛不是新颖性。
而是物理学、良率和生态兼容性的综合。
内存稀缺并非偶然。
这已不再是理论上的问题。
在人工智能需求推动下,64GB DDR5 的价格在不到两个月内从约 150 美元飙升至 500 美元。业内讨论已指出,直到 2025 年底,DRAM 合约价格可能上涨约 25–30%。HBM 的产能仍然紧张且高度集中。
“多买 GPU”不再是唯一的扩展瓶颈。
内存价格和供应正成为战略变量。三星、SK 海力士和美光这三家供应商控制了全球约 95%的 DRAM 产量。随着人工智能需求的爆发性增长,它们在理性地将晶圆产能重新分配到利润极高的 HBM 上,而 HBM 在每 GB 的制造上比普通 DDR 消耗更多的先进工艺步骤和显著更多的封装复杂性。
激励很明确:将稀缺产能优先用于利润率最高的产品,保持其他领域供给紧张,让定价随之而动。
在那个世界里,记忆的稀缺不是偶然。
它是一种均衡。

英伟达的 HBM 对冲策略

在这种背景下,NVIDIA 以 200 亿美元收购 Groq 就说得通了。Groq 的论文并非追求更快的算术运算,而是减少对片外存储器的依赖。通过将更多工作集保存在片上 SRAM 并围绕局部性设计编译器,Groq 降低了对带宽需求巨大的外部 DRAM 和 HBM 的依赖。
SRAM 限制多且成本高。只有在整个堆栈——硬件与编译器——共同协同设计时,这一优势才会显现。
问题就在于此。
Nvidia 实际上为推理路径锁定了一条对 HBM 要求更低的路线——这是对未来内存供应和定价将决定谁能扩大推理规模的一个对冲。
扭转内存曲线
除了试图减少对 HBM 的依赖之外,几种严肃的方法正在尝试扭转内存曲线:
-
HBM4 与更智能的基础层: 下一代 HBM 使用更宽的互连,并在内存堆栈底部增加逻辑,使内存从被动存储变得更可编程。它们扩展了现有架构,但在本质上仍受堆叠热管理、封装良率和 DRAM 缩放极限的制约。
-
更好的 3D 堆叠技术: 新的粘接方法使存储芯片能够更紧密地堆叠并更高效地互连,在不让功耗和热量失控的情况下提升带宽。更紧密的堆叠提高了密度,但散热、机械应力和制造良率在规模化时变得呈指数级更难处理。
-
在存储内做小规模计算: 一些设计不再频繁地来回移动数据,而是在存储堆栈内部直接执行有限的运算以减少不必要的流量。它在特定工作负载上减少了数据移动,但将通用 AI 模型整洁地映射到受限的内存内计算单元上很困难。
-
更智能地划分快慢存储: 只把最“热”的数据保留在超高速 HBM 中,把其它数据推到更大、更慢的存储池,这样昂贵的带宽不会被浪费。分层能提高利用率,但并不能消除系统核心对大规模高带宽内存的需求。
-
用光学取代部分铜连接: 随着电线在高速下功耗过大,光学连接可以在更长距离上以更低能耗传输数据。光学技术在横向扩展边界上有帮助,但它并不能解决封装内部那种短距离高密度带宽和功耗的限制。
-
解决封装瓶颈: 如今许多内存限制源自芯片的物理连接与散热方式,而非存储单元本身。先进的基板拓展了布线密度,但它们仍然复杂、良率敏感,且依赖于集中的制造能力。
-
围绕内存限制设计软件: 编译器和系统软件可以通过调度任务和压缩数据来减少芯片访问片外内存的频次。更智能的编译器能降低通信流量,但无法克服将比特移动到片外的基本物理代价。
所有这些方法都在应对同一个限制:大规模下的能量和带宽。 它们围绕该限制进行优化,但尚未消除它。
打造下一家伟大的存储公司
下一家伟大的高带宽内存(HBM)公司不会靠略微更好取胜。
它将通过改变系统级吞吐量来取胜。
超级规模云厂商不购买内存芯片,他们购买的是机架级的性能。如果一种新架构在集群规模上并不能实质性提升每瓦处理的标记数(tokens-per-watt),它将被现有路线图所吞并。
要有影响,下一代 HBM 架构必须:
-
在每瓦带宽上实现跨越式提升。
-
提升机架级吞吐量,而非仅仅优化孤立的内存基准测试。
-
能够与现有加速器和封装生态系统无缝集成。
-
在实际产量和热约束下扩展规模。
-
提供能随代际积累优势的路线图深度。
任何不及此的进展都只是渐进式的。
前沿正在转移
在现代人工智能的第一个十年里,进展受制于算法。
如今,瓶颈在于数据移动和能耗。
当机架拓扑结构能够在有效带宽上造成约9倍的差异,而每美元性能可在代际之间提升10倍时,显然系统级集成——而非原始硅片——成为了竞争前沿。
内存现在处于这一前沿的中心。
HBM 曾经重塑了加速器设计的界限。下一次突破也将如此。
如果你正在构建一种能显著改变每瓦带宽的下一代内存架构——或正在为此类公司投资——我们应当聊一聊。
前沿已不再仅仅是软件,而是物理学。
下一家伟大的 AI 基础设施公司将在那里崛起。