不要再把眼光局限于 GPU 芯片了
💡 文章信息:作者:Annelies Gamble (Partner @ Zetta) | 英文原文:点击阅读
💡 核心论点
- 绝大部分的 AI 投资者都陷入了对“英伟达 GPU 芯片出货量与算力”这一单一指标的盲目崇拜。
- 算力输出是一次极其庞大的系统合力,当前的木桶短板早已转移至高带宽内存(HBM)、芯片高速互联光模块与光交换机。
- 如果不解决芯片之间的网络互联延时以及高效热能排出,堆砌再多的 GPU 芯片也只会带来大量的算力内耗。
📑 严格逐字逐段翻译
人工智能机会
别再只谈论 GPU
几周前,我听了 Dwarkesh Patel 对黄仁勋的采访。这是一次很棒的采访,如果您还没有听过,我建议您听听。 Jensen 在其中表示,芯片端瓶颈将在两三年内得到解决。他更担心的瓶颈是能源,他特别表达了对水管工和电工短缺的担忧。
前一周,当我与 BEP Research 的创始人 Ben Pouladian 坐在一起时,我就想到了这一点。BEP Research 是一家独立研究机构,涵盖 GPU、内存、光学互连和数据中心电源作为一个融合系统。他的著作已成为对冲基金、资产管理者和构建堆栈的工程师的必读读物,并被从《华尔街日报》到卖方研究部门的各处引用。
目前大多数人工智能基础设施的讨论都与 GPU 相关。谁拥有它们以及谁可以获得它们。但 GPU 只是更为复杂的供应链中的一个组成部分,我不认为它们是最紧迫的限制。
“最大的限制是能源或电力,寻找供电土地,”本告诉我。 “然后,一旦找到供电土地,就可以找到人员和资金来帮助建设该数据中心。”
这是一个物理问题,而且比购买芯片更慢、操作更复杂。但如果人工智能的规模要接近当前资本支出承诺所暗示的规模,那么在其底层构建物理堆栈以及协调它的软件和硬件层就有巨大的机会。
瓶颈是一条链,而不是一个点
PJM 是覆盖大西洋中部 6700 万人的电网运营商,刚刚发布了一份关于需求增长和供应受限的报告,报告称“我们可能面临长达十年的结构性现实,需求增长将持续威胁到供应增长。”
GPU 短缺是故事的一个重要部分,但并不是故事的全部。人工智能基础设施的上线是一个序列,而不是单个事件。因此,约束是单个阻塞点的想法过于简单化了堆栈的实际构建方式。
事实上,最后进入数据中心的东西之一是计算硬件。 “首先,你需要实际建造这个东西,并确保有动力并且它可以工作,”本说。
即使 GPU 到来,瓶颈也只会向内存架构更深一层移动。像高带宽内存和 KV 缓存这样的东西,可以在工作内存门中推断出每瓦特可以提取多少智能。内存带宽匮乏的 GPU 会消耗全部功率,但只提供一小部分输出。因此,限制还在于一旦芯片进入数据中心后,如何将正确的内存安装到芯片上。
向后看,这意味着您需要软件编排、机架、芯片、冷却和电气、建筑、社区验收、许可、电网互连、供电土地和电力。
每一层都有不同的生产时间表。正如本所说:“本季度芯片稀缺。这十年电力稀缺。”互连队列长达数年,电网容量已经面临电气化、电动汽车充电和制造业回流的压力。最重要的是,许可的速度很慢,并且在很大程度上取决于当地政治的速度。
然后是劳动力问题。商人需要几十年的时间来训练。 “这纯粹是体力、人力、蓝领劳动,”本说。 “你无法像 AWS 实例一样启动它。”这就是詹森所说的水管工和电工是目前最具挑战性的瓶颈时的意思。
制造智能化
Ben 一直使用“人工智能工厂”和“代币工厂”这两个词,借用了黄仁勋在描述下一代数据中心时多次使用的框架。
传统数据中心托管软件;他们存储数据并运行企业工作负载。 AI数据中心是生产工厂;他们将能源和数据转化为代币。 “现代工厂不生产金属,”本说。 “它正在创造情报。”
尽管产出是代币而不是零件,但生产系统的问题与任何工厂都是一样的:吞吐量、产量、能源效率、利用率、预测性维护。输出单位是每瓦特代币或每美元资本支出代币等指标。这些是财务指标。现在,每一瓦的电力和每一美元的资本支出都附有以代币计价的收益率。随着推理工作负载的增长速度快于训练工作负载的增长,这些问题变得更加尖锐。
将瓦特高效转化为智能的需求变得更加迫切。
这决定了下一步需要创造什么样的机会。传统工厂催生了全新的软件和硬件类别。人工智能工厂将需要等价物,但需要以代币作为输出。这些几乎还不存在。
机会就在眼前
生产系统很复杂,各层之间的协调大多是手动或不透明的。除此之外,还存在严重的劳动力短缺。凡是协调分散、缓慢或昂贵的地方,就有新公司的发展空间。软件、硬件以及介于两者之间的一切。
从堆栈的底部开始,需要找到可行的供电土地。一旦找到,采购过程往往会很痛苦。 Tapestry 是从 Alphabet 的 X 登月工厂衍生出来的,它本质上是在为网格构建谷歌地图。它是一个知识图,可以帮助开发人员和公用事业公司以比现在更高的速度和分辨率进行操作。
顺便说一句,有人试图通过将数据中心转移到太空来完全摆脱这些限制。谷歌的 Project Suncatcher 和最近的 SpaceX 会谈是最引人注目的。他们回避了一些问题(土地、电网互连),但不是全部。大多数报道都集中在发射成本上,在大规模可行之前,发射成本需要下降一个数量级。但更严格的约束是热约束。在真空中,没有空气可以带走热量(你只能辐射热量),而物理才是真正控制架构的因素。
一旦你有了土地供电,工厂本身就需要建造和运营。这就是 Jensen 在谈论水管工和电工时所指的层。安排商人、现场排序交易、管理交货时间仍然是非常手动的过程。正如我之前提到的,以及我之前写过的,例如在我与 Formic 创始人 Saman Farid 的谈话中,我们面临着严重的劳动力短缺。培训商人需要几十年的时间。我们没有几十年的时间。有机会利用机器人技术来完成人类历史上所做的大量手工工作。像沃特尼机器人公司这样的公司就是我在这里感到非常兴奋的公司类型的例子。
Crusoe 是垂直整合的人工智能工厂公司的一个例子。他们自己获取能源,构建自己的模块化数据中心,在自己的设施中制造它们,并在顶部运行云层。堆栈的每一层(电力、建筑围护结构、冷却、硬件、软件)都是他们正在构建或协调的。
一旦工厂投入运行,电力输送就很重要,因为每一瓦特都很重要。路由到冷却的电源是未路由到计算的电源。随着功率成为约束因素,就有机会实时优化热和电包络线。
在芯片之上,编排层也同样早期。 GPU 在其生命周期中的一段有意义的时间里闲置着。 AMP 是一家隶属于 Alphabet 的公益公司,正在汇集独立人工智能实验室的计算,以确保整个领域的利用顺利。因此,当一个实验室处于训练运行而另一个实验室处于部署模式时,总需求曲线比任何单独的工作负载都要平滑得多。
在编排层之上是财务层。计算正在成为这十年来最重要的商品。就像石油一样,我们需要市场基础设施来为计算买家和卖家提供一个流动的市场进行交易。这意味着我们需要 GPU 定价、对冲和融资工具。正如我在这里所写的,计算最终将成为一个流动性更强的市场,容量是按需采购的,而不是主要通过长期双边合同来采购。 Ornn 是一家在这个领域建立的公司,我对此感到很兴奋。
“围绕电力的投资面很深,”本说,“其上层几乎完全是绿地。”
为什么这很重要
这种扩建明年不会停止。 “我们花了 15 年时间构建常规数据中心,并使用 CPU 来运行常规网站,”Ben 说。 “这不是一回事。”
该堆栈更加物理化,跨层耦合更加紧密,并且围绕生成某些内容而不是托管它而构建。上一代最重要的一些公司是在云建设期间诞生的。下一代正在建设中。
机会存在于电力和计算之间、建设和资本之间、瓦特和代币之间的接缝处。
作者注:法学硕士仅用于轻型副本编辑(拼写、语法和清晰度)。内容、意义、语气和结构保持不变。
关于这篇文章的讨论
我订阅了你!这真的很有洞察力,我很高兴知道你的作品非常鼓舞人心。
我是一名研究顾问,正在撰写技术领域的业务分析。感谢分享这一伟大的见解!我会一直关注你的!
很高兴与您交谈!
没有帖子
准备好了解更多了吗?
📌 核心金句与关键指标
[!NOTE]
““如果不能彻底解决高带宽内存(HBM)的供给短缺与高难度芯片封装物理学的瓶颈,盲目购买更多的 GPU 只不过是在给昂贵的‘空闲硅片’买单。””
🎯 行业启示与落地建议
- 芯片外的物理系统工程优化(如高吞吐光模块、芯片间光纤路由、数据中心微电网)是捕获高价值溢价的新蓝海。
- 建议密切寻找在光子芯片传输、硅光技术以及特种材料机房冷却领域拥有深厚专利壁垒的早期硬科技初创企业。