返回首页
2026.03.09 03:13 约 7 分钟 AI

每焦耳的智能

每焦耳的智能

标题:每焦耳智能

每焦耳智能:利润、模型与熔毁的机器。作者:Akshay Mehra。发布日期:2024年3月4日。

人工智能已将软件重新拉回物理世界。我们几乎每天都被资本支出扩张的头条新闻所冲击,各公司似乎以极度的热情和狂热相互攀比。这场竞赛的本质是,对落后的恐惧远大于对犯错的恐惧。旁观者分列两端;有些人——像我一样——倾向于抓住眼前这个时代性的机遇,而另一些人则对投入的巨额资金感到困惑,宣称我们正身处“非理性繁荣”的时代。

无论你站在哪一边,都难以忽视我们生活的现实。像人工智能这样的平台变革很少出现;互联网的诞生、移动设备的普及以及向云计算的迁移是仅有的类似变革。

但创新与进步不会毫无代价地降临。随着时间的推移,越来越清楚的是,实现事物最大潜力的主要瓶颈之一,是获取充足的电力与实现电气化。随着人工智能主导的公司开始重视能源认知,物理学将在利润等式中扮演关键角色。这将把我们带入一个电力获取被武器化的世界,廉价的智能有可能重塑地缘政治。

底层之下的堆栈

在探讨为何解决能源效率问题至关重要之前,先剖析一下构成人工智能基础设施的各个组成部分会有所帮助:

  1. 最底层是运行人工智能模型的处理器。GPU和加速器定义了系统的原始计算吞吐量,这一层为后续所有环节设定了基准。英伟达和AMD等常见厂商属于此类。
  2. 在数据中心机架之间,必须有一个紧密的机制来集中管理芯片间的通信流。高速网络使数千个芯片能够作为一台逻辑机器运行。随着规模扩大,这一层变得至关重要,因为低效的通信会使计算芯片变成闲置的硅片。Arista Networks是这一领域的黄金标准。
  3. 我们进一步深入到冷却和电源管理。随着计算密度增加,热管理变得不可避免。芯片消耗的电力直接转化为热量,冷却系统必须足够快地移除这些热量,以保持硬件在安全范围内运行。冷却吞吐量越来越决定每个设施能部署多少GPU。我们本质上是在投入数十亿美元来防止机器熔化。Vertiv Holdings是专注于这一领域的公司代表。
  4. 高带宽内存和存储与计算并列,是另一个关键约束。这一环节已成为核心瓶颈,最近频频登上头条(并影响股价)。SK海力士、三星、美光和闪迪是该领域最大的公司。人工智能系统越来越依赖高带宽内存来保持上下文,并以所需的速度为加速器提供数据。当内存带宽落后于计算能力时,芯片的潜力就无法充分发挥。
  5. 电气化构成了系统的外部边界。如果无法向站点输送足够的电力,再多的资本或芯片都毫无意义。电网接入、输电能力和发电可用性越来越决定着数据中心的选址和扩张速度。在许多地区,电力可用性已成为限制因素,而非土地、资本或硬件供应。Oklo是这一领域一家有趣的公司,它使用模块化裂变反应堆来产生清洁电力。
  6. 云平台将不稳定的物理基础设施转化为对用户而言稳定且具有弹性的服务。它们隐藏了复杂性,以简单单位对计算进行定价,并负责底层的利用率、电力波动和可靠性。谷歌和亚马逊AWS等家喻户晓的名字属于此类。

虽然价值在整个堆栈中积累,但最关键的交互发生在冷却、电源管理、电气化以及位于其上的抽象层周围。对计算的需求持续上升,但满足这种需求的能力将越来越取决于能源转化为可用智能的效率。

推理游戏

电气化为何仍然至关重要,其理由通过推理经济学的视角能得到更好的解释。回顾过去,CPU时代有其独特特征,无论好坏,这些特征在今天已被摒弃。当我们思考以GPU为主导的未来时,其利润结构和扩展瓶颈与过去形成了鲜明对比。CPU遵循摩尔定律扩展,能源成本相对于创造的边际价值微乎其微。相比之下,今天的GPU则不同,电力可用性、电网接入和负载平衡决定了利润和经济可行性。一个人的优势将开始更少地由模型质量决定,而更多地由每单位能源提供的智能决定,或者如本文所建议的,由“每焦耳智能”决定。

这里的另一个变量是,训练数据的经济学与推理不同。训练是可预测的,而推理则是突发性的、间歇性的(对于在座的音乐家来说,就像持续音和断奏的区别——同一乐器,不同的能量特征)。由于这种波动性,物理学开始限制规模,因为GPU是固定成本,而推理经济学与之并不完全匹配。更重要的是,在训练模型时,超额配置GPU是明智的策略,但在考虑推理时却可能摧毁利润。这指向一个未来,即用于计算的电力、冷却、电力转换损耗、电网需求费用等,都将在最终结果中扮演更重要的角色。甚至10-20%的能源效率提升,可能比10-20%的模型改进更重要。

这就是为什么能源效率计算将驱动我们的未来,而要想成为世界上最具影响力的公司群体之一,科技企业将不得不重新审视其策略,并进一步深入物理世界,拥有和运营更多实体资产。

亚马逊与埃克森美孚的结合

这个小标题可能会让你感到困惑,但我相信,最大的价值将积累到那些控制能源、计算和抽象层的公司手中。几乎像是亚马逊和埃克森美孚的结合体。

如前所述,人工智能的利润将开始迫使计算提供商内化冷却、能源和电网约束。我们以前见过类似的故事。在云时代,像亚马逊这样的超大规模企业推出了网络服务,其前提是为客户抽象掉复杂性,让他们永远不必考虑数据中心设计、定制网络或存储访问。“云即服务”成为常态,同样,未来的赢家将提供“推理即服务”(亚马逊在这方面已经领先——其托管推理平台Bedrock现在已是价值数十亿美元的业务)。展望未来,像英伟达、AMD、CoreWeave这样的领先计算公司将向下游移动,并优先考虑电力获取。他们将——或许已经——采取的一些行动包括:

  • 长期电力购买协议将成为常态,这将使计算提供商能够以固定价格获得长达15-20年的可再生能源。
  • 直接收购或投资发电资产。这超越了PPA,例如微软重启三哩岛的交易、亚马逊的核能投资以及谷歌与Kairos Power的协议。
  • 除了热管理和冷却创新,负载整形以及将推理路由到“最高”电力节点将至关重要。这就像能源领域的谷歌地图,将工作负载路由到最不拥堵的地方。
  • 在某些情况下,与其从电网取电,不如将设施建在发电厂、水电站大坝或太阳能农场旁边,以消除输电损耗并确保专用容量。

一个更激进且最近被热议的方法是,在太空中建造数据中心的概念。我最初感到困惑(想象服务器机架在太空中飞行并不容易消化),并且我确信执行风险很大,但从概念上讲,这个想法确实有价值:太空近乎恒定的太阳能获取和辐射冷却,无需水或机械系统,解决了电力和热管理的挑战。当然,这一愿景也带来了自身的新约束:发射能力、轨道位置、太空碎片(凯斯勒综合征)以及卫星间带宽等。

Matt Levine的一个有趣旁注:埃隆确实在用他的火箭为他“烧钱的网站”提供资金;在过去,情况正好相反,埃隆用他从PayPal获得的收益资助了特斯拉。

并非所有都属于巨头

关于高资本支出、由物理世界定义的护城河以及与英伟达等万亿美元巨头比较的讨论,可能会给人一种印象,即未来的赢家已经遥遥领先。我不同意。我们仍处于早期阶段,随着创新者困境的显现——在位者过于沉迷于现有业务——早期公司仍有空间构建持久的事业。这是我们在过去每个周期都看到的故事,我看不出这次有什么不同。

我们可以从推理编排开始;那些为经济性和大规模交付而优化的中间件公司。中间件的巨大优势在于其跨模型运行的持久性,以及相对于基础模型层较低的资本密集度;我们以前在支付领域的Stripe、通信领域的Twilio以及最近的推理领域的Baseten身上看到过这种模式的成功。


原文来源:Amplify

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读