激光、核能与扩展壁垒——为何最大的数据中心无法获胜

本文信息来源：Fika Ventures

让我告诉你人类为了维持 AI 运转而尝试的最疯狂的方式：

一家名为 Maxwell Labs 的初创公司正在使用激光冷却 GPU 热点——这些区域的功率密度比核反应堆堆芯还要高。 微软正在重启三里岛 ——美国最严重核事故的发生地——以为数据中心供电。亚马逊、谷歌和 Meta 都已签署核能协议。一家名为 Starcloud 的 YC 公司正在发射搭载比以往太空运行功率强 100 倍 GPU 的卫星，押注轨道太阳能和太空真空环境能够解决我们的冷却问题。中国刚刚在海南沿海投入 2.26 亿美元建设水下数据中心。

这不是科幻小说；这正在真实发生，因为我们已经撞上了一堵 AI 炒作周期中无人愿意谈论的墙：AI 的制约因素不再是算法，而是原子。

瓶颈在于电力、冷却和物理基础设施。虽然所有人都在竞相建造更大的数据中心，但我越深入研究，就越怀疑这场基础设施军备竞赛是否在解决过时的问题。我不断观察到的模式表明，真正的赢家将是那些能够用更少资源做更多事情的公司。

问题的规模

这些数字确实令人震惊。在美国的数据中心之都弗吉尼亚州，25%的电力已经被数据中心消耗。预计到 2028 年，数据中心将消耗全国 12%的电力需求，而 2023 年这一比例仅为 4%。据传 OpenAI 的”星门”项目将需要 5 吉瓦的电力，大约相当于 5 座核反应堆的输出功率，而这仅仅是单个设施的需求。

以下这部分没有得到足够关注：数据中心高达40%的电力消耗用于冷却。没错，冷却。不是计算。不是存储。仅仅是防止珍贵的芯片熔化。这个用电量相当于加州的全部电力消耗，都花在了给计算机吹空调上。真是冷飕飕……

兰德公司预测，到 2027 年，AI 数据中心可能需要 68 吉瓦的电力容量，接近加州的总电力容量。在关键地区，电网接入申请正面临 4-7 年的积压。我们不仅芯片短缺，连插电的地方都不够了。

科幻般的解决方案

但这才是真正疯狂的地方。业界对这些限制的应对方式读起来就像尼尔·斯蒂芬森的小说：

光子冷却（激光！）：Maxwell Labs 与桑迪亚国家实验室合作，正在开发一种使用激光通过”反斯托克斯荧光”冷却芯片热点的技术，有效地将热量直接转换为光。他们声称可以将芯片温度维持在 50 摄氏度以下，而目前的芯片温度高达 90-120 摄氏度。这些光随后可以被回收并转换回电能。他们的目标是在 2027 年之前部署到 AI 训练集群中
核能复兴： 微软与星座能源签署了一项为期 20 年的协议，重启三里岛 1 号反应堆。谷歌投资了 Kairos Power 的小型模块化反应堆。亚马逊达成了三项独立的核能协议。Meta 刚刚签署了一项协议，从伊利诺伊州的一座反应堆获得 1.1 吉瓦电力。业界认为，到 2035 年，核能可以满足数据中心 10%的电力需求
太空数据中心：Starcloud（前身为 Lumen Orbit）正在将搭载英伟达 GPU 的卫星发射到近地轨道，他们认为无限的太阳能和被动辐射冷却使轨道计算在 10 年期间的成本降低 20 倍。他们的首颗演示卫星计划于 2025 年底发射。他们已筹集 2100 万美元，并获得了太空 H100 算力时间的意向书
水下数据中心： 微软的 Natick 项目证明，水下服务器的可靠性是陆地服务器的 8 倍，密封的充氮环境消除了大多数故障模式。虽然微软已转向其他方向，但中国目前在海南运营着一个商业水下集群，每秒处理 7000 次 AI 推理查询，95%由海上风电供能
液冷技术成为主流：2025 年是液冷技术从前沿科技转变为基准配置的一年。谷歌的液冷 TPU 集群实现了计算密度 4 倍的提升。Colovore 为液冷基础设施筹集了 9.25 亿美元债务融资。这不再是实验性的，而是基本要求。

我发现这一切都非常迷人，但这也是让我对”只需建造更多基础设施”这一论点持怀疑态度的原因……

我在学习机器学习时学到的（以及我现在看到的）

回想我在学校的时候，扩展定律就像福音一样。用更多算力在更多数据上训练更大的模型，就能获得更好的结果。这简单得几乎令人尴尬，但确实有效。我们从 GPT-2 到 GPT-3 再到 GPT-4 看到的飞跃，似乎验证了原始规模才是最重要的这一理论。

但现在，与在这些模型基础上构建产品的创始人合作时，我看到了不同的情况。在2024-2025年，回报开始递减。

GPT-4.5（又名 Orion）于 2025 年 2 月推出，到 8 月就悄然退役。批评者称其为”次品”，计算和成本的大幅增加仅带来了相比 GPT-4o 的微小改进。GPT-5 于 8 月发布，被描述为”渐进式而非革命性”。从 4 到 5 的跃升完全不像从 3 到 4 的跃升那样显著。

Ilya Sutskever，OpenAI 的联合创始人，也许是最能证明规模化有效的人，现在却说”我们所知的预训练将会终结”。2025 年 11 月，他宣称我们不再处于”规模化时代”，而是回到了”惊奇与发现的时代”。这个论点认为计算在增长，但我们已经触及了”数据峰值”。我们基本上已经抓取了整个互联网。

与此同时，看看太平洋另一边正在发生什么

DeepSeek 的信号

DeepSeek 是一家中国 AI 实验室，应该让所有押注于”规模就是一切”论点的人感到恐惧。这就是我为什么在对话中不断提起它的原因。

由于美国的出口限制，他们无法获得 NVIDIA 的 H100 GPU——他们只能使用性能较弱的 H800。他们没有 OpenAI、Google 和 Anthropic 所拥有的资本。按照规模战争的传统智慧，他们本应远远落后。

然而，他们训练出了 DeepSeek V3，这是一个在大多数基准测试中与 GPT-4o 持平或超越的模型，成本仅约 500-600 万美元和 278.8 万 GPU 小时。相比之下，Llama 3.1 需要 3080 万 GPU 小时。据报道，OpenAI 在训练 GPT-4 上花费了超过 1 亿美元。

如何做到？算法效率。他们的专家混合架构在总共 671B 参数中，每个 token 仅激活 37B 参数。他们率先采用了 FP8 混合精度训练，将内存使用量减少了 30%。他们专注于效率，因为他们别无选择，而事实证明，约束催生创新。

推理成本的差异更加显著。对于相同的工作负载，DeepSeek 的 API 成本大约比 GPT-4o 低 9-50 倍。一家初创公司每天运行 1000 万输入 token，使用 GPT-4o 需支付 25 美元/天，而使用 DeepSeek V3 仅需 1.40 美元/天。

这不是侥幸。这是一个信号，表明效率可以战胜规模 ——而向一个 5 吉瓦的数据中心投入 1000 亿美元，可能相当于 AI 领域的”我们以后再想盈利模式”。

这对创始人意味着什么

如果我是对的，如果这种模式持续下去，我们真正进入了一个算法效率比原始计算能力更重要的时代，那么对创业公司的影响将是深远的：

护城河不再是算力： 当每个人都能通过 API 访问前沿质量的模型（或者像 DeepSeek 这样的开源替代品）时，拥有更多 GPU 并不是一个持久的优势。护城河转向专有数据、领域专业知识以及应用层的高效推理。
微调胜过从零训练： 除非你是 OpenAI 或 Anthropic，否则我看不出你为什么要训练基础模型。经济账根本算不过来。真正有效的做法是：采用现有模型，通过微调、RLHF 和特定领域数据，使它们在你的特定用例中表现得显著更好。
推理成本才是真正的战场： 训练是一次性支出，推理则是持续性的。每次用户查询你的 AI 功能时，你都在为算力付费。那些能够以 10 倍更低的推理成本交付 AI 能力的公司，将在单位经济效益上拥有巨大优势。
不要假设你需要自己的 GPU 集群： 我们看到太多种子轮阶段的公司在他们并不真正需要的基础设施上烧钱。我之前写过的”Netflix 角色扮演 “问题在这里同样适用，仅仅因为英伟达的股价上涨并不意味着每个人都需要自己的 H100！不过我确实需要，所以欢迎联系我，英伟达。

我关注的方向

鉴于所有这些，以下是我关注的重点：

推理优化： 让推理变得更便宜、更快的公司对所有基于 AI 构建的公司都具有影响力。比如推测解码、更好的量化、智能缓存和模型蒸馏等技术。如果你能以 1/10 的计算成本提供相同的输出质量，你就会胜出。
具有专有数据护城河的垂直 AI： 如果基础模型商品化（我认为会），持久价值将流向那些拥有真正难以复制数据的公司。想想拥有纵向患者数据的医疗保健公司、拥有判例法+结果的法律科技公司、拥有交易模式的金融科技公司，以及我们投资组合中的 Ivo、Bikky、Siro 等众多公司。AI 是基本配置；数据才是护城河。
效率优先的基础设施： 不是那些建造千亿美元数据中心的公司，而是让现有基础设施发挥更大作用的公司。更好的编码、更智能的工作负载调度、碳感知计算。企业越来越多地将 AI 与采购和可持续发展承诺结合起来，所以这些东西现在确实能推动交易。超大规模云服务商会购买这些技术。谁会来构建它？
“小模型”革命： 想想 Phi、Mistral 以及更小的 Llama 变体，它们都证明在许多用例中，你可以用大约 1%的成本获得 GPT-4 质量的 80%。我看好那些找到如何为特定高价值应用部署和微调小模型的公司，在这些应用中，延迟和成本比基准分数更重要。

底线

别误会我的意思，这些创新基础设施确实很酷，我也相信其中一些投资会获得回报。数据中心采用核能可能是有意义的。液冷显然是未来的趋势。总有人会从这一切中赚到钱。

但我担心这个行业是在打上一场战争。”更大的模型 + 更多算力 = 更好的 AI”这一假设推动了过去 5 年的进步，但它可能无法推动未来 5 年的发展。当缩放时代的架构师 Illya Sutskever 说我们已经进入了一个研究和发现的新时代时，我恳请你们注意这一点。

星门项目在原始规模上投入的 1000 亿美元可能会被证明是明智之举，也可能成为 AI 领域的等价物——就像在电力普及之前建造世界上最大的蒸汽机一样。

我在等待那些内化了”效率正在吞噬规模”理念的创始人，那些痴迷于推理成本的人，那些围绕自己的数据构建专有护城河的人，以及将 AI 视为一项功能而非一种信仰的人。这些才是我们应该为之兴奋的公司。

智能爆炸确实是真实存在的，但制约因素并不在于谁建造了最大的数据中心。而在于谁能找到用更少资源做更多事情的方法，我怀疑真正的赢家会是一批与当前炒作周期所暗示的完全不同的玩家。

我就职于 Fika Ventures，在那里我与创始人合作制定技术战略，并协助投资组合公司应对此类决策。如果你正在构建不依赖 Netflix 式数据中心模仿、拥有专有数据护城河、高效推理以及用小模型做大事的 AI 项目，我们很想了解你正在做什么（并可能在你的种子轮或 A 轮投资最多 500 万美元）。

#深度学习 #DePin (去中心化网络)

激光、核能与扩展壁垒——为何最大的数据中心无法获胜

问题的规模

科幻般的解决方案

我在学习机器学习时学到的（以及我现在看到的）

DeepSeek 的信号

这对创始人意味着什么

我关注的方向

底线

推荐阅读

人工智能的捆绑时刻 | Tomasz Tunguz

伟大的重组：人类指南 – Foundation Capital

来自 100 多位 First-Check GP 和 LP 的关于今天获得资助的信号

心灵自行车 – Rex Woodbury – Digital Native

激光、核能与扩展壁垒——为何最大的数据中心无法获胜

问题的规模

科幻般的解决方案

我在学习机器学习时学到的（以及我现在看到的）

DeepSeek 的信号

这对创始人意味着什么

我关注的方向

底线

推荐阅读

人工智能的捆绑时刻 | Tomasz Tunguz

伟大的重组：人类指南 – Foundation Capital

来自 100 多位 First-Check GP 和 LP 的关于今天获得资助的信号

心灵自行车 – Rex Woodbury – Digital Native

了解 RecodeX 的更多信息