返回首页
2026.05.25 22:10 约 19 分钟 算力基建 1.2万 阅读

路线图:AI 数据中心技术栈

💡 文章信息:作者:Taj Shorter & Bessemer Venture Partners Team | 英文原文:点击阅读

💡 核心论点

  • 物理基础设施与电力供应正在成为 AI 爆发的终极制约因素。目前全球已宣布的超大规模数据中心项目容量达 190 GW(涉及 777 个项目)。
  • BVP 认为,“物理 AI”基础设施正处于极为早期的投资周期,这类似于淘金热中的“铲子与皮镐”机会。
  • 梳理了应对 AI 算力电力能源危机下,围绕选址、变电、冷却等物理设施层的 6 大创投机遇。

📑 严格逐字逐段翻译

人工智能数据中心堆栈中的六个机会领域

    1. 许可和选址
  • 2、发电

    1. 传输、电力转换和电力中程
    1. 软件和编排
    1. 施工、维护和人工
    1. 冷却技术

路线图:AI 数据中心堆栈

基础设施机会的六个领域,从软件和编排到网格硬件和冷却技术。

人工智能是计算历史上最耗电的工作负载。截至 2026 年初,已有 777 个项目宣布超大规模数据中心容量达 190 吉瓦。其中包括计划的约 148 吉瓦、在建的约 21 吉瓦以及已投入运营的约 12 吉瓦。预计到 2030 年,全球数据中心的电力消耗将增加一倍以上,而在美国,数据中心的电力消耗很快将超过所有能源密集型制造业的总和。

每个利用人工智能进行创新的国家都面临着新的能源危机,其加速取决于实体基础设施建设。数据中心可在 12 至 18 个月内建成,但目前将其连接到电网需要 5 至 7 年。在计划于 2025 年上线的 110 个数据中心项目中,超过四分之一因电力、许可和施工限制而被推迟。因此,超大规模企业越来越愿意接受建设和管理现场电力的额外复杂性,以换取容量、时间表和排放的确定性。

数据中心行业近 30 年来没有经历过重大颠覆,但对代币的需求和下游对能源基础设施的需求完全改变了这种动态。美国联邦政府也已采取行动,认识到这种物理建设对国家安全和美国在全球人工智能竞赛中的地位的重要作用。 2026年4月,特朗普总统援引《国防生产法》第303条,正式指定大型电网基础设施对国防至关重要,授权紧急联邦融资,以扩大该供应链关键部件的国内供应。

私人和公共对人工智能的需求正在创造我们一生中最大的基础设施投资周期之一,并为初创企业带来巨大的机遇。 2025 年,数据中心在建筑环境风险投资中占据主导地位,占已部署资本的 78%(57 亿美元中的 45 亿美元)。然而,我们相信使这些开发成为可能的硬件和软件层仍处于早期阶段,为探索支持技术堆栈留下了巨大的空间。定义未来十年能源基础设施的公司将是那些构建使电子更便宜、更快、更智能的软件、硬件和系统的公司。

我们公司的同名者亨利·贝塞默爵士是一位英国工程师,他利用熔融生铁大规模生产钢材的工艺将一种昂贵的手工材料转变为工业文明的支柱,为定义现代世界的铁路、桥梁、摩天大楼和工厂提供了支持。一个多世纪后,我们资助的基础设施看起来有所不同,但我们的目标仍然是支持创始人构建下一个经济运行的具体系统。该路线图指导我们认为在该扩建中将创造最持久的价值。

六个核心机会领域引起了我们早期阶段的兴趣。在探索这一投资路线图时,我们分享了对当前建设人工智能数据中心和新兴参与者的看法,其中包括我们支持的许多领导者,包括 American Terawatt、Bastille Networks、Boom Supersonic、Claroty、DriveNets、DroneDeploy、Inertia 和 Verse。

人工智能数据中心堆栈中的六个机会领域

1. 许可和选址

在数据中心获得电力保障、构建基础设施或部署单个 GPU 之前,需要获得地方和州当局的运营许可。这包括分区批准、环境法规、公用事业互连协议、空气和水质许可证、濒危物种评估、文化资源调查等。每个许可流程的运行时间不同,并且因当地司法管辖区而异。 2024 年 3 月至 2025 年期间,16 个数据中心的开发由于许可限制而被推迟或拒绝,其中当地社区的抵制是主要原因。

麦肯锡估计,每年用于复杂基础设施许可的支出超过 50 亿美元,占美国许可支出总额的三分之一以上。目前,超过 1.5 万亿美元的基础设施资金仍处于审批过程中。目前,这一需求由 Tetra Tech 和 Quanta Services 等大型咨询公司提供服务,但市场相当分散,有超过 50,000 家小型公司,其中许多公司员工人数不足 15 人。他们的大部分手动流程帮助客户解决关键问题、分析矩阵、管理提交和跟踪缺陷。

人工智能原生软件现在正在整个生命周期中兴起,从选址到运营合规性。 Lorica 正在构建人工智能原生许可准备和执行服务,以实现许可工作流程的自动化,这是现实世界中大量碎片化努力的结晶。通过与顾问合作,捕获跨项目的最佳许可路径数据,Lorica 通过自动化数据收集、构建和提交来加快项目开发时间表,同时构建与每次参与相结合的预测情报层。 Paces 是该领域的另一个参与者,将电网、许可和环境数据统一到一个平台中,帮助开发商在投入资金之前识别可行的地点并发现缺陷。他们的客户报告说,完成的交易数量大约是原来的三倍,因为电网限制、分区冲突和环境问题等风险是提前浮现出来的,而不是在开发后期发现的。更广泛地说,通过空间建模、基于无人机的调查和资源紧张模拟更好的现实世界可见性可以帮助开发商在投入大量资金之前预测反对的触发因素。我们将在下面有关施工、维护和劳动力机会的部分中进一步讨论这一点。

我们寻找的是:以产品为中心的团队,将孤立的数据渠道置于单一管理平台下,利用上下文来构建代理,并压缩时间表以实现突破。这些是关键的施工前工作流程,具有很高的资本和时间成本。强化这些脆弱的工作流程需要使用随着时间的推移变得更具预测性的数据飞轮来处理多个利益相关者之间的复杂性。

2、发电

数据中心的供电正在从传统电网转向现场发电。虽然并网站点仍占项目数量的最大份额(45%),但现场发电和混合方法合计占所有已公布容量的近一半。这反映了更广泛的“自带电力”(BYOP)运动,其中数据中心在电表后面现场发电(BTM),以避免在电网接入互连队列中等待数年。仅 2025 年就宣布了约 50 GW 的 BTM 天然气发电项目。它已成为当今建设新人工智能数据中心的主导策略。

许多公司正在利用这一点,重新思考如何产生电力并将其输送到机架,以实现更快的通电时间,同时确保可靠性(即间歇供电与稳定供电)。解决这一问题的公司通常会生产模块化技术,这些技术可以根据需求进行调整,并拥有可抵御冲击的可扩展供应链。

例如,最初以开发超音速客机而闻名的 Boom Supersonic 公司已将其喷气发动机核心改造为 Superpower:专为数据中心发电而建造的 42 MW 天然气涡轮机。与此同时,Arbor 正在建造下一代燃气轮机,它使用超临界二氧化碳作为工作流体,并具有内置碳捕获装置以提供基本负载电力。

许多超大规模企业也在探索可再生能源,包括将它们与电池 BTM 放在一起。它们既可以作为大型备用电源系统,也可以作为实现更快供电路径的一种方式。 BTM 电池系统安装在客户的物业上,在非高峰时段以较低的速率从电网充电,并在高峰时段以较高的速率放电,从而大大减少需求费用,同时提供备用电源和电网独立性。 Calibrant Energy 已成为市场上占主导地位的电池开发商之一,为超大规模数据中心站点提供融资和部署电池系统。 Exowat 正在构建专为人工智能工厂打造的模块化、24/7 可调度太阳能系统和热电池。

展望未来,由 Twilio 创始人 Jeff Lawson 联合创立的 Inertia 正致力于将劳伦斯利弗莫尔国家实验室首创的基于激光的惯性约束聚变方法商业化,并正在建设一座电网规模的发电厂。融合仍然是电力堆栈中最长远的赌注,但它在人工智能所需的规模上提供清洁、可调度的基本负载的潜力使其成为我们正在跟踪的最重要的类别之一。在未来几年内展示可靠的商业化工程路径的公司将成为 2030 年代及以后能源堆栈的基础。

在输电方面,美国Terawatt正在建设一个专线高压直流输电网络,无需等待公共电网即可将数据中心连接到电源。我们在电力转换和电网硬件方面看到了机会,进一步深入研究传输(数据中心上线竞赛中的另一个重要瓶颈)和利用新时代技术为公用事业提供服务。

我们的目标:虽然数据中心是强大的市场催化剂,但它们是更大的电气化趋势中的一个节点。我们对模块化发电技术、低水平能源成本 以及整个电气化行业的可重复部署手册感到兴奋。因此,供应链的弹性非常重要。多年来,电力设备在结构上一直供不应求,那些克服制造障碍或重新设计产品以通过模块化或新供应商避开这些障碍的公司具有难以复制的交货时间优势。除了发电本身之外,最持久的企业将拥有与数据中心运营商的硬件关系以及顶层调度优化或预测控制。随着电源堆栈向 NVIDIA 的 800V DC 架构融合,我们相信这些类型的公司也将受益于作为核心基础设施合作伙伴的嵌入。

3. 传输、电力转换和电力中程

每个到达数据中心的电子首先通过变压器。这些电磁设备可在电网的每个节点(从发电、输电到设施层面)升高或降低电压。如今,需求远远超过供应。从 2019 年到 2025 年,变压器需求增长了 119%,但制造能力却未能跟上步伐。通用电气、西门子和三菱等老牌企业的交货时间已从新冠疫情爆发前的约 1 年延长至长达 5 年。瓶颈在于结构性,因为这些是大型设备,由少数制造商精心设计和按订单制造。邻近的电网硬件也面临着同样的紧缩:开关设备的交货时间现在已超过 60 周,而高压电缆和断路器的积压被广泛报道为继变压器之后的下一个制约因素。

电源短缺与机架密度的变化同时发生,改变了传统电力传输架构必须提供的内容。数据中心云时代的机柜功率密度为20-40kW。当今的一些 AI 训练集群的每机架运行功率为 500-600 kW,NVIDIA 的目标是在 Rubin Ultra 及更高版本上运行 1 MW。这种密度的增加,再加上 800V DC 架构的行业标准化,意味着传统链中每个额外的 AC/DC 转换步骤都会浪费能源并增加额外的硬件。

我们在这里看到了三类不同的机会:

  • 解决供应链限制——寻找比现有企业更快地将硬件从电网运送到园区的方法

  • 重新设计变压器和更广泛的电源转换链本身

  • 从地面现有的传输基础设施中释放更多容量

这些子类别中最强大的公司同时解决速度和结构问题。对于高压变压器,Ayr Energy 通过印度合同制造商制造变电站和输电级变压器和断路器,将交货时间从 3-5 年行业标准压缩到 6-12 个月。对于 BTM 电力和中压变压器,固态变压器 等技术提供了一条同时降低成本、复杂性和交货时间的途径。 SST 将传统电源链的多个级合并为单个模块化设备。通过使用碳化硅 半导体将中压交流电直接转换为 800V 直流电,SST 将传统电源转换硬件的多个离散级分解为单个模块化设备。

除了减少堆栈之外,SST 还具有双向性和可编程性,能够与电池储能系统、太阳能和其他形式的现场发电源进行本机集成。 Heron Power 正在构建 Heron Link,这是一款专为 800V 直流电源转换而设计的模块化中压 SST,也是 NVIDIA 800 VDC 架构的主要合作伙伴。 DG Matrix 构建的多端口 SST 可以接受任何电压或频率输入,并且可配置为 800V 直流或交流输出,从而将 10-17 个分立电源系统合并为一个设备。

第三类位于上面一层:软件和硬件可以从现有的输电网中释放更多容量,而无需等待新线路的批准和建设。电网拥堵每年给美国电力消费者造成约 115 亿美元的损失,而且由于运营商缺乏对实际线路状况的实时可见性,输电线路保守地运行在其真实热极限以下,因此大部分容量损失是看不见的。

GridAstra 通过 FUSION-T 解决了这个问题,FUSION-T 是第一个用于网格增强技术的集成软件平台。该平台在单一环境中对动态线路额定值、先进潮流控制器和拓扑重新配置进行建模,自动生成控制计划,将电力从过载线路重新路由到未充分利用的线路。在硬件方面,TS Conductor 制造先进的复合芯导体,使公用事业公司能够通过重新布线将现有输电走廊的容量大约增加一倍,从而避免新线路所需的多年许可和通行权获取。

我们寻找的公司:能够解决供应链约束和架构约束,或者能够有效扩展我们现有电网容量的公司。需要三年时间才能采购的速度更快的变压器仍然不够;获胜者将在今天发货,同时扩展基础设施以满足明天超大规模的需求。

4. 软件和编排

发电和传输电力只是等式的一部分。另一部分是确定如何管理、调度和消耗电力。数据中心正变得越来越复杂的能源系统,具有多种发电来源、电池存储、电网连接和波动的人工智能工作负载。如今,电源管理、工作负载调度、网格通信和合规性仍然存在于彼此分离的碎片化系统中,而本应统一这些系统的传统数据中心基础设施管理 平台(例如 Schneider、Vertiv、Sunbird)是为较早的时代而设计的。我们相信有机会围绕三个结构转变从头开始重建这个堆栈:

分层 SLA

当今的电网合同和数据中心服务协议将人工智能负载视为固定的、不灵活的需求。但与大多数企业计算不同的是,有意义的人工智能工作负载份额实际上并不需要这种刚性。训练作业可以暂停和恢复,批量推理可以跨区域转移,较低优先级的工作负载可以吸收延迟。合同刚性与潜在工作负载灵活性之间的不匹配正在悄然搁置大量电网容量。

前瞻性的市场观点是采用分层系统,将可批处理的训练转移到非高峰时段,接受非关键工作负载稍长的延迟,并在压力事件期间将容量返回到网格,而不是将其作为合同的人质。 Emerald AI 是这一主题的早期突破,构建了一个编排层,可以动态调度 GPU 工作负载,使 AI 数据中心的电力需求更加灵活。当网格紧张时,Emerald 可以暂停或限制可批处理的训练作业,保护延迟敏感的推理,并将计算跨区域转移到电力充足的地方。位于弗吉尼亚州的 Aurora AI Factory 是 Emerald、Digital Realty、NVIDIA、EPRI 和 PJM 之间的合作项目,将成为第一个商业证明,展示电源灵活的数据中心在生产中的实际情况。

能源经济学与实物资产控制相结合

运行数据中心组合的财富 500 强企业或超大规模企业需要考虑房地产、电价和对冲、编排软件和合规性。他们需要结算数千笔公用事业账单——对冲批发电力风险、根据实时价格调度电池、核算可再生能源证书等等。

不幸的是,目前大多数人都是在与单点解决方案缝合在一起的电子表格中执行此操作。 Verse 正在构建一个平台来整合该堆栈:公用事业账单管理、购电协议和能源组合分析以及单一系统中的风险和对冲。在此平台之上,Verse 的新 Dispatch Intelligence 产品位于 BTM 存储之上,并做出实时充电决策。这种集成很重要,因为跨这些层的决策是相互依赖的。例如,长期购电协议决定了电池的调度积极性,就像按需收费过高会影响企业更广泛的对冲策略一样。

适用于 AI 工作负载的 DCIM

如今,运营商很难实时回答这些基本问题:每个机架实际消耗了多少电力?在热点出现故障之前,存在多少热余量?有多少可用容量因保守的铭牌额定值而搁浅?哪些 GPU 运行状况良好,哪些 GPU 性能正在悄然退化?

我们相信,下一代获胜者将把实时遥测、热流和功率流的预测模拟以及人工智能原生异常检测结合到一个系统中,操作员真正信任该系统可以做出自主决策,而不仅仅是顾问解释的仪表板。竞争者包括面临现代化压力的现有企业,以及 Aravolta 和 Phaidra 等人工智能原生企业。

在电表的另一边,公用事业公司和电网运​​营商面临着镜像问题。他们处理互连请求、规划发电和传输容量、模拟负载增长、归档速率案例,并决定推进哪些项目。我们相信人工智能原生软件可以在以下方面为公用事业带来变革性价值:

  • 互连研究自动化

  • 资本项目规划和负荷预测

  • 监管备案和案件自动化率

Senpilot 是一个为公用事业公司构建 AI 原生操作系统的团队,该团队将用于工程、监管工作和客户服务的专用代理捆绑到一个平台中。实用软件市场历来是企业技术中发展最慢的市场之一。我们相信人工智能是最终打破这种模式的催化剂,而现在成立的公司最终可以成为新的记录系统。

电网规划和运营

虽然 BTM 发电可以加快供电速度,但还需要解决潜在的电网限制。人工智能基础设施建设的长期可持续性取决于电网更快吸收新负荷的能力,这需要公用事业公司本身采用更多技术。 ThinkLabs AI 最近从 GE Vernova 中分离出来,通过构建基于物理的 AI 电网数字孪生来直接解决这个问题,帮助公用事业公司以传统工具所需时间的一小部分来模拟电力流、拥堵和互连影响。这使得公用事业公司能够更有效地规划升级并连接新负载。

我们寻找什么:跨越所有三个转变(分层 SLA、能源经济与物理资产控制的集成以及物理设施的实时运营智能)的结缔组织是同时跨越 IT 堆栈和物理堆栈并在它们之间实时转换的软件。我们相信,无论谁构建了能够统一这些内容并能够准确地对数据采取行动的软件,都将处于人工智能基础设施中最有价值的十字路口。

5. 施工、维护和人工

使整个扩建成为可能的建筑和电气工程劳动力正在经历大规模的劳动力短缺。截至 2025 年底,建筑行业面临约 439,000 名工人的短缺,加上高峰期人员规模的增加,从云时代的约 750 名工人增加到如今的 4,000 至 5,000 名工人。数据中心员工的平均年龄为 53 岁,60% 的数据中心提供商表示很难填补空缺职位。其结果是,劳动力限制现在与电力或许可一样有可能推迟项目。机器人、自动化和人工智能驱动的软件正在填补数据中心生命周期三个不同阶段的空白:初始建设、持续运营和报废退役。

初步建设

每个数据中心构建的第一个物理操作是劳动密集型的。该领域的一家公司是 Bedrock Robotics,该公司通过他们所谓的 Bedrock Operator,利用自主技术改造现有的重型机械。 built Robotics 开发了专为工业现场设计的自动挖沟和打桩技术,并且越来越关注数据中心和太阳能发电场。 TerraFirma 作为一家技术支持的分包商运营,直接在活跃的数据中心施工现场部署机器人土方工程。施工开始后,DroneDeploy 可以捕获空中现场数据并使用人工智能来监控进度、标记安全风险并验证施工质量。

持续运营和维护

在现代超大规模园区的规模中,计划外停机的成本高昂。 MaintenanceX 为一线维护专业人员提供人工智能驱动的资产和工作智能,以保持数据中心的运行。 Gecko Robotics 部署人工智能驱动的机器人来检查工业基础设施,在腐蚀和结构问题导致故障之前检测到它们。 Watney Robotics 正在构建自主机器人系统,用于执行设施内的故障/修复、物流和日常维护等任务。

报废:退役和循环利用

人工智能扩建的另一面是人工智能拆除。随着超大规模企业以加速周期更新 GPU 和服务器,以跟上连续几代硬件的步伐,退役设备的数量正在呈爆炸式增长。 Molg 正在建造机器人微型工厂,能够自动拆卸退役服务器、笔记本电脑和工业电子产品,以进行组件回收、再制造和循环利用。

我们寻找的是:能够在整个数据中心生命周期(从破土动工到退役最后一台服务器)缓解劳动力短缺的公司。最有防御能力的参与者将自动化与专有可见性结合起来,其中包括在故障发生之前预测故障,在返工之前解决构建质量问题,以及从原本会被丢弃的设备中恢复价值。

6. 冷却技术

AI 工作负载已将机架密度提升至行业前所未见的水平,预计明年所需的功率密度将是云时代机架的 50 倍。传统的冷却方法已经无法跟上。尤其是空气冷却,散热效率太低,无法防止节流和硬件退化。超大规模企业和前沿实验室愿意围绕替代冷却技术进行重新设计,因为过热直接影响硬件的使用寿命和每瓦性能。

液体冷却已成为主导解决方案,目前占新型人工智能数据中心冷却架构的大部分。在液体冷却中,两种硬件方法最为普遍。直接芯片冷却通过冷板和歧管分配系统将冷却剂直接输送到处理器表面,从而实现组件级的精确热传递。浸入式冷却采用更直接的方法,将服务器完全浸没在介电液中,以应对最极端的机架密度。在这两者中,直接芯片具有更多的近期应用,更容易集成到现有的数据中心架构中。 Corintis 开发了人工智能设计的微流体冷板,可将冷却剂直接输送至芯片热点,其性能优于已成为行业标准的平行通道铜板。

除了硬件之外,第二类正在兴起,其中软件编排和人工智能建模优化冷却基础设施的运行方式。 Phaidra 通过 AI 代理提高热稳定性,使用实时功耗作为需求峰值的预警信号,使冷却系统能够在芯片温度上升和性能停滞之前做出响应。

我们的目标:冷却正在成为一个主动控制系统,它决定芯片性能、硬件寿命,并越来越多地决定整个园区的水消耗和排放足迹。我们专注于将冷却视为性能堆栈一部分而不是基础设施开销的公司。用于将热数据转化为容量和正常运行时间实时信号的软件,​​以及能够适应不断发展的数据中心架构而不是被锁定到特定供应商的硬件。

人工智能基础设施的演变:我们的未来

人工智能基础设施的能源层是一个充满相互关联的挑战的生态系统。我们相信,每一个都创造了独特的投资机会:电力必须生产、智能调度、灵活消费,电网必须现代化,运营电网的公用事业必须配备人工智能原生工具。本周期中最具吸引力的企业将在资本支出繁荣期间实现超额增长,并在另一方面成为具有持久、长期经济效益的成熟运营基础设施,即使在新建业务放缓之后也是如此。

我们正在积极寻找能够利用所有这些机会在这个领域进行建设的创始人。如果您正在研究人工智能能源基础设施堆栈的任何方面,我们很乐意听取您的意见。如需联系,请联系 Lindsey Li (lli [at] bvp [dot] com)、Brielee Lu (blu [at] bvp [dot] com)、Josh Hechtman (jhechtman [at] bvp [dot] com)。

📌 核心金句与关键指标

[!NOTE]
““AI 的加速发展正受到电网容量的根本性制约,这引发了表后独立发电创业的黄金时代。””


🎯 行业启示与落地建议

  • 硬科技(Atoms)与清洁能源是 AI 长期军备竞赛最坚实的底层资产。
  • 投资者应优先选择具备“快速交付/降低并网时间”的模块化和分布式能源初创企业。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读