千兆瓦级 AI 训练负载波动——电网停电风险?108GW 大型负载排队,特斯拉 Megapack,超级电容器,千兆瓦级电池,PyTorch 不会导致电厂爆炸

本文信息来源:semianalysis
作者:Jeremie Eliahou Ontiveros,Ajey Pandey 和 Dylan Patel
最大的 AI 实验室正在竞相建设多吉瓦级的数据中心,这对我们已有百年历史的电网造成了前所未有的压力。不仅规模巨大,AI 训练工作负载还具有非常独特的负载特性, 在极短的时间内,负载会从满载骤然降至几乎空闲。我们的电网从未被设计用来应对这种模式。在吉瓦级规模下,最坏的情况是数百万美国人将面临停电。
这个问题让领先的 AI 实验室感到意外。Meta 的 LLaMa 3 论文提到了电力波动带来的挑战,而那“仅仅”是一个拥有 24,000 块 H100 的集群(30 兆瓦 IT 容量)。
在训练过程中,成千上万块 GPU 可能会同时增加或减少功耗,例如因为所有 GPU 都在等待检查点保存或集体通信完成,或者整个训练任务的启动或关闭。当这种情况发生时,数据中心的用电量会瞬间波动,幅度可达数十兆瓦,极大地考验着电网的承载能力。随着我们为未来更大规模的 Llama 模型扩展训练,这仍然是我们面临的持续挑战。
在无奈之下,工程师们构建了命令 “pytorch_no_powerplant_blowup=1”,以生成虚拟工作负载,从而平滑电力消耗。但在千兆瓦级别,这类工作负载每年带来的能源开支高达数千万!此后,硬件厂商纷纷提出了更为严肃的解决方案。
在孟菲斯,xAI 的“Colossus”选择了特斯拉的 Megapack 系统。马斯克的汽车制造公司在电池储能系统(BESS)市场处于领先地位,并且现在正积极与公用事业公司和数据中心运营商合作,力图让其解决方案成为行业标准。特斯拉是否将主导市场,还是有其他可靠的替代方案来应对 AI 训练负载波动?

来源:特斯拉
为了理解市场影响,我们从基本原理出发,解释为何电能质量至关重要以及一些电网设计的基本考量。接着,我们说明 AI 训练和推理的负载特性,并与传统工作负载进行对比,阐述千兆瓦级 AI 训练数据中心如何可能引发停电。随后,我们探讨从超级电容器到 UPS 和电池储能系统(BESS)等解决方案,并指出最有可能胜出的技术。 我们基于项目的数据中心预测让我们能够提前洞察未来趋势,我们认为少数几家公司将获得超额收益。
SemiAnalysis 将从下周开始在 Instagram Reels 和 TikTok 发布独家内容。关注我们的社交媒体,获取关于 AI 和 GPU 行业的最新见解。
电能质量,简要说明
电能质量没有进入公众词汇,这本身就是对公用事业工程师能力的证明。大多数读者只需按下开关,就相信不会出现闪烁、烧毁或跳闸的情况。但这种信心建立在以秒级甚至更短时间平衡发电与用电负载的基础上。
电网的几乎每个部分,包括化石燃料和核电厂、变压器、高压线路,都是依靠交流电(AC) 运行的。在交流电系统中, 电压和电流会以一个非常严格管理的、特定地区的频率进行振荡:北美为 60 赫兹(每秒 60 次循环),欧洲和亚洲为 50 赫兹。居民用电通常只使用一条振荡线路,而像数据中心这样的工业负载通常接收三相电力,每条电力线实际上由三根导线组成,三组振荡周期彼此错开运行。

来源: 维基百科——三相电力
然而,电压和频率是电力中非常脆弱的属性。如果电力的供需不能紧密匹配,电压和频率就会偏离设定值。如果供大于求,电压和频率就会高于基线。如果供小于需,电压和频率就会低于基线。仅仅 10%的波动就可能烧毁电机、跳闸断路器并导致电子设备崩溃,而电网运营商的工作就是要维持电能质量的阈值。
2021 年冬季德州的严寒就证明了这一点。极端低温导致取暖需求飙升,同时使几家大型燃气电厂停运。供给滞后,系统频率降至 59.4 Hz 以下。在 ERCOT(德州电网)中,频率低于 59.4 Hz 持续九分钟就会触发保护断路器,使整个州陷入持续数天的大范围停电并造成持久损害 。
为了保证电力供应,ERCOT 切断了家庭和企业的电力,将需求削减到与受损的供应相匹配的水平。

这凸显了电网稳定性依赖于供需平衡的稳定性,以及失衡所带来的风险。幸运的是,家庭用电需求相当可预测,而像电气钢铁制造、芯片工厂和云数据中心等大型负载通常也保持稳定的用电量。生成式人工智能的兴起则改变了这一局面。
AI 负载曲线深度解析
AI 计算系统通常是同步的。一项大型 GPU 训练任务可能涉及数十万块 GPU 协同同步工作。我们在这里解释了基本原理。这种模式与传统的计算负载特征截然不同:
- 云计算的业务是向大量用户销售多台虚拟机——每个用户的使用场景都非常不同。一些大型客户可以租用数千台虚拟机,但即便如此,他们通常也有异构的负载特征。请记住,一个 100 兆瓦的数据中心可以容纳数百万个 CPU 核心(和虚拟机)。
- 传统的推理任务,如 Meta 的 DLMRs(AdRec、信息流排序等),通常涉及使用多个小型模型,每个模型的计算需求都很小。最终结果是非同步的模式。
下方由 Google Cloud 发布的图表显示,云数据中心与 AI 数据中心之间的负载波动约相差 15 倍,从 1.5 兆瓦到 15 兆瓦。

大规模训练集群
在大型 AI 训练数据中心的背景下,这一点最容易理解,这些数据中心中多达数十万块 GPU 通过网络连接,作为一台超级计算机协同工作。 阅读我们关于 10 万块 H100 集群网络架构的深度解析,了解更多细节 。导致 AI 训练负载波动如此剧烈的原因有很多,例如:
- 批内波动(毫秒级):在处理一个批次时,矩阵计算期间功率激增,而在数据传输和同步等较轻操作期间功率下降。
- 检查点保存/恢复(毫秒级):在进行检查点操作时,负载可能会降至接近零,这通常只持续几毫秒。
- 同步(最长可达几秒):随着集群规模上升到数十万台,AllReduce 操作会受到网络问题困扰,有时会导致 GPU 计算活动空闲长达几秒。
- 训练任务结束:在一次非常大规模的训练结束后,如果没有新的工作负载立即以最大功率使用 GPU,就会导致负载大幅下降。
这并不是一个详尽的列表,需要明确的是,其中许多问题可以通过软件修改以及工作负载和集群管理优化来部分解决。但问题依然存在,AI 训练工作负载在这方面非常独特。需要一种基于硬件的解决方案 。
下文论文展示了一些训练过程的实证结果。

推理工作负载
来自 Google、Meta、TikTok 等公司的大规模推理部署(DLRM)的经验证据表明,推理阶段的问题要轻得多。但生成式 AI 再次带来了全新的动态变化:
- 预填充与解码:每个 LLM 查询有两个不同阶段,预填充和解码。前者通常比后者需要更多的 FLOPS,这意味着 GPU 在预填充阶段以最大功率运行,但在解码阶段通常不到 50%。现代的预填充与解码解耦技术在一定程度上缓解了这一问题。
- 节点间通信阻塞:高批量处理对于高效服务数百万用户至关重要,而在最先进的推理模型中,通常需要许多节点。此时,推理工作负载更像是训练。
第二点最能体现于 DeepSeek 非常独特的推理部署方式,它能够以极小的 GPU 占用高效服务数百万用户—— 我们已为核心研究客户做了深入讲解 。

推理和训练都会受到负载波动问题的影响,但训练工作负载更具挑战性,因为它们涉及高达吉瓦级规模的系统同步运行。然而,鉴于扩展定律和强化学习的趋势,我们认为推理工作负载也很可能越来越依赖于大规模扩展集群——这同样会带来问题,但程度不及训练。
电网影响——AI 数据中心正在涌入电网
为了理解问题的严重性和潜在风险,我们先退一步,看看当今最大 AI 数据中心的规模。下图展示了 OpenAI 的一个关键训练集群。 这就是全球最大的单体建筑 ( 与威斯康星州的“姊妹”站点并列 ),IT 容量约为 300 兆瓦,铭牌容量约为 400 兆瓦,远超其他同类设施。我们的数据中心结构报告( 冷却和电力系统)读者,通过观察 210 台风冷冷水机组或巨大的现场变电站,便能直观感受到其规模之大。
自2025年1月起,第二座同样规模的建筑正在建设中,预计到2026年中期,该园区将达到千兆瓦级别。

这引起了 ERCOT(德克萨斯州电力可靠性委员会)的注意——该组织负责监管德州电网。下图让这一点一目了然: 有超过 108 吉瓦的“大型负载”正在寻求接入 ERCOT,其中大多数是数据中心。为了便于理解,美国的峰值负载为 745 吉瓦!
需要明确的是,全球各地的数据中心负载排队列表中都充满了重复项目,ERCOT 也不例外。108 吉瓦的数字并不现实( 其数据中心负载预测同样不现实 )。未来 SemiAnalysis 的报告将会深入探讨这个话题,但我们的数据中心模型中已经有相关数据。

北美电力可靠性公司(NERC),作为监管整个北美的机构,也对此表示担忧,并要求所有主要输电公用事业公司在进行并网研究时,说明他们如何对数据中心负载进行建模。我们深入研究了这些研究报告、备案文件、ERCOT 会议文件等,以更好地了解问题的严重性。我们将在下文中详细解释一切。
问题一:应对快速电力波动
随着负载的开启或关闭,电力需求随时间变化,这并不是什么新鲜事,几十年来一直通过电力供应的同步变化在瞬间进行管理。但在极短的时间内管理数百兆瓦的负载,对于运营商来说是前所未有的挑战。而这正是千兆瓦级 AI 数据中心带来的威胁。
供应变化通常涉及启动或关闭发电机,或指示发电机爬坡提高或降低输出。发电机的爬坡速率以兆瓦每分钟 (MW/min)为单位进行衡量,因此一台爬坡速率为 10 MW/min 的发电机可以在 10 分钟内增加或减少 100 兆瓦的输出。化石燃料发电机的爬坡速率在每分钟 5-50 兆瓦之间,而核电站的爬坡速率太慢,无法对任何电网状况做出反应。
通常,亚秒级的电压和频率平衡是由系统惯性来管理的。由于传统的发电机是非常大的旋转磁体,这些旋转质量所固有的动量可以吸收电力供需中的小幅不平衡,但代价是产生多余的热量和降低运行效率。

这一点正日益受到不断变化的发电结构的挑战。越来越多的电力由间歇性可再生能源,尤其是风能和太阳能产生。这些系统不会以与电网其他部分同步的频率发电交流电,而是产生直流电(DC),然后通过逆变器将其转换为交流电。
由于这些逆变器并不是围绕大型旋转质量构建的,因此它们没有足够的惯性来被动补偿导致电压和频率漂移的供需失衡。而且,由于这些间歇性的可再生能源依赖天气条件发电,除非与电池配套使用,否则它们无法像化石燃料发电机那样以兆瓦/分钟的爬坡速率进行调度。现在有一些新工具可以管理电能质量,包括专用的电能质量设备,如电容器组、同步调相机、静止无功补偿器和静止同步补偿器(STATCOMS)。
问题2:级联停电的风险
尽管 ERCOT 详细讨论了电能质量问题,但他们的记录显示,他们有一个更大的担忧:连锁性大规模停电。
低电压穿越(LVRTs)简述
ERCOT 考虑了一种与数据中心相关的特定故障响应: 低电压穿越(LVRT)。低电压穿越并不是对完全断电的响应,而是对瞬时电压波动的应对,例如输入电压可能会比基线低 30%,持续时间在 30 毫秒到 5 秒之间。这种类型的故障反映了远程重合闸器清除故障的标准操作。重合闸器在某种意义上类似于可以自动“重新闭合”的断路器。如果重合闸器检测到问题,它会跳闸,等待设定的时间,然后重新连接。
通常,重合器会进行两到三次跳闸-等待-重连-再跳闸的循环,然后才会永久跳闸。这种重复对于清除野生动物尤其重要。最常见的电力故障原因之一是鸟类、松鼠和树木。野生动物通常以错误的方式接触电线,导致短路。重置重合器实际上可以将异物从电线上击落,使重合器能够清除故障,而无需线路维修人员驱车前往修复问题。对于这些动物来说,这一系列事件之后确实会有问题。
如果故障发生在直接为数据中心供电的电路上,数据中心只会在短时间内经历一次停电。然而,由于电网是一个高度互联的系统,其他电路上的故障会以电压骤降的形式向整个电网传递冲击波。在低电压穿越(LVRT)情况下,数据中心会因为远处的故障而看到电压下降,随后当重合器跳闸后电压会恢复。如果重合器复位没有问题,数据中心就不会再经历其他电压下跌。但如果重合器在清除故障或放弃之前多次循环,数据中心可能会连续经历几次电压下陷。LVRT 的挑战在于保持在线,“穿越”低电压波动,而不与电网断开连接。

数据中心通常使用不间断电源(UPS) 和备用发电来应对低电压穿越(LVRT)。 我们的《数据中心结构——电气系统报告》 解释了电力在数据中心中的流动方式及相关设备。如果电网供电电压下降,UPS 可以几乎瞬间做出反应,将数据中心从电网电力切换到电池储能(通常可支持五分钟运行)。这种切换足够平滑,不会导致电子设备关闭。如果电网电压恢复,UPS 可以将数据中心重新连接到电网。然而,如果 UPS 连续检测到多次电压下跌,比如重合器为清除故障而循环时发生的情况,UPS 可能会永久断开与电网的连接,并将数据中心切换到备用发电(通常为柴油发电机)。
对于数据中心来说,切换到备用电源没有问题,柴油备用燃料虽然昂贵,但从电网到 UPS 再到备用发电机的双重切换并不会中断运行。然而,这种切换操作会对更广泛的电网造成严重问题,因为它会在瞬间将数百兆瓦甚至数吉瓦的用电需求从电网中移除。这反过来会因电力供需的突然失衡导致电压和频率波动,进而可能导致其他发电机或大型负载跳闸,造成电网的级联故障。
请注意,这并不是一个新问题。2024 年 7 月,弗吉尼亚州一条故障的输电线路导致 1.5 吉瓦的数据中心意外从电网断开并启动了备用电源。Dominion Energy 成功应对了这一问题,避免了大规模停电,但不得不采取了极端措施。但是, 鉴于美国即将到来的用电负荷增长 ,以及前文提到的 AI 训练负荷特性,弗吉尼亚类似的问题可能会变得更加常见。

噩梦场景第一部分:数据中心断连风险
在 2025 年 5 月的一次会议上,ERCOT 的两份报告描述了一个潜在的噩梦情景。
Yunzhi Cheng 的第一份报告展示了一个模型,说明如果低电压穿越失败,会导致数据中心宕机。该模型考察了两种天气情景与两种故障响应情景的叠加。
这两种天气情景是:
- 夏季高峰(SP):德克萨斯州全境的最大用电负荷;通常出现在热浪持续三天后的傍晚。
- 高可再生能源最小负荷(HRML):“ 鸭子曲线 ”显示德克萨斯州的用电负荷;在阳光明媚的春季或秋季中午,最小用电负荷与最大户用光伏发电的交点。
故障响应情景包括:
- 如果电压低于基线的75%,数据中心会立即跳闸
- 数据中心可以承受 70%电压的低电压穿越(LVRT)持续 20 毫秒,但无法承受更低的电压,也无法持续超过 20 毫秒。
Cheng 在西德克萨斯的一个变电站对一条 345kV 输电线路进行了故障建模(大约是供应奥斯汀市所需容量的六分之一)。结合两组情景,他基于四种潜在假设集对故障结果进行了建模:
- 夏季高峰时发生故障,如果电压降至基线的75%以下则跳闸
- 夏季高峰时发生故障,管理低电压穿越(LVRT),即电压维持在基线的 70%持续 20 毫秒
- 高可再生能源最小负载时发生故障,如果电压下降到基线的75%以下则跳闸
- 高可再生能源最小负载时发生故障,管理 70%电压、持续 20 毫秒的低电压穿越(LVRT)
Cheng 发现,在所有四组假设条件下,ERCOT 电网系统都会有至少 1.5 吉瓦的数据中心负载几乎立即从电网断开。如果这种故障发生在“鸭子曲线”日,且数据中心未配备低电压穿越(LVRT)能力,那么电网可能会在大约同一时间看到 2.5 吉瓦的负载——也就是目前西德克萨斯州的所有数据中心——同时从电网断开。需要注意的是,西德克萨斯州数据中心的负载将很快超过 10 吉瓦。
基准情况下数据中心断连风险

在每个西德克萨斯数据中心的并网点安装同步调相机(本质上是一个巨大的电磁飞轮)有所帮助,因为它在每个负载旁边增加了系统惯性。但即便有了这一对策,仍有1.3-1.9吉瓦的负载面临断开风险。
数据中心断开风险 + 同步调相机

此外,同步调相机是一种昂贵的系统。这些系统的资本成本为每兆乏无功功率 3 万至 6 万美元。按照 Cheng 模型中使用的安装规格,为一个 1 吉瓦的数据中心安装该系统将花费 1000 万至 2000 万美元。

噩梦情景,第二部分:级联风险
Luis Hinojosa 的第二次演讲进一步探讨了如此多数据中心因瞬时故障而从电网断开的连锁反应。他发现,如果有超过大约 2.6 吉瓦的电负载同时从电网断开,整个 ERCOT 系统的电网频率将会上升到 ERCOT 动力学工作组设定的 60.4 赫兹“危险区”以上。


即使是较小的 2 吉瓦断开,也会导致频率变化率(ROCOF) 的不稳定,超出 ERCOT 认为安全的范围。


如此大规模的断开还会导致电压质量问题,如果一次性有超过2.5吉瓦的负载断开,德克萨斯州电网的大范围区域将会出现有害的电压问题。

Hinojosa 将他的发现归纳为两个运行极限的负荷损失:如果整个 ERCOT 系统在短时间内连续损失 2.6 吉瓦负荷,或者西德克萨斯负荷区损失 2.0 吉瓦负荷,那么德克萨斯电网将变得极度不稳定,并有发生连锁大规模停电的风险。
噩梦场景,第三部分:这已经在伊比利亚半岛发生过
Cheng 和 Hinojosa 的分析所指出的电网稳定性问题,揭示了一条与 2025 年 4 月 28 日伊比利亚半岛大停电极为相似的电网不稳定路径。在那次事件中,2.2 吉瓦的发电容量因当地电网运营商调度决策失误而跳闸离线。这导致了电压和频率的连锁波动,触发了西班牙和葡萄牙各地的断路器。由于伊比利亚电网与欧洲其他地区相对隔离,外部连接无法稳定电网,最终在 27 秒内导致了全面崩溃。
同样的情景也可能在德克萨斯州发生:如果 2 到 2.5 吉瓦的数据中心负载在短时间内从电网中断开,那么类似的电压和频率波动可能会在德克萨斯州引发连锁故障。而且由于德克萨斯州电网只有四个与其他电网的连接,这些外部连接几乎无法稳定电网。一旦这些故障在德克萨斯州蔓延开来,就为时已晚,无法挽回。而这一切,可能仅仅是因为一只松鼠在西德克萨斯某个变电站附近踩到了错误的电线。
如何避免噩梦情景——解决方案
请注意, 降低系统级电能质量的责任主要在数据中心一方 ,如果数据中心引发了谐波问题,就必须自行承担相关费用。当然,这也促使行业积极寻找解决方案。
下面我们首先讨论电池储能系统(BESS),对于订阅用户,我们还将讨论其他基于硬件的解决方案、相关供应商,以及这些方案如何融入 Nvidia 全新的 800V 直流电源架构。
电池储能系统(BESS)的前景
特斯拉认为,数据中心面临的电能质量问题的最佳解决方案是规模达到数百兆瓦或吉瓦级的大型电池。在 2025 年 5 月的 ERCOT 会议上,特斯拉展示了一份幻灯片,内容基本与 2025 年 4 月由北美电力可靠性委员会(NERC)举办的大型负载研讨会上展示的幻灯片相同。该幻灯片重点介绍了他们的 Megapack 2 XL 电池组,如下图所示。

它展示了电池储能系统(BESS) 在数据中心中的应用前景,无论制造商是谁。BESS 在数据中心中的杀手级特性在于,这些系统能够在几秒钟内完成数百兆瓦的充放电,使这些电池能够以合适的反应速度和功率输出应对数据中心负载的波动。
用于电能质量和电网稳定性的 BESS
一台兆瓦级电池通过逆变器连接,可以通过快速充放电来管理电能质量问题,这被称为快速频率响应 。

特斯拉将 BESS 描述为比柴油发电机或电容器组等替代方案更可行的需求波动管理选项。我们在付费墙后解释了数据中心电容器的工作原理,并讨论了我们是否认为特斯拉的说法属实。特斯拉的演示文稿假设会将 Megapack 2 XL 与现有的发电机和 UPS 等措施同时安装。有一页幻灯片表明,将 BESS 与发电机串联安装可以让发电机运行更加平稳(从而延长其使用寿命)。

特斯拉提到电容器组也是一种选择,但他们正确地指出,这些电容器组无法在秒级别实现负载平滑。相比之下,BESS 能够在兆瓦/毫秒、兆瓦/秒和兆瓦/分钟的基础上管理负载波动,这比电容器组、柴油发电机或电网级资源所能管理的更加灵活。
BESS 还可以改善对低电压穿越(LVRT)的响应,如上文所述。值得注意的是,特斯拉描述了 Megapack 与现有 UPS 协同工作的功能,而不是将他们的 BESS 方案描述为对 UPS 的替代。具体来说,特斯拉将他们的 BESS 描述为一种补偿 UPS 基线行为的手段——如果电压连续多次下跌导致 UPS 跳闸离线,如果 UPS 切换到离网运行,那么 BESS 会从电网负载中充电,这样电网在 UPS 手动重置期间会看到“模拟”的负载。
用于需求响应的 BESS
特斯拉还提出了数据中心的一个附带好处,即需求响应 。这种做法有多个名称,如电网边缘响应、灵活负载管理、负载削减、负载调整,但截至目前,除了德克萨斯州的加密矿工外,采用率并不高,主要原因是缺乏激励机制。需求响应的概念很简单,如果你参与此类项目,电网可以强制你关闭负载,但会为此给予补偿。
在当今电力受限的环境下,激励机制发生了变化。需求响应使输电系统能够释放更多容量,并加快供电速度。根据杜克大学进行的一项研究 ,如果新增负载每年能够实现 20-90 小时的需求响应,仅 ERCOT 系统就可以在无需额外系统升级的情况下,支持 6.5-14.7 吉瓦的新负载(不仅限于数据中心)。
这是由于电网的基本设计原则所致。许多潜在地点在可发电量或可输送到该地的电量方面存在限制。然而,这些限制每年只在 20 到 90 小时内相关,占全年时间的 0.25%到 1%。这些高峰时段 ,即电网全年用电负荷最大的时刻,是许多电网物理基础设施的具体设计规范。值得注意的是,由于这些高峰时段主要由空调和户用光伏发电驱动,因此具有一定的可预测性:通常出现在夏季热浪深处的傍晚时分,当天户用光伏发电逐渐减少时。

xAI 参与了田纳西州孟菲斯的需求响应项目,这对于比通常时间更快地获得电网电力起到了关键作用。虽然现场的天然气轮机使得集群能够在四个月内建成,xAI 还建设了一个变电站,并从电网获取了 150 兆瓦的电力——距离提出用电需求还不到一年,这一速度非常惊人。

然而,在客户和公用事业公司方面实施需求响应都面临挑战。对于客户来说,没有人喜欢进行需求响应,在许多情况下,这意味着要关闭照明、空调以及“非必要”的工艺负载。备用电源变得必不可少,特斯拉认为 BESS 是一个很好的选择:数据中心可以通过 BESS 放电来减少电表上的用电需求,而不是直接削减负载。

值得注意的是,这需要在峰值事件发生前为电池充电,并在事件发生后放电。为电池充电可能是一项挑战,因为公用事业公司通常只会提前 24 小时通知可能出现峰值事件,并在事件发生前 3 小时通知可能的 3-6 小时峰值时段。即使公用事业公司能够可靠且及时地通知客户峰值事件(对此其实有理由表示怀疑), 可反应的时间非常有限 ,除非 BESS 已经完全充满电。如果没有对多个大型负载进行细致的荷电状态(SOC) 管理,一个先进的需求响应项目可能会看到峰值负载转移到下午 1 点或 2 点,因为大型负载会在场地内为电池充电,以应对预计下午 5 点的预测峰值事件。此外,任何用于需求响应的 SOC 都不能在发生 LVRT 事件或更大规模停电时作为备用。每个 BESS 都必须被编程以权衡需求响应和备用电源这两项任务,优先考虑其中一个用途就会等比例地降低另一个用途的优先级。
然而,即使安装了 BESS(电池储能系统),也无法解决需求响应中公用事业方面的挑战。首先,公用事业公司在需求响应方面通常做得很差。公用事业公司的 IT 基础设施通常落后 10 到 20 年,需求响应管理软件(DRMS)仍然是一个不成熟的市场。在需求响应的技术基础方面,公用事业公司普遍面临困难,例如:
- 收集和管理进行良好峰值预测所需的数据
- 编写和运行良好的峰值预测工具
- 通知客户高峰事件
- 将需求响应措施集成到商业和工业建筑中拼凑的楼宇管理系统(BMS)中
- 准确测量客户的需求响应
- 将需求响应转化为账单抵扣
除了实施之外,公用事业公司还难以提供足够的激励支付,使需求响应变得值得付出努力。作为一个仅能源市场,ERCOT 并没有对电力容量设定严格的成本,这本可以对高峰需求设定明确的价格。该组织已经批准了一项名为绩效信用机制(PCM) 的市场改革,预计将在 2026 年或 2027 年实施。然而,即使该 PCM 成本反映了像 MISO 和 PJM 那样有争议的高峰成本——每千瓦每月 8-15 美元(每兆瓦每天 270-500 美元)(包括容量和输电)——对于 20 兆瓦的需求削减,每月的总成本也可能达到 16 万至 30 万美元,包括公用事业人工、DRMS SaaS 费用以及对客户的账单抵扣。这可能会在数据中心的电费账单上体现为五位数的账单抵扣。对于为实施需求响应所投入的所有努力和资本来说,这充其量只是个小数点误差,最糟糕的情况则是一种侮辱。
BESS 的成本
特斯拉的演示文稿对 Megapack 系统的净成本含糊其辞,因为其成本很可能相当可观。根据 Lazard 2024 年 6 月 LCOE 报告 ,一个 100 兆瓦的 BESS,两小时电池(如特斯拉演示文稿所述)成本为 3800 万至 8000 万美元 ,四小时电池(对于功能性需求响应或备用电源来说是必要的)成本为 7600 万至 1.57 亿美元 。以这样的安装价格,适用于千兆瓦级数据中心的 BESS 成本将接近十亿美元 ,而以这个价格,特斯拉不会将 BESS 视为 UPS 或柴油发电机的替代品。这仅仅是在建设周期、资本支出、土地使用、供应链脆弱性和管理难度上的额外成本。
那么,BESS 是管理数据中心负载波动的最佳解决方案吗?今天我们关注的是表后 BESS,但未来 SemiAnalysis 的一份报告将探讨在远高于过去 20 年的负载增长背景下,BESS 和可再生能源在电力系统中的更广泛作用。
下面,我们将探讨基于硬件的替代方案,解释它们的对比,并讨论相关供应商。