甲骨文如何赢得 AI 算力市场:Stargate、OpenAI、字节跳动、独特的数据中心战略、投资级新云、收入与 EBIT 预测

信息来源:semianalysis
作者:Jeremie Eliahou Ontiveros,Dylan Patel 和 Daniel Nishball
Oracle 的云基础设施业务正在全面发力,远超市场预期。所有的目光都集中在高调的 Stargate 合资企业和位于德克萨斯州阿比林的大型数据中心,我们在 2024 年 9 月的多数据中心训练报告中指出,该数据中心是 OpenAI 的 GW 级训练中心。但除了这个庞大的园区之外,Oracle 还有许多其他的增长引擎。

我们认为,甲骨文增长故事中最被低估的方面是其与字节跳动的关系 。这推动了马来西亚柔佛成为全球第二大 AI 中心的崛起,我们预计这一合作关系将在许多其他国家展开, 扩张已经在积极进行中 。

随着这两家全球最大、增长最快的 GPU 租赁商成为旗舰客户,并且未来还有大量新增订单,我们在 2025 年 2 月就预测了资本支出将大幅增长 。两周前拉里·埃里森宣布,预计未来十二个月将签订超过 1300 亿美元的合同,这印证了我们的预期。我们的全新 GB200/300 机架月度订单与出货量追踪器也证实了 Oracle 的极端需求。这不仅仅是由最大客户推动的,还有大量中小型企业因 Oracle 的技术专长而选择他们。Oracle 最近凭借在软件、网络、安全、生命周期、存储等方面的独立测试,获得了金牌 ClusterMAX 评级 。

在今天的报告中,我们将深入探讨 Oracle 的基础设施战略。拉里做出了一些大胆的决策,这些决策对于 Oracle 成为 AI 计算领域的强者至关重要。通过结合 “传统”美国超大规模云服务商的特性、AI 原生 Neocloud,以及有选择地与中国速度极快的数据中心开发商合作 ,Oracle 找到了制胜之道。本报告将揭示 Oracle 在全球范围内的关键数据中心项目,解析其独特战略,并重点介绍具有巨大扩展潜力的领域。
此外,Oracle 还拥有独特的成本优势,其中最显著的是网络。我们利用新推出的 AI 网络模型 ,对 Oracle 与 Neocloud 巨头进行了详细的 TCO(总拥有成本)对比。该模型详细列出了每家超大规模云服务商在每种 GPU 类型下的具体网络配置,并按供应商预测了出货量和收入。
然而,关于 Oracle 的财务回报、提升高利润率服务的能力,以及在竞争日益激烈的情况下 GPU 业务的整体可持续性,仍有许多疑问。我们将在报告结尾基于我们备受领先 AI 实验室、超大规模云服务商、最大 GPU 即服务供应商及其金融合作伙伴信赖的 AI 云 TCO 模型 ,给出我们的收入和 EBIT 预测。这个结果很可能会让许多投资者和利益相关者感到意外。
在深入探讨之前,让我们回顾一下历史,以了解 Oracle 是如何走到今天这一步的。
GenAI 之前的 Oracle Cloud
关于 OCI 的一些背景
长期以来,Oracle 一直是一家专注于软件的公司,并且在 Azure、AWS 和 GCP 等竞争对手之后多年才加入云计算竞赛。在生成式人工智能出现之前,Oracle 最为人所知的是其在企业软件领域的强势地位。Larry Ellison 的帝国正是建立在对关系型数据库的重大押注之上,这一业务至今仍占据着公司收入的重要部分。Oracle 还是全球第二大 ERP(企业资源计划)软件公司,仅次于德国的 SAP。ERP 是一项核心的企业应用,用于管理财务、供应链、库存、人力资源等多个方面。
要理解拉里·埃里森的愿景以及甲骨文今天为何能取得如今的地位,将其与长期竞争对手 SAP 进行对比是很有启发性的。拉里在 2000 年代曾公开质疑云计算,并主要专注于从 SAP 的商业应用帝国中抢占市场份额。为了利用其在数据库和中间件领域的主导地位,甲骨文在 2000 年代展开了一系列收购,以拓宽产品组合并实现垂直整合,这一点可以从 2004 年以 103 亿美元收购 PeopleSoft(软件),以及 2009 年以 74 亿美元收购 Sun Microsystems(硬件+软件)中得到体现。
随着云计算在 2010 年代初开始加速发展,AWS 和 Azure 对甲骨文的数据库护城河构成了越来越大的威胁,促使甲骨文掉头推出基于云的数据库和 ERP。拉里还看到了另一个机会,即通过向将数据迁移到云端的客户追加销售 ERP,从 SAP 手中争夺市场份额。德国公司则做出了强势回应,于 2015 年推出了基于云的 S4 HANA ERP,放弃对第三方数据库的支持,并强制客户采用其新推出的自有数据库 HANA。
为了支持他们向云计算的转型,这两家软件巨头开始建设自己的计算基础设施,资本支出在2010年代中期激增。

就在这时,他们的道路开始出现显著分歧。为了更好地服务全球企业客户,需要进行大规模的基础设施建设。为了避免利润率崩溃,SAP 不得不通过基础设施即服务(IaaS)业务实现盈利,但在几年后选择放弃,拒绝与 AWS、Azure 和 GCP 直接竞争,转而与它们合作。
Oracle 走了一条完全相反的道路。2016 年,Oracle 推出了 Oracle Cloud Infrastructure(OCI)第二代云,这标志着其基础设施从仅支持 Oracle 软件,彻底转变为一个完整的端到端云服务。其明确目标是与 AWS 和 Azure 竞争,实现 Larry Ellison 关于垂直整合的愿景。
重要的是,OCI 还在云高性能计算(HPC)方面投入了大量资源,这对今天产生了重要影响。通过 2009 年收购 Sun Microsystems,Oracle 获得了 HPC 和网络方面的专业知识,构建了高性能存储系统 Exadata,并开发了高速的基于以太网的 RDMA(RoCE v2)以连接多个节点。虽然 Oracle 最终停止销售许多 Sun 的 HPC 资产,但其网络能力得以保留,并成为 Oracle 于 2017-18 年推出云 HPC 的关键,采用了通过 Mellanox ConnectX 系统的 RoCEv2 网络。Oracle 还开始部署 Nvidia GPU,并在 2020 年扩大了合作伙伴关系,成为最早部署 A100 的公司之一。

GenAI 之前的基础设施战略
深入观察 Oracle 在 GenAI 之前的数据中心战略,其模式更像是一家大型企业,而不是 AWS 或 Azure。我们在下文中分析了 Oracle 与其关键数据中心合作伙伴 Digital Realty 从 2019 年至今的合作关系。虽然总容量在五年内增长了约三倍,但合同性质的变化更具说明性。
Oracle 与 Digital Realty 的合同在历史上加权平均租赁期限为 2-3 年,直到 2022 年中,这远低于微软的 8-9 年 。由于规模远小于对手,Oracle 并不需要以数十兆瓦的大规模容量签约,这通常需要更长的合同承诺。虽然到 2022 年,OCI 已经成长为一个数十亿美元的业务,但其规模仍比 Azure 和 AWS 小一个数量级。它的市场份额在增长,但起点较低,更多是受益于客户向云端转型,而不是通过赢得新客户和/或将客户从 AWS 和 Azure 转移过来。

甲骨文的2024年转型
随着 ChatGPT 的崛起和 Nvidia 的扩张推动数据中心市场进入产能受限的环境,数据中心开发商要求签订 10 年以上的合同以交付大规模产能。由于超大规模客户的需求极为强劲,分配给企业的 10 兆瓦以下产能变得稀缺。
Oracle 必须做出选择。由于没有与竞争对手超大规模云厂商相同的规模,承诺数百兆瓦、为期 15 年的产能会带来重大搁置成本风险 。不仅存在相较于收入增长过度承诺的风险,还存在选址风险 :如果你的新数据中心建在波特兰,但大部分客户需求却来自达拉斯怎么办?
拉里·埃里森愿意承担这种风险,并承诺从 2023 年 11 月到 2025 年 1 月提供超过 2GW 的容量。在此期间,Oracle 是美国单一最大的数据中心容量租赁方 。为了让大家有个直观的概念,2GW 的数据中心租赁容量相当于每年约 30 亿美元的支出……高于 OCI 在 2022 财年的收入 。合同期限也大幅增加,10 年以上的长期合同成为常态,正如上面的 Digital Realty 图表所显示的那样。
下方显示的未完成订单增长表明,Oracle 能够立即将 GPU 集群销售给客户。

Oracle 的制胜“混合”数据中心战略
自建、租赁、Oracle 的劣势
我们认为,甲骨文成功的关键在于其能够利用一种混合基础设施战略,介于新型云服务商(Neocloud)和超级规模云服务商(Hyperscaler)之间——我们可以称之为“投资级新型云服务商”。
截至目前,甲骨文还不具备自建数据中心的能力,这相较于其他能够结合自建和租赁的数据中心,并且通常在大型计算集群中采用自建方式的超级规模云服务商来说,是一个劣势。数据中心市场通常是这样构建的:
- 超大规模云服务商自建大型计算集群,这些集群通常位于非常偏远的地区,比如谷歌在爱荷华州康瑟尔布拉夫斯,或 Meta 在俄勒冈州普林维尔和新墨西哥州洛斯卢纳斯。超大规模云服务商投资光纤基础设施,并寻找具有巨大扩展潜力和廉价电力的地区。
- 数据中心开发商(如 Digital Realty)通常围绕大都市区建设,拥有充足的连接性,并且靠近其终端客户——例如阿什本(靠近华盛顿特区)、硅谷或达拉斯,这些通常被称为“一级市场”。这是因为租赁市场在历史上很大程度上是一场房地产游戏,在高需求市场中,资产在未来几十年内更有可能保持价值,回报也更高。
需要注意的是,靠近终端客户非常契合“云思维”,这使得位于一级市场的资产对 Azure、AWS、GCP 和 OCI 云可用区(AZs)极具吸引力。这与 Satya Nadella 最喜欢的词—— 可替代性 ——完美契合。
从一级市场到德克萨斯州阿比林
随着 AI 竞赛的开启,超大规模云服务商加快了自建步伐,并在 2023 年底开始建设多个千兆瓦级的数据中心。Oracle 最初的应对方式是与其传统的共址合作伙伴(如 Digital Realty 和 QTS)在大型都市区共同扩张。下图展示了他们在一级市场的一个 AI 园区。

它还在一些尚未成熟的市场(如盐湖城地区)获取了产能。但由于一级市场过于拥挤,许多二级市场又难以满足电力需求,要获得接近千兆瓦规模的数据中心以确保最大的 AI 合同几乎是不可能的。 那些稀有的合适场地在 2023 年和 2024 年初都已被微软预先租赁 。

这促使了一个新市场细分领域的出现:以 AI 为核心的开发者。许多新进入者,通常来自加密挖矿领域,意识到电力已成为首要关注点,并利用他们现有的互联协议,规划建设远离人口中心但电力充足的大型数据中心。Core Scientific 与 Coreweave 签订的 570 兆瓦合作就是一个很好的例子。然而,由于缺乏资质认证以及自建替代方案的存在,“以 AI 为核心”的开发者在争取超大规模客户方面普遍遇到困难。他们的目标市场依然是新云服务(Neocloud)领域,但由于许多参与者信用评级较低,无法签署 10 年以上的合同,融资变得极具挑战:
- Neocloud GPU 合同通常为 2-3 年,最长为 5 年。
- 数据中心开发商的回本周期通常为7-9年。
甲骨文将这一差距视为参与大型 AI 合同市场的机会,在德克萨斯州阿比林确定了一个千兆瓦级别的场地,并与 Crusoe 签订了一份为期 15 年的数据中心协议——而当时 Crusoe 在纸面上还是一家没有数据中心经验的加密矿企。虽然 Crusoe 拥有值得信赖的人才,但该公司实际上并未执行过如此大规模的项目。首份合同于 2024 年年中签署,涵盖约 220MW 的 IT 容量(据我们估算),2025 年初又签署了约 660MW 的扩展协议,使合同总价值达到约 150 亿至 200 亿美元。
换句话说:Oracle 承诺每年向一家没有经验的开发商支付超过十亿美元,持续十五年。 很难低估这个赌注有多大胆!即使 OpenAI 承诺购买该园区的所有算力,这些五年期合同加起来也让 OpenAI 每年接近 100 亿美元的支出,而这家初创公司在 2024 年中期的年化收入大约为 20 亿美元,且严重亏损。Oracle 的这个赌注面临着信用风险和期限风险 。

当然,甲骨文的大胆举措是其成为 Stargate,这个声称将在生成式 AI 上投资 5000 亿美元的高调合资企业一部分的关键。鉴于我们对扩展定律以及整个 AI 行业增长的看法,我们认为这是一次天才之举,甲骨文将从与新兴行业巨头的长期合作关系中受益。
Stargate 的潜在收益有多大?
关于甲骨文究竟能从中获益多少,仍然存在疑问。由于拉里·埃里森公开表示尚未签署任何 Stargate 合同,许多投资者倾向于认为首批 1000 亿美元的投资尚未入账,另外还有 4000 亿美元即将到来——而这还不包括国际 Stargate 项目。
但我们认为事实并非如此。据我们所知,Stargate(合资企业)实际上并不存在,也没有做过任何有意义的事情——所以 Larry 在事实层面上是正确的。另一方面,位于德克萨斯州阿比林的 Crusoe/Lancium 园区、规模约为 880 兆瓦的 OpenAI 交易(通常被称为 Stargate)却是真实存在的……而且已经计入了 Oracle 的账目。我们认为第二阶段是在 2025 年 1 月签约的,这在 Oracle 的租赁活动和该季度的 RPO 增长中都有体现。第一阶段则是在前两个季度签约的。

另一个广泛讨论的“Stargate”交易正在中东进行。然而,据我们所知,这笔交易不会对 Oracle 的财务状况产生实质性影响,因为 GPU 集群将由 G42/Core42 搭建。
那么,我们应该期待 Stargate 带来任何利好吗?
- 来自 OpenAI 和潜在的新 GW 级别交易:是的。拉里在 2026 财年设定的超过 100% RPO 增长目标,以及我们预测的超过 300 亿美元资本支出,没有 OpenAI 的贡献是无法实现的。
- 来自 Stargate 合资企业:并没有太大变化。Stargate 合同将取代 OpenAI 的需求,而不会带来净新增。初始 1.2GW 德克萨斯州阿比林之外的新 Stargate 项目才会是新增部分。我们已经在 Core Research 上发布了相关内容。
- 来自国际 Stargate 项目:这实际上可能弊大于利,具体取决于 Oracle 的参与程度。希望承载 OpenAI 的主权国家可能会倾向于绕过 Oracle,直接与 Sam 的公司合作。
将 Stargate 视为 OpenAI 合同的新增,意味着这些交易本来不会发生,但我们认为这种说法并不准确。收入增长远超目标,之前的基础设施计划也已大幅上调。Oracle 正在全球范围内寻找产能以服务其关键客户,我们预计他们会实现目标——这再次得益于他们的数据中心战略。 但其他公司也将分得一杯羹 。
亚太地区的扩展与字节跳动的关系
虽然 Abilene 和 OpenAI 的合作吸引了所有的头条关注,但 Oracle 与字节跳动的合作规模仍未引起足够重视。我们认为,TikTok 的母公司是全球最大且增长最快的 GPU 用户之一 ,其规模可与美国的超大规模云服务商媲美,并且目前是 Oracle 最大的 GPU 客户。我们认为他们在美国有几笔规模可观的交易,尤其是在北弗吉尼亚,但更令人印象深刻的是他们在东南亚的增长,这促成了全球第二大 AI 数据中心枢纽的出现:新加坡-柔佛-巴淡枢纽,如下图所示。普遍认为,Oracle 在东南亚的大部分 GPU 算力都分配给了字节跳动。

下图展示了我们认为他们最大的“联合集群”,预计在一年内将达到600-700兆瓦,并有可能在2028年达到2吉瓦。

Oracle 在亚太地区的主要数据中心合作伙伴之一是 GDS International。今年一月,该公司更名为 DayOne,其最大客户(按承诺用电量计算)远远是字节跳动。Oracle 排名第二,并且据我们所知,是 DayOne 唯一的大型西方客户( 但很快会有第二家 )。DayOne 展示了其在不到 12 个月内将数据中心从“零”建设到全面运营的专业能力——如下图所示,接近 100 兆瓦。需要注意的是,这并非 DayOne 独有:中国的超大规模云服务商已经采用模块化数据中心建设技术多年,并以极快的部署能力著称。

鉴于在东盟和欧洲的激进增长计划,我们预计该公司将继续以极快的速度增长,在一年内其总承诺电力很可能超过 1GW,其中一半将投入运营。大部分电力将服务于其两大核心客户。

通过 GDS 和其他运营商, 字节跳动计划在东盟、欧洲和拉丁美洲大幅提升算力容量 。每当字节跳动在新地区部署时,我们都会看到其与当地 GPU 云服务商签订容量合同。因此,我们预计整个行业将从这轮扩张中大幅受益,而甲骨文将获得可观的市场份额。我们的数据中心行业模型会跟踪并预测最大规模的超级云厂商和新兴云厂商的逐站点部署情况及总兆瓦容量。
甲骨文的网络架构和成本优势
接下来我们将讨论甲骨文的一些成本优势,主要聚焦于网络方面。争夺大规模 GPU 合同的竞争对手主要有两类公司:
- 超级云厂商:甲骨文通常凭借更快的速度和更低的价格获胜。其他超级云厂商完全可以匹配甲骨文的定价,并且在许多场合也确实这样做过,但他们通常更关注回报率更高的机会。债务融资也使得甲骨文的资本成本低于超级云厂商。
- 新云巨头:尽管竞争日益激烈,Oracle 拥有几项关键的成本优势,使得竞争对手难以在保持有吸引力回报的同时匹配其定价。
我们认为甲骨文的成本优势体现在三个方面:
- 网络——我们将在下文解释甲骨文相较于竞争对手在 GPU 集群总拥有成本(TCO)优化方面的做法。
- ODM 与 OEM——通过直接与富士康合作,甲骨文绕过了戴尔和超微的额外利润空间。
- 资本成本——凭借投资级地位以及对债务融资的开放,甲骨文的 GPU 云业务很可能拥有市场上最低的资本成本。相比之下,大多数新兴云厂商的债务成本高达两位数,而超大规模云厂商则主要依靠股权融资购买 GPU。
下文展示了 Oracle 经过优化的网络配置以及更低的服务器价格,如何实现比新兴云巨头高出 20%的资本支出优势。我们新推出的 AI 网络模型 ,为集群网络配置提供了详细说明,并对构建该网络的各项成本进行了逐项列举。客户还可以利用该模型,估算 Arista 可能向 Oracle 等运营商销售的交换机数量,以及未来几年 Arista 整体交换机市场的机会。

Oracle 的网络能力是其强项之一,也是其在我们首次评级中获得 ClusterMAX™ 金奖的关键原因之一。通过我们在 H100 和 H200 集群上的测试,我们发现 OCI 的 RoCEv2 网络在性能上与 Spectrum-X Ethernet 非常有竞争力,NCCL-test 的表现非常出色。

Oracle 有软件和技术护城河吗?
现在让我们把注意力转向甲骨文的财务回报。我们将首先讨论甲骨文是否拥有软件与技术护城河,以及向 GPU 云客户追加销售云服务的能力。接下来,我们将估算甲骨文大型合同的利润率,并推导出收入和息税前利润的预测。最后,我们将对行业的长期格局提出一些看法。