亚马逊 AI 复兴

本文作者:semianalysis
AWS 与 Anthropic 的 Trainium 芯片千兆瓦级扩展 Anthropic 千兆瓦级集群、Trainium 加速部署、最佳内存带宽性价比、系统级路线图、Bedrock 与内部模型
两年半前,我们就预警过 AWS 即将面临的"云危机"。如今证据已堆积如山。AWS 是亚马逊帝国的皇冠明珠,贡献集团约 60%的利润,并主导着利润丰厚的云计算市场。但它难以将这一优势延续到新的 GPU/XPU 云时代。
微软 Azure 目前在季度新增云收入方面已占据市场领先地位,谷歌云与 AWS 之间的差距显著缩小——尤其是我们持续报道一个多月的谷歌 TPU 重大进展已引发市场关注。今年以来,亚马逊在四大科技与 AI 巨头中明显落后,投资者普遍因其在 AI 领域失去发展动能而调低估值。

今日 SemiAnalysis 再次提出与市场共识相左的研判:当市场过度渲染"云服务危机"主题时,我们预判 AWS 将迎来 AI 复兴。一个月前我们已向核心研究订阅用户阐述这一观点,预测到 2025 年底其年增长率将加速突破 20%。

亚马逊的救星名为 Anthropic。这家初创公司在 2025 年生成式 AI 市场中表现突出,年内收入增长五倍,年化收入达 50 亿美元。

为保持这一势头,Anthropic 正全力押注扩展定律 。虽然达里奥的初创公司比 OpenAI、xAI 和 Meta 超级智能获得的关注更少,但其投资力度毫不逊色。AWS 为其核心客户正在最后建设阶段的数据中心容量远超千兆瓦级别 。AWS 正在以史上最快的速度建设数据中心,且未来还有更多规划 。

为理解并预测按云服务提供商划分的 AI 实验室 GPU/XPU 算力规模,我们依托基于实时卫星影像技术的数据中心行业模型 。该模型获得所有超大规模运营商、AI 实验室及全球顶级投资者的信赖, 每季度为 OpenAI、Anthropic、xAI、Meta 超级智能、Google DeepMind 等机构提供逐栋数据中心建筑级别的预测报告 。 欢迎联系我们获取更多信息 。
Trainium 与 GPU 的对比
亚马逊的 AI 数据中心虽在规模和速度上令人瞩目,但单体建筑的设计并无特别之处。 这种极度优化风冷效率的蓝图 ,与五年前的传统 AWS 云数据中心如出一辙。
这些设施的独特之处在于其内部:它们将部署全球最大规模的非英伟达 AI 芯片集群,最大园区内 Trainium2 芯片数量接近百万颗 。要全面了解 Trainium2 系统,请参阅我们 2024 年 12 月的技术深度解析 。
Trainium2 在多方面落后于英伟达系统,但对 AWS/Anthropic 的千兆瓦级合作项目具有关键意义。其单位总拥有成本下的内存带宽优势完美契合 Anthropic 激进的强化学习路线图 。Dario Amodei 的初创公司深度参与了设计流程,其对 Trainium 技术路线的影响将在此基础持续扩大。
简而言之:Trainium2 正趋近于一项 Anthropic 定制芯片计划 。这将使 Anthropic 与 Google DeepMind 一起,成为短期内唯一受益于紧密软硬件协同设计的 AI 实验室。

本报告将深入剖析亚马逊 AI 复兴战略的方方面面:与 Anthropic 的合作、数据中心及 Trainium 芯片。在报告最后,我们将对 Anthropic、AWS Bedrock 平台及内部模型进行长期展望,并解释为何现状并非一片坦途。
首先,回溯 AWS 迄今在 AI 云领域落后于竞争对手的根本原因。
AWS 生成式人工智能表现不佳
要了解亚马逊在生成式 AI 时代表现不佳的原因,我们可以分析 GPU/XPU 云市场成功的驱动因素。最简单来看,GPU/XPU 算力客户主要分为两类:
- 批发裸机用户:OpenAI、Anthropic、字节跳动等大型客户及其他超大规模企业
- 托管式 SLURM/Kubernetes 用户:初创企业、研究机构和企业试点项目等较小规模客户
云计算危机与 ClusterMAX 表现不佳
在第二类中,我们的 ClusterMax AI 云评级是衡量相对优势与劣势的最佳方式。白金级与黄金级评定的 AI 云平台比其他平台更受青睐,并拥有高于平均水平的定价权。因此,CoreWeave、Oracle、Nebius、Crusoe 和 Azure 等厂商在多租户 GPU 集群市场表现优异——这类集群需要高性能和先进的软件层支持。

正如两年前预测的那样 ,亚马逊表现不佳的关键在于使用了定制网络架构 EFA。AWS 在前端网络使用 ENA 取得的成功尚未在后端 EFA 上复现。EFA 在性能上仍落后于其他网络方案:英伟达的 InfiniBand 和 Spectrum-X,以及思科、Arista 和 Juniper 的 RoCEv2 方案。原始性能并非唯一指标,EFA 的用户体验也不及 InfiniBand 和 RoCEv2。尽管如此,亚马逊最新 EFA v4 在实际消息大小下的性能正在改善,虽然仍落后于竞争对手。
亚马逊的定制网络还因其对英伟达系统的定制化要求而延长了产品上市周期 。其他方面如高级被动/主动自动化每周定时健康检查策略,也不及金牌与白金评级云服务商完善。
我们即将发布的 ClusterMAXv2 评级将基于专有测试,对所有主要云服务商进行更新评估。敬请关注!
寻找核心客户
对 AWS XPU 业务增长更为关键的是锁定核心客户——这波生成式 AI 需求浪潮中的市场缔造者 。规模、上市时间、深度合作和定价策略才是赢得这些客户的关键,其重要性远超过高级软件层。
微软就是最佳例证。Azure 在 AI 领域的卓越表现完全得益于与 OpenAI 的合作。截至 2025 年第二季度(2025 年 6 月),OpenAI 超过 100 亿美元的云支出全部由 Azure 承接。

亚马逊很早就意识到需要一个核心客户,并于 2023 年 9 月向 Anthropic 投资了 12.5 亿美元,并可追加至 40 亿美元。2024 年 3 月,双方合作进一步深化,Anthropic 承诺使用 Tranium 和 Inferentia 芯片。2024 年 11 月,亚马逊又向 Anthropic 追加了 40 亿美元投资,同时 Anthropic 指定 AWS 为其主要 LLM 训练合作伙伴。
Anthropic 表现优异,AWS 表现欠佳?
亚马逊的押注是正确的。Anthropic 显然是 2025 年生成式 AI 市场的领跑者,年收入从 10 亿美元飙升至 50 亿美元。在此背景下,AWS 的表现不佳令投资者感到沮丧是可以理解的,但他们误解了 Anthropic 在训练和推理方面的支出构成。

亚马逊尚未从其与 Anthropic 的合作中真正获益, 主要有两个明显原因 :
- 截至 2025 年第二季度,Anthropic 的云支出规模仍不足 OpenAI 的一半。
- 在扩大与 AWS 的合作之前,Anthropic 大部分支出流向了谷歌云——这家 AI 公司早期主要投资者之一(2022 年底 3 亿美元融资轮)及 2023-2024 年首选云合作伙伴。

Anthropic 与 AWS 联合打造的多吉瓦级 AI 训练基础设施
我们尤其认为,Anthropic 公司迅速飙升的推理需求主要由 Google Cloud 满足。拥有全球最佳的推理系统(TPU)是一项关键竞争优势。
AWS 的基础设施建设旨在为其关键客户抢占市场份额,同时重点聚焦于训练领域。虽然 Anthropic 不像 OpenAI、xAI 和 Meta 那样频繁登上头条,但它已全力投入通用人工智能竞赛,并不打算在训练支出上有所保留。Anthropic 领导层深信强化学习的规模化潜力。
这一信念最早将在今年变为现实。下图展示的三个 AWS 园区已进入建设最后阶段,其超过 1.3 吉瓦的 IT 容量将专门用于满足 Anthropic 的训练需求 。建设速度令人瞩目。

尽管这些数据中心从空中俯瞰已初具规模,但我们认为它们尚未产生实质性收益。Trainium 芯片在组装阶段遭遇了一些良率问题——这对新系统而言相当常见。我们预计到 2025 年底,亚马逊云科技(AWS)这三座大型园区将显著提升其整体营收,推动年增长率突破 20%的门槛。

Anthropic 并未止步于此。其以 1830 亿美元估值完成的约 130 亿美元融资轮次,将为与 AWS、谷歌等公司签署更多合作协议提供资金。AWS 同样没有坐以待毙——他们已开始动工建设未来千兆瓦级规模的数据中心,以把握这一增长机遇。

如前所述,这些数据中心将主要配备 AWS 定制芯片 Trainium。考虑到如此庞大的规模,我们不得不强调 Anthropic 这一豪赌的惊人魄力 ——他们不仅承诺投入数百亿美元资金,更将赌注押在了一款尚未完全验证的芯片上!
让我们通过深入分析 Trainium 的总拥有成本(TCO)和路线图,来理解他们的战略布局。
Trainium2 TCO 分析——Anthropic 的豪赌如何可能获得回报
Trainium2 的供应链信号目前极为强劲。我们行业领先的 AI 加速器模型同时追踪芯片封装发货量和系统/机架发货量,自年初以来这两项数据均大幅增长。该模型提供包含 Trainium2 和 Trainium3 产品系列的 10 余款 SKU 的季度销量预测,并指出哪些供应商将从特定 SKU 中获得超额收益。 联系我们获取更多信息 。

请注意,这是芯片生产环节,机架生产会有所滞后,但我们也在跟进追踪。
与英伟达和谷歌 TPU 竞争绝非易事。当谷歌推出第七代 TPU Ironwood 时,Trainium2 仅是亚马逊第三代 AI 加速器。
芯片规格:Trainium2 全面落后,但……
简单对比芯片规格就能看出 Trainium 明显落后于英伟达:
- 英伟达 GB200 的 FP16 浮点运算能力优势达 3.85 倍 (2500 万亿次/秒/芯片 vs Trainium2 的 667 万亿次/秒/芯片)。需注意规格表数据相比实际可达到的运算能力存在虚高。
- 在内存带宽方面差距缩小至 2.75 倍 (8000GB/s/GPU vs 2900GB/s/Trn2)

评估扩展网络带宽是另一个关键项目。我们多次解释过扩展网络对于推理模型推断的重要性 。我们对强化学习的深度剖析强调了强化学习与推理工作负载的相似性,使得内存带宽成为训练后扩展的关键要素。
- 英伟达的 GB200 NVL72 在全球规模上拥有总计 576TB/s 的内存带宽。
- 这相比 Trainium2(Teton2-PD-Ultra-3L 型号)的 186TB/s 具有 3.1 倍的优势 ——需要注意的是,不同型号的具体数值会有所变化。
尽管 Trainium 在硬件指标上明显落后,但一旦我们将总拥有成本纳入考量,情况就会发生变化。
Trainium 在每单位总拥有成本(TCO)上的内存带宽优势
在下表中,我们将总拥有成本(TCO)纳入比较。虽然英伟达在每有效训练 PFLOP 的 TCO 方面具有显著优势,但 Trainium2 在每百万 Token 的 TCO 和每 TB/s 内存带宽的 TCO 方面极具竞争力。

我们认为英伟达即将推出的 VR200 NVL144 也不会改变其相对于 AWS Trainium3 的竞争格局。需要明确的是,总拥有成本(TCO)还涉及许多其他变动因素。AWS 拥有更适合某些用例的其他系统级架构部署方案。展望未来, 英伟达的 Kyber 机架将拥有全球最先进的纵向扩展网络架构 。
要全面了解 50 多款 Nvidia SKU 的总拥有成本(TCO),以及与所有 AMD、Trainium 和 TPU SKU 的详细 TCO 对比, 请查阅我们的 AI 云 TCO 模型 。全球顶级超大规模云服务商、新兴云平台及其金融投资方都依赖我们的模型来把握投资决策时机。
Anthropic 正押注于软硬件协同设计
Trainium2 在每 TCO(总拥有成本)上的内存带宽优势是理解 Anthropic 选择的关键。虽然英伟达的芯片和系统在大多数方面表现更优,但 Trainium2 完美契合 Anthropic 的技术路线图。他们是强化学习等训练后扩展技术领域最激进的 AI 实验室,其发展路线更受内存带宽而非算力限制。我们近期关于 HBM 的报告深入分析了哪些 AI 工作负载往往受内存带宽制约。
Anthropic 的规模扩张将使其不仅成为 Trainium2 唯一的大型外部终端用户,其需求规模还将远超亚马逊内部需求(如 Bedrock、Alexa 等)。如今他们深度参与所有 Trainium 芯片的设计决策,实际上已将亚马逊 Annapurna 实验室作为定制芯片合作伙伴! 这使得 Anthropic 成为除 Google DeepMind 外,唯一受益于软硬件深度协同设计的 AI 实验室 。
Trainium 的发展路线图:加大系统投入
亚马逊正为其核心客户推出全新的系统级架构。目前 AWS 已部署的两套系统分别是 Teton PD 和 Teton PD Ultra。明年新款 Teton PDS 与 Teton Max 将开始大规模出货。 我们的 AI 加速器模型可提供季度性的精确出货量及各 SKU 细分数据 。

关键区别在于引入了名为 NeuronLinkv3 的全互联扩展网络。 因此,Trainium 的架构正逐渐向英伟达的 NVL72 NVLink 靠拢。
四个 NeuronLinkv3 交换机托盘将放置在机架中央,上下各均匀分布 16 个计算托盘。 正如两个月前在 Core Research(全球顶级对冲基金信赖的机构研究服务)中指出的那样,某些供应链厂商将获得不成比例的收益 。自我们发布报告以来,该厂商股价已上涨 73%。我们认为 PDS 的推出是 Trainium 追赶 Nvidia 进程中的过渡步骤。我们还相信 Anthropic 深度参与了这套新系统级架构的发布。

Anthropic 在设计决策中日益深入的参与预示着未来规模的可观增长。不过他们并未放弃 TPU 和英伟达 GPU。我们的加速器模型能按具体 SKU 细分预测亚马逊与谷歌云的芯片采购情况,而数据中心模型则帮助我们理解哪些数据中心和云服务伙伴支持 Anthropic 的扩张。正如我们一个多月来持续分析的,2026 年 Anthropic 的 TPU 部署规模将极其庞大,其合作条款也包含独特要素
现在让我们以更长远的视角来评估 AWS 未来的发展图景。付费墙后内容包含以下要点分析:
- 亚马逊关键客户 Anthropic 的发展前景
- 亚马逊超越 Anthropic 的生成式 AI 布局:Bedrock 平台与内部 LLM 研发
- 2026 至 2027 年 Trainium 芯片的产能扩张、潜在新外部客户,以及这可能如何影响亚马逊未来几年的财务状况。