H100 与 GB200 NVL72 训练基准对比

本文信息来源:semianalysis

功耗、总体拥有成本及可靠性分析,软件随时间改进

每令牌焦耳数、百万令牌 TCO、MFU 指标、美国家庭年能耗可处理的令牌数、DeepSeek 670B、GB200 可靠性问题、背板停机时间

前沿模型训练已将 GPU 和 AI 系统推向性能极限,使得成本效益、能源效率、单位总拥有成本(TCO)下的性能表现以及系统可靠性成为高效训练的核心议题。Hopper 与 Blackwell 架构的对比绝非英伟达宣传的那般简单。

本报告将首先展示超过 2000 块 H100 GPU 的基准测试结果,分析模型浮点运算利用率(MFU)、总拥有成本(TCO)及每训练百万 token 成本等数据。我们还将研究能源消耗,通过计算每训练 token 所消耗的实用焦耳能量,并将其与美国普通家庭年用电量进行对比,从社会维度重构能效认知。此外,我们将呈现 GPU 集群从 128 块 H100 扩展到 2048 块 H100 时,以及在不同版本英伟达软件环境下的分析结果。

在本报告后续部分,我们还将分析 GB200 NVL72 在 Llama4 400B MoE 和 DeepSeek 670B MoE 上的基准测试结果,并将这些数据与之前 H100 的测试结果进行对比。我们将探讨:当计入可靠性因素后,GB200 NVL72 的每美元性能优势是否依然成立。

可靠性不足导致的停机与工程时间损耗,是我们计算总体拥有成本(TCO)效能比时考量的主要因素之一。目前由于软件持续完善及可靠性问题尚待解决,GB200 NVL72 尚未进行过大规模训练任务。这意味着英伟达的 H100/H200 以及谷歌 TPU 仍是当前能成功完成前沿规模训练的唯一 GPU 方案。就现阶段而言,即便是前沿实验室和云服务商中最先进的操作团队,也尚未能在 GB200 NVL72 上开展超大规模训练。

话虽如此,每种新架构自然都需要时间让生态系统完善软件以充分发挥架构潜力。GB200 NVL72 的软件适配进度略慢于前几代产品,但差距不大,我们确信在今年年底前 GB200 NVL72 的软件支持将显著改善。结合前沿模型架构在设计时就考虑了更大规模的扩展,我们预计到年底使用 GB200 NVL72 将带来显著的效率提升。

在可靠性方面,英伟达仍需与合作伙伴更紧密协作以快速解决重大挑战,但我们认为整个生态系统将迅速整合资源应对这些可靠性难题。

基准测试与分析方法论

我们的基准测试与分析采用英伟达 DGXC 基准测试团队最新开发的 DGX 云基准测试脚本,这些脚本在英伟达内部 H100 EOS 集群上运行,该集群配置了 8×400 Gbit/s 的 InfiniBand 网络。这些测试结果将作为官方参考数据,用于在 Neocloud 服务商与客户定义服务等级协议(SLA)时,作为 Neocloud 环境性能的比对基准。

云服务提供商也可向英伟达提交基准测试数据,若能达到这些 EOS 参考指标,即可获得”英伟达典范云”认证。我们即将推出的 ClusterMAXv2 系统在评估服务质量时,将重点考量供应商的典范云认证状态——该认证标志着供应商能为大规模 GPU 部署提供跨多种工作负载的基准性能表现。

上述基准测试采用 NeMo Megatron-LM 框架进行,但考虑到多数 GPU 终端用户并不完全依赖该框架,DGXC 基准测试团队计划将测试范围扩展至 Torch DTensor 原生框架(如 TorchTitan)。

特别感谢英伟达 DGCX 基准测试团队制定这套测试标准并提供参考数据,为推动 GPU 云行业发展作出的贡献!

H100 与 GB200 NVL72 的资本支出、运营支出及总体拥有成本分析

过去 18 个月里,H100 服务器的价格有所下降,每台约为 19 万美元。对于典型超大规模数据中心而言,包含存储、网络等配套设备后,单台服务器的前期总资本支出将达到 25 万美元。

再看 GB200 NVL72,仅机架级服务器对典型超大规模用户而言就需 310 万美元。若包含网络、存储等配套设备,单机架整体成本将攀升至约 390 万美元。

在从超大规模企业到新兴云巨头再到新兴云服务商的所有三类买家对比中,GB200 NVL72 的每 GPU 综合资本成本约为 H100 每 GPU 综合资本成本的 1.6 至 1.7 倍。

《H100 与 GB200 NVL72 训练基准对比——功耗、总拥有成本及可靠性分析,软件随时间的改进》

对比两款系统的总体运营成本,我们发现 GB200 NVL72 的单 GPU 运营支出并未显著高于 H100。成本差异主要源于 GB200 NVL72 的单 GPU 整体功耗高于 H100,这主要是由于 GB200 芯片功耗达每颗 1200 瓦,而 H100 仅为 700 瓦。

《H100 与 GB200 NVL72 训练基准对比——功耗、总拥有成本及可靠性分析,软件随时间的改进》

在综合考虑资本支出和运营支出以计算总体拥有成本(TCO)时,我们发现 GB200 NVL72 的 TCO 比 H100 高出约 1.6 倍。这意味着 GB200 NVL72 的性能至少要达到 H100 的 1.6 倍以上,才能在单位 TCO 性能比上优于 H100。

《H100 与 GB200 NVL72 训练基准对比——功耗、总拥有成本及可靠性分析,软件随时间的改进》

英伟达可为机器学习社区改进的三项措施

在深入分析基准测试结果之前,我们将向英伟达提出三项关键建议。

首先,我们建议英伟达扩大基准测试范围并进一步提升透明度。为了持续推动整个 GPU 云行业的进步,英伟达需要对其超大规模合作伙伴和英伟达云合作伙伴(NCPs)进行全面基准测试,并将数据公开。这样机器学习社区的成员在签署价值数千万乃至数亿美元的合同前,都能将基准测试数据纳入决策考量。

例如, 在我们 ClusterMAX 评分系统的首个版本中就指出,谷歌云平台(GCP)老款 a3-mega H100 在训练 O(Llama 70B)规模模型时的平均 MFU(模型浮点利用率)表现比行业均值低 10%,在 O(8x7B)专家混合稀疏模型上的 MFU 表现则比均值低 15-20%。因此终端用户向 GCP 支付的租赁费用应比市场均价低 10-20%,才能实现与市场持平的每美元性能收益。建立一套覆盖超大规模云服务商和 NCP 供应商的公开基准测试体系,将极大简化公平合约价格的谈判流程并加速决策周期。通过省去冗长昂贵的概念验证环节,能为供需双方节省可观的时间与资金成本。

我们向英伟达提出的第二项建议是,他们应将基准测试范围扩展到 NeMo-MegatronLM 之外,因为许多用户更倾向于使用原生 PyTorch 搭配 FSDP2 和 DTensor。使用 NeMo-MegatronLM 的一个优势在于,该框架在任何时候都包含许多尚未在原生 PyTorch 中实现的性能特性。最新功能优先部署到 NeMo-Megatron 是合理的,但所有这些特性最多在一个月后都应被整合到原生 PyTorch 中。为此,英伟达应将更多工程师调配至 PyTorch 核心开发,而非继续为 NeMo 添加新功能。英伟达扩大基准测试范围时纳入 PyTorch 运行方案,也将与这一举措完美契合。

与其让工程师优化 NeMo,不如优先优化 TorchTitan。新推出的 NeMo AutoModel 库虽朝着正确方向迈进——在支持 Megatron-LM 的同时新增原生 PyTorch FSDP2 后端,但明显缺失原生 PyTorch 3D+并行与 DTensor 功能,且多数预训练特性尚未实现,当前功能主要面向微调场景。

我们的第三条建议是英伟达应持续加速 GB200 NVL72 背板的诊断调试工具开发。遗憾的是,即便经过长时间老化测试,NVLink 铜质背板的可靠性仍不尽如人意。GB200 NVL72 运营商还抱怨道,由于相关错误诊断工具落后且效率低下,该问题进一步恶化。英伟达可通过在 ODM/OEM 合作伙伴中执行更严格的验收测试来改善现状,再将 GB200 NVL72 机柜交付客户。

GPT-3 175B Token/s/GPU 训练性能与功耗表现。2024 年 1 月至 12 月的成本优化进展

下表展示了我们在 128 台 H100 集群上训练 GPT-3 175B 模型时,不同时间节点的基准测试结果。我们选取了从 2024 年 1 月至 2024 年 12 月期间不同版本的 NeMo-Megatron LM 运行数据,分别对应 H100 大规模部署后一年与两年的性能表现。

基准测试配置采用 128 张 H100 显卡,并设置 4 个数据副本。每个数据副本由 32 块 GPU 并行组成,通过 NVLink 域将每层张量在 4 块 GPU 间进行并行处理(即 TP=4),随后采用流水线架构。有人可能认为 TP=8 的设置最为理想,以匹配 H100 显卡 8 块 GPU 的完整 NVLink 域规模,但对于 GPT-3 175B 模型而言,采用 TP=4 能获得更高的算术强度。

具体来说,GPT3 175B 的隐藏维度为 12,288,这意味着如果使用 TP=8,结果将得到一个较小的 K 缩减维度 1,536。相比之下,当使用 TP=4 时,隐藏缩减维度则为 3,072。

基准测试的序列长度遵循原始 GPT-3 论文设置 ,采用 2048 的序列长度以及 256 样本的全局批量大小。这意味着模型在每个优化器步骤前会处理 50 万个(全局批量大小*序列长度)标记。

观察 BF16 模型的浮点运算利用率(MFU)时,我们发现 12 个月内从 34%提升至 54%,仅通过 CUDA 软件栈的优化就实现了 57%的训练吞吐量提升。这一进步源于 NVIDIA CuDNN/CuBLAS 工程师编写了更优化的融合 wgmma 内核,以及 NCCL 工程师开发出占用更少流式多处理器(SM)的集合通信算法等改进。归根结底,整个软件栈的协同优化才是关键所在。

FP8 混合浮点运算效率也呈现相同趋势,同期从 29.5%提升至 39.5%,仅通过软件优化就实现了 34%的吞吐量提升。

从成本角度来看,假设每 GPU 每小时成本为 1.42 美元(不含租赁利润),使用 FP8 精度训练 1750 亿参数的 GPT-3 时,每百万 token 的训练成本从 2024 年 1 月的 72 美分降至 2024 年 12 月的 54.2 美分。这意味着当采用原始 3000 亿训练 token 量时,GPT-3 175B 模型的训练总成本从 2024 年 1 月的 21.8 万美元优化至 2024 年 12 月的仅 16.2 万美元。

最后我们分析 GPT-3 训练过程的能耗情况。我们测算包含 128 块 H100 加速卡集群的整体功耗(含 GPU、CPU、网络设备、存储及其他组件),再乘以典型托管数据中心的电能使用效率值(PUE),最终得出每 token 对应的综合电力消耗焦耳数。

如同高中物理课不受欢迎的闪回,焦耳是能量单位,相当于 1 牛顿的力使物体沿力的方向移动 1 米所做的功。点亮一个 60 瓦白炽灯泡一秒钟消耗 60 焦耳(瓦特是每秒能量消耗的单位),每小时则消耗 216 千焦。另一种表示能量单位的方式是使用瓦时或千瓦时,即设备功率乘以使用小时数。2022 年美国普通家庭年均能耗为 10,791 千瓦时,约合 38,847,600,000 焦耳。将 10,791 千瓦时除以每年 8,760 小时,得出全年平均功率为 1,232 瓦——比单个 GB200 GPU 的 1,200 瓦功耗还略高一些!

我们发现,使用 2024 年 12 月版的 NVIDIA 软件时,每个训练 token 在 FP8 模式下消耗 2.46 焦耳,BF16 模式下消耗 3.63 焦耳。若以美国家庭年均用电量为基准,这笔能量预算可训练 158 亿个 FP8 token。进一步推算,用 GPT3 175B 模型训练 3000 亿 token 需要消耗 19 个美国家庭年用电量(FP8 模式)或 28 个家庭年用电量(BF16 模式)。

GPT-3 总训练成本 16.2 万美元,相当于 19 户家庭年用电量,听起来并不夸张。但正是无数实验和大量失败训练轮次的累积,导致了当前美国 AI 训练领域能耗的爆炸式增长。

弱扩展与强扩展

强扩展和弱扩展描述了针对不同问题设置(例如不同批量大小)扩展计算资源时的性能改进情况。

强扩展指在保持模型规模和全局批量大小不变的情况下扩展计算资源。此时可以利用阿姆达尔定律(描述通过并行化计算步骤可实现的加速比)来量化强扩展的加速效果。

而弱扩展则指通过扩展计算资源在恒定时间内解决更大规模的问题。AI 训练本质上采用弱扩展,因为可以通过增加训练任务使用的 GPU 数量来扩大模型规模和全局批量大小(取决于收敛情况)。

来源:SemiAnalysis, 性能与可扩展性——SCENET 暑期学校

Llama3 405B 模型在不同 GPU 数量下的每 GPU 令牌处理速度、百万令牌成本及每令牌能耗对比(弱扩展场景)

本基准测试研究了 Llama3 405B 模型的训练性能随 H100 GPU 集群规模扩大(弱扩展典型案例)的变化规律。

下表展示了当 GPU 集群规模从 576 个 H100 扩展到 2,304 个 H100 时,FP8 MFU 和 BF16 MFU 分别稳定在 43%和 54%左右。在 Llama 3 系列模型论文公布的训练过程中,研究人员使用 16,000 个 H100 训练 Llama 3 405B 模型, 采用类似并行策略实现了 41%的 BF16 MFU。需注意的是,上述预训练采用的序列长度为 8,192,而中期训练上下文扩展阶段每个样本的序列长度达到 131,072(而非 8,192)。这种超长序列需要跨 16 个节点进行上下文并行,由于环形注意力机制所需的额外通信开销,导致 MFU 降至 38%。

来源:SemiAnalysis

转向训练总成本分析,使用 2,304 块 H100 集群进行 BF16 精度训练时,仅完成 Llama 3 405B 模型 15 万亿 token 的预训练阶段,每百万 token 成本就达 1.95 美元。单预训练阶段总费用高达 2,910 万美元,这远高于混合专家模型(如 DeepSeek 单次训练仅需 500 万美元)的成本。

当然需要再次强调,该成本不仅包含最终成功训练的单次运行费用,还包括为达到最终阶段所需的大量实验成本、研究人员薪酬等综合支出。

Llama3 405B 的总参数量约为 GPT3 175B 的 2.3 倍,因此其综合能效每 token 消耗约 2.3 倍于后者——Llama3 405B 为 8.8 焦耳/token,而 GPT3 175B 为 3.6 焦耳/token。

这意味着,Meta 公司用相当于美国家庭年均用电量的能耗,就能在 BF16 精度下完成 44 亿 token 的 Llama3-405B 模型训练。而要完成 15 万亿 token 的收敛训练,其能耗将相当于 3400 户美国家庭一整年的用电总量。

Llama3-70B 训练性能:单 GPU 每秒处理 token 数/百万 token 成本/单 token 能耗焦耳 vs GPU 数量(弱扩展性测试)

接下来我们观察不同集群规模下 Llama3 70B 的训练性能表现。当集群规模从 64 张 H100 扩展到 2,048 张 H100 时,FP8 精度下的模型浮点利用率(MFU)下降了 10%,从 64 张 GPU 时的 38.1%降至 2,048 张时的 35.5%。值得注意的是,这种百分比下降幅度(考虑到 MFU 基数本就不高,百分比变化更具实际意义)相当惊人,因为随着规模扩大,每个数据副本的批处理量并未改变,并行策略也保持不变。所有测试仍采用 TP=4、PP=2 和上下文并行度=2 的配置——唯一实质变化是增加了更多数据副本。有趣的是,BF16 精度下的 MFU 降幅要小得多,仅 1-2%,从 64 张 H100 的 54.5%微降至 2,408 张 GPU 时的 53.7%。

Llama3 405B 的参数量是 Llama3 70B 的 5.7 倍,对于这类密集模型而言,所需浮点运算量(FLOPs)与参数量呈线性关系。因此理论上训练 Llama3 405B 的成本应是 70B 版本的 5.7 倍。实际测试表明,在约 2,000 张 H100 的规模下,使用 BF16 精度时,Llama3 405B 每百万 token 的训练成本比 70B 版本高出 5.4 倍。

在功耗方面,我们发现对于 FP8 精度训练,使用 2,408 块 H100 训练每个 token 的能耗比 64 块 H100 高出 10%。若使用 64 块 H100 以 FP8 精度训练 Llama 3 70B 模型至 15 万亿 token 收敛,其能耗仅相当于 440 户美国家庭的年用电量;而若采用 2,048 块 H100 规模训练,所需能耗将达到 472 户美国家庭的年用电量。

Llama3 8B 训练性能随时间变化

Llama3 405B 和 Llama3 70B 等较大模型均采用张量并行、流水线并行与数据并行策略,而训练 Llama3 8B 仅需在 NVLink 域内每对 GPU 间针对 8,192 序列长度实施上下文并行,并通过数据并行将工作分配至其他 GPU 对。本次分析中,我们还考察了随时间变化的训练性能,以评估全栈软件改进对训练效率的影响。数据显示,从 2024 年 11 月至 2025 年 4 月(即 Hopper 大规模部署 23 个月后),性能仅实现小幅提升。

下一部分我们将深入对比 GB200 NVL72 与 H100 的训练性能现状。通过训练 DeepSeek 670B MoE 和 Llama4 400B MoE 的基准测试,我们将从总体拥有成本(TCO)角度分析 GB200 相较 H100 的性能表现。

我们将深入探讨前文提及的 GB200 NVL72 有效诊断与调试工具缺失问题,并分析导致该系统可靠性不足的多重因素。这些挑战需要英伟达、云服务提供商、新锐云平台以及前沿实验室的终端用户共同攻克,才能在今年年底前实现 GB200 NVL72 平台上高效经济地训练前沿模型的目标。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读