元超级智能——领先的计算能力、人才与数据

本文信息来源:semianalysis

Meta 以约 300 亿美元估值惊人收购 Scale AI 49%股份,表明这家年现金流达 1000 亿美元的广告机器根本不在乎钱。尽管资源看似无限,Meta 在模型性能上却一直落后于基础实验室。

真正的警钟是当 Meta 在开源权重模型领域被深度求索(DeepSeek)超越时。这惊醒了沉睡的巨人。如今马克·扎克伯格进入全力创始人模式,亲自领导 Meta 的冲锋,并指出公司两大核心短板:人才与算力。作为仍在执掌科技巨头的最后几位创始人之一,马克根本不需要半分析(SemiAnalysis)来告诉他应该放缓股票回购以投资未来!

来源:Meta 财报及半分析(SemiAnalysis)预估

除了砸钱解决问题外,他正在从根本上重新思考 Meta 在生成式 AI 领域的策略。他正从零开始组建全新的”超级智能”团队,并亲自以令顶级运动员薪资相形见绌的待遇挖角顶尖 AI 人才。该团队挖角对象的典型报价是四年 2 亿美元——这相当于同行薪资的 100 倍。更有甚者,OpenAI 的研究/工程负责人曾拒绝过几份价值十亿美元的邀约。

更具标志性的是,扎克伯格将整个数据中心建设方案扔进废纸篓,现在正斥资数十亿美元在”帐篷”里搭建 GPU 集群!

来源:SemiAnalysis 数据中心模型 ——截至 2025 年 7 月 6 日

正如本报告详述,所有选项都摆在台面上。我们将解析 Meta 为追求超级智能在算力与人才领域史无前例的自我革新,以及这段征程的来龙去脉。从 Llama 3.0 开源统治到 Llama 4 巨兽的史诗级溃败,这位 AI 巨头虽受挫却未出局。事实上,我们相信 Meta 训练算力的增长速度将足以比肩 OAI。按人均研究人员计算,该公司正从 GPU 贫民跃升为 GPU 暴发户。

Meta GenAI 1.0:渐进式 AI 战略

与 OpenAI 等纯 AI 实验室相比,Meta 和谷歌等公司采取了”渐进式 AI”策略,通过改进推荐系统和生成式 AI 来增强现有产品,从而优化广告定向、内容标签和内部工具。这一策略在财务上取得了显著成效,使 Meta 能够从容应对苹果试图通过 iOS 14.5(2021 年底至 2022 年初)推出的应用追踪透明度(ATT)功能阻止其追踪用户的行为。

来源:公司申报文件

尽管 Meta 相比谷歌更能抵御生成式 AI 带来的冲击,但两家公司在 LLM 领域的表现都有些不尽如人意。其中一个原因在于资金主要被分配给了核心业务,而非用于追求超级智能。

“我们今年的资本支出增长将同时投向生成式 AI 和核心业务需求,其中大部分资本支出用于支持核心业务 。”

来源:Meta 2025 年第一季度财报电话会议,重点由 SemiAnalysis 提供

生成式 AI(GenAI)是这些科技巨头业务的延伸。它们不像 OpenAI 在聊天机器人领域或 Anthropic 在编程 API 领域那样,存在必须主导新应用场景的生存需求。这一点在领先 AI 基础实验室(如 OpenAI)与 Meta 之间计算资源与人力资本的分配对比中表现得尤为明显。

来源:The Information,SemiAnalysis 预估

因此,在衡量生成式 AI 消费级应用的用户覆盖和参与度时,Meta 和谷歌明显落后于 ChatGPT。

但这一局面正在改变。通过运用我们专有的加速器行业模型  和  数据中心行业模型 ,我们预测 Meta 未来几年将在生成式 AI 领域大幅增加投资。

来源:SemiAnalysis 核心研究, 实际数据需订阅后查看,位于报告底部。 

Meta GenAI 2.0——第一部分,重新定义数据中心战略(再次革新)

从建筑到帐篷式结构

就在一年前,Meta 废弃了沿用十年的”H”形数据中心蓝图,转而采用为 AI 优化的全新设计。

来源:SemiAnalysis 数据中心模型

2025 年的今天,扎克伯格决定再次重塑战略。受到 xAI 前所未有的上市速度启发,Meta 正在采用一种将速度置于首位的数据中心设计方案。他们已经在建造更多这样的设施!传统数据中心和房地产投资者仍对 xAI 孟菲斯基地及其上市速度心有余悸,这次将再次受到冲击。

来源:SemiAnalysis 数据中心模型 ——截至 2025 年 7 月 6 日 

这一设计无关美观或冗余,而是为了快速上线算力!从预制电力与冷却模块到超轻量化结构,速度是关键——因为这里没有备用发电设施(比如根本看不到柴油发电机)。

目前电力来自附近的 Meta 现场变电站。Meta 很可能采用精密的工作负载管理技术,以最大化利用电网输入的每一瓦电力。在最炎热的夏日,甚至可能需要关停部分工作负载。

来源:SemiAnalysis 数据中心模型 ——截至 2025 年 7 月 1 日 

普罗米修斯 1GW 人工智能训练集群——”全方位”基础设施战略

Meta 正在俄亥俄州悄然建设全球最大的人工智能训练集群之一。据其基础设施组织内部消息人士透露,他们将该集群命名为”普罗米修斯”。为超越竞争对手的 AI 实验室,Meta 实施了”全方位”基础设施战略:

  • 自建园区
  • 向第三方租赁
  • AI 优化设计。
  • 多数据中心园区训练
  • 现场部署的天然气发电设施(电表后端)

观察下方的 Prometheus 训练集群,我们认为 Meta 正通过超高带宽网络连接所有站点这些站点全部运行在由 Arista 7808 交换机(搭载博通 Jericho 和 Ramon 专用芯片)提供支持的统一后端网络上

数据来源:SemiAnalysis 数据中心模型  

通过自建与租赁相结合的方式,Meta 实现了更快速的扩容。事实上,他们在 2024 年下半年预租的算力规模已超越所有超大规模服务商,其中大部分位于俄亥俄州。

来源:SemiAnalysis 数据中心模型   

更夸张的是,当当地电网无法满足需求时,Meta 直接开启了”马斯克模式”。在威廉姆斯公司的协助下,他们正在建设两座 200 兆瓦的现场天然气发电厂。首期项目的设备配置包括:

  • 3 台 Solar Turbines 公司的 Titan 250 型涡轮机
  • 9 台 PGM 130 型涡轮机
  • 3 台西门子能源 SGT400 型涡轮机
  • 15 台 CAT 3520 往复式发动机
来源:西门子能源

未来 SemiAnalysis 将发布更深入的报告,专门分析这些为数据中心供电的系统的成本、优劣势等。这对某家现场天然气解决方案供应商将产生显著的负面影响 

OpenAI 在算力上的整体优势至关重要,因为强化学习的出现意味着分布在美国各地的多个大型数据中心可以异步协作,通过训练后阶段持续提升模型智能。

不甘示弱的 Hyperion——Meta 第二代前沿计算集群——正致力于消除与 OpenAI 的这项差距。

来源:SemiAnalysis 数据中心模型与加速器模型

超越”星际之门”规模:Meta 的 2GW 海伯利昂超级集群

当所有人的目光都聚焦在阿比林那座备受瞩目的”星际之门”数据中心时,Meta 已为此筹划应对方案超过一年,并取得惊人进展。据消息人士透露,路易斯安那州集群内部代号为”海伯利昂”,计划在 2027 年底前成为全球最大单体园区,仅第一阶段 IT 电力容量就将超过 1.5GW。

来源:DatacenterDynamics

Meta 于 2024 年底破土动工,目前正积极推进电力基础设施和数据中心园区的建设工作。

来源:SemiAnalysis 数据中心模型 ——2025 年 7 月 1 日图片 

需要说明的是,Meta 还有多个其他数据中心正在建设和扩建中。关于 Meta 所有 AI 数据中心的完整列表、预期竣工日期以及每栋建筑按季度划分的电力配置,请参阅我们的数据中心行业模型 

Llama 4 的溃败——从开源王子到落魄巨头的坠落

在深入探讨超级智能人才竞赛之前,我们应当先审视 Meta 如何陷入如此尴尬境地。继凭借 Llama 3 引领开源前沿之后,Meta 如今竟落后于中国的深度求索公司。

来源:OpenRouter,SemiAnalysis 预估

从技术层面分析,我们认为导致此次运行失败的主要因素如下:

  1. 分块注意力机制
  2. 专家选择路由
  3. 预训练数据质量
  4. 扩展策略与协调

分块注意力机制

若采用简单实现方式,大型语言模型中的注意力机制会随标记数量呈二次方增长。为解决这一问题,研究人员引入了内存高效机制。Meta 为 Behemoth 选择了分块注意力方案,但这可能是个决策失误。

来源:Awnihannun, SemiAnalysis

标准因果注意力机制 :想象一系列从左上角向外展开的三角形,每个三角形代表后续每个标记的注意力范围。当标记数量翻倍时,三角形的面积会变为四倍。

来源:Awnihannun, SemiAnalysis

分块注意力机制  将这个三角形分解为固定大小的区块。每个区块都会将注意力重置到一个新的”首个”标记。通过降低内存占用来提升效率,从而支持更长的上下文。Meta 认为需要这种机制来实现长上下文,但其代价并不值得。每个区块的首个标记无法获取之前的上下文信息。虽然存在一些全局注意力层,但正如我们下文所述,这远远不够。

来源:Awnihannun, SemiAnalysis

滑动窗口注意力机制作为其他模型中采用的技术,提供了一种更为平滑的替代方案:注意力窗口会逐词元向前滑动。这种方法保持了局部连续性,尽管长距离推理仍需要多个层级来传递上下文信息。

来源:Awnihannun, SemiAnalysis

Behemoth 采用的分块注意力追逐效率机制存在盲区,尤其在区块边界处表现明显。当思维链长度超过单个分块时,会削弱模型发展推理能力的效果。该模型难以进行长程推理。虽然事后看来这似乎显而易见,但我们认为部分问题在于 Meta 甚至没有建立适当的长上下文评估或测试基础设施,无法确定分块注意力机制不适用于开发推理模型。Meta 在强化学习和内部评估方面远远落后,但新挖来的员工将大幅缩小推理能力差距。

专家选择路由

大多数现代 LLMs 采用混合专家架构,其中在每个模型层之间,令牌会根据路由器的决策被分配到不同的专家模块。在现代 MoE 模型中,多数系统采用令牌选择路由机制进行训练——即路由器会生成一个维度为 T×E 的张量(T 代表总令牌数,E 表示 MoE 模型中的专家数量),随后在 E 维度上执行 topK softmax 运算,最终输出 T×K 维度的张量。这意味着路由器需要为每个令牌 T 选择 K 个最可能的专家模块,其中 K 可以是单个或多个专家。K 是研究人员可调整的超参数。

来源:《专家选择路由的混合专家系统》图 1 令牌选择路由机制

这种方法的优势在于,每个 token 都能确保被 K 个专家处理,保证每个 token 的信息价值被同等数量的专家吸收。其劣势在于某些专家可能被 token 过度”青睐”,而其他专家则训练不足,导致各专家的”智能”水平失衡。针对这一已知问题,多家顶尖实验室已开发出通过辅助损失( 或无损失 )负载均衡的解决方案。当使用专家并行(EP)训练时,由于模型分布在不同的 GPU 节点上,会导致更多集合通信(NCCL)在横向扩展网络(InfiniBand 或 RoCE)而非纵向扩展网络(NVLink)上运行,从而降低训练 MFU。这正是英伟达 NVL72 设计的主要动机——该设计将纵向扩展网络突破标准 8 路服务器的限制。

专家选择路由由谷歌于 2022 年提出,其逻辑正好相反:由专家选择前 N 个标记。基于路由器生成的相同 T×E 张量,在专家选择路由中会对 T 维度运行 topN softmax 运算,生成 E×N 张量。这意味着每个 E 专家都选择了 N 个最高概率的标记进行路由。研究人员可调整 N 超参数,但若要与标记选择路由方法对比,则 N = K * T / E。

来源: 采用专家选择路由的混合专家系统,图 1 标记选择路由

与标记选择路由直接对比时,专家选择路由能确保专家以平衡方式激活,避免因专家负载不均导致的性能下降。需要明确的是: 两种情况下都由路由器做出选择 。在标记选择中,路由器的输入是标记,由其选择专家;而在专家选择中,路由器的输入是专家,由其选择标记。

这种设计均衡了专家训练的负载,提升了分布式硬件上的内存频率利用率(MFU)。超大规模计算网络正是为这类并行处理而专门构建的,我们在网络模型部分对此有详细阐述。

该方法的劣势与令牌选择架构正好相反。专家选择路由可能导致某些”热门”令牌被多个专家同时处理。虽然这不会造成令牌选择路由中出现的训练瓶颈问题,但会导致 LLM 不再平等关注所有令牌,从而降低模型的泛化能力。

主要制约因素在于推理环节。推理过程分为两个阶段:预填充和解码。在预填充阶段,用户提示词被编码并加载到 KVCache 中,该步骤受计算吞吐量限制。解码阶段则逐层逐词元计算注意力机制并运行前馈网络。

专家选择路由在此面临挑战,因为每层每个专家只能从 1 个词元×批处理大小的数据中选择,导致每个专家处理的词元数量远少于训练时(例如训练时采用 8k 序列长度×16 批处理大小=每轮 12.8 万词元)。现代 GPU 网络的限制使得批处理规模难以达到经济高效的推理要求。

Meta 在运行过程中将专家选择路由改为词元选择路由  ,这导致专家模型未能充分专业化。

数据质量:自缚手脚的困境

Llama 3 405B 模型基于 15 万亿 token 进行训练,而我们认为 Llama 4 Behemoth 所需 token 数量将呈数量级增长,达到前者的 3-4 倍。获取足够高质量的数据是西方超大规模企业无法通过复制其他模型输出结果来绕过的重大瓶颈。

在开发 Llama 4 Behemoth 之前,Meta 一直使用公共数据(如 Common Crawl),但在训练中途切换为自建内部网络爬虫。虽然这种方式通常更优,但也产生了反效果。团队在清理和去重新数据流时遇到困难,相关流程未经过大规模压力测试。

此外,与 OpenAI、深度求索等所有其他领先 AI 实验室不同,Meta 未利用 YouTube 数据。YouTube 讲座转录文本及其他视频是极佳的数据来源,缺乏这些数据可能导致该公司难以开发出优秀的多模态模型。

规模化实验

除了上述技术问题外,Llama 4 团队还难以将研究实验扩展为完整的训练流程。研究方向存在分歧,且缺乏领导层来决定哪条路径最具发展前景。某些模型架构选择未经充分消融实验就被仓促纳入,导致扩展阶梯管理混乱。

以 OpenAI 的 GPT 4.5 训练为例,可见扩展实验之艰难。OAI 的内部代码单体仓库对其模型训练至关重要,因为进行训练消融时需要未受污染的验证数据集来测量困惑度。在扩展 GPT 4.5 训练实验时,他们最初观察到模型泛化能力的积极进展,却在训练中途发现单体仓库部分内容直接复制粘贴自公开数据。模型并非真正实现泛化,而是在复述训练数据集中的记忆代码!大型预训练需要极其严谨的准备才能有效执行。

尽管存在这些技术问题,但并非全无收获。Meta 仍能将逻辑值提炼成更小巧高效的预训练模型 Maverick 和 Scout,从而规避大模型中部分存在缺陷的架构选择。对于小型模型而言,蒸馏法的效率远高于强化学习。不过这些模型仍受限于其源头:在同类体量模型中并非顶尖水准。

Meta GenAI 2.0 第二部分:弥合人才缺口

随着基础设施改造的推进和技术经验的吸收,Meta 的 GenAI 2.0 战略现已转向超级智能的下一个关键要素:人才。

马克·扎克伯格清楚认识到与顶尖 AI 实验室之间的人才差距,并亲自接管了招聘工作。他正致力于打造一支规模精干但人才密度极高的团队,非正式地提供数千万美元的签约奖金。目标是形成”飞轮效应”:顶级研究人员的加入将为项目带来公信力与发展动能。这一策略已初见成效,近期引人注目的新成员包括:

  • 前 GitHub 首席执行官纳特·弗里德曼
  • Scale AI 前首席执行官 Alex Wang
  • Daniel Gross,曾任 SSI(Ilya Sustkever 创立的初创公司)首席执行官兼联合创始人

招聘条件极具吸引力:每位研究人员可获得无与伦比的计算资源、打造最佳开源模型家族的机会,以及接触 20 亿日活跃用户的权限。通常每位研究人员 4 年 2 亿至 3 亿美元的薪酬方案更强化了这一优势。因此 Meta 已从 OpenAI、Anthropic 等公司网罗了大量顶尖人才。

并购、Scale AI 等

据报道,扎克伯格曾向 Thinking Machines 和 SSI 提出收购要约,但均遭拒绝。虽然有人认为扎克伯格”退而求其次”选择了 Scale AI,但我们并不认同。正如我们此前分析的,Llama 4 诸多问题的核心在于数据缺陷,而收购 Scale 正是直击这一痛点的战略举措。

亚历克斯将带领 Scale 众多顶尖工程师加盟,尤其是 Meta 亟需的专门从事评估工作的 SEAL 实验室。该团队开发了推理模型评估的顶级基准之一——HLE(人类终极考试)。随着纳特·弗里德曼和丹尼尔·格罗斯的加入,Meta 不仅获得了精英运营者,更收获了 AI 领域两位最具影响力且备受尊重的投资人。Meta 在高层拥有非常强大的产品人才阵容。

买得越多省得越多:OBBB 特别版

扎克伯格选择此时启动这场豪购可谓恰逢其时。”统一大账单”政策中包含针对超大规模企业的税收优惠条款,这将极大激励企业立即投入大规模建设。由联邦政府资助的超级智能项目,堪称现代版的”曼哈顿计划”。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读