CPU 才是瓶颈,而分支执行才是破局之道
近两年来,在有关 AI 基础设施的讨论中,CPU 基本被忽视了,而 GPU 则主导了几乎所有对话:先是训练,后来是推理。但过去六个月里,这一假设开始瓦解。Agentic AI 已成为推理长期等待的杀手级应用 ,而这类工作负载的形态也已发生足够大的变化,以至于过去那种“CPU 只是打杂管家”的假设不再成立。
💡正如管家让住户能够专注于自己的主要事务一样,CPU 曾被视为一种仅负责为 GPU 提供支持的组件,而 GPU 才是承担 AI 计算主要工作的核心。随着 AI 模型愈发复杂,并需要执行更多样化的任务(如数据检索、任务规划、API 调用),CPU 正在承担起更核心的角色,负责协调并执行这些任务。GPU 不再是唯一的主角。
对于这一转变的所有分析最终都指向同一个结论:在具有代表性的智能体工作负载中,CPU 侧的工具处理占总延迟的 50%至 90%。GPU 虽然已被分配资源,却处于空闲状态,等待 CPU 完成编排、工具执行和状态管理,然后才能接收下一批 token。考虑到拥有和运营 GPU 与 CPU 之间的成本差异,一个自然而然的结论是:我们应当优化 CPU 的配比和效率,以确保 GPU 始终得到充分利用。
常见的框架是,CPU 供应紧张,需要更多 CPU。这一框架是正确的,但并不完整。 真正更重要的是,其上运行的内容。
本文提出三个观点。
-
CPU/GPU 比率正在变化,而芯片供应商早已作出调整。
-
Agentic 计算中的真正瓶颈并非原始 CPU 周期,而是你能以多快的速度隔离、分支、快照并恢复正在运行的计算状态。
-
下一阶段的利润将流向这样一层:它把 GPU 工时转化为有用的工作,而不是流向那一层—— 生产 GPU 工时。
VERS (HDR Research) 过去 18 个月一直在构建这一层,而他们打造的技术原语(一种可在微秒级完成分叉的实时虚拟机)正被证明非常契合行业当下正在扩展的工作负载形态。
CPU 与 GPU 的比例正在变化
在训练时代,AI 集群中的 CPU 与 GPU 比例大致维持在 1:4 到 1:8。 当主导负载是固定在加速器上的单个大型矩阵乘法任务时,这一比例是合理的。但一旦负载变成每位用户对应数百个并发子代理,这一比例就不再合理。
芯片供应商比大多数公开评论更早意识到了这一点:
-
Nvidia 的 Vera CPU 正被部署为面向 agentic processing 的独立平台。CoreWeave 是首个公开客户;Jensen 表示,未来还会有更多。这家主导 GPU 叙事的公司推出独立 CPU 平台,是一个重要信号。
-
Arm 于 3 月推出了 AGI CPU,这是该公司 35 年来首款量产芯片(!!)一家自 20 世纪 90 年代以来一直是纯 IP 授权方的公司,若非数据中心 CPU 的总可寻址市场即将迎来重估,绝不会转身直接卖芯片!
-
Intel 最近一次财报电话会议上,管理层对 CPU 需求明显措手不及。一个核心业务就是数据中心 CPU 的公司,竟然会对 CPU 需求感到意外,这恰恰说明这一转变仍处于非常早期的阶段 (不过说真的,Intel 也是挺离谱)
💡 市场研究目前预计,CPU 与 GPU 的配比将从 1:4–1:8 收窄至 1:1–1:2。若达到 1:1,与代理式 AI 相关的 CPU 市场规模将变成今天的数倍。
我们甚至还没谈到实体供应链中的问题。过去六个月里,Blackwell 系统的组件成本大约上涨了 50%。我们在我们的数据中心中那套于 2025 年末定价为 3600 万美元的 BOM,如今同样的 BOM 已升至约 5500 万美元,并正朝着 6000 万美元迈进,主要受 CPU 和内存通胀推动。
整个行业正在为 Blackwell 支付更高成本,但其每美元产出的 token 数却低于同样硅片在 6 个月前的表现。这就形成了异常强烈的动力,去从现有算力中榨取更多工作量。
Agent 编排会对主机造成什么影响
纯推理与 Agent 编排
在主导 2025 年的纯推理工作流中,CPU 的职责很单一:将请求分词后交给 GPU,对输出进行反分词,再返回给用户。
智能体编排将这一关系颠倒过来。CPU 成为指令层。
这一循环是:
-
一个用户请求到达
-
CPU 对其进行分词
-
第一次推理调用会返回一个计划
-
随后,CPU 会生成 N 个子代理,每个子代理都可能运行自己的推理循环、调用工具、查询数据库、抓取网页,或执行代码
-
CPU 负责持有状态、整合部分结果,并决定何时进行反思、何时分支、何时重试
GPU 只是 CPU 调用的诸多资源之一。

主机上有三件事必须高效运转:
-
每个单独的核心 1 都必须足够快,快到能够监控每个子代理在做什么,并在其中一个完成时立即作出响应。如果核心速度慢,等待它的将是代理,而不是相反。
-
必须配备大量核心,而且每个核心都应能够同时调度多个智能体。这被称为同步多线程,即 SMT(一种让 1 个物理核心在软件看来如同 2 个核心的概念)。借助 SMT,一颗 256 核芯片可以并行处理 512 个智能体。Intel 最新的服务器芯片取消了 SMT,这也正是关注高动作负载智能体工作负载的人们感到不满的原因!
-
内存必须足够接近。现代服务器 CPU 在一块芯片上集成了如此多的核心,以至于芯片内部会被划分为多个区域。每组核心都有“自己的”内存,跨区域通信比区域内部通信更慢。2
这三项要求会朝着不同方向发力,具体取决于你的智能体实际在做什么。
从推理到行动的光谱
智能体工作负载处于一个连续谱上。
-
一端是推理密集型任务: 少量智能体各自进行长时间、高强度思考,生成数千字的推理内容。GPU 承担了 80%以上的工作;CPU 则负责确保 GPU 不会断供数据。一个撰写 40 页报告的深度研究智能体,就是典型的推理密集型任务。
-
另一端是动作密集型任务: 数百个智能体各自执行大量细小操作:读取数据库、调用 API、抓取网页等。GPU 几乎不参与。CPU 承担了约 80%的工作。一个并行处理数千张支持工单的客户运营智能体,就是典型的动作密集型任务。

这两种画像与当代两款标志性 CPU 形成了清晰对应:NVIDIA 的 Vera 面向推理,AMD 的 Venice Dense 面向动作。“CPU 都一样”的时代正在终结。真正值得关注的问题是,哪一款更适合哪一种工作负载,以及这反映出行业将走向何方。两者在彼此主场上的差距已足够明显,以至于这两条路线图可以被视为证据,表明 CPU 设计正沿着“推理 vs 动作”这一轴线公开分化。

瓶颈在 CPU 指标之下
对 CPU 瓶颈的分析,实际上比工程工作真正发生的位置少看了一层:虚拟机(VM)。所谓 CPU 瓶颈的故事,事实上真正是一个 VM 瓶颈的故事。
这很重要,因为 VM 启动成本高、创建快照成本高,而且其设计所针对的工作负载形态与智能体所需并不相同。过去十年来行业一直使用的基础机制(Firecracker、Docker checkpoints)默认的前提是:启动一台机器,运行工作负载直到完成,然后将其销毁。而智能体工作负载呈现出不同的形态:大量短时突发任务,并且经常需要分叉状态、并行探索不同方案。你需要低成本的分叉、低成本的提交、低成本的恢复。而现有技术栈让这三者都代价高昂。
当前的技术栈已针对特定形态的工作负载进行了高度优化。异步智能体工作负载的兴起正在改变这种形态。——VERS 创始人兼首席执行官 Ty Daly
VERS 究竟是什么
VERS 构建了一套管理虚拟机(VM)的系统,其方式就像程序员管理代码一样。其核心理念是,每一台正在运行的虚拟机都是一个分支。
正如程序员可以为代码库创建分支,以试验变更,并在效果良好时将其合并回主干,VERS 也允许你为正在运行的虚拟机创建分支,以测试新的配置或运行更新。如果出现问题,你可以终止该分支,而不会影响主虚拟机。如果更新效果良好,你可以为该分支创建快照,并用该快照来更新主虚拟机。
具体来说,VERS 为虚拟机提供四种操作:
-
Fork: 创建一个正在运行的虚拟机的隔离副本。该副本启动时与原始虚拟机处于完全相同的状态,但对副本所做的任何更改都不会影响原始虚拟机。这使你能够在沙盒中测试高风险变更。
-
Commit: 对虚拟机在某一时点的状态创建快照。快照为只读,因此可用作已知良好的恢复点,或用于可复现构建。
-
Connect: 在不同分支之间共享状态。如果两台虚拟机需要通信,你可以直接将它们连接起来,而无需经过网络层。
-
恢复: 从快照启动一个新的虚拟机。这就是恢复故障机器或回滚到已知良好状态的方式。
如果你换个角度看,这有点像虚拟机的版本控制。你的主虚拟机是稳定的基础,你从它分支并将更改合并回去。每个分支都是一次实验。每次提交都是一个标签。正如版本控制让你把代码库回退到其历史中的任意时间点一样,Vers 也让你把一台正在运行的虚拟机回退到任意快照。
尚未公开的数字
VERS 的内部基准测试目前显示,在 CPU 上可实现亚秒级 VM 分支——新建 VM 的 P99 延迟处于数百微秒的较低区间;同时,借助写时复制内存系统,单台物理主机可通过存储差异而非完整 VM 镜像,为大量并发智能体保留分支状态。该团队正准备在未来几周内发布与领先云端智能体环境提供商的正式基准对比结果。
如果这一结果能够经受住第三方测试,那么这种效率提升的量级将达到 100 倍,即在给定 CPU 上可承载的并发智能体工作负载数量提高约 100 倍, 相较于为每个智能体在内存中保留一整台完整 VM 的方案而言。当一个智能体在等待工具调用、网页抓取或模型响应时,其宿主机器在大多数时间里实际上并未执行有用工作。在这些等待期间仍将整台机器完整保留在内存中,是一种浪费。
这正是该团队当前正着力解决的下一个问题。让 CPU 和 GPU 都火力全开。
楔子所在——RL 环境
眼下最直接的商业机会并不在企业端,而是在面向各大实验室和专注 RL 的初创公司的强化学习环境。这些机构如今正筹集大量资金,以训练下一波智能体模型。
AI 任务时长的跨度大约每 7 到 8 个月翻一番。各大实验室已经在运行持续数小时到数天的工作负载。如果一个为期两天的任务在进行到第 46 小时时环境中途崩溃,后果将不堪设想。按照当前任务时长的增长速度,这个问题每个季度都会显著恶化。我们在 Crucible 也一直在密切关注这一趋势……

可分支、可快照、可恢复的虚拟机是顺理成章的解决方案。长期运行的工作负载可以按固定间隔创建检查点。如果环境发生故障,任务就能从最近一次快照恢复,而不是从零开始重启。如果实验室希望从同一起点探索多条路径,就可以在任意快照处复制虚拟机,并让各个分支并行运行。这样一来,一个原本需要数天完成的任务就能压缩到数小时,不是因为任何单个步骤变快了,而是因为进度不再丢失。
RL 环境这一楔子切入点的另一个吸引人之处在于:买方有钱,而且正在积极寻找解决方案。现有的 RL 训练基础设施并不好。 那些尝试在内部构建环境的实验室正意识到,这会严重分散其核心工作的精力;而那些外包给托管环境提供商的实验室,则正遭遇与 VERS 如今在底层原语层面所解决的同样的状态管理和检查点效率限制。VERS 正在与最大的托管环境提供商之一展开洽谈,并有机会成为其技术栈内部的分支基础层。
结构性押注——利润空间正在向何处转移
把视角拉高到集群经济层面来看,如今技术栈的各个层级呈现出截然不同的利润率特征:
-
上游生产者将电力和 GPU 转化为 GPU 小时。以 VERS 的 neocloud 同业为例,这一环节的目标利润倍数大致为 2 倍。该层级资本密集、负债沉重,而且在很大程度上已经商品化。
-
下游精炼者,主要是推理实验室,通过在原始裸金属算力之上加入编排与优化,将 GPU 时长转化为 token。Anthropic 的毛利率已从 30%飙升至约 90%,展现出行业中的一种新现象。

按相对幅度衡量,这种利润率扩张目前是整个技术栈中最快的,其驱动因素来自多重叠加:随着模型压缩和芯片性能不断增强,代币生成成本持续下降,同时代币需求仍在持续呈指数级增长。真正值得关注的问题是,随着下游精炼层走向整合,局面将如何演变。如果该层的赢家是那些能够在每个 GPU 小时内提取最多代币的参与者,那么让他们做到这一点的底层能力将具有非同寻常的价值。
VERS 向集群所有者或新型云服务商提出的主张,大致可以概括为:

如果你只盯着 CPU 与 GPU 的比例,很容易忽略一个更深层的技术转变:Token 可能从一开始就不是智能体之间进行通信的合适单位。
如今,当智能体彼此对话时,它们使用的是自然语言:一个智能体写下几句话,另一个智能体读完这些句子后再回写几句。对人类而言,这很自然,但对软件来说却很奇怪……就像两个程序彼此传纸条,而不是直接共享内存。
两个智能体之间更自然的通信方式,是直接传递状态:不是对状态进行文字描述,而是传递实际的数据结构。如果智能体 A 已经将一段数据取入其工作内存,它就应该能够将该缓存条目直接发送给智能体 B,而不必经过代币压缩这一步。若能实现这一点,智能体共享上下文所需的带宽将大幅下降,因为它们共享的将是状态对象的指针,而不是来回传递对象文本表示的副本。
VERS 团队也在思考这一问题。要在智能体之间传递缓存条目所需的基础设施,与进行虚拟机分叉和状态提交所需的基础设施几乎完全一致。能够对运行中的进程进行分支的内存架构,同样也可以在进程之间传递内存。因此,无论基于 KV 缓存的通信是否会成为主流,VERS 都已为此做好了充分准备——因为他们出于其他原因构建的抽象层,能够自然映射到下一代智能体间通信。
这一切意味着什么
硅分析师们已经把 CPU 瓶颈的故事讲得很清楚了。芯片厂商也已相应调整了各自的路线图。
硅层之上的那一层(也就是智能体究竟如何被隔离、分支、协调和恢复) 仍然缺乏充分分析。 正是在这一层,炼厂的利润空间才得以实现,而这也正是 VERS 所聚焦的领域。对于智能体计算而言,分支才是正确的原语;现有的虚拟机堆栈则并不适合智能体计算。随着 CPU 与 GPU 比率持续压缩、智能体任务时间跨度不断拉长,二者之间的这一差距正变得月益更有价值。
这一商业逻辑包含三个部分:
-
强化学习(RL)环境是近期的切入点——当下这里的问题最为尖锐,而且买方已经为此预留了获批预算和明确采购条目。
-
面向自助服务型专业消费者和开发者的应用场景,是下一步顺理成章的扩展方向,而其中入门引导问题将成为突破口。
-
嵌入 neocloud 和推理服务提供商的编排层,则是其结构性的终局——届时,VERS 将从面向 RL 的单点解决方案,演变为支撑下一代智能体平台的底层基座。
如果你读到了这里……恭喜!!!这篇内容信息密度很大。不过说真的,如果你认同“CPU 是瓶颈”这一分析(而就目前的数据来看,很难不认同),那么真正有意思的问题并不是哪款 CPU 会胜出, 而是当这一比例调整完成后,运行在这些 CPU 之上的会是什么。答案很大一部分在于可分支虚拟机。如果你想与 VERS 团队交流,请尽快联系我们或联系 Tynan Daly!(tynan.daly@hdr.is)
资料来源及延伸阅读:
- Raj、Wang、Krishna:《A CPU-Centric Perspective on Agentic AI》(arXiv:2511.00739,2025 年 11 月)。
- Sekar:《The CPU Bottleneck in Agentic AI》(《Vik’s Newsletter》,2026 年 2 月)。
- Burke——《Arm 的 150 亿美元 CPU 机遇》(Futurum Research)。
- TrendForce——《大重衡:Agentic AI 如何重塑 CPU:GPU 比例》。
- Vers——vers.sh,github.com/hdresearch。
注释:
核心是 CPU 的大脑,是实际运行软件指令的部分。对于智能体工作负载而言,每个智能体会映射到一个或多个线程,因此核心数量决定了在不发生资源争用的情况下,能有多少个智能体同时运行。如果智能体数量多于核心数量,CPU 就必须在它们之间交替执行(上下文切换),这会带来额外开销。因此,从非常字面的意义上说,更多核心就意味着每颗 CPU 能承载更多智能体。这也正是 CPU 与 GPU 配比问题如此重要的原因。如果配比不对,你要么会让 GPU“挨饿”(没有足够多样化的智能体让它们持续忙碌),要么会无法充分利用它们(过多智能体争抢过少的 GPU 周期)。
这就是所谓的 NUMA,即非统一内存访问。如果你在运行数千个智能体,而每个智能体恰好落在一个其所需内存位于芯片另一端的核心上,那么你的每一次操作都要为此付出代价。要把这件事处理好,既是硬件问题,同样也是软件问题。这也是为什么高核心数芯片(每个人都想拿来跑智能体)存在一种规格表上看不出来的隐性成本。