强化学习的扩展：环境、奖励操纵、智能体、数据扩展基础设施瓶颈与变革、蒸馏、数据护城河、递归自我改进、o4 与 o5 强化学习训练、中国加速器生产

本文信息来源：semianalysis

作者：Dylan Patel 和 AJ Kourabi

强化学习的扩展：环境、奖励操纵、智能体、数据扩展基础设施瓶颈与变革、蒸馏、数据护城河、递归自我改进、o4 与 o5 强化学习训练、中国加速器生产-RecodeX

测试时扩展范式正在蓬勃发展。推理模型持续快速进步，变得更加高效且经济实惠。像 SWE-Bench 这样评估现实世界软件工程任务的测试，正在以更低的成本获得更高的分数。下图展示了模型如何变得更便宜且更优秀。

强化学习（RL）是这一进步的原因。我们在之前的报告中已经介绍过，强化学习如何通过生成思维链（CoT）解锁了模型进行推理的能力。我们预计这一范式将会持续下去。

除了链式思维（CoT）创新之外，模型能够更长时间地保持连贯性（思考），这解锁了代理能力。工具使用，如搜索、利用 python 进行计算以及其他能力，都是基于模型能够进行规划、推理并长时间操作的能力。更好的推理能力让模型有更多时间“思考”，因此能够从简单的聊天机器人进化为规划者。这反过来又促使更连贯的智能体出现。随着机器学习研究人员在可验证领域扩展强化学习，这些连贯的智能体将开始承担更复杂的任务，比如完全自动化的远程办公和系统工程/架构设计。

尽管取得了重大进展，扩展强化学习（RL）计算在基础设施层面上仍面临新的瓶颈和挑战。RL 可能是实现 AGI 之前所需的最后一个范式。这个机会巨大，因此投资也同样巨大。数十亿美元已被用于预训练模型。未来还会有更多资金投入到扩展 RL 上，但其基础设施需求却大不相同。让我们看看实现这一目标需要做些什么。

强化学习的工作原理

强化学习（RL）在概念上很简单。强化学习模型从其所处的任意环境中获取当前状态的信息，生成一组选择动作的概率，然后执行该动作。模型的目标是实现某个目标，这一目标由“奖励函数”定义。当通过调整模型权重，使得生成的最高概率动作更有可能带来更高奖励时，就实现了强化学习。

强化学习并不是新技术。RL 是一种较早的技术，早于大型语言模型。例如，它曾是让系统掌握围棋和国际象棋的技术基础。然而，RL 终于在 LLMs 这类通用技术上取得了成功，这对能力和技术扩散都具有重大影响。

可验证奖励

RL 在 LLMs 上最适用于具有可验证奖励的领域。这意味着像编程和数学这样的任务有明确的奖励定义，适合 RL。在奖励函数定义不那么清晰的领域，推理模型在提升方面会遇到困难。当 OpenAI 对 GPT-4o 进行 RL 以获得 o1 时，他们最大的收益也出现在可验证领域。

随着该领域的发展，工具使用等新领域正在开启。OpenAI 的 o3 可以放大图片，推理其所见，进行一些计算，再进一步推理，最后给出答案。这解锁了一系列模型现在能够很好完成的任务，比如识别图片拍摄的位置。这类任务在技术上是可验证的，但并未被明确训练过。尽管取得了令人难以置信的进步，各实验室在强化学习上的投入金额通常很小，尤其是与预训练的投入相比。那么，让强化学习的算力投入达到甚至超过预训练的瓶颈是什么？不可验证的领域会被解决吗？

强化学习推理需求高

研究最流行的强化学习算法之一，可以帮助我们了解强化学习对推理的高需求。Group Relative Policy Optimization（GRPO）是一种常用的算法，DeepSeek 就是用它来训练 R1 的。

在 GRPO 中，模型被要求回答一个问题。模型会针对该问题生成多个答案。每个答案都可以被视为一次“rollout”，本质上是模型在尝试寻找解决方案。换句话说，“rollout”就是模型每次尝试生成答案或解决问题的过程。每个问题的 rollout 数量可以从几个答案到数百次尝试不等。理论上没有技术上的上限，但使用的 rollout 越多，占用的内存和算力也就越多。 %%

这使得强化学习的推理过程变得非常繁重，因为每个问题都会生成大量答案。这一点具有重大影响，我们将在报告的多个部分提及这一点。

然后对模型进行与真实结果的评分。在 GRPO 中，每个答案都会获得一个奖励分数。正确性并不是唯一的因素，实际上奖励函数可以通过多种方式进行调整，其他因素还包括格式和语言一致性。

在奖励被计算出来后，模型会通过梯度下降进行更新，以提高生成更有可能获得正向奖励答案的概率。GRPO 是一种近端策略优化（PPO）的变体，它消除了对评论模型（在 PPO 中用于预测未来奖励）的需求，从而使其更加节省内存。PPO 和 GRPO 都可以使用学习得到的奖励模型或基于规则的奖励系统来判断答案质量。由于内存需求较低，GRPO 在开源社区中被广泛采用，但我们预计各大实验室仍将继续使用 PPO 的变体。PPO 由 OpenAI 发明，实验室内部使用的版本现在与 GRPO 常被比较的公开版本已经有了实质性的不同。实验室在计算资源方面也面临更少的限制。

核心思想是，强化学习通常需要一个问题、一个用于核对的答案，以及一种向模型传达其行为应如何改变的方式。模型探索答案的方式可以多种多样，但它需要以不同的推理路径生成多个答案，因此对推理端的要求较高。随后，模型会被更新，使其更有可能给出正确答案，因此其中也隐含了训练的成分。

奖励函数很难定义

如前所述，在可验证奖励方面已经取得了显著进展。其中一个原因是奖励函数很容易定义。数学题的答案要么正确，要么错误。然而，从技术上讲，奖励函数可以是用户希望优化的任何内容。

从概念上讲，模型在强化学习中的主要目标是最大化总奖励。例如，如果一个模型正在被训练下棋，它的主要目标是在不违反任何规则的情况下赢得比赛。模型可以通过了解在不同情况下哪些走法有助于获胜来不断提升棋艺。模型可以通过其所处的环境获得反馈。我们稍后会深入讨论这一点，但在下棋的例子中，可以将环境理解为模型可以与之交互的棋盘和棋子。

为不那么狭窄的任务定义奖励被称为一种“ 黑暗艺术 ”，这是因为这非常难以做到正确。即使在明确的环境中，设定合适的奖励函数也需要大量的研究、测试和优化。其中一个例子是芯片设计。AlphaChip 是 Google 设计的一个用于辅助芯片设计并通过强化学习训练的模型。该模型帮助设计了 Google 使用的 TPUv6 芯片，使 TPUv6 的布线长度减少了 6.2%。在这种情况下，奖励函数被明确地定义为：

这引导模型精确地最小化那些重要因素：布线长度、拥塞和密度。需要注意的是，即使是一个相对简单的奖励函数，设置起来也并非易事。拥塞和密度都有用于调整其重要性的标量值（由 Alpha 和 Gamma 表示）。这些数值是在大量实验后，根据工程师希望做出的权衡得出的，最终决定布线长度是最重要的因素。

你如何在不可验证的领域中设置奖励？

不可验证的领域包括写作或策略等方面，在这些领域中并不存在明确的正确答案。有人对是否能够在这些领域应用强化学习持怀疑态度。我们认为这是可行的。事实上，这已经有人做到了。

这需要改变奖励机制。不再依赖正式的验证器进行检查，而是可以使用其他模型根据评分标准来判断答案是否正确。

OpenAI 使用 RL 来改变模型行为，这比数学更不明确。OpenAI 的深思熟虑对齐论文在流程中使用 RL，以确保模型更安全，并且在使用 LLM 作为评判者和评分标准时减少错误拒绝。此外，整个过程中只使用了合成数据。如前文提到，他们还发现这种方法“在分布外安全场景上实现了强泛化能力”。这种针对不可验证方法的 RL 已被用于 o1、o3-mini 和 o4-mini 的训练，并将在未来的推理模型中继续使用。

具备推理能力不仅有助于完成数学任务，还能帮助完成许多其他任务，包括无法验证的任务。例如，在许多情况下，推理能力帮助模型更好地区分哪些情境下需要拒绝，哪些不需要。然而，不可否认的是，在无法验证的领域中，某些因素比其他因素更为重要。例如，模型的个性会极大地影响写作风格。

在无法验证的领域中，强化学习也更加不稳定——GPT-4o 的阿谀行为，部分原因在于 OpenAI 对用户偏好数据进行了强化学习。这就是一个善意的奖励函数导致不良和意外行为的例子。

强化学习有助于你更好地进行强化学习

改进模型的强化学习可以直接提升强化学习过程本身，从而形成良性的反馈循环。这是因为如上所述，通常会使用带有评分标准的 LLM 评审来提供强化学习信号。将推理模型用作 LLM 评审意味着模型能更好地理解评分标准，并能通过给定的回答辨别出更细微的差别。

OpenAI 的 Deep Research 也被吹捧为一个由于强化学习而取得进展的不可验证领域的例子。实际上，OpenAI 同时使用了具有标准答案的可验证任务和不可验证任务。需要理解的是，就像前面的例子一样，不可验证的任务是由另一个 LLM 按照评分标准进行评判的。

阿里巴巴在开发 Qwen-3 时也使用了 LLM 作为评判者，结合大量合成数据语料库，并利用 LLM 评判者在没有参考答案的情况下提供信号。

我们认为该评分标准为众多领域打开了大门。另一个例子是，OpenAI 展示了模型在各种医疗任务上的表现。OpenAI 邀请了 260 多位医生编写评分标准，供模型在评估回答时使用。

HealthBench 是一个出色的评估工具，OpenAI 能够发布它值得称赞。

该评测还反映了 LLM 评审在衡量不可验证奖励方面的实用性。如果能够被衡量，就可以通过 RL 进行改进。这凸显了 RL 与评测之间一个被低估的关系——后者可以展示 RL 过程的进展情况。

环境

要进行 RL，你需要对某个动作或结果进行强化。环境对于模型或智能体获取反馈是必要的，这样它才能理解下一步该采取什么行动。这促使了 RLEF，强化学习执行反馈的出现，即在环境中运行模型生成的代码，并将结果作为奖励信号。

环境是指模型采取行动并获得反馈的场景或模拟。象棋和围棋等棋类游戏是环境的绝佳例子：目标明确，规则清晰。再往更通用的方向发展，我们会遇到像是在电子游戏中驾驶赛车，或是在生物反应器模拟中控制特定参数这样的领域。除此之外，还有像数学、代码，甚至浏览器这样的领域。

环境的不同配置可能导致智能体表现出不同的行为。配置不当的环境可能会导致模型误解任务或无法正确泛化。这可能会引发“奖励操纵”，我们将在本报告后面讨论这一点。

因此，构建健壮的环境，并精确地按照需求定义奖励函数是极其困难的。即使是在需要简单环境的领域，比如编程，大量使用单元测试也会让模型关注于通过单元测试，而不是编写优质代码。因此，一个工程挑战在于搭建一个能够真实反映期望目标（编写优质代码）的环境。

设置环境以拥有正确的奖励函数是一方面，但将其工程化则是另一方面。创建可扩展且健壮的环境是一个关键的技术挑战。

环境有许多要求。其中一个例子是延迟。除了代理能够快速获得反馈外，代理采取行动与环境受到影响之间的延迟也很重要。否则，在一次 rollout 过程中，大量时间会浪费在代理等待下一步行动上。其他需要考虑的因素还包括保持持续可靠的连接，以防止崩溃和中断流程，同时还需要设置容错和检查点机制，以便在发生故障时能够平滑处理。还需要很好地处理多个不同的 rollout 或轨迹。此外，还必须有完整的安全基础设施作为支撑，以保护模型免受外部入侵或防止其试图逃离环境。

模型本身也存在多种失效模式，会带来困难，比如采取的行动超出了机器可用资源。构建环境时需要防止模型自我破坏，保持足够安全的基础设施，并解决一系列关于延迟和可靠性的工程难题。环境还需要准确地反映模拟或实际环境，使智能体能够正确理解需要改进的地方，同时又无法被利用。

所有这些要求使得环境的扩展变得相当困难，尤其是在首次扩展时。正如我们将要提到的，模型更长的连贯时间甚至会让简单的环境也难以维持。对于像计算机使用这样的情况，这一点尤为明显，我们将在后面的章节中对此进行更深入的探讨。

尽管基础设施工程看起来可能很平凡，但它对于强化学习的成功至关重要。如果回合执行时间过长，验证模型就会处于空闲状态，造成资源浪费。因此，重要的是要弄清楚如何将该模型用于其他用途（例如评判另一个回合）。

这些软件限制还必须适应硬件约束。例如，大多数环境仅在 CPU 服务器上运行，而不是在 GPU 上运行。这意味着需要在外部专用机器上运行，这又增加了另一层工程难度。

需要注意的是，大多数公开的强化学习环境侧重于单步问题 ，并通过评估来衡量性能。像 OpenAI 的 o3 这样的模型则建立在利用多次工具调用的环境之上。我们将在后文详细介绍如何构建 o3 模型，但这也带来了另一组挑战，因为随着工具调用次数的增加，环境的复杂性也随之提升。

奖励操纵

如前所述，设置合适的奖励可能很困难，因为模型可能会误解目标，并以非理想的方式进行优化。奖励操纵是指模型利用环境或奖励结构中的漏洞，通过不真正完成预期任务的方式获得高分。奖励操纵长期以来一直被认为是一个重大问题，2016 年由 Dario Amodei（现为 Anthropic 首席执行官）等研究人员重点指出。例如，一个机械臂因将红色方块放在蓝色方块上方而获得奖励，但它通过将红色方块倒置而不是正确叠放来“钻空子”，因为奖励是根据方块底面高度来判断的。

展示了另一种失败模式：在一个旨在教机器人行走的物理模拟中，智能体发现了一个软件漏洞，使其能够在不实际迈步的情况下实现水平移动。

以 LLMs 为例，Claude 3.7 Sonnet 展现了奖励操纵行为，它通过修改测试用例而不是改进自身代码来通过原始测试。例如，一位第三方评估者发现，Claude 会直接编辑“tests”文件，使所有测试都通过，而不是编写代码来通过原始测试。Anthropic 发现了这个问题，虽然他们实施了部分缓解措施，但这种模式在 Claude 3.7 中依然可见。

虽然这些案例令人发笑，但问题在于工程师们经常无法准确描述奖励函数，或者只有在智能体发现后才识别出环境中的漏洞。许多奖励操纵的实例都是设计者从未考虑过的路径，虽然在训练过程中可以进行迭代调整，但对于 LLMs 来说，这很难做到。当前阶段的机器人环境还处于初级阶段，调整起来相对简单，而大型语言模型拥有庞大且复杂的动作空间，使得防止奖励操纵变得更加困难。

解决奖励机制被滥用的问题对所有实验室来说都至关重要，并且将借鉴许多以安全为导向团队的想法。这再次说明，关注安全与对齐的努力对于推动企业和公司采用相关技术起到了关键作用。

在 Claude 4 版本发布中，Anthropic 通过改进环境、明确奖励信号以及实施主动监控，显著减少了奖励机制被滥用的情况。这并不是一项简单的任务，需要大量的专业知识和经验。

但强化学习和奖励机制漏洞并不是唯一的瓶颈，基础设施本身也是一个巨大的瓶颈。这首先体现在强化学习所需的数据上。

数据与样本效率

乍一看，强化学习似乎非常高效：在 Qwen 模型的“推理强化学习”阶段，使用的查询-回答对不到 4000 个。这带来了相较于基础模型明显的性能提升，并被认为具有很强的样本效率。

然而，实际情况要复杂得多。这4000个问答对每一个都有非常严格的要求：它们不能在模型冷启动阶段（训练的前一阶段）中被使用过，必须尽可能具有挑战性，涵盖广泛的子领域，同时又要在模型的能力范围之内。

这些都不是简单的要求。生成合适的合成数据需要大量的筛选和反复的模型推理。此外，要求问题对模型来说具有挑战性但又不过于困难，还需要进行实验和验证，以确保问题处于那个狭窄的区间。在某些数据不是合成生成的情况下，实验室正在招募 STEM 博士，帮助撰写对模型来说足够有挑战性的问题和答案。这些博士还被招募来为 LLM 评审撰写评分标准。

像 ScaleAI、Mercor 和 Handshake 这样的公司现在正从 AI 实验室获得大量业务，以协助这一招聘流程。

Qwen 进行了另一个阶段的 RL。他们极力营造高效的印象，因此没有公布该阶段所用的样本数量。这是因为这个数字远远大于 4,000。

在这个阶段，他们在 20 多个不同领域进行了 RL。他们还使用了三种类型的奖励模型（基于规则的、带有和不带有标准答案的 LLM-judge）。这需要复杂的工程和大量算力。

从长远来看，我们预计各大实验室会在数百个专业领域进行 RL，以显著提升模型性能。质量比数量更重要——模型会精确地针对其训练数据进行优化——因此对这些数据的精心选择和筛选至关重要。

因此，虽然使用的样本数量为 4,000，但达到这一点却消耗了大量的计算资源。可以说，强化学习在数据方面是高效的，但在计算方面却绝对是低效的。与预训练相比，强化学习需要更庞大的工程团队来有效搭建。

数据是护城河

归根结底，Qwen 所传达的信息是，高质量数据是扩展强化学习时独一无二的重要资源。高质量数据有助于为模型提供足够清晰的强化学习信号，使其能够在所需任务上变得更好。生成这些数据通常需要大量的推理计算。

公司或企业通常可以聚合自己的数据，并使用像 OpenAI 的 Reinforcement Fine Tuning (RFT) 这样的服务。RFT 允许使用自定义评分器，并让企业根据评分器或数据的结果来更新模型。我们认为，这一发布仍然被低估了，即使不考虑模型的进一步进展，它也可能带来巨大的影响。

事实上，拥有一个能够聚合或收集用户行为的产品极具价值，因为这最终是最重要的数据集。其中一个有趣的影响是，拥有用户数据的 AI 初创公司可以通过强化学习定制模型，而无需依赖大量算力来合成数据。如果企业能够建立合适的强化学习环境，定制化模型的时代或许是有意义的。相比之下，为企业微调模型通常难以与基础模型的持续进步相抗衡。

智能体任务的时间跨度正在增加

模型现在能够在越来越长的时间内保持连贯性。更长的任务需要能够在较长时间内可靠运行的环境和基础设施，这加剧了工程方面的需求。

下图显示，自包含编码任务的能力每 7 个月翻一番，但我们预计编码以外的任务将拥有更快的倍增速度。OpenAI 的 Deep Research 是第一个能够连贯工作超过几分钟的模型实例，我们预计这一上限将显著且迅速提升。

然而，这里存在一种矛盾。具备自主性的任务极具经济价值，但由于其复杂性和资源密集性，也带来了重大的强化学习挑战。

延长的任务持续时间意味着每次强化学习迭代也会变得更长，从而减慢整个训练过程。

计算机使用就是一个例子，它展示了许多与更长时间跨度任务相关的问题。首先，作为一个代理性任务，它更接近现实世界的问题和行为，这带来了新的挑战。在计算机使用的情况下，智能体会遇到许多反机器人网页脚本、验证码以及晦涩的 Cloudflare 防护功能。这些情况发生得相对零散。此类细节为环境调试增加了新的难题，这在以前并不存在。计算机使用还需要大量的基础设施，如虚拟机和浏览器连接。这些现在不仅需要长时间保持稳定和可用，还要满足前面讨论过的环境工程要求。

计算机使用任务通常会持续数小时。这意味着 rollout 变得更长，奖励变得更加稀疏。换句话说，智能体执行了十倍的步骤，但只在最后一个 token 上获得奖励。这使得强化学习信号变得更弱。计算机使用还依赖于图像和视频来展示模型正在发生的事情。虽然已经有一些工作尝试通过流式传输 HTML 文件或设置网页的文本表示来实现计算机使用，但在这种情况下，模型并不理解图像所代表的内容。让文本表示能够发挥作用将减少计算机使用的内存需求。

环境算力

我们认为，将资金投入到环境算力上，而不仅仅是 RL 算力，具有巨大的潜力。例如，可以构建一个高度逼真且难以通过奖励机制被破解的环境，使用数十甚至数百个 CPU 协同工作。这是一个全新的、适合扩展的领域。由于信号纯净，这种逼真度有望带来令人难以置信的性能提升。

未来，这些环境也将在 GPU 上运行，GPU 将模拟现实世界的数字孪生。值得注意的是，这些 GPU 有着不同的需求，依然具备图形/渲染能力，比如 RTX Pro GPU 或客户端 GPU。而专为 AI 设计的 GPU 和 ASIC，如 H100、B200、TPU、Trainium 等，则缺乏重要的图形/渲染相关硬件。因此，目前也有大量资源投入到为 RL 环境构建 AI 世界模型，而不是仅仅依赖其他地方描述的普通 RL 环境。这将使扩展变得更容易，否则由于各种异构的软件和硬件类型，环境复杂性将会爆炸式增长。

可靠、可扩展、易于实现的环境将会有极大的需求，我们预计这将成为初创公司不断发展的一个领域。已经有一些公司开始涉足这一领域。有些能力的瓶颈并不在于模型本身的能力，o3 已经足够聪明，可以完成大多数任务，瓶颈反而在于与世界互动并获取上下文的能力。

我们认为这对于科学领域的 AI 尤其令人兴奋——环境可以被设置为连接到实验室中你能测量的任何事物。例如，这样的设置可以让 AI 代理控制物理世界，在从环境中获得反馈的同时操控和改变不同的因素。在某些情况下，比如控制炉内温度，反馈回路可以相对较快，模型也能快速迭代。

然而，在其他一些有价值的任务中，如果实验耗时较长，模型就需要具备相应的连贯性时间。再加上需要多次回放，这可能会导致既需要大量计算资源，也对物理环境提出了较高的要求。

在生物学、半导体制造以及其他材料科学领域，思考模型正在运行和测试的推理/消融实验的反馈循环非常重要。这些生物、制造和工业过程在运行和验证速度上都有一定的限制。

某些领域需要更长时间才能让强化学习计算产生影响，而其他领域则会因快速反馈循环而迅速变化。物理人工智能本质上具有比数字世界更慢的反馈循环，因此非常需要强大的数字孪生环境。

与评测的类比

作为一个粗略的类比，模型评测在概念上更简单，但实际运行起来同样困难。Docker 镜像经常出错，多项选择题中简单的格式变化（例如从 (A) 改为 (1)）都可能让模型的评测表现变化高达 5%。在评测基础设施刚刚扩展时，Anthropic 曾公开讨论过评测的工程挑战。GPQA 是一个常用的评测工具，用于测试模型在物理、化学和生物学研究生水平问题上的表现，似乎存在一个“噪声上限”。虽然它能显示模型的进展停滞，但由于答案标注错误，想要获得 100% 的分数几乎不可能。

在许多方面，随着代理任务长度的增加，问题正变得更加严重。模型可采取的动作空间大幅增加，它们的连贯时间也在延长，而针对这些长时间跨度评估能力的测试变得极具挑战性。这也使得它们的成本显著上升。

评估基础设施并不新颖，概念也很简单，但却是“千刀万剐”般的折磨。搭建大规模强化学习基础设施并实现扩展，则是“万刀穿心”般的痛苦。

强化学习改变了硬件和数据中心建设的平衡

Nvidia NVL72 系统针对 GB200 和 GB300 在推理领域实现了关键性进步。更强的计算能力带来了更高的吞吐量和更低的延迟，共享内存则允许将 KV 缓存分布在更大的世界规模中。这不仅提升了推理模型在推理阶段的批处理能力，也对强化学习产生了重大影响。

对于强化学习来说，增加的内存带来了许多不同的能力。首先，它允许在给定问题上进行更多的回合。其次，它能够更好地处理具有长远目标的智能体任务。第三，它能更好地支持更大或更具推理能力的模型作为评判者，这对于不可验证的领域尤其有帮助。第四，这一范式高度依赖于合成数据的生成与筛选，而这又依赖于推理能力，而 NVL72 系统在这方面表现出色。资源未被充分利用是这一过程中的一个难题。

在在线强化学习的情况下，最后一次 rollout 完成和第一次 rollout 开始之间可能存在时间差。很难对所有不同的采样副本进行负载均衡。权重的广播也可能导致显著的资源未被充分利用，因为不同的采样器和训练器有不同的拓扑结构。

在强化学习的所有阶段都需要推理，但推理并不需要像预训练时代那样集中化 。强化学习需要大量算力，但这些算力不必集中在同一个地方。

举个例子，一个领域的合成数据可以在一个数据中心生成和验证，但训练过程却可以在完全不同的数据中心进行。随着强化学习对算力的主导地位提升，我们可能会看到数据中心建设方式的转变。虽然最大规模的多吉瓦数据中心在预训练扩展中仍然是必需的，但强化学习能实现多大程度的去中心化，目前还未有定论。

与一次性需要数万块 GPU 的预训练不同，强化学习的推理时间可以根据算力进行调整。这意味着实验室现在可以在非高峰时段利用 GPU，例如在其强化学习流程中进行合成数据生成。

事实上，我们知道至少有一家实验室正在利用未充分利用的推理集群来运行这一流程，通过合成数据生成将免费算力有效地用于训练。推理和训练之间的界限在各大实验室将会持续模糊，这将使得模型能够获得的不仅仅是最大规模训练集群的算力。这些未被充分利用的算力实际上是免费用于训练的，因为推理集群必须为峰值需求进行配置。

Prime Intellect 在其 Intellect-2 模型中展示了强化学习的去中心化特性，该模型是一个面向推理模型的全球分布式强化学习运行。

在硬件设计方面，推理需求的增加和长时序智能体任务使得内存变得更加重要。强化学习所需的 FLOPs 少于预训练，但内存负载依然很重。从长远来看，硬件开发将会做出调整以适应这一变化。这还包括诸如网络拓扑结构等其他因素。我们看到，强化学习带来的变化不仅仅体现在硬件设计上，也在改变研究的组织方式。

强化学习正在改变实验室的结构

强化学习在语言模型中的应用是推理过程真正与训练过程深度融合的首批案例之一。 推理性能现在直接影响训练速度。 这意味着生产级推理（快速、高效、低成本）如今已成为模型训练过程不可或缺的一部分。

此前，每一家实验室都将“产品服务推理”和“内部推理”（例如用于评估）区分开来。但鉴于强化学习所需的推理量极其庞大，必须在训练体系中直接构建高度优化的推理堆栈。

我们可以在公司结构中看到这种变化。OpenAI 合并了研究和应用研究推理团队。同样，Anthropic 和 Google 也因此对其生产和内部团队进行了重大重组。

强化学习是一场推理游戏，但中国缺乏芯片

这种范式转变的一个后果是推理所需的计算量大幅增加。以中国为例，出口管制极大限制了可用的计算资源，减缓了他们的研究测试进度。对于强化学习来说，计算资源受限意味着更少的回合数、更慢的数据生成与筛选，以及实验和验证的延迟。在短期内，这并不重要，因为今年分配给强化学习的计算量仍然处于数万块 GPU 的规模。

在中期内，中国的生态系统将继续受到算力限制。H20 和 H20E（H20 的一个拥有更大内存的变体）的禁令严重削弱了推理能力，而推理能力对强化学习至关重要。正如我们之前提到的，H20 的推理性能优于 H100。

除了在部署新模型方面进展较慢之外，中国公司在向客户提供服务时也将面临问题。DeepSeek 应对算力限制的方法是以极慢的速度（每秒 20 个 token）提供模型服务，牺牲用户体验，以便尽可能多地将响应进行批处理。这种做法尽可能地将算力保留用于内部使用。DeepSeek 目前在生产环境中并未使用华为昇腾芯片，仅因性能和体验更佳而使用英伟达芯片，但他们将会开始使用昇腾芯片。

这一影响怎么强调都不为过。由于这项禁令，中国错失了数百万颗芯片。

华为正在积极推动昇腾 910B 和 910C 系列的应用。华为昇腾系列的主要客户是阿里巴巴和字节跳动，这两家公司已经采购了华为芯片，并深度参与了下一代产品研发过程中的反馈工作。

除了华为通过规避出口管制从台积电获得的 290 万颗芯片外，我们还看到国内中芯国际的产量正在大幅提升。我们目前预计，2025 年将在国内生产 38 万颗 Ascend 910C，随着良率提升以及中芯国际北京 N+2 工厂（除上海工厂外）投产，明年产量将达到数百万颗。

字节跳动和阿里巴巴也都在开发自己的定制芯片，我们在加速器模型中密切跟踪这些进展。

强化学习允许频繁地更新模型

预训练阶段与当前阶段的一个显著区别在于，强化学习可以在模型发布后进行。这意味着模型可以先发布，随后通过持续进行强化学习来扩展其能力，然后再对模型进行更新。这种迭代式开发可以用来逐步完善现有模型。这正是新版 DeepSeek R1 所采用的方法。

这对于后期训练来说是普遍现象——目前的 GPT-4o 已经经过多次更新，早已不是最初发布时的那个 GPT-4o 模型了。

我们预计，由于新的范式，Anthropic 将会比以往更频繁地对他们的 Claude 模型进行更新。

递归自我改进已经在发生。

我们提到过通过更好的模型在强化学习过程中成为更好的评判者来实现自我提升，但还有另一个重要的维度需要考虑。这个想法是模型本身帮助训练和编写下一个模型。Claude 4 系统卡为我们具体展示了实验室的思考方向。Anthropic 对编译器开发、内核工程，甚至四足机器人强化学习都进行了评估。

事实是，实验室正在进行的大量工作，实际上是为了最大限度地利用现有硬件而进行的艰难工程工作。编译器、内核、内存管理优化、超参数调优等，都是可以衡量和改进的编码任务。这些任务对模型的效率也有着巨大的影响。递归自我改进常常被称为一个充满吸引力且意义深远的术语，但现实是，这种情况在某种程度上已经在发生。实验室还可以通过对这些任务进行强化学习来加倍推进，并且拥有大量内部模型变体正是在做这些事情。

其中大部分最初将围绕着那些不起眼的繁琐工作展开，并逐渐转向研究新的架构。

当前的模型并没有显著加快开发速度。但 OpenAI 的 Codex 工具已经在帮助员工构建下一版本。自我改进的思路在于，这些模型将让工程师花更少的时间编写代码，把更多时间用于思考与研究和数据相关的话题。在模型开发受限于工程工作时，这些瓶颈将会被解决。然而，实际上，模型开发还受制于包括算力获取在内的多种其他因素。真正的递归自我改进也将极大加快研究和数据的进展。

工具使用与 o3

RL 的有效性在 o3 模型中得到了充分展示，尤其体现在其对外部工具的高级使用上。o3 证明了智能本身很有用，但能够访问并善用工具则更为重要。OpenAI 为实现这一能力做了几件事。首先是确保模型能够访问这些工具。这可以作为报告中提到的更广泛基础设施的一部分来实现（例如对环境的访问）。在模型层面，可以通过特殊的 token 触发访问工具。例如，模型使用像 <search> 这样的特殊 token 来触发外部搜索，搜索结果以结构化的形式返回，模型可以直接在推理过程中使用。赋予模型访问多种不同特殊 token 的能力，使其能够快速且轻松地访问不同的环境。

USER
“What’s the population density of Zürich in people /km²?”
───────────────────────────────────────────────────────────────
ASSISTANT  (turn 1)
<think>
Need population and area → then divide.
</think>
<answer>
<tool>search_web{"query":"Zürich population"}</tool>
</answer>
────────────────────────────────────────────────────────────────
RUNTIME  (executes the first <tool>)
# observation[0]: "Population of Zürich: 402 762"
────────────────────────────────────────────────────────────────
ASSISTANT  (turn 2 – sees observation[0])
<think>
Population = 402 762. Next: fetch area.
</think>
<answer>
<tool>search_web{"query":"Zürich area km²"}</tool>
</answer>
────────────────────────────────────────────────────────────────
RUNTIME
# observation[1]: "Area of Zürich: 87.88 km²"
────────────────────────────────────────────────────────────────
ASSISTANT  (turn 3)
<think>
Now compute density = 402 762 / 87.88.
</think>
<answer>
<tool>python{"code":"402762 / 87.88"}</tool>
</answer>
────────────────────────────────────────────────────────────────
RUNTIME
# observation[2]: "4586.4"
────────────────────────────────────────────────────────────────
ASSISTANT  (turn 4 – final reply)
<think>
Compose prose answer and cite both search results.
</think>
<answer>
Zürich’s population density is **≈ 4 586 people /km²**  
(using population = 402 762 and area = 87.88 km²).  
Sources: search result [0], search result [1].
</answer>

另一个挑战是选择合适的问题集进行训练。即使模型可以使用工具，如果没有必要，它也可能完全不使用这些工具。有效地训练模型需要提出足够困难的问题，使其必须依赖工具，从而确保模型能够自然地学会利用外部资源。这一点非常难以做到，并且需要大量测试来验证。然而，过度使用工具又会降低性能，使奖励信号变得复杂，并削弱整体效果。

其他因素包括确保回放具有许多初始状态，并且每个起点有多个响应，以帮助提升稳定性和学习效率，针对格式错误的输出添加惩罚，并对正确使用标签给予奖励。

实现 o3 需要为模型提供访问多种工具的能力（例如通过特殊标记），并在训练中使用迫使模型必须使用这些工具的问题。

为什么 o3 会幻觉

尽管 o3 在查找信息和研究方面表现出色，但它因频繁产生幻觉而臭名昭著。该模型经常会凭空捏造内容。随着 RL 算力的扩展，这个问题变得更加严重。为什么会这样？

我们认为这与这些模型的训练方式有关。模型通常只因正确的结果而获得奖励，而不会因错误的推理受到惩罚，这使得它们能够通过有缺陷的逻辑实现准确性。

例如，一个模型可能在一个简单的棋盘游戏中获胜，尽管它误解了游戏规则，却错误地学会了其有缺陷的推理是可以接受的。这不仅没有因为模型的错误思考而惩罚它们，反而还为此给予了奖励。

我们认为这种行为不仅仅出现在棋类游戏中。这无意中教会了模型在新的、未经训练的情境下产生幻觉，将有缺陷的推理扩展到更广泛的环境中。将推理模型用作评判者在一定程度上有助于解决这个问题，因为它们可以纠正整个推理过程。其他想法还包括更具体的奖励信号，对每个 token 分别奖励，对错误的逻辑进行惩罚，同时对正确答案给予奖励。

需要明确的是，这种错误的奖励行为可能会影响诸如代码之类的内容。一个模型可能会写出糟糕的代码，但仍然通过单元测试。这进一步强调了拥有正确奖励函数的重要性。

接下来，我们将探讨强化学习的不同训练方法，以及它如何迫使实验室做出在预训练时代无需面对的权衡。我们还将探讨为何扩展规模对于提升小模型的表现是必要的。最后，我们将深入分析 OpenAI 未来的推理模型，如 o4 和 o5，包括他们将如何以不同于以往模型的方式进行训练和开发。

#大模型内核 #深度学习