强化学习与“体验时代”
关于强化学习的扩展、正在形成的强化学习生态系统以及代理可靠性的提升
大家好,朋友们,
在过去一年里,我们明显进入了一个新纪元:模型从静态的人类数据中获得的改进越来越少,而更多来自真实的经验。这里所说的“经验”是指这些模型在环境中采取行动、观察结果、获取反馈,然后变得更好。观察前沿实验室的工作,越来越看来,扩展强化学习是将这种经验转化为改进的方法。
在这篇文章中,我将讨论这一新范式、围绕它出现的技术栈以及存在的未解问题。
1. 经验时代
我们曾处于“人类数据”时代,模型从互联网和专家数据专员提供的文本中学习。我们在海量数据集上训练巨型模型,许多能力就是通过学习大量语言和代码而出现的。
现在,在“经验”时代,模型通过在模拟我们人类可能面临的真实任务的环境中尝试任务并接收反馈来学习。模型在跨越工具和时间的过程中执行一系列动作。
DeepMind 的 Silver 和 Sutton 在他们的“ 经验时代 ”论文中将其描述为:下一代智能体将从交互流中学习,在真实动作空间中采取有根基的行动,从后果中获得有根基的奖励,并越来越多地以经验值为货币进行规划。

也许最清晰的证据是各实验室在计算资源配置和数据投入上的变化。在计算方面,OpenAI 研究员 Dan Roberts 谈到计算资源正转向强化学习规模化,并讨论了一个可能的世界:在该世界中,用于强化学习规模化的计算继续增长,甚至超越预训练。
“我们为 o1 添加了一些强化学习计算……o3 可能在强化学习计算上稍微多一点。在未来某个时点,也许我们会有大量的强化学习计算,然后在更遥远的未来,也许我们会被强化学习计算完全主导并压倒——Dan Roberts”


同样在数据方面,实验室在过去一年促成了数十家供应商的兴起,这些供应商向实验室提供可模拟某种形式现实世界任务的环境,可用于通过强化学习提升模型在这些任务上的表现。本文后文将对此作更详细阐述。
另外,Mercor 首席执行官 Brendan Foody 指出 ,强化学习已经变得如此强大,以至于可以使任何评估失效。
强化学习(RL)变得如此高效,以至于模型能够在任何评估中达到饱和。这意味着将代理应用于整个经济的主要障碍,是为一切建立评估体系。然而,AI 实验室正面临着相关评估的严重短缺。实验室重视的学术评估并不能反映消费者和企业在经济中实际的需求。
要继续取得进展,关键在于不断提供新的任务集合,并将它们打包在合适的环境中,供模型“玩耍”并从经验值中学习。环境是代理可进行行动(数十万次)并接收反馈(以奖励形式)的沙盒。实际上,它就是经过埋点的真实工作流程版本:一个用户界面/应用程序、一个 API 接口或一个代码库。
2. 强化学习(RL)“栈”
随着强化学习在前沿实验室内部首先扩展,并随着时间推移在企业和独立软件供应商(ISV)之间普及,创业生态在几个具体领域逐渐形成。总体上,大致有三类公司:环境构建者(提供“数据”)、RL 基础设施(运行不同 RL 任务所需的基础设施)以及 RL 即服务(为那些想要更可靠代理但缺乏专业知识的客户提供服务)。下面我们更深入地探讨每一类!

RL 环境构建者
这些公司提供对强化学习至关重要的数据形式,特别是面向实验室的环境:在这些环境中,智能体可以采取动作、观察结果并获得评分。
在实践中,“环境公司”通常将环境打包出售,内容包括:代理可操作的工作流界面(UI、API、代码库、工具链)、用于生成多次尝试的任务库、对尝试进行评分的评估工具,以及用于保留完整轨迹的日志记录。
如今大多数此类公司主要向实验室销售,通常有其重点领域,但随着时间推移可能会扩展领域并且可能向企业销售。常见的重点领域及示例包括:
这些公司中许多都在快速扩大营收,但有趣的是,哪些公司能够持续扩张的同时保持灵活性和适应性,以及随着实验室需求的发展,哪些公司能真正提供在合适难度水平上模拟真实场景的环境以推动模型性能提升,仍有待观察。
向图灵、Mercor 和 Surge 等实验室提供服务的“在位”数据供应商也在提供环境,实际上可以说在市场中占有最高份额,此外还提供传统形式的人类专家数据。
强化学习基础设施
尽管各实验室可能已经建立了各自用于管理强化学习的基础设施,但仍有许多公司搭建了不同形式的基础设施,以简化强化学习的各个方面。
希望自行运行强化学习(RL)循环的团队需要用于 rollout、数据收集、评估、策略更新、准入控制和迭代的工具。他们还需要底层的计算与服务栈以保持高吞吐量。
在该领域创业的公司包括构建工具以简化训练后 RL 模型的公司,例如来自 RadixArk 的 Miles 和来自 Thinking Machines 的 Tinker;到像 Prime Intellect 这样的一体化计算平台,或像 Hud 这样使构建环境本身更容易的工具。
RL 即服务
许多企业(以及构建代理的软件厂商)拥有可复用的工作流程,这些流程中模型和代理无法开箱即用,但可以从强化学习中受益。
为了服务这类公司,出现了若干初创公司,本质上以服务形式提供强化学习的专业知识和成果。其推销通常是:告诉我们你的工作流程/成功指标,提供你的数据(代理轨迹、工作流程数据),我们将帮助完成对模型的后训练工作,以为你带来更好的结果。
大多数此类初创公司在内部构建了某种程度的基础设施和工具,并将其与具有强化学习专长的前端开发工程师配对使用。
这些公司的早期客户往往是以人工智能为本的公司,它们在生产环境中已有一个核心代理,希望对其进行改进。随着时间推移,同样的方法可以推广到传统企业的所有工作流。
这些公司的例子包括 Applied Compute、Osmosis 和 CGFT。
应用
到目前为止,大多数强化学习的规模化都是在前沿实验室内部进行的。但鉴于基础设施在不断改善,我预计这类公司的数量会增加,许多在有价值的工作流程中基于真实世界轨迹和结果反馈的 AI 应用很可能会利用这一点。
编码是一个极佳的示例:随着被广泛采用,许多此类轨迹都会在该应用类别中出现。Cursor 能够利用其标签模型的反馈通过在线强化学习训练出改进版模型,正如他们在这篇文章中所述。这就是许多应用公司从其收集的数据中真正看到价值的方式。

3. 结语
尽管我们有一条新的扩展路径,在短期到中期内应能持续带来进展,但仍有许多悬而未决的问题。其中之一是,模型在多大程度上能够泛化以掌握那些通过强化学习专门训练的新“技能”。前 OpenAI 研究负责人 Jerry Dworek 对此有如下评论:
“那些模型如何泛化?那些模型在超出训练范围的情况下表现如何?……那些模型如何完成你没有用增援学习训练过的任务?可能并不是太好。而这基本上就是人工智能领域剩下的问题,因为我们在训练的方向上……已经变得非常非常擅长。”
另一个问题是增援学习能否通过扩展来解决一切,还是我们还需要别的东西,其中持续学习是今天最明显的空白。Ilya 指出人类是持续学习者,是否需要让模型也这样做:
“在持续学习的曲线上,它会处于什么位置?……你可能会造出一个超级聪明的15岁孩子,迫不及待想要去做事……他们其实知道的很少……然后你告诉他们‘去当程序员,去当医生,去学习’。所以你可以想象,部署本身会包含某种学习的反复试错期。这是一个过程,而不是你把成品放下就完事了。”
无论 RL 最终是否引导我们走向通用人工智能,它显然正在推动模型改进,也是一个富有成果的领域,既是基础设施公司可以进行构建的方向,也是应用公司可以随着时间推移加以利用的领域。如果你在这一技术栈的任何环节进行构建,我很愿意听取你的意见。