现实生活中的强化学习:持久护城河
本文信息来源:greylock

在过去的一年里,强化学习(RL)从通向通用智能的一条充满希望的道路,变成了旧金山餐桌上的禁忌话题。
尽管有时被批评为过度炒作 ,但强化学习在 AI 实验室内已证明非常有效,它帮助模型在特定任务上"爬坡"达到更好的性能。这种针对明确目标进行可靠优化的能力,催生了大量由强化学习驱动的初创公司。然而在实验室之外,强化学习的应用案例仍然少得令人惊讶。
我们着手调查实际应用与炒作之间的差距,随后与许多顶尖的智能体和企业公司进行了交流。到目前为止,它们的大多数强化学习工作基本上还处于实验阶段,尚未触及前沿实验室所使用的复杂技术的表面。与此同时,这些公司对如何利用强化学习方法表现出了热情和好奇心,具体包括:
- 构建自我改进的产品体验,以及
- 解锁真正的企业自动化
与前沿实验室的交流描绘出完全不同的图景:随着旗舰模型的改进,几乎任何任务都能解决,许多独特应用的需求正在消退。这引发了核心问题:如果底层模型持续改进,为什么还要投资专门的强化学习用例?
现实是,仅凭更好的基础模型无法解决公司定制化的个性化和自动化挑战。这些问题依赖于对独特业务背景、专有数据的深入理解,以及如何将这些知识应用到特定工作流程中。随着模型的改进,我们相信真正的护城河将源于这些要素的协同组合,再加上有效的强化学习方法。
在本文中,我们将深入探讨构建有效强化学习方法的复杂性,评估当前的用例,并讨论创始人在商业化基于强化学习的系统时应该考虑什么。
首先,让我们简要了解一下 RL 在实践中实际是什么样子。
RL 速成课程
RL 并非新技术。长期以来,它一直是训练后流程的一部分,使模型更安全、更符合用户期望。这通常包括两个步骤 :
- 监督微调(SFT) — 教会模型按照给定任务的指令执行
- **RL** – 通过学习哪些输出更好来教会模型在任务上表现得更好
RL 之所以成为一种有效的学习技术,是因为它在适当的情况下被证明能够更好地泛化 、 数据效率更高 ,并且能够最优地保留先前的知识。
RL 训练循环中的主要组成部分包括:
**智能体** – 智能体包括策略模型和 RL 学习算法。
环境 – 场景上下文的高保真复制品,包含供智能体执行的示例任务。该环境包括:
- 状态 – 智能体执行动作所依据的上下文
- 动作 – 工具或选择触发一个动作,从而导致状态变化。
- 奖励函数 – 用于定义成功动作并强化积极行为的评判标准。
一个很好的例子是编码代理,它在代码库中解决任务、运行测试,并根据结果获得奖励。这里的环境就是代码库,奖励校准了代理关于如何最好地解决每个任务的知识。

创建高质量环境
在许多方面,有效强化学习的关键在于环境创建。正如我们将在下面看到的,这本身是一个困难的问题,归结为两个关键原则:质量和可扩展性。
-
- 质量意味着环境是真实且有影响力的。这包括:
- 逼真度: 环境必须具有真实性,智能体才能在现实世界中准确执行任务。这可能意味着为工程任务寻找复杂的代码库,或为计算机使用创建应用程序的精确副本。
- 精确性: 任务定义和评分标准必须精确,以防止智能体进行奖励黑客攻击,或利用指令中的漏洞。
- 环境类型: 最有效的环境既具有独特性又可验证。它们能够加深模型当前能力范围之外的知识,同时仍然允许正确性被清晰地检验。编码和数学任务就是此类领域的良好示例。
- 质量意味着环境是真实且有影响力的。这包括:
- 可扩展性证明了模型的知识可以超越手工设计的任务而增长。这里有两个重要因素:
- 泛化能力: 理想情况下,智能体能够从多个场景中学习,并将所学知识泛化到未曾遇到过的类似问题。课程学习等技术,即逐步提升环境/任务的难度等级,可以提高这种能力。
- 环境生成: 为了更高效地扩展学习,找到自动化环境和任务创建的方法而不是手动设计它们是很重要的。
既然我们已经了解了这项技术,让我们来看看在与构建者和买家的对话中始终突出的两个使用场景。
用例#1:产品自我改进
随着模型不断改进,围绕这些模型构建产品的应用公司面临着持续的张力:在自身产品深度与快速增长的模型能力之间寻求平衡。与此同时,软件开发变得前所未有地容易,大多数领域的竞争都异常激烈。为了提高留存率,在软件之外构建产品深度变得势在必行。实际上,这意味着更好的个性化——根据特定客户偏好微调产品,以此作为增强产品黏性的手段。
RL 是一种实现这种个性化的强大工具,因为它能够根据用户反馈和信号强化特定行为。一个能够持续从用户交互中学习、接收输入并适应客户需求的产品,将成为最强大的自我强化产品护城河。
尽管对这一概念的探索尚处于早期阶段,但许多 AI 公司已经认识到定制产品以满足客户需求的重要性。例如,Cursor 和 Cognition 是在线强化学习的早期采用者,能够根据用户的 Tab 接受情况实时调整其产品中的代码建议。如今,公司主要通过三种方式来解决这一微调问题:
- 自主构建: 在内部构建在线/离线强化学习基础设施以支持特定用例,并使用真实客户数据创建内部环境,从而实现真实的学习飞轮。
- 多用途平台: 使用像 Tinker 或 OpenAI RFT 这样的后训练解决方案进行强化学习,并自带环境、评分标准和数据(真实或合成数据)。
- 定制服务方法: 与强化学习服务公司进行深度合作,共同设计环境、奖励机制并训练模型。根据隐私限制,这些环境可以使用真实数据或合成数据。
根据产品复杂度、领域和成熟度的不同,企业在实现产品自我改进的过程中会遇到不同的挑战。
- 定义强化学习的术语
大多数智能体产品都是复杂系统,有许多潜在故障点,包括用户界面、工具、提示词、上下文,以及最终的模型本身。因此,直接跳到强化学习可能并非最优选择。公司应该首先尝试更好的基础模型、评估或监督微调等技术。一旦这些到位,如果满足以下两个条件,强化学习就可以填补剩余的空白:-
- 产品具有许多清晰且可验证的奖励,并且
- 可以创建一个现实的模拟环境。
这就是为什么代码生成产品非常适合 RL:它们具有快速的用户反馈循环和明确定义的成功标准(tab 接受率)。
-
- 应对稀疏奖励信号
智能体产品依赖模型轨迹和用户遥测数据进行微调,但这些数据可能存在歧义,甚至过于稀疏而难以解读。例如,在客户服务产品中,工单的重新打开可能被视为负面奖励的代理指标,但如果是用户自己误关闭了工单呢?在这些情况下,我们看到公司使用多种方法来获取更准确的用户信号:-
- 通过人工或 LLM 审查遥测数据以区分用户意图
- 使用评估来改善用户体验,并创建更多产品接触点以收集用户信号
- 添加部分奖励或使用奖励塑形来增加中间步骤的信号
-
- 构建与购买决策
根据我们与买家的交流,他们对尝试强化学习有具体的兴趣,但对其有效性也持有合理的怀疑态度。早期阶段,大多数人更倾向于与外部供应商或服务商合作来验证这种方法。一旦得到验证,一些人希望将强化学习引入内部,以获得更好的准确性、安全性和 cost-effectiveness.。无论哪种情况,我们都注意到两个主要的摩擦点:-
- 安全与数据治理:
大多数公司无法与供应商分享真实的客户数据。这导致了一个痛苦的过程,即创建合成数据和环境,而这些可能无法准确代表客户的账户,因此产生次优的结果。 - 人才稀缺: 对于大多数初创公司来说,招聘强化学习基础设施方面的专家是一项艰巨的任务。这是因为很少有人才群体在实际产品上应用过强化学习方法,而且人才本身非常昂贵。
- 安全与数据治理:
-
要点:
尽管产品自我改进是一个很有吸引力的概念,但仍有待验证。目前仍存在两个悬而未决的问题:
- 公司如何在不同产品类型之间构建最具可扩展性和最有效的方法?
- 公司应如何平衡内部强化学习开发与外部服务?
用例 #2:企业自动化
尽管 AI 能力不断增强,但企业在代码生成和搜索之外仍远未实现有意义的自动化。模型的推理能力已经提高,但在需要上下文和细微差别的定制化企业环境中,它们仍然难以泛化。这造成了持续存在的"最后一英里"差距,使企业无法看到价值。保险理赔处理或信贷审批等工作流程很好地说明了这个问题:这些流程在不同组织间差异很大,一刀切的方法无法应对全部分布情况。
企业工作流程往往具有以下特点:
-
- 专有性
- 依赖于深厚的领域专业知识
- 受杂乱且往往不完整的数据所影响
- 在不同组织间差异极大
更好的模型可以提升性能,但无法解决工作流程中这种层面的细微差别。RL 可以通过映射组织的独特情况,并根据其成功标准定制奖励,来帮助弥合这一差距。
基于强化学习的企业自动化需要:
- 能够复制客户环境的上下文和条件的环境。
- 从关键客户利益相关者或该领域专家处获得的精确编写的任务。
- 在足够精细的层面上激励准确轨迹以防止偏离的奖励函数。

尽管我们在企业自动化的强化学习应用案例中还处于早期阶段,但这些关键问题将决定这一领域业务的可行性。
-
- 哪些工作流程适合使用强化学习?
最佳候选场景是基础模型通常难以应对的工作流程——那些难以泛化、高风险、对组织独特且需要深厚领域专业知识的场景。这些场景通常出现在金融、法律和医疗保健等垂直领域,其中专有工作流程可能因公司而异。在这里,最后一公里差距被放大,因为通用模型无法把握工作流程之间的细微差别。
- 哪些工作流程适合使用强化学习?
-
- 最终产品应如何交付?
显然,AI 自动化是企业买家的首要任务,但他们的采用率却严重滞后。以前的微调产品过于开放,假设企业知道 1)如何使用它们以及 2)用它们做什么。这种缺乏教育和与最终用户沟通的情况造成了巨大的采用阻力。最佳解决方案将针对特定用例量身定制,并引导用户走向正确的方向。由于这些重要工作流程风险较高,企业重视对这些流程的可见性和参与度。这使得在任何强化学习基础设施之上建立详细的软件层变得至关重要——一个将可解释性集成到用户体验中,并对其行为强制实施可审计性的软件层。
- 最终产品应如何交付?
要点: 真正的自动化机遇在于专有且高风险的工作流程,这些场景中通用模型力不从心。成功的公司将结合可扩展的强化学习基础设施、与客户的深度协作以及工作流程专业知识,以弥合最后一公里的差距。
结论
RL 是 AI 能力下一前沿领域的重要技术,我们 Greylock 很高兴看到它从前沿实验室向外扩散。企业中仍有许多个性化和自动化挑战尚未解决。随着公司内部开展实验并开始认识到这些机遇的价值,最优秀的供应商将在企业所在的位置与其对接,并为可扩展的联合开发树立先例。
除了本文讨论的用例之外,构建成功产品的关键要素之一是组建合适的团队。最有能力实现这一愿景的团队需要具备前沿后训练方法的深厚背景、高质量的工程经验,以及对商业和企业需求的实际理解。