返回首页
信息来源:wing.vc 2026.02.02 02:04 约 13 分钟 深度学习

谁将赢得强化学习环境市场——以及原因

在我上一篇文章《为有代理性的 AI 构建 RL 环境》中,我主张增援学习(RL)环境正在成为有代理性 AI 的制约因素——因为使自动化持久的是核实,而不是模型的原始能力。这个框架有一个直接的竞争含义:最终获胜的团队不会像传统工具供应商;他们会像嵌入前沿实验室的思想伙伴,随着时间推移不断积累信任和研究深度。本文更聚焦于这对市场结果意味着什么:谁将赢得 RL 环境这一层,以及为何如此。

在 2026 年到 2030 年之间,RL 环境市场将出现决定性的收窄。今天看起来大约有 20 家处于种子到 A 轮、处境相对相似的公司——无论是前置部署团队、早期环境构建者,还是以研究为重的初创公司——最终将演化为三到五家市场领导者,其中一到两个主导平台会明显领先。

这不是由环境数量或早期演示驱动的抢占地盘,而是由两大相互强化的优势驱动的选择过程:

  1. 谁能及早赢得前沿 AI 实验室的“思想伙伴”信任,和
  2. 谁来构建能够将复制性训练和核实工业化的研究机构。

如今,实验室在许多简单环境中采摘低垂的果实,以教会人工智能使用工具,尤其是训练计算机使用的 v0 版本。未来,随着基础应用的被训练完善,实验室对交付环境数量的优化将减少。它们会更注重复杂性、质量以及下一步的发展,并且会越来越多地把开支集中在那些能推动前沿进展的少数团队上。

以下是决定谁将在 2026–2030 年脱颖而出的六个关键原则:

  1. 前沿实验室会选择嵌入式思想伙伴,而不是按需供应商
  2. 强化学习环境将从脆弱的工件演变为自动化基础设施
  3. 可复现性/环境训练与核实定义了研究护城河
  4. 实验室信任与研究深度相互自我强化
  5. 前沿实验室工作是基础;企业级工作是放大器
  6. 在核心和复杂领域(即编码)上的深度胜过环境的广度(大量环境应用)

1. 前沿实验室将选择嵌入式思维合作者,而非按需供应商

强化学习环境目前仍不成熟。许多环境只是单一应用,对用户界面或工作流程的变化脆弱,并且在任务定义或评分方面部分依赖人工。这在今天尚可接受,但随着代理自主性的提升,这种状况将无法继续。

只要设置受限,代理已经能够自主运行两到三小时。随着自主性提高,训练将从孤立任务转向跨越多个环境的长期工作流,在那里状态会持续、决策会累积,成功也只会在更久之后才显现。这一转变从根本上改变了实验室的需求。

因此,前沿实验室并不寻找能够“按需构建环境”的供应商。他们寻找的是思想伙伴 :能够帮助定义随着智能体变得更自主,强化学习基础设施必须如何演进的团队。实践中,这意味着共同设计新型环境,在模糊场景中对验证进行压力测试,以及试验尚无成型操作手册的复制训练方案。

买方集中是特性而非缺陷。赢得少数几家关键实验室的合作关系,比广泛分发重要得多。需要提醒的是,Scale AI 在进入 2019-2020 年时,其超过 80%的收入集中在大约五个自动驾驶客户上。

 主要结论 :实验室倾向于那些他们信任、愿意合作并视为自身研究机构延伸的团队。前沿实验室正日益成为强化学习人才的引力中心。与学术界和实验室保持实时研究管道的初创公司会继承这种引力;其他公司则会逐渐失去相关性。

2. 环境成为环境工厂:从脆弱任务到自动化基础设施

强化学习环境的技术演进是明确的。强化学习环境将从单一应用、人工挑选的任务;年度或半手动打分;以及对工具和界面脆弱的假设,转向多环境工作流;自动化任务生成与变体;以及能随代理能力扩展的混合验证系统。

最终形态不是“更好的环境”。而是自动化的强化学习基础设施:环境工厂,能够在代理改进和软件生态演进时持续组装、编排、测试并刷新环境。

这一转变将是渐进的。强化学习环境在相当一段时间内仍将主要由人工维护;如果整个流程已经可自动化,前沿实验室就会直接在内部构建。正因为他们还没有这样做,才说明这个市场的存在意义。

关键结论: 随着代理能力提升,环境质量——而非环境数量——将成为制约因素。实验室会奖励那些能吸收复杂性、保持环境稳定并预见下一代训练需求的团队。

3. 复制训练与混合核实是复合技术护城河

未来五年核心的研究挑战不仅仅是构建更多的强化学习环境,而是将环境训练转变为可扩展的系统。这里,复制训练成为决定性的基本方法。

复制训练用可控的大规模重复替代了定制的一次性环境构建。团队不是不断发明新任务,而是选择一小组高价值、长流程的工作流,在略有变化的环境中反复运行数千次——不同的输入、起始状态、工具可用性和约束——同时保持底层工作流稳定。学习的累积不是来自新奇性,而是来自在变化条件下的重复暴露。

构建可靠且可扩展的复制训练并非易事。复制训练需要:

  • 确定性重置与回放,使工作流可重复运行而不发生偏移
  • 环境抽象层,允许在不破坏真实感的情况下引入变异
  • 并行编排,以运行大量长时间跨度的轨迹
  • 监测与遥测,揭示代理随时间失效的地点与原因

目标是从最少的环境中提取最大化的学习信号——在保持保真度的同时压低边际成本。

核实是系统中更难的一半。在长期、多环境的工作流程中,很少存在单一的正确答案,且随着智能体的改进,奖励信号往往变得更嘈杂,而非更清晰。这就是为何胜出系统采用封闭的混合验证回路:专家为模型输出打分,模型复核专家判断,人类监督并纠正模型,算法则调和分歧、检测漂移并筛选边缘案例。

在这种范式下,数据工作变成了智力劳动——工作在于在模糊性存在的情况下构建并维持可靠的训练信号。复制训练只有在该验证回路随规模扩展仍然稳定时才有效。那种稳定性是一个研究问题,而不是工具问题。

像 GEPA 这样的提示优化系统并非强化学习基础设施的替代品,而是可插入相同复制与验证系统的相邻原语。

构建该系统所需的核心技能既稀缺又跨学科:

  1. 系统工程,负责协调、回放与规模化管理
  2. 应用机器学习研究,负责设计奖励机制并诊断失效模式
  3. 人机在环设计,平衡自动化与判决
  4. 产品直觉,用来判断哪些变体能真正教会模型新的东西

掌握这些技能的团队能把复现训练变成复合优势——并定义出强化学习环境中的真正护城河。

要点:复现训练只有在与稳定的、闭环的混合核实系统配对时才成为护城河——因为最终获胜的不是拥有最多环境的团队,而是能够从少量长期工作流中大规模可靠提取学习信号的团队。这个组合(可重复的训练 + 抗歧义的复合核实)能降低边际成本,防止漂移,并把每一次运行都转化为持久的优势。

4. 研究血统复合体:信托 → 人才 → 前沿接触 → 更佳体系

这些动态形成了强大的正反馈循环,而研究信誉则是入场券。具有真正研究背景的团队——通常仅凭是谁组建的就能看出——更容易赢得实验室和投资者的信任。

要点:拥有强大研究组织的团队能赢得更深入的实验室合作。这些合作使他们比市场其他参与者更早接触到前沿失败模式。这种接触直接促成了更好的复现训练系统、更强的核实流程,以及每个新环境更低的边际成本。随着时间推移,这些因素会累积成持久的技术优势。

5. 以实验室为先构建核心;企业端扩大分发规模

尽管实验室信任、研究深度与人才相互增强,但它们并非等量的投入。如果必须将其中一项作为突破性成功的根基,那无可争议地应是前沿实验室工作。正是在这里构建了强化学习基础设施。相比之下,企业工作则是应用、定制并实现该基础设施变现的场所。

前沿实验室迫使团队先解决最棘手的问题。环境必须在不同模型间具备泛化能力。可复制的训练必须能够规模化运行。验证必须在长时程不确定性下经得住考验。协调、回放以及评估与性能的相关性不能依赖于顾客特定的捷径。实验室采购的是基础设施原语——环境、任务、训练循环——而不是定制化的成果。这种压力催生出可复用的系统,而非一次性的解决方案。

如今企业的需求已有所不同。大多数企业并不是直接购买强化学习环境或训练基础设施,而是购买与具体工作流程和关键绩效指标相绑定的自主智能体应用,这些应用通常通过前置部署的工程团队交付。这类工作很有价值,但本质上更具定制性。企业级智能体更依赖于在实验室环境中已被上游强化和稳固的基础设施——实际上是“强化学习菜单”,而不是从零开始的定制训练。

这种不对称性很重要。为实验室构建的基础设施降低了企业部署的边际成本、风险和实现价值所需时间。为实验室使用而开发的复制训练管道、环境工厂和混合核实系统,越来越多地在幕后为企业工作提供动力。随着时间推移,看似定制的企业交付会变成构建在实验室衍生基础设施之上的配置。

要点:前沿实验室工作是基础。它产生了训练和核实基础设施,随后使企业部署更便宜、更快、更具可扩展性。脱颖而出的团队将是以实验室为先的平台,利用企业需求作为倍增器——而不是相反。

6. 在核心与复杂领域的深度胜过环境的广度

在构建持久的强化学习基础设施的早期阶段,在少数几个复杂领域的深度比在许多浅层领域的广度更为重要。并非所有环境的价值都相同。最重要的环境是那些成功难以定义、轨迹较长、工具至关重要且失败模式微妙的环境。编码和电脑使用完全属于这一类,其中编码是圣杯。

编码不仅仅是另一项任务——它是一个元领域。它结合了长时程推理、工具调用、有状态上下文、错误恢复和可验证的结果。关键是,它还提供了密集的反馈:测试通过或不通过,程序可以编译或出错,差异可以被评估,性能可以被测量。这使得编码成为少数几个能够在规模上获得高质量强化信号的领域之一,尽管这一任务本身在认知上仍然具有很高要求。

这不仅是理论上的优势;它已经反映在市场需求上。对于领先的 AI 实验室来说,编码是最大的应用垂直领域。Claude Code 在大约六个月内达到了约 $10 亿美元的年度经常性收入 。Microsoft Copilot 已经是一个数十亿美元的业务,OpenAI 的 Codex 正在创造数亿美元的年化收入。这些产品处于长时程、重工具代理行为的前沿,是强化学习环境的天然早期使用者。

最成功的原生 AI 应用——以及为了保持竞争力最有可能率先采用强化学习环境的企业——绝大多数以编码为中心。Cursor 的年经常性收入接近 20 亿美元,像 Windsurf/Cognition 这样的团队紧随其后,且 Cline、Kilo AI 等新兴初创公司迅速增长。这些公司并非在边缘试验;它们将智能体推向生产工作流——在这些场景中,可靠性、核实和持续改进至关重要。

相比之下,许多强化学习环境公司采用的是以环境为先的策略,更注重覆盖面而非深度。团队构建了数十个窄领域的环境——CRM 编辑、日程安排/电子邮件草拟、Slack 克隆等——这些都能展示能力,但很少产生复利效应。这些环境通常是短期决策、与工具耦合弱,并且常依赖脆弱的启发式方法或人工参与的评分。它们易于演示,但难以泛化,且只产生有限的可复用基础设施。它们为训练“电脑”使用的实验室提供了初步价值,但很快会被商品化。

深度会产生广度无法带来的复合效应。深入投资于编码和复杂电脑使用环境的团队,必须及早解决一些艰难且可复用的问题:可扩展的复现训练、混合核实、轨迹回放,以及评估与性能的相关性。这些系统的改进会在该领域内部跨任务迁移,随着时间推移也会扩散到数据分析、运维和一般电脑使用等相邻领域。

这就是为什么编码和电脑使用是强化学习环境中最先被接受的市场。它们位于高经济价值、高任务复杂性和强可验证性三者的交汇处。在这里取胜的团队不仅仅是在推出更好的智能体——他们还在构建使未来更广泛泛化成为可能的核心训练与评估基础设施。

关键要点: 在强化学习环境中,早期优势归属于那些在少数复杂且信号强的领域深入耕耘的团队——尤其是编码和电脑使用。广度可以后续补充,但一旦放弃深度就很难挽回。编码是建立基础的最佳单一专业领域。

2026 年的市场格局

强化学习环境的出现并不会取代现有的标注供应商,但会重塑价值集中点。传统标注目前大约是一个 50 亿美元的市场(同比增长超过 50%)。未来更广泛的 AI 训练数据市场可能会大得多——但在结构上有所不同。在标注周期中,规模和劳动力编排至关重要;在下一个周期中,研究深度、领域专业化和系统级整合将更加重要。

像 Surge AI、Mercor、Turing、Invisible 等现有企业已经为前沿实验室提供专家标注、微调数据和评估,合计创造数十亿美元的收入。这种需求在扩展,而非萎缩——尤其是在编码领域,该领域已成为这些平台中价值最高的专家垂直领域。以编码为主的专家工作是长期推理、工具使用和可验证性汇聚之处,使其成为从标注到强化学习环境的自然桥梁。

话虽如此,大多数现有企业仍然优化为以服务为先、以事件为单位的工作流模式,而不是为持续学习系统而设计。它们现在的核心并非以研究为先。强化学习环境需要可重用的环境抽象、确定性的任务设计、可扩展的复制训练以及从评估到性能的紧密反馈回路。这些是基础设施和研究问题,而不是劳动力问题。Bespoke 和 Applied Compute 等团队的创始阵容是机器学习科学家/工程师与 FDE 的混合,而不是标注员、项目经理和软件工程师。

如果一两个拥有强大研究机构的现有公司能够成功适应这个新的垂直领域,也不足为奇。Surge AI 是目前最明显的候选者,尽管 Snorkel 规模不足,但它具备知识基础。不过从结构上看,这个市场更有利于原生为 RL 环境构建的专业化公司。深度的累积速度比广度更快,从一开始就为构建训练系统而设计的团队——而不仅仅是管理专家产能——在捕获长期价值方面处于最佳位置。

哪些公司将在2030年胜出?

到 2030 年,RL 环境领域的胜者不会是那些拥有最多演示、最广环境目录或最大服务组织的团队。胜者将是那些真正构建基础设施的团队——并与前沿实验室紧密合作,将复制训练、核实和长时段环境编排工业化。

这一现实缩小了竞争范围。随着实验室把支出集中在少数值得信赖的合作伙伴身上,很可能会出现 3 到 5 个重要赢家。这个市场最终可能会像数据标注市场那样,已经有大约三家年收入超过 10 亿美元的公司(Scale、Mercor、Surge),以及五家以上年收入超过 1 亿美元的公司(Turing、Micro1、Invisible、Handshake 等)。

大多数早期参与者缺少两项不可妥协的能力之一:深度研究能力或持续的实验室信任。缺一不可,否则团队有可能在前沿部署的工作室停滞不前,或在实验室将支出集中到少数思想伙伴时沦为商品化的环境构建者。现有的标注供应商会参与这一市场,但很少有公司在结构上具备领导这一市场的条件。

最终,这个市场不会被最快应用强化学习环境的团队赢得,而会被那些帮助实验室定义强化学习环境应如何存在的团队赢得。持久的平台将由与前沿实验室合作的团队构建,他们能把零散的试验转变为可复制的训练系统,把脆弱的评分器变成健全的核实循环,并把一次性演示变成经久耐用的基础设施。

这项工作进展缓慢、以研究为主,且常常从外部看不见,但它会积累影响。等到强化学习环境成为一个明显的、企业级的类别时,胜负已定:决定性的不是今天的市场份额,而是谁在最关键时刻被实验室信任去构建训练层。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读