AI耗尽全网高质量数据后,下一个十年拼什么?
作者:yidingjiang
大型语言模型是近三十年来互联网上可自由获取的人类文本意外催生的副产品。Ilya Sutskever 将这种信息储备比作化石燃料——储量丰富但终究有限。研究表明,按照当前的数据消耗速率,前沿实验室可能在 2030 年前就会耗尽最高质量的英文网络文本。即便这些预测被证明过于悲观,一个不争的事实是:当今模型消耗数据的速度远超人类生产数据的能力。
David Silver 和 Richard Sutton 将这一即将到来的阶段称为”经验时代”,其核心突破将依赖于学习智能体自主生成的数据。本文中,我想进一步延伸他们的观点:真正的瓶颈不在于获取任意经验,而在于收集对学习真正有益的关键经验。人工智能的下一波进展将更少依赖于参数堆砌,而更多取决于探索——即获取新颖且富含信息量的经验的过程。

要讨论经验收集,就必须考虑收集它们的成本。归根结底,规模化是个资源问题——计算周期、合成数据生成、数据整理流程、人工监督,任何能产生学习信号的投入。为简化表述,我将这些成本统一归入一个名为”浮点运算量”的记账单位。严格来说,一次浮点运算指一个浮点操作,但这个术语已成为衡量”系统消耗了多少资源”的通用标准。我在此借用这个概念并非因其工程精确性,而是它提供了一种通用的抽象计量单位。我的讨论仅基于相对投入量,不涉及具体的芯片配置、数据或人工时间的组合。请将浮点运算量视为”任何制约规模的稀缺资源”的简写。
在接下来的章节中,我将阐述若干观察,并将通常出现在不同语境中的观点联系起来。”探索”最常用于强化学习(RL)的语境,但我会在更广泛的意义上使用这个词——远超出其在 RL 中的常规角色——因为每个数据驱动系统都必须先决定收集哪些经验数据,才能从中学习。这种对”探索”的用法也受到我的朋友 Minqi 那篇精彩文章《通用智能需要重新思考探索》的启发。
本文其余部分的结构如下:首先,预训练如何无意中解决了部分探索问题;其次,为何更好的探索能带来更好的泛化能力;最后,我们未来应该将数十万 GPU 年的算力投入哪些方向。
预训练即探索
标准的 LLM 流程是先用大量文本通过下一个词预测任务预训练一个大模型,随后通过强化学习微调模型以实现特定目标。若没有大规模预训练,强化学习阶段将难以取得进展。这种对比表明,预训练完成了某些对于白板式强化学习(即从零开始)而言困难的任务。
近期研究中一个看似矛盾却普遍观察到的趋势是:小型模型一旦通过能力更强的大型模型生成的思维链进行蒸馏,就能展现出显著提升的推理能力。有人将此解读为”大规模并非有效推理前提”的证据。在我看来,这种结论存在误导性。我们真正应该思考的是:如果模型容量不是推理的瓶颈,为何小模型仍需从大模型中蒸馏知识?
对于这两项观察结果,一个有力的解释是:预训练的巨大成本实际上是在支付一笔高额的”探索税”。未经预训练或预训练规模较小的模型,单凭自身很难可靠地探索解决方案空间并独立发现优质解法 1 。预训练阶段通过在海量多样化数据上投入巨大算力,学习到丰富的采样分布(在此分布下更可能获得正确延续),从而支付了这笔税款。而蒸馏机制则让小型模型得以继承这笔”税款”,借助大模型巨额投入所获得的探索能力实现自我提升。
为何这种预付费式探索如此重要?广义而言,强化学习循环的运行机制可概括为:
- 探索阶段。智能体生成若干随机探索轨迹。
- 强化。优质轨迹被赋予更高权重,劣质轨迹则被降权处理。
要使这个学习循环有效,智能体在探索阶段必须能够生成至少一定数量的“优质”轨迹。这一概念在强化学习中有时被称为覆盖度。对于 LLMs 而言,这种探索通常通过从模型的自回归输出分布中进行采样来实现。在这种探索机制下,正确的解决方案需要已经存在于原始采样分布中且具备一定可能性。如果低容量模型通过随机采样很少能偶然发现有效解,那么它就没有任何有用的内容可供强化。

在没有任何先验信息的情况下进行探索是一个非常困难的过程。即便在最简单的表格型强化学习设定中——每个情境(状态)和每个动作都能被列举在表格里——理论表明学习过程仍需要大量尝试。表格型强化学习中关于训练回合数的样本复杂度著名下限是 (Dann & Brunskill, 2015),其中 表示状态空间大小, 表示动作空间大小, 表示时间跨度, 表示与最优解的”距离”。这意味着最小训练回合数会随状态-动作对数量线性增长,并随时间跨度的平方增长。对于 LLMs 而言,状态空间现在包含所有可能的文本前缀,动作空间则是任意下一个标记,两者规模都极其庞大。若没有任何先验信息,这种设定下的强化学习实际上是不可能实现的。
迄今为止,探索的艰巨工作主要依赖于预训练和从轨迹样本中学习更优的先验分布。然而这也意味着,模型能直接采样的轨迹类型会严重受限于先验分布。要取得进一步突破,我们必须找到超越先验分布的方法。
探索促进泛化
传统强化学习研究往往聚焦于逐个攻破单一环境,例如 Atari 或 MuJoCo。这相当于在同一个数据点上进行训练和测试。但模型在单一环境中的表现,并不能充分说明其应对真正新场景的能力。机器学习的核心终究在于泛化能力:对于许多难题,若能预先知晓,我们完全可以设计定制化解决方案。真正的价值在于解决那些未曾见过、甚至未曾预料到的问题。
强化学习的泛化性能对语言模型至关重要。训练过程中,LLM 仅接触有限数量的提示样本,但在实际部署时却必须处理与训练样本差异巨大的任意用户查询。值得注意的是,当前 LLMs 在具有可验证奖励的任务(如编程谜题或形式化证明)中表现优异,因为这些任务的正确性易于检验。更具挑战性的问题在于将这些能力泛化至边界模糊的领域(例如生成研究报告或撰写小说),这类任务反馈稀疏且模棱两可,大规模训练与数据收集也更为困难。
训练通用化模型有哪些可选方案?深度学习的一个永恒主题是数据多样性驱动稳健泛化。探索直接控制着数据的多样性。在监督学习中,一个标注样本通过单次前向传播就能揭示其全部细节 2 ,因此增加数据多样性的唯一途径就是收集更多数据。相比之下,在强化学习中,每次交互仅能暴露环境的狭窄片段。因此,智能体必须收集足够多样化的轨迹序列,才能构建具有代表性的环境认知。若采集的轨迹缺乏多样性(例如简单随机采样),策略就可能对狭窄片段过拟合,甚至在同一环境中也会表现失常。
当存在多个环境时,这个问题会愈发严重。Procgen 是流行的强化学习泛化基准测试,它包含一系列类 Atari 游戏,这些游戏采用程序化生成环境,因此原则上每个游戏都包含”无限多”种环境。其目标是在固定数量的环境中训练固定步数后,能够泛化到完全未见过的环境 3 。

针对这一基准测试,现有方法大多将其视为表征学习问题,并采用源自监督学习的正则化技术(如随机失活或数据增强)。这些方法虽有效果,却忽视了强化学习最重要的结构要素之一——探索。由于智能体需自主收集数据,它们完全可以通过改变探索策略来提升泛化能力。在早期研究中,我与合著者已证明:仅需为现有强化学习算法搭配更强的探索策略,无需显式正则化就能使其在 Procgen 上的泛化性能翻倍。最新研究进一步发现,更优的探索策略还能让模型充分发挥更具表现力的架构与计算资源,从而在 Procgen 上实现更卓越的泛化效果 4 。
尽管 Procgen 的难度和复杂性远不及当今 LLMs 训练所解决的问题,但整体问题结构本质相同——强化学习智能体在有限问题集上训练,测试时则需面对新问题且无法继续训练。目前我们对 LLMs 的探索方式相当简单,通常仅限于通过调整温度或熵奖励从模型的自回归分布中采样,因此存在巨大的设计空间来开发潜在更优的探索方法。必须承认,这个方向尚未涌现太多成功案例,可能因为问题本身极难解决,或性价比不足难以实用,亦或是我们努力程度还不够。但若 Procgen 式的探索增益真能转化,我们或将错失效率提升——甚至可能是全新能力——的良机。下一节将探讨可优先探索的方向。
探索规模化的两个维度
在我此处的广义定义中,探索是指决定学习者将看到哪些数据。这一决策涉及两个不同维度:
- 世界采样——决定学习场域。此处的”世界”指代需要解决的特定问题。在监督学习(或无监督预训练)中,该维度涵盖数据收集、合成生成与筛选:即收集过滤原始文档、图像或代码,每个样本都对应一个”世界”。在强化学习中,则对应设计或生成环境,比如一道数学谜题或编程问题。我们甚至可以将这些世界编排成课程体系。无论哪种情况,世界采样的本质在于决定学习者能接触哪些”数据点”,这也决定了智能体可能获取的所有信息上限。
- 路径采样——决定如何在世界内部收集数据。这一步骤是强化学习独有的。选定世界后,智能体仍需选择采集哪些轨迹:随机游走、好奇心驱动策略、树搜索、工具使用等。不同的路径采样策略可能产生不同的计算成本,即便底层世界相同,也会形成截然不同的训练数据分布。简言之,路径采样关乎学习者”想要”看到什么。
在监督学习或无监督预训练中,第二轴线的成本是恒定的,因为单次前向(和反向)传播就能获取每个数据点包含的全部信息(如交叉熵损失)。由于无法在单个样本中”深入挖掘”(除了扩大模型规模),探索成本几乎完全集中在第一轴线——世界采样。计算资源要么用于获取新世界(如新数据点),要么用于处理现有世界(如数据清洗和合成数据)。
相比之下,强化学习在第二个维度(除第一个维度外)上具有更大的灵活性。由于大多数随机轨迹几乎无法揭示理想行为的信息,强化学习中的信息密度(每浮点运算的有效比特数)远低于监督学习或预训练。如果我们简单地采样轨迹,就可能将算力浪费在噪声上。因此明智地分配算力至关重要。在每个世界内部进行探索时,我们还有更多算力分配选择。例如,既可以从单一环境中采样更多轨迹,也可以投入更多算力来思考如何采样下一条轨迹,从而发现高价值状态和动作。
对于大多数(若非全部)机器学习问题而言,其高层次目标可理解为追求每浮点运算的信息最大化。为此,这两个调控因素形成了权衡曲线。若在环境采样上投入过多资源而路径采样不足,智能体可能无法从采样环境中提取有意义的经验;反之,若在少量环境上过度投入资源,智能体可能对训练环境过拟合,无法习得跨环境迁移的泛化行为。理想状态介于两者之间——资源应合理分配于新环境采样与运行算法(即优于随机采样)之间,从而从单个环境中提取更多信息。

若你熟悉缩放定律,我刚才描述的听起来很像 Chinchilla 缩放定律,但两个坐标轴对应的是用于不同类型采样的计算量,而非参数量与数据量。在每个性能水平上,都应能绘制出一条等性能曲线——其横纵坐标分别代表投入特定环境交互的计算量,以及分配给环境本身的计算量(无论是用于生成环境还是运行环境,例如带思维链的生成验证器)。
在这两个维度中,路径采样是一个相对明确的问题。在环境中进行探索的原则性方法是降低模型的不确定性 6 。现有的许多探索方法虽然具有极强的样本复杂度,但往往计算成本高得令人望而却步。尽管如此,路径采样确实存在一个明确的目标,主要障碍在于找到计算高效的近似方法。另一方面,世界采样的目标则模糊得多。开放式学习是个吸引人的想法,但即便是开放式学习也需要定义所有环境的集合(即环境规范),或是需要一个主观观察者来判断结果是否”有趣”。
世界采样应优化什么目标?不幸的现实(或者说幸运,取决于你的视角)是环境空间是无限的,但我们的资源是有限的。如果我们想做些有用的事,就必须对环境表达某种偏好。我怀疑设计环境的问题最终会变得类似于选择预训练数据。很难确切说明为什么一个环境会帮助另一个环境,而且我们需要大量这样的环境。换句话说,可能并不存在一个单一、清晰且完美的目标来设计环境规范。
更可能出现的情况(或许已经发生)是每个人都会基于自身专业领域或兴趣方向开始设计规范。当我们积累足够多”经人类认可”且”实用”的规范后,或许就能尝试总结某些通用原则,最终实现流程自动化——就像如今预训练数据筛选机制那样。若决策泛化能力需要与预训练数据同等规模的环境支撑,显然不够理想,但初步证据表明事实未必如此。近期研究发现,仅需少量环境训练,智能体就能在完全分布外环境中实现通用探索与决策。此外,现有 LLMs 的运用也能大幅加速设计流程。
当然,这些都只是非常宏观的思考,如何精确调整这两个维度的规模远不如预训练规模调整那样显而易见。不过,如果我们能找到可靠的方法将规模引入世界采样,并开发出更智能的路径采样方式,就应该能看到性能等值曲线向原点方向内凹(或许曲线不会那么平滑)。这类规模法则将为我们揭示在环境与智能体之间分配计算资源的最佳方式。
最终思考
我本可以继续展开更多分支话题——更好的好奇心目标函数、开放式探索、学习如何探索的元探索机制——但我觉得阐明这个高层观点更为重要。
现有的扩展范式已经取得了惊人成效,但所有范式终将达到饱和。关键在于如何投入下一个数量级的算力。我认为探索——包括世界采样和路径采样——提供了一个充满前景的方向。我们尚未掌握正确的扩展法则、理想的环境生成器或最优的探索目标,但直觉上这些都应可实现。未来数年将验证探索能否在现有范式基础上进一步拓展我们的计算效能。这个赌注值得一试。
致谢
衷心感谢 Allan Zhou、Sam Sokota、Minqi Jiang、Ellie Haber、Alex Robey、Swaminathan Gurumurthy、Kevin Li、Calvin Luo、Abitha Thankaraj 和 Zico Kolter 对草案提出的宝贵意见与讨论。
-
另一种合理的可能性是强化学习优化目标对小型模型效果不佳,但这种情况大概率不存在,因为在 LLMs 兴起之前,强化学习最成功的应用案例都涉及非常小的模型。↩︎
-
这并不意味着模型能够充分利用这些信息,因为模型的计算能力可能受限。这只是说明如果它愿意,这些信息是完全可用的。↩︎
-
为了使泛化问题可处理,我们必须假设所有环境都存在”足够好”的策略。这类似于监督学习中假设标签噪声很小或不存在。↩︎
-
在撰写本文时,我相信这在 ProcGen 的”25M 简单”基准测试中创造了新的最先进性能。↩︎
-
有趣的是,对于 Atari 等许多问题,随机采样效果相当不错。我认为这更多地说明了环境特性而非探索方法本身。↩︎
-
在强化学习算法家族中,存在一类名为后验采样或信息导向采样的方法,它们试图引导探索行为以降低模型的不确定性。但这些算法通常计算成本过高,难以在 LLMs 的规模上精确实现。据我所知,虽然存在各种近似方案,但尚未广泛应用于 LLMs 领域。↩︎