人工智能研究实验困境

人工智能研究实验困境-RecodeX

如果你正在阅读本文，很可能关注人工智能研究领域。若你关注 AI 研究，或许已目睹过关于通用人工智能发展时间线的争论。当丹尼尔·科科塔科和斯科特·亚历山大警告 AI 代理可能在 2030 年前颠覆政府并毁灭人类时 ¹，说不定你还为此建造了地下掩体。

多数认为超级智能即将到来的人，都预期会出现"智能爆炸"——即当 AI 能够自动化 AI 研究时，人工智能发展将出现戏剧性加速。具体而言，如果高级推理模型能自主生成并筛选研究构想，再通过代码实现这些构想，这种场景就可能成为现实。

我相信我们很快就能训练 AI 智能体来生成多样化的研究构想，筛选最具潜力的方案进行测试 ²，并将这些构想转化为代码实现。但我不认为（仅靠）这些能力能显著加速通用人工智能的研发进程。

要理解其中缘由，我们需要审视当前真正制约 AI 研究的因素。当我询问 AI 研究者"什么让你夜不能寐？"时，答案从"AI 开发生化武器"到"问题数据导致训练发散"不一而足。唉，这两个担忧都确有道理。

从这些对话中可以明确一点：瓶颈并非缺乏创意。研究人员脑海中充斥着各种想法，其中数千个尚未得到验证。随着更多人投身 AI 研究领域，积压的创意只增不减——而且其中很多想法在代码层面实现起来并不困难 ³。

算力确实是关键瓶颈；我们只是没有足够的 GPU/TPU 来支持 AI 实验，但许多组织都聚焦于当前/迫在眉睫的数据中心容量危机。

人工智能研究中被忽视的瓶颈在于设计严谨的实验、执行这些实验并分析结果 。

若要加速研究进程，我们需要的不是更多想法或代码。 关键在于更快地开展更优质的实验 ⁴。那么如何实现？通过与研究人员和工程师的交流，三个核心问题浮出水面：

更优化的实验设计（包含更严谨的评估方法）
更高效的实验运行方法（检测/调试训练代码问题；端到端管理追踪实验）
更完善的实验分析（诊断失败原因；从小规模实验推演规模化结果）

当研究人员能够设计出严谨验证假设的实验，在稳定环境中运行，严格评估影响并理解失败原因，还能从小规模试验中推演出普遍规律时，我们将开启加速发展的新阶段。这并非因为实现了 AI 研究的自动化，而是因为我们赋能了成千上万的研究者以更高效率推进工作。第一次智能大爆发或许将属于人类。

这些问题确实非常棘手 ⁵。作为风险投资人兼技术乐观主义者，我相信更好的工具能有所帮助，但仅靠工具无法解决实验设计、执行和分析的难题。许多挑战源于复杂的组织动态和激励机制：领导者必须在竞争优势与开放科学之间权衡取舍；管理者担心严谨的实验会拖慢迭代速度；一线研发人员因追求前沿性能而非可复现性获得嘉奖。在快节奏的市场中，团队往往在模型和软件"勉强够用"时就匆忙发布。随着生成式 AI 市场竞争日益激烈、技术进步速度超出所有人的追踪能力、媒体报道不断煽动炒作与争议，这些压力正不断加剧。

解决这些问题需要研究人员、统计学家、工程师等群体深度协作——其中许多人从未应对过如此艰巨的挑战，也未曾有过合作经验。虽然我能指出在关键问题上运用 AI 魔力的巧妙机会，但真正的工作在于构建正确的文化、激励机制和流程。不过我相信，致力于透明科学和严谨实验的专注研究组织能够取得实质性进展。我们终将攻克这个难题。

‍

第一部分：设计更完善的实验方案

当前 AI 研究实验普遍缺乏严谨性

2013 年 DeepMind 研究人员提出的 Q 学习变体模型，可直接通过原始像素学习玩 Atari 2600 游戏。其表现看似超越了人类玩家，引发轰动并成为十年来被引用最多的机器学习论文之一。然而 2018 年麦吉尔大学与微软的 Peter Henderson 团队证实，该研究宣称的优势主要源于有缺陷的评估方案——原论文仅使用一两个随机种子进行测试，并将 AI 与少数非专业人类玩家在不利条件下的表现进行对比。

这并非孤立事件。即便在重视可复现性的学术圈，多项突破性研究也因后续实验发现原始设计缺陷而被撤回或重新诠释。

这并非针对个别研究者的批评。竞争压力、紧迫时限以及对重大使命的真切热忱，都推动着人们快速前进。但 AI 领域的进步取决于优质科研，而优质科研又依赖于严谨实验。实验能验证新研究思路究竟是否有效。我们需要精心设计的实验，让研究者基于实证而非直觉来开发更优算法。

既然优化实验设计如此关键，为何研究机构仍难以将其列为优先事项？

首先， 做好实验设计本身就很难 。设计具有内部效度的人工智能实验颇具挑战性，因为研究人员需要控制诸多可能微妙影响结果的变量（如数据分布、采样方法、训练方案、超参数配置等）。即便在亟需交付成果的压力下，研究者也必须严格把控所有这些变量——这可能意味着放弃使用可能影响扩展预测的新数据集，或是搁置可能破坏模型行为稳定性的架构改动。生成式 AI 系统的高维性和随机性特质，使得识别偏差和减少随机误差变得更加困难。实践中，许多实验设计的改进往往只有在缺陷实验之后才会显现。

当大型研究团队同时评估多个想法时，这些问题会加剧——为了节省算力，他们会在单次训练中嵌入多个假设。虽然这种复用策略能提高资源利用率，却难以将观察到的性能提升归因于具体干预措施，从而削弱了因果可解释性。研究人员必须在保持因果可解释性的实验设计，与单位时间和单位算力下获取最大信号量之间寻求平衡。在随机性领域实现这种平衡尤为困难，因为通常需要多次实验才能可靠地区分信号与噪声。

人工智能🤝统计学（统计方法如何优化实验设计）

认识到这些陷阱后，人工智能研究界正开始融合经典统计学原理，以增强训练前后研究的内部有效性。

例如，Anthropic 近期发表的论文《为评估添加误差线：模型评估的统计方法》揭示了常见评估实践的统计脆弱性——比如仅报告单次运行指标而不提供置信区间，这种做法可能导致过度自信或误导性结论。作者 Evan Miller（他运营着一个关于 A/B 测试的优质博客）建议通过置信区间报告不确定性，使用假设检验比较模型，并明确规划统计功效，使实验能够可靠地检测出有意义的效果。

许多实验室正在招募统计学家严格审查实验方案，确保实验设计合理随机化、具备足够统计效力，并能排除其他解释。若执行得当，这将提升研究成果的可信度。

可惜的是，世界需要更多统计学家，而如今学习如何引导模型的学生比掌握 t 检验的还要多。未来，AI 智能体或许能确保实验的严谨性——它们可以审查实验设计方案，揪出诸如随机化不当或检验效力不足等常见错误，或是生成由人类统计学家优化的实验流程。一套实验设计的规范语法（例如类似 PLanet 的领域专用语言）或许能让人类与 AI 系统更系统地构建、分析和评议实验，同时通过明确复杂的设计选择来提升可复现性。

即便如此，核心挑战仍在于如何设计实验，以在固定的计算资源和时间预算内实现信息增益最大化。顶尖研究者会精心设计能在一轮实验中验证多个假设的研究方案，高效排除大量可能性，从而以更少的迭代次数聚焦于最具潜力的方向。更优质的工具、方法论和共享设计模式，将有助于所有研究者有效运用这些策略。

但仅有工具是不够的。若没有将实验设计提升为头等优先事项的重大组织变革，即便最优秀的框架也可能被边缘化。统计严谨性固然重要，但若将其视为终极目标反而会适得其反。正如 P 值操纵和选择性报告困扰着其他领域，拥有充足算力的 AI 研究者可以通过运行大量随机种子和/或超参数配置，最终获得统计显著性结果——即使效应量微乎其微。要避免这种陷阱，需要建立平衡影响力、可复现性与统计合理性的规范。这些规范与强大的工具支持及严谨的实验设计承诺相结合，将为扩展高质量实证科学提供清晰路径。

‍

迷失在评估中：构建评估体系并非易事

几乎所有与我交谈过的研究人员和从业者都将模型评估（evals） 列为最紧迫的挑战。遗憾的是，设计有意义的评估不仅涉及选择几个基准测试并运用统计严谨性来分析结果……

在进行 A/B 测试时，最困难的问题之一是选择正确的指标。同样，在进行 AI 实验时，最困难的问题之一就是选择和/或设计正确的基准测试。首先，研究人员必须明确优化目标："通用智能"、特定能力（如数学推理、编程）、用户体验、收入增长还是其他指标。目标的选取和优先级排序充满争议且极为复杂（谁能发明解决这个问题的 AI，谁就该获得诺贝尔和平奖）。而一旦某个指标成为目标，古德哈特定律警告我们，它可能会被操纵，直到不再反映真实目标。

即便目标明确，要获取正确的输入输出配对仍非易事。选择不当的测试集可能遗漏关键缺陷，或测量出与真实目标无关的结果。多数科学家认为优质基准应能体现人类处理的任务或问题类型。例如 SWE-bench 就采集了 GitHub 热门代码库中真实上报的缺陷 ⁶。为保持基准的相关性，部分团队借鉴软件回归测试方法，记录模型在生产环境中的失败案例，并将其纳入评估体系。

基准测试应当反映人类与智能体互动的方式，但多数忽略了异步迭代的交流过程。正如 Shunyu Yao 在 《后半程》 中指出的："现实中智能体必须全程与人类保持互动——你不会给客服发一条超长消息后干等十分钟，还指望得到一份解决所有问题的详尽回复。"许多评估还假设人类偏好是固定的，而实际上这些偏好常会随着与 AI 的反复互动而改变。设计良好的基准测试应当捕捉这些动态演变的偏好。

优秀的基准测试必须易于自动评估，这样研究人员才能快速迭代，无需耗费高昂的人工标注成本。随着模型在输出评估方面的进步，实践者已不再局限于多项选择等封闭形式。但模型仍然脆弱—— 对提示格式或任务框架的细微变化极为敏感 ——因此基准设计必须谨慎防范这种脆弱性。

数据污染是另一项重大挑战。这是数据科学的基本原则：保持训练集和测试集分离，才能公正评估泛化能力。但在实践中，这种分离很难实现。基准测试问题一经发布，就会在网络上流传——可能被翻译成日语出现在 Reddit 子版块，或是嵌入冷门教程中。很快就会有模型在不知情的情况下，将这些实际上属于测试集的问题纳入训练数据。更棘手的是，海量训练数据中常含有与基准测试相关的痕迹（元数据、标签分布或上下文线索），这些因素会微妙地影响模型行为，导致下游评估表现虚高。

‍

再见，基准测试？

遗憾的是，解决这个问题并非简单地扫描数据集寻找完全匹配项。考虑到基准测试项目存在无数种排列组合、改写形式和翻译版本，彻底清除数据几乎不可能。部分研究者正在为基准数据集添加数字水印，使模型在训练时能够识别并跳过这些数据。

更激进的解决方案是超越静态基准测试，这一理念正获得越来越多关注。像 LMSys Chatbot Arena 这样的开放式系统依赖用户提交提示词，但用于汇总模型得分的 Elo 评分体系可能强化偏见——因为它对重复内容非常敏感。有人提出新型评分方法，其评分结果不受内容重复性影响。

有人提议利用 LLMs 或多智能体系统，通过原始语境生成更困难的新问题来扩展和完善基准数据集。像 TreeEval 这样的无基准方法则使用 LLMs 进行不可复现的评估，既能避免数据泄露，又能更好地区分表面性能相近的模型。自动化能力发现更进一步，将一个模型视为"科学家"，负责系统性地为"被试"模型提出开放式新挑战并评估其表现。这些技术持续施加自适应压力，能暴露出固定基准测试所遗漏的脆弱性和缺陷。

通过将评估转化为动态过程，我们能确保进步指标始终真实反映实际能力，使改进体现真正的突破，而非基准测试本身的人为产物。

‍

第二部分：优化实验流程

训练正在进行中。但训练过程很糟糕。

想象你是一名进行基因研究的科学家。你使用离心机从细胞碎片中分离核酸（分子生物学的基本步骤）。现在假设这台离心机有30%的概率会故障。你将损失样本、毁掉实验、并丧失产出有效结果的能力。如果你坚持不修复它，大多数人都会认为：你不该继续运营这个实验室。

然而这恰恰是 AI 研究的常态。研究人员经常告诉我，30-80%的训练运行会失败——并非因为科学理念有问题，而是因为训练过程（及其运行软件）极其脆弱。训练失败已成为普遍现象而非例外，主要源于：

硬件堆栈的极端复杂性、涉及数据的庞大规模，以及训练运行的超长持续时间。
运行训练任务的软件通常由松散耦合的库、自定义脚本和快速演变的框架拼凑而成。
这套横跨算法、基础设施和工具的训练装置迭代速度如此之快，任何层面的技术突破都可能让整个系统过时。

既要保证实验可靠性所需的稳定性，又要及时应用最新技术成果，这种平衡始终是持续存在的挑战。

故障通常源于训练代码错误、隐蔽的数据问题和/或基础设施缺陷。静默错误极为常见：分词器不匹配、检查点部分恢复、数据损坏或重复。硬件故障可能悄无声息地污染训练输出，却不触发任何显式错误信号。一块故障 GPU 就可能拖累数千台正常设备的通信。GPU 可能在训练中途崩溃。虽然训练往往能继续，但会出现质量扰动，且难以判断这究竟是代码错误、硬件故障还是统计噪声所致。

这种情况在任何背景下都很糟糕，而当团队根本不知道出了问题时情况会更糟（尤其是当数百万资金已灰飞烟灭时）。随机梯度下降算法即使存在错误也能持续收敛，它会适应任何给定的信号，但产出的结果质量会下降。更糟的是，评估工作往往被推迟到漫长训练周期的最后阶段；人们将其视为最后打勾的检查项，而非贯穿整个训练过程的反馈机制 ⁷。当研究人员最终运行评估发现故障时，线索早已中断。没人能确定根本原因究竟是出在数据、模型逻辑、优化器设置还是计算堆栈上。

可观测性缺口让情况雪上加霜。针对 110 个开源 ML 项目的研究发现，机器学习应用中的日志记录普及度远低于传统软件应用。虽然大多数项目至少包含一条日志语句，但许多项目在数据加载和预处理等关键阶段完全缺失日志记录。缺乏这些关键指标，捕捉细微故障将变得异常困难。

其他项目则饱受日志泛滥之苦：成千上万行内容在各节点间重复记录，几乎无法从中识别真正的问题。更糟的是，大部分输出毫无意义——诸如"加载 tensorflow.so"这类记录，或是那些暗示可能存在问题却无需采取行动的模糊警告。这种噪音使开发者逐渐麻木，最终他们不再阅读日志，只关注损失曲线图。尽管许多研究者希望解决这个问题，但优先级竞争和实施优质监测工具的高机会成本，往往使其在待办清单中不断后移。

在其他领域，你会修好离心机 ⁸。但在 AI 领域，我们只是让它再转一次。

等待评估：运行评估同样困难

前文已说明构建评估体系有多困难，但运行评估同样不易。多数研究者选择在训练后期才运行评估...因为评估过程太慢。可预见的后果是：他们在浪费数天或数周时间（以及算力）后才发现问题——可能是存在缺陷的构想、错误配置的数据或漏洞百出的代码。若能在训练过程中运行评估就能更早发现问题 ⁹，但由于当前工具链的限制，这种做法极少被采用。

以最广泛采用的评估框架之一 LM Evaluation Harness 为例，其运行速度相当缓慢。完成全套基准测试可能需要数小时，因此团队往往等到训练结束后才进行评估——虽然节省了挂钟时间，却大大提高了失败的整体成本。

这个问题是可以解决的。只需投入适度的工程努力，我们就能让评估流程更加高效，从而缩短反馈周期，在问题仍可解决时及时发现它们。请将此视为行动号召： 让评估更快、更容易地整合到训练工作流程中，是加速 AI 进展的一个高影响力方法 ¹⁰。

但测试工具的性能并非唯一问题。当开发者使用臃肿或筛选不当的测试集时，评估就会滞后。团队应该从一个小而精的测试子集开始，随着模型改进逐步扩展。在模型连最基本预测都做不到的早期阶段，全套评估并非必要，但它们很快就会变得有用。早期评估可能结果不佳（这很正常！），但如果你懂得区分可接受的欠佳表现与真正的失败，它们就能提供宝贵信号。

最关键的是，团队从一开始就应规划并分配充足的评估资源。速度取决于资源配置：若想快速评估，就必须为此预留预算。现实中训练往往占用了全部算力，而评估只能勉强使用剩余资源。真正的问题不仅在于工具缓慢，更在于评估未被视作训练流程中的一等公民。

快速评估的重要性远超表面所见。若要交付真正优秀的软件，就需要能快速测试验证代码的工具链。快速反馈循环是加速编写优质代码的核心。这条法则同样适用于模型构建——我们只是尚未投入必要工作来优化这些评估环节。

‍

当 AI 漏洞来袭时

软件漏洞很常见，但训练代码中的漏洞可能更频繁且更具破坏性。训练流程的复杂性众所周知，涉及分词、数据加载、分布式训练、检查点保存、优化器配置等诸多环节。许多组件属于底层定制开发或缺乏健壮的抽象层，因此当工程师从零编写关键部分时，细微漏洞出现的概率大幅增加。

但训练代码中的错误与传统软件中的错误截然不同。软件开发者可以通过单元测试、集成测试、系统测试或调试工具和静态分析来捕捉错误。而 GPU 代码则是另一回事：没有整洁的 for 循环、if 语句或清晰的模块化结构——只有密集的向量化 JAX 或 PyTorch 代码，通过掩码技巧来提升性能。许多错误是数值性的——前向计算与反向计算之间的微妙不匹配——这些错误可能源于框架内部而非开发者代码。阅读这些代码很困难，运行它们很困难，重新运行它们的成本也很高。开发者可能缺乏直接访问 GPU 进行测试的条件，因此他们会在其他硬件上模拟运行。为了提高可读性，团队常常会删除调试代码。

与传统软件不同， 大多数训练中的错误会静默失效 。注意力掩码中的细微错误或位置嵌入的偏差不会导致系统崩溃，但会显著降低模型质量。损失函数可能仍在下降，但模型性能已大打折扣。更糟的是，模型可能带着这些错误继续学习，形成脆弱的适应机制——只有在存在相同错误的系统中才能保持性能。

当研究工程师终于发现错误时（可能已训练数日甚至数周），他们必须回滚到最后已知的正常节点，并通过小规模复现来定位故障。但有些问题仅在大规模训练时显现，更多故障则源于多重因素的相互作用。

大规模诊断故障尤其具有挑战性。训练 LLMs 可能涉及数千个节点，每个节点包含多个层级（例如硬件加速器、框架、算法）。这些层级间的依赖关系会产生嘈杂且相互纠缠的故障信号，且故障往往会传播扩散，掩盖其根源。集群级通信策略（如数据并行、流水线并行和张量并行）更增加了协调难度。故障可能源于细微的时序问题或仅在特定负载下出现的消息错位。在这张密集的相互依赖关系图中精确定位错误通常耗时且费力。

捕网而非蚊蚋：发现并消灭那些恼人的程序错误

部分工程师正借鉴传统软件调试方法，开发系统性调试训练流程的方法论。例如斯坦尼斯拉夫·贝克曼的调试的艺术提出若干实用原则：通过缩减数据和降低启动时间保持调试循环紧凑；使用合成或受控输入在最小化模型上复现错误；尽可能强制同步执行；优先处理原子级调试周期。这些虽非万能良药，但系统化应用时能显著提升大规模调试的可操作性。

与此同时，其他团队正在开发主动检测训练过程中静默故障的工具。TRAINCHECK 通过训练不变量（整个训练过程中必须保持的规则）持续验证训练任务，以捕获各类根源导致的问题。这些训练不变量通过植入式收集的训练轨迹推断得出，并自动进行检查验证。

尽管我们看到利用生成式 AI 调试训练代码的某些潜力，但完全自动化仍难以实现。由于缺乏相关数据集来训练这类模型——大规模训练运行的详细日志十分罕见，且大多数开发者不会记录失败案例（这也限制了集体学习）——目前可用的训练资源有限。不过，更优质的工具能帮助工程师隔离和复现程序缺陷。一旦完成这些步骤，人工智能或许能协助定位并修复问题。

万能日志

大多数软件工程师都知道，编写代码比大规模维护更容易。正因如此，他们重视日志。日志是调试系统、捕捉回归问题和理解故障的关键。但在 AI 领域，日志记录常被视为累赘。

问题显而易见。训练日志可能稀疏零散、缺乏结构，或分散在多个系统中。故障频发，却因缺乏有效信号而难以诊断。PyTorch 等分析工具虽能提供深度可见性，但其开销使其无法用于长时间任务。团队面临两难选择：保守记录日志会拖慢训练/运行性能，乐观记录则如同盲飞。多数人选择速度并祈祷别出问题。一旦故障发生，便束手无策。分布式训练更让情况雪上加霜——故障会通过数千个 GPU 和平行计算层传播。一条缺乏上下文的无用日志记录就可能让调试停滞数日。

后见日志是个颇具前景的构想：训练运行时仅保留最基础的数据采集，但会定期保存检查点。一旦出现问题，开发者可以从检查点重放运行过程，并在事后注入日志记录。这种方法在性能与可观测性之间取得了平衡，但也带来了数据管理和代码复杂度方面的显著挑战。若实现不当，后见日志可能造成技术债务和冗余代码路径。虽然 FLOR 等框架能简化流程，但这种工作流远未成为标准实践。

部分实验室正投资优化日志基础设施。Meta 持续采集并索引海量训练日志，为每行日志附加迭代次数和节点 ID 等元数据。类似 XPUTimer 的系统在运行时监控关键 GPU 级操作，既避免了全链路追踪的开销，又能捕捉底层异常。而 L4 等研究系统通过挖掘日志中的空间、时间及跨任务故障模式实现自动化诊断，无需重新运行大型任务即可快速定位故障。

但大多数团队尚未达到这一水平。这正是一个亟待解决的问题。日志记录不仅用于事后分析（这类报告其实很少撰写）——它更是实现可复现性、实验追踪和理解模型学习过程的基础。若缺乏可复现性，当训练过程需要回滚或补救时就会陷入绝境；你无法修复自己无法真实重现的问题。精确复现实验的能力（相同代码、相同配置、相同数据）能将神秘的失败转化为可解决的问题。随着实验日趋复杂且成本攀升，可观测性也必须同步提升。我们需要结构化、可查询且富含上下文的日志记录...而非零散的打印语句和少量 TensorBoard 标量数据。

‍

第三部分：更优的实验分析方法

假设你已经提出了令人信服的假设，设计了完善的实验，并且毫无障碍地完成了训练过程。现在你需要进行分析。这很简单对吧？并非如此。实验分析从来都不是易事。

即便在提出假设并执行精心设计的训练实验后，研究人员依然可能无法确定究竟是想法本身存在缺陷、代码实现存在错误，还是实验基础设施不够完善。大多数实验实际上同时检验了三个要素：

研究构思；
其代码实现；
实验配置与基础设施。

当结果与预期不符时，很难判断究竟是模型未能学会应掌握的内容，还是测量了错误的指标，亦或是正确指标被错误测量。适当的随机化和统计严谨性会有所帮助。交互效应或异常值影响的诊断工具同样有效。但在实践中，研究人员训练大型模型时仍难以分离原因并解释影响。我们需要更完善的事后分析工具来确定哪些因素发生变化、原因何在，以及这些变化是实质性的还是偶然性的。

机械可解释性研究的进展可能对实验分析至关重要。诸如激活修补、归因修补和探针技术等方法，可以分离出导致特定行为的特定神经元或网络层。这些技术能揭示训练干预是否/如何影响内部表征，以及这些变化是否会改变输出 ¹¹。Anthropic 近期研究提出电路追踪法，通过识别可解释特征并绘制它们在网络层间的因果交互路径来解析输出生成机制。通过追踪哪些组件（如神经元组合、注意力头）在电路中传递或影响信息流，研究者可运用该方法构建关于内部模型机制的可验证假设（例如 Claude 3.5 如何通过多步推理回答地理问题或主动创作押韵诗句），并通过定向扰动进行验证。

影响函数 ¹² 能够量化单个训练数据点对模型预测的影响，也可为数据研究提供指导。它们能检测出哪些训练样本在特定干预后变得更重要，以及输出变化是由预期改动还是与无关训练数据的交互所驱动。更重要的是，影响函数有助于识别那些对预测产生不成比例影响的污染数据、错误标记或有害训练样本。

虽然这些技术能从单个实验中提取更丰富的洞见，但下一个挑战是从数量激增的实验中识别有意义的结果。随着自动化技术加速假设生成、实验设计和执行流程，实验数量将呈爆发式增长。人工判断哪些发现重要、哪些是伪相关、哪些值得跟进将变得过于繁重。研究人员需要从不断扩大的结果流中获取最相关的数据子集。LLM 驱动的工具在这方面具有天然优势，能够更高效地对研究发现进行筛选、排序和情境化处理。

这些工具并不能替代良好的实验设计，而是作为补充，提供具体的模型内部信号，帮助区分是想法本身有问题、实验设置出错，还是取得了误导性的成功。

‍

外推预测很困难

做好科研可能需要我们进行更多实验。但更多实验意味着更多时间和资金投入。我们无法对所有实验都进行全规模验证，因此团队开发了缩放方法学 ¹³，通过训练较小模型来预测放大后的效果。这在生物学领域很常见——我们先在细胞上测试，再在小鼠身上验证，最后应用于人类。但与生物学领域拥有更成熟的外推经验基础不同，我们缺乏预测 LLM 实验结果如何缩放的方法——尤其是在评估模型能力时。

这是个问题。为了更快地迭代并避免浪费数百万 GPU 小时，我们需要了解小型模型的结果何时以及如何迁移。遗憾的是，这仍是个悬而未决的难题。缩放定律表明损失曲线通常遵循平滑可预测的模式，但能力却并非如此——有些能力会突然涌现（比如上下文学习），有些会随模型规模增大而消失，还有些则会不可预测地波动。

理论上，我们掌握了一些工具。神经正切核（NTKs）在无限宽度极限下近似模拟训练动态，此时模型行为类似于具有固定特征的线性函数逼近器。这使得它们有助于理解早期学习行为。然而 NTKs 假设模型特征不会演化，仅输出层会调整；因此无法捕捉 SOTA 级 LLMs 中发生的丰富非线性动态和表征学习。虽然作为基线很有价值，但 NTKs 无法解释复杂行为如何及为何会在大规模场景中涌现。

最大更新参数化（μP）能协调不同模型宽度下的学习动态，使小规模与大规模模型在训练中表现更趋一致。这对研究学习率、优化器调度或损失曲线非常有用。但它无法判断某个注意力路由技巧在 70M 参数模型上激发的推理能力，是否同样会在 7B 参数模型中生效。μP 保留了参数更新幅度（而非涌现行为），且未考虑由深度扩展、上下文长度或数据多样性引入的非线性效应（尽管近期研究正在探索这些方向）。

我们需要的是一门真正的外推科学 ：能够告诉我们行为何时会跨规模迁移及其原因的框架、指标和实验。哪些内部信号能预测涌现能力？随着模型增长，哪些归纳偏差会变得更重要或更不重要？我们如何将规模效应与数据集大小、模型深度或优化机制的影响区分开来？外推非常困难——所以目前我们还没有好的答案。但如果我们真心想加速进展，这可能是我们能研究的最高杠杆率问题之一。

献给科学的颂歌

过去十年间，AI 领域取得了显著进展，这得益于物理学、神经科学和生物学等领域科学家的涌入，他们带来了各自学科的严谨作风与良好习惯。但做好科研不仅需要个人能力，更需要组织调整架构与流程以促进真正协作。有时需用迭代速度换取科学严谨性，有时需放弃部分保密性来支持可复现性。这些权衡虽艰难却意义重大。若想加速发展， 我们必须将 AI 研究视为真正的科学 ——这意味着更完善的实验设计、更严格的评估标准，以及能帮助我们理解模型实际学习内容的工具；意味着记录关键数据、及早发现故障，并像所有可信的实证领域那样用统计学方法分析结果。

人工智能和更优质的工具可以提供帮助——不是取代研究人员，而是为他们提供更敏锐的工具来捕捉漏洞、标记干扰因素、生成清晰的实验方案，并加速从想法到证据的路径。更智能的实验不仅能避免计算资源浪费，还将解锁更快的洞见和更有把握的进展。但真正的进步需要组织改变工作方式，必须激励团队专注于需要跨学科协作的深层、困难的技术问题。

我们经常讨论模型扩展。或许是时候扩展优质科研了。

‍

¹ 虽然我常发表俏皮评论，但我认为我们在 AI 安全领域的投入严重不足。

‍

² 研究人员在实质性推进创新研究思路生成方面已取得进展。

‍

³ 开发一个能让研究者在不同抽象层次上实现想法并调整该实现的框架，其挑战性要大得多。

‍

⁴ 本文大部分内容都明确适用于预训练实验。但随着我们开始扩展训练后阶段，许多相同问题也将出现。

‍

⁵ 这是本世纪最轻描淡写的说法吗？

‍

⁶ 部分从业者注意到 SWE-bench 评估标准过度偏重 Django 框架的问题，这可能限制其代表性。若能扩展纳入更广泛的开源项目集合，或将催生出更平衡且更具参考价值的基准测试。

‍

⁷ 要有效实施训练中期评估，团队应使用独立的验证集和测试集。遗憾的是，部分评估仍会忽略这种分离。

‍

⁸ 必须承认，我们强调的这些问题确实难以解决。但 AI 工程团队可以通过系统性地减少模型开发和部署流程中的缺陷，实现切实的改进。

‍

⁹ 虽然评估在训练极早期 （当模型无法预测任何结果时）确实无效，但这种状态会迅速改变。当训练进度达到个位数百分比时，评估就能开始暴露真实问题。

‍

¹⁰ 谨慎选择纳入评估的样本至关重要。不断添加新样本的诱惑会消耗算力并拖慢实验进度。严格的选择标准能确保评估保持聚焦且成本可控。

‍

¹¹ 值得注意的是，这些方法无法替代稳健的评估（即比较有干预和无干预情况下的模型性能）来确认变更与预期行为的相关性。

‍

¹² 具有讽刺意味的是，研究表明影响函数在大规模应用时存在不稳定和不可靠的问题。

‍

¹³ 遗憾的是，规模越小，不确定性就越大。

#大模型内核 #AI 编程革命 #深度学习 #生成式艺术