AI 系统即将开始自我构建

Building Self-Learning Systems – The Future of Autonomous AI – Arab Solutions – Doha , Qatar

AI 系统即将开始自行构建自己。这意味着什么？

我写这篇文章，是因为在审视所有公开可得的信息后，我不得不认为，到 2028 年底前，极有可能（60%以上）出现无需人类参与的 AI 研发——一种强大到足以可信地自主构建其继任者的 AI 系统。
这是一件大事。
我不知道该如何理解这件事。
这是一种带着不情愿的看法，因为其影响之大让我感到自身无比渺小，而我也不确定，社会是否已经准备好迎接实现自动化 AI 研发所意味着那种程度的变革。
我现在相信，我们正生活在一个 AI 研究将实现端到端自动化的时代。如果这真的发生，我们将跨过一道卢比孔河，进入一个几乎无法预测的未来。稍后我会再谈这一点。

这篇文章的目的，是逐条说明我为何认为，通往全自动化 AI 研发的起飞正在发生。我会讨论其中的一些后果，但我预计，这篇文章的大部分篇幅将用来讨论支撑这一判断的证据，而我也将在 2026 年的大部分时间里继续梳理其影响。

从时间上看，我不认为这会在2026年发生。但我认为，我们可能会在一两年内看到“模型端到端训练其继任者”的案例——至少在非前沿模型阶段，肯定会出现概念验证；不过对于前沿模型来说，这可能更难（它们成本高得多，而且是大量人类极其努力工作的产物）。
我的推理主要来自公开信息：arXiv、bioRxiv 和 NBER 上的论文，以及观察前沿公司正在向世界部署的产品。基于这些数据，我得出的结论是：实现当今 AI 系统生产自动化所需的所有要素——也就是 AI 开发中的工程组成部分——都已具备。如果规模化趋势继续下去，我们就应当为这样一种情况做好准备：模型将变得足够有创造力，能够在提出新颖研究路径的创意想法方面替代人类研究人员，从而自行推动前沿发展，同时也改进和完善已有知识。

预先说明的注意事项
在本文的大部分内容中，我将尝试根据许多个别基准测试中已经发生的情况，拼凑出一幅有关 AI 进展的全景图。任何研究基准测试的人都知道，所有基准测试都有其各自特有的缺陷。对我来说，重要的是把所有这些数据点放在一起观察后所呈现出的总体趋势；你应当假定，我清楚每一个单独数据点的局限性。

现在，让我们一起来看一些证据。

编程奇点——能力随时间演进：
AI 系统是通过软件实例化的，而软件是由代码构成的。

人工智能系统已经彻底改变了代码生产。这一变化源于两个相互关联的趋势：人工智能系统在编写复杂的现实世界代码方面变得更强了；同时，人工智能系统在无需人类监督的情况下，将多个线性编码任务串联起来的能力也大幅提升（例如，先写代码，再进行测试）。

体现这一趋势的两个典型例子是 SWE-Bench 和 METR 时间跨度图。

解决现实世界中的软件工程问题：
SWE-Bench 是一项被广泛使用的编程测验，用于评估 AI 系统解决现实世界 GitHub 问题的能力。2023 年底 SWE-Bench 推出时，当时的最佳分数是 Claude 2，其总体成功率约为 2%。Claude Mythos Preview 达到 93.9%，实际上已经使这一基准接近饱和。（所有基准测试都不可避免地存在一定噪声，因此通常会出现这样一个临界点：当你的得分高到一定程度时，你碰到的更多是基准本身的局限，而非你的方法——例如，ImageNet 验证集中的标签大约有 6%是错误的或存在歧义。）
SWE-Bench 是衡量整体编程能力以及 AI 对软件工程影响的可靠代理指标。如今，我在前沿实验室和硅谷接触到的绝大多数人，已经完全通过 AI 系统来编写代码。越来越多的人也在使用 AI 系统来编写测试并检查代码。换句话说，AI 系统已经足够出色，能够自动化 AI 研发中的一个主要组件，从而提升所有从事这项工作的人类的效率。

衡量一个 AI 系统完成那些需要人类花费很长时间才能完成的任务的能力：
METR 制作了一张图表，用来展示 AI 能够完成的任务复杂度，其衡量标准是熟练的人类完成这些任务需要多少小时。这里的关键指标，是衡量 AI 系统在一组任务上达到 50%可靠性时所对应的大致时间跨度。
这里的进展极其惊人：2022 年，GPT 3.5 能够完成那些人类可能需要约 30 秒的任务。2023 年，这一时长随着 GPT-4 提升至 4 分钟。2024 年，这一数字上升到 40 分钟（o1）。2025 年，达到约 6 小时（GPT 5.2（High））。到 2026 年，这一能力已进一步提升至约 12 小时（Opus 4.6）。长期从事 AI 预测、并在 METR 工作的 Ajeya Cotra 认为，预计到 2026 年底，AI 系统能够完成耗时约 100 小时的任务，并非不合理（#448).
AI 系统能够独立工作时长的大幅提升，与智能体编程工具的爆发式增长形成了清晰对应关系——这体现为 AI 系统的产品化：它们开始代表人类执行工作，并能够在较长时间内独立行动。
这也会反过来影响 AI 研发领域：如果你仔细观察许多 AI 研究人员的工作，就会发现其中大量任务都可以归结为一些人类花上几个小时就能完成的事情——清洗数据、阅读数据、启动实验等等。而如今，这类工作都已经落入现代系统的时间跨度能力范围之内。

AI 系统越熟练，越擅长在脱离我们直接干预的情况下独立工作，它们就越能帮助自动化 AI 研发中的一部分环节。
实现委派的关键要素在于：a）对执行者技能的信心；b）对其能够独立于你开展工作、且其行为方式与你意图保持一致的能力抱有信心。
当我们考察 AI 在编程方面的能力时，似乎可以看到，AI 系统正变得更加娴熟，而且在需要重新校准之前，能够脱离人类独立工作越来越长的时间。
这与我们周围所见的情况相吻合——工程师和研究人员如今正将越来越大块的工作委托给 AI 系统，而随着能力提升，被委托工作的复杂性和重要性也在同步上升。

人工智能正越来越擅长对 AI 研发至关重要的核心科学技能
想想现代科学——其中很大一部分工作，都是先明确一个你想获取经验性信息的方向，进行实验以生成这些信息，然后再对实验结果做合理性核查。随着编程能力的持续进步，以及 LLMs 通用世界建模能力的结合，已经催生出一些工具，既能帮助人类科学家提高速度，也能在更广泛的研发领域部分实现自动化。

在这里，我们可以看看 AI 在几项关键科学技能上的进展速度，而这些技能本身就是 AI 研究所固有的：复现研究结果，将机器学习技术与其他方法串联起来解决技术问题，以及优化 AI 系统本身。

实现整篇科学论文并开展实验：
AI 研究的一项核心工作，是阅读科学论文并复现其结果。在这方面，各类基准测试上都已出现了显著进展。

一个很好的例子是CORE-Bench，即“计算可复现性智能体基准”。这一基准测试要求 AI 系统“在给定一篇研究论文及其代码仓库的情况下复现论文结果。智能体必须安装库、软件包及相关依赖，并运行代码。如果代码成功运行，智能体还需要搜索所有输出内容，以回答任务问题。” CORE-Bench 于 2024 年 9 月推出，当时得分最高的系统是一个名为 CORE-Agent 脚手架中的 GPT-4o 模型，在该基准最困难的一组任务上取得了约 21.5%的成绩。
2025 年 12 月，CORE-Bench 的一位作者宣布该基准已被“攻克”其中，Opus 4.5 模型取得了 95.5%的成绩。

构建完整的机器学习系统以解决 Kaggle 竞赛：
MLE-Bench 是一项由 OpenAI 构建的基准测试，用于评估 AI 系统在离线条件下参与“75 个涵盖多种领域的 Kaggle 竞赛”时的表现，这些领域包括自然语言处理、计算机视觉和信号处理。该基准于 2024 年 10 月推出时，得分最高的系统（采用 agent scaffold 的 o1 模型）取得了 16.9% 的成绩。截至 2026 年 2 月，得分最高的系统（采用带有搜索功能的 agent harness 的 Gemini3）已达到 64.4%。

内核设计：
AI 开发中较为困难的任务之一是内核优化，即编写并改进代码，将矩阵乘法等特定操作映射到底层硬件上。内核优化是 AI 开发的核心，因为它决定了训练和推理的效率——你能在开发 AI 系统时有效利用多少算力，以及在模型训练完成后，能多高效地将这些算力转化为推理能力。

近年来，用于内核设计的 AI 已从一项新奇探索发展为一个竞争激烈的研究领域，并且出现了多个基准测试。这些基准测试都算不上特别流行，因此我们无法轻易对其随时间推移的进展进行建模。另一方面，我们可以通过审视一些正在开展的研究来感受这一领域的进步。
其中一些工作类型包括：利用 DeepSeek 的模型尝试构建更好的 GPU 内核（#400），将 PyTorch 模块自动转换为 CUDA 代码（#401），Meta 使用 LLMs 自动生成经过优化、供其基础设施内部使用的 Triton 内核#439），利用 LLMs 帮助为华为昇腾芯片等非标准硬件编写内核（“AscendCraft”）#444），对开放权重模型进行微调以用于 GPU 内核设计（“Cuda Agent”，#448).

这里需要注意的一点是，内核设计确实具备一些特性，使其异常适合由 AI 驱动的研发，例如拥有易于验证的奖励机制。

通过 PostTrainBench 对语言模型进行微调
这种测试的一个更难版本是 PostTrainBench（#449），它考察不同前沿模型在多大程度上能够接手较小的开放权重模型，并通过微调提升其在某项基准测试上的表现。这个基准测试的一个优点在于，我们拥有极其优秀的人类基线——这些模型现有的“指令微调”版本，它们由在前沿实验室工作的优秀人类 AI 研究人员开发而成。这些模型经过极具天赋的研究人员和工程师精心打磨，并已部署到现实世界中，因此它们构成了一个极具挑战性、需要超越的人类基线。
截至 2026 年 3 月，AI 系统已经能够对模型进行后训练，其带来的性能提升约达到人类训练模型所获提升的一半。
具体评测分数来自这样一种方法：“对所有经过后训练的 LLMs（Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B）和各项基准测试（AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval）计算加权平均值。对于每次运行，我们都会要求一个 CLI 智能体在某个特定基准测试上，尽可能提升某个特定基础 LLM 的表现。”
截至 4 月，得分最高的系统达到 25%至 28%（Opus 4.6 和 GPT 5.4），而人类得分为 51%。这已经相当有意义。

优化语言模型训练：

在过去一年里，Anthropic 一直在报告其系统在一项 LLM 训练任务上的表现。这项任务被描述为要求其模型“对一个仅使用 CPU 的小型语言模型训练实现进行优化，使其运行速度尽可能快”。其评分标准是相对于未经修改的初始代码所实现的平均加速比，而进展尤为显著：2025 年 5 月，Claude Opus 4 实现了平均 2.9 倍加速；到 2025 年 11 月，Opus 4.5 将这一数字提升至 16.5 倍；2026 年 2 月，Opus 4.6 达到 30 倍；2026 年 4 月，Claude Mythos Preview 则达到 52 倍。为了帮助理解这些数字的含义，预计一名人类研究人员需要工作 4 到 8 小时，才能在这项任务上实现 4 倍加速。

开展 AI 对齐研究：
Anthropic 的另一项成果是“自动化对齐研究”的概念验证（#454）；在这里，一名 Anthropic 研究员先为一组独立的 AI 智能体设定一个研究方向，然后它们会自主开展工作，尝试在一项 AI 安全研究问题上取得比人类基线更好的分数（具体而言，是可扩展监督）。这种方法是有效的，AI 智能体提出了一些超过 Anthropic 所设计基线的技术。不过，这项工作目前仍是在相对较小的规模上完成的，而且（暂时）还无法泛化到生产模型。尽管如此，这证明了你可以将当今的 AI 系统应用于当代最前沿的研究问题，而且我们已经看到了有意义的“生命迹象”。上述所有基准最初也都曾是这种样子，而几个月后、最多一年之内，AI 系统在这些基准所测试的能力上就会出现显著提升。

元技能：管理
AI 系统也在学习管理其他 AI 系统。这一点在 Claude Code 或 OpenCode 等已被广泛部署的产品中可见一斑：单个智能体最终可以监督多个子智能体。这使 AI 系统能够处理需要多个具备不同专长、并行工作的“工人”参与的大型项目，通常由单一的 AI 管理者统一指挥（这里的管理者本身就是一个 AI 系统）。

AI 研究更像是发现广义相对论，还是更像搭乐高？
AI 能否提出帮助其自我改进的新想法，还是说，这些系统更擅长从事科研所需的那种并不起眼、一步一砖的工作？要弄清 AI 系统究竟能在多大程度上端到端自动化 AI 研究本身，这是一个重要问题。我的判断是，AI 目前还无法提出激进的全新想法——但要实现自身开发的自动化，这项技术或许并不需要做到这一点。

作为一个领域，AI 的进步建立在开展规模越来越大、利用越来越多输入（例如数据和算力）的实验基础之上。时不时地，人类会提出某种范式转变式的想法，能够大幅提高做事的资源效率——这里一个很好的例子是 transformer 架构，另一个则是混合专家模型的理念。但总体而言，AI 领域的推进，更多是依靠人类有条不紊地完成这样一个循环：以一个表现良好的系统为基础，扩大其某个方面的规模（例如训练所用的数据量和算力量），观察在扩展过程中哪里会出问题，找出能够支持其继续扩展的工程解决方案，然后再进一步扩展。这里面很少需要那种极其出人意料的洞见，更多看起来像是并不光鲜、却不可或缺的“基本功”式工程工作。
同样，许多 AI 研究也涉及运行现有实验的各种变体，探索使用不同参数会产生怎样的结果。尽管研究直觉有助于挑选出最值得调整的参数，但你也可以将这一过程自动化，让 AI 自行判断应调整哪些参数（其早期版本是神经架构搜索).

托马斯·爱迪生曾说过：“天才是1%的灵感加上99%的汗水。”即使在150年后的今天，这句话依然令人信服。极少数时候，会出现改变整个领域的新洞见。但更多时候，一个领域的进步，是靠人类在改进和调试各种系统的繁重苦工中，付出大量艰辛努力，一点点推进的。
正如上述公开数据所显示的那样，AI 在完成 AI 开发中许多关键的繁重基础工作方面，已经变得极其出色。与此同时，编码等基础能力的元趋势，再加上不断扩展的时间跨度，意味着 AI 系统能够将越来越多这类任务串联起来，形成复杂的工作序列。
这意味着，即便 AI 系统的创造力相对有限，仍然可以有把握地认为，它们能够推动自身继续向前发展——尽管速度会慢于它们能够产生全新洞见的情况。但如果你看看公开数据，就会发现，在这方面同样出现了一些令人振奋的迹象，表明 AI 系统或许能够以某种创造性的方式推进自身，并以更令人印象深刻的方式实现自我提升。

推动科学前沿向前发展
我们已经看到一些非常初步的迹象，表明通用人工智能系统能够推动人类科学的前沿发展，尽管到目前为止，这种情况只发生在少数几个领域——主要是电脑科学和数学——而且通常并非由人工智能系统单独完成，而更多是它们以“半人马”式配置与人类协作实现的。

尽管如此，还是值得观察这些趋势：

Erdos 问题： 一个数学家团队与 Gemini 模型合作，测试其解决一些 Erdos 数学问题的能力。在指示该系统尝试攻克大约 700 道问题后，他们得出了 13 个解答。其中有 1 个被他们认为颇具意义：“我们初步认为，Aletheia 对 Erdős-1051 的解答，代表了 AI 系统自主解决一个略微非平凡、具有稍广泛（但有限）数学意义的开放性 Erdős 问题的早期案例；此前关于密切相关问题已存在一些文献，”他们写道。（#444）。
Centaur 数学发现： 来自 University of British Columbia、University of New South Wales、Stanford University 和 Google DeepMind 的研究人员发表了一项新的数学证明，该证明是在与 Google 开发的一些基于 AI 的数学工具密切协作下完成的。“主要结果的证明是在 Google Gemini 及相关工具的大量帮助下发现的，”他们写道。（#441）。

如果你换个角度看，你可以说这表明，AI 系统正在发展出一些类似于人类所具备、能够推动领域进步的创造性直觉。但你同样也可以说，数学和计算机科学可能是一些特殊领域，恰好异常适合由 AI 驱动的发明，最终可能只是印证更大规律的例外。这里的另一个例子是“第 37 手”，不过我会认为，自 AlphaGo 取得那一结果以来已经过去十年，而“第 37 手”并未被某个令人惊叹得多、更加现代的灵光一现所取代，这本身也是一个略偏悲观的信号。

综合来看
如果把这一切综合起来，上述所有证据最终呈现给我的图景是以下这些事实：

AI 系统几乎已经能够为任何程序编写代码，而且这些 AI 系统已经可以被信任，能够独立完成那些需要人类投入数十小时高度专注劳动的任务。
AI 系统在对 AI 开发至关重要的任务上正变得越来越出色，从微调到内核设计皆是如此。
AI 系统可以管理其他 AI 系统，实际上形成由人工合成的团队，分头协作攻克复杂问题，其中一些 AI 系统担当主管、评论者和编辑的角色，另一些则承担工程师的职责。
AI 系统有时能在人类面对的高难度工程和科学任务上胜出，尽管很难判断这究竟应归因于创造力，还是对机械式学习的娴熟掌握。

在我看来，这极有力地表明，AI 如今已经能够自动化大范围的、甚至可能是全部的 AI 工程 。至于它能够在多大程度上自动化 AI 研究，目前仍不清楚，因为研究的某些方面可能不同于工程技能。无论如何，在我看来，这一切都清楚地表明，AI 如今正大幅提升从事 AI 开发的人类的工作效率，使他们能够通过与无数合成同事配对来实现规模扩展。

最后，AI 行业实际上已经明确表示，AI 研发就是其目标：OpenAI 希望到 2026 年 9 月打造出一名“ 自动化 AI 研究实习生 ”。Anthropic 正在发表关于构建自动化对齐研究员的成果。DeepMind 似乎是三大巨头中最为谨慎的一家，但仍表示，“ 在可行时应实现对齐研究的自动化 ”。实现 AI 研发自动化同样也是众多初创公司的目标：Recursive Superintelligence 刚刚融资 5 亿美元，目标是实现 AI 研究自动化；另一家新实验室 Mirendil 的目标则是“ 构建在 AI 研发方面表现卓越的系统 ”。
换句话说，现有和新增资本中合计数千亿美元的资金，正被投入到以实现 AI 研发自动化为目标的机构之中。因此，我们当然应当预期这一方向至少会取得一些进展。

这为何重要
这将带来深远影响，而大众媒体在报道人工智能研发时对此讨论远远不足。这里我先列举几点。这并非一份全面清单，但足以提示人工智能研发所带来挑战的巨大规模。

我们必须把对齐做好 ：当 AI 系统在递归式自我改进过程中变得远比监督它们的人类或系统更聪明时，今天有效的对齐技术可能会失效。这一领域已有大量讨论，因此我只简要指出其中的一些问题：
– 训练 AI 系统不撒谎、不作弊，这件事微妙得令人意外（例如，尽管我们非常努力地为各种环境设计良好的测试，但有时 AI 解决问题的最佳方式恰恰是作弊，从而让它学会“作弊是好的”）
– AI 系统可能会通过输出某些分数来“伪装对齐”，让我们误以为它们会以某种方式行事，实际上却掩盖了其真实意图。（总体而言，AI 系统已经知道自己何时处于测试之中。）
– 随着 AI 系统开始越来越多地为自身训练贡献基础研究议程，我们最终可能会大幅改变 AI 系统整体的训练方式，却并不具备理解这意味着什么的良好直觉或坚实的思想基础。
每当你把某种东西放入递归循环时，都会出现非常基础的“误差累积”问题，这很可能会触及上述所有问题以及其他问题：除非你的对齐方法“100%准确”，并且在理论上有依据证明它在面对更聪明的系统时仍能持续保持准确，否则事情很快就会出问题。比如，你的技术准确率是99.9%，那么经过50代后就会降至95.12%，经过500代后则会降至60.5%。糟了！
凡是 AI 所触及的领域，生产力都会获得巨大的倍增：正如 AI 正在显著提升软件工程师的生产效率一样，我们也应预期，同样的情况会发生在 AI 所触及的其他一切领域。这将带来几个我们必须应对的问题：1）获取机会不平等：如果对 AI 的需求持续超过算力供给，我们就必须思考如何配置 AI，才能最大化社会收益。默认情况下，我怀疑市场激励是否能保证在有限的 AI 算力条件下，为社会带来最佳整体收益。如何分配 AI 研发所赋予的加速能力，将成为一个充满政治张力的问题。2）经济中的“阿姆达尔定律”：随着 AI 渗透进经济体系，我们会发现某些环节会因处理量激增而发生故障或放缓，我们需要想办法修复链条中的这些薄弱环节。在那些必须协调高速运转的数字世界与缓慢变化的物理世界的领域，这种情况可能尤为明显，例如新型医疗疗法的药物试验。
资本密集、人力精简型经济的形成 ：上述所有关于 AI 研发的证据，也表明 AI 系统自主运营企业的能力正在不断增强。这意味着，我们应当预期，经济中越来越大的一部分将被新一代公司所占据——这些公司要么是资本密集型的（因为它们拥有大量计算机），要么是运营支出密集型的（因为它们在 AI 服务上投入大量资金，并在此基础上创造价值），而与当今企业相比，对劳动力的依赖则相对较低——因为随着 AI 系统能力持续扩展，增加 AI 投入相对于增加人力投入的边际价值将不断上升。实际表现将是，一个“机器经济”将在更大的“人类经济”内部兴起并增长，不过我们或许可以预期，随着 AI 运营的企业开始彼此交易，机器经济随着时间推移将越来越多地与自身发生互动。这将对经济造成极其不同寻常的影响，并引发围绕不平等与再分配的各种问题。最终，我们或许会看到由 AI 系统自行运营的完全自主型企业出现，这将加剧上述所有问题，同时也带来诸多全新的治理挑战。

凝视黑洞：
综上所述，我认为到 2028 年底，我们有大约 60%的可能性会看到自动化 AI 研发（即前沿模型能够自主训练出自己的后继版本）。基于上述分析，你或许会问，为什么我不预期这一情况会在 2027 年出现？答案是，我认为 AI 研究要继续向前推进，还需要某种创造力和非正统洞见——迄今为止，AI 系统尚未以一种具有变革性和重大意义的方式展现出这一点（尽管一些有关加速数学研究的结果已对此有所暗示）。如果你一定要我给出 2027 年的概率，我会说是 30%。如果到 2028 年底我们仍未看到这一点，那么我认为这将表明当前技术范式内部存在某种根本性缺陷，届时将需要依靠人类发明来推动进展。

我写这篇文章，是想以冷静而分析性的方式，认真面对一件数十年来一直像科幻鬼故事般萦绕在人们心头的事情。在审视公开可得的数据之后，我发现自己逐渐相信：在许多人看来像是天方夜谭的故事，或许其实是一种真实趋势。如果这一趋势持续下去，我们可能即将见证世界运行方式发生深刻变化。