2026:这就是 AGI
本文信息来源:sequoiacap
整装待发:你对 2030 年的梦想,如今在 2026 年就已成为可能。
年前,一些顶尖研究人员告诉我们,他们的目标是 AGI。我们迫切想听到一个清晰的定义,便天真地问道:“你们如何定义 AGI?”他们停顿了一下,试探性地相互看了看,随后给出了此后在人工智能领域几乎成为口头禅的一句话:“嗯,我们每个人其实都有自己的定义,但当它出现时,我们自然会知道。”
这一小故事体现了我们对 AGI 具体定义的探索,而这一目标始终难以捉摸。
尽管定义难以界定,但现实却毋庸置疑。AGI 已经到来,就在当下。
编码智能体是第一个例子,后续还会有更多出现。
长时程智能体在功能上等同于 AGI,而 2026 年将成为它们的元年。
不被细节所羁绊的从容
在继续之前,有必要先承认一点:我们并不具备提出 AGI 技术性定义的道德权威。
我们是投资人。我们研究市场、创始人,以及二者的交汇——企业。
因此,我们给出的只是功能性定义,而非技术性定义。每一项新的技术能力,都会引出唐·瓦伦丁式的问题:那又怎样?
答案在于现实世界的影响。
AGI 的功能性定义
AGI 就是“把事情搞明白”的能力,仅此而已。*
*我们承认,如此不精确的定义无法平息任何哲学层面的争论。但从务实角度看,当你想把一件事做成时,你真正想要的是什么?是一个能够自己把事情弄明白的 AI。它是如何做到的,远不如它确实做到了这件事来得重要。
一个能够自己想明白问题的人,具备一定的基础知识、基于这些知识进行推理的能力,以及通过反复迭代逐步得出答案的能力。
一个能够自己想明白问题的 AI,同样具备一定的基础知识(预训练)、基于这些知识进行推理的能力(推理时计算),以及通过反复迭代走向答案的能力(长时程智能体)。
第一个要素(知识 / 预训练)催生了 2022 年最初的 ChatGPT 时刻。第二个要素(推理 / 推理时计算)随着 2024 年末 o1 的发布而到来。第三个要素(迭代 / 长时程智能体)则在最近几周出现,Claude Code 及其他编码智能体跨越了一个能力阈值。
具有通用智能的人可以连续数小时自主工作,发现并修正自己的错误,在无人指示的情况下判断下一步该做什么。具备通用智能的智能体也能做到这一点。这是全新的。
什么是“自己摸索并解决问题”?
一位创始人给他的智能体发消息:“我需要一位开发者关系负责人。技术要过硬,能赢得资深工程师的尊重,同时还真心喜欢混 Twitter。我们卖给平台团队。开始吧。”
智能体从最显而易见的地方入手:在 LinkedIn 上搜索竞争公司——Datadog、Temporal、Langchain——的“Developer Advocate”和“DevRel”。它找到了数百份资料,但职位头衔并不能说明谁真的擅长这件事。
它转而重视信号而非履历,开始在 YouTube 上搜索大会演讲,找到 50 多位演讲者,并筛选出那些演讲互动表现突出的。
接着,它将这些演讲者与 Twitter 进行交叉比对。一半的人账号不活跃,或者只是转发雇主的博客文章——这不是我们要的。但还有十来位拥有真实的追随者:他们表达真实观点、与人互动,并获得开发者的参与。而且,他们的内容确实有品味。
智能体进一步缩小范围,检查过去三个月发帖频率下降的人。活跃度下滑有时意味着对当前岗位的投入度降低。最终浮现出三个人选。
它对这三人展开调研。其中一位刚刚宣布了新职位——为时已晚。另一位是刚完成融资的公司创始人——不会离职。第三位是一家刚在市场部门裁员的 D 轮公司高级 DevRel。她最近一次演讲的主题,正是这家初创公司瞄准的平台工程领域。她在 Twitter 上拥有 1.4 万名粉丝,发布的梗图能引发真正工程师的互动。她已经两个月没有更新 LinkedIn 了。
该智能体起草了一封电子邮件,感谢她最近的演讲,提及其内容与这家初创公司的 ICP 的契合之处,并特别指出小团队所能提供的创作自由。邮件建议进行一次轻松的交流,而非推销式的会谈。
总耗时:31 分钟。创始人手中只有一份单人候选名单,而不是发布在招聘网站上的一份 JD。
这正是“把事情搞明白”的含义:在不确定性中前行以达成目标——提出假设、加以验证、碰壁受阻,再不断调整方向,直到灵光乍现。这个智能体并没有遵循任何脚本。它运行的正是一名优秀招聘者在大脑中反复进行的那套循环,只不过它在31分钟内不知疲倦地完成了这一切,而且事先没有被告知具体该怎么做。
需要明确的是:智能体仍然会失败。它们会产生幻觉、丢失上下文,有时还会信心十足地沿着完全错误的方向一路狂奔。但发展轨迹已经不言自明,而且这些失败正变得越来越可修复。
我们是如何走到这一步的?从推理模型到长时程智能体
在去年的一篇文章中,我们写道 ,推理模型是 AI 最重要的新前沿。长时程代理将这一范式进一步推进,使模型能够采取行动并随着时间推移不断迭代。
引导模型进行更长时间的思考并非易事。一个基础推理模型通常只能思考数秒或数分钟。
目前看来,有两种不同的技术路径都在奏效,且具备良好的扩展性:强化学习和代理框架。前者通过在训练过程中不断施加引导与约束,内在地教会模型在更长时间内保持专注、不偏离轨道;后者则围绕模型已知的局限性(如记忆交接、信息压缩等)设计特定的支架。
扩展强化学习是研究实验室的主战场。从多智能体系统到可靠的工具使用,他们在这一方向上已取得了非凡的进展。
设计出色的智能体执行框架属于应用层的范畴。当今市场上一些最受欢迎的产品,正是以其卓越工程化的智能体执行框架而闻名:Manus、Claude Code、Factory 的 Droids 等。
如果只能押注一条指数曲线,那一定是长周期智能体的性能。METR 一直在细致地追踪 AI 完成长周期任务的能力。其进步速度呈指数级增长,大约每 7 个月翻一番。沿着这条指数曲线推算,智能体到 2028 年将能够可靠地完成需要人类专家整整一天的任务,到 2034 年完成需要一整年时间的任务,并在 2037 年完成相当于人类一个世纪的工作量。
那又怎样?
很快,你将能够雇佣一个智能体。这是检验 AGI 的一个试金石(致谢:Sarah Guo)。
如今你已经可以“雇佣” GPT-5.2、Claude、Grok 或 Gemini。更多案例正在路上:
- 医疗:OpenEvidence 的 Deep Consult 充当一名专科医生
- 法律:Harvey 的代理充当助理律师
- 网络安全:XBOW 充当渗透测试员
- DevOps:Traversal 的代理充当 SRE
- GTM:Day AI 充当 BDR、SE 和营收运营负责人
- 招聘:Juicebox 充当招聘人员
- 数学:Harmonic 的 Aristotle 充当数学家
- 半导体设计:Ricursive 的智能体充当芯片设计师
- AI 研究员:GPT-5.2 和 Claude 充当 AI 研究员
从“会说”到“能干”:对创始人的启示
这对创始人具有深远影响。
2023 年和 2024 年的 AI 应用是“会说”的。有些甚至是非常老练的对话者!但它们的影响力有限。
2026 年和 2027 年的 AI 应用将是“能干”的。它们会让人感觉像同事一样。使用频率将从每天用几次,跃升为全天候、每天不间断使用,并且会有多个实例并行运行。用户不再只是零星节省几个小时——他们将从作为一名 IC 工作,转变为管理一支由智能体组成的团队。
还记得那些关于出售劳动的讨论吗?现在这一切成为可能。
你能完成哪些工作?长时程智能体的能力与模型一次前向推理的能力截然不同。长时程智能体在你的领域中解锁了哪些全新能力?哪些任务需要持续性投入,而瓶颈恰恰在于长期专注?
你将如何把这项工作产品化?随着工作界面的形态从聊天机器人演进为代理式任务委派,你所在领域的应用程序界面将如何发展?
你能可靠地完成这些工作吗?你是否在不断打磨你的智能体胸背带?你是否建立了强有力的反馈闭环?
你如何将这些工作变现?你能否围绕价值和结果进行定价与包装?
整装待发!
是时候乘上长周期智能体指数级增长的快车了。
如今,你的智能体或许只能可靠地工作约30分钟。但很快,它们就能完成相当于一天的工作——最终,甚至能够完成相当于一个世纪的工作。
当你的规划尺度以世纪来衡量时,你能实现什么?一个世纪,意味着20万项从未被交叉分析过的临床试验;一个世纪,意味着所有曾提交过的客户支持工单,终于被挖掘出真正的信号;一个世纪,意味着整个美国税法,被重新重构,以实现体系上的一致性。
你路线图中最具雄心的版本,刚刚成为现实可行的版本。
感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅本文草稿。