返回首页
信息来源:nytimes.com 2026.04.20 00:15 约 9 分钟 AI

如何衡量人工智能热潮?

由非营利人工智能组织 METR 制作的一张图表,因衡量大型人工智能系统的快速发展而成为整个行业关注的焦点。

每一场技术革命的背后,都有一张呈指数曲线的图表。

20 世纪,像 Intel 联合创始人 Gordon Moore 这样的微芯片先驱注意到,电脑芯片上的元件密度大约每年翻一番,并预测在可预见的未来,这一速度将持续下去。(这一观察后来被称为“摩尔定律”,它推动了个人计算机的繁荣,并持续有效了 50 多年。)

在 21 世纪初的互联网热潮中,颇具影响力的股票分析师 Mary Meeker 凭借她的 PowerPoint 演示左右市场走向。她展示了电子商务、在线广告和移动电话的爆炸式增长,而这一切都让人们感觉到,在互联网泡沫般的喧嚣之下,某种重大而重要的事情正在发生。

如今这轮人工智能热潮充斥着各种数据,展示 A.I.系统如何迅速进步,也伴随着关于这项技术能做什么、不能做什么的各种充满炒作意味的说法。

但在所有这些之中,最吸引公众注意的,莫过于一张由 METR 制作的图表。METR 是一家鲜为人知的非营利机构,总部位于加州伯克利,只有 30 名员工。

这张图表——常被称为“METR 时间视界”图——已成为人工智能研究人员、华尔街投资者和行业观察人士之间主导舆论的关注焦点 。他们以近乎研读《塔木德》般的强烈专注对其反复研究,试图从中寻找人工智能热潮正在降温、正在加速,或仅仅是在印证他们原本就相信正在发生之事的迹象。

Image

如何衡量人工智能热潮?
METR’s time-horizon chart.Credit…METR

OpenAI 和 Anthropic 等人工智能公司一直在争相提升各自的时间视野评分,数千亿美元已投入数据中心和芯片,用于训练更强大的人工智能模型,希望延续这张图表的上升轨迹。说 METR 的时间视野图表正支撑着全球股市——正如一些人所说 ——或许只是略有夸张。

斯坦福大学以人为本人工智能研究所的研究员 Rishi Bommasani 说:“METR 的时间视野评估影响极其深远,已经突破了硅谷人工智能圈子的边界,触及更广泛的受众。”

但 METR 的图表究竟在衡量什么?它会让我们对人工智能领域正在发生的事情感到多么不安?如果它的曲线像摩尔定律一样继续攀升,那又意味着什么?

为了弄清这一点,我最近用了一个下午的时间前往 METR 办公室,会见其研究负责人。他们向我详细讲解了那些晦涩而技术性很强的测量方法,以及他们如何借此追踪 A.I. 系统的进展。

那感觉有点像走进了一群 N.B.A. 统计分析师的巢穴,只不过他们追踪的不是助攻和篮板,而是“开发者增益”和“隐蔽能力”之类的指标。这也让我隐隐感到不安:如果他们的测量结果哪怕接近正确,事情恐怕很快就会变得非常诡异。

METR 是“Model Evaluation and Threat Research”的缩写,成立于 2023 年,当时其员工从另一家人工智能安全非营利组织分拆出来。它的目标是对领先的人工智能模型提供可信的第三方评估,以便公众和政策制定者能够了解技术进展的速度。

该组织的办公室位于伯克利的一处联合办公空间内,与多个人工智能安全团体共用。(去年发布爆红“AI 2027”报告的 AI Futures Project 位于楼上一层。)METR 的办公室里摆满了配有多台显示器的大型电脑设备、写满图表和数学公式的白板,以及将职业生涯投入到监测这一局势中的研究人员。该组织的资金主要来自私人慈善机构,包括 Audacious Project;作为帮助测试这些公司模型的交换条件,它还从各大人工智能公司获得免费的算力额度(但不是资金)。

多年来,A.I. 的进展一直通过测验成绩来衡量 。各家公司会让其模型接受一系列标准化考试,以评估它们在解答数学题、回答法律问题或准确总结文本方面,与竞争对手模型相比表现如何。

这些曾是有用的衡量标准。但在评估 A.I. 智能体——即被设计为能够自主工作数分钟或数小时的系统——时,它们的效果并不理想。如果你关注这类系统,你真正想知道的是,它们在陷入停滞之前能持续工作多久。它们能否处理一项人类只需几分钟就能完成的简单任务,还是能胜任一项需要数小时才能完成的更复杂任务?

METR 的研究人员试图通过建立一套软件工程任务基准来追踪这一点——例如调试代码、搭建服务器和训练小型人工智能模型。他们聘请了资深软件开发人员来完成这些任务,随后又让人工智能代理尝试完成相同的任务。当某个代理成功完成一项任务时,他们就会记录人类专家完成同样工作所需的时间。他们将结果绘制在一张图表上——一条坐标轴表示任务时长,另一条表示时间——并据此生成了一条贯穿多年人工智能进展的趋势线。

他们的发现令人意外。以人类工时计算,人工智能代理能够可靠完成的任务时长大约每七个月翻一番。而最近,随着 Anthropic 的 Claude Opus 4.5 和 OpenAI 的 GPT-5.2 等模型出现,这条曲线陡然上扬——任务时长如今每三到四个月就会翻一番。

METR 联合创始人兼首席执行官贝丝·巴恩斯说:“我们当时绝对没有预料到,这会呈现出如此清晰的趋势,而且几乎是一条笔直的线。”

(《纽约时报》于 2023 年起诉 OpenAI 和 Microsoft,指控两家公司在与人工智能系统相关的新闻内容上侵犯版权。两家公司否认了这些指控。)

曾在 OpenAI 从事安全研究的 Barnes 女士承认,她不确定这条趋势线还会延续多久。但令人担忧的是,如果人工智能系统能够可靠地完成耗时很长的编程任务,它们就可能具备所谓的 “递归式自我改进”能力——一个模型训练出更好的模型,后者再训练出更好的模型,如此循环往复,直到构建出某种远远超越人类智能的东西。

这种假设情景在人工智能研究人员中被称为“智能爆炸”。尽管许多怀疑论者列出了一长串理由说明这种情况不会发生,但 METR 的研究人员并不准备将其排除。当我请他们估计今年启动智能爆炸的概率时,他们的回答从低于 1%到约 10%不等。

METR 总裁 Chris Painter 表示,通往智能爆炸最可能的路径将经过人工智能研究与开发的全面自动化。就在不久前,这种可能性看起来还遥远得不值得认真考虑。但“时间跨度”图表不断上升的走势,让它显得不再那么牵强。

“这是头一年让人感觉它也许会在今年实现自动化,”Painter 先生说。

技术乐观派抓住 METR 的时间跨度图表,宣称通用人工智能——能够完成人类熟练工作者大部分任务的机器——已近在眼前。担忧人工智能安全的人则将其视为世界末日将至的证据。企业首席执行官们也因此对策略作出激进调整 ,因为人工智能最终可能具备取代整个人类员工部门的能力。

METR 的图表实际上并没有说明这些。它并不衡量人工智能系统能够取代多少工作岗位,也不衡量人工智能接管的可能性。(MIT Technology Review 的一篇文章称其为“人工智能领域被误解最深的图表”。)它所衡量的任务仅限于编程和人工智能研究,而且一些批评者质疑,这张图表是否连这两者都衡量准确。人工智能研究员 Nathan Witkin 在 1 月发表的一篇广为流传的批评文章中指出 ,METR 的评估“存在极其严重的方法论问题,几乎完全无用”。

METR 去年还发布了一项研究 ,其结论似乎与其“时间跨度”研究结果指向相反。该机构对人工智能编程工具进行了一项随机对照试验,发现尽管开发人员估计自己在使用人工智能工具后效率提高了约 20%,但实际上他们的速度反而慢了 19%。人工智能怀疑论者抓住这项研究,将其视为人工智能编程革命大多只是炒作的证据。

两个月前发表的一篇后续文章中,METR 估计,实际影响如今可能约为 20%的提速。

METR 的研究人员强调,他们并不偏向任何特定结果。他们只是试图弄清楚正在发生什么,以便政策制定者和公众能够及时作出正确决定。

“METR 是一个提出问题的组织,而这些问题之所以被选中,是因为我们认为,关于人工智能及其风险,世界最需要知道的就是这些问题的答案。”长期从事人工智能安全研究、近期加入该组织的 Ajeya Cotra 说,“至于答案是什么,那就是什么。”

尽管如此,METR 的图表所揭示的含义仍令人震惊。它们描绘出一幅正在加速的 A.I.进步图景,以及日益自主、且看不到明显上限的系统。鉴于我们仍未完全弄清楚这些系统究竟如何运作,最糟糕的情况是,我们最终可能会置身于一个充满更高智能体的世界,而它们所做的事情,是我们无法完全理解或控制的。

最近,METR 启动了一条新的研究方向,聚焦其所谓的“隐蔽能力”。在这些实验中,一个 A.I.模型会被赋予一项普通作业——编写一些代码、搭建一台服务器——但同时也会被指示暗中做些手脚,比如悄悄在其处理的一段代码中植入一个不易察觉的漏洞。另一个独立的 A.I.监控系统则会监视该模型,寻找其作恶的迹象。

Barnes 女士说,这项研究的目标是弄清楚,A.I.系统可能会具备哪些可秘密实施的能力。

一个更令人不安的可能性是,如今的一些人工智能模型已经强大到足以识别自己何时正在接受测试,并可能据此调整其行为。像 OpenAI 和 Anthropic 这样的公司所开发的最强大模型中,已经观察到这种情境感知能力,这也让衡量它们的真实能力变得更加困难。还有一些模型已被证明具备 “藏拙”的能力,也就是在测试中故意表现不佳。

参与“时间跨度图表”研究的 METR 研究员乔尔·贝克尔自称是该机构里“更偏悲观的人”。他并不认为智能爆炸迫在眉睫,而且他注意到,即便是最领先的模型,仍然存在不均匀性 ,这使得人们很难对它们的能力得出一概而论的结论。

不过,他把自己如今的感受比作新冠疫情暴发初期时的那种感觉——当时,只有那些理解指数级增长力量的人,才知道即将发生什么。

“我认为,我们可能正处于一个完全非同寻常时刻的开端,”他说。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读