2025 年书信

本文信息来源:zhengdongwang
人们总喜欢预测未来。今年 6 月,Peter Thiel 回忆了他与 Elon Musk 的一次对话。“[Elon] 说,10 年内美国将拥有 10 亿个人形机器人。我说:好吧,如果这是真的,那你就不必担心预算赤字了,因为我们将迎来如此巨大的增长,增长本身就会解决这些问题。然后——嗯,他还是在担心预算赤字。”Thiel 补充说,这并不意味着 Musk 在撒谎或判断错误。“但没错,在某种程度上,这些事情并没有被完全想清楚。”
我完全赞成认真思考我们即将到来的 AI 未来,这也是我在这封信接下来部分要做的事情。但在思考未来 10 年之前,我想先回顾一下过去 10 年。如果你在 2015 年预测 2025 年,需要把哪些因素考虑进去?
让我们沉浸在 2015 年最后几个月的情景中。AlphaGo 这一程序刚刚击败了欧洲围棋冠军,这是计算机首次战胜人类职业选手。18 次世界冠军李世石似乎并未受到触动 ,他评论说:“AlphaGo 在 10 月对阵的棋手水平并不等同于我。”(次年 3 月,AlphaGo 将击败李世石。)在世界其他地方,乌克兰正处于战争之中。SpaceX 首次成功让猎鹰 9 号火箭完成回收着陆。Star Wars: The Force Awakens 上映。一家名为 OpenAI 的新创公司成立 。
如果你仔细想一想,就不会对这样一个事实感到意外:到 2025 年,在人类时间控制下、使用自然语言的程序将赢得国际数学奥林匹克竞赛和国际大学生程序设计竞赛的金牌。计算机之所以会在那里参赛,是因为它们早在多年前就已经通过了律师资格考试和 MCAT。尽管如此,律师和医生仍将保住自己的工作,而全球实际增长将温和放缓。 编码代理将永远改变这份工作。 一家中国公司将被拿来与“斯普特尼克时刻”相提并论。一位新教皇将以利奥十三世之名自称, 明确是为了回应 “另一场工业革命以及人工智能领域的发展”。
在你完整而一致的视角中,你会指出,2025 年上半年,AI 数据中心投资将占美国 GDP 增长的 90% 以上 。几家人人皆知的公司将合计支出超过经通货膨胀调整后的整个阿波罗计划成本,且仅用 10 个月时间。然而,在普通公众中, 反对数据中心将逐渐成为一种新的两党共同口号。这在一定程度上是由于劳动力市场冻结,既不招聘也不裁员,尽管没人知道这是否由 AI 导致 。某一家实验室将向至少一名 AI 研究人员开出 10 亿美元的报价; 他起初会拒绝 。出席唐纳德·特朗普总统史无前例的第二次英国国事访问国宴、享用有机英国巴洛丁的嘉宾(是的,亲爱的时间旅行者,你没听错)将包括 Demis Hassabis、Sam Altman 和 Jensen Huang。
你的先见之明还不止于此。到 2025 年,每个人口袋里都会有一个能通过图灵测试的聊天机器人。当某个厂商将其机器人升级到第五版时,因用户对第四版人格的依恋而引发的强烈反弹将迫使开发者不得不将其恢复。“GPT-5 穿着我已故朋友的皮肤,”一位忠实用户会这样形容。事实证明,把你的生活变成一部动漫会拥有更广泛的吸引力,这也暗示着更高保真度的世界模型即将到来。三分之一的美国青少年将使用 AI 不仅仅是为了完成家庭作业,还为了陪伴;另有三分之一在严肃对话中会选择 AI 而非人类。你或许应该重温一下 2013 年的电影《她》,由华金·菲尼克斯和斯嘉丽·约翰逊主演,故事背景正是 2025 年。
如果你在 2015 年认真推演,那么对 2025 年的想象将同时涵盖 AI 过早显露的认知能力与参差不齐的扩散;其超大规模的私人投资与谨慎克制的公众接受;其日常化的无处不在与小众化的迷恋并存。换言之,我认为我们最终确实同时得到了机器人和债务。
在完成那段令人谦卑的历史回顾之后,我将把目光转向未来十年的一系列预测。今年有许多值得筛选的判断。 未来几年,AI 能力是否会呈超指数级增长 ,因为它找到了比人类更擅长自我改进的方法?还是更有可能的是, 人类通过稳步推进而保持控制权 ,经历的是渐进而非断裂式的转型?自动化会否通过某种资源诅咒推动渐进式的去赋权 ?集中化的 AI 会巩固还是削弱国家权力 ?模型是否拥有某种人格,还是只是对人格的外推 ?如果有人把它造出来,是否会如某本 《纽约时报》 畅销书所宣称的那样,所有人都会死去?还有另一类更为朴素的预测:AI 是不是一个泡沫?它的融资和收入是否能与过去的基础设施建设相提并论 ,还是说它只是一条自我吞噬的衔尾蛇 ?即便 AI 是个泡沫,如果你过早地这样断言 ,难道不还是错的吗?又一年的 AI 进展,再次提出了这些问题。 正如 Jack Clark 在 6 月对 Rick Rubin 所说的那样,“每个人都会被一种不可避免性的感觉所牵引向前。”最终的问题是:什么才是不可避免的?
没有什么是真正不可避免的,但 AI 进步确实有一个核心驱动力:计算资源无情的复利式增长,被名词化为“compute”。Compute 是今年 AI 领域最大的故事,是基础设施这出大戏中的主角。此前已有许多人写过这一主题,从规模定律到 《苦涩的教训》 再到摩尔定律 。但现代意义上的 compute 有着更广泛的内涵和更悠久的历史渊源,远非当下的叙述框架所能完全涵盖。Compute 在某种程度上仍被严重低估,因此再听一次关于它的观点,并不会让你感到过于负担。
到目前为止,任何还需要通过一张图表才能被说服 AI 将产生巨大影响的人,早已看过那张图,也已经站在这一边了。所以让我换一种方式。我将讲述我如何开始相信“计算即万物理论”的故事。
⁂
我并不是那种早早就凭借纯粹的理性推断出人工智能会成为大事的人。我是误打误撞地走进这个领域的。
回到2015年。我当时在读高中,想做一个科学展项目。而那几年亚利桑那州的科学展有个不成文的规则:你得做生物学方向。这样你就可以去亚利桑那州立大学,结识一位教授,获得导师指导、实验室资源,以及可以在其基础上继续推进的研究工作。整个流程看起来非常专业。但在生物学这个领域竞争如此激烈,也让我望而却步(我当时觉得生命不是确定性的,这是个很大的缺点)。我刚学会编程,于是做了一个项目,用一些基础统计方法分析太阳耀斑,结果表现还不错。
科学展的棘手之处在于,你每年都需要一个全新的项目。(这可一点也不具备可扩展性!我当时一定是这么想的。)于是到了 2016 年,我发现自己又在以同样的状态寻找一个项目。那个夏天,我参加了一次前往 Apache Point Observatory 的实地考察,那是一个拥有用于巡天、观测整个天空的望远镜的地方。到 2016 年,“大数据”早已成为一个陈词滥调,围绕它申请的资助早就写完、获批并执行完毕,而所谓的大数据也静静地躺在服务器上。我想利用这些数据,同时也在思考该如何下手。前一年,一位评委在质疑我的方法是否符合物理学原理时对我格外苛刻。我当时想,如果能有一种通用的方法,可以直接从数据本身中学习出正确的模式,那该有多好?正是在这样的背景下,我发现了“机器学习”,并在 2017 年这个已经相当晚的年份,读到了一篇 2012 年的论文,题为《ImageNet Classification with Deep Convolutional Neural Networks》。
这篇论文介绍了一种名为 AlexNet 的神经网络,它在一项对猫、汽车和人脸等图像进行分类的竞赛中夺冠。AlexNet 依托图形处理器(GPU)取得了压倒性优势——而这种设备如今正充斥着数据中心。此前已有一些计算机视觉科学家使用过 GPU,但 AlexNet 通过将一个非常深的网络拆分到两块 GPU 上运行,并结合多项当时最先进的算法技术,在一项比以往更具挑战性的竞赛中取得胜利,令所有人感到震惊。主持该竞赛并创建数据集的 Fei-Fei Li 原本打算跳过那一年的比赛,因为她刚刚生下孩子;但在看到 AlexNet 的表现后,她临时订了一趟航班前往现场。Yann LeCun 称其为“计算机视觉历史上一个毫无争议的转折点”。
2017 年,当我读到关于 AlexNet 的文章时——那已经是五年之后了——我心想:一切都已经结束了,我在 AI 这件事上来得太晚了。只看 AlexNet,我并不觉得 AI 的进步是如此板上钉钉。AlexNet 确实扩展了算力,但它也依赖于庞大的数据集,以及在一个研究充分的问题上采用的巧妙架构。到了 2017 年,已经出现了比 AlexNet 更出色的网络(包括一个“Very Deep”的模型),而且人人都能在家用 TensorFlow 1.0 训练模型,这个领域看起来似乎已经趋于饱和。我当时以为,一切又将回到困难的人类发明上——那种偶然且脆弱的进展。但事实上,我来得早得离谱。我完全没有意识到,这个领域才刚刚在为算力扩展打基础:因为 2017 年诞生了 Transformers——至今仍支撑着前沿模型的架构——以及 AlphaZero,它仅通过与自身对弈就超越了人类,也至今仍在推动研究走向超越人类数据的方向。
今年,许多人第一次接触到“AI 将成为一件大事”这一论断,是通过 METR 的时间跨度图 。这一趋势大致表明,随着 AI 的更新迭代,它能够以一定的可靠性完成更困难、也更有用的任务,而衡量标准是人类完成这些任务所需的时间。撰写本文时,最先进的 AI 大约有一半的概率可以完成需要人类花费四个多小时的任务;而就在两年前,这一数字还只有九分钟。按这一趋势外推,AI 很快就能完成需要人类数周才能完成的任务。人们正是借助这一趋势来论证,世界可能在不久的将来、并且以非常突然的方式发生变化。
在业内,METR 的时间跨度图无疑是年度最佳图表。它用一个衡量“对人类有用的工作能力”的指标,总结了不同公司、不同模型类型、不同测试以及不同时期的 AI 进展。与此同时——这并非 METR 的过错——除了我们现有的其他所有图表之外,它也是我们用来论证 AI 能力时最不直观的一张。我当年对 AlexNet 的反应是兴奋,但并没有那么兴奋,这种反应在今天也很常见。AlexNet 的能力让我感到惊讶,正如今天人们第一次让聊天机器人做研究或编写一个网站时所感到的惊讶一样。从概念上讲,我知道 AI 一直在进步,而且仍在进步,就像你今天可以通过时间跨度图看到的那样。但仅凭一个亲身体验的数据点和一个抽象的趋势,很难真正内化这种模式。因此,如果你没有立刻认为 AI 很快就会毁灭人类,这也是可以被理解的。
因此,时间跨度这一趋势正是最容易被搅浑水的地方。我将从一开始就列出一系列充分而合理的理由,说明为什么你可能不会相信诸如“AI 能完成的任务时长每七个月翻一倍”这样的趋势,以及更普遍地,为什么你可能不愿意将任何尺度扩展趋势外推到遥远的未来。接下来,我们将深入细节,试图为这一论断“翻案”,在那里我们会发现其他的尺度扩展趋势,并同样把它们复杂化。我会一遍又一遍地如此往复,直到把问题追究到底。
因此,这里有一些理由需要对时间跨度保持谨慎。首先,这些任务大多是编码任务(未必能很好地代表所有有用的工作)。其次,AI 只能在一定程度上可靠地完成这些任务(METR 基准测试给出的可靠性为 50%和 80%,这是否足够可靠仍存疑)。第三,人类基线由承包人员来定义(而他们可能效率较慢 ,这会使整个趋势产生偏差)。最后,即便你完全接受时间跨度这一趋势,它本质上仍是经验性的。实验表明,更新的 AI 能够完成更长时间的任务,而且我们在一定程度上可以预测会延长多少。但我们并没有关于其成因的理论。下一代 AI 可能就此进入平台期——而且可以肯定的是,时间跨度趋势终有一天会停止。如果缺乏历史视角,即便它现在就停止,也一点也不奇怪。
带着这些合理的疑虑,我们暂时可以无忧无虑地继续过好每一天。学院纠正了我之前的一些疏漏。和许多学生一样,我并不知道自己这一生想做什么。我学的是历史,而在美国,只需将三分之一的课程投入某一学科就可以算作专业方向,因此我很难说自己具备攻读研究生的那种坚定信念。相比之下,一份真正的工作又缺乏研究所特有的神秘感,而那时我已经意识到,这种神秘感是让生活保持趣味所必需的。 我半开玩笑地说,是那部 AlphaGo 纪录片 改变了我的人生。真正打动我的,与其说是成就本身,不如说是人工智能研究所体现的精神气质。我依然未能完全理解这个领域正在走向何方,但我感受到了一种带着自嘲意味、试图解决一切问题的大胆野心,以及一种不受企业官僚气或学术苦差事拖累的纯粹好奇心。最妙的是,所有人看起来都玩得不亦乐乎。
AI 的进步仍在持续,这当然没有让我产生相反的想法。到 2021 年我毕业时,我已经听说过 GPT-3,却并未真正理解其重要性;我曾因 AI 能如此忠实地根据语言生成图像而感到惊讶(比如 DALL·E 生成的“ 一个牛油果形状的扶手椅 ”);我甚至还从一条 Reddit 评论中模模糊糊地知道,Transformer 已成为从我最爱的策略游戏《星际争霸 II》到蛋白质折叠等各个领域的最先进方法,而后者比专家预测提前了数十年被解决。
我再次觉得,一切都已经结束了。我在这波人工智能浪潮中来得太晚了。他们又一次扩展了算力规模,而且还掌握了来之不易的数据,比如来自 Protein Data Bank 的数据,以及一些特殊的架构,比如将模型的预测结果循环反馈回模型本身。这个领域显然已经成熟,又回到了那种充满偶然性和脆弱性的人类发明阶段。但事实上,我仍然来得异常之早。2020 年 1 月,一篇论文确立了 :在 Transformer 架构下,AI 模型的性能是算力的一个可预测函数。更多的算力确实带来了更好的性能,但研究人员也由此知道了如何在更多数据或更大模型之间分配这些算力。这些就是最早的现代规模定律。多年以后,回望历史,我们或许会说,这是那个时期最重要的一项工作。不过,这已经有些超前于故事本身了。
据 AI 衡量类非营利组织 Epoch 统计,在过去 15 年里,用于训练 AI 模型的算力每年增长四到五倍 。如今的模型所消耗的数学运算次数,已经超过可观测宇宙中的恒星数量。最初的缩放定律让研究人员相信,扩大算力投入是值得的。模型不仅能够以可预测的方式、用更低的错误率来预测整个互联网内容,还以不可预测的方式获得了定性上全新的涌现能力 ,从事实准确性到指令遵循,再到逻辑推理。如果你在 AI 第一次让你感到惊讶之后继续顺着好奇心深入探索,最终就会走到这些缩放定律上来。这比“时间跨度趋势”更深一层。时间跨度衡量的是更新的 AI 能够完成更长时间的任务,而缩放定律衡量的是 AI 模型随着算力增加而变得更强,因此更新的 AI 模型也会使用更多算力。这样看来,时间跨度趋势比最初看上去要更为坚实——它得到了一个更普遍、持续时间更长的趋势的支撑。如果你外推缩放定律——这或许更容易让人接受——那么你也可能更容易外推 AI 能够完成的任务时长。
尽管如此,我们仍有理由保持犹豫。扩展定律已持续了 15 年,但经历了三个截然不同的阶段,正如 Epoch 自身所界定的 那样。AlexNet 之前与之后的扩展方式不同,最初的扩展定律提出之前与之后亦然。这意味着,在各个时代之间,扩展并非理所当然——在某一时代内,扩展能够顺畅推进,但若非人类创新的出现并将其拯救并引入一个更新、更优的阶段,扩展本可能陷入停滞。若没有这种偶然且脆弱的创新,我们很可能无法实现每年四倍的增长。
即便在现代,规模定律仍是一个相对宽泛的概念,并且已多次被打破又修补。人类的巧思不断改进预训练规模定律 ,否则模型性能早已停滞。研究人员还在模型训练和推理的其他环节发现了新的规模关系,包括在回答问题之前该思考多久 。诸如合成数据 、 蒸馏以及中期训练等技术,使得整体图景更加复杂,因为它们对算力的计量方式各不相同。我们掌握的细节越多,这条延续了 15 年的趋势看起来就越不稳固——它确实顽强存在,但更像是靠一群技术宅在最后关头的辛勤付出勉强维系,而非宇宙不可抗拒意志的体现。
再者,规模定律本质上是一种经验趋势。实验只能检验在规模放大后,模型是否按预测表现,但我们并没有解释其原因的理论。下一次扩展规模可能会失败,产出一个在测试中表现不佳的模型,就像人类有时也会失常一样。规模定律终有一天会失效。如果它在未来几年内停止,那已经算是一次成功的长期运行,但即便如此,也并不令人意外。
于是我们继续心存怀疑。2021 年 9 月,我加入了 DeepMind,那天正是疫情后所有人开始重返办公室的日子。入职第一年,我从事的是继 AlphaZero 之后的强化算法研究,试图让 AI 通过自我对弈、在没有人类数据的情况下学习。这个问题比围棋更难, 它涉及具身化仿真 ,即智能体在房间中导航并与玩具互动。可以想象一个游乐场,里面有苹果、按钮和积木。 我在那一年结束后不久写过相关文章 。
第一年里,我做过的最具影响力的一件事,就是将一次实验的算力提升了一千倍。一位同事基于一篇论文提出了这个建议,论文指出我们系统中的某个设置值设得过低。我承担了适度的工程工作将其实现,而出乎所有人意料的是,放大后的智能体以明显优势登上了排行榜首位。此前的扩展尝试成效有限,没人认为值得为此长时间占用如此多的算力。后续分析也未能指出智能体性能提升的单一原因。它只是整体上更少失败——无论是在绘制迷宫地图还是在使用工具方面,都表现得更加稳健,仿佛复制了隔壁语言团队训练出的模型所具备的鲁棒性。
可以说,在一段有限的时间内、以一种有限的方式,我在无意中成了全球最强具身模拟 AI 的“拥有者”(当时视觉语言模型才刚刚出现,除了 DeepMind 之外几乎没有竞争)。但我后来才真正意识到这其中的启示。当时,很难理清性能提升究竟有多少来自规模扩张。功劳归功劳:理论启发了实验,而数据、算法或评估都没有成为瓶颈,否则性能就会进入平台期,故事也将改写。事实上,其他智能体在改进这些因素的同时投入了更多算力,很快就超过了我的成果。具身模拟比我原先以为的更像语言建模,但也很难在此之外进行泛化。
随后,奇迹般的突破出现了。2022 年年底,OpenAI 推出了 ChatGPT,其带来的惊人影响无需在此赘述。四个月后,GPT-4 接踵而至,通过了律师资格考试,并具备了视觉能力。GPT-4 发布的那天,我正要启程前往早已计划好的阿曼海滩度假。我在航班上没有放松,而是通读了那份技术报告,心中不禁感叹:一切都结束了,我在 AI 这件事上实在来得太晚了。随着 GPT-4 的出现,大方向似乎确实就是算力。但那仍然为时尚早;AI 已经冲破了学术的小圈子,商业化浪潮正在展开。
再把抽象层级往下走一层。在时间跨度和尺度定律之下,是摩尔定律。摩尔定律,当然,是指微芯片上的晶体管数量大约每两年翻一番——从 20 世纪 70 年代的几千个,增长到 2020 年代的数百亿个。这也是为什么我能在互联网上花五美元买到一颗 Intel Xeon 处理器——其性能是阿波罗 11 号制导电脑的一百万倍——而它现在只是作为一件小摆件放在我的书架上。摩尔定律带来了即时通信、无摩擦支付以及高度个性化的娱乐,这些都是任何人事先都无法预测的涌现式能力。
摩尔定律同样不易被简单外推。它和规模定律一样,经受了多次范式转变:从单纯缩小晶体管尺寸,转向并行运行多个核心,因为丹纳德缩放在 2000 年代结束 。按其最初定义,摩尔定律早已“死亡”。如果允许我给出一种更为异端的重新定义——将对象从晶体管扩展到整个系统的总算力,从单一芯片扩展到集群——那么,在当今多机架数据中心中,尽管功耗和互连成为瓶颈,摩尔定律依然生机勃勃。这也让我们不禁停下来思考:如果摩尔定律真的是如此强劲的趋势——每一次翻倍在宏观上看似势不可挡、平滑推进——其背后却掩盖了巨大的人类智慧与创造力。
无论摩尔定律是否会按照其传统定义继续推进——或许借助下一代 高数值孔径 EUV 光刻——还是按照我那种“异端”的理解,仅仅是在我们界定为一台计算机的一栋混凝土建筑中榨取出更多运算,它终究都是一种经验性趋势。幸运的是,这一趋势已延续了半个多世纪,甚至比许多为其送葬的人活得更久。但我们并没有一个解释其缘由的理论。摩尔定律明天就可能停止——它终有一天必然会停止——但鉴于其历史,如果真是这样,多少还是有些反常。
我们已经触及了一些处于中间层面的趋势——既不是表土,也还未到基岩。摩尔定律是一项早已充分证明自身价值的趋势。它面临诸多复杂因素,也有许多充分而合理的理由让我们怀疑它是否还能继续。但我们依然抱着一种勉强的信心,认为它或许还能再向前推进一次,将尺度定律再向前推高一个档位,也随之把时间视野稍稍拉长一些。摩尔定律如此顽强地持续了这么久,以至于我们开始好奇,究竟是什么赋予了它如此长久的生命力。
在这一中间层面还有另一个趋势,可视为摩尔定律在人工智能领域的对应版本。2019 年,图灵奖得主 Richard Sutton 撰写了一篇 AI 圈内几乎人人都读过的短文。《 苦涩的教训 》中,Sutton 断言:“充分利用计算资源的通用方法,最终将以巨大的优势成为最有效的方式。”他以博弈、语音和视觉为例,指出算力已超越人类专长:人类败给了国际象棋程序,实时翻译得以实现,计算机能够生成图像——而事实证明,这些几乎都依赖于同一种方法,因此他的判断并非夸大。这一教训之所以“苦涩”,是因为我们至今仍未真正吸取。研究人员或许能在短期内取得胜利,但从人工智能作为一门学科诞生以来,他们最终都会败给算力。
我不介意在这封信中反复提到 Sutton,因为他甚至并不是第一个提出这一观点的人。今年,我与同事 Samuel Albanie 就“算力不合理的有效性”进行了多次发人深省的交流,他还提醒我注意到 Hans Moravec 在 1976 年发表的一篇极具前瞻性的论文。Moravec 更广为人知的是他提出的一个观察:对机器人而言困难的事情,对人类来说却很容易,反之亦然;但在一篇题为“Bombast”的札记中,他感叹道:
算力能力的极端匮乏正在扭曲我们的工作,在本不存在问题的地方制造问题,让其他问题变得几乎不可能解决,并且总体上导致努力被误导。如果这一点真如我所说那般显而易见,难道不应该被更广泛地认识到吗?
试想在 1976 年抱怨说,我们其实只是在自找麻烦,因为大家都忽视了真正的瓶颈——算力。然后还要质问:这难道不是显而易见的吗?1976 年!Moravec 曾预测 ,在 2020 年代中期,经济上可行、性能可与人类大脑相匹配的计算机将会出现。许多人将技术决定论视为一个贬义词。但我在想,正如 Allan Dafoe 所剖析的那样 ,是否在某些有限的层面上,把算力看作是“更具决定性而非不确定性”,反而更有助于理解问题。
因此,我开始认真反思自己一贯低估 AI 进展的倾向。了解得越多,我对任何趋势外推的合理性就越心存疑虑。但这反而让这些趋势一次次超出预期的事实显得更加令人印象深刻。2024 年夏天,我参加了国际机器人与自动化会议 。我去的部分原因是具身模拟与机器人相关,但主要还是因为我想去日本。无论如何,这次出行也印证了我远赴他乡参加学术会议的决定是值得的。我一遍又一遍地听到同样的故事:曾经有一个机器人学基准,传统方法花了多年时间艰难地爬到 20% 的水平;随后,一个强大的语言模型一口气把成绩在零样本条件下推到了 50%。
我已经听过这个故事太多次,决定亲自验证一下。于是对比了 DeepMind 的以下两篇论文。 第一篇发表于 2023 年,而第二篇发表于本月早些时候。两者都在模拟环境中训练了具身智能体,并且都在预训练模型的基础上进行扩展,也就是说,这些模型已经在来自网络的通用数据上完成训练。第一篇使用的是参数规模达数十亿的模型(Phenaki 和 SPARC,与 CLIP 相当)。第二篇则使用了 Gemini,这是一类业内观察人士普遍估计参数规模达到数万亿的模型。这一估算相当粗略,其用意只是从概念上指向算力约千倍的增长。
论文里有图表展示了第二版相较第一版提升了多少。但这些图表无法传达我亲眼看到智能体行动时所受到的震撼。那天深夜,我刚刚完成将第二版接入我们诊断测试的最后一段基础设施工作,也是第一个看到它行动的人。我起初以为一定是出了 bug。这个智能体几乎完美地执行了每一项任务,带着明确意图识别工具,并以优雅的动作将它们拾起。那些在多年训练中与你“结识”的智能体往往生硬、僵硬,甚至让人反胃 ;而这个却流畅,甚至自然 。我立刻意识到,这绝不可能是某种失误,因为即便我作弊、亲自躲在控制台后面操作,也不可能做到如此娴熟。我恍恍惚惚地回了家,只希望路上别被公交车撞到。
这就是算力浪潮席卷而来的真实感受。当你遇到一位认为 AI 将产生深远影响的研究者时,我敢打赌,她脑海中浮现的正是类似的震撼——算力曾经在另一个问题上幸运降临时所带来的那种冲击。当你遇到一位眼中闪着光芒的资本配置者时,我也敢打赌,他在茶叶渣中占卜到的正是这一幕,于是他又一次在文件上签下数十亿美元,交到 Jensen Huang 手中。
不管我多么努力,我都不认为我的描述能真正打动你。你需要选择属于你自己的试金石。那应该是一个你非常熟悉的问题,一个你投入多年心血的问题,一个你本应是专家的问题。你需要一年又一年地预测结果。然后,你需要眼睁睁地看着 AI 依然一次次颠覆这些预测。
人类理应是聪明的。这个无礼的“大型”模型,这种自命不凡的矩阵乘法,怎么可能理解那些在最前沿付出巨大代价才获得的所有微妙之处?本该有一些混杂因素阻止它,比如数据、算法以及其他瓶颈。不应该这么容易才对。如果那些被认为会让规模化失效的理由之一,到现在已经发挥作用,那反而更说得通。
只有到了那时,你才会回想起那些你在概念上早已知晓的经验趋势,并最终愿意将其外推。随后,你会对 AI 习以为常,就像我们如今早已习惯聊天机器人会押韵、汽车能够自动驾驶一样。再后来,你会想:究竟还有谁能与之竞争?在一个耗资数百万、凝聚了数十亿人类智慧的造物面前,你的聪明才智又怎么可能值几个钱?认为自己足够聪明,能够跑赢一千倍、再一千倍、又一千倍的差距,是何等的傲慢。这正是人们所说的通用技术。
要感受 AGI,按常说法,可以想想那场疫情。这个类比让我心里不太舒服,因为疫情本身就是彻头彻尾的坏事,而我相信 AI 将会是非常好的东西。但这个比喻之所以合适,有几个原因。疫情是一件正在真实发生、 推动历史前行的事情。我成长的年代,似乎什么都没有发生,甚至还有一个关于此的梗图。“什么都没发生” 成了我们这一代人的“历史终结论”,感叹从去美元化、脱钩、阿拉伯之春、转向亚洲,到元宇宙,所有这些都雷声大雨点小。疫情的发展轨迹同样具有启示意义:在它在现实中变得显而易见之前很久,它将成为一件大事就已经是公开信息。2 月下旬,在市场开始崩盘前一周、距离触底还有数周时,美国疾病控制与预防中心主任罗伯特·雷德菲尔德承认 ,冠状病毒“很可能会伴随我们,不只是这个季节,甚至不止这一年”。我记得自己离开大学,名义上是一个很长的春假。朋友们相互拥抱,说着“一个月后见!”只有少数人意识到,我们不会再回来了。 你在概念上可以知道武汉发生了什么、意大利北部发生了什么,但那很难真正面对。短短几周内,一切都变了,直到整个世界都置身于同一个故事之中。
AI 同样在推动历史进程。它将成为一件大事,这一点在其被人们切身感受到之前,就会成为公开信息。它会先抵达某些地方,再扩散到其他地方。过去有一天,那股浪潮席卷了高中家庭作业,彻底颠覆了那个世界。今年,这股浪潮掠过了软件工程。它也只是刚刚触及研究数学和分子生物学 。我也有一些轶事,来自两次在今年之前我根本无法想象的对话:一位在咨询公司的朋友迎来了一批倒霉的新实习生。他的老板给了什么建议?“你得把他们当成 Perplexity Pro 机器人来对待。”另一次,一位朋友在一次失败的相亲后向我倾诉。我问她,难道她没能提前预见吗?她想了想说:“没有。但如果我是 o3 Pro,我本可以。”起初无处不在,继而无处不在。
作为补充,我想把这条扩展阶梯走到尽头。再向下走一步,越过时间尺度、扩展定律、“苦涩的教训”和摩尔定律,去看究竟是什么在驱动计算本身。
在计算机出现之前,理解“计算”的一种方式是通过赫伯特·西蒙的工作——他是唯一一位同时获得图灵奖和诺贝尔经济学奖的人。他解释说,企业和计算机一样,都是信息处理系统。企业具有层级结构、有限的认知能力以及有限理性。企业也存在学习曲线,随着累计产量的增加,单位成本会以可预测的方式下降。从某种意义上说,在计算机出现之前很久,人类就通过组织形式让自己成为更高效的信息处理者。我们甚至可以把摩尔定律之前的这一趋势向前外推400年,追溯到股份有限公司的发明。
为何止步于此?在改编自中国科幻小说《 三体 》的 Netflix 剧集中, 一名外星人解释了她的族群为何必须阻止人类科学的发展。她引导主人公回顾历史: 智人花了 9 万年才发现农业;从农业到工业革命用了 1 万年;从工业革命到原子时代用了 200 年;从原子时代到信息时代只用了 50 年。人类的创造力之惊人,毋庸置疑。
既然已经投入了一便士,就干脆押上一英镑。将 Vernor Vinge 的“奇点”概念以及 I. J. Good 的“智能爆炸”思想推广开来的 Ray Kurzweil,在其著作 《奇点临近》 中描绘了一条横跨数十亿年的宏大趋势。在他的叙述中,从单细胞到多细胞生物的转变、寒武纪大爆发、直立行走、农业的出现以及印刷术的发明,都只是信息组织程度不断提升的体现。Kurzweil 在一定程度上启发了 DeepMind 于 2010 年的创立。你或许不会一路追随到 Kurzweil 所描绘的终点,但你很可能会理解这种愿景的吸引力。我们这个时代的吟游诗人在今年 3 月说得恰到好处: 万物皆为电脑 。
在这层层嵌套的“套娃”式规模曲线尽头,是进步本身。进步呈现为一条平滑的趋势,掩盖了其中锯齿般的细节。历史记录表明,在经历了数千年的停滞之后,才迎来了数百年的增长。这条平滑的趋势背后,隐藏着无数偶然且脆弱的人类创造力细节,以及数据、算法等无数使其得以存在的混杂因素。进步无疑是经验性的。它本不必然如此,但如今我们或许可以暗示其中一个原因——进步会在自身基础上不断改进。我们有太多充分的理由对外推进步保持谨慎,因为回顾历史,每一次跃迁到新的进步阶段,依靠的都是产业与偶然,而非天意。
人们在为人工智能辩护时犯的最大错误,是声称“这一次不一样”。其实并不不同,因为它从来就一直在变化。历史上从未存在过任何恒定、正常的趋势;我们所做的一切,只是乐观地相信自己总能勉强应付过去。没有什么是真正不可避免的,进步当然也不是。而进步,明天也可能就此停滞。综合来看,真正奇怪的反而是它停止,而不是继续。我无论如何也不想抱着这样的犹豫。
⁂
自 2024 年以来,我一直在从事计算机使用代理(computer use agents)的工作,并在去年的信中写过这件事。其中一部分在于让每一代模型都推动下一代的改进 ;另一部分——稍微没那么有趣——则是处理数据合规问题。算力始终是一个慷慨而可靠的指引,围绕这一点,我想提出一些总体性的看法。Zeynep Tufekci 曾在推特上提出过一条很有用的经验法则:“在没有大量且反复出现的相反证据之前,应当假定反直觉的发现是错误的,而二阶效应在量级上会被一阶效应所淹没。”Zeynep 定律是我将从疫情时期重新带回来的第二个有用框架。
先看一阶效应。算力会复利增长,其结果也会产生叠加效应。模型的通用性达到了前所未有的高度:从生成图像的模型,到在奥林匹克竞赛中获胜的模型,再到能够浏览网页的模型,它们都共享同一套基础。即便你认为前沿模型不过是用胶带拼凑起来的记忆与自动化机制,这种“奇美拉”在可用性上却与人类所重视的能力存在惊人的重合。而且,模型的效率也达到了历史最高水平。 算力效率衡量的是模型在达到相同性能时所需的算力。种种迹象表明,各大实验室对此投入了极大的关注。今年 1 月,市场对 DeepSeek R1 的负面反应,迫使 Dario Amodei 披露 ,DeepSeek 的效率“远没有”外界所设想的那么高。Sam Altman 也指出 ,智能价格的持续下降是近年来被严重低估的趋势。Google DeepMind 则明确致力于让每一代 Flash 模型都超越上一代的 Pro 模型。
这些模型仍然拥有巨大的上升空间。我觉得自己在去年所写的内容得到了印证:模型几乎可以攻克任何评测——Humanity’s Last Exam、FrontierMath、ARC-AGI 都出现了断崖式提升。因此在 8 月, 我与 Séb Krier 合写指出,我们需要更好的模型。尽管如此,当 GPT-5 发布时,仍然出现了非常非常多关于 AI 进步终结的判断 ,也许是因为人类已经更难感知这些进展了。但我该如何强调,我们其实才刚刚起步?ChatGPT 今年刚满三岁。今年在营收、投资和人才方面都迈上了新台阶(我亲眼看到大量人才从 Jane Street 流向 Anthropic)。在预训练方面,Oriol Vinyals 指出 ,“看不到任何墙”。在后训练方面,Gemini 告诉我,DeepSeek 的最新模型生成了数千个合成环境,“这表明我们正在迈入一个计算规模扩展(Compute Scaling)的新时代(让模型能够对数据进行‘思考’)”。Epoch 估计,在未来几年里,规模扩展不太可能成为瓶颈 , 甚至不受电力限制 。 最后,Peter Wildeford 提出了一个很有力的观点 :目前,全球甚至还没有任何一座投入运营的 1GW 数据中心。如果存在泡沫,那它甚至还没有开始。
其一阶影响将是惊人的。无论你如何定义 AGI,它可能并不遥远。即便是以怀疑著称的 Gary Marcus,也认为无论那是什么, 距离实现还有 8 到 15 年 。 一项近期的纵向调查显示,公众、专家以及超级预测者给出的中位判断是:AI 是“本世纪的技术”——我们有生之年最重要的技术。它究竟是在两年后还是二十年后到来,又有什么关系?唯一真正改变我对 AI 时间表看法的是:我曾经以为它不会在我的有生之年发生,而现在我认为它会。
二阶影响则更加扑朔迷离。以下是我听到的一些观点:AI 将会非常强大,因此我们需要与中国竞赛——所以我们需要暂停。AI 将在经济上具有变革性,因此我们需要全民基本收入——所以我们应该加速人类的过时化。AI 将具有娱乐性,因此我们应该给人们他们想要的“垃圾内容”和色情——所以企业应该以家长式态度来决定人们能承受什么。我并不是说我不同意这些观点中的任何一个,只是认为它们都需要进一步的发展。
5 月,我参加了一场名为“AI 2027”的桌面推演。我并不认同他们的所有假设,比如人类会如此轻易地将控制权交给 AI。但桌面推演的意义就在于接受前提,看看由此会发生什么。作为“美国的对手”,我借鉴了一则电视预告片中描绘的灰色地带战术,成功实现了一次完全不流血的中国统一。但事实证明,如果 AI 真的起飞,你生产什么芯片并不重要。重要的是在起飞那一刻所占据的全球算力份额。这一点让我受益匪浅。 11 月,我参加了一个小型经济学工作坊。那里还有一位人士,曾受英国政府委托,走访调查伦敦金融城的企业对 AI 的看法。他会问他们:“你们觉得这是真的吗?”他们的回答是:“我们不知道。”然后补一句:“就是别监管我们。”因为其他国家不会这么做,而他们也不希望自己的手脚被束缚。一位朋友还转述了第三个超现实的故事,来自华盛顿特区的一次委员会会议。一名国会议员在会议结束时给出了一种近乎祝福式的表态:“我祈祷我们能在对齐和替代性可解释性方法上取得成功。”
对清晰的二阶思维的需求只会不断上升。Helen Toner 评估称,美国国家安全官僚体系目前仅将人工智能视为与中国竞争的“一个小小体现”。正如人工智能曾走出学术利基,它或许也将超越其商业主导地位。Joe Weisenthal 预测 ,到 2028 年,人工智能将成为一个更为重大的议题。人们厌恶高电价,觉得人工智能并没有那么有用,担心自己的工作岗位,看到富者愈富,并且不信任科技公司。在更广泛的文化层面,“AI 精神病” 正在夺走越来越多、也越来越不可思议的受害者。正如 Kyla Scanlon 观察到的那样,孩子们正在撤离中间地带,转而选择稳定的技术行当,或孤注一掷的豪赌。7 月, 我问 Tyler Cowen,为何有必要就人工智能“稍微摇醒一下人们”。这很不方便,会很艰难,而且我们并不愿意思考它。但摆在桌面上的,并不存在一个稳定的选项。
按照泽伊内普定律,在没有大量且反复的证据之前,二阶效应在规模上都会被一阶效应远远压倒。我已尽力提供大量且反复的证据,说明人工智能将产生重大影响。但要把这一点具体化,还有很长的路要走。迄今为止,关于人工智能的二阶思考,大多由人工智能领域的人士在跨出本行、涉足其他领域时进行。这需要认真对待这一问题的政治、经济和文化领域专家来加以发展。这正是把问题彻底想清楚应有的样子。 乔纳森·马莱西奇在 5 月提醒我们,人工智能无法教会我们应当如何生活。他在谈到人文学科时写道:
我愿意牺牲自己生命中的一些时光,去为他人余下人生的体验增添深度。许多人曾为我这样做过。这项工作进展缓慢,其成果往往多年之后才会显现。但这绝非噱头。
8 月,Harvey Lederman 曾反思自己作为一名哲学家在一个 AI 几乎能把一切都做得比他更好的世界中的角色。他觉得自己很幸运,生活在一个仍然有自身使命的时代,同时也对这样一种前景心生忧惧:自己可能“成为最后一批享受这段短暂时光的人之一,在此之后,所有探索、所有发现都将由完全自动化的雪橇完成。”游戏将同时出现在 AI 的起点和终点。就我们个人而言,9 月,Jasha Sohl-Dickstein 发帖分享了一场精彩的演讲,题为《给(年轻)研究者的建议:在人类世的最初与最后几天》。他严肃对待 AI 将产生重大影响这一判断,并思考研究者应当如何应对。你拥有巨大的杠杆;优先选择快速的项目;对“苦涩教训”保持韧性;去做一些你会为之自豪的事情。
如果不去做自己真正想做的事,你还能做什么呢?技能的贬值速度,正和将其自动化的 GPU 一样快。也许, 像 Sergey Brin 一样 ,你已经把问题想到了尽头,并意识到最有成就感的事情,是与朋友一起完成一个大型的集体项目。至于我,我将加入 DeepMind 新成立的后 AGI 团队 。
就在这里,我登上了这趟列车——我们实在是来得太早了。
⁂
我感谢 Arjun Ramani、Jasmine Sun、Radha Shukla 和 Samuel Albanie 与我讨论这些想法并审阅草稿。也感谢 Google DeepMind 的一次学术报告会以及 Denning House,我曾在这些场合试讲了部分内容。封面画作为约瑟夫·马洛德·威廉·特纳(Joseph Mallord William Turner,R.A.)的《 暴风骤起:布里斯托尔圣文森特岩石的温泉 》。

苏格兰斯皮恩桥附近的大峡谷之路。
⁂
除了伦敦和菲尼克斯,今年我还在罗马、采尔马特、苏黎世、布赖顿、圣地亚哥、华盛顿特区、旧金山湾区、纽约、纽黑文、吉隆坡、新加坡、巴黎、马拉喀什、卡萨布兰卡、米德赫斯特、突尼斯、威廉堡、新德里、班加罗尔、巴多格拉、奇彭纳姆、朴次茅斯、萨尔茨堡、慕尼黑、牛津、上海、北京、香港和塞多纳度过了一段时间。
我恰好在弗罗多和比尔博·巴金斯生日那天身在牛津,于是前去拜访 J.R.R.托尔金。沃尔弗科特公墓空间狭小,却绿意盎然、维护得当。秋分时节,英格兰的太阳在下午晚些时候便已低垂,倾斜的阳光洒在一块块墓碑上。以赛亚·伯林和阿琳·德·冈茨堡也安葬在附近的犹太区,但我并不清楚具体位置。我向一位看起来像是墓地管理员的人打听。“我完全不知道你在说谁,”他说。
曾几何时,以赛亚·伯林更为声名显赫,我也希望尽自己的一份力让这种局面重现。我每年都会读一本自己非常喜欢的传记,今年读的是迈克尔·伊格纳季耶夫的 《以赛亚·伯林:一生》。这无疑是一部老派传记:作者本人是自由主义事业的旗手之一,丝毫不觉得有必要假装中立,而是毫不掩饰地对他十分熟悉的伯林发表自己的评论。
伯林首先且最重要的是多元主义的捍卫者——如果这种限定本身不构成自相矛盾的话。价值多元主义认为,人类最高层次的价值,如自由、平等、正义与仁慈,是不可通约的;我们无法在一个完美的体系中为它们排出高下。这并不意味着一切皆可接受——善意仍然胜过集中营——而只是说,在某个共同的视域之外,价值之间无法裁断。之所以想起伯林,是因为随着人工智能的持续进步,一些明显的一元论哲学也随之日益走红。今年 7 月,我在刺猬与狐狸的隐喻之后写了一些短篇小说,设想同样的证据可能通向两种不同的结论。
如今我觉得,可以把我的整整一年压缩为三个松散而又颇具柏林意味的主题。第一, 多元主义及其富有成效的矛盾:在同一时刻容纳两种相互对立观念的能力——这一想法我从约翰·加迪斯那里得来 ,而他又从查尔斯·希尔那里得来,希尔则源自 F·斯科特·菲茨杰拉德。第二,边注:脚注,主角背后的小人物。从《The Force Awakens:安多》到我在世界各地遇到的各类政府官员,以及我在所读故事中见到的人物,这封信献给你们。多元主义的崇高价值之所以成立,是因为你们在承受其重量。最后,第三个主题是不合常理的乐观主义:在浩大而冷漠的决定论力量面前,个体能动性的微小反叛。这正是边注得以闪耀之处。
在没有任何地方,我像在印度那样同时获得这三者。今年 8 月,我参加了一次大型团队旅行,由 Sparsh、Arjun 和 Arjun 组织。你可以关注 Sparsh 发布的 行程每日记录,也可以阅读 David Oks 和 Jason Zhao 事后写下的文章。我们见到了领导着世界最大民主国家的一些人士,接触了城市和农村的企业家,尤其是通过 Sparsh 的公司 Alt Carbon,品尝了令人惊艳的美食,还徒步穿越了大吉岭美丽的群山。冒着过度概括的风险,我觉得与中国相比,印度更重“关系”,但更少“面子”。组织者的人脉让我们得以与一些本不该有时间接待我们的人交流。尽管人们对地位十分敏感,但无论身处何地,大家都更愿意打破常规,或者不得不如此,才能把事情办成。
Shruthi 向我介绍了 neti 这一概念,基本意思是“不是这个,也不是那个”。它或许可以作为印度第三条道路的口号——不同于美国,不同于中国,不是这样,也不是那样。我为他们加油。不同于欧洲那条似乎以监管为核心的第三条道路,印度的第三条道路希望在公共领域进行构建。行程过半时,我们与印度统一支付接口(UPI)的架构师 Pramod Varma 进行了一次精彩的交流。毫不夸张地说,UPI 处理着全球近一半的实时数字支付,其在促进金融包容性方面所做出的贡献,超过了历史上任何一项技术。我们大多数来自西方的人一直追问他,直到深夜,为什么私营部门做不到 UPI 所做到的事情。也许印度确实有一些独特之处,也许私营部门本来也可以做到。但事实是,UPI 取得了巨大的成功,而由于我并没有学会如何复制这一模式,我只能将其归功于这位架构师的无限乐观精神 。
第二天早晨, 我们会见了 Manu Chopra,地点是在他那间明亮、绿意盎然的办公室里。他的公司致力于从长期被忽视的语言和人群中收集数据。他给我们讲了一个关于一位贡献者的故事,那人不禁注意到一种角色的反转:曾经他花钱学习英语,如今却是拿钱教 AI 自己的母语。再说一次,如果这里存在什么立竿见影的商业逻辑,那并非我所能阐明的。据我所知,斯坦福毕业的 Chopra,以及许多像他一样的人,完全可以在美国创办公司并获得更为传统意义上的巨大成功。但他选择了印度。
我还品味了别样的刺激。我们中有一人把四个人一起带到了班加罗尔那家酒店的错误分店,离正确的那一家隔着仿佛无穷无尽的车流。半小时的 Uber 会合屡屡失败后,我们作出了一个“高管式”的决定:四个人挤上一辆人力车。司机面不改色,只是多收了我们 100 卢比。于是,40 分钟里,我们在班加罗尔霓虹闪烁的夜色中颠簸前行——四个人挤在本该坐两人的长凳上,有人坐在他人腿上,半个身子悬在敞开的空气里。人力车爬上高架路时,你能感觉到发动机在吃力地轰鸣。
一名记者回忆称,新加坡外长曾自豪地把新加坡学生送到印度,因为“在新加坡,如果火车说 9 点 02 分到达,那就一定是 9 点 02 分;而在印度,每一天都充满不确定性,他们需要学会这一点。”不过,有时候我还是希望能提前得到更多提示。印度机场成了我在全球最不喜欢的机场之一,这并非设施的问题,而是因为从路边到登机口,他们至少会对你和你的行李进行三次 X 光片检查。此外,航空公司会向你出售转机航班,中转时间长达七个小时——这本来没问题;但如果你不幸在转机下机时听从工作人员的指示,他们会强制你在安检外的出发大厅等待。
不过,我在旅途中读书的效率总是更高。我新近相信的一种阴谋论是:尽管麦加尔尼勋爵坚称自己协商过一种不同的礼仪,但他确实向乾隆皇帝行了叩头礼。从托马斯·斯汤顿的日记里就能看出来。而且在层层礼服之下,谁又真能分辨麦加尔尼究竟叩拜了多少次呢? 我抵达上海入境时,移民官正在培训一名新警员。她拿着我的护照,和她的徒弟逐项讲解如何核对姓名、照片、签证和性别。她低声说过一次,有个男人来了,但护照上写的是女性,他们没有让他入境。过了入境之后,卖给我中国 SIM 卡的女士问我是否需要 VPN。我告诉她我已经有了,她还好心地帮我确认了是哪家服务商,以确保我离开机场后还能正常使用。
当美国还在担心 AI 深度伪造时,我的姨妈已经把她的聊天机器人(Doubao,意为“豆包”,字节跳动的旗舰模型系列)的声音换成了她女儿的声音。所以我想她对任何诈骗都完全免疫——每当她想了解什么、而她又经常使用 AI 时,给她解释的一直是“表妹的幽灵”。可惜的是,我的外公更容易成为诈骗的受害者。曾有来电声称手中有一批来自景德镇的稀有瓷器,骗走了他不少钱。直到姨妈让外公仔细去读碗口边缘那些细小的刻字——“可用于微波炉加热”——他才终于相信那些碗是假的。
工程体系运转良好。我在上海登上高铁后点了外卖,还没到北京,座位上就收到了从南京送来的鸭肉和从济南送来的猪肉。列车员在每个主要停靠站都会端着托盘,在车厢里来回走动,售卖星巴克拿铁。正如 Jasmine Sun 引述 Charles Yang 所说,他们“动力十足”。我是在中国十月假期期间回国探访的,中秋节前月饼四处流转。我惊喜地发现一盒中国媒体集团的月饼,不仅包装奢华,连月饼本身都印上了标识,上面是诸如 “大裤衩” 这样的标志性中央电视台大楼。“哦,你根本不知道这里面有多少腐败,”我的一位叔叔告诉我。显然,国有月饼采购合同是滋生贪腐的一条肥沃渠道。
总体而言,中国已不如从前那般自发随性。我父亲给我讲过一个故事:他上大学时,有一次班级出游,他和一群同学为了给全班买火车票,不得不排队整整36个小时。每个人最多只能买四张票。他们比一群以倒卖车票为生的老太太还早就守在售票窗口前,那些老太太自带小凳子,在开售前一天就坐在那里聊天。后来,又来了一拨更机灵、看起来也更专业的黄牛,试图插队——但看到我父亲那一群几十个神情恍惚、正值服役年龄的年轻男子后,最终还是决定不惹这帮人。警察每隔几个小时就来检查一次队伍。临近尾声时,我父亲的一位朋友中途让另一个人顶替自己去睡觉,他们赌的是:大家的身份证照片都是高中时期拍的,看起来都差不多。然而,警察盘问了那人的生日,一下子就识破了他。
我的父母回忆说,过去人们常常在火车上结识对象。春节回家往往要花去大半天时间,完全不像如今超快棋列车呼啸而过只需几个小时。那时买站票的人也更多,没有整齐划一的一排排座位,彼此之间很快就熟络起来。父亲上学院时,有位觉得他帮忙提行李很在行的女士,还给他介绍过一位亲戚。最终没能成,但这种事情如今已经很少发生了。取而代之的是更现代的方式。我有个表弟就是在自己开的滴滴车里挂了一块牌子找到女朋友的:“有房;有车;没钱。”
在其他旅行亮点方面,我强烈推荐去看看那座曾经是世界上最高的宣礼塔 。我还路过了目前仍在营业的世界上最古老的餐厅 ,但不确定是否能推荐——在此之前我已经吃了太多炸肉排,实在无法公允评价。整个罗马城就是一个巨大的交通落差,几乎无论从哪到哪,步行所花的时间都和乘坐公共交通一样长。如果你想看罗马,我的建议是去迦太基。突尼斯不仅拥有我见过的规模最大的罗马马赛克博物馆 ,还可以让你在遗址之间漫步,包括安东尼浴场,这种体验实际上比罗马的古罗马广场更亲密,也更令人震撼。至于这对文物保护意味着什么,就别问我了。这两座城市之间还有一个“蔬菜差距”,在这一点上,我认为突尼斯更胜一筹。在突尼斯,我们还“贿赂”着混进了一场社区合唱音乐会,用三种语言说服一名守卫偷偷拿出几张用过的门票。若你有幸与 A 同行,你会发现他(她)是你所能想象到的最足智多谋、也最能让旅途焕发生机的同伴之一。
在苏格兰高地,因弗莫里斯顿(人口 264 人)有一家咖啡馆,按理说不该好到这种程度。截至本文写作时,它在 Google 上已有 1,007 条评价,评分高达 4.9。Glen Rowan Cafe 获评我心中的年度最佳店铺。他们只卖六种蛋糕,全部为自制。在我所见过的所有经营尝试中,没有哪一家像这颗不可思议的明珠一样,如此顽强地对抗着冷冰冰的优化力量。再看看在 Caledonian Express 上售卖的 Wee Coffee Company 的“ 袋装咖啡 ”。清晨,当乡野风景从餐车咖啡座的窗外掠过时,我无意中听到一名乘客主动对女服务员说:“嗯,这些不算出色。”她立刻回了一句:“不。” “一点也不好。”请想象他们都带着浓重的苏格兰口音说出这些话。
我有一些旅行建议。你带的东西太多了 。把所有设备统一成 USB‑C,再为旅行单独买一套重复用品,这样就不用再费心打包。 买一个 Cotopaxi(h/t H),能塞进你前方座位下面。只背一个背包就能过一个长周末,感觉太棒了(有人跟我说这只有男人才做得到,这纯属胡扯)。装一个 Flighty,这是我手机里最让人兴奋的应用。你应该最后登机,但我总是忍不住频频抬头张望而感到焦虑,所以干脆早点排队,带本书。博物馆里大多数展牌其实不用看,往往只是走过场或言之无物;有些语音导览也是如此,不过也有做得非常好的,所以值得一试。最好的做法是,先读一些关于那个地方的资料,再去亲眼看实物,内容越具体越好。读过史蒂芬·普拉特的 《帝国的黄昏》 之后,香港艺术馆里的物质文化和地图一下子就鲜活了起来。
你会内化一些基本事实,而另一些则将始终无法真正触及。我了解到,马来西亚在族群构成上约有50%是马来人(且依法必须信奉伊斯兰教),20%是华人,10%是其他原住民,7%是印度人。但只有亲自前往,你才能开始想象这样一个社会究竟是什么样子。我还了解到,在炎热潮湿的城市里,一项广受欢迎的消遣是在巨大的、空调充足的购物中心里消磨时间。你也许会去,但不会待得很久,因此也无法把这种商场理解为你一生默认的社会活动场所。
因此,你可以在旅行中采取一种“杠铃策略”。要么一去就是一年、两年,甚至十年——只要时间足够长,能让你开一个银行账户;要么在同一个地方最多停留几天,然后频繁往返。世界正在变化,Tyler Cowen 是对的,会有一些地点与时间的组合将永远从我们身边消失。我很幸运,人生中去过北京将近二十次,亲眼看到人均 GDP 提高十倍究竟意味着什么。美国、中国和印度的变化之快,值得每年都去看看。顺便说一句,频繁的短途旅行也与我“轻装出行”的建议完美契合。只要学会高效利用航班就好——那是进行深度工作的绝佳场所,或者用来反思。喝一杯免费的饮料,达到 Ballmer Peak。而且时差并不存在。或者说,如果你一直都有时差,那你其实从来没有时差。
旅行是多元主义、边缘性与乐观精神的最佳教师。不过今年,多亏了 Tony Gilroy 的天才 ,待在家里的舒适感同样不打折扣。我在第一封年度信的个人部分里谈到了《星球大战:安多》,如今很高兴再次回到这个话题。说真的,《安多》拯救了《The Force Awakens》。否则,主要角色反复登场的门槛竟然低得惊人。达斯·摩尔到现在已经打过多少场客串式的打斗了?卢卡斯牧场里就没有人把关吗?以下将包含大量剧透。
《安多》若说有什么定位,那就是边注。从《新希望》的开场字幕你就知道,反抗军第一次击败了帝国,他们付出巨大代价拿到了死星设计图。《侠盗一号》讲的正是这个故事,一个无名英雄、在几乎不可能中仍抱持希望的故事。卡西安·安多甚至都不是《侠盗一号》的主角。因此,《安多》成了脚注里的脚注,而我并不想止步于此。给我一整部剧,讲的是为了在群山中举办一次司局级别的能源项目秘密会议所需要的繁琐文书流程。给我一本书,写深层基底的片状方解石。合成方解石。方解石替代品。方解石的替用品。
Cass Sunstein 曾写道 ,The Force Awakens 是反决定论的。卢克的选择违背了他的血统,正如维达违背了他的过去——“未来永远在变动之中。”Gilroy 显然支持抬升个人能动性。Nemik 的宣言最为直白——暴政需要持续的默许。轴心人物是 Kleya,而不是 Luthen。Kleya 与 Cassian 围绕在反抗运动最终的任务中,究竟需要多大程度的集体必然性才能恢复个人能动性而展开交锋。即便是细微的暧昧之处——比如 Perrin 是否一直知道 Mon 是反抗者 ,他醉醺醺地瘫在太空豪华轿车的后座——也会让人思索,他究竟需要鼓起多大的勇气。
但也有人提出相反的观点。Cassian 多次试图避免加入反叛,却最终还是加入了。这一季中,他一次又一次想要离开,却依然径直走进了《Rogue One》。Bix 和那位原力疗愈者告诉他,他确实拥有自己的命运。与 Nemik 对帝国的论述形成对照,Andor 的反叛是成千上万次真实选择的总和。在其他地方,Gilroy 让我们思考哪些行为才是真正必要的:Tay 是否非死不可,Lonnie 是否非死不可,以及在 Yavin 奔跑之前,Luthen 是否必须先行走。
如果让我自由发挥,我会说《Andor》表达的是:命运是真实存在的,由无数真实的选择构成,但并非我们认为必须付出的所有代价,真的都不可避免。它也与我在这封信前半部分所描述的算力趋势形成了某种呼应——正是无数次的巧思与创造,才促成了这些趋势,它们同样看起来像是命运,但人们或许正在借此为过多的事情寻找正当性。不过,也不必对《Andor》过度解读,只需去看它,让自己对那些英雄背后的人心生敬意:他们没有荣耀,却不可替代。想象一下他们当时怀抱的希望——在从未知道故事最终结局的情况下。
当 Krennic 说他刚刚见过 Palpatine,并以此为由要求所有人听从他的命令时,我忍不住大笑出声。在 Google 也有过几次会议,有人用一模一样的语气说:“嘿,大家,我刚跟 Sundar 聊过,所以我们必须这么做。” 小蛋糕和浓缩咖啡杯是公司活动的标配。总之,我强烈推荐这部剧。我也很喜欢这篇评价 :“先看完《Andor》的结尾,再看《Rogue One》,然后接着看《A New Hope》,体验非常炸裂,因为剧情和美学几乎无缝衔接,只不过整个银河系里的人在大概一周之内集体变得蠢了许多。”
在其他关于命运的电视剧中,我很喜欢《Shogun》。去年我曾把它当作又一部“西方人拯救武士”的老套作品而忽略,但后来看到有人提到,它创下了单季电视剧获得艾美奖数量最多的纪录。这相当厉害,尤其还是一部有字幕的剧。随后,作为 Hiroyuki Sanada 的最新粉丝,我也看了《Bullet Train》,这部片子被低估得很不公平。它同样讲的是命运。
在更多随笔里,还有 《荔枝道》(h/t A),讲的是一位唐代小官,被交付了一项不可能完成的任务:为皇帝最宠爱的妃子,将新鲜荔枝运送两千公里。这部作品的一大亮点在于其色彩极为丰富——字面意义上的“色彩斑斓”,而这在当下并不多见。从情节上看,它与现代社会的对应之处毫不掩饰。主人公辛苦劳作 18 年,只为换取一次买房的机会,却背负着沉重的房贷;他被在各个部门之间推来搡去,而这些部门都不愿承担责任。最终,他被彻底击垮:为了让一碗荔枝抵达京城,地方上两百棵世代相传的荔枝树被砍伐殆尽。我从 1 月开始重看 《幕后危机》(h/t G,多年前的推荐),零零碎碎地抽出半小时,终于在上个月看完全集。我最喜欢的一集,是尼古拉·默里和彼得·曼宁在 BBC Radio 5 上正面交锋,继而引发他们各自幕僚之间的一场精彩争吵,最后幕僚索性弃他们而去。人们应该多看看(往往更出色的)英版作品(比如 《办公室》,而在这个例子中,则是 《副总统》)。
在戏剧方面,我最喜欢的是 The Years、The Brightening Air 和 The Weir(在由 Brendan Gleeson 主演的作品中,The Guard 是我今年看过最搞笑的电影)。音乐方面,Spotify Wrapped 显示我的听歌量减少了一半,所以没太多可分享的内容。Concrete Avalanche 依然是一个很棒的来源。我听了 YaYa Remixes Repacked,这是围绕遣返一只熊猫的同一旋律做成的 10 个版本(一定要读读歌词)。《Red Spider》 也被严重低估。我很幸运赶上了 Natasha, Pierre and the Great Comet of 1812 极短的演出档期(感谢 A),这是一部只涵盖《War and Peace》70 页内容的音乐剧。它让人清楚地意识到《Hamilton》这部音乐剧有多么信息密集:在相近的时长里,娜塔莎只是犯了一个错误、解除了婚约,而亚历山大·汉密尔顿却建立了一个全球超级大国并且去世了。
我读得最开心的一本书是苏珊娜·克拉克的 《乔纳森·斯特兰奇与诺瑞尔先生》(她的 《皮拉内西》 同样出色)。显然,布卢姆斯伯里出版社对这本书的畅销前景信心十足,甚至为此向她支付了 100 万英镑的预付款。这是一部架空历史小说,在这个世界里,魔法并未从英格兰消失——而在现实中,正如你所知,这大约发生在 15 世纪。书中体现了多元性——至少存在两种让实用魔法重现的方式;也有大量旁注——小说包含近 200 条脚注,向你讲述你可能想了解的关于英格兰魔法史的一切;当然,更少不了乐观主义。其中一条脚注讲述了这样一个故事:在半岛战争期间,一天漫长的行军结束时,军队发现地图是错的,他们原本应抵达的西班牙小镇其实还在更远的路上。惠灵顿没有选择继续行军并修正地图,而是让乔纳森·斯特兰奇施展魔法,把那座城镇直接迁移到了他们所在之处。
阅读克拉克的作品,是我延续对英格兰热情的绝佳养料。我非常享受《The Rest is History》对霍雷肖·纳尔逊的讲述, 去年秋天听了一半 , 今年秋天又听了一半 。与拿破仑相比,纳尔逊更信奉上帝、国王与国家。与拿破仑麾下的元帅们形成对照的是,纳尔逊心中想着莎士比亚,觉得最优秀的英格兰人都与他为伴,就像阿金库尔战役中的亨利五世一样。我不禁好奇,当下的对应物会是什么。英格兰水手是当时世界上吃得最好的不列颠人,而且你还能顺带学习天文学、绳索技艺、外交以及物流。我此前并不知道,在尼罗河海战和特拉法加海战之前,尽管英国舰只更少、吨位也更小,但双方竟都如此确信英国人会击败法国和西班牙。敌军每四分钟才能齐射一次,而英国人每一分钟就能完成一次。
每封信里,我听起来都像是在给英国当大力水军。我得先加一句免责声明:我只是觉得,我的初恋——美国——已经有太多声音洪亮的捍卫者,一再兜售那些众所周知的“美国为何伟大”的理由。我们的始祖如今反倒有些被低估了,而他们又过于谨慎,不愿自我表扬。所以我们继续说下去。
我想要力陈:伦敦是后 AGI 时代最好的城市。你想要的任何“场景”,这里应有尽有。华为曾斥资数十亿美元去复刻这种建筑风格 ,因为与古老建筑为邻有利于激发创造力。Sam Kriss 从 Burning Man 回来时,几乎要亲吻希思罗机场的跑道 。当 AGI 让世界上所有城市都变成博物馆时,你要到哪里去找那货真价实、延续千年的历史?要到哪里去找那家在第 697 任女市长领导下、掌管金融城一平方英里的私人公司?我真心希望,不管 YIMBY 们怎么说,那条“必须直线望见圣保罗大教堂 ”的规定永远不要改变。是的,我们确实需要克里斯托弗·雷恩爵士另外那 20 座教堂。时代错位之所以珍贵,正因为它稀缺。
伦敦也是最适合 Pre-AGI 的城市。Demis Hassabis 曾坚持让 DeepMind 留在伦敦,而不是迁往硅谷,因为“这不是一项快速失败的任务”。我同意。如果我想对自身训练动态有一种严谨的理解,我会选择欧洲式的绅士学者原型,而不是湾区的创始人极端派。每当听到一些 AI 研究人员获得了代际财富,却立刻在湾区买房自毁前程,我都会感到痛心。尽管人们口口声声谈论逆向而行,但似乎没人真的把钱花在与言辞相符的地方。那几百万本可以是一座城堡,拥有城垛、领地,以及与罗伯特·布鲁斯的历史渊源 。就连 Peter Thiel 也曾直言 ,硅谷的房地产就其性价比而言,“可能是全世界最糟糕的”。
我曾与一位朋友讨论过:或许人生的前半段是为了不被带偏,后半段才是为了做出承诺。像纽约或伦敦这样的城市最适合前者,但在后者阶段也值得再回访。因此,在最后一节关于生产力的部分,我想先从“不该做什么”谈起。最近有一个梗,尤其是在 AI 圈子里, 关于 996。这种作息在我看来并不对。当然要非常努力地工作,但就连 Sergey Brin 也指出 60 小时 才是甜蜜点(976?403?),而且如果你不想听我的,Sam Altman 的第一条建议也指向了正确的方向。Elon Musk 这个人同时作为单一的关键个体,对可回收火箭、电动车的提前到来,以及让我的 Twitter 信息流变得更糟,都负有最大责任,这一事实本身就说明:时间并不是任何人的瓶颈。如果真的是,那说明你所走的道路早已被决定,而且不是由你决定的。正如 Berlin 解读托尔斯泰所说:
这里有一个尤为生动的比喻:伟人被比作牧羊人正在养肥、以待宰杀的公羊。由于这只公羊确实日渐肥壮,或许还被用作引领羊群的“头羊”,它很容易想象自己是羊群的领袖,其他羊之所以跟随,只是出于对其意志的服从。它这样认为,羊群也可能这样认为。然而,它之所以被选中的真正目的,并非它自以为承担的角色,而是屠宰——这一目的出自某些存在之手,其意图既非它本人,也非其他羊所能理解。对托尔斯泰而言,拿破仑正是这样的一只公羊,在某种程度上,亚历山大亦然,事实上,历史上所有的伟人皆是如此。
于是我们回到以赛亚·柏林。我在他自身的人生经历与多元主义思想中看到了更好的路径。他既是俄罗斯人也是英国人,出生于里加,去世前的大部分时间在牛津度过,1997年辞世。在政治立场上,他把自己定位在左翼倾向中的偏右一端,并认为“智力与成就无法弥补意志的失败”。他是犹太人,却同时拒绝宗教正统与彻底同化。柏林将历史与哲学结合,开创了属于自己的领域(在他三十多岁时向维特根斯坦作报告,或许已在他心中播下了对分析哲学的疑问)。他否认历史的必然性。他最重要的贡献在于综合,以解释冷战时期东西方的意识形态。他是一只想成为刺猬的狐狸。
换言之,你必须静若森林,内心却烈焰熊熊。去年的信中,我反复强调一次只能把一件事做好。现在,我将试探性地同时谈两件。我承认,价值之间无法裁决,只能尝试在脑海中同时容纳彼此矛盾的想法。这些想法可以很平凡:努力工作,但为创造力留出余地。要成为一名优秀的科学家,你必须既傲慢又谦逊 。关心一切,同时又明白其实没有什么真正重要。
最后一条关于效率的建议。今年的家庭资本品推荐是一把穿鞋器(h/t J)。至少买一把两英尺长、木制的。过去,每当我穿上鞋后又想起屋里落了东西,就会单脚跳回去,尽量不踩到任何地方。现在,我会把鞋脱下来,因为我太期待再次使用穿鞋器了。

塞利姆·希尔森林,达尔吉林。