与保罗·凯德罗斯基对谈:那么,关于这件 AI 的事……

正如我在这次访谈开头所说,让经济分析师感到恼火的是,两件巨大的事情正在同时发生:美国贸易政策的激烈转变,以及一场规模庞大的人工智能热潮。更糟的是,尽管我自认为对关税有所了解,但关于人工智能,我越是思考,越觉得自己并不真正明白。因此,我与投资人、科技专家、麻省理工学院研究员 Paul Kedrosky 进行了交谈,希望能获得一些启发。其中有许多内容让我感到震惊。
以下为访谈实录。
. . .
访谈实录:
Paul Krugman 与 Paul Kedrosky 的对话
(录制于 2025 年 12 月 3 日)
Paul Krugman: 大家好,我是 Paul Krugman。我又可以恢复为 Substack 录制一些视频了。今天这期访谈的出发点,说实话,是我对历史感到非常恼火——要是每次只发生一件大事就好了。不幸的是,我们现在所处的局面是:一方面,关税正攀升到 90 年来未见的水平,这本该是最重大的新闻,对此我还算应付自如;但另一方面,又出现了这场 AI 大爆发,在这一点上我完全摸不着头脑。我几乎什么都不太懂。最近我一直在阅读和观看对 Paul Kedrosky 的采访,他是一名投资人、分析师,目前是 MIT 的研究员,他当然比我更懂这些。我想进行一场对话,尽可能弄明白到底发生了什么——如果说真有人能弄明白的话。
你好,Paul。
Paul Kedrosky: 嘿,Paul。我们俩都是“Paul K.”,这可有点危险。
克鲁格曼: 是的,欢迎加入。
凯德罗斯基: 感谢邀请。
克鲁格曼: 我先问一个问题。我有一个非常愚蠢、而且可能根本无法回答的问题:从根本上说,我们所称的“AI”——我想你通常会用“生成式 AI”、大型语言模型这个说法,尽管它们现在已经不只是处理语言了——但在最根本的层面上,我并不明白它是如何运作的。有没有一种不超过 90 分钟的解释,能说明这一整套东西到底是怎么运转的?
Kedrosky: 确实如此,而且我认为这一点非常重要,因为它能帮助你成为这些产品更有判断力的使用者。我觉得理解这些东西的一个很好方式,是把它们看作语法引擎,我常常称之为“松散的语法引擎”。这意味着,在某个领域中存在着一整套规则,我可以将其具体化,无论是语言、法律,还是软件工程——当你抽象掉我们如何使用它们的具体形式时,这些本质上都是语法,也就是说,它们都是关于正在发生什么的规则。如果我把所有这些内容吸收进来,并汇集到一个庞大的矩阵网络中,对它们进行加权,那么我就可以在此基础上进行所谓的“训练”,从而相当不错地预测这种语法在“延续性”上的含义,也就是接下来可能生成的内容——无论是软件中的一个子程序、一个 PowerPoint 幻灯片、英语演示中的一段语言,甚至是在图像语境下的松散生成。
但核心思想在于,这些东西本质上是“松散的语法”,在基于其训练数据的情况下,能够相当不错地预测接下来会出现什么,也就是对后续内容的延展。这一点既能告诉你它们擅长什么,也能告诉你它们不擅长什么。
克鲁格曼: 这有点像,如果你给我一句话中的四个词,外在的相关性就会告诉我下一个词很可能是什么。但它显然要复杂得多,对吧?据我理解,它是有多层结构的。
凯德罗斯基: 没错。这有点像爱因斯坦所说的“幽灵般的超距作用”。这里不仅仅是指临近关系,也就是紧接着要出现的那个东西——我们称之为“词元”。更重要的是语言所嵌入的整体语境,以及语法层面的整体背景。因此,那些在表面上相距甚远的内容,实际上会对下一个词元可能是什么产生出乎意料的影响。
所以事情并不像简单地说“那个盒子是红色的,你知道接下来应该出现一个颜色”那样简单。远非如此。它与模型所接受训练的整体语境密切相关。反过来,这种“幽灵般的远距离作用”让你得以窥见它可能呈现出的样子。结果是——令人惊讶的是,这一点在某种意义上甚至让 Google 在 2017 年都感到意外——最初那篇所谓的 Transformers 论文 ,也就是引领了近年大量 AI 进展的那篇论文,最初是为语言处理而创建的。它是为了在 Google Translate 应用程序的语境中使用而开发的。他们当时觉得,“这东西挺巧妙,用在这上面效果也还不错。”但令人意外的是,语言本身中所蕴含的——通过这种“近与远的预测”以及这种“幽灵般的远距离作用”——注意力机制的概念,竟然能够捕捉到我们所称之为知识的很大一部分,因此也捕捉到了大量看起来几乎像推理的东西。这让所有人都感到意外,也正因为如此,Google 在某种程度上并没有继续深挖下去。
直到这项技术被像 OpenAI 这样的公司所采用,它才产生了巨大的影响。因此,事情并不只是“预测下一个 token”那么简单,而是在这些注意力机制的语境下——它们会查看信息嵌入所在的整个“主体”,无论是英语语言、软件、法律,还是任何其他领域——你实际上能够得到一种让我们感觉像是“哦,它理解我在想什么,或者理解我在问什么”的东西。而这其实只是一个反映:在这些大型语料库的语境中,预测本身给人的感觉。它让人觉得这是一种对正常人思考方式的延续。 有意思的是,当我有一位同事在做这方面的研究时,如果你反向抽样、回推出模型认为“你是谁”——也就是从训练模型的角度来思考——它会大致认为你是一个 37 岁、混迹于 Reddit 的男性。这正是它在这种意义上所进行“续写”的那类人,因为这正是训练语料中占比很大的一部分。所以,如果你通过逆向工程去推断数据本身对模型的暗示,这同样也能告诉你一些东西。 所以我常常告诉别人,每当他们给我发消息说:“某个大语言模型告诉我应该做 X、Y、Z。”比如说,这应该是我下一辆车,或者这是那道作文题的答案——你真正想表达的其实是:“一个 37 岁的 Reddit 网友这么说的。”你掌握的信息量大致也就这么多,所以它可能有用,但也可能充满风险。
Krugman: 我们听到了很多关于 ChatGPT(或类似产品)的故事,说它们总是迎合人们的想法,给出非常糟糕的建议。基本上就是在说:“像你这样的人往往会犯同样的错误。”
Kedrosky: 没错。当然,现在的情况更加棘手,因为训练方式本身的特点,以及我们几乎已经把 Reddit 上那些 37 岁男性的数据“用光了”。如今,模型优化的很大一部分发生在所谓的“后训练”阶段。也就是说,在模型已经创建完成之后,我拿着它对某个特定提示给出的回答,去问:“你喜欢这个回答吗?”我们把这称为“基于人类反馈的强化学习”。这条路走下去,和一个沉迷于学生评分的 MIT 教授没有任何区别。你会变得非常油滑,对吧?突然之间,你在乎的只剩下学生喜不喜欢你。出于我们都清楚的原因,这是一条危险的道路,在模型的语境下也同样如此。 因此,问题不仅在于语料本身高度集中于特定人群;还在于,由于前训练数据在很大程度上已经被耗尽——这类数据毕竟是有限的——模型越来越多地依赖后训练。结果就是,模型变得“谄媚”。它们摇着尾巴,急切地希望你喜欢它们。这正是我们正在越来越多看到的现象。
Krugman: 哦,天哪。让我印象最深的是——按性情来说,我对这些东西一向持怀疑态度——但多年来我一直若有所思地关注着人工智能及其相关努力。在经历了几十年令人极度沮丧的时期里,连“这是只猫”这样的识别在当时几乎都是一个无法解决的问题。可突然之间,这一切都变得司空见惯,实在令人难以置信。
Kedrosky: 我打的一个比方是,我们——通过那篇 Transformer 论文——无意中闯进了一个“数据版的沙特阿拉伯”。从我的角度来看,这个数据的沙特阿拉伯就是公共互联网,它在这些需要海量数据、并且随着规模扩大而不断改进的巨型模型语境下,突然变得可以作为训练数据发挥作用。也就是说,训练数据规模增加 10 倍,就会带来模型在我们所谓“有用推断”能力上的可预测提升。这在过去是从未做到过的,因此极具新意。所以,这个“免费的文本数据的沙特阿拉伯”,和任何其他资源库并没有什么不同,无论是二叠纪盆地之类的地方,如今我们已经越来越多地把这些数据消耗殆尽。你现在看到的是,那些旧有的规模定律——2017、2019、2020 年的“女神”,从 GPT-1 一直到现在——所带来的投入产出比越来越低,这与任何资源开采型模型并无二致:资源库中剩余的部分获取成本更高,可能更受污染,可能用处更小,也可能需要更多的提炼。 这完全是同一回事,这正是我们目前所处的阶段。
克鲁格曼: 有个有意思的故事。我其实认识一些人,他们没有直接参与,但和最初的 Google 翻译项目关系很近。他们最早、也是最大的资源之一——至少他们是这么告诉我的——就是经合组织的文件。因为涉及多国事务,所有内容都会用四种语言表述,所以它某种程度上就像一块罗塞塔石碑。
凯德罗斯基: 不,你说得对。那确实是一个为这些模型提供了巨大价值的训练语料库。所以再回到 Reddit 上那群 37 岁的家伙,一旦你理解了“引擎盖下面”到底是什么样子,就能更好地理解为什么这些模型在某些方面很有用,而在另一些方面就没那么有效。
我还想补充一点,那就是理解“训练”这一概念本身的性质也很重要,因为我们经常随意使用这个词。训练遵循一种被称为“梯度下降”的思路,也就是说,在我不断做出调整、进行一轮又一轮训练时,每一次能看到多大幅度的改进,以及这种改进在什么时候会停止,甚至出现反转。在某些领域,数据的梯度下降率非常高,这意味着哪怕是很小的变化,也会向模型反馈出极强的信号,因此模型在这些方面表现得非常出色。一个很好的例子就是软件本身。如果我在代码中做出很小的改动,得到的往往不是细微差别,而是软件直接崩溃。因此,在软件领域,微小改动就会在训练中产生巨大的反馈信号,梯度下降非常陡峭,这使得模型即便在相对有限的数据下也能表现得很好。相比之下,英语语言本身正好相反:如果我在语言中做出细微改动,然后问你哪个更好,你可能会说:“哦,我也说不准,也许这个,也许那个。”
因此,从语言本身中学习与从软件中学习的概念截然不同,而这一点极其重要,因为它解释了为什么这些模型在软件语境下表现出色——因为学习过程中的梯度下降非常陡峭——同时也解释了为什么它们在语言方面往往模棱两可,甚至有时具有危险性,因为我们并不具备从相对较少的信息碎片中进行同样学习的能力。这也引出了下一步:为什么人工智能中的基准测试本身如此,我可以说,是充满矛盾的 ,因为软件是一个极其适合模型运行的领域,于是有人会说“这个模型在软件方面非常出色,因此我们正走在通往通用人工智能(AGI)的道路上”,而这种说法体现了对大型语言模型本质的深刻误解。当然它们擅长软件。几乎找不到比软件更适合训练大型语言模型的领域了。
克鲁格曼: 顺便说一句,以防有些听众不清楚,AGI 指的是人工通用智能。这被视为“圣杯”,而我认为你是怀疑派中的重要一员,认为我们现在的方向根本还远未指向这一目标。
Kedrosky: 确实如此,部分原因正如我刚才所说,从大型语言模型的性质来看,在架构层面上——无论是由于数据集枯竭,还是由于追加投资带来的回报递减——我们基本上已经走进了一条死胡同。我们正在看到这种情况的发生。因此,那种认为可以从现有水平外推、进而走向某种属于我自己的“私人上帝”的想法,已被数据本身所否定。数据清楚地表明,除了软件领域之外,几乎在所有其他领域,模型改进的速度都已经出现了明显的渐近式下降。
Krugman: 既然我们是从经济学和商业层面的投资来谈这个问题,那么有一点值得注意:我们往往会把“思考”——或者说,无论在多大程度上我们把这视为一种类似思考的过程——想象成某种非物质的东西,仿佛存在于一个纯粹、非物理的领域之中。然而,所有这些事情的关键恰恰在于它们极端的物理性。我们讨论的是极其庞大的资本投入,以及极其巨大的能源消耗。
试图估算有多少资本支出(CapEx)来自 AI 是一件极其棘手的事。你给出的估算是被引用最广的之一,但现在看起来已经有些过时了。我可以谈谈为什么我觉得这是个问题,但不如你先说说这里面到底涉及哪些因素?
Kedrosky: 我们正在看到规模惊人的支出,而这正是我开始对这件事的投资层面产生兴趣的一个切入点,因为它看起来大到足以对经济数据本身产生影响。我今年年初就在关注这个问题——其实就在昨天或前天——经合组织(OECD)发布了一份关于美国的新报告,显示在 2025 年上半年,如果没有 AI 资本支出,美国实际上很可能已经陷入衰退。 然而,AI 资本支出在舆论层面几乎没有掀起任何波澜,没有人会说,“嘿,我们正在运行一个庞大的私营部门刺激计划,把美国从衰退边缘拉了回来”,但却几乎没人从这个角度来讨论它。
我一直打的一个比喻是:当你不了解 AI 资本性支出(CapEx)究竟有多庞大、影响有多深远时,你对政策因果关系的理解就完全错位了。你没有意识到,真正推动美国经济运转的,并不是你以为的那个因素。我常开玩笑说,这就像我家的狗:邮递员一到门口它就狂吠,等邮递员离开了,它就以为是因为自己在叫。其实不是,“邮递员每天都会走”。你叫不叫都无关紧要,人家总是会继续走下去。在这个语境里,你只是建立了一个错误的因果模型。这和当前宏观经济领域正在发生的事情没有本质区别,尤其是在看待 AI 资本性支出在美国经济中的作用时更是如此。比如,如果你相信关税是美国上半年表现良好的主要原因,那么在那种不带党派立场的认知下,你实际上忽视了 AI 资本性支出按年化计算可能超过 1 万亿美元的巨大作用,而这一规模已经超过了美國经濟的一半。今年上半年美国 GDP 的增长,再一次使美国避免陷入衰退,而这一增长在很大程度上可以说几乎完全来自私营部门相关支出中的单一行业,这一点在我看来非常惊人。而且每当你试图换一个视角去解释,说“不是这个原因,是那个原因”,都会显得问题重重。不,这就是原因所在,它也有助于解释就业增长——即便在上半年也是如此,并且这种情况仍在持续。数据中心并不是一个能够大量创造就业的领域,这正是与这一特定行业相关的资本高度密集性所带来的种种结果。
Krugman: 让我抓狂的是,你看看标准做法、数据的切分方式——基本上是看国民账户——我见过有人说,“哦,那就把通信和信息设备再加上软件算进去。”但这在两个方向上都是错的。一方面,其中有些东西根本不是人工智能;另一方面,又有大量与人工智能相关的建筑建设被遗漏了。
Kedrosky: 你也可以从非住宅固定投资之类的指标倒推,从这个角度切入,但这些同样问题重重。至少我尝试过的一种三角测算方法,是从企业自己公布的数字往上累加,因为它们非常渴望炫耀自己花了多少钱。至于原因,我们可以再谈,我觉得其中一部分是威慑效应:“我愿意砸下这么多钱来主导这个市场,让你根本没有理由再投入任何东西。”这就像“OK 牧场”现象,试图通过这种方式阻止别人真正与你竞争。所以他们发布这些巨额的先发式公告,一方面是为了囤积产能,另一方面也是为了威慑竞争对手。
不过,尽管如此,我们正处在一个不同寻常的时刻:他们愿意告诉你自己在做什么,这种披露方式实际上创造了一些可以汇总和把握的数据,让你能够指出“在支出方面到底发生了什么”,而这些情况你在其他地方未必看得到,至少在国家账户中是看不到的。
Krugman: 一些受人尊敬的人士已经非常努力地尝试过了,而我得出的结论是,BEA 的数据切分方式根本无法支持我们完成这项分析,我们不得不采取类似你一直在做的那种方法。
Kedrosky: 数据本身还有其他问题,这一点真的让我感到震惊。还有一项持续发布的企业趋势调查,美国人口普查局在 2022 年出于好意在其中增加了一条关于 AI 采用情况的内容。调查显示,到 2025 年第三季度,大型企业中 AI 的采用率实际上已经在大约 18% 的水平上趋于停滞,这显然因为诸多原因看起来都很荒谬。然而,当你回头去看具体的调查条目时,就会发现,那样的表述放在十年前也毫不违和,谈的还是 SQL 仪表盘以及各种在十年前就已经显得相当陈旧的机器学习技术。因此,即便是试图改进数据的这些努力,本身也并不那么有说服力。
Kedrosky: 因此,无论是在采用情况方面,还是在国民账户中关于实际支出的数据方面,我们掌握的数据都很糟糕。一个长期存在的普遍问题是,我们的许多经济统计指标实际上是为 1929 年的经济而设计的。
Kedrosky: 没错。(笑)
克鲁格曼: 我们的纺织品类别多到数不清。(笑)
Kedrosky: 是的,关于纺织品的数据非常丰富。但关于大型语言模型近期采用情况的数据就不多了,这也可以理解。不过,尽管如此,当你在 2022 年引入一个新的调查项目,声称这是针对这些新兴技术当前采用情况的,但内容却全都是一些古老的机器学习技术,那它其实并不能告诉你太多东西。
Krugman: 一个简短的问题。你对自己看到的这些人工智能相关数据有没有一个大致的概念——这可能有点不太公平——其中有多少是设备投入,又有多少是以建筑形式体现的?
Kedrosky: 可以从数据中心本身的角度来看,数据中心的成本中,大约有 65%至 70%明确是设备。
Krugman: 所以主要都是设备。
Kedrosky: 主要都是设备。显然,主要受益者是像 NVIDIA 这样的公司:GPU 制造商。所以主要是设备。再说一遍,这也存在一些问题,因为这些技术显然需要在相对较短的时间内被更换。《大空头》成名的迈克尔·伯里最近也一直在就这些问题发表看法。
我认为人们对正在发生的事情有些误解,不过我有时会说,“一个装满 GPU 的数据中心就像一个装满香蕉的仓库,在使用价值上有着相对较短的半衰期。”这一点很重要,需要牢记在心。这正是它与以往资本性支出不同的地方。无论是铁路、运河,还是农村电气化,随你怎么选,因为我们所投资之物本身的能力会随时间迅速衰减。
Krugman: 那么我们来谈谈芯片。作为一个技术门外汉:芯片就是芯片。RAM 是一种,内存芯片,这些已经商品化了,不过我听说现在全球似乎出现了短缺?
Kedrosky: 是的,确实如此,尤其是所谓的 HBM,即高带宽内存芯片,它们基本上负责互连这些 GPU,并使训练过程能够并行化。不过,短缺的是这些芯片,而不是 PC 使用的 RAM,而是高带宽内存。
Krugman: 然后就是 GPU 和 TPU——这些我也不是完全搞得懂。它们基本上是一些用于进行计算的专用芯片,或者说 GPU——G 代表“通用”,所以没那么专门化,但仍然要复杂得多。
Kedrosky: 其实是“图形处理单元”(graphics processing units),说来有点奇怪,NVIDIA GPU 的起源可以追溯到当年大家都以为世界会被 37 岁、混迹 Reddit 的男人接管——他们在家里的个人电脑上用庞大的设备打游戏。GPU 之所以如此适合训练模型,是因为它们最初被设计成非常擅长处理屏幕上的实时图形,而从计算角度看,这其实就是一大堆矩阵,用来计算屏幕上各个位置的变化。研究人员很快就意识到:“哇,这对进行海量矩阵运算非常有用。”而矩阵运算正是机器学习、也因此是大语言模型的基础。所以,从某种意义上说,GPU 在大语言模型发展中的角色,几乎是图形领域偶然孕育出的历史产物。
克鲁格曼: 你让我获得的一个重要认识是——直到大概一周前——我知道这些芯片贬值很快,但我以为这主要是因为过时导致的折旧。但事实证明,情况完全不是这样。你能跟我们讲讲吗?
凯德罗斯基: 是的,这一点非常重要,因为有一种看法认为,这之所以像是一座装满香蕉的仓库——或者在这里换成你最喜欢的水果——是因为技术变化的速度太快了。这几乎成了一种陈词滥调:“哦,一切变化都很快,我得把手机、笔记本电脑都扔掉。”
在大多数所谓的超大规模数据中心——也就是由 Google、Meta 等公司运营的那些最大的数据中心中,这并不是真正的主要驱动因素。你必须从工作负载的角度来理解,也就是数据中心内部实际在发生什么。大致可以分为两类:一类是训练,也就是使用巨量资源,在这些数据中心中的某一个里动用至少一万到两万块 GPU 来训练新模型,或对旧模型进行增强;另一类则是推理,即当我向聊天式 AI(比如 Claude 之类)提出一些莫名其妙的问题时,系统对这些请求作出响应。因此,从数据中心内部正在进行的活动来看,基本可以粗略地分为这两种。芯片是这两类活动的基础,但从芯片磨损和消耗的角度来看,这两种活动是截然不同的。 我常用的一个类比是:以训练为例,如果我把训练用于一项工作,那就是让芯片全天候运转,每天24小时、一周7天满负荷运行,这需要极其庞大的散热能力,会承受巨大的热应力(热负荷)。而在推理阶段,运行方式则更加间歇性,白天可能更多,夜里更少。夜间人们发起的请求没那么多,因此负载会发生相当显著的变化。
所以我打的比方是,假设两块芯片各自都被使用了 50 小时用于训练,又使用了 50 小时用于推理。再把这种情况放到一辆车身上来想象:我用一辆车参加了两场各 24 小时的耐力赛,总共跑了 50 小时;或者我在一整年里每个星期天开它去教堂,往返大约半小时,加起来也差不多是 50 小时。 我更愿意拥有哪一辆车?我会选择那辆每周日去教堂的车,尽管 50 小时就是 50 小时。因为我明白,参加两场 24 小时耐力赛,即便这辆车一年里只跑了 48 到 50 个小时,在所承受的压力方面,要求是完全不同的。
当你用 GPU 进行训练时,这就好比让汽车去参加两场 24 小时耐力赛,而不是一年里每个周日把车开去教堂一次。实际发生的情况是——而且数据对此相当清楚——在寿命分布上存在一个长尾:有些芯片能用相当长时间,但在最初的两到三年里故障率很高,平均无故障运行时间大约只有两年半左右。因此,早在我们还没来得及对自己说“哦,市面上出了一个很火的新芯片,我想把这个换掉”之前,你就已经在看到芯片故障在持续不断地发生。 把这个规模化来看。假设你有一个拥有一万块,甚至两万块 GPU 的数据中心。从统计上讲,你应该预期大约每三到四个小时就会有一块芯片发生故障。也就是说,远在我因为新一代芯片出现而需要快速更换设备之前,我就已经因为热应力导致的故障,不得不更换掉大量芯片。这是因为这些工作负载就像让汽车发动机一直全速运转:高温、高压力,零部件开始逐步失效。 这导致更新换代的发生远远提前,一般来说,你可能只是因为市面上出现了一款热门的新芯片才会更换。
克鲁格曼: 哇。也就是说,正如你所说,“问题在于训练而非推理”。但训练基本上就是让芯片满负荷运转,它们差不多都要被“热到中暑”了。
Kedrosky: 它们会发生热衰竭,而且这种情况往往非常隐蔽,因为并不一定会出现灾难性的故障。并不是像你的汽车突然熄火那样。它们实际上可能只是慢慢变慢,你却意识不到它的运行速度已经不如从前了。因此,要弄清楚“哦,这块芯片的运行水平已经低于应有状态”,往往需要做大量工作,并不像“它突然消失了,现在我需要热插拔更换一件设备”那样简单明了。事情远没有那么整齐利落,这也使得更换过程更加耗时、更加复杂。但这种理解上的区分,以及它对 GPU——对数据中心里的芯片——所造成影响的差异,如果放在“周日去教堂开车”与“参加 24 小时耐力赛”的对比框架下来看,就显得极其重要,因为它能告诉你很多关于未来更换 GPU 和数据中心相关资本成本动态的信息。当前存在一波持续的更换潮,这并不完全是由技术迭代推动的,而是由芯片本身承受的实际热应力所驱动的。
克鲁格曼: 好吧,所以我们有很多、很多类比,拿 90 年代的电信热潮来说。我们都说,“好吧,很多公司倒闭了,回报从来没有算清楚。”但另一方面,地下铺设了大量光纤,最终还是派上了用场。但你的意思基本上是,这次不会是那样。我们最终得到的,只会是一堆被烧坏的芯片。
Kedrosky: 没错,就是一堆被榨干的案例。完全如此。这有点像《谋杀绿脚趾》变成了一块芯片,感觉就像:“我不确定接下来会发生什么,但我唯一知道的是,这家伙早就过了该退场的时间。”因此,这里的一个重要问题不仅在于技术变革让这个拥有 1 万块 GPU 的数据中心变得不那么有用了,还在于它已经经历了多轮热应力循环,很可能因为之前的使用而导致寿命本来就不长。这是一个双重打击,会让它的价值进一步下降。 而科技行业对此的典型回应通常是这样一种说法:“嗯,这其实没那么重要。我们真正建成的是一个带电的 Shell——一栋巨大的建筑,有电力、有冷却系统,什么都有。所以将来我们可以把这些 GPU 再一次热插拔进去。”但这种说法当然是在回避真正的问题:数据中心 60%到 70%的成本就在于芯片本身。所以,好吧,电力、电价、冷却系统、墙体和混凝土,我都可以白送给你。 就更换 GPU 而言,大部分成本仍然摆在你面前。
因此,那种认为我建成了一项可以永久发挥作用的固定资产的观念,其实是非常危险的。我经常听到这种说法,尤其来自地方经济发展官员,他们在解释为何要向超大规模云服务商提供极端的补贴和税收减免,吸引其在当地建设数据中心时,往往会这样讲。他们把数据中心称为——这个说法我已经听过无数次——“新一轮工业革命的工厂”。这种类比问题重重,恰恰就在于这一点:抛开这个类比本身就不恰当不谈,这类资产并不具备人们所期待的那种长期寿命,正是出于这些原因。
克鲁格曼: 我想最早跟我这么说的可能是吉姆·查诺斯,但我知道也有其他人讲过。这就像页岩井一样,很多人因此亏了大钱,因为事实证明,页岩气井或页岩油井的产出,并不像传统的油井或气井那样能够长期保持稳定。它们的折旧速度非常快。
Kedrosky: 这不过是另一种资源开采型经济,而且在一些出人意料的方面也是如此。不仅体现在 GPU 本身回报率的递减上,也体现在——正如我之前提到的——那些庞大的训练数据集所带来的回报递减上。正是这些数据集让我们得以放大所谓的大语言模型“规模定律”,将模型推进到 GPT-4、GPT-5 或 Claude 的水平,但这种回报正在以更高的成本迅速下降。
训练周期更长,训练轮次更多,成本也更高。因此,从这两个方面来看,支撑这一切的资源开采型经济都在产生递减回报。就像页岩产业一样,回报递减并非只有一个失效点,而是会通过多种方式逐渐显现。资本开支在一定程度上掩盖了这一问题,因为人们试图用砸钱的方式摆脱困境。于是他们增加训练轮次,试图生成更好的数据。当然,这并不起作用。接下来他们又转向另一种模式——就像埃隆·马斯克在他的 Grok 模型上所做的那样,把一半时间花在后训练阶段。
因此,与其依赖寻找新的数据,我更倾向于做各种工作,让模型在回应人类时变得更加讨好型。如果你查看他的训练数据,最新一代 Grok 模型的训练周期时间中,几乎有 50% 用在了后训练上。这种方式在一定程度上是有效的,但从极端来看,会导致过度谄媚、迎合的行为,使得模型的回应充其量是不稳定的,而在现实中并不太有用。
Krugman: 你上一次给出的数字,作为 GDP 的占比,已经略高于 20 世纪 90 年代的电信繁荣。但我猜你认为现在已经比那还要高了?
Kedrosky: 是的。我认为大概是非住宅固定投资,目前可能在 14% 左右。因此,我们已经明显超过了电信泡沫时期的水平,介于农村电气化和第二次世界大战重整军备之间。
Krugman: 但还没到 19 世纪铁路建设的程度。
Kedrosky: 还没有到铁路那样的程度,但正走在通往类似状态的路径上。鉴于这一点——而且这点非常重要——我们正处在这样一个阶段:已经形成了一个金融飞轮,数据中心的融资正越来越与数据中心内部实际发生的事情相对脱钩,因为我们已经建立了一套数据中心融资的模板。在这种模式下,通过设立 SPV(特殊目的载体),由第三方出资提供资本,科技公司则贡献技术。于是,另一端仿佛凭空“生成”了这些具有良好现金流和收益特征的证券,对投资者来说极具吸引力。投资者几乎把它们视为一种合成证券,他们理解其基础是 SPV、是正在产生收益的数据中心。
但另一方面,Meta 和 Google 是主要的优质信用主体,信用状况非常强劲,因此他们会持续为此买单。我并不太关心数据中心内部具体发生了什么,因为我对交易对手的信用有着高度信心。我们都知道,当这种由证券化、高收益驱动的融资飞轮出现、人们又不关心实际结构内部情况时,最终会走向何处:它会推动更多建设,并最终导致过度建设。
Krugman: 哦,天哪。我仿佛回到了 2008 年、2009 年。那些被称为“绝对安全”的东西——毕竟有 AIG 在背后兜底,对吧?
Kedrosky: 没错,完全如此。这与那种“穿透式”机制是同一种现象——通过这些法律载体,人们会穿透法律结构来看,说:“哦,这没关系,因为在另一头的是 Google 和 Meta。”而且情况甚至更加隐蔽。一些私人信贷提供方对此直言不讳:在支撑数据中心的合同条款中,如果你提前取消、不再以科技公司的身份继续使用这些中心,就会有一整套条款,基本上迫使你向私人信贷公司支付未来租约付款的净现值。他们说得非常清楚——从资金的时间价值来看,这实际上对他们有利;事实上,他们并不介意你提前退出并一次性付款,因为“这样我就有更多资本去建设更多项目”。所以,从某种奇怪的角度看,这个体系里存在着一种促使发放坏贷款的反向激励。
克鲁格曼: 我确实想问一下关于循环融资的问题,只是我看了那些展示各方资金流向的图表,眼睛都快看花了——我按理说应该很擅长这个!——但总觉得有一种情况是,大家通过彼此“互相洗钱”把规模抬高了,这样的理解是不是不对?
Kedrosky: 不,确实如此,我们将越来越多地看到这样的情况:NVIDIA 向某个服务提供商进行投资,条件是对方必须使用 NVIDIA 的芯片。反过来,这就使 NVIDIA 成为其训练中心的主要半导体来源。随后,这又会反馈回来,促成更多采购。于是就这样一轮又一轮地循环下去。由于存在这些相互交织的组合,整个体系变得非常封闭而复杂。但现实是,这在一定程度上制造出了一种需求远高于实际水平的印象。而这样做部分出于战略考虑,因为 NVIDIA 正试图在市场中封堵一个位置,也就是说:“甚至没有必要去看 Google 的芯片、AMD 的芯片或其他任何人的产品,因为看看我们在市场上的主导程度,再看看我们为了确保继续保持这种主导地位愿意付出多大的代价。”“所以,与其说这是某种不当行为,不如说这是一种失控的战略举措,最终造成了一种增长幅度大于实际存在的印象。因为这些公司都相信,眼下正在发生一场无论是字面意义上还是比喻意义上的‘跑马圈地’,我现在必须用自己的技术把这些领域占住,因为谁知道我过去或未来还能不能有其他机会这么做。
但这一切往往只会制造出一种循环效应,一圈又一圈地转下去。结果是,很难真正弄清楚实际需求究竟是什么样子。而正在发生的囤积行为又让情况雪上加霜,因为人们并不知道未来的需求会如何变化,但他们确实知道获取电力的渠道相对稀缺。所以,我现在要确保把所有可能的地点都锁定下来,至于未来结果如何——无意双关——就听天由命吧。于是就出现了这种囤积现象,它同样导致了过度建设,形成了这种循环,并且甚至引发了类似‘唐人街式’的土地投机,希望这些抢占的地块有一天能派上用场。”
我们看到一种被称为“带电土地公司”的企业开始出现,这在某种程度上类似于洛杉矶接管欧文斯谷水资源之前发生的情形:你带着编号公司出现,四处收购地块,没有人确切知道你在做什么,一切都是为了预期某一天会有人需要这些资源。到那时你就可以说:“哈哈,我已经在这里了,我也已经拥有了这里的用电接入权,如果你想建数据中心,那就请便吧。”我们看到这类所谓的带电土地公司有很多,而他们并不打算建设数据中心。他们只是采用一种类似“唐人街模式”的做法,先发制人地购入土地,等待最终买家出现。
克鲁格曼: 哇。电力,这是让我完全措手不及的一点——巨大的用电需求,以及它如何成为一种制约因素。
Kedrosky: 问题的一部分在于,科技行业本身并不习惯被人说“不”,他们有点像任性的幼儿。问题在于,这种权力与现实世界正在发生的事情紧密相连,因此这些设施必须接入电网。我们必须从某个地方获取电力。我们看到的建设规模肯定是数百兆瓦,甚至会达到吉瓦级别。这显然远远超出了可以直接、顺理成章地接入传统电网的范围。但与此同时,公用事业公司又面临着巨大的诱惑,倾向于说:“我们愿意接下这个项目,因为负荷的可预测性以及高质量的信用状况,使其极具吸引力。”
但问题随之而来:我必须把这笔账补上。于是现在我不得不回头,很可能要提高对用电客户的费率,这也正是为什么我们到处都在看到电费飙升。我们甚至看到有人开始反对,说:“我不希望数据中心接入我所在地区的电网。”而这又引出了所谓的“表后用电”,也就是你可以来接入,但前提是你得自带电力。可这说起来容易,做起来难。事实证明,建设一座核电站需要很长时间;引入天然气也要花上四到五年。于是,现在很多人先接入电网,承诺将来会实现自给自足。但谁又知道他们是否真的能实现自给自足呢?结果就出现了一些荒谬的局面,比如最近在俄勒冈州,Amazon 将三个数据中心接入电网,结果现在却向俄勒冈州公共事业委员会(PUC)正式投诉,因为这三个数据中心都拿不到电力,尽管当初有人向他们作出了承诺。 所以,这正是你会预期开始发生的情况,因为承接这些负载的诱惑极大,但负载本身规模如此之大,以至于如果不把账单重新转嫁给缴费用户,根本不知道该如何接入。
Krugman: 是的,公用事业公司也许会喜欢,但新泽西州的当选州长大概不会。
Kedrosky: 完全正确。接下来就会出现更疯狂的情况,比如最近阿勒格尼能源与电力公司(Allegheny Energy and Power,AEP)的一个案例,公用事业公司竟然开始投机性地购买电力期货,押注未来能为数据中心供电。结果数据中心的需求并没有出现,于是他们又不得不掉头处理这些头寸。
这件事现在正在 AEP 身上发生。他们正试图把这些电力倒回到另一个互联系统中。所以这本质上是对市场的二次扭曲。因为他们手里有 700 兆瓦的电力,简直成了烫手山芋。但这正是因为他们此前进行投机性借贷,试图控制一部分电力资源,然后再转身对数据中心说:“嘿,过来。”结果并没有发生,如今他们只能抛售电力,从而又扭曲了另一个市场。
Krugman: 所以我们面临的是一个重大的电力问题。折旧的速度很可能远远快于新设施的建设速度。问题在于,这些东西究竟有没有前景,能否真正产生足以证明这些投资合理性的回报?
Kedrosky: 它们的水平很低,这也是为什么你会陷入这些我似乎总是被卷进去的、相当扭曲的讨论,去想象事情可能会是什么样子。于是就有人做这种自上而下的模型,然后说,比如——这一点真的让我抓狂——“全球人类劳动的 TAM(可触达总市场)大约是 35 万亿美元。假如我们拿下其中的 10% 呢?那就是 3.5 万亿美元的收入来源。”出于很多原因,这种思路都是站不住脚的。这在某种程度上是老掉牙的错误:比如说,“如果我只拿到中国市场的 5%,我就能做成一家巨头企业。”可事实上,没有人能在中国市场拿到 5%。你要么成功,要么失败,事情并不是这样运作的。对全球劳动力市场的这 10% 也是同样的道理。但更根本的一点——这一点更属于你的领域而不是我的——是,如果 AI 大规模渗透进一个 35 万亿美元的市场,那它就不再是一个 35 万亿美元的市场了。它会成为一股巨大的通缩力量。也许你能拿到其中的 10%,但那究竟是什么样的“东西”,我已经完全说不清了。
所以,认为你可以可预测地说“无论用这种方式还是那种方式完成工作,我都会继续为劳动力支付同样的费用”,这种想法充其量是天真,往深里说是无能,最坏的情况则是极度自利。因此,那些试图构建所谓“站得住脚”的模型——不管是自上而下还是自下而上的——有人会说:“如果全球有50亿人每个月都为某种大语言模型订阅支付100美元呢?那我们就能把钱赚回来。”可问题是,事情根本不会这样发生!这是一种极其天真的想象,完全误判了事态将如何展开。更有可能的情况是,它会免费在我的手机上运行,而我甚至都不会注意到。我根本不会为此付费。
Krugman: 世界上并没有 50 亿人负担得起每月 100 美元。
Kedrosky: 不,当然不是。这完全是一种令人震惊的误读。因此,这两种思路其实都说不通。人们会陷入一种——我经常用这个说法——基于信念的论证方式,认为“以前都奏效过”。光纤泡沫时期大家是这么说的,互联网泡沫时期也是如此,或者你随便挑一个技术变革的时刻,都是同样的说法。他们会说:“这些事情最终总会自行解决。”我觉得这是一种非常居高临下的看问题方式,因为如今的支出规模已经上升到主权国家层面,像 Oracle 这样的公司每年举借的债务规模,已经可与一个中等规模的欧洲国家的主权融资相媲美。这绝不是微不足道的数字,其影响甚至已经波及到台湾这样的地方——比如,台积电(TSMC)如今大约占台湾 GDP 的 15%。该国的其他各个行业都在苦苦挣扎,这不仅仅是技术因素造成的,还有关税等问题。因此,当我们在这种债务驱动的支出基础上一路乐观外推时,实际上正在在各个层面制造新的脆弱性。
克鲁格曼: 当然,总是存在“其他参与者、其他路径”的可能性。我的意思是,这有点像去年的情况,当时丹麦经济几乎完全围绕着诺和诺德展开,但事实证明,其他人也能生产减肥药。
凯德罗斯基: 这个类比非常贴切,因为在巅峰时期,诺和诺德大约占丹麦 GDP 的 14%。因此,从某种奇怪的角度看,台积电如今在台湾所扮演的角色与之类似,也因此面临同样的脆弱性风险。原因在于,作为当前诸多热潮基础的 LLMs,即大型语言模型,在我们刚才讨论的一些方面,已经走到了某种自然的架构性死胡同。所以,认为这种趋势会以同样的方式持续下去,并且还能从同类型的支出中提取出同样的收益,是极其不现实的。这也是为什么你会看到越来越多的人开始转向其他路径。我认为,极有可能没有任何一种能通向类似 AGI 的成果。但这其实并不重要。关键在于,这本身就展示了我们目前所做的一切在“榨取”层面上的枯竭。
克鲁格曼: 在我所处的圈子里——而且多半并不太了解内情——一直有这样的说法:采用类似中国做法、在更有限的数据基础上训练的小模型,运行成本要低得多;如果这一判断最终被证明是正确的,那将对这些公司构成沉重打击。
Kedrosky: 完全正确。因此,你会看到这些小型和微型模型,它们的训练成本要低得多。Deep Seek 去年在某种程度上就是一个例子,展示了一种成本更低的模型训练方法。最近我们也看到了 Moonshot 的 Kimi 模型,它来自这些中国模型中的一部分。从某种意义上说,这些是在用不同路径解决同一个问题。我们并没有采用新的架构思路,它们仍然是大型语言模型,只是在训练所需时间和使用成本方面规模小得多。因此,它们非常重要,而且更重要的是,向前看,如果我的判断是对的,未来我们进行的训练量必须下降,因为在大型语言模型方面,我们现有的这种自然架构,其经济性最终是由推理决定的,也就是这些模型响应请求的能力。
但大多数推理并不是来自你我。这是我们一直在犯的一个错误。人们以为我们才是故事的主角。但就推理而言,来自消费者的全球推理需求——来自你我以及其他人——用弗吉尼亚北部的一座数据中心就足以满足。相对于全球推理总量而言,我们所占的负载比例就是这么小。
所以可以说,60%是训练。我们大概只占数据中心总工作负载的 5%到 6%。中间那一部分,其中很大一块其实是软件本身——也就是编程,而事实证明,这是一种极其挥霍 token 的用途。于是你在向前推演时就不得不问:“难道地球上的每个人都会用 Copilot、Cursor 或类似工具来写软件吗?”这显然不现实。那么,模型使用量增加所需的平衡将从何而来?与此同时,小模型的涌入又会在边际上进一步蚕食这一部分。因此,很难看出,按照当前对这些数据中心工作负载的外推模型,究竟还有什么合理性。
克鲁格曼: 这真是令人惊叹。我现在的一个消遣是看上世纪 90 年代的老科技广告。顺便说一句,那些广告做得好得多。我也不知道为什么 90 年代比现在有趣得多,比如当年 Qwest 那些讲述光纤技术各种奇迹的广告。那些预言几乎都实现了,只不过不是在 Qwest 身上。
Kedrosky: 没错,这在某种程度上是一个长期存在的问题:结果你们成了背上插着箭的先行者。但我确实认为这是很大的一部分。另一点我觉得真正不同寻常、也让很多人感到困惑的——或者说这个时刻的特殊之处在于——从历史上看,美国一直非常擅长制造投机泡沫。这几乎是我们的核心竞争力之一。它们往往围绕房地产,或者围绕技术,或者围绕宽松信贷,有时甚至还会因为政府在其中扮演角色、制造了某种扭曲的激励而出现。而这是第一个同时具备这四个要素的泡沫:我们有房地产因素,有宽松信贷因素,有技术因素,还有一个巨大的政府因素,因为人们被告知“我们正面临与中国的生存性危机,必须不惜一切代价赢下这场竞争”。所有这些力量叠加在一起,就导致人们从四个不同的隔间和视角来看待这一切,而不是像在全球金融危机时那样简单地说:“这始终归根结底是房地产和信贷的问题。”“或者在电信领域,‘这是关于技术,也多少涉及一些信用。’这是第一个会让你落入所谓理性泡沫理论的案例:每个人都觉得自己做的是理性的事情。然而从整体来看,所有这些从各自视角审视问题的不同参与者,实际上都在挥霍性地加剧了问题,因为这是第一个汇集了历史上促成美国一些最大规模泡沫的所有力量的案例。”
克鲁格曼: 哦,真是开心。(笑)抱歉。不过,确实又有那种感觉了。我认为住房泡沫的破裂在我人生中扮演了重要角色,因为它让我买得起我在纽约的公寓。当然,我也非常关注上世纪 90 年代的科技泡沫,尽管并没有直接的财务利益。但现在,我们把所有这些因素加在一起……
凯德罗斯基: 所有泡沫的总和。
克鲁格曼: 哇。我想问一下。我们时间有点超了,但我还是想补充一点,你最近有一篇很有意思的文章,谈到了——经济地理、区位,这也是我关注的领域——旧金山正在复苏。你能不能谈谈,哪些地方正在受到影响?
Kedrosky: 所以,就风险资本而言,这大概是过去 30 年来最为狭窄的一个时刻——要么资金集中投向单一领域,要么几乎无处可去。也就是说,无论是风险投资、二级信贷还是成长资本,几乎全部都涌入了人工智能。这种情况在那些最容易聚集从事此类工作的公司的中心城市产生了明显影响。
旧金山就是一个很好的例子。就在四年前,这里的商业地产还相对供过于求,而现在已经回到了历史常态。并且最迟到明年这个时候,相关水平很可能会明显低于10到15年前所见的状态,而这一切完全是由资本向单一行业的大量涌入所推动的。因此,狭窄性是一方面,资金流入的规模则是另一方面,其程度已经到了造成扭曲的地步。同样的情况也发生在纽约,在旧金山尤为明显,在其他中心城市则程度较轻。但无论如何,它在地理上高度集中,在行业上也极为单一,而这种现象非常罕见。
我认为这件事的另一面,也是我一直强调的一点,是:当所有资本都涌向某一个单一领域时,也就意味着它们没有流向其他地方。我觉得这一点极其重要。之前我举过台湾的例子:如果你身处台湾的 AI 或半导体制造领域,资本几乎泛滥;但如果你是其他任何产品的制造商,几乎不可能拿到贷款。在美国也是如此——如果你是一家早期公司或处于中期、寻求增长资本的企业,而你的业务几乎没有任何 AI 组件,那对不起,你基本没戏。
这种由于投资过于集中而让制造商、乃至成长型公司陷入“资本饥荒”的现象,几乎总会在历史上产生后果。上世纪90年代我们就见过这种情况:随着中国的崛起,并且几乎与电信泡沫同时发生,美国制造商越来越难以获得资本,因为资金在行业层面几乎全部流向了电信。现在我们又在经历同样的事情。这种影响将在未来几年逐步显现,但此刻已经相当明显。
克鲁格曼: 如果不了解这段历史,听起来确实很怪,但在国际经济学中,这被称为“荷兰病”。当年荷兰发现天然气之后,有一段著名时期,其制造业因此遭到重创。
Kedrosky: 没错。我也打同样的比方。我认为事情正是如此发展,而且是以一种隐蔽而阴险的方式展开的。比如说,假设关税政策原本是为了对外包制造业产生效果,设想你是一家资本密集型制造商,想要把生产迁回本土,但你并不在半导体行业,现在要筹集资本有多困难?几乎是不可能的。实际上,这比在没有 AI 投资泡沫的情况下要困难得多。原因就在于有如海啸般的资金涌入了单一行业。所以,即便你相信这些政策本来可能是有效的,但在这种现象的影响下,获取任何资本都变得异常艰难。然而,如果你不去讨论、不去理解这一点,你就会认为:“哦,那我们可能需要更高的关税。”我们需要进一步鼓励人们回来。否则,我们就不会有足够的制造商在国内进行生产。
Krugman: 就是这种感觉——巨额到骇人的资金,膨胀到可怕的自我,这一切最终会走向何方?
我得说,在这一切之中,有一个我恰好知道正在蓬勃发展的不起眼行业,那就是为学院考试生产蓝皮考试本的仅存两家公司。
Kedrosky: 哦,是的。
Krugman: 它们正在迎来复兴,因为我们正在回到手写考试。
Kedrosky: 你知道吗?这并不让我意外。我本该想到这一点,但我敢打赌,情况正是如此。
克鲁格曼: 问题在于年轻人已经不会写作了。他们真的不懂草书。这套东西是如何运作的如此重要,而像我这样的人完全没有这方面的装备。所以感谢你在这方面给了我一点帮助。
凯德罗斯基: 太棒了,聊得非常愉快。