黄仁勋:TPU 竞争、我们为何应向中国出售芯片,以及 NVIDIA 的供应链护城河
我向 Jensen 请教了 TPU 竞争、NVIDIA 对制造先进芯片所需且日益成为瓶颈的供应链的掌控、我们是否应该向中国出售 AI 芯片、为什么 NVIDIA 不干脆自己成为超大规模云服务商、它如何进行投资,以及更多话题。请欣赏!
可在 YouTube 观看;也可在 Apple Podcasts 或 Spotify 收听。
时间戳
(00:00:00)— NVIDIA 最强大的护城河,是它对稀缺供应链的掌控吗?
(00:16:25)——TPU 会打破 NVIDIA 对 AI 算力的主导地位吗?
(00:41:06)——为什么 NVIDIA 不自己成为超大规模云服务商?
(00:57:36)——我们是否应该向中国出售 AI 芯片?
(01:35:06)——为什么 NVIDIA 不开发多种不同的芯片架构?
访谈实录
00:00:00 – NVIDIA 最大的护城河,是它对稀缺供应链的掌控吗?
Dwarkesh Patel
我们已经看到, 一批软件公司的估值大幅下跌 ,因为人们预期 AI 会让软件商品化。这里有一种可能有些天真的看法:你看,NVIDIA 把一份 GDS2 文件发给 TSMC。TSMC 制造出逻辑 裸片 ,制造出交换芯片 ,然后再把它们与 HBM 封装在一起,而这些 HBM 是由 SK Hynix、Micron 和 Samsung 生产的。之后再送到台湾的一家 ODM,由他们组装成机架。NVIDIA 从根本上说是在做由别人制造出来的软件;如果软件被商品化,那么 NVIDIA 会不会也被商品化?
黄仁勋
归根结底,总得有某种东西把电子转化为代币。将电子转化为代币,并让这些代币随着时间推移变得更有价值,这件事很难被彻底商品化。从电子到代币的转化,是一段极其非凡的旅程。制造这种代币,就像让一种分子比另一种分子更有价值,让一种代币比另一种代币更有价值。为了让这种代币具备价值,需要投入大量的艺术性、工程能力、科学知识和发明创造,而显然,我们此刻正实时见证这一过程。这种转化、这种制造,以及其中涉及的全部科学,远未被深刻理解,而这段旅程也远未结束。我怀疑那会发生。
当然,我们会让它变得更高效。你提出这个问题的方式,正是我对我们公司的心智模型。输入是电子,输出是代币,中间是 NVIDIA。我们的职责,是在尽可能少做不必要事情的同时,做尽可能多的必要工作,以使这种转化能够以惊人的能力完成。我所说的“尽可能少”,是指凡是不需要我亲自去做的事情,我就会与别人合作,并把它纳入我的生态系统。
如果你看看今天的 NVIDIA,我们可能拥有最大的合作伙伴生态系统,覆盖供应链上下游、所有电脑公司、应用程序开发者以及模型开发者。可以说,AI 就像一个五层蛋糕。我们在完整的五个层面上都拥有生态系统。我们尽量少做,但事实证明,我们必须做的那部分难得惊人。我不认为那会变成大宗商品。
事实上,我也不认为企业软件公司、工具制造商……如今大多数软件公司都是工具制造商。其中有些不是,有些是将工作流程编码化的系统。但对很多公司来说,它们就是工具制造商。比如,Excel 是一个工具,PowerPoint 是一个工具,Cadence 制造工具,Synopsys 制造工具。实际上,我看到的恰恰与很多人看到的相反。我认为 agents 的数量将呈指数级增长,而工具使用者的数量也将呈指数级增长。所有这些工具的实例数量很可能都会激增。
我认为,工具的使用将推动软件公司腾飞。之所以这种情况尚未发生,是因为智能体在使用工具方面还不够成熟。要么这些公司将自行构建智能体,要么智能体会进步到足以熟练使用这些工具的程度。我认为,最终将是两者结合的结果。
德瓦凯什·帕特尔
我认为在你们最新申报文件中,你们对晶圆代工、内存和封装的采购承诺总额已接近 1000 亿美元。SemiAnalysis 报道称,你们这类采购承诺将达到 2500 亿美元。一种解读是,Nvidia 真正的护城河在于,你们已经锁定了这些稀缺组件未来多年的供应。其他公司或许也能推出加速器,但他们真的能拿到所需的内存来制造吗?他们真的能拿到所需的逻辑芯片来制造吗?这是否才是 Nvidia 未来几年最大的护城河?
黄仁勋
这是我们能做到、而别人难以做到的事情之一。我们在上游进行了巨额投入,其中一部分是明确的,也就是你提到的那些承诺;另一部分则是隐性的。比如,很多上游投资是由我们的供应链完成的,因为我曾对这些公司的首席执行官们说:“让我告诉你们,这个行业将会有多大;让我向你们解释原因;让我和你们一起梳理其中的逻辑;也让我向你们展示我所看到的前景。”
因此,通过向上游各行业的首席执行官传递信息、激发信心并实现协同,他们愿意进行投资。他们为什么愿意为我而不是为别人投资?原因在于,他们知道我有能力采购他们的供应,并通过我的下游渠道将其销售出去。事实是,NVIDIA 的下游供应链以及我们的下游需求规模如此庞大,以至于他们愿意在上游进行投资。
如果你看看 GTC,人们会惊叹于它的规模以及到场的人群。这是一个完整的 360 度全景,整个 AI 宇宙都汇聚于此。他们之所以齐聚一堂,是因为他们需要彼此见面。我把他们聚到一起,这样下游可以看到上游,上游可以看到下游,而所有人都能看到 AI 的进展。非常重要的是,他们还都能见到 AI 原生企业,见到所有正在创立的 AI 初创公司,以及正在发生的所有令人惊叹的事情,这样他们就能亲眼看到我告诉他们的一切。我花了大量时间,直接或间接地向我们的供应链、合作伙伴和生态系统传递摆在我们面前的机遇。
总有人说:“Jensen,你的大多数主题演讲里,总是一项宣布接着一项宣布。”我们的主题演讲总有一部分显得有些“折磨人”,某种程度上几乎像是在上课。事实上,我脑子里想的正是这件事。我必须确保整个供应链——上游、下游以及整个生态系统——都明白即将到来的是什么、为什么会到来、何时到来、规模会有多大,并且能够像我一样,系统性地推演和理解这一切。
就像你所描述的护城河一样,我们能够为未来进行布局。如果未来几年我们的规模达到一万亿美元,我们也有相应的供应链来支撑。没有我们的覆盖能力,我们业务的发展速度……就像有现金流一样,也有供应链流动,也有业务更替。如果业务更替幅度不大,没有人会为某一种架构去建立供应链。我们之所以能够维持这样的规模,完全是因为下游需求极其旺盛。他们看得到,听得到,也看得出这一切正在到来。这使我们能够以如今这样的规模去做我们正在做的事情。
德瓦凯什·帕特尔
我确实想更具体地了解一下,上游是否能够跟上。多年来,你们的营收一直在同比翻倍增长。你们每年向全球提供的浮点运算能力也已超过三倍增长。
Jensen Huang
而如今在这样的体量上还能实现翻倍增长,确实令人难以置信。
德瓦凯什·帕特尔
没错。但再看逻辑层面。你是 TSMC N3 节点上的最大客户,而在 N2 上你也是最大的客户之一。根据 SemiAnalysis 的数据,今年整个 AI 将占到 N3 产能的 60%,明年将达到 86%。如果你已经占了大头,还怎么实现翻倍增长?而且还要年复一年地做到这一点?我们现在是否进入了这样一种阶段:由于上游供给限制,AI 算力的增长率必须放缓?你认为有办法绕过去吗?归根结底,我们要如何才能年复一年地多建出 2 倍的晶圆厂?
黄仁勋
从某种程度上说,全球上下游在任何一个时点上的即时需求都高于供给。任何时候,我们都可能受限于水管工的人数,而这种情况确实会发生。
德瓦凯什·帕特尔
欢迎水管工参加明年的 GTC 大会。
黄仁勋
顺便说一句,这个想法很棒。但这是一个很好的条件。你希望身处这样一个行业:其瞬时需求高于整个行业的总供给。相反的情况显然就没那么好了。如果差距过大,如果某个特定组件过于短缺,整个行业就会一拥而上。比如,你会注意到,人们如今已经不太谈论 CoWoS 了。
原因就在于,过去两年里我们全力以赴地猛攻这一领域。我们一次又一次地加倍投入,连续翻番。现在我认为我们的处境已经相当不错了。TSMC 如今明白,CoWoS 的供应必须跟上其他逻辑芯片需求和存储需求的步伐。他们正在以扩展逻辑产能的同等力度,扩大 CoWoS 以及未来封装技术的规模。这非常了不起,因为在很长一段时间里,CoWoS 和 HBM 内存都还相当小众。但它们如今已不再是小众技术。人们现在意识到,它们已经成为主流计算技术。
当然,如今我们更有能力对更大范围的供应链施加影响。AI 革命之初,我现在说的这些话,五年前我就在说了。有些人相信这一点并为此投入了,比如 Sanjay 和 Micron 团队。我至今仍清楚地记得那次会议,当时我非常明确地讲了究竟会发生什么、为什么会发生,以及今天这些局面的预判。他们对此确实加大了投入。我们与他们在 LPDDR 和 HBM 内存领域开展了合作,他们也确实为此进行了投入。这显然给公司带来了巨大的回报。有些人来得稍晚一些,但现在他们都已经来了。
这些瓶颈中的每一个都受到高度关注。如今,我们会提前数年预判并布局这些瓶颈。举例来说,过去几年我们与 Lumentum、Coherent 以及硅光子生态系统开展的投资,确实重塑了供应链。我们围绕 TSMC 建立起了一整套供应链。我们与他们在 COUPE 上展开合作,发明了大量技术,并将这些专利授权给供应链,以保持其良好而开放。
我们正通过发明新技术、新工作流程、新测试设备——例如双面探测——来为供应链做准备,同时投资相关公司,并帮助它们扩大产能。可以看出,我们正努力塑造整个生态系统,使供应链做好支持这一规模化需求的准备。
德瓦凯什·帕特尔
看起来,有些瓶颈比其他瓶颈更容易解决。扩大 CoWoS 产能,与扩大——
黄仁勋
顺便说一句,我挑的是最难的那个。
德瓦凯什·帕特尔
是什么?
黄仁勋
水管工。水管工和电工。这正是我对那些宣扬“工作终结”“岗位消失”的悲观论者所担心的问题之一。如果我们劝阻人们去做软件工程师,那我们最终就会缺少软件工程师。十年前也出现过同样的预测。当时一些悲观论者告诉人们:“不管你做什么,都别去当放射科医生。” 你现在可能还能在网上看到一些那样的视频,说放射科会是第一个消失的职业,世界将不再需要更多放射科医生。结果我们现在最短缺的是什么?放射科医生。
德瓦凯什·帕特尔
回到刚才这个问题:有些事情可以扩产,有些则不行……你究竟要如何把一年的逻辑芯片产量提高到 2 倍?归根结底,存储和逻辑都受制于 EUV。你怎么才能让 EUV 设备的年产量逐年翻倍?
黄仁勋
这一切都并非无法快速扩大规模。所有这些都可以在两三年内轻松实现。你只需要一个需求信号。一旦你能造出一个,你就能造出十个;一旦你能造出十个,你就能造出一百万个。这些东西并不难复制。
德瓦凯什·帕特尔
你们会向供应链下游延伸到多远?你们会不会找到 ASML,然后说:“嘿,如果我把目光放到三年后,要让 Nvidia 每年创造两万亿美元的营收,我们就需要多得多的 EUV 光刻机?”
黄仁勋
其中一些我必须直接去做,一些要间接推动,还有一些……如果我能说服 TSMC,ASML 也会被说服。我们必须思考关键的瓶颈环节。但如果 TSMC 被说服,几年后你就会拥有充足的 EUV 设备。
我的意思是,这些瓶颈没有一个会持续超过几年,两年、三年,没有一个会。与此同时,我们正在把计算效率提升 10 倍、20 倍,而从 Hopper 到 Blackwell,提升幅度达到 30 倍到 50 倍。由于 CUDA 极其灵活,我们还在提出新的算法。我们正在开发各种新技术,在提升产能的同时推动效率提升。这些都不会让我担心。真正让我担心的是我们下游的事情。那些阻碍能源发展的能源政策……没有能源,你不可能建立一个产业。没有能源,你也不可能建立一个全新的制造业。
我们希望美国实现再工业化。我们希望把芯片制造、电脑制造和封装业带回美国。我们希望建设电动车和机器人等新产业。我们希望建设 AI 工厂。没有能源,这些事情一件都做不成,而这些事情都需要很长时间。增加芯片产能,这是一个 2 到 3 年的问题。增加 CoWoS 产能,也是一个 2 到 3 年的问题。
德瓦凯什·帕特尔
有意思。我感觉有时会有嘉宾跟我说完全相反的话。在这种情况下,我确实没有足够的技术知识来作出判断。
黄仁勋
妙就妙在,你正在和专家交谈。
00:16:25——TPU 会打破 Nvidia 对 AI 算力的掌控吗?
德瓦凯什·帕特尔
确实如此。我想问一下你的竞争对手。如果你看一下 TPU,可以说全球排名前三的模型中有两个——Claude 和 Gemini——是在 TPU 上训练的。这对 NVIDIA 的未来意味着什么?
黄仁勋
我们构建的是一种非常不同的东西。NVIDIA 构建的是加速计算,而不是张量处理单元。加速计算被用于各种各样的领域:分子动力学、量子色动力学、数据处理、数据框架、结构化数据以及非结构化数据。它也被用于流体力学和粒子物理。此外,我们还将它用于 AI。
加速计算要多样化得多。尽管如今人们谈论的焦点是 AI,而且它显然非常重要、影响深远,但计算的范畴远不止于此。NVIDIA 重新定义了计算的实现方式,将其从通用计算推进到加速计算。我们的市场覆盖范围远远超过任何 TPU 或 ASIC 所能企及的水平。就我们的定位而言,我们是唯一一家为各种类型应用提供加速能力的公司。我们拥有庞大的生态系统。因此,各类框架和算法都能在 NVIDIA 上运行。
由于我们的计算机是为供他人运营而设计的,因此任何运营商都可以买我们的系统。大多数这类自建系统则不同,你必须自己充当运营者,因为它们从来就不是为足够灵活、可由他人运营而设计的。正因为任何人都能运营我们的系统,我们才进入了所有云平台,包括 Google、Amazon、Azure 和 OCI。
如果你想运营它并对外出租,那你最好拥有一个覆盖众多行业、由大量客户构成的庞大生态,来承接这些算力。如果你想自己运营,我们显然也有能力帮助你自己运营,就像我们为 Elon 的 xAI 所做的那样。而且,由于我们能够让任何公司、任何行业的运营者都用起来,你完全可以用它在 Lilly 打造一台用于科学研究和药物发现的超级计算机。我们可以帮助他们运营自己的超级计算机,并将其用于我们所加速的、涵盖药物发现和生物科学全领域的各种应用。
我们能够覆盖大量 TPU 做不到的应用。NVIDIA 打造 CUDA,不仅让它同样成为出色的张量处理单元,还使其能够覆盖数据处理、计算、AI 等整个生命周期。我们的市场机会要大得多,覆盖范围也广得多。因为我们如今支持全球几乎所有应用,你可以在任何地方构建 NVIDIA 系统,并且知道那里会有客户。这是非常不同的一件事。
德瓦凯什·帕特尔
这个问题会比较长。你们的营收极其惊人,而你们并不是靠制药和量子计算每个季度赚取 600 亿美元。之所以能做到这一点,是因为 AI 是一项前所未有的技术,而且正以前所未有的速度增长。
那么,问题就在于,对 AI 本身来说什么才是最好的。我并不掌握所有细节,但我和一些做 AI 研究的朋友交流时,他们会说:“你看,当我使用 TPU 时,它是一个大型的脉动阵列 ,非常适合进行矩阵乘法;而 GPU 则非常灵活。当存在大量分支,或者内存访问不规则时,它的表现非常出色。”
但什么是 AI?它不过就是这些高度可预测的矩阵乘法 ,一遍又一遍地重复进行。你无需为 warp 调度器,或线程与内存库之间的切换而牺牲任何芯片面积。而 TPU 确实针对当前正在上线的、推动营收增长和计算用例扩张的主要需求进行了优化。我想知道你对此有何反应。
黄仁勋
矩阵乘法是 AI 的重要组成部分,但并非全部。如果你想提出一种新的注意力机制,以不同方式进行解耦,或者彻底发明一种全新的架构——比如混合 SSM——你就需要一种具备通用可编程性的架构。如果你想创建一个融合扩散与自回归技术的模型,你需要的同样是一个通用可编程的架构。我们可以运行你能想到的一切。这就是优势所在。它让新算法的发明变得容易得多,因为它是一个可编程系统。
发明新算法的能力,才是真正推动 AI 如此快速进步的原因。TPU 和其他任何东西一样,都受到摩尔定律的影响,而我们知道,其提升幅度大约每年只有 25%。若想真正实现 10 倍或 100 倍的跃升,唯一的办法就是每年都从根本上改变算法及其计算方式。
这就是 NVIDIA 的根本优势。我们之所以能够让 Blackwell 相比 Hopper 实现 50 倍提升……当我第一次宣布 Blackwell 将比 Hopper 节能 35 倍时,没有人相信。后来 Dylan 写了一篇文章,说我其实还保守了,实际是 50 倍。仅靠摩尔定律,你不可能合理地做到这一点。我们解决这个问题的方式,是采用像 MoEs 这样的新模型,在整个计算系统中实现并行化、解耦和分布式部署。如果没有能力真正深入到底层,借助 CUDA 提出新的 kernels,这件事就非常难做到。
这是我们架构可编程性与 NVIDIA 作为一家深度协同设计公司的结合。我们甚至可以把部分计算卸载到互连架构本身中,比如 NVLink,或者通过 Spectrum-X 卸载到网络中。我们能够同时在处理器、系统、互连、库和算法层面推动变革。没有 CUDA 来做到这一点,我甚至不知道该从哪里开始。
德瓦凯什·帕特尔
这就引出了一个关于 NVIDIA 客户群的有趣问题。你们 60%的营收来自这五大超大规模云服务商。在另一个时代,面对另一类客户——比如做实验的教授——他们需要 CUDA。他们无法使用其他加速器。他们只需要运行 PyTorch 配合 CUDA,并让一切都完成优化。
但这些超大规模云服务商有能力自己编写内核。事实上,为了榨取其特定架构所需的最后 5%性能,他们也必须这么做。Anthropic 和 Google 大多运行自己的加速器,或者运行 TPU 和 Trainium。但即便是使用 GPU 的 OpenAI,也有 Triton,因为他们需要自己的内核。一直到底层的 CUDA C++,他们也不是使用 cuBLAS 和 NCCL,而是拥有自己的软件栈,而且还能编译到其他加速器上。如果你们的大多数客户都能够、而且确实在为 CUDA 做替代品,那么 CUDA 究竟在多大程度上仍是推动前沿 AI 在 NVIDIA 上实现的关键因素?
黄仁勋
CUDA 是一个非常丰富的生态系统。如果你想先在任何电脑上进行构建,首先基于 CUDA 来构建是非常明智的。因为这个生态系统极其丰富,我们支持每一种框架。如果你想创建自定义内核……例如,我们对 Triton 做出了巨大的贡献。因此,Triton 的后端集成了大量 Nvidia 技术。
我们非常乐意帮助每一个框架做到尽可能出色。框架有很多很多,比如 Triton、vLLM、SGLang 等等。现在又涌现出一大批新的强化学习框架,例如 verl 和 NeMo RL。随着后训练和强化学习的发展,整个领域正在迅猛爆发。所以,如果你想基于某种架构进行构建,那么基于 CUDA 构建最合理,因为你知道这个生态系统非常出色。
你知道,一旦出了问题,更有可能是出在你的代码里,而不是底层那堆庞大的代码中。别忘了,构建这些系统时,你面对的是多么巨量的代码。当某些东西无法正常工作时,问题出在你身上,还是出在电脑上?你会希望问题永远出在自己这里,并且能够信任电脑。显然,我们自己仍然有很多漏洞,但我们的系统已经经过了极其充分的打磨,至少让你能够在这个基础之上继续构建。这是第一点:生态系统的丰富性、可编程性和能力。
第二点是,如果你是一名在构建任何产品的开发者,你最想要的、也是最重要的一件事,就是装机基础。你希望自己编写的软件能够运行在大量其他计算机上。你开发软件并不是只给自己用的,而是为了你的整个机群,或其他所有人的机群,因为你是在构建一个框架。NVIDIA 的 CUDA 生态系统,归根结底就是它最宝贵的财富。
我们现在在外部署的 GPU 已有数亿块。每一家云服务商都有。从 A10、A100、H100、H200,到 L 系列 、P 系列 ,种类非常多。它们有各种各样的尺寸和形态。如果你是一家机器人公司,你会希望那套 CUDA 软件栈能够直接运行在机器人本体上。我们确实无处不在。庞大的装机基础意味着,一旦你把软件或模型开发出来,它就能在任何地方发挥作用。这一点的价值高得难以估量。
最后,我们覆盖了每一家云服务商,这一点让我们真正独一无二。如果你是一家 AI 公司或开发者,你并不完全确定会与哪家云服务提供商合作,或者希望把业务运行在哪里。我们无处不在,如果你愿意,也可以为你部署在本地。生态系统的丰富性、安装基础的广泛性,以及我们部署位置的灵活性结合在一起,使 CUDA 变得无可替代。
德瓦凯什·帕特尔
这很有道理。我想我好奇的是,这些优势是否对你们的核心客户非常重要。对很多人来说,它们或许确实重要。但真正能够自行构建软件栈的那类人,构成了你们收入的大部分。尤其是如果进入这样一个世界:AI 在那些具有紧密核实闭环的任务上变得特别擅长,并且你可以对这些任务进行强化学习……那么,如何编写一个内核,才能以最高效率在扩展型系统中完成 attention 或 MLP 计算?这是一个非常容易核实的反馈闭环问题。
所有超大规模云服务商都能自己编写这些定制内核吗?NVIDIA 仍然具备很强的性价比,因此他们可能依然更愿意使用 NVIDIA。但问题在于,这是否最终只是变成了一个比拼谁能在既定价格下提供最佳规格、最高 FLOPS 和内存带宽的问题。历史上,NVIDIA 凭借 CUDA 这一护城河,在整个 AI 领域——无论硬件还是软件——一直拥有、而且至今仍拥有最高的利润率,超过 70%。而问题是,如果对大多数客户来说,他们实际上负担得起自行构建替代方案,而不是依赖 CUDA 护城河,你还能维持这样的利润率吗?
黄仁勋
我们派驻到这些 AI 实验室的工程师数量多得惊人,他们与对方合作,优化其技术栈。原因在于,没有人比我们更了解自己的架构。这些架构并不像 CPU 那样通用。CPU 有点像一辆凯迪拉克,是很舒适的巡航座驾。它从不会开得太快,人人都能轻松驾驭。它有巡航控制,一切都很容易。但在很多方面,NVIDIA 的 GPU 和加速器更像是 F1 赛车。我可以想象,人人都能把它开到时速 100 英里,但要把它推到极限,则需要相当高的专业能力。我们还大量使用 AI 来生成我们拥有的内核。
我相当确信,在相当长一段时间内,我们仍然是不可或缺的。我们的专业能力常常能帮助 AI 实验室合作伙伴轻松将其技术栈的性能再提升 2 倍。通常情况下并不罕见:等我们完成对其技术栈或某个特定内核的优化时,他们的模型速度会提升 3 倍、2 倍,甚至 50%。这是一个巨大的增幅,尤其是考虑到他们现有的大规模装机基础,涵盖大量 Hopper 和 Blackwell。当你把效率提高一倍时,收入也会翻倍。这会直接转化为营收。
Nvidia 的计算栈在全球范围内拥有无可争议的最佳 TCO 性能表现。没有任何人能向我证明,当今世界上有任何一个平台具备更优的性能-TCO 比。没有一家公司能做到。事实上,现有的基准测试就摆在那里。Dylan 的 InferenceMAX 就公开在那里,任何人都可以使用,但没有一个……TPU 不来,Trainium 也不来。
我鼓励他们使用 InferenceMAX,展示他们惊人的推理成本。这真的很难。没有人愿意参加。MLPerf。我欢迎 Trainium 来展示他们一直声称的 40%。我也很想听他们证明 TPU 的成本优势。在我看来,这毫无道理,完全说不通。从第一性原理看,这根本没有道理。
所以我认为,我们之所以如此成功,原因很简单,就是我们的总体拥有成本非常出色。其次,你说我们 60%的客户来自前五大客户,但其中大部分业务实际上是面向外部的。比如,AWS 中的大多数 NVIDIA 业务都是服务外部客户,而不是内部使用。我们在 Azure 的大多数客户,显然也全部是外部客户。我们在 OCI 的所有客户也都是外部客户,而非内部使用。他们之所以青睐我们,是因为我们的覆盖范围非常广。我们能够把全球所有优秀客户都带给他们。这些客户全都建立在 NVIDIA 之上。而所有这些公司之所以都建立在 NVIDIA 之上,是因为我们的覆盖范围和通用性都非常强。
所以我认为,这个飞轮效应的核心,确实在于装机基础、我们架构的可编程性、我们生态系统的丰富性,以及全球有如此之多的 AI 公司。现在这样的公司已经有数以万计。如果你是这些 AI 初创企业中的一家,你会选择什么样的架构?你会选择供应最充足的架构。我们是全球供应最充足的。你会选择装机基础最大的架构。我们的装机基础最大。你还会选择生态系统最丰富的架构。
这就是飞轮效应。这也正是原因所在,综合来看:第一,我们的每美元性能极其出色,因此他们能够实现最低的 token 成本。第二,我们的每瓦性能全球最高。因此,如果这些公司之一、也就是我们的合作伙伴,建设一个一吉瓦的数据中心,那么这个一吉瓦的数据中心就必须产出最大化的收入和 token 数量,而这两者是直接对应的。你会希望它尽可能生成更多 token,把这个数据中心的收入最大化。我们拥有全球每瓦 token 产出最高的架构。最后,如果你的目标是出租基础设施,那么我们拥有全球最多的客户。所以,这就是飞轮之所以能够运转的原因。
德瓦凯什·帕特尔
有意思。我想问题归根结底在于,这里的真实市场结构究竟是什么?因为即使还有其他公司……本来也可能存在这样一种世界:有成千上万家 AI 公司,大致平分算力份额。但即便是在这五家超大规模云服务商之中,真正使用 Amazon 算力的,实际上是 Anthropic、OpenAI,以及这些大型基础模型实验室——它们本身就有能力、也有资源让不同的加速器发挥作用。
黄仁勋
不,我认为你的前提错了。
德瓦凯什·帕特尔
也许吧。但让我换个角度问你一个问题。
黄仁勋
等你回来,再让我纠正你的前提。
德瓦凯什·帕特尔
好吧。那我换个问题问你。
黄仁勋
但一定要让我回来把这个问题讲清楚并纠正,因为这对 AI 实在太重要了。它对科学的未来太重要了。它对产业的未来太重要了。这个前提……你看——
德瓦凯什·帕特尔
先让我把问题问完,然后我们再一起谈这个。
黄仁勋
对。
德瓦凯什·帕特尔
如果关于价格、性能以及每瓦性能等等这些说法都成立,你为什么认为还会出现这样的情况:比如说,Anthropic 几天前刚刚宣布与 Broadcom 和 Google 达成一项数吉瓦级合作协议 ,采购 TPU 以及他们的大部分算力?
显然,对 Google 而言,TPU 占其算力的大头。所以如果我看这些大型 AI 公司,似乎它们的很多算力……曾经有一段时间,全部都是 NVIDIA,而现在已经不是了。所以我很好奇,如果这些事情在纸面上都成立,为什么他们还会转向其他加速器?
黄仁勋
Anthropic 是一个独特的个案,不是一种趋势。没有 Anthropic,TPU 怎么会有任何增长?100%都是 Anthropic 带动的。没有 Anthropic,Trainium 又怎么会有任何增长?100%都是 Anthropic 带动的。我认为这一点相当广为人知,也很容易理解。并不是说 ASIC 机会很多。Anthropic 只有一个。
德瓦凯什·帕特尔
但是,OpenAI 与 AMD 的合作 ……他们正在打造自己的 Titan 加速器。
黄仁勋
是的,但我想我们都可以承认,他们在很大程度上仍然依赖 Nvidia。我们接下来仍会一起开展大量合作。别人使用其他方案、去做各种尝试,我并不介意。如果他们不去尝试这些其他东西,又怎么会知道我们的方案有多好?有时候,你必须重新被提醒这一点。我们必须不断证明自己配得上现在所处的位置。
总会有各种夸大的说法。看看那些已经被取消的 ASIC 项目有多少。并不是说你要做一款 ASIC 就行了……你仍然得做出比 Nvidia 更好的东西。要做出比 Nvidia 更好的产品,并没有那么容易。事实上,这并不明智。除非 Nvidia 严重遗漏了什么,否则根本不合逻辑。凭借我们的规模和速度,我们是全球唯一一家每年都能持续推出产品的公司。每一年,都是大跨越。
德瓦凯什·帕特尔
我猜他们的逻辑是:“嘿,它不一定要更好。只要别差超过 70% 就行了,”因为他们付给你的利润率高达 70%。
黄仁勋
不,别忘了,即便是在 ASIC 领域,利润率其实也相当高。比如说,Nvidia 的利润率是 70%。但 ASIC 的利润率也有 65%。你究竟能省下什么?
德瓦凯什·帕特尔
哦,你是指来自 Broadcom 之类的产品?
黄仁勋
是的,当然。你总得向某些人付钱。就我所见,ASIC 的利润率高得惊人。他们自己也这么认为。他们对自己惊人的 ASIC 利润率相当自豪。
所以,你问为什么。很久以前,我们根本没有能力这么做。当时,我并没有深刻意识到,构建像 OpenAI 和 Anthropic 这样的基础 AI 实验室会有多么困难,也没有充分认识到,它们需要来自供应商自身的巨额投资。我们当时根本无法向 Anthropic 投入数十亿美元,让他们使用我们的算力。但 Google 和 AWS 可以。他们在一开始就投入了巨额资金,因此 Anthropic 反过来使用他们的算力。我们当时并不具备这样的条件。
我会说,我的错误在于,我没有深刻意识到,他们实际上别无选择,风投绝不可能投入 50 亿到 100 亿美元去投资一家 AI 实验室,并寄望它最终成长为 Anthropic。那是我的失误。但即便我当时明白这一点,我认为我们也未必有条件这么做。不过,我不会再犯同样的错误。
我很高兴投资 OpenAI,也很高兴帮助他们扩大规模,而且我认为这样做至关重要。后来,当时机成熟、Anthropic 找到我们时,我也很高兴成为投资者,很高兴帮助他们扩大规模。只是当时我们还没有能力做到这一点。如果一切可以重来——如果那时的 Nvidia 就能像今天这样强大——我会非常乐意这么做。
00:41:06——为什么 NVIDIA 不自己成为超大规模云服务商?
德瓦凯什·帕特尔
这其实很有意思。多年来,NVIDIA 一直是 AI 领域赚钱的公司,而且赚了很多钱。现在你们开始把这些钱投出去。据报道,你们对 OpenAI 的投资最高达到 300 亿美元,对 Anthropic 的投资达到 100 亿美元。而如今,它们的估值已经上升,我相信未来还会继续上升。
所以,如果这些年来你们一直在为他们提供算力,也看到了事情将走向何方,而几年前——甚至在某些情况下仅仅一年前——他们的估值还只有现在的十分之一左右,同时你们手上又有这么多现金,那么完全存在这样一种可能:要么 NVIDIA 自己成为一家基础模型实验室,并投入巨资推动这件事成真;要么就像你们现在做的这样,在它们当前估值之前的更早阶段就达成这些交易。而你们当时是有这个财力的。所以我其实很好奇,为什么没有更早这么做?
黄仁勋
我们是在能够这么做的第一时间就这么做了。我们是在能够这么做的第一时间就这么做了;如果可以的话,我甚至会做得更早。当时 Anthropic 需要我们这么做的时候,我们只是还没有处在能够这样做的位置上。这不符合我们当时的判断和行事方式。
德瓦凯什·帕特尔
怎么会呢?是资金方面的问题吗?
黄仁勋
对,投资规模的问题。我们当时从未在公司外部进行过投资,而且更别说那么大规模了。我们当时没有意识到自己有这个必要。我一直以为,他们完全可以像所有公司那样去找风投融资,看在上帝的份上。但他们想做的事情,靠风投是做不成的。OpenAI 想做的事情,靠风投也做不成。我现在明白这一点了。只是当时我并不知道。
但这正是他们高明的地方,这也是他们聪明之处。他们当时就意识到,必须采取那样的做法。我很高兴他们那么做了。尽管这使得 Anthropic 不得不去找别人,我仍然很高兴事情是这样发展的。Anthropic 的存在对这个世界是一件好事。我由衷为此感到高兴。
德瓦凯什·帕特尔
我想,你们现在仍然赚得盆满钵满,而且是一季比一季赚得更多。
黄仁勋
有遗憾也依然没关系。
德瓦凯什·帕特尔
所以问题还是会出现。好吧,既然我们已经走到这一步,而你还在不断赚到这么多钱,NVIDIA 应该拿这些钱做什么?一种答案是,如今已经冒出了一个完整的中间商生态,把这些实验室的资本支出转化为运营支出,让它们能够租用算力。因为芯片非常昂贵,但由于 AI 模型在持续变得更好,它们在整个生命周期内又能赚很多钱。因此,它们所创造的价值、也就是生成的 token,正在不断提高,但前期部署成本很高。NVIDIA 有资金来承担这些资本支出。事实上,据报道,你们正在为 CoreWeave 提供高达 63 亿美元的担保,并已投资 20 亿美元 。
为什么 NVIDIA 不自己成为一家云服务商?为什么不自己成为一家超大规模云服务提供商,把这些算力租出去?你们手里有这么多现金可以做这件事。
黄仁勋
这是公司的经营哲学,我认为这是明智的。我们应该在必要时全力以赴,但尽可能少做不必要的事。这意味着,在构建我们的计算平台这项工作上,如果我们不去做,我真心相信它就不会被完成。如果我们不承担我们所承担的风险——如果我们没有以现在这种方式构建 NVLink,如果我们没有打造完整的技术栈,如果我们没有像现在这样建立起整个生态系统,如果我们没有在大部分时间都亏损的情况下仍然坚持投入 CUDA 长达 20 年——如果不是我们去做,就不会有别人去做。
如果我们当初没有打造出这一整套 CUDA-X libraries,让它们全部面向特定领域……十五年前,我们开始推进领域专用库,因为我们意识到,如果我们不去打造这些领域专用库——无论是用于光线追踪、图像生成,还是 AI 早期研究中的这些模型——如果我们不去做数据处理、结构化数据处理,或向量数据处理相关的库,就不会有别人去做。这一点我百分之百确定。我们还开发了一个用于计算光刻的库,叫做 cuLitho。如果不是我们做出来,也不会有别人去做。所以,如果没有我们当初所做的这些努力,加速计算就不可能像今天这样发展。
所以我们就应该这么做。我们应该全心全意地投入公司、投入我们全部的力量去做这件事。不过,世界上有很多云服务商。即使我不做,也会有别人出现。所以,遵循那套原则、那种理念——做尽可能多的事,但又尽可能少地介入——尽可能少地介入——这种理念如今仍存在于我们公司。我做的每一件事,都是从这个角度出发。
在云服务领域,如果我们当初不支持 CoreWeave 的发展,这些 neoclouds、这些 AI 云服务商就不会存在。如果我们当初没有帮助 CoreWeave 发展起来,它们就不会存在。如果我们当初不支持 Nscale,它们就不会有今天的地位。如果我们当初不支持 Nebius,它们也不会发展成今天这个样子。现在,它们的发展都非常出色。
那是一种商业模式吗[听不清]?我们应该尽可能多做必要的事,尽可能少做不必要的事。所以我们投资于我们的生态系统,因为我希望我们的生态系统蓬勃发展。我希望这种架构以及 AI 能够与尽可能多的行业、尽可能多的国家连接起来,让这个星球能够建立在 AI 之上,建立在美国技术栈之上。这一愿景正是我们正在追求的。
你刚才提到的一点是……现在有很多非常出色、令人惊叹的基础模型公司,而我们努力投资于它们所有公司。这也是我们所做的另一件事。我们不选边站,不挑选赢家。我们需要支持所有人。这是我们乐于去做的一部分,也是我们业务所必需的。但与此同时,我们也会刻意避免挑选赢家。所以当我投资其中一家时,我会投资所有这些公司。
德瓦凯什·帕特尔
你为什么要刻意避免挑选赢家?
黄仁勋
因为第一,这不是我们的职责。第二,NVIDIA 刚创立时,市面上有 60 家 3D 图形公司。我们是唯一存活下来的那一家。如果你当时把那 60 家图形公司摆在一起,问自己哪一家最终能成功,NVIDIA 一定会排在那份“不可能成功”名单的最前面。
那是在你加入很久以前,但 NVIDIA 的图形架构当时错得离谱。不是有一点错, 我们打造出的架构完全错了 ,而且对开发者来说几乎是不可能支持的。它本来就不可能成功。我们是从很好的第一性原理出发进行推演的,但最终却得出了错误的答案。所有人当时都会觉得我们没戏了。而我们如今还在这里。
所以,我有足够的谦逊去承认这一点。不要去挑选赢家。要么让他们都靠自己生存,要么就一视同仁地扶持所有人。
德瓦凯什·帕特尔
有一点我没理解。你说过:“你看,我们并不是因为这些新云厂商是新云厂商,就优先照顾他们、想要扶持他们。”但你也列举了一批新云厂商,并说如果没有 NVIDIA,它们就不会存在。这两点怎么能同时成立?
黄仁勋
首先,他们自己得想要生存下去,然后来向我们寻求帮助。当他们想要生存下去,并且拥有商业计划、专业能力以及为此投入的热情时……显然,他们自己也必须具备一定的能力。但归根结底,如果他们需要一些投资来让项目启动起来,我们会在那里支持他们。但他们越早让自己的飞轮转起来……
你的问题是:“我们是否想做融资业务?”答案是否定的。融资行业里有很多专业机构,我们更愿意与所有从事融资业务的人合作,而不是自己成为资方。我们的目标是专注于我们所做的事情,尽可能保持商业模式简单,并支持我们的生态系统。
当像 OpenAI 这样的公司在 IPO 前仍需要一笔高达 300 亿美元规模的投资时,而我们深信他们,我也深信他们将会成为一……嗯,他们今天已经是一家非凡的公司了。他们将成为一家了不起的公司。世界需要他们存在,世界希望他们存在,我也希望他们存在。他们正顺势而上。让我们支持他们,让他们扩大规模。这样的投资我们会去做,因为他们需要我们这么做。但我们并不是想尽可能多地去做,而是想尽可能少地去做。
德瓦凯什·帕特尔
这也许是个显而易见的问题,但多年来我们一直处于 GPU 短缺的局面,而现在随着模型变得越来越强,这种情况进一步加剧了。
黄仁勋
我们的 GPU 短缺。
德瓦凯什·帕特尔
是的。Nvidia 以分配稀缺产能而闻名,不只是价高者得,而是会考虑:“我们希望这些新兴云服务商能够存在。给 CoreWeave 一些,给 Crusoe 一些,再给 Lambda 一些。” 这对 Nvidia 为什么有利?首先,你是否认同这种将市场拆分的说法?
黄仁勋
不,不。你的前提就是错的。我们对这些事情有足够强的意识。我们非常重视这些事情。首先,如果你不下采购订单,世界上说再多也没有用。在我们拿到采购订单之前,我们能做什么?所以第一件事是,我们会非常努力地与所有人协作,做好需求预测,因为这些东西的制造周期很长,数据中心的建设周期也很长。我们通过预测来协调需求、供应以及诸如此类的事情。明白吗?这是头号任务。
第二,我们已经尽可能与更多人一起做预测,但归根结底,你还是得下订单。也许出于某种原因,你没有下订单。那我能怎么办?到某个时候,就只能先到先得。但除此之外,如果你还没准备好,比如你的数据中心还没建好,或者某些组件还没就绪,导致你无法把数据中心搭建起来,我们可能会决定先服务另一位顾客。这只是为了最大化我们自身工厂的产出效率。我们可能会在这方面做一些调整。
除此之外,优先顺序是先到先得。你必须先下采购订单。如果你不下采购订单……当然,现在外界有一些相关说法。比如,这一切某种程度上都始于一篇关于 Larry 和 Elon 与我共进晚餐、并在席间恳求获得 GPU 的文章 。那从未发生过。我们的确一起吃了晚餐,毫无疑问,我们确实共进了晚餐,而且那是一顿非常愉快的晚餐。他们从未在任何时候恳求获得 GPU。他们只是需要下订单。一旦他们下了订单,我们就会尽最大努力为他们提供产能。我们的规则并不复杂。
德瓦凯什·帕特尔
明白了。所以听起来是有一个排队机制,然后根据你的数据中心是否准备就绪,以及你何时下采购订单,来决定你在什么时间拿到货。但听上去仍然不是价高者得。这样做是有什么原因吗……?
黄仁勋
我们从来不这么做。
德瓦凯什·帕特尔
好的。
黄仁勋
我们从不这么做。
德瓦凯什·帕特尔
为什么不直接价高者得?
黄仁勋
因为那不是一种好的商业做法。你先定好价格,然后由客户决定买还是不买。我知道芯片行业里有些公司会在需求更高时调整价格,但我们不会。我们从来没有这样做过。你可以信赖我们。我更愿意做一个可靠的伙伴,成为这个行业的基石。你不需要反复猜测。如果我给你报了一个价格,那就是这个价格。就这么简单。即便需求暴涨,也是如此。
德瓦凯什·帕特尔
从另一个角度来说,这也是为什么你们与 TSMC 保持着富有成效的合作关系,对吧?
黄仁勋
是的,NVIDIA 与他们合作经营,我想,已经快 30 年了。NVIDIA 和 TSMC 之间并没有法律合同。双方总会有某种大致的公平。有时候我是对的,有时候我是错的;有时候我拿到了更好的条件,有时候条件没那么好。但总体而言,这段关系非常了不起。我可以完全信任他们,也可以完全依赖他们。
关于 NVIDIA,有一点是可以确定的:今年,Vera Rubin 会非常惊艳。明年,Vera Rubin Ultra 会到来。再下一年,Feynman 会登场。再往后一年,我还没有公布它的名字。你们每一年都可以指望我们。你得去世界上另找一支 ASIC 团队——随便挑一支 ASIC 团队——看看你是否能说:“我敢把全部身家押上去,我敢把整个业务都押上去,相信你们每一年都会在这里支持我。你们的单个 token 成本每年都会下降一个数量级。我对这一点的把握,就像我相信时钟会走一样。”
我刚才说了些关于 TSMC 的事。历史上没有其他任何一家晶圆代工厂能让你这样说。今天,你也可以这样评价 NVIDIA。你每一年都可以指望我们。如果你想购买价值 10 亿美元的 AI 工厂算力,没问题。如果你想买 1 亿美元,没问题。你想买 1000 万美元,或者只买一个机架,也没问题。或者只买一块显卡,也可以,没问题。如果你想下一个价值 1000 亿美元的 AI 工厂订单,也没问题。今天,全世界只有我们这一家公司能让你这么说。
我对 TSMC 也可以这么说。我想买一个,买 10 亿美元,都没问题。我们只是需要经历规划流程,以及成熟的人会做的所有事情。所以我认为,NVIDIA 能够成为全球 AI 产业的基础,这一地位是我们花了几十年才走到今天的。巨大的投入,巨大的奉献。我们公司的稳定性、我们公司的一贯性,真的非常重要。
00:57:36——我们是否应该向中国出售 AI 芯片?
德瓦凯什·帕特尔
好的。我想问问中国。其实我自己也不确定,向中国出售芯片到底是不是好事,但我喜欢站在唱反调的角度来质疑我的嘉宾。所以当 Dario 上节目时, 他支持出口管制 ,我问他,为什么美国和中国不能都在数据中心里拥有一群天才?不过既然你的立场相反,那我就换个方式来问你。
一种看待这个问题的方式是,Anthropic 实际上在几天前宣布了 Mythos Preview。这个名为 Mythos 的模型,他们甚至都不公开发布, 因为他们说它具备极强的网络攻击能力 ,以至于在确认这些零日漏洞被修补之前,他们认为世界还没有准备好。但他们表示,它在所有主要操作系统和各类浏览器中发现了数千个高危漏洞。它还在 OpenBSD 中发现了一个漏洞——这是一个专门被设计为不应存在零日漏洞的操作系统 。而它发现的这个漏洞,已经存在了 27 年。
那么,如果中国企业、中国的实验室以及中国政府能够获得用于训练像 Claude Mythos 这样具备网络攻击能力模型的 AI 芯片,并以更强的算力运行数百万个此类实例,问题在于,这是否会对美国企业以及美国国家安全构成威胁?
黄仁勋
首先,Mythos 是在相当普通的算力条件下训练出来的,而且所需规模也相当普通。当然,这是一家非同寻常的公司。但用于训练它的算力规模和计算类型,在中国都极其充足。所以你首先必须认识到,中国是有芯片的。
他们生产了全球 60%的主流芯片,甚至可能更多。这对他们来说是一个非常庞大的产业。他们拥有世界上一些最顶尖的电脑科学家。正如你所知,这些 AI 实验室中的大多数 AI 研究人员都是中国人。他们拥有全球 50%的 AI 研究人员。所以问题在于,考虑到他们已经拥有的所有资产——他们有充足的能源,有大量芯片,拥有绝大多数 AI 研究人员——如果你担心他们,怎样做才是打造一个安全世界的最佳方式?
把他们塑造成受害者、把他们变成敌人,很可能并不是最好的答案。他们是对手。我们希望美国获胜。但我认为,开展对话、开展研究层面的对话,可能才是最安全的做法。由于我们目前把中国视为对手的态度,这一领域的交流明显缺失。至关重要的是,我们的 AI 研究人员与他们的 AI 研究人员应当真正展开交流。同样至关重要的是,我们应努力就哪些用途不应使用 AI 达成共识。
至于在软件中查找漏洞,当然,这正是 AI 应该做的事情。它会在大量软件中发现漏洞吗?当然会。漏洞多得数不胜数。AI 软件本身也存在很多漏洞。这正是 AI 应该做的事情,而我很高兴 AI 已经发展到能够帮助我们大幅提升生产力的水平。
一个被低估的方面,是围绕网络安全、AI 网络安全、AI 安全、AI 隐私和 AI 安全性所形成的生态系统之丰富。整个 AI 初创企业生态都在努力为我们创造这样一个未来:一个能力惊人的 AI 代理,周围环绕着数以千计的 AI 代理,为它保驾护航,确保其安全、可靠。这样的未来无疑将会到来。
认为 AI 代理可以四处运行却无人监管,这种想法某种程度上近乎疯狂。我们非常清楚,这一生态系统需要蓬勃发展。而事实证明,这一生态系统需要开源,需要开放模型,也需要开放技术栈,这样所有这些 AI 研究人员和杰出的计算机科学家才能去构建同样强大、并能够保障 AI 安全的系统。因此,我们必须确保开源生态保持活力。这一点不能被忽视。其中很大一部分创新正来自中国。我们不应扼杀它。
谈到中国,当然,我们希望美国尽可能拥有更多算力。我们受制于能源,但已经有很多人在解决这个问题。我们必须避免让能源成为我们国家发展的瓶颈。但我们同样希望确保,全世界所有 AI 开发者都在美国技术栈上进行开发,并将 AI 的贡献与进步——尤其是在开源的情况下——带入美国生态系统。如果人为造出两个生态系统,那将极其愚蠢:一个是开源生态系统,却只能运行在外国技术栈上;另一个是运行在美国技术栈上的封闭生态系统。我认为,这对美国来说将是一个非常糟糕的结果。
德瓦凯什·帕特尔
由于涉及的事情很多,我先梳理一下这个回应。我认为,回到黑客攻击中算力差距这一点,答案是肯定的,他们确实有算力,但有一些估计认为,由于他们仍停留在 7 纳米 ——因为芯片制造出口管制而无法获得 EUV 光刻机——他们实际能够产出的浮点运算能力只有美国的十分之一。
那么基于这一点,他们最终能训练出像 Mythos 这样的模型吗?能。但问题在于,由于我们拥有更多的浮点算力,美国的实验室能够率先达到这种能力水平。因为 Anthropic 先做到了,他们会说:“好,我们会先把它保留一个月,在这期间向所有这些美国公司开放使用权限。他们会修补所有漏洞,然后我们再发布。”
此外,即便他们训练出这样的模型,能否大规模部署这种模型的能力……如果你有一个网络黑客,那他拥有一百万个这样的系统和只拥有一千个,危险程度要高得多。所以,推理算力真的非常重要。事实上,他们拥有这么多如此出色的 AI 研究人员,恰恰是最令人担忧的地方,因为究竟是什么让这些工程研究人员效率更高?是算力。
如果你去和美国任何一家 AI 实验室交流,他们都会说,限制他们发展的瓶颈是算力。这里有一些来自 引述 ,包括 DeepSeek 创始人 ,或 Qwen 管理层等等的表态。他们都说,制约他们的瓶颈是算力。那么问题来了,是否更好的做法是,让拥有更多算力的美国公司先达到 Mythos 级别的能力,并在中国因算力较少尚未达到这一水平之前,先让我们的社会为此做好准备?
黄仁勋
我们当然应该始终领先,也应该始终拥有更多。但要让你所描述的结果成为现实,就必须把情况推向极端。他们必须完全没有算力。如果他们有一些算力,问题就在于需要多少?
中国拥有的算力量级非常庞大。你说的是全球第二大计算市场所在的国家。如果他们想把算力整合起来,他们有充足的算力可以整合。
德瓦凯什·帕特尔
但这是真的吗?人们会做这类估算,然后说:“SMIC 在制程节点上其实是落后的。”
黄仁勋
我这就告诉你。
德瓦凯什·帕特尔
好。
黄仁勋
他们拥有的能源量令人难以置信。不是吗?AI 是一个并行计算问题,不是吗?既然能源是免费的,他们为什么不能把 4 倍、10 倍那么多的芯片堆在一起?他们有那么多能源。他们有一些数据中心完全空置,却已经全面通电。你知道,他们有鬼城,也有“幽灵数据中心”。他们拥有如此庞大的基础设施承载能力。如果他们愿意,即便是 7 纳米芯片,他们也可以把更多芯片集结起来。
他们的芯片制造能力位居全球前列。半导体行业都清楚,他们垄断了主流芯片。他们产能过剩,产能多得惊人。因此,认为中国将无法获得 AI 芯片的说法完全是无稽之谈。
当然,如果你问我,假如全世界其他地方根本没有任何算力,美国是否会遥遥领先?但那根本不是一种现实结果,也不是一个真实存在的情形。他们已经拥有充足的算力了。就你所担心的问题而言,他们所需达到的门槛其实早已达到,而且早已超出。
所以我认为,你误解了一点:AI 是一个五层蛋糕,而最底层是能源。只要能源充足,就可以弥补芯片的不足;如果芯片充足,也可以弥补能源的不足。举例来说,美国的能源相对稀缺,这就是为什么 NVIDIA 必须不断推进我们的架构,并进行这种极端协同设计——这样一来,在我们出货的芯片数量有限、而能源又极其受限的情况下,我们每瓦吞吐量依然高得惊人。
但如果你的电力供应极其充裕,电几乎等于不要钱,那你还会在乎每瓦性能吗?你根本不缺。你甚至可以用老芯片来做这件事。所以,7 纳米芯片本质上就是 Hopper。至于 Hopper 的能力……我得告诉你,如今的模型在很大程度上都是基于 Hopper、Hopper 这一代来训练的。因此,7 纳米芯片已经足够好。能源充裕就是他们的优势。
德瓦凯什·帕特尔
但随后又有一个问题:他们是否真的能够生产出足够多的芯片。
黄仁勋
但他们确实做到了。证据是什么?Huawei 刚刚创下公司史上业绩最高的一年。
德瓦凯什·帕特尔
他们出货了多少芯片?
黄仁勋
非常多。数以百万计。几百万,远远超过 Anthropic 所拥有的数量。
德瓦凯什·帕特尔
这里有一个问题是 SMIC 到底能生产多少逻辑芯片,另一个问题是能提供多少内存——
黄仁勋
我是在告诉你事实。他们有充足的逻辑资源,也有充足的 HBM2 内存。
德瓦凯什·帕特尔
没错。但正如你所知道的,在训练这些模型和进行推理时,瓶颈往往在于带宽的大小。所以如果你用的是 HBM2……我一时说不出具体数字,但和你们现在最新的产品相比,内存带宽的差距几乎可能达到一个数量级,这非常巨大。
黄仁勋
Huawei 是一家网络设备公司。
德瓦凯什·帕特尔
但这并不能改变这样一个事实:最先进的 HBM 仍然需要 EUV。
黄仁勋
不对。完全不对。你们可以把它们组合在一起,就像我们用 NVL72 把它们组合在一起一样。他们已经展示了硅光子技术,把所有这些算力连接成一台巨型超级计算机。你的前提就是错的。
事实是,他们的 AI 发展进展得非常顺利。世界上最优秀的 AI 研究人员,正因为算力受限,反而也能提出极其聪明的算法。记住,我刚才说过,摩尔定律每年大约推进 25%。然而,通过出色的计算机科学,我们仍然可以将算法性能提升 10 倍。我想说的是,真正的杠杆点在于卓越的计算机科学。
毫无疑问,MoE 是一项伟大的发明。毫无疑问,各种令人惊叹的注意力机制都降低了计算量。我们必须承认,人工智能领域的大多数进步来自算法创新,而不只是原始硬件。现在,如果大多数进步都来自算法、计算机科学和编程,那么请告诉我,他们那支人工智能研究人员大军怎么会不是他们的根本优势。我们看到了这一点。DeepSeek 并非无足轻重的进展。如果有一天 DeepSeek 首先在 Huawei 上推出,那对我们国家将是一个可怕的结果。
德瓦凯什·帕特尔
为什么这么说?因为目前,像 DeepSeek 这样的模型如果是开源的,就可以运行在任何加速器上。为什么未来这种情况会不再如此?
黄仁勋
假设情况并非如此。假设它是为 Huawei 优化的,假设它是为他们的架构优化的,那就会让我们的产品处于劣势。你描述的是一种在我看来属于好消息的情况:一家公司开发了软件,开发了一个 AI 模型,而它在美国技术栈上运行得最好。我认为这是好消息。你却把这设定为一个坏消息的前提。那我来告诉你什么才是坏消息:世界各地开发的 AI 模型,在非美国硬件上运行得最好。这对我们来说才是坏消息。
德瓦凯什·帕特尔
我想我只是没有看到证据表明,存在如此巨大的差异,以至于会让你无法切换加速器。美国的实验室正在所有云平台上、各种不同的加速器上运行他们的模型——
黄仁勋
我就是证据。你把一个为 Nvidia 优化的模型拿去试着跑在别的东西上。
德瓦凯什·帕特尔
但美国的实验室就是这么做的。
黄仁勋
而且它们的运行效果并不更好。NVIDIA 的成功就是最有力的证明。AI 模型是在我们的技术栈上开发出来的,也是在我们的技术栈上运行效果最佳,这有什么难理解的呢?
德瓦凯什·帕特尔
Anthropic 的模型运行在 GPU 上,也运行在 Trainium 上,还运行在 TPU 上。
黄仁勋
要改变这种局面,需要投入大量工作。但你去全球南方看看,去中东看看。如果开箱即用的情况下,所有 AI 模型在别人的技术栈上运行效果最好,那你现在就得为一个荒谬的说法辩护:这对美国是好事。
德瓦凯什·帕特尔
但我想我还是不理解这种论点。假设中国公司先到达下一个“神话时刻”。他们先发现美国软件中的所有安全漏洞,但他们可以在 Nvidia 硬件上完成这一切,然后把它推向全球南方。他们是在 Nvidia 硬件上做的。这怎么会是好事?好吧,它确实运行在 Nvidia 硬件上——
黄仁勋
这不是好事。这不是好事。
德瓦凯什·帕特尔
对。
黄仁勋
这不好。所以我们别让它发生。
德瓦凯什·帕特尔
你为什么认为这完全可以替代,也就是说,如果你不向他们提供算力,Huawei 就会原封不动地顶上?他们落后了,不是吗?他们的芯片比你们的更差。
黄仁勋
完全如此……眼下就有证据。他们的芯片产业规模非常庞大。
德瓦凯什·帕特尔
你只要看看 H200 和 Huawei 910C 在 FLOPS、带宽或内存方面的对比就知道了。后者大概只有前者的一半到三分之一。
黄仁勋
他们的用量更大,数量是原来的两倍。
德瓦凯什·帕特尔
听起来你的意思是,他们已经有了这些随时可以投入使用的能源,对吧?而他们需要用芯片把这些能源填满。
黄仁勋
而且他们很擅长制造。
德瓦凯什·帕特尔
我相信最终他们确实能够凭借制造能力超过所有人。但眼下这几年至关重要。
黄仁勋
你所说的关键年份指的是什么时候?
德瓦凯什·帕特尔
接下来的这几年。我们将拥有能够发动各种网络攻击的模型。
黄仁勋
既然未来几年至关重要,那我们就必须确保,在这段关键时期,全球所有的 AI 模型都建立在美国技术栈之上。
德瓦凯什·帕特尔
如果这些模型建立在美国技术栈之上,那一旦它们具备更先进的能力,又如何能阻止它们发起相当于 Mythos 的网络攻击?
黄仁勋
无论如何,都没有保证。
德瓦凯什·帕特尔
但如果你提前有了它,我们就能为此做好准备。
黄仁勋
听着,你为什么要让 AI 产业中的一个层级失去整个市场,好让另一个层级受益?这里有五个层级,每一个层级都必须成功。实际上,最必须成功的层级是 AI 应用。你为什么如此执着于那个 AI 模型?那一家公司?到底是为了什么?
德瓦凯什·帕特尔
因为这些模型使得那些极具攻击性的能力成为可能,而你需要算力来运行它们。
黄仁勋
能源、芯片以及人工智能研究人员生态,使这一切成为可能。
德瓦凯什·帕特尔
好,退一步说,中国必须具备足够的 7 纳米产能。别忘了,他们目前仍停留在 7 纳米,而你们将继续迈向 3 纳米,随后是 2 纳米,乃至借助 Feynman 达到 1.6 纳米。所以,当你们处于 1.6 纳米时,他们仍将停留在 7 纳米,而且他们必须生产出足够数量的芯片来弥补缺口。他们拥有如此充足的能源,以至于你给他们越多芯片,他们就拥有越多算力。因此,归根结底,这就变成了一个问题:他们最终获得了更多算力。算力是训练和推理的投入要素——
黄仁勋
听着,我只是觉得你说话太绝对了。我认为美国理应领先。美国的算力规模是世界其他任何地方的100倍。美国理应领先。好吧。美国确实领先。
NVIDIA 打造最先进的技术。我们确保美国的实验室最先获知,并拥有优先购买权。如果他们资金不足,我们甚至还会投资他们。美国理应领先。我们希望尽一切所能,确保美国领先。第一点,你同意吗?我们正在竭尽所能做到这一点。
德瓦凯什·帕特尔
但如果中国受制于算力瓶颈,向中国配送芯片又如何能让美国保持领先?
黄仁勋
不,不。我们为美国准备了 Vera Rubin。我们为美国准备了 Vera Rubin。现在,我是在美国吧?你认为我算不算美国的一部分?
德瓦凯什·帕特尔
是的。
黄仁勋
NVIDIA。你认为 NVIDIA 是一家美国公司?好。第一,为什么我们不制定一套更为平衡的法规,让 NVIDIA 能够在全球取胜,而不是把全球市场拱手让人?你为什么会希望美国把全球市场让出去?
芯片产业是美国生态系统的一部分,是美国技术领导力的一部分,是 AI 生态系统的一部分,也是 AI 领导力的一部分。为什么你的政策、你的理念,会导致美国放弃全球市场中如此巨大的一部分?
德瓦凯什·帕特尔
我想这里的核心说法是……Dario 有这么一句话 ,他说,这就像 Boeing 吹嘘“我们在向朝鲜出售核武器,但导弹外壳是由 Boeing 制造的”。而这竟然也算是在强化美国技术栈。从根本上说,你是在赋予他们这种能力。
黄仁勋
把人工智能与你刚才提到的任何东西相提并论,简直荒唐。
德瓦凯什·帕特尔
但人工智能就像浓缩铀,不是吗?它可以有积极用途,也可能有负面用途。我们仍然不希望把浓缩铀送到其他国家。
黄仁勋
谁在运送浓缩——
德瓦凯什·帕特尔
这个类比是,浓缩铀就像算力。
黄仁勋
这是个糟糕的类比。这是个不合逻辑的类比。
德瓦凯什·帕特尔
但如果这些算力能够运行一种模型,对所有美国软件实施零日漏洞攻击,那这怎么就不算是一种武器呢?
黄仁勋
首先,解决这个问题的办法,是与研究人员对话、与中国对话、与所有国家对话,确保人们不会以那种方式使用技术。这是必须进行的对话。好吗?这是第一点。
第二,我们还需要确保美国保持领先,确保 Vera Rubin、Blackwell 在美国有充足供应,多多益善,堆积如山。显然,我们的业绩结果已经说明了这一点。供应充足,大量供给。我们的算力规模非常可观。这里有非常出色的 AI 研究人员。这很好。我们应该保持领先。
然而,我们也必须认识到,AI 不只是一个模型。AI 是一个五层蛋糕。AI 产业在每一层都至关重要,我们希望美国在每一层都能取胜,包括芯片层。拱手让出整个市场,不可能让美国在芯片层、在计算栈上长期赢得技术竞赛。这就是事实。
德瓦凯什·帕特尔
我想,问题的关键归根结底在于,现在向他们出售芯片,如何能帮助我们赢得长期竞争?Tesla 长期向中国销售性能极其出色的电动汽车。iPhone 也在中国销售,产品非常优秀。但这并没有造成所谓的锁定效应。中国仍然会发展自己的电动车,而且如今已占据主导地位。他们的智能手机也是如此,占据着主导地位。
黄仁勋
我们今天开始这场对话时,你也承认 NVIDIA 所处的位置非常不同。你用了“护城河”这样的词。对我们公司而言,最重要的一点,就是我们生态系统的丰富性,而这归根结底在于开发者。全球 50%的 AI 开发者都在中国。美国不应该放弃这一点。
德瓦凯什·帕特尔
但我们在美国也拥有大量 NVIDIA 开发者,这并不妨碍美国的实验室未来也使用其他加速器。事实上,他们现在也在使用其他加速器,这完全正常,而且是好事。我不明白,为什么在中国不会是同样的情况——如果你向他们出售 NVIDIA 芯片,就像 Google 既可以使用 TPU,也可以使用 NVIDIA 一样——
黄仁勋
我们必须持续创新,而且正如你可能知道的那样,我们的份额是在增长,而不是下降。那种前提——即便我们在中国参与竞争,反正也会失去那个市场——你是在跟一个不是以失败者姿态醒来的人说话。那种失败者心态、那种失败者前提,在我看来毫无道理。
我们不是汽车。我们不是汽车。今天我可以买这个汽车品牌,明天再用另一个汽车品牌,这很容易。计算不是这样的。 x86 之所以能达成今天的局面,是有原因的。 ARM 之所以具有如此强的黏性,也是有原因的。这些生态系统很难被替代。要更换它们,需要投入极其巨大的时间和精力,而大多数人并不愿意这么做。所以,我们的职责就是继续培育这个生态系统,持续推进技术进步,让我们能够在市场中竞争。
基于你所描述的那种前提而拱手让出市场,我根本无法认同。这毫无道理。因为我不认为美国是失败者。我们的行业也不是失败者。那种失败的论调、那种失败者心态,在我看来毫无道理。
德瓦凯什·帕特尔
好吧。我继续往下说。我只是想确认——
黄仁勋
你不必往下进行。我很享受这段讨论。
德瓦凯什·帕特尔
好,太好了。那我就不继续了。谢谢你这么说。但我想关键或许在于……也感谢你陪我绕着这个问题反复讨论,因为我觉得这有助于把这里真正的关键点凸显出来。
黄仁勋
关键在于,你把问题推向了极端。你的论点是从极端情况出发的:如果我们在这个狭窄的时间窗口里给了他们任何算力,我们就会失去一切。
德瓦凯什·帕特尔
不,我认为我的论点是——
黄仁勋
那些极端看法很幼稚。
德瓦凯什·帕特尔
让我直接陈述我的观点。关键不在于是否存在某个算力门槛,而在于任何边际算力都是有帮助的。所以,如果你拥有更多算力,就能训练出更好的模型。
黄仁勋
我只是希望你承认,对美国科技产业而言,任何边际销售都是有益的。
德瓦凯什·帕特尔
我其实并不……如果运行在这些芯片上的 AI 模型具备网络攻击能力,或者这些芯片正在训练具备网络能力的模型,并运行更多这类模型实例,那它虽然不是核武器,但它会赋能某种意义上的武器。
黄仁勋
按照你的这套逻辑,你同样也可以把这种说法套用到微处理器和 DRAM 上。你甚至也可以把它套用到电力上。
德瓦凯什·帕特尔
但事实上,我们确实对制造最先进 DRAM 所涉及的相关技术实施了出口管制。我们对中国各类芯片制造相关设备和技术都设有多种出口限制。
黄仁勋
我们向中国销售了大量 DRAM 和 CPU,我认为这是正确的。
德瓦凯什·帕特尔
我想这又回到了一个根本问题:AI 是否有所不同?如果某种技术能够让他们发现软件中的零日漏洞,我们是否应当尽量降低中国率先实现这一点并大规模部署的能力?
黄仁勋
我们希望美国保持领先。我们能够对此加以掌控。
德瓦凯什·帕特尔
如果芯片已经在那里,而且他们正用这些芯片来训练那个模型,我们又如何控制呢?
黄仁勋
我们拥有海量算力。我们有大量 AI 研究人员。我们正以最快速度竞速前进。
德瓦凯什·帕特尔
再说一次,我们拥有比任何人都多的核武器,但我们不想把浓缩铀运到任何地方。
黄仁勋
我们不是浓缩铀。这是芯片,而且是他们自己也能制造的芯片。
德瓦凯什·帕特尔
但他们之所以向你们购买,是有原因的。我们拿到了中国一些公司创始人的表态,他们说自己正受制于算力瓶颈。
黄仁勋
因为我们的芯片更好。总体而言,我们的芯片更好。这一点毫无疑问。如果没有我们的芯片……你能否承认,Huawei 创下了创纪录的一年?你能否承认,有一大批芯片公司已经上市?你能否承认这一点?
德瓦凯什·帕特尔
是的。
黄仁勋
你是否也承认,我们过去曾在那个市场占据非常大的份额,而如今已不再拥有很大的份额?我们也可以承认,中国约占全球科技产业的40%。把那个市场拱手让给美国科技产业的竞争对手,是对我们国家的不负责任。是对我们国家安全的不负责任。是对我们技术领导地位的不负责任,而这一切只是为了让一家公司受益。这在我看来毫无道理。
德瓦凯什·帕特尔
我想我有些困惑。感觉你在表达两种不同的说法。一种是,如果我们被允许参与竞争,我们将在与 Huawei 的这场竞争中胜出,因为我们的芯片会好得多。另一种是,即使没有我们,他们反正也会做完全一样的事情。这两件事怎么可能同时成立?
黄仁勋
这显然是真的。在没有更好选择的情况下,你就会选择你唯一拥有的选择。这有什么不合逻辑的?这太合乎逻辑了。
德瓦凯什·帕特尔
他们之所以想要 NVIDIA 芯片,是因为它们更好。
黄仁勋
对。
德瓦凯什·帕特尔
更好意味着更多算力。更多算力意味着你可以训练出更好的模型。
黄仁勋
不,就是更好。之所以更好,是因为它更容易编程。我们的生态系统也更完善。但不管这种“更好”体现在哪里,不管这种“更好”是什么……当然,我们会向他们提供算力。那又怎样?事实是,我们能够从中受益。别忘了,我们受益于美国在技术上的领先地位。我们受益于开发者在美国技术栈上开展工作。我们还受益于这样一个事实:随着这些 AI 模型扩散到世界其他地区,美国技术栈也因此成为最适合它的选择。我们可以继续推进并扩散美国技术。我认为,这是一件积极的事情。这是美国技术领导力中极其重要的一部分。
你所主张的这些政策实际上导致美国电信业基本被政策挤出了全球市场 ,以至于我们如今连自己的电信都无法掌控。我不认为这是明智之举。这种做法有些目光短浅,并带来了我现在向你描述的那些意想不到的后果,而你似乎很难理解这一点。
德瓦凯什·帕特尔
好吧,我们先退一步看。问题的关键似乎在于,这里既有潜在收益,也有潜在成本。我们试图弄清楚的是,这种收益是否值得付出这样的成本。我想我是在试图让你承认这种潜在成本。算力是训练强大模型的一项投入。强大模型确实具备强大的进攻能力,比如网络攻击。美国公司率先达到 Mythos 级别的能力,这是一件好事;而现在它们将暂缓释放这些能力,从而让美国公司和美国政府能在这一能力水平被公开之前,先把自身的软件保护做得更完善。
如果中国拥有更多算力,或者更多群体算力,如果他们能更早打造出一个达到 Mythos 级别的模型并广泛部署,那将会非常糟糕。之所以没有发生,其中一个原因是,得益于美国像 NVIDIA 这样的公司,我们拥有更多算力。这就是把它送往中国所带来的代价。先暂且不谈好处。你是否承认,这是一项潜在成本?
黄仁勋
我还要告诉你,潜在的代价是:我们会让 AI 技术栈中最重要的层之一——芯片层——拱手让出整个市场,也就是全球第二大市场,让他们借此形成规模,让他们建立起自己的生态系统,从而使未来的 AI 模型以一种与美国技术栈截然不同的方式进行优化。随着 AI 向世界其他地区扩散,他们的标准、他们的技术栈将会变得比我们的更有优势,因为他们的模型是开放的。
德瓦凯什·帕特尔
我想,我只是足够相信 NVIDIA 的内核工程师和 CUDA 工程师,相信他们能够做出优化——
黄仁勋
正如你所知道的,AI 不只是内核优化。
德瓦凯什·帕特尔
当然,但你能做的事情还有很多,从蒸馏到打造更适配你们芯片的模型。
黄仁勋
我们会尽最大努力。
德瓦凯什·帕特尔
你们拥有全部软件。只是很难想象,即便他们暂时有一个稍好一些的开源模型,中国生态系统会因此形成长期锁定。
黄仁勋
中国是全球开源软件的最大贡献者。这是事实。中国也是全球开放模型的最大贡献者。这是事实。如今,这一切都建立在美国的技术栈之上,也就是 NVIDIA 的技术栈。这是事实。
人工智能技术栈的五个层级都很重要。美国应该赢下这五个层级中的全部。它们都至关重要。当然,其中最重要的是 AI 应用层。这个层级会渗透到社会之中,谁使用得最多,谁就将从这场工业革命中获益最多。但我要强调的是,每一个层级都必须成功。
如果我们把这个国家吓得认为人工智能某种程度上就像核弹一样,结果让所有人都讨厌人工智能、害怕人工智能,我不知道这对美国有什么帮助。这样做是在帮倒忙。如果我们把所有人都吓得不敢去做软件工程工作,因为它会消灭所有软件工程岗位——结果就是我们因此没有了软件工程师——那我们就是在损害美国的利益。
如果我们把所有人都吓得远离放射学,以至于没人愿意当放射科医生,因为计算机视觉完全免费,而且任何人工智能做得都不会比放射科医生差,那就是误解了“职业”和“任务”之间的区别。放射科医生的职业是照护病人,任务才是阅片。如果我们如此严重地误解这一点,把所有人都吓得不敢去读放射学,那我们将不会有足够多的放射科医生,也不会有足够好的医疗保健。
所以我要表达的是,当你提出一个如此极端的前提,把一切都推向零或无穷大时,我们最终会以一种并不真实的方式吓到人们。现实并非如此。我们希望美国处于第一位吗?当然希望。我们是否需要在这一技术栈的每一层都保持领先?当然需要。当然需要。今天你谈论 Mythos,是因为 Mythos 很重要。没错。这很棒。
但几年之后,我现在就作出这样的预言:当我们希望美国技术栈、美国技术能够向全球扩散——走向印度、走向中东、走向非洲、走向东南亚——当我们的国家希望出口,因为我们希望输出我们的技术,希望输出我们的标准,到那一天,我希望你我能再次进行同样的对话。我会原原本本地告诉你今天这场对话的内容,告诉你你的政策和你的设想究竟是如何毫无正当理由地让美国拱手让出了全球第二大市场。
我们不应该把它拱手让出。如果失去了,那是失去了。但我们为什么要主动放弃呢?现在没有人主张“全有或全无”。没有人主张“全有或全无”,也就是说,任何时候都把所有东西都运往中国。没有人这么主张。我们应该始终把最先进的技术留在这里。我们应该始终把最多的技术、以及最早的技术留在这里。但与此同时,我们也应该努力在全球范围内竞争并取胜。这两件事完全可以同时做到。这需要一定程度的细致权衡,需要一定程度的成熟,而不是走极端。这个世界从来就不是非黑即白的。
德瓦凯什·帕特尔
好。论点的关键在于此。他们建立的模型,是以他们几年后制造出的最先进芯片为标准来设定的。这些芯片会出口到世界各地,从而确立行业标准。正如我们所说,由于 EUV 出口管制,你们将推进到 1.6 纳米工艺,而他们即便再过几年,仍将停留在 7 纳米。
从国内情况看,这样做或许说得通——“我们有充足的能源,可以大规模制造。我们仍然会继续使用7纳米。”但在出口方面,他们的7纳米芯片必须能与你们的1.6纳米芯片竞争。他们的模型必须针对7纳米做到极致优化,以至于在7纳米上运行他们的模型,比在你们的1.6纳米上运行他们的模型还要更好。
黄仁勋
那我们就只看事实,好吗?Blackwell 的光刻工艺比 Hopper 先进 50 倍吗?有 50 倍吗?差得远。我一直在反复强调这一点。摩尔定律已经死了。在 Hopper 和 Blackwell 之间,单看晶体管本身,算 75%吧。两者相隔三年,提升 75%。但 Blackwell 的性能是 Hopper 的 50 倍。
我的意思是,架构很重要。计算机科学很重要。半导体物理也很重要,但计算机科学同样重要。AI 的影响力很大程度上来自计算栈,这就是为什么 CUDA 如此有效、如此受欢迎的原因。它是一个生态系统,是一种计算架构,具备极高的灵活性,以至于如果你想彻底改变一种架构——比如创造出 MoE,创造出 diffusion,创造出一种解耦式的架构——你都可以做到。这很容易。
所以,事实是,AI 既关乎底层架构,也同样关乎其上层的技术栈。在我们拥有针对自身技术栈、针对自身生态系统进行优化的架构和软件栈的情况下,这显然是有利的,因为我们今天一开始就在谈 Nvidia 的生态系统有多么丰富。为什么人们总是喜欢先为 CUDA 编程?他们确实如此。中国的研究人员也是如此。
但如果我们被迫离开中国,如果我们被迫离开中国,首先,这是一个政策错误。显然,这会引发反噬。事实证明,这对美国造成了不良后果。它助长了、加速了他们的芯片产业发展。它迫使他们整个 AI 生态系统转向聚焦自身的内部架构。现在纠正还为时不晚,但无论如何,这一切已经发生了。
未来你会看到,他们显然不会停留在 7 纳米。他们很擅长制造,会继续从 7 纳米向更先进制程推进。现在,5 纳米和 7 纳米之间有 10 倍的差距吗?答案是没有。架构很重要,网络也很重要。这就是为什么 NVIDIA 收购了 Mellanox。网络很重要,能效也很重要。所以,所有这些因素都很重要。事情并不像你试图概括的那样简单。
01:35:06——为什么 NVIDIA 不打造多种不同的芯片架构?
德瓦凯什·帕特尔
我们可以先不谈中国,但这其实引出了一个很有意思的问题。我们之前讨论过 TSMC 产能、内存等方面的瓶颈。
如果我们处在这样一个世界里:你们已经占据了 N3 的大部分产能——而到了某个时候,你们也会进入 N2,并占据其中的大部分——那么你是否认为,可以回到 N7,也就是较旧制程节点上的闲置产能,然后说:“AI 需求如此之大,而我们扩张最先进制程产能的能力无法满足这种需求,所以我们要基于我们今天对数值计算的全部认知,以及你所描述的其他所有改进,去制造一款 Hopper 或 Ampere?”你认为这种情况会在 2030 年之前发生吗?
黄仁勋
没有这个必要。原因在于,每一代产品的架构都不仅仅是晶体管制程的缩放。你还要进行大量工程工作,包括封装、堆叠,以及数值计算和系统架构方面的设计。
当你的产能耗尽时,还能轻松回退到另一个节点……那是任何人都负担不起的研发投入。我们承担得起向前推进。我不认为我们承受得起往回走。现在,如果世界只是说……如果就在那一天,我们来做个思想实验,就在那一天我们说:“听着,我们再也不可能获得更多产能了。”那我会不会回去用7纳米?毫不犹豫,当然会。
德瓦凯什·帕特尔
我交谈过的一个人提出了这样一个问题:为什么 Nvidia 不同时推进多个完全不同架构的芯片项目?比如,你可以做一个 Cerebras 那样的晶圆级方案;你可以做一个 Dojo 那样的超大封装;你也可以做一个不带 CUDA 的方案。你们拥有足够的资源和工程人才,可以并行开展所有这些项目。那么,考虑到谁也不知道 AI 会走向何方、架构会如何演进,为什么要把所有鸡蛋放在一个篮子里呢?
黄仁勋
哦,我们当然可以。只是我们没有更好的方案。那些事情我们都做得到,只是效果并不好。我们在模拟器里把这一切都模拟过了,并且可以证明结果更差。所以我们不会这么做。我们现在推进的,正是我们想要推进的项目。如果工作负载发生巨大变化——我指的不是算法,而是真正的工作负载,这又取决于市场形态——我们可能会决定增加其他加速器。
例如,最近我们纳入了 Groq,并将把 Groq 整合进我们的 CUDA 生态系统。我们现在这样做,是因为 token 的价值已经大幅上升,以至于 token 可以实行不同的定价。早些年,也就是仅仅几年前,token 要么是免费的,要么几乎没有成本。但现在,你会面对不同的客户,而这些客户希望得到不同的答案。由于客户能够创造巨大的收益——例如我们的软件工程师——如果我能为他们提供响应速度快得多的 token,从而让他们比今天更加高效,我愿意为此付费。
但那个市场只是最近才出现的。所以我认为,我们现在有能力基于响应时间,让同一个模型形成不同的细分市场。这就是为什么我们决定拓展帕累托前沿,开辟一个响应时间更快的推理细分领域,尽管它的吞吐量更低。到目前为止,更高的吞吐量总是更好。我们认为,未来可能会出现这样一种情况:单个 token 的平均售价非常高,即便工厂里的吞吐量较低,平均售价也足以弥补。
这就是我们这么做的原因。但除此之外,从架构角度来看,如果我有更多资金,我会更多押注 NVIDIA 的架构。
德瓦凯什·帕特尔
我认为,这种极度高端 token 的概念,以及推理市场的进一步拆分,非常有意思。
黄仁勋
这种细分。
德瓦凯什·帕特尔
是的。好,最后一个问题。假设深度学习革命没有发生,NVIDIA 会在做什么?显然还是游戏业务,但除此之外——
黄仁勋
加速计算,还是我们一直以来在做的同一件事。我们这家公司的基本前提是,摩尔定律将会……通用计算对很多事情都很好用,但对大量计算任务来说,它并不理想。
因此,我们把一种叫作 GPU 的架构以及 CUDA 与 CPU 结合起来,这样就能加速 CPU 的工作负载。不同的代码内核或算法都可以卸载到我们的 GPU 上运行。结果就是,一个应用程序的速度可以提升 100 倍、200 倍。这能用在哪里?显然包括工程、科学、物理、数据处理、计算机图形学、图像生成,以及各种各样的领域。即便今天 AI 并不存在,NVIDIA 也会是一家规模非常非常大的公司。
其原因相当根本:通用计算持续扩展的能力,基本上已经走到了尽头。而实现进一步提升的途径——当然不是唯一途径,但其中一条重要路径——就是领域专用加速。我们最早切入的领域之一是计算机图形学,但除此之外还有很多领域。种类非常多,包括粒子物理、流体、结构化数据处理,以及各种能从 CUDA 中受益的不同算法类型。
我们的使命,实际上是把加速计算带给全世界,推动那些通用计算无法胜任的应用发展,并将能力扩展到足以帮助某些科学领域实现突破的水平。早期的一些应用包括分子动力学、用于能源勘探的地震处理,当然还有图像处理,以及所有这类通用计算效率过低、根本难以胜任的领域。
如果没有人工智能,我会非常难过。但正是因为我们在计算领域取得的进步,我们让深度学习实现了民主化。我们让任何研究人员、任何科学家、任何地方的任何学生,都能够使用个人电脑或 GeForce 扩展卡,开展了不起的科学研究。这一根本承诺从未改变,哪怕一点点都没有。
如果你看 GTC,开场有很大一部分内容。那都不是 AI。关于计算光刻、我们的量子化学研究、数据处理工作,那些都与 AI 无关。但它们仍然非常重要。我知道 AI 很有意思,也确实令人兴奋,但还有很多人在做大量与 AI 无关却非常重要的工作,而张量也不是唯一的计算方式。我们希望帮助每一个人。
德瓦凯什·帕特尔
Jensen,非常感谢你。
黄仁勋
不客气。我很享受这次对话。
德瓦凯什·帕特尔
我也是。