返回首页
信息来源:notboring.co 2026.03.23 03:36 约 85 分钟 AI

世界模型:计算不可计算之事

“我本想昨晚睡着。结果我开始想象第二天可能遇到的各种情形,以及我可能如何应对它们。”

这是一个普遍的体验。作为人类,我们很容易想象,不论是复杂的体育场、可能的恋情,还是激烈的争论。我们并不需要比想象与认识多年的朋友交谈更多的努力去设想自己在下一场曼联比赛的情形,尽管想象一场曼联比赛包含对成千上万人的行为进行模拟和建模,而这对于如今的传统计算机和游戏引擎来说将需要数年时间 1.

想想写代码来描述那场曼联的比赛:在任何时刻,某个球迷可能会带来一面随机自制的旗帜。整个球场开始唱与之相关的歌曲。但并不是所有人都会跟唱;有些人会和孩子一起跳跃,而一对老夫妻静静坐着,想知道这是否是他们最后一次一起看球,默默地享受每一秒。

世界是一个意外的未来展开之地,但以某种可预测的方式展开。 作为人类,我们几乎能以相同的努力、用大致相同的时间设想出几乎所有这些未来。计算机做不到。

难怪传统计算在应对这种复杂性时显得力不从心。试想要预测并编写每一个动作以及所有这些动作之间的相互作用。在传统引擎中,从数学上讲,模拟 N 个球迷至少是一个 O(N) 或 O(N2) 问题。每个人、旗帜、椅子和球都必须被明确计算——而且,实际上,它们之间的相互作用也需要被计算。

在机器人领域,机器必须在实际世界中对情形做出相同时间量的响应,而不论其复杂程度如何,尽管在传统计算中,不同情形的模拟时间可能相差甚远。这一直是机器人和具身人工智能进展的一个主要瓶颈。

世界模型 是解决该问题的一种方案。

世界模型通过视频以及常常包含的视频中采取的行动来学习预测这些动态。它们将那些动态的、在大规模下难以模拟的情形——包括像足球比赛这样带有随机性并依赖行动的群体行为——简化为神经网络中的一次固定代价运算。

在世界模型中, 整个球场被模拟成通过神经网络一次固定代价的前向传递。场景的复杂性并不会在推理时成倍放慢“引擎”,因为权重已经在训练中吸收了世界的模式。

怎么做到的? 行动。

动作作为压缩的一种形式,用以预测展开的动态: 它们包含了展开环境中未来状态所需的信息,直到有更多动作发生并向环境中添加新的输入。每个动作都携带足够的信息来预测接下来会发生什么,直到下一个动作更新画面。

这种 “受行动驱动” 的方法使模型能够进行交互式学习与规划。如今,即便在最好的模拟引擎中,这在计算上也是难以实现的,且绝非以可预测的计算成本可行。行动帮助模型像我们一样与世界互动。

一次又一次,每一天,你观察,你计算,决定该做什么,然后行动。这就是生活。在任何时刻,关于时空的所有已收集信息都会塌缩为你采取的行动。

对于计算机而言,行动是一种绕过模拟成本的作弊码 。如果人类大脑比最先进的 LLMs 高效得多,那么我们可以通过观察人类如何应对环境中无数变量,几乎免费地获得所有那些计算。这为我们提供了一种高效进行非确定性计算的方法,并创建在传统计算约束下不应可能实现的模拟。

这种 “计算不可计算之物”的能力正是我们认为 World Models 将以当前模型架构无法做到的方式推动具身人工智能进步的原因。

把模型想象成梦。

你是否曾做过这样一个梦:你只是站着观看发生的一切,却无法干预? 那就是视频模型 

现实世界有所不同。它会对你的行为或指令做出响应,并预测可能发生的全部情况,而不仅仅是最可能或最具娱乐性的下一帧。

你是否曾做过清醒梦,在那种梦境中你能够塑造心灵生成的梦境故事? 那就是世界模型 

我写了一个对比程序,你可以在 这里 试玩。

更正式地说,标准视频模型根据概率 P(xt+1 | xt) 预测下一帧, 而世界模型则基于干预 预测下一状态,P(st+1 | st, at).

那 at 在时刻 t 的动作,是关键所在。

总体直觉中,我们认为(并已看到早期迹象)世界模型是比 LLMs 更为新颖且可能更强大的基础模型类别,适用于需要深度空间与时间推理的环境。像我们的现实世界这样的环境。

世界模型——这些通过观察世界及其中的行为而学习的系统——是一种根本上全新的基础模型。它们能够计算以前无法计算的事物。

它们的重要性将远超目前任何人的预料,因为它们提供了一条仅靠语言和代码无法实现的通向通用智能的路径。毕竟,做为人类,就是在一生中基于我们所经历、观察和学习的内容采取行动 

且慢。你或许会对这一说法感到困惑——World Models 提供了 LLMs 无法实现的通向通用智能的路径。这样的困惑是可以理解的。

World Models 最近备受关注。一直对 LLMs 是否通向通用智能持怀疑态度的 Yann LeCun 刚刚宣布 他为 AMI 募集了 10.3 亿美元。Fei-Fei Li 的 World Labs 也筹集了超过 10 亿美元以推进 World Models。拥有科技界最接近“印钞机”的 Google DeepMind 也在对 World Models 投注。但到目前为止,从这些投资中看到的主要是一些很酷的视频和 3D 世界。

LLMs 可以引用莎士比亚并解决 Erdős 问题。另一方面,World Models 目前看起来更像是通往元宇宙的路径,而不是通向通用智能的道路。

但 World Models 之所以尚未像 LLMs 那样引发热潮,部分原因在于它们的 定义仍不稳固。

什么是 World Models?我们已经说过,视频模型不符合这个定义。3D 空间模型也不符合。不过,两者都可能成为通向 World Models 的路径。如今驱动机器人运动的模型是 World Models 吗?并不完全,尽管有些确实是,即便不是的那些也与 World Model 架构共享一些特征。

一如既往,炒作只会加剧混淆。“我的预测是‘World Models’将成为下一个流行词,”AMI Labs(无疑是一家 World Model 公司)首席执行官 Alexandre LeBrun 在接受 TechCrunch 采访时表示 。“六个月后,每家公司都会称自己是 World Model 来筹集资金。”

炒作只是其中一小部分。 我们——以及在该领域构建技术的所有其他人——相信 World Models 是在物理世界中控制机器的路径。 关于这一路径将如何呈现存在分歧。但我们所有人都相信,未来将由 World Models 链接而成。

“……很少有人理解这一转变的深远意义……,”NVIDIA 机器人主管兼杰出科学家 Jim Fan 最近说 “不幸的是,目前对 World Models 最被炒作的用例是 AI 视频垃圾(接下来是游戏垃圾)。我有十足把握地打赌,2026 年将成为大型 World Models 为机器人学以及更广泛的多模态 AI 奠定真正基础的第一年。”

今天,我们希望欢迎你加入“少数几个”“理解这一转变有多深远”的人群。我们将分享 World Models 的发展史、该领域当前的状况、各大实验室所采用方法的宏观说明,以及推动 General Intuition 方向的信念。

你是否跟我们走由你决定。你服下蓝色药丸,故事就此结束。你会在床上醒来,信以为真你想信的任何事。你服下红色药丸……你将留在仙境,我们会向你展示兔子洞有多深。

例如……你如何能确信你不是一个在世界模型中运行的智能体?

智能体能在自己的“梦”中学习吗?

醒来,尼奥。

世界模型并不是新概念。它们是我们最古老的想法之一。自从人类获得了思考自身在宇宙中位置的能力,问自己为什么存在以来,我们就一直在思考我们的现实是否仅仅是一个模拟。

公元前 380 年,柏拉图通过苏格拉底提出了洞穴寓言 。想象一下生活在地下洞穴中的人类,脖子被锁链锁住,被迫目视墙上的影子。那些人会把影子当作现实,而实际上它们只是现实的影子。这是柏拉图的比喻。他认为我们都被困在洞穴中,脖子被锁链束缚,将我们的感知误认为是真实的现实。

八十年后,中国道家哲学家庄子在其一段名为 《庄周梦蝶》 的篇章中思考了类似的问题:

庄周曾梦见自己变成了一只蝴蝶,那蝴蝶飞来飞去,悠然自得,随心所欲。他不知道自己是庄周。忽然醒来,才发现自己还是那个实实在在、毫无疑问的庄周。但他不确定自己是庄周做梦变成了蝴蝶,还是蝴蝶在梦中做了庄周。庄周与蝴蝶之间必有区别!这就是所谓的物化。

随着世纪更迭与科技能力的发展,科幻作家加入了长久以来探寻现实真相的思想家行列。弗雷德里克·波尔的 1955 年作品 The Tunnel Under the World。丹尼尔·F·加卢耶的 Simulacron-3。斯坦尼斯瓦夫·莱姆的 Non Serviam。沃纳·文奇的 True Names。威廉·吉布森的 Neuromancer。尼尔·斯蒂芬森的 Snow Crash。所有这些都描绘了模拟世界的书面图景。

1977 年在法国梅斯的一次演讲中,科幻传奇人物菲利普·K·迪克自信地告诉听众 :“我们正生活在一个电脑编程的现实中,我们唯一的线索是当某个变量发生变化 2,我们的现实出现某种改变时。”

你首次接触到这种模拟的作品很可能是 《黑客帝国》。我们也是。 在 《黑客帝国》 的原始剧本中,沃卓斯基兄弟设想矩阵是由被链入神经网络的人脑集体产生的模拟世界。

无知即福

制片方认为把人类比作计算机对大众而言过于难以理解,于是他们做出了在热力学上有问题的决定——把人类变成为模拟供电的电池。那大概是个正确的商业选择。《黑客帝国》系列全球票房近20亿美元。更具影响力的是,它向大众介绍了这样一个概念:一个由模拟生成、与“现实”无法区分的世界。

难怪这个观念占据了我们的集体想象力。这固然是那种恰到好处的怪诞,但也令人惊讶地难以反驳。 如果观测相同,行为相同,那么计算也是相同的。 如果你看到的一样、你做的也一样,那么你是在模拟中还是在现实里就无关紧要了。你是在真实街道上行走还是在模拟街道上行走也无所谓。你的大脑对两者的处理完全相同。尼奥直到莫菲斯把他叫醒前都不知道自己在矩阵里。

克里斯托弗·诺兰置观众的困惑于不顾——甚至享受这种困惑——在 2010 年上映了盗梦空间 3。梦中梦再梦。

Nolan 的核心论点是,梦境是一个可控的空间,可从中提取信息,或更重要的是,向其中植入信息。

但这一切不就是科幻吗?

1990年,慕尼黑工业大学的年轻研究员尤尔根·施米德胡伯发表了《使世界可微》。

该论文提出构建一个循环神经网络(RNN, 该神经网络有两项任务:首先,学习预测模拟世界中接下来会发生的事情;其次,利用该模拟世界来训练智能体在其中行动。

智能体根本不需要与“真实”环境互动。它可以在模型内学习。在一场梦境之中。

次年,因《苦涩的教训》闻名的 Richard Sutton 提出了一个类似的想法。在《Dyna:一种用于学习、规划与反应的一体化架构》中,他主张学习、规划与反应不应成为彼此独立的系统。它们应统一在单一架构中。这意味着从技术上讲,有可能构建一个世界模型,在其中进行演练,并将学到的东西迁移回现实。

这两篇论文都具有远见。当该领域的进展使研究者的设想成为现实时,它们产生了持久影响。但在当时发表时,这两篇论文看起来几乎可以当作科幻。

1990 年,全球计算能力大约比今天少 100 万亿到 1000 万亿倍。那时,全球总计算容量可能只有 10 到 100 GFLOPS。仅在 2024 年,就售出了数十 ZettaFLOPS(10^22 FLOPS)的计算能力。1990 年,全球数字数据圈约为 10 PB,这个体量小到几乎只能容纳我们现在一次训练运行中视频数据的 0.005%。到 2026 年,这一体量已膨胀了 2200 万倍,达到 221 ZB。

但技术在进步,最强大的梦想并未消亡。

近三十年后,2018 年 3 月,David Ha(当时在 Google Brain)和 Schmidhuber 发表了一篇题为 World Models 的论文。4

论文提出了这个问题: 代理能否在自己的梦中学习?

为了解答他们自己的问题,Ha 和 Schmidhuber 构建了一个由三部分组成的虚构系统:一个视觉模型 (V),将原始像素观测压缩为紧凑表示;一个记忆模型 (M),一个学习预测下一步发生什么的循环神经网络;以及一个微小的控制器 (C),仅根据 V 和 M 的输出决定该做什么。

“世界模型”是 V + M:它可以接受观测并想象出可能的未来。控制器则是代理策略 :它选择采取哪些动作。

世界模型 + 智能体

这篇论文与那些几世纪来的思想实验、小说和电影展开了对话。梦可能是真实的,现实也可能是梦。但如果我们真的能在梦中采取行动?那会对现实产生什么影响?

Ha 和 Schmidhuber 在一款竞速游戏和一款第一人称射击游戏的观察数据上训练了他们的世界模型。世界模型生成了新的数字世界。然后,他们让智能体完全在世界模型所“幻觉”出的梦境中进行练习。随后,他们将学到的策略迁移回真实环境。

结果……成功了。智能体能够解决它在现实中从未遇到过的任务。梦境足够真实。

从计算机科学的角度看,这令人震惊。但这真有那么令人意外吗?人类不正是这样在世界中行进的吗?

Ha 和 Schmidhuber 指出人类不断在脑中运行世界模型。面对每小时 100 英里的快球时,棒球运动员必须在球的视觉信号到达大脑之前就决定如何挥棒。每次上场并非都以被三振告终的原因在于,击球手不是对现实做出反应,而是对大脑“内部世界模型”对球将落在何处的预测做出反应。

Donald Hoffman,加州大学尔湾分校认知科学教授,把这个想法推得更远。他认为我们都戴着“现实头盔”,将量子世界令人震惊的复杂性简化为用户友好的界面。现实过于丰厚,因此我们通过一种持续的清醒梦来驾驭它。

这个兔子洞能深入到你想要的任何程度。但底下全是世界模型。

Ha 和 Schmidhuber 展示了计算机可能能够像我们一样接近世界:通过创建模拟来根据行动预测未来状态,基于这些预测采取行动,然后更新并循环这一过程。

行动,而非言语。

语言不够(法典亦然)

我们来玩个游戏。

拍五下手。

现在,不要真的拍手,我要你用文字描述拍手的动作。

他们在空间中的位置,彼此之间的相对位置,以皮秒为单位。接触点。声音。当你的双手靠近、接触并分开时,它们的样子。它们如何相互挤压。你两掌之间的空气发生了什么。你在拍手时看到的景象。别忘了你的手臂。它们如何弯曲以配合拍手?也要记得以皮秒为单位描述。袖子上的布料如何反应?背景在发生什么?旁边的人注意到你在拍手了吗?他们如何回应?你因为在会议中间拍手而被解雇了吗——按照一篇你本不该在该专心工作时阅读的文章的指示去做?把你上司额头上的静脉描述给我。它在跳动吗?

你做不到,是吧?好,停。论点已经成立。

语言是对现实极其有损的压缩。

语言当然很重要。它是我们沟通与协调的方式。《你比划我猜》说明了为传达想法,语言比动作高效得多。LLMs 在这方面很重要。但单靠语言是不够的。

代码呢?代码是一种非常精确的语言形式,让机器去执行事情。

我让 Claude“为我编写一个在真实环境中拍手五次的模拟代码。”它为我构建了这个 。看上去非常痛苦。

由 Claude 生成的拍手模拟

有人认为,随着规模的增长,语言和代码将能够解决所有时空智能挑战,从而产生通用人工智能(AGI)或超人工智能(ASI)。

有人认为,代码是解决许多现实世界智能挑战的关键,因为它能够以精确的方式完美指示所有物理形态。

我们并不认同那种看法。基于代码的模拟只是对梦境的拙劣复制。它受规则约束,无法应对现实的随机混乱。

要认识世界,必须与之互动。

在 The Glass Bead Game(《玻璃珠游戏》,Das Glasperlenspiel),赫尔曼·黑塞的一部小说,使他在 1946 年获得诺贝尔文学奖,读者被介绍到卡斯塔利亚——一个致力于纯思想的未来知识乌托邦。在卡斯塔利亚的核心是一种精密的游戏,即书名中的玻璃珠游戏,它将所有人类知识综合为一种单一的形式语言。玩家像作曲赋格一样创作“游戏”。一次走子可能把巴赫的康塔塔、一个数学证明和一段孔子的语句连结起来。这个游戏是终极的抽象:把整个人类文化压缩为符号操作。

主人公约瑟夫·克内希特晋升为“Magister Ludi”(游戏大师),这是卡斯塔利亚最高的职务。但他逐渐心灰意冷。尽管这场游戏美轮美奂,却是贫瘠的 。卡斯塔利亚的知识分子们已退隐至极端抽象,以至于与现实失去了联系。他们可以以非凡的优雅来再现现实,但无法在现实中行动 

克内希特最终决定离开卡斯塔利亚,成为一名普通导师。他选择了肮脏的、有身体的、不可预测的世界,而不是完美的符号世界。他把一生奉献给了“游戏”,掌握它需要在超越语言的抽象层面上运作,更接近于世界建模。但这还不够。仅有符号而无现实接触,最终会枯竭。

大型语言模型就是我们的卡斯塔利亚人。 它们是精湛的符号操作者,能够在整个人类文本知识中建立联系。它们可以讨论物理、创作诗歌、编写代码、解释棒球规则。它们确实是人类历史上伟大的智力成就之一。

但它们完全在表征的领域中运作。它们可以描述鼓掌,但不能鼓掌。它们可以谈论重力,但它们并不了解重力,无法像蹒跚学步的孩子那样理解重力。它们不会像身体那样通过成千上万次的跌倒和绊跤来学习“下”意味着什么。

语言模型对下一个代币的预测极其准确。唯一的问题是,代币就像柏拉图洞穴墙上的影子。你无法仅靠编码把一个逼真的体育场观众群创造出来,就像你无法仅靠描述把它带到现实中一样。

真实世界是——或曾经是 —— 不可计算的 

如果语言和代码,这两项人类最强大的发明,无法充分表达我们的世界,那我们还剩下什么?

答案是世界模型

世界模型为通向通用人工智能提供另一条途径。它们提供了一条计算当今不可计算之事的路径。它们从与现实的混乱接触中学习,正如 Knecht 所追求的那样。

世界模型提供了一种高效进行非确定性计算的方法,并能够运行在传统计算限制下本不应可能的模拟。

世界模型并不能替代 LLMs。语言依然至关重要;文本可用于调节世界模型,告诉它们要想象什么场景、追求什么目标、赋予它们长期目标。思考与行动协同工作。但行动必须来自文本之外的其他来源。

Joseph Knecht 必须离开卡斯塔利亚。

真正的智能必须来自对世界的观察;来自对行动及其后果的理解;来自语言只能指示的那些事物。

可道之道,非恒道。

起初有“道”。然后人类出现,不完美且难以预测地行动。

也许事情就是如此。起初是 LLMs。随后出现了世界模型。

什么是世界模型?

世界模型在你在其中行动时模拟环境并做出响应。

更正式地说,世界模型是一种交互式预测模型,能针对动作模拟时空环境。

当 LLMs 预测句子中的下一个词时,世界模型则在给定当前状态和控制输入的条件下,预测下一个状态(即近期的未来)。

更简洁地说:LLMs 学习语言的结构。世界模型学习因果关系的结构。

这是对世界模型的一个简单定义。它是准确的,但不足以让人理解世界模型如何工作。要做到这一点,你需要知道四件事:

  1. 世界模型的作用是什么,

  2. 它们如何构建,

  3. 为什么“动作”如此重要,以及

  4. 世界模型与策略之间的关系。

世界模型的作用

想想你接球时会发生什么。你的眼睛接收一个场景:投球者的手臂、飞行中的球、风、刺眼的阳光,所有这些。从那洪量的感官数据中,你的大脑构建了一个对正在发生的事情以及关键的即将发生的事情的压缩模型。它预测球在接下来几百毫秒内的轨迹。然后它向你的手发出一个运动指令。你接住了球。整个环—— 观察、预测、行动 ——只需不到一秒的一小部分时间,且完全不涉及语言或任何“思考”。

一个世界模型在计算上做的事情相同。它接收观测(通常是视频帧,尽管也可以使用任何感官数据),构建一个对环境状态的压缩内部表示,并预测该状态在对动作作出响应时将如何变化。

本质上,它是一个学到的物理引擎,但并不依赖手写的方程。它不是从第一性原理计算重力、碰撞和摩擦,而是 “看过” 数十亿次的重力、碰撞和摩擦,并学会了其中的模式。

这使得世界模型成为构建代理 ——在环境中采取行动的人工智能系统——的强大工具。世界模型以三种方式帮助代理:

  1. 它们充当替代训练场。 代理可以在世界模型内部(基本上是在梦中)进行练习,并将所学转移回现实。这对于安全性很重要(有些事情不应在现实世界中测试或训练),也有利于成本或样本/数据效率(现实世界数据昂贵、收集成本高、不可获得、需要大量数据等)。

  2. 它们使得可以进行更长时间范围的规划。 代理可以在做出决策前“想象”不同行动的后果,就像国际象棋选手提前思考几步棋一样,只是这里的棋盘可以是任何环境或现实世界。

  3. 它们为代理提供了丰富的世界表征,供其学习行为。 在世界模型的内部表征上训练的代理学会以对在其中行动重要的特征来“看”世界,而不是原始像素。

基于这三点, 世界模型的承诺在于它们是一条通往泛化的路径。 如果你能创造出对动作的反应与现实世界相似的虚拟世界,就可以用它们来安全、经济且高效地训练具身代理,使其能在任何虚拟世界或现实世界中行动。

明确地说,这正是世界模型面临的重大问题: 模拟环境是否足够忠实于现实,使得你可以在其上训练并将这些训练迁移到现实世界, 或更一般地, 是否可以“在模拟中进行预训练”。 越来越多的证据表明,答案似乎是肯定的。

Ai2,即艾伦人工智能研究所,是由已故微软联合创始人保罗·艾伦创办并资助的非营利机构。它在开源研究和工具方面表现出色,包括最近发布的 MolmoBot——“一个为机器人学提供的开放模型套件,完全在模拟中训练。”

“我们的结果表明,模拟到现实的零样本迁移在操控任务上是可行的,”他们在推特上写道。

Dhruv Shah,普林斯顿教授兼 Google DeepMind 项目研究员,参与了该项目, 分享道 :“在易于模拟的任务范围内,单纯通过模拟训练的策略优于在数千小时真实数据上训练的最先进视觉语言代理(VLA)!”

Ai2,MolmoBot

这是一个相当惊人的发现。 我们以及更广泛的 World Models 领域的一个重要关注点,是扩大那些易于模拟任务的范围。

流程如下。首先,世界模型想象出逼真的环境和未来状态,理想情况下这些环境会像其训练所基于的真实或虚拟世界一样,对动作或指令作出响应。接着,让智能体在生成的世界中自由训练。然后,将智能体带回真实环境,测试其所学。

这就是 Ha 与 Schmidhuber 在 2018 年所展示的。这依然是该领域的核心承诺。

世界模型如何构建

世界模型相对年轻。目前尚无单一方法或其组合被证明优于他者,这意味着通用世界模型的最终架构仍是一个未解之问。不过,训练中有一些可重复的要素。

从数据开始 ;大量的观测数据。通常,观测与产生它们的动作配对。这种配对可以通过几种方式产生。观测(通常是视频)事先被收集,动作要么与之同时记录,要么事后通过另一个模型推断。或者,模型通过自身执行动作来学习,通过与环境的直接交互生成自己的观测和动作数据。

当训练数据是观测或视频时 ,原始帧作为随时间展开的环境观测。这些视频最好带有产生它们的动作标签(要么是因为同时记录,要么是通过另一个 AI 模型推断)。动作提供因果联系:某人做了什么导致环境发生变化。一个游戏片段中,玩家向左转,镜头随之移动,露出一条走廊。一段驾驶记录中,方向盘转动,汽车沿曲线行驶。一场远程操控会话里,机械臂伸出,一个杯子移动。在每种情况下,模型都看到一个之前、一个动作和一个之后。

当模型通过交互学习时 ,相同的结构适用——之前、动作、之后——但数据是实时生成的,而不是事先收集的,并且动作来自模型自身正在发展的策略,而不是外部来源。

World Model 的核心目标保持不变: 在给定当前状态和一个动作或指令的情况下,预测下一个状态。 它看到帧 t 和动作 a,并尝试生成状态帧 t+1。

但对一切都预测原始像素世界既昂贵又常常浪费。视频帧中的大多数内容在瞬间间隔内并不变化;墙壁仍在原位,天空仍然是天空。且帧内的大多数细节是冗余的;天空的颜色、墙壁的纹理都可以用更紧凑的形式来描述。

因此,现代的 World Models 涉及一个潜在空间 :一种被压缩且经过学习的表示, 仅保留最关键信息 

视觉编码器将每一帧压缩为一个紧凑向量(场景的数学指纹),模型学习在动作作用下预测下一个指纹——而不是预测 4K 帧中的每一个像素。 这就是计算效率的来源。

为了准确建模世界的演变,World Models 还必须学习表示所有可能结果的全集。这种结果的不确定性通常被称为环境的随机性 

World Models 必须学会在尚不知的事物中航行(认识论不确定性:例如,一个从未见过红绿灯的模型不会知道红灯会在黄灯之后出现)以及本质上不可知的事物(偶然性不确定性:随机性,就像掷骰子 5)。

即便模型已学到关于环境行为的一切可能知识(将其“认识论”不确定性降到最低),接下来发生的事情几乎总会存在某种内在不确定性(“偶然性”不确定性)。这与纯娱乐视频模型形成对比,后者只需能够预测世界状态的常见演变即可表现良好。

如果你使用一个简单的预测方法(例如,用均方误差或 MSE 朴素训练的模型)来预测一辆车转弯,模型可能会变得“模糊”,因为它对每种可能的结果取平均。车可能转弯并留在左车道,也可能并入右车道。实际上最小化误差的轨迹是那种不可信的情况——车停在两个车道中间。这就是所谓的模糊,不同模型以不同方式处理它。

扩散模型 通过逐步扩散直到结果来避免这个问题,使模型能够在结果分布的某一具体模态上作出承诺,采样出清晰、可信的未来而不是平均所有可能性。

自回归模型 在每个输出由多个标记组成的情况下也能处理多模态;通过一个接一个地采样标记,它们确保未来标记的预测与之前的标记一致。

JEPA 风格的架构 ,相反,通过直接绕开模糊问题来解决它。JEPA 在很大程度上避免了必须显式建模该分布,因为它根本不将表示解码回像素空间。它在一个平均化影响较小的空间中运行,因为我们并不期望这些模型去预测帧,而是期望它们开发出对下游任务有用的表征。

这一过程的产出取决于你的需求。如果你要构建一个视觉世界模拟器——一个可以观看或探索的东西——你需要通过视觉解码器将潜在预测解码回像素,从而生成对未来可能场景的想象视频。这就是 Google DeepMind 和 World Labs 的演示看起来逼真且令人印象深刻的原因。

用于训练世界模型的方法有许多种。我们将介绍这些方法,以及它们如何在该领域近八年的现代历史中相互演进和发展。

现在先记住这一点: 把观测数据输入,并配上导致这些观测发生的动作,训练 World Models 去预测下一个状态,Agents 则在这些世界中训练去预测下一个动作。

为什么动作是终极的压缩形式

这是 World Models 背后的一个关键洞见: 动作是终极的压缩形式。

想象一下当你决定向左迈一步以避开水洼时会发生什么。你正在大脑里处理视觉场景(人行道、水洼、周围行人、路缘、驶来的公交车),预测近期的未来(水洼不会移动,公交车会驶过,身后的行人会继续走),评估选项(向左迈、向右迈、跳过去、接受鞋子被弄湿),并作出选择。

外部观察者无法看到你内心深处,不知道你当时具体在想什么,也无法知道你在潜意识中在处理什么。他们不知道你是否疲惫,是否匆忙。他们不知道你的道德准则,不知道你会如何具体回答电车难题。 但他们不需要知道。 他们看到的是那几乎瞬时计算的输出:向左一步。

对我来说,这就是魔力。

当然,并非每个人都会做出正确的决定。把视频向前播放,你也能看到后果。向左一步,踩进更大的水坑。向左一步,被车擦到。向左一步,把婴儿从婴儿车里撞出来。经过数十亿次的观察、指令和动作,我们学到的并不仅是人在接收到输入后如何决定应对,还包括这些决定的后果。 集体的世界模型学会了比任何个体都更聪明地行动。

拉近到个体层面。如果你能完美重建某人的观察和动作流,你就几乎拥有了他们与现实互动的完整记录。你会知道他们看到了什么,以及他们对此做了什么。World Model 正是学习这种映射。 它将空间和时间压缩成紧凑的表征,然后用动作展开接下来会发生的事情。这正是 World Models 在计算上如此高效的原因。

这也正是为什么 World Models 能应对传统模拟无法处理的随机性的原因。要理解原因,让我们用对 World Models 工作原理的新认识,重新审视那场曼联比赛。

在传统的模拟引擎中,必须为每一种可能的行为编写代码。如果你希望一千名足球迷对进球作出逼真的反应,就需要为每种反应类型写规则。计算成本随智能体数量及其交互复杂性而增加。

在世界模型中,代价被固定为一次神经网络前向计算。那种随机、混乱的人类现实已经被学习到的权重所内化,并从模型训练所用的数百万小时视频中吸收进来。模型并不是计算人群应该做什么。它见过人群实际上会做什么,并利用这些信息给出可能的预测。

这就是我所说的世界模型为不可计算之事进行计算的含义。传统计算是确定性的:已知输入、已知规则、已知输出。现实世界并非确定性的,因此世界模型甚至不尝试把这些东西编码进去。它们观察、学习并执行,所需计算成本固定,不随场景复杂度增加而变化。

世界模型与政策

在我们进一步探讨之前,还有一个必须区分的概念,这一点在关于世界模型的典型讨论中常被混淆。

世界模型是对环境的模拟;它接收动作并生成预测观测;它向你展示如果你采取某个行动,会发生什么。

政策是代理在该环境中运作的“大脑”。它接收观测(通常还有指令)并产生动作;它决定该做什么。

世界模型是梦境。政策是做梦者。做梦者行动,梦境回应。梦境回应,做梦者再行动。

在实践中,二者之间的关系比这种区分所暗示的还要更为紧密和交织。最近的研究探讨了在 World Model 基础上训练策略,或从一开始就将二者共同构建。以 World Model 的权重为起点——一个学会预测接下来会发生什么的系统——然后,不是训练模型去预测未来的画面或状态,而是训练它去预测未来的动作。

一个学会预测世界的系统,也能更快学会如何在其中行动。理解与行动并非两种拼凑在一起的独立技能。它们是同一项技能,从不同角度观察而已。至少我们的研究,以及其他实验室的研究,正开始表明这一点。

这意味着如果你构建了足够好的世界模型,你也可以更有效地训练一个策略,在它所生成的世界中行动。

这是该领域在极短时间内学到的众多重要教训之一。事实证明,直觉和想象力是同一枚硬币的两面。

世界模型的(非常简短的)历史

一方面,总结 World Models 的现代史应该很容易。距 Ha 和 Schmidhuber 发表《World Models》不过八年。

另一方面,仅仅八年间已经发生了大量变化。期间,该领域经历了四次浪潮: 多个重要阶段,领域焦点转向优先研究新的问题。我们在此突出介绍了一些最重要的论文,不无聊的 world 订阅者可以在文章末尾下载完整的关键论文清单。

Wave 0(1990–1991)是深度学习之前的时代。研究人员首次阐明了智能体可以学习世界的内部模型并将其用于预测与规划的想法。他们提出并回答了一个问题:世界模型会做什么?

这是 Richard Sutton 和 Dyna。这是 Jürgen Schmidhuber 和 使世界可微分 。在我们拥有算力、数据或架构之前,我们有一个梦想,静待现实在梦境中迎头赶上。

第一波 ,在 2018–2019 年,提出了:“这真的能行吗?”

基于 Ha 和 Schmidhuber 的工作,第一个范式涉及使用视频自编码器(VAE)对帧进行压缩,使用循环神经网络(RNN)建模动力学,并在由此产生的“梦境”中训练策略。所以:压缩你所看到的,预测接下来会发生什么,并训练智能体在该模拟中行动。

当时的问题是,能否在想象中——梦境里——进行“学习”。研究者们尝试用小型模型和简单环境来生成概念验证结果。字面上讲, 下一个大事情最初看起来像个玩具  基于模型的强化学习用于 Atari 引入了 Atari 100k 基准:SimPLe 算法能否仅用 100,000 步真实环境交互(约两小时游戏时间)学会 Atari 游戏。

SimPLe 中的世界模型

答案是肯定的。SimPLe 学会了玩 26 款 Atari 游戏,并在样本效率上击败了竞争模型,即达到给定分数所需的步数。

但它能像人类一样下棋/操作/表现得同样好吗?

这正是推动第二波 (2020–2022 年)的那个问题: “世界模型能否达到人类水平?”

DreamerV2,由 Google DeepMind 的 Danijar Hafner 开发,迅速得出了解决方案。他们使用了一种 递归状态空间模型(RSSM),具有离散潜在表示——这是一种维持世界的压缩、持续记忆并随每次观测更新的系统。DreamerV2 成为首个在 55 款 Atari 基准游戏上达到人类水平表现的世界模型智能体 6。它完全在想象中训练,使用单张 GPU。

同年,另一支 DeepMind 团队在 《通过学习模型进行规划以掌握 Atari、围棋、国际象棋和将棋》 中发表了一篇论文,刊登在 Nature 上。论文介绍了其 MuZero 模型,该模型也击败了 Atari 游戏(以及围棋等其他游戏),但其哲学方法几乎完全相反。

来自 DreamerV2 论文的比较

而 DreamerV2 在可观测的“梦境”环境中生成并在其内部训练,MuZero 则从未生成任何可观测的东西 ,完全在它为自己发明的抽象潜在表示中进行规划,并且取得了良好效果。

它表现得如此出色,事实上超越了专为围棋设计的模型。2016 年,DeepMind 的 AlphaGo 以 4 比 1 击败了人类围棋冠军李世石。它在大量人类专家对局数据库和自对弈的基础上训练,并将游戏规则硬编码进模型。次年,AlphaGoZero 在完全依靠自对弈、没有任何人类对局数据、仅凭规则训练后以 100 比 0 战胜了 AlphaGo。同一论文季,AlphaZero 将 AlphaGoZero 的方法推广到其他游戏,如国际象棋和将棋,并在数小时内统治了这些领域。然后在 2019 年( 预印本 ),MuZero 从零开始仅通过观察和结果学习了一切,包括规则、游戏动力学和价值函数。它在围棋、国际象棋和将棋上匹配了 AlphaZero 的表现(在这些游戏中 AlphaZero 知道规则),同时还推广到 57 款 Atari 游戏(在那些游戏中“规则”甚至不是一个明确定义的概念)。

MuZero

随着每一代新模型的出现,曾由人类事先硬编码的某些内容——规则、策略、局面价值——被逐步移除。模型改为从零开始学习这些内容。MuZero 是这一演化的终点,完全通过学习得来。

而 MuZero 完全没有去想象未来的棋盘状态。它想象的是隐藏状态,或在训练过程中为自己发明的抽象向量,这些向量并不保证与任何人类可观察或可解释的事物相对应。人类观察 MuZero 对“再过三步”的内部表示,绝对无法知道它在想什么。然而……它的表现超越了此前所有的模型。

随着 MuZero 的成功,该领域现在出现了两种对立的思想流派: 产生可观测未来的生成型 World Models,和在抽象空间中进行预测的潜在 World Models,即便当时它们还未被称为“潜在”模型。

从那时起,World Models 的进展就朝着两条方向并行推进,生成式和潜在式。

在潜在方面,2022 年,Yann LeCun 以他在 Meta 和 NYU Courant 的双重身份发表了一篇范围广泛的立场论文,提出了一种与生成模型根本不同的理念,更像是 MuZero: A Path Towards Autonomous Machine Intelligence。他的新公司 World Models,AMI,即以这篇论文命名。

LeCun 的 Joint Embedding Predictive Architecture (JEPA) 认为不应完全生成像素  类似于 MuZero,JEPA 并不是预测世界将会 看起来 如何,而是预测它将会 意味着 什么。它预测未来状态的抽象表征,有意舍弃不可预测的视觉细节。

同年,在生成领域,IRIS(2022)由 Vincent Micheli 和 Eloi Alonso——两位未来 General Intuition 联合创始人——开发,将世界建模重新构想为在学习到的图像令牌词汇表上的语言建模。IRIS 没有使用循环状态空间模型,而是对离散视觉令牌采用了类似 GPT 的自回归变换器。基本上,IRIS 借用了语言模型的机制并将其应用于世界建模。

通过这样做,IRIS 弥补了此前的一些空白。IRIS 世界模型实际上是一个语言模型,但其词汇由图像和动作组成而非词语。这将缩放特性直接引入世界建模:高效的注意力机制、缩放定律,以及为大型语言模型构建的所有工程基础设施,现在都可以用于学习物理世界。

Dreamer 无法建模下一个潜在状态的联合分布(例如,处理多模态性)时,IRIS 将下一个潜在状态表示为一系列离散标记并自回归地预测,这意味着它现在能够预测多个结果。尽管 Dreamer 在使用远多于人类的数据时击败了人类,IRIS 是第一个在相同可用游戏数据量(两小时)下用想象中学习方法击败人类的。

IRIS 结果

撇开 JEPA 不谈,到目前为止大多数关于 World Models 的工作实际上都发生在游戏领域,值得在第二波与第三波之间稍作停留,以体会人工智能与游戏之间的特殊关系。

游戏在人工智能的发展中一直发挥着重要作用。克劳德·香农(Claude Shannon)1950 年的论文为计算机编写下棋程序是人工智能的奠基性文献之一。1959 年,阿瑟·塞缪尔(Arthur Samuel)的跳棋程序提出了机器学习这一概念。世界第一次意识到智能机器可以在某些领域击败人类,是在 IBM 的深蓝(Deep Blue)击败加里·卡斯帕罗夫(Garry Kasparov)下棋时。

Garry Kasparov(左),沮丧

在 DeepMind 成为一家 AI 实验室之前,Demis Hassabis 是一名游戏设计师。17 岁时,他设计了商业上成功的《Theme Park》。DeepMind 的奠基性突破详述于 DQN 论文 ,该论文于 2015 年发表在 Nature 上,展示了可以通过深度增援学习从原始像素玩转 Atari 游戏。随后在 2016 年出现了 AlphaGo,它击败了围棋世界冠军——围棋曾被认为需要那种独有人类直觉的能力,其棋盘可能的局面比宇宙中的原子还要多。

从 AlphaGo 到 AlphaFold 的路径正是通过了 World Models 所形式化的洞见。正如 Hassabis 所言 

如果我们能模仿这些玩家的直觉,那不是很不可思议吗?顺便说一句,他们只是业余生物学家。

General Intuition 的名字源自 Demis 的这句话,指向一个未来:我们的模型将在远超像素所能描述的动态、超越游戏本身的范围内,为研究提供动力,并延伸到我们的身体。

随后 DeepMind 教会了机器如何折叠蛋白质。AlphaFold 为 Hassabis 和他的 DeepMind 同事 John Jumper 赢得了 2024 年诺贝尔化学奖 

游戏当然很有趣。 但游戏不断出现的原因在于,它们是唯一能提供大量带标签的时空数据,并且这些数据具有明确的动作—结果对应、稳定的物理规律、无歧义的奖励信号以及可进行数百万次实验的受控环境的领域。 现实世界不具备这些特性。

早期的世界模型就像人类儿童,大部分时间都在观察和玩游戏。Atari 100k 基准成为世界模型研究的标准赛场,DreamerV3 曾玩过 Minecraft,许多现有的世界模型公司仍与游戏保持联系,许多世界模型是“可游玩的”。

游戏是具身人工智能的实验台。但它们只是目标的一小部分。

要使世界模型真正有用,它们需要与世界进行交互。

那是第三波 (2023–2024)。它提出了问题:“世界模型能否真正实现交互性?”

我们从驾驶中得到了第一个答案。GAIA-1(2023),由 Wayve 开发,将 IRIS 首创的序列建模方法扩展到 90 亿参数,并在真实世界的行车视频上训练。它能够根据动作(转动方向盘)、文本提示(“雨天,高速公路”)或两者生成驾驶场景。领导这项研究的 Anthony Hu 现在在 General Intuition 领导世界建模工作。

GAIA-1 证实了大家在 LLMs 中观察到的规模定律同样适用于视觉世界模型。 更多的数据和更多的参数也会为世界模型带来可预测的更好表现。这并非理所当然。它意味着前进的道路虽然昂贵但清晰:扩大规模,模型就会变得更好。

次年,DIAMOND(2024),由未来 General Intuition 的联合创始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 开发,打开了新的架构前沿。与自 IRIS 以来研究人员一直采用的将观测压缩为离散标记并自回归地预测它们的方法不同,DIAMOND 使用扩散模型直接预测未来帧 

视觉保真度有了显著提升,而这种丰富性直接转化为更好的智能体性能。那些离散标记丢弃的微妙视觉细节、能提示表面光滑、门半掩、人即将转向的小线索,证明对决策有影响——仔细想想这并不令人意外。

顺便一提,值得注意的是,许多在世界建模领域取得的开源进展都是建立在 DIAMOND 架构之上的。Multiverse,首个由 AI 生成的多人游戏,基于 DIAMOND,Alakazam——“首个‘世界模型游戏引擎’”也同样基于 DIAMOND。DIAMOND 本质上是生成式世界模型领域的 Deepseek 或 LLaMA。

DIAMOND 在 Atari 100k 上创造了新的最佳成绩,并展示了一项激发公众想象力的成果:在单个 GPU 上用大约 87 小时的 Counter-Strike 游戏录像训练,它生成了一个完全交互、可玩性的神经游戏引擎。

它表明实时运行一个交互式三维世界模型也是可能的。

由 DIAMOND 使用仅 87 小时素材生成的 Counter-Strike 环境

DIAMOND 在玩雅达利游戏方面变得非常擅长。智能体在真实游戏中进行操作并收集真实数据,用这些数据训练世界模型。然后它在世界模型合成的环境中进行自我测试,在那里变得更强,然后回到现实中进行更多真实交互,以在现实中检验自己。这个在真实与合成之间来回循环的过程,就是世界模型改进的方式,几乎就像在清醒梦中推演问题然后醒来在现实中验证一样。这就是前面提到的 Dyna 范式。

这样的循环能在现实世界条件下工作吗?

事实证明,答案也是肯定的。而且效果将非常好。

GAIA-2(2025 年 3 月)将扩散方法推进到迄今为止最雄心勃勃的应用:多摄像头自动驾驶模拟。通过结合流匹配的潜在扩散与时空分解的变换器,模型能够在以自车动力学、其他智能体轨迹、天气、时间、道路结构为条件下生成高分辨率的环视驾驶视频。简而言之, 它可以重现真实驾驶的全部复杂性 。它能够模拟在真实道路上过于危险或过于罕见、难以收集的场景:突然并线、紧急制动、行人跨出人行道的情形。

GAIAs 1 和 2 以及 DIAMOND,像 IRIS 一样,都是我们现在在 General Intuition 与之共事的研究人员的成果。像 GAIA-2 这样的扩散或流匹配模型是我们团队当前研究工作的起点。

但这并不是唯一的方法。

Google DeepMind 是该领域的核心参与者之一。他们的世界模型 Genie(2024 年)是一个 110 亿参数的模型,在未标注的 2D 平台游戏互联网视频上训练而成。它从零开始学会了动作空间;没有人告诉模型控制方式是什么。给它任何一张图像,它都能从中生成一个可玩世界。

神灯:一个全新的世界

OpenAI 的 Sora(2024,随后在 2025 年推出 Sora 2)以及 Google 的 Veo 3(2025)将视频生成推进到卓越的视觉质量,并明确将这些系统表述为“世界模拟器”。

该领域的术语有时会变得模糊不清。让我们把它弄清楚。

视频生成模型能产出优美的视觉序列,但它们并不是我们所描述意义上的世界模型。在这些视频中,你无法采取行动并实时看到环境对你干预的响应。它们预测场景随时间会如何看起来;却不建模因为你所做的事情而发生的结果。

想想看,观看某人开车的电影与亲自操纵方向盘的不同。视觉输出可能相似,但底层的计算本质上是不同的。 交互性 ,即采取行动并观察其后果的能力,正是将“世界模型”与令人印象深刻的视频区分开来的关键。

而要影响现实世界,就必须具备交互性。

这是第四波的核心问题,我们正处于当下 : “模型能否在现实世界中行动?”

也就是说:在世界模型中训练的智能体能否在研究环境之外工作,在真实车辆、真实机器人、真实部署中发挥作用?我们现在已非常接近科幻的预测。

这正是当前前沿被推进的地方。就在现在。当你读这段话的时候。

Comma.ai 在将 World Model 推向产品方面走了最直接的道路: 从世界模型中学习开车 。他们在一个学习到的世界模型内——在梦境中——完全训练了一个驾驶策略,并将其部署到 openpilot 中,这是他们的开源驾驶辅助系统,运行在由真实人驾驶的量产车辆上。经世界模型训练的策略表现超过了传统的模仿学习和在常规模拟器中训练的策略。可以说,这是首个由世界模型训练的智能体驱动的消费级产品。

在机器人领域,Meta 的 V-JEPA 2 体现了 LeCun 的潜在预测理念。该模型是迄今为止在大规模上最清晰的证明点。它是一个 12 亿参数的模型,通过自监督掩码预测在超过一百万小时的视频上进行预训练:没有标签,没有文本。在第二阶段,它仅在来自 Droid 数据集的 62 小时机器人数据上进行微调。事实证明,这足以生成一个受动作条件控制的世界模型,支持零样本规划。V-JEPA 2 已在真实的 Franka 机械臂上以零样本方式部署到新的环境中执行抓取和放置任务。它完全在潜在空间中完成所有这些规划 ,无需像素生成、无需针对特定任务的训练或手工设计的奖励。并且它速度很快 ;在像素空间方法需要数分钟来规划单个动作的情况下,V-JEPA 2 在数秒内完成。

Google DeepMind 的 SIMA 2 采取了完全不同的方法。它没有构建专用世界模型,而是对其大型基础模型 Gemini 进行了微调,使其可以直接在 3D 游戏环境中作为 Agent 工作。SIMA 2 能够就高层目标进行推理、执行复杂的多步指令、与用户对话,并能推广到未见过的环境。

它代表了一种替代范式:与其构建专门的世界模型,不如利用已经嵌入在在涵盖人类知识广度的模型中的隐含世界知识。

这是该领域的未解之问之一。采用以大型基础模型或视频模型作为 Agent 基础,而不是在世界模型中从零训练 Agent,这一路径会获胜吗?

事实上,仍有许多未解之问。同样多的 World Model 创业公司正试图去回答这些问题。

世界(模型)的现状

这就把我们带到了当下。

显而易见的是,才华横溢的研究人员和投资者都对 World Models 的潜力感到兴奋,这可以从为该领域传奇人物领导的公司提供的大规模融资回合看出。

2026 年 2 月,World Labs,由传奇研究员 Fei-Fei Li 创立, 宣布已从投资者处新筹集了 10 亿美元 ,事后估值为 54 亿美元。

不甘示弱的是,Yann LeCun 于 2025 年末创立的 AMI Labs 上周宣布 已完成 10.3 亿美元融资,估值 35 亿美元。

2025 年 10 月,我们的公司 General Intuition 宣布完成 1.337 亿美元 的一轮超大种子融资。 去年夏天,Decart 筹集了 1 亿美元 ,估值为 31 亿美元。11 月,Physical Intelligence 为其机器人基础模型筹集了 6 亿美元 ,估值 56 亿美元。 就在去年 2 月,英国自动驾驶初创公司 Wayve(其研究人员打造了 GAIA-1 和 GAIA-2) 筹集了 12 亿美元 ,估值 86 亿美元。

Google DeepMind 不需筹资,因为它由历史上最强大的商业机器提供动力,正在将资源投入到 SIMA、Genie 和 Veo,并用这些技术推动像 Waymo 这样的计划。Demis 曾公开表示,他认为 World Models 将成为 Gemini 规划能力中的重要组成部分。GDM 也正把许多这些能力整合进一个名为“Video Thinking”的团队,其背后的理由由 Shane Gu 和 Jack Parker Holder 在 GDM 的说明最为贴切。

更不清楚但更有趣的是,我们已处于这项技术发展的一个阶段——我们知道正在发生一些重大变化,但究竟哪种方法或哪些方法的组合会胜出仍不明朗。我们几乎每天都在 General Intuition 看到突破,也听闻其他实验室有所跃进的传闻。

下面给出一个可以套用于任何关于世界模型的新闻的框架。我们不会涵盖所有内容,如果遗漏了你钟爱的具身 AI,事先致歉。读者可以用一个有趣的练习,将我们遗漏的内容套入下面的框架中。

世界模型主要有三类方法: 当前的基础模型、世界模型和具身 Agent。

这里要记住的是,尽管世界模型的方法各不相同,我们的最终目标是相同的。 最终目标是产生能够在包括现实世界在内的各种环境中泛化并执行任务的 Agent。 一些 Agent 方法以 LLMs 作为跳板到达那里,另一些则从视频模型出发。还有的 Agent 方法使用世界模型作为它们的训练环境。有些 Agent 则直接从经验中学习。

和我们一起?Goed,那我们开始吧!

当前的基础模型

当前的基础模型学会了理解世界的数据,但尚未能够模拟随机的世界环境本身。它们是处理输入——文本、图像、视频——并学习预测、生成或重建的模型。但它们还不能为智能体提供行动的场所。它们不是以动作为条件的。它们不会响应或交互。它们是可以用来构建世界模型的潜在底层,或者在某些情况下,是可用于对智能体进行预训练的基础。

我们在此关注的三类垫脚石模型是大型语言模型、视频模型和三维重建模型。

大型语言模型

LLMs 从惊人的大规模文本中学到世界具有结构性。它们知道杯子被推时会掉落,知道火是热的,知道在暴雨中不带伞出门会被淋湿。它们编码了大量的因果与物理知识。但这些都不是来自于亲身经验。像数字卡斯特利安人(Castelians)一样,它们是通过阅读来了解世界,而非直接感知世界。这使得它们作为推理和规划的骨干异常有用,这也是为什么你会在我们稍后讨论的许多代理架构中看到 LLMs 的身影。但单靠语言模型无法模拟当机器人手臂去拿杯子时会发生什么。

在我们的语境中,LLMs 在讨论 VLAs(或视频语言动作模型,Video Language Action models)时尤为相关,它们利用大量投入到开发 LLMs 的研究、资金、工具和基础设施来引导能够在物理世界中执行任务的机器人。

视频模型

Sora。Veo 3。Kling。Seedance 2.0。Runway。Pika。Moonvalley。Haiper。Luma AI。

没有人会把 LLM 误认成世界模型,但很多人会将视频模型与世界模型混为一谈。

这些模型在互联网上大量视频数据上训练,本身也能生成非凡的视频。Sora 可以生成一个令人信服的镜头:一名女子走过霓虹灯下的东京街道。Veo 3 可以渲染出带有同步对话的照片级真实场景。

但你无法与它们互动。你不能在其中采取一个动作并立即看到环境做出响应。它们会预测一个场景随时间的样子,但并不尝试建模“因为你的行为而发生的事情”。

当然,界限变得模糊不清。

Odyssey 由自动驾驶重量级人物 Oliver Cameron(前 Cruise)和 Jeff Hawke(前 Wayve)创立,正在构建“一个以视频做梦的世界模拟器”。目前,他们不允许你采取某个动作并观看环境如何响应,但确实允许你在视频播放过程中实时提示以引导其方向。你会在哪里划定界限?

无论界限在哪里,这些视频模型正在变得越来越好,而且非常有趣。

真的,真的很搞笑。

视频模型还不能完全达到我们所定义的“世界模型”的程度;它们是一个垫脚石。Runway 最初是家视频生成公司——其 Gen 4.5 是市场上最好的之一——但他们得出结论,具备物理感知的视频生成是通向更大目标的一条路径。这一思路催生了 GWM-1,他们明确标注为“通用世界模型,旨在实时模拟现实”,该模型是交互式、可控且通用的。真正的价值——无论是从财务还是社会角度——不会来自于单纯的视频本身,而是来自那些将视频作为训练环境以进而控制具身系统的模型。

3D 重建与生成模型

更进一步。假如你能在视频生成模型所描绘的场景中自由穿行呢?那感觉就像一个世界,对吧?

World Labs 由传奇人物李飞飞领导,这位创造了 ImageNet 的“人工智能教母”是该类别中最有趣的例子。虽然大多数人会将“世界模型”与这家公司联系在一起,但 World Labs 当前并未构建我所定义的世界模型。

相反,在早期阶段,World Labs 专注于沉浸式虚拟世界,但并非基于动作条件的世界。其首款产品 Marble 从文本、图像、视频或 3D 布局生成并编辑持久的 3D 环境。他们称其为“多模态世界模型”。

World 实验室

Marble 到目前为止并不具有交互性,除了能够在生成的环境中移动之外。他们自己也这么说。在 Marble 的产品页面上,World Labs 将交互性描述为未来的一个机会:

未来的世界模型将允许人类和智能体以新的方式与生成的世界互动,从而在模拟、机器人及更多领域解锁更多用例。

值得注意的是,World Labs 最近开始探索那些直接生成帧的世界模型,而不是生成整个世界的底层斑块。

世界模型

我们定义的世界模型,是代理可以在其中采取行动并能实时响应的环境。它是一种模拟,一场梦境,由观测和动作数据而非手工编码学得。代理采取一个动作,世界发生变化,代理观察发生了什么。如此重复数百万次,覆盖极为多样的情形,希望最终得到一个能够泛化的代理,能够完成原始训练数据中没有出现的任务。

这是决定一切的关键区别: 世界模型是以动作为条件的 。它预测在代理执行某个动作后,世界下一步会是什么样子。

直觉很简单。仅在真实世界数据上训练的机器人见过的厨房是有限的,见过的杯子是有限的,杯子可能倒落的方式也是有限的。把它放到一个未见过的厨房,配上一个未接触过的杯子,它就会困难重重。而在世界模型中训练的机器人,原则上已经遇到过无限多的厨房,因为世界模型可以生成这些厨房。那些在现实中稀少、昂贵或危险的情形在模拟中变得常见。分布外变成了分布内。

在世界模型内部,有两种主要方法: 潜在世界模型生成型世界模型 

抱歉把你带到这么细的地方,但我想澄清一件常让人混淆的事:生成型世界模型和潜在世界模型都依赖潜在状态,但生成型世界模型依赖的是以重构目标(自编码器)设计的潜在状态,这使得帧预测成为可能,而潜在世界模型则是直接构建自预测表示。

潜在世界模型诞生于黑暗中,并仍然生活在那里;生成世界模型只是诞生于黑暗中。

潜在世界模型

潜在世界模型是 MuZero 的后裔,但被放开到像现实世界那样开放、无规则的环境中。

这是 Yann LeCun 当前的世界。Yann 在现代计算机视觉架构上开创了先河,凭借 LeNet 引入了 1990 年代的卷积神经网络(CNN) 的理念。2010 年代,他倡导自监督学习 ,认为人工为数以百万计的样本打标签无法扩展到真正的智能,模型应从原始数据中自我生成信号。2020 年代,他领导了 JEPA 团队。Yann 是个传奇。

Yann 工作中的深层主线是教会模型从原始数据中自动学习对世界有用的表征。隐空间世界模型是这一主线的最新,也许是最终的分支。

这种方法在哲学上与前面历史部分提到的视频模型或三维重建模型相反。那些方法关注生成和理解每一个像素,而隐空间世界模型(如 JEPA)则说 ne vous embêtez pas。法国人宁愿用英语和你说话,也不愿听你糟蹋他们的语言。JEPA 同样没有耐心;它不让模型在不可预测的未来每一个像素上绊脚,干脆根本不去预测像素。

正如 LeCun 所说 :“世界是不可预测的。如果你试图构建一个预测未来每一个细节的生成模型,它会失败。JEPA 不是生成式人工智能。”

相反,JEPA 学会在抽象的压缩空间中表征视频并在那里进行预测。它有意舍弃不可预测的视觉细节。这使得 JEPA 在规划和表征学习方面可能非常高效。

AMI Labs 是 LeCun 的赌注,即这种方法是通向真正智能的道路,投资者最近以 10.3 亿美元支持了他。

AMI 发布短文

潜在方法有其权衡,生成方法也同样有权衡。

LeCun 认为,那看起来像是最大的权衡——以速度换取保真度——实际上并不是权衡。他的立场是,你失去的细节恰恰是你应当失去的细节,试图预测每个像素不仅代价高昂,而且还会适得其反——模型会把容量浪费在本质上不可预测的视觉细节上,而不是学习那些对推理和规划真正重要的抽象因果结构。想象一下,如果在想象接球时你必须模拟每一束光子,你的大脑可能会崩溃。存在某个并非“每一处细节”的最优细节层次。LeCun 的论点是,对于 World Models,最优层次所需的细节比许多人(包括我们)想象的要少。

然而,还有其他权衡需要记住,LeCun 并未提及。

其一,潜在模型更难评估。你无法像查看生成视频那样直观地判断输出是否合理,它们也不能作为人机交互系统的训练场,因为人类无法在潜在空间中操作。我们需要看到世界才能在其中行动。

另一个相关缺点是,当你无法可视化预测或解释损失时,迭代速度会变慢。人类非常擅长发现视觉上的异常;我们的进化并不是为了识别未来潜在编码中的差异([0.13, -1.02, 0.44, 0.07, …],均方误差 = 0.0187)。而在现代机器学习中,迭代速度最为重要,因为现代机器学习的进展主要来自经验搜索,而不是事先知道正确的设计。

潜在模型由于类似的原因也更难训练。此外,学习目标中缺乏强监督会导致表征塌缩问题,需要一系列技巧来解决。为什么?JEPA 的目标是基于过去的编码预测未来的编码,但你可以用平凡的编码来满足这一目标(例如把所有值都设为 0,损失为 0),因此我们需要确保表征不会塌缩。

在为智能体创造训练环境时存在一个光谱。光谱一端是当前实用的做法,另一端是柏拉图式的理想。 潜在世界模型在实用 ←→ 柏拉图光谱上几乎与 VLA 相对, 我们将在下文讨论 

它们更接近研究者所认为的技术性柏拉图式理想,但在现实实践中面临真正的挑战。也就是说,像 LeJepa 这样的新方法正在缩小差距,且大量人才正涌入该领域。

Chris Manning、Ian Goodfellow 和 Fan-Yun Sun 也加入了潜在世界模型阵营,发起了 latent lab Moonlake。他们转向潜在方向的加入令人瞩目。Manning 帮助开创了神经自然语言处理领域,并共同创建了 GloVe——在变换器出现之前占主导地位的词嵌入模型。Goodfellow 发明了 GANs(生成对抗网络),这是首批能成功训练神经网络生成逼真合成数据的方法。

在最近一条 X 帖子中,Moonlake 的联合创始人解释了他们构建高效世界模型的方法。这是一种有趣的混合。

计划是生成完整的游戏环境以吸引真人玩家并收集带动作标签的数据。之后,他们在语义/符号空间而非像素上建模世界。也就是说,他们用精美的游戏环境吸引真实玩家,因为需要人类来生成带动作标签的数据。但一旦获得这些数据,他们会完全放弃像素,转而在抽象表示上训练,押注于潜在模式比视觉细节更重要。

最终,我们并不认为潜在模型和通用模型是相互对立的。Moonlake 的混合方法就是证据。它们只是服务于不同的目标。潜在世界模型通常计算效率更高,因为它们会丢弃部分信息,这对表示学习和规划有利。生成式世界模型应当更通用,理论上它们能捕捉所有视觉信息,这有利于可解释性和泛化能力。两者都可以用于多种用途,包括用增援训练智能体。

现在,让我们转向生成式世界模型。

生成式世界模型

生成型世界模型是我们所知最接近模拟人类感知现实的事物。如果我们的世界是一个模拟,它很可能是某种类型的生成型世界模型。

这是我们 General Intuition 主要专注的范式,用于构建我们的世界模型,以便策略在其中学习。这也是当 Google DeepMind 发布 Genie 3 时不久前震惊全世界的那一种。

该视频——以及如果你有机会试玩 Genie 3,本人也能让你直观感受——会让你体会到生成世界模型的不同之处。它们是交互式的。 它们会响应。

它们生成可被人类观察到且可交互的未来场景,你可以看到、在其中行动并从中学习。你可以看出模型认为接下来会发生什么。模型接受一个状态和一个动作,产生一个合理的下一个状态,你可以再次在该状态中采取行动。基于更新后的状态和新的动作,它会产生下一个合理的下一个状态,依此类推。人类可以查看输出并说:“不对,墙不会那样弯曲”或“是的,这正是在高速转动方向盘时发生的情况。”

生成世界模型直接以像素、视频或三维场景预测观测结果,使智能体和人类能够与模拟环境互动。理想是可见且可玩。

这在许多情况下改善了训练循环。无论是生成模型还是潜在模型都可以在想象中学习。然而,当视觉细节重要,或下游任务尚未明确时,具有像素级细节的生成世界模型学习往往表现更佳。

只有当生成的环境足够丰富可供学习时,这才有效。生成世界与现实越远,智能体学到的教训就越糟,回到真实“游戏”时的表现也越不理想。这正是 DIAMOND 所展示的:当生成世界具有更多细节时,智能体更聪明。

在 General Intuition,我们基于这种扩散与流匹配架构进行构建。该架构部分由现为我们联合创始人的研究人员开发,他们打造了 IRIS、DIAMOND 和 GAIA-2。

Wayve,GAIA-1 和 GAIA-2 的诞生地,是自动驾驶生成式世界模型的领先者。通过在车外使用大型潜在扩散世界模型,他们旨在“梦”出那些在现实中需要数百万行驶里程才能发现的极端情况,在这些情形上训练驾驶策略, 在模拟中评估这些驾驶策略的表现,然后将这些梦境般的经验蒸馏成更小的车载策略,使其能够在真实时间内推理处理相同场景。下面的推文展示了 Wayve 在该系列最新一集中如何零样本在日本道路上驾驶的演示。

Decart 正在将生成式世界模型应用于实时生成式仿真,打造可响应用户行为的可游玩世界。它是生成式视频模型或三维重建模型的可游玩版本。在 Oasis 登陆页面 上,称该模型为“视频模型”,但随后做出如下区分:“你迈出的每一步都将实时重塑你周围的环境。”

有趣的是,Decart 目前在 Nvidia GPU 上运行,但计划使用 Etched Sohu 芯片 。Etched 芯片是为运行 transformer 设计的定制 ASIC,能够让 Decart 改善延迟并运行连续推理——在实时生成响应性世界时,这两点比事先生成视频或 3D 渲染要重要得多。

秀场也在模糊视频生成与世界生成之间的界限,正如视频模型一节所提到的。在其 2025 年研究演示日上,秀场联合创始人兼首席技术官 Anastasis Germanidis 解释了公司从 “生成式人工智能模型[作为]可行的创意表达工具” 开始的发展演变。随后它们演进到了世界模型(同时在视频模型方面取得了令人难以置信的进展 )。

“要构建一个世界模型,”Germanidis 解释道,“我们首先需要构建一个非常出色的视频模型。我们相信这是构建世界模型的正确路径,教模型直接预测像素是实现通用模拟的最佳方式。”

Google DeepMind 采用了类似的方法;Genie 3 构建在 Veo 之上。

这些世界模型极其重要。但请记住,它们只是等式的一半。自始至终,无论是 1990 年的 Schmidhuber 还是 1991 年提出 Dyna 的 Sutton,计划都是使用世界模型训练智能体在世界中行动,然后将这些经验迁移到现实世界中。

具身代理

我们想分享当前一些主要的具身智能体示例及其各自的方法:Physical Intelligence 及其他机器人公司 的 VLA 视觉-语言-动作模型),DreamerV4 的潜在世界模型智能体,Google DeepMind 的 Sima2 通用具身智能体,以及 General Intuition 的通用智能体方法。

Physical Intelligence – 视觉-语言-动作模型(VLA)

现代的多模态 LLMs 附带一种称为 VLM,或视觉-语言模型 的模型,这种模型能看能读。给它一张图像和一个问题,例如“桌子上有哪些物品?”或“这扇门是开着还是关着?”,它就能给出连贯且有依据的答案。

GPT-5、Gemini 和 Claude 在这个意义上都是 VLMs;它们能看能推理。把一张山的照片发给它并让它进行地理定位时,正是在使用它的 VLM。VLMs 也是大多数旨在在物理或交互环境中运行的现代代理系统(如 PaLM-E 或 SpatialVLM)的感知与推理骨干。

VLMs 并不完全等同于代理(Agents),但它们是大多数代理的核心组件。我们提到它们是因为 VLA 是学会行动的 VLM,它是实用主义者对代理问题的答案。

2023 年,Google DeepMind 发表了一篇名为 RT-2: Vision-Language-Action Models: Transfer Web Knowledge to Robotic Control 的 纸,提出了一种解决方案。

选取一个能理解场景及其中动作的 VLM,然后再加上一个动作头 ,将人类语言指令翻译成机器人能理解的指令,比如改变位置或旋转。

Google DeepMind、RT-2

从那以后,VLA 已成为机器人学中的主导范式,而且它们出乎意料地表现良好。

我们正在讨论的其他每一种范式都会说类似的话:“图像、视频、空间和动作与文字在本质上不同。我们需要用不同的训练方式和架构去构建生成它们的模型,而不是生成文字的模型。”

视觉-语言-动作模型(VLA)表示:“这可能是真的!那些方法在理论上或许更好。但在实践中这不重要,因为视觉-语言模型的基础设施和数据领先太多了。”

在他那篇不枯燥的机器人入门中,Standard Bots 的 Evan Beard 写了一篇关于机器人领域 VLAs 的详尽说明 ,其中他提出了一个他称之为“辛辣观点”的论断:

我们并不是因为语言模型基础设施是机器人学的完美架构而使用它。 而是因为作为一个物种,我们已在构建 LLM 基础设施上投入了数万亿美元和无数工程小时。复用那台机器的诱惑极大。

因此,尽管并不完美,将 LLM 与一个用于预测机器人动作的动作头结合(统称为 VLA)仍是训练基础模型的最佳方式,这些基础模型通过多个不同客户和任务的示范学习许多技能。

这个想法相当巧妙。当然,这种方法也有挑战,Evan 指出 

  • 到目前为止,机器人领域的成功在很大程度上依赖于扩散式控制
  • LLMs 是自回归且基于代币的,错误空间更小
  • 物理动作无法干净地映射到标记

另外,与 World Models 相比,VLA 需要收集大量真实世界的机器人数据;它们在分布外泛化方面似乎并不特别出色。

话虽如此,Physical Intelligence,简称 π 或 Pi,凭借其对 VLA 的押注取得了惊人的进展。

Pi 的首个通用策略,π₀:我们的第一个通用策略 ,通过互联网规模的预训练继承了语义知识和视觉理解,并在来自七种不同机器人平台的 68 项独特任务数据上进行训练,任务包括叠衣服、清理餐具、布线、装配纸箱和打包杂货,这些都需要在真实硬件上的现实世界灵巧操作。他们的后续工作,π₀.5:具有开放世界泛化能力的 VLA,在新环境中表现更佳,例如在模型从未见过的住宅中清理厨房或卧室。

好,但它能否在真实世界工作并犯错的过程中不断学习并随时间变得更好?

2025 年 11 月的 π*0.6:从经验中学习的 VLA 表明这是可能的,论文展示了如制作浓缩咖啡  折叠纸箱叠衣服等任务的示范。

但那些都是简单、重复的任务。机器人看到的大部分情况都是分布式的。它能否真正完成更复杂的、多步骤且耗时较长的任务?

本月初,Pi 发布了具有长短期记忆的 VLAs,并展示了使用 MEM(多尺度具身记忆)的机器人可以打扫整个厨房、准备一道食谱的配料,并烤制一份烤奶酪三明治。它们还可以从错误中学习。

一个机器人试图夹起一根筷子或打开冰箱门。没有记忆时,它会以同样的方式反复失败。每次尝试都是一张白纸,无法知道刚才哪里出了问题。有了记忆,它在第一次失败后会尝试不同的方法。最终它成功了。

MEM 并没有改变底层架构,而该架构对于具身系统仍然不是最优的。大多数参数仍然保留在语言主干中。动作头仍然处于推理的下游。但物理智能的存在提出了一个引人入胜的问题。 这些架构限制在实际中真的重要吗?

如果潜在世界模型位于柏拉图式←→实用性光谱的一端,VLAs 则位于另一端。

到目前为止,Pi 已能通过工程手段规避架构限制,制造出越来越有能力的机器人。他们的进展没有放缓,反而似乎在加速。

他们下的是一笔有历史先例的赌注。理想技术——在技术上更优的解决方案——并不总是获胜。这是 W. Brian Arthur 1989 年论文《Competing Technologies, Increasing Returns, and Lock-In by Historical Events》的关键结论 。市场常常收敛到最先被采用的技术,因为采用会产生递增收益:早期更好的产品带来更多用户和更多资本,而这又带来更好的数据、更多内部人才和更多开发者,从而带来更好的产品,进而带来更多用户和资本,周而复始。

这也是 Sara Hooker 2020 年论文《The Hardware Lottery》的观点: 硬件彩票 “本文引入术语‘硬件彩票’,用以描述某个研究想法之所以获胜,是因为它适配现有的软件和硬件,而不是因为该想法优于其他研究方向。”

从外部看,Pi 的策略似乎是乘着变换器架构的递增回报,并试图自建回报,以在 World Model 特定架构获得牵引力之前通过 VLA 形成路径依赖,试图赢得属于自己的硬件彩票。

他们并不是唯一押注这一方向的公司。Skild,最直接的竞争对手,正在构建基于 VLA 的产品。许多机器人公司以或多或少的方式整合了 VLA 和 VLM。现在,看来这种方法正扩展到整个工厂。

最近, 华尔街日报报道 ,前 OpenAI 首席研究官 Bob McGrew 正在为他的新创公司 Arda 筹集 7000 万美元,估值 7 亿美元,领投方为 Founders Fund 和 Accel,参与方还有 Khosla 和 XYZ。细节尚少,但华尔街日报的描述听起来至少在某种程度上会涉及 VLM 和 VLA:“Arda 正在开发一个 AI 和软件平台,包括一个可以分析工厂车间视频并利用这些视频训练机器人以实现工厂自主运行的视频模型。”

在这一方向上行动的公司资金越充足、人才越优秀,道路就越容易成形。

就我个人而言,我并不认为 VLA 和世界模型是真正互相竞争的。它们正从不同方向尝试实现对物理世界的操控。VLA 以语言为先,而世界模型则以视频和动作为先。我猜它们最终会趋同,并共同成为解决方案的一部分。

Dreamer V4 —— 潜在世界模型代理

潜在世界模型智能体是指在潜在世界模型中训练的智能体。潜在方法在智能体训练方面具有一种天然的简洁优雅。

由于潜在世界模型在压缩的抽象空间中运行,智能体的规划和策略学习可以非常高效地进行,无需生成像素。智能体基本上通过“思考”来练习,就像国际象棋特级大师在脑海中演算变招而不移动棋子,或清醒梦者在梦中进行训练的方式一样。

典型例子是 Danijar Hafner(现任 Google DeepMind)的 Dreamer。Dreamer 的观点很简洁:如果你有一个足够好的潜在世界模型,训练时根本不需要接触真实环境。智能体完全在潜在空间中想象一系列动作及其后果,接收奖励信号并更新政策,整个过程不进行任何现实世界的交互。等它最终进入真实环境时,已经知道该怎么做。

Dreamer 在广泛的任务上取得了显著成果,从游戏到连续控制再到机器人,全部来自这种纯粹的想象式训练。它是“世界模型训练可行”的研究概念验证,证明 Agent 可以通过做梦来学习在现实世界中行动。看起来 Hafner 正在把他的研究概念推向商业化。本月早些时候,The Information 报道 说他与 Wilson Yan 正在筹集 1 亿美元,建立一个在该范式下的世界模型公司,名为 Embo,这表明他们正瞄准具身系统。

与潜在世界模型普遍面临的挑战相同,代理学到的行为取决于潜在表征的质量。如果世界模型的抽象编码遗漏了某些因果上重要的东西——比如决定机器人是否打滑的地板精确纹理,或决定是否能抓住物体的精确角度——代理就不会知道要关注这些,因为模型没有对其进行编码。输入垃圾,输出垃圾,但这些垃圾是看不见的。

Moonlake 的混合方法(我们前面讨论过)就是试图在这两者之间找到平衡:用优美的生成环境吸引人类来收集带有动作标签的数据,然后丢弃像素,在抽象空间中训练 Agent。用生成的世界来获取数据。用潜在世界来进行学习。这是一个有趣的押注,即这两种方法更互补而非互相竞争,而且它可能会被证明是正确的。

值得注意的是,我们还没有看到 JEPA Agents(JEPA 代理)。JEPA 是一种 World Model 架构,不是 Agent 架构,但我们预计 AMI Labs 会把这两者对接起来。AMI 仍在构建其 World Model,且在其中训练的代理尚未公开展示,但我们正在密切关注。

通用具身代理

SIMA2——基于 VLM 骨干的通用具身代理

2025 年 11 月,Google DeepMind 发布了 SIMA 2: An Agent That Plays, Reasons, and Learns with You in Virtual Worlds

SIMA 2 将 Gemini 主干与在 3D 游戏环境上训练的世界模型相结合,使该 Agent 拥有理解语言以接收和推理目标的能力,以及执行这些目标所需的时空理解。在这一架构中,Gemini 扮演了我们系统中 VLM 所担任的角色。

与 VLA 不同的范式在于“公民权”的方向。在 VLA 中,语言是一等公民,图像是二等公民。除了模态的排序之外,还有训练数据的差异,主要是静态图像与文本交错。在装备了世界模型的 Agent 中,视频是一等公民,动作从一开始就被引入,训练数据与我们期望的下游行为直接对齐。Agent 的基本能力是时空性的。如果你告诉它需要做什么,它就知道如何在世界中移动以完成任务。

SIMA 2 可以自主玩游戏。它可以学习、推理并改进。它玩的越多,变得越好,不仅在它已经玩的游戏中表现更佳,也能在任何游戏中表现提升。它甚至能够在被投放到的任意生成的世界中进行游玩,即便它以前从未见过该世界。Google DeepMind 认为,这“是朝着创造能够在任何地方帮助完成任何任务的人工智能迈出的一步,包括有一天在现实世界中。”

Google DeepMind 发布了大量研究成果。他们在多方面推进了世界模型和具身人工智能的发展。他们创造了“VLA”一词。他们发布了 Genie 3。他们开发了 SIMA 2。他们训练 AlphaGo 的方式——让智能体一次又一次与自己对弈——影响了直到今天世界模型的训练方法。

通用直觉——来自动作与世界模型的通用型智能体

与 Google DeepMind 类似,我们也认为通用型智能体将在具身系统如何执行有用任务方面发挥重要作用。

首先,创造梦境。然后,让智能体在其中四处奔跑。让它们玩耍、犯错、学习并取胜。然后,将这些学到的东西迁移到其他梦境,甚至迁移到现实世界。

回想《黑客帝国》。当尼奥需要学功夫时,他插入了一个虚拟道场,在那里他在一个优于“现实世界”的训练环境中与墨菲斯对练。之后呢?“我会功夫了。”世界模型就是那个虚拟道场。尼奥是智能体。

我会功夫

这是八年前 Ha 和 Schmidhuber 提出的问题: 代理能在自己的梦中学习吗?

在极短的时间内,这一领域已得出答案: 可以。

是的……如果你有带动作标签的数据(或能获得)

今天,我想再多分享一些我们的做法以及开始看到的成果。

到目前为止,我写过的每一种方法最终都会碰到同一堵墙:它需要更好的数据。视频丰富却缺乏深度。没有动作标签。而且如果不知道哪些动作导致了我们所看到的,视频数据就像影子,像柏拉图洞穴墙上的影子。

而 Yann 也许是对的,你可以推断动作,但任何使用推断动作的方法都有其独立的扩展规律需要考虑:推断动作本身。推断动作会消耗计算、时间和注意力,使你无法去做那些一旦理解动作就能直接完成的事情,而且虽然推断动作在基准测试上可能表现良好,但在边缘案例上表现极差。即便是推断得很好的动作,也只是某人实际行为的近似:有些事情在视频中根本看不见,比如从驾驶舱着陆时移动飞机方向舵。

提示:如果你不这么做,你就会坠毁。这就是为什么真实标签至关重要。

你需要想办法获取带有动作标签的数据。越接近真实标签越好。幸运的是,得益于 Medal,我们有一个极好的起点。

在出现 General Intuition 之前,有 Medal

此前,我们讨论过游戏在人工智能发展中的重要性。AlphaGo。深蓝。这些都是刻意的在 AI 中使用游戏的例子。

在游戏与人工智能之间还有更为丰富的偶然联系与幸运机遇的历史。

Nvidia 是你可能熟悉的例子。Jensen 于 1993 年创立 Nvidia,致力于为游戏的实时图形制作芯片。六年后,即 1999 年,Nvidia 推出了首款“图形处理单元”(GPU),GeForce 256。

几年前,大约在 2005 年,研究人员开始尝试将 GPU 用于神经网络。2007 年,NVIDIA 发布了 CUDA,使得在 GPU 上进行机器学习变得可行。2009 年,三位斯坦福研究员——Rajat Raina、Anand Madhaven 和 Andrew Ng—— 表明 GPU 可以在无监督学习中将深度学习的速度提升 70 到 100 倍。

三年后,即 2012 年,AlexNet 团队在 ImageNet 竞赛中用 GPU 横扫群雄。一年之内,深度学习领域的所有人都转向了 GPU。“深度学习的所有人”当时还是一个小群体,但到那时,Bitcoin 矿工已经在使用 GPU。它们在执行 Bitcoin 的 SHA-256 哈希运算方面比 CPU 高效 50 到 100 倍。

之后他们很快转向了 ASIC,但在 2015 年,Vitalik Buterin 和他的团队发布了 Ethereum,其对内存要求很高的工作负载更难用 ASIC 优化。自 2015 年起,Ethereum 的挖矿在 GPU 上运行,经历了它在 2020-2022 年加密货币热潮期间引发的 GPU 短缺,一直持续到 Ethereum 从工作量证明(Proof-of-Work)转向权益证明(Proof-of-Stake),并在其后遗留下大量 GPU 库存。无论如何,加密货币崩盘了,而在加密货币达到顶峰的同一个月,Nvidia 的股票也达到了顶峰,随后一年暴跌 66%,直到 OpenAI 发布 ChatGPT,从那时起,Nvidia 的市值增长了 10 倍,成为我们今天所熟知的 4.4 万亿美元巨头。

Google Finance,截至 2026 年 3 月 9 日

我是说,谁能预料到这一切呢?

当我在 13 岁自学逆向工程并学会编程以搭建私人 Runescape 服务器时,我也无法预见这会把我带到今天这里。逆向工程是演绎推理的终极形式,作为孩子花大量时间做这件事,对大脑非常有益。这也非常有助于在瞬息万变的世界中弄清复杂系统的运作。

Runescape 的开发者把荒野和自由交易从游戏中移除了。我想把它们放回去,于是学会了逆向工程。由此产生的那门生意对一个青少年来说相当成功——到 2015 年我 18 岁不得不关闭它时,我们的年收入大约为 150 万美元,那时我成了成年人,将会对我所建立的东西负责。但我已经在这个年纪赚够了钱,可以随心做我热衷的事情。19 岁时我加入了无国界医生组织(MSF),并在那里工作了三年,参与埃博拉与人道主义制图工作。之后我在 Google Crisis Response 工作了一段时间,但游戏的兴趣又把我拉了回去。

当时我们在伦敦工作,离 DeepMind 团队很近。那是 2014 年,我并不认为这件事有多有趣或多可能成功。Demis 的远见值得极大的赞誉和尊重。很少有人能理解他们达到今天这一步有多难。

19 岁时与无国界医生一起抗击埃博拉。那天我们差点让 Google 伦敦办公室撤离,从此不得不在防护装备上标注“假检验”。

2018 年,我与之前一起构建 RuneScape 服务器的同事联手。我们开发了一款名为 Get Wrecked 的游戏,吸引了大量注册。但它很快流失玩家,因为我们没有足够的玩家流动性;这是一款竞技性游戏,我们需要足够多不同技能水平的玩家,这样用户总能找到与自己水平相当的对手,而这在起步阶段非常难以实现。为了解决这个问题,我们在平台上构建了一个观看游戏剪辑的功能。我们每天会推送几次“游戏开场”的推送通知,以吸引足够多的玩家同时在线。

短视频平台 Medal 在 Rocket League 子版块上走红。下载量激增,很快就显现出那是更大的机会。我们决定把重心放在 Medal 上。

我们最终没有发布那款游戏。Medal 一直在持续成长。如今,来自世界各地的玩家每年向 Medal 上传超过 10 亿段游戏剪辑。

我们不可能找到比这更适合用来构建世界模型和策略的数据集了。

Medal 的上传量可与 YouTube 相媲美。玩家每天上传数百万段剪辑,覆盖数以万计的环境,这些片段已经由玩家为精彩瞬间和意外情况手工挑选。换句话说,他们分享的是他们认为值得分享的内容:他们的最佳表现、最疯狂的遭遇、最惊险的瞬间。

Medal 的数据拥有 YouTube 数据所不具备的特性。它附带了来自我们社交网络的元数据(观看次数、点赞、评论),更重要的是, 游戏内操作数据。 我们仅在本地记录游戏操作,只存储游戏内操作名称(例如 Move Forward),从不记录实现该操作所按下的具体按键。比起单纯的数据,这使我们能够推出用户最期待的功能:键盘与手柄覆盖显示。这些覆盖显示让玩家能够展示每个精彩瞬间背后他们所做的精确操作。

每段剪辑精确记录了玩家所见画面,以及紧随其后的精确玩家操作,采用了我们今天用于控制机器人的许多相同系统。来自游戏的帧还有一个优点:信息是完整的。不同于现实世界视频,需要考虑姿态估计(估算人类所见,本身就是一个有损过程)——在现实中你可能会看到摄像机看不到的东西——游戏中不存在这种情况。记录的内容与你所见始终一致,我们认为这使其成为更好的训练素材。

这为我们提供了数万亿个玩家执行“观察—预测—行动”循环的样本。这是智能的基础,信息在整个过程中没有任何损失。

关于数据

要理解我们的做法,你需要彻底理解游戏数据与合成数据之间的区别。

混淆在于人们将“数字化”与“合成”联系在一起,但真正的区别不在于数据生成的环境,而在于数据本身。

在物理世界中也可以存在合成(即生成的)数据,比如 Boston Dynamics 和其他机器人公司用来训练机器人、由人类构建的环境;就像数字世界中可以有以人为真实标签的数据一样。数据可以分为如下四象限。

使我们的游戏数据成为“数字环境中扎根的人类真实数据”的在于,我们捕捉到的是真实的人类反应——一个观察 → 预测 → 行动的循环。

与我们方法最接近的对标是 GitHub 数据。它记录了人类工程师的编码历史,并被用于训练出能比人类更会写代码的机器。问题是,同样的思路能否在计算机之外成立。我们相信(并已看到迹象)从游戏数据中学习能迁移到物理世界。

事实证明,游戏是学习智能的完美训练场。它们包含成千上万个带有物理、策略、合作、文本、界面使用、竞争和长远规划的模拟世界。它们足够复杂以要求直觉,但又有足够结构性,能够在大规模上进行学习。

仅凭物理世界的数据无法达到学习通用智能所需的多样性或规模。LLMs 缺乏关于动力学和原子的资料。但游戏恰好是理想的中介:连接比特的数字世界与原子的物理世界的桥梁。

不过,关于真实立场仍然存在威胁。如前文提到的 Yann LeCun 的观点,只要你足够擅长推断动作,每个视频都是带有动作标签的数据。长期来看这或许成立,但在今天很可能极不现实。也正因如此,你不得不佩服 Yann——没有其他人会想到用这种方式。Yann 和我在巴黎讨论过这个困境,若你想深入细节可以问我。

一切都是权衡,对吧?

前进的最佳路径很可能介于当前的 VLA——最实用但最不优雅的解决方案——与如果一切顺利未来可能成为的 AMI 之间。归根结底,这取决于你对数据的处理方式。

数据是任何想要解决具身人工智能的公司面临的问题。Evan 和 Packy 在 《为机器人迈出许多小步》 中对此进行了论述,这也是我们在 GI 上重点关注的内容。

我们相信我们的数据集是解决通用模型数据问题最优雅的答案。它为通向一种令人熟悉的通用智能铺平了道路,正如 Tesla 的全自动驾驶让人感觉像一位熟悉的司机,但其应用范围远超游戏或驾驶。

对于通用模型——那些能够在几乎任何可想象的现实场景中直观且自发地驱动具身人工智能的模型——问题并不仅仅是你能获得多少数据。

在把数据投入问题之前,你需要理解你的 迁移曲线 

小步快跑、巨人飞跃与迁移曲线

在他们的《Robot》文章中,Packy 和 Evan 写道,构建具有经济可行性的具身 AI 有两种路径:小步走或巨人飞跃。

Evan 和他的公司 Standard Bots 采取小步走的策略:在实地通过一个用例一个用例地边学边挣钱。他们正在为越来越多在各类领域中具有经济可行性的用例收集真实世界数据。

他们的策略很有趣。通过让来自许多不同行业和任务的客户付费让他们进行部署,他们收集了跨广泛分布的多样化现实数据。他们的目标不是指望在狭窄领域获取更多数据能泛化到分布外的任务,而是通过在现实世界中广泛铺开而不是在某一细分领域深入,将大量有用的任务纳入分布内 

General Intuition 和 Standard Bots 从光谱的两端着手解决同一问题。General Intuition 试图从数字端解决泛化问题:我们的押注是,游戏数据将带来关于物理和动作的广泛先验。Standard Bots 则试图从物理端解决泛化问题:他们的押注是,现实世界的部署将带来关于操作和工业任务的广泛先验。

这些是针对数据多样性问题的互补方法。GI 世界模型有望成为标准机器人(Standard Bots)后续训练的起点。我们提供一个在数字环境中基于观测数据训练的基础模型,这种数据可扩展且收集成本低廉;他们则用付费收集的特定用例数据进行后训练,使这些用例变为分布内,从而更快地达到多位九可靠性。

我们认为更具挑战性的方法是那些通用模型似乎在采取的方法,即收集大量数据并希望其能推广到分布外任务。 通用模型需要在过多情境下收集过多数据,无法仅靠付钱让人演示任务来完成。

此外,在同一领域增加更多数据并不会自动教会模型处理它从未见过的情形。 在预训练阶段,并非所有数据都是等价的 ,我还没见过哪个在构建通用机器人模型的人,能指出有缩放规律表明仅通过增加数据就能解决分布外用例(即未被训练过的情况)。在狭窄领域增加更多数据,并不会自动带来对新领域的泛化能力。

缩放规律并不存在。

据我们所知,决定世界模型能否推广到新的物理环境的,有三条不同的迁移曲线。它们尚不为人所深知——我们才刚开始理解它们。不过,我们可以给它们命名: 输入模态迁移、传感器迁移和环境迁移。

第一类是输入模态迁移 :一个策略在其控制的物理系统的自由度之间泛化得有多好?对于拥有大约二十到六十个自由度的人形机器人,这条曲线非常陡峭。每一个自由度都是连续的,且常常在机械上相互依赖,这使得曲线陡峭。手指动作并非独立于手臂。在游戏手柄上训练并期望其能干净地迁移到一个二十自由度的人形手上,用研究术语来说,是一项没有规模定律支持的赌注。

第二类是传感器迁移 :如果工作负载需要专用的物理传感器(触觉反馈、本体感受、深度),那么对于在模型能可靠地基于这些传感器特定数据进行推理之前需要多少此类数据存在一套单独的规模定律。Tesla 明确研究过这个问题。他们花了数年时间精确弄清楚在完全舍弃这些芯片之前需要多少 LiDAR 数据。大多数机器人公司在这方面是隐式进行工作的,希望答案能在部署中显现出来。

第三个是环境迁移 :随着环境变得更复杂、更具随机性或人口更密集,性能如何下降?在周围有一千人的体育馆中预测正确动作,根本上比在空旷场地上更难。

正如我们前面所解释的,复杂性并非线性增长。

这三条曲线相互作用。在你能够绘制出它们之前,你无法知道实际需要多少、哪种类型的数据,这也就意味着你无法证明进行大规模采集的资本支出的合理性。今天那些正在收集十万小时物理数据的公司,最终可能发现一个良好的世界模型只需要一万小时,或者确实需要十万小时,但其中九万小时的数据完全分布不对。

我们的下注,当然受我们起始位置的影响,是把问题压缩。

通过专注于游戏手柄输入 ,我们将输入模态的迁移简化为一条我们已解出的曲线。我们知道对游戏手柄的数据是充足的,因为我们拥有数十亿段人类使用手柄的片段。这消除了一个未知数。通过专注于基于视觉的输入而非专用传感器,我们又消除了第二个未知数。

几乎所有物理系统都有类似游戏手柄的输入方式,包括方向盘、键盘与鼠标以及实际的游戏控制器。大多数情况都很直观。即便是类人机器人也配备这些控制方式。挑战在于——如果自由度超过控制器的能力,迁移效果就会变差。因此类人机器人在我们的路线图上排得更靠后,但我们没有发现任何物理上的限制表明无法围绕接口限制进行构建。

简言之:如果你可以用游戏手柄控制几乎任何物理系统,而我们掌握的关于玩家使用控制器采取动作后发生情况的数据比世界上任何人都多,那么我们的智能体应该能够控制几乎任何物理系统。

唯一剩下的问题是关于环境迁移 :在“梦境”中训练的智能体能否在现实中运行?

世界(模型)的超人类未来

在位于纽约和日内瓦的 General Intuition 办公室,这几周发生了许多激动人心的事情。我们在此处所写的一切进展都比预期更好。和其他人一样,我们越来越确信,在“梦境”中训练的智能体能够在现实中运作。

为什么世界模型会迁移?

观察—预测—行动循环是对因果结构化系统工作方式的一种抽象。 一旦一个世界模型通过多样化的一系列游戏见识了 N 种世界变体,只需少量微调便能理解对应现实世界的第 N+1 种变体的动态。

世界模型学会模拟现实的因果关系。 如果这种因果关系在足够根本的层面上被理解,世界模型就能推广到新的情境中。

那可能意味着什么?能够泛化的世界模型会带来哪些影响?

我们的目标是让具身人工智能理解世界,由我们的模型在任何环境中控制机器,包括现实世界。我们旨在为机器人领域带来突破性时刻——某一刻起,进展变得显而易见,模型也变得易于使用。

这种突破不会像 LLMs 的突破那样显现,后者在开始像人类一样与我们对话时走入主流。我们并不想要仅仅模仿人类行为的机器。事实上,机器的意义在于去做人类做不到的事情,赋予我们超能力。

机器人不需要长得像人类才能为我们工作。人形机器人作为一种形态,主要是基于这样一种假设:互联网上有最多可供学习的数据,因为人类拍摄的视频占了很大比例。如果不依赖这些视频,而是能直接从跨载体的视频游戏中的动作中学习,并且需要更少的数据就能迁移到现实世界,那么这种假设就不成立。我们认为,机器人学的未来应由更简单、更廉价的系统塑造:只具有与实际工作相匹配自由度的机器。

人体是一个令人惊叹的通用平台,但就任何具体任务而言,它很少是最优或最具成本效益的形式。与其复制我们的解剖结构,不如模仿我们本能使用的接口:操纵杆、方向盘、游戏手柄和键盘。这些工具是几十年迭代的产物,将人类意图压缩为一个清晰、通用的动作空间,就像语言对思维所做的那样。机器人可以从通过这些接口传递的动作中学习,并围绕它们以非常通用的方式进行专门化,使大规模部署比追求完全人类化的具身化更加切实可行。

如果你摒弃这样一种假设——我们的机器不需要,也大概不应该以任何方式模仿或取代我们——那么一整片可能性的天地将会打开。

在 General Intuition,我们正在积极开发模拟系统,最终将使我们的系统超越当前用像素描述的一切,达到由因果关系支配的一切。我们使用的方法非常通用。这还需要很长时间,但这是必要的一步。

要真正理解我们的世界,诗意地说,我们可能需要“世界模型”;为不可计算之物而计算。

这一切的影响是宇宙级的。如果我们能模拟三维性、物理和时间及其相互作用,那么在宏观与微观尺度上以超人能力操控这些领域的可能性即将到来。

还有大量工作要做。今天,没有人能够模拟一个生物细胞,更别提由 1030 个这样的细胞构成的生态系统。然而,吸引我的是, 我们并不需要映射现实的所有细节 。我们只需观察这些细节如何在行为中体现,并利用这些行为一次又一次地预测接下来会发生什么。

构建这些模型也伴随着巨大的责任感,这一点我非常认真且亲自承担。

我来自最可能被人工智能取代的一代;我童年时的一半朋友找不到工作。我花大量时间研究如何在这一变革中把我们的社区和这一代人带上船。

例如,像特斯拉一样,Medal 拥有超过 100 亿美元的全球硬件基础设施——GPU、CPU、接入电源并配有冷却设备——由超过 1500 万用户驱动。我们正在积极探索让社区分享即将到来的成果的方法,例如通过让他们的 GPU 提供推理服务来获得收入,或通过他们的游戏设备进行遥控操作。如果对通用智能的需求接近我们预期的规模,这可能成为我们这一代人有史以来最大的经济助力。

目前这些只是我的梦想。但有一天,它们不会只是梦想。总有一天,我们会把枯燥的工作留给超智能去做,这样我们就可以通过游戏设备去探索星辰或深海,去构思下一个独具人类特色、最有趣而非乏味的事物。


如果我们的工作引起了你的兴趣, 我正在招募从事用于生成新环境的模拟器开发,我们也一直很期待与各领域顶尖并希望加入 General Intuition 的研究人员和工程师交流。

特别感谢 Eloi Alonso、Adam Jelley、Vincent Micheli 和 Paula Wehmeyer,我的联合创始人和同事,他们花了大量时间讨论本文背后的理念。— Pim


特别感谢 Pim、Paula、Adam、Eloi、Vincent、Kent 以及整个 General Intuition 团队分享他们的知识,感谢 Badal 提供封面艺术。——Packy


今天就到这里。

为了让不想无聊的世界成员们更有意思,我用 Claude 玩出了一些额外的好东西。我们做了一个世界模型研究档案库, 收录了超过 30 篇定义该领域的关键论文的链接。会员今天和明天也可以在订阅者聊天中向 Pim 提问。

通过下面订阅,加入我们这个精彩纷呈的世界,获取以上内容及更多精彩资讯

感谢阅读,

Packy

1

除非,当然,我们把它设计得极不现实;一旦进球就强制所有人跳起来,不管是哪一队进球。或者把观众呈现为一个二维的椭圆平面图像(说的就是你,Rocket League)。

2

这个观点是他那本书的核心(该书被改编成由马特·达蒙主演的电影)The Adjustment Bureau

3

趣闻: 在 Google DeepMind 的世界模型 Genie 中负责 Agent 的团队名为 Inception。

4

《World Models》是机器学习史上呈现最出色的论文之一。它有一个交互式网页版 ——你应该去试一试。它的概念既有哲学性又有技术性。文中还有一些有趣的、回顾性的彩蛋,比如 Ha 和 Schmidhuber 之所以只能在真实环境和梦境之间切换,是因为 Gym,这是一个由名为 OpenAI 的年轻非营利组织构建的基准和 API 库。

5

单词 Aleatoric 源自拉丁语中表示骰子的词 alea。

6

总体上表现出超人水准,但在个别游戏中仍不及人类和其他一些模型。它在电子游戏弹球(Video Pinball)上尤其吃力。

7

当时机器学习界要么规模非常小,要么 Geoffrey Hinton 在其中极为突出,亦或两者兼而有之,因此 Hinton 既是 2009 年斯坦福《用于深度学习的 GPU》论文中首位被提及的研究者,也是将 GPU 普及到深度学习领域的三人团队成员之一。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读