机器人技术中缺失的一环：世界模型

本文信息来源：signalfire

The missing piece in robotics: A model of the world

我们生活在一个奇特而分裂的世界。软件似乎正向未来疾驰：大语言模型可以编写可运行的代码、设计候选药物和蛋白质、总结复杂的法律合同、为学生提供辅导、生成音乐和艺术，甚至能推导出曾难倒传统人工智能模型数十年的问题。

然而，当我们把视线从屏幕移回物理世界时，这种反差是惊人的。除了在受控严密的仓库中，大多数机器人仍难以完成基础任务，例如叠衣服、打扫凌乱的房间、抓取不规则物体、装载洗碗机、烹饪或可靠地布置餐桌。我们看不到能适应杂乱环境的自主家庭助手机器人，看不到能在不可预测的环境中安全导航的机器，也看不到能像蹒跚学步的孩子那样灵活操作物体的系统。在工厂和实验室中，机器人依然昂贵、脆弱、高度依赖脚本且专业化程度极窄。

这就是为什么像罗德尼·布鲁克斯（Rodney Brooks）这样的一些机器人专家对“纯视觉”的灵巧化方案持怀疑态度：操作高度依赖触觉、力反馈和本体感受信号，而这些信号在目前大多数系统中要么缺失，要么极其粗糙。即使你不同意他关于人形机器人的结论，其潜在的观点在广义上是正确的：在物理世界中，问题最难的部分往往是你无法清晰观察到的部分。

这种差距似乎是个悖论。 如果人工智能如此聪明，为什么我们身边还没有布满智能机器？ 答案与物理世界中的噪声和不确定性密切相关。语言模型运行在一个丰富但出奇稳定的世界中：文本具有一致的结构，数字操作是可逆的，而且没有任何东西会随机滑落、破碎、燃烧或从桌子上滚下来。物理世界则恰恰相反，它充满了摩擦、遮挡、意想不到的动态变化和持续的随机性。

人们通常认为，研究人员最终会通过某种方式将物理理解编程到机器中，从而弥补机器人技术的这一差距。然而，当研究人员讨论世界模型时，他们描述的并不是模拟物理规律的系统。这些算法通过预测现实并直接从混乱、不可预测的经验中学习来模拟现实。这种转变虽然微妙，却意义深远。如果机器能从与世界的原始交互中学习到正确的抽象，机器人技术就不再是一个充满无穷无尽极端情况的工程项目，而变成了一个学习问题。接下来，我们将深入探讨这种表征是如何运作的，为什么学习它如此具有挑战性，以及新思路如何最终引领我们走向能够有效处理真实、嘈杂物理世界的“世界模型”。

“世界模型”问题

当我们思考人类如何在现实世界中做出决策和计划时，我们依赖于对环境的内部表征。当我们“提前计划”时，我们会想象由我们的行动所导致的世界未来状态。至关重要的一点是，这种表征只关注与问题相关的细节。例如，当有人规划上班路线时，他们会考虑街道、时间和交通状况，但他们的心理模型不会包含无关的细节，比如沿途每辆车发出的具体噪音。

在更高层面上，我们还组织内部表征以反映世界本身的结构。这使我们能够快速适应并将新场景纳入熟悉的模式。例如，当你遇到一个从未见过的门把手时，你不需要说明书。你会根据它的形状和位置认出它是一个把手，因为这些在结构上与你对把手的概念相似，而且你已经有了一个普遍的理解，即“通过对把手施加力来开门”。即使不知道确切的机制，你也可以推断出转动把手应该能打开门。

有必要将这一概念与更传统的机器人学理念区分开来：即直接将观察映射到动作的政策（“看到这个，就做那个”）。世界模型本身并不是决策者。它的任务是通过生成未来状态的紧凑表示，而不是直接的电机指令，来预测世界在不同可能的动作下会如何变化。一旦拥有了这种预测模型，规划器（或下游政策）就可以评估这些想象中的未来，并选择能产生最佳结果的动作序列。

在这种框架下，一个有用的世界模型必须具备四个属性：

它必须反映世界的结构，而不仅仅是原始感官数据。
它必须能够跨多个任务进行泛化，从而在无需从零开始的情况下实现适应。
它必须筛选掉无关的细节，只专注于影响结果的信息。
它必须预测世界在不同行动下将如何变化，从而在执行前进行规划。

这正是当今前沿研究面临的挑战。

学习有意义的世界表征

从历史上看，深度学习在感知领域的突破，在无意中产生了对世界的结构化表征。在计算机视觉中，被训练用于将图像分类为猫、狗或大象的模型，产生了组织良好且出人意料地有用的内部表征。在这种情况下，当我们针对预测图像内容等简单目标进行优化时，在此过程中学习到的特征编码了关于形状、纹理、姿态和语义的丰富信息。这些表征随后可以被重新用作目标检测、追踪或分割等任务的状态输入，尽管它们最初并非专门为这些目的而训练。

我们已经从分类式方法转向在诸如图像重建等任务上训练模型，其目标是在给定剩余上下文的情况下补全图像中缺失的部分。总的来说，这些方法产生了更丰富、更具泛化性的表示。但它们仍然存在根本性的局限。感官输入通常包含不可预测且与任何下游任务无关的细节。例如，煮沸的锅表面的精确波纹本质上是随机的，且与下游任务无关。然而，基于重建的模型必须将此类细节视为值得预测的信息。它们试图对那些对世界模型毫无价值的随机性进行编码和重现。在此过程中，生成的世界表示会与噪声纠缠在一起，而不是专注于场景中有意义的结构。

正如图像重建是一个模式补全问题（给定图像的一部分，预测缺失的像素），世界模型也可以被视为一个时间维度上的模式补全问题（给定世界的当前状态和一系列动作，预测未来的状态）。世界模型不是填补图像中缺失的部分，而是填补未来的缺失部分。

这就是像 JEPA 这样近期的研究方法发挥作用的地方。JEPA 模型不再进行图像重建或逐像素预测未来的视频帧，而是专注于在潜在变量的条件下预测未来的抽象表示。可以将这些潜在变量看作是机器人执行的动作，或者是其他可能影响未来的独立变化因素。换句话说，它们的目标是模拟世界如何变化，而不在无关紧要的视觉细节上浪费容量。通过学习预测场景的抽象状态而非其精确的像素级外观，这些模型开始产生有组织的、可操作的表示，同时过滤掉那些给当前机器人技术带来巨大挑战的噪声细节。

通过这种方法，JEPA 通过捕捉世界中稳定且有意义的部分，同时丢弃高度随机的细节，构建出本质上可预测的表示。这种学习目标不鼓励对水壶冒出的蒸汽的精确图案或揉皱布料的精确纹理进行编码，因为这些细节从根本上是不可预测的，会使对世界状态的未来预测变得更加困难。相反，为了获得强大的性能，模型必须表示那些对于理解世界将如何演变至关重要的场景可预测方面。事实证明，这种架构选择至关重要，因为模型的目标从重建转向了学习世界的预测动力学。

噪声与不可预测性问题

JEPA 近年来并未取得突破，是因为 JEPA 模型难以从有意义的结构中区分出嘈杂、不可预测的细节。在缺乏正确约束的情况下，这些模型往往会坍缩为平庸的表示。想象一个归档系统，它通过丢弃整类文件来解决信息过载的问题。通过这种方式，JEPA 模型采取了忽略不可预测噪声的捷径，但在此过程中，它们也丢弃了有用的结构。

然而，最近的研究已经开始开发克服这一挑战的理论工具。由 Randall Balestriero 和 Yann LeCun 提出的 LeJEPA 引入了一种具有数学依据的正则化项，有助于防止这种崩溃。其核心思想是通过确保内部表示空间在所有方向上保持一致的分辨率，而不是将方差过度集中在少数特征子集上而忽略其他特征，从而惩罚退化的世界表示。从技术上讲，这是通过将嵌入分布塑造为各向同性高斯分布来实现的。这种约束鼓励模型在各个维度上均匀地利用其表示能力，从而保留丰富且良态的内部表示。

这一看似简单的几何约束被证明是极其强大的：它稳定了训练过程，保留了相关的结构，并使 JEPA 能够学习到丰富且可预测的表示，而无需依赖数据增强或对比负样本等启发式方法。这些进展共同标志着一种转变：从防止模型崩溃的权宜之计，转向具有理论依据的方法，从而促进直接学习世界的结构，而不被噪声所淹没。

世界模型提供了一条新路径

综上所述，这些观点暗示了我们在机器人研究方法上的根本性转变。几十年来，该领域一直陷入一个循环：针对特定任务手工设计解决方案，观察它们在极端情况下的失败，然后添加更多的规则和例外。世界模型提供了一条出路。与其将物理定律编程进机器，我们可以构建能够学习预测并推理未来世界状态的系统。

前进的道路上仍有许多悬而未决的问题：

我们如何有效地引导这些模型去探索有用的行为？
我们如何将它们扩展到非结构化环境的完整复杂性中？
随着机器人获得更多的自主权，我们如何确保它们保持安全并符合人类意图？

这些并非易如反掌的问题，但它们与过去 50 年阻碍机器人技术发展的那些问题有着本质的不同。现在的变化在于，我们终于拥有了一个与问题结构相匹配的理论框架。

LeJEPA 及相关方法不仅仅是渐进式的改进；它们代表了学习世界模型的数学基础，能够处理现实世界的不确定性。数字智能与物理能力之间的鸿沟，第一次看起来不再像是科幻小说，而更像是一个我们可以克服的研究挑战。

#世界模型 #AI研究 #机器人 #技术前沿