世界模型能解锁通用机器人技术吗？

通用机器人最大的障碍是数据。一类从视频中学习物理的新型 AI 模型正在出现——这可能改变一切。

在2005年，让计算机理解语言意味着要手工编码语法规则——数以千计，由语言学家费尽心血编写。那是聪明且细致的工作。但它无法扩展。后来出现了不同的方法：不再编码规则，而是让机器通过阅读互联网来学习语言。到2023年，大型语言模型可以写诗、调试代码并通过律师资格考试。手工编码的规则一夜之间就变得过时。

今天的机器人学看起来很像 2005 年的自然语言处理。 我们通过手工构建物理模拟——编程定义物体如何碰撞、重力如何作用、摩擦如何表现。在这些模拟中训练出的机器人可以在数字世界里拿起杯子。但把杯子移动到真实厨房的另一张桌子上，这一过程就会崩溃。改变光线，机器人就会失败。交给它一个陌生的物体，它会僵住。 这是一个数据问题。而且这是一个比 LLMs 所面临的问题在根本上更难的数据问题。

LLMs 以互联网为基础启动——数十亿页文本，自由可得，已数字化。机器人学没有等价的语料库。不存在“机器人经验的互联网”。远程操作数据需要物理硬件、人工操作者和真实世界环境。即便是最雄心勃勃的采集工作，产生的数据量也比语言模型训练的数据少几个数量级。单靠远程操作远远不够。

在我们去年关于智能机器人学的观点文章中，我们确定了操控和数据为核心瓶颈。业界也在相应投入——我们估计未来两年机器人数据的总成本将超过 30 亿美元，涵盖所有模态：机体上和机体外、视频与远程操作、触觉与力感。各家公司竞相收集自我视角视频，构建专用采集硬件如 UMI 抓手和力感手套，并通过数据合作让部署中的机器人以共享远程操作数据换取更好的模型。

一种快速增长的模型类别——世界模型——可能提供一条出路。它们通过视频学习物理规律，而不是仅仅依赖人工收集的机器人数据。这种方法很有前景，早期结果也颇为醒目，但仍有许多尚未证实的问题。下面我们将概述世界模型的现状、行业面临的一系列挑战，以及研究者在推进机器人领域时所提出的新方法。

Available robot data is a billion times smaller

什么是世界模型？

世界模型是一种通过观看视频学习物理世界运作方式的神经网络。给它数百万小时的画面——人们做饭、球体弹跳、流水倾泻、汽车行驶——它便构建起对物理的内部表征。不是通过方程，而是通过观察。就像幼儿无需解牛顿定律也能学会球会从桌上滚落一样。

让世界模型对机器人有用的有两点。首先，它们能培养物理直觉：推挤物体会发生什么、织物如何垂坠、液体如何飞溅。其次，它们能想象未来。拥有世界模型的机器人可以在实际移动之前在头脑中模拟“如果我从左边抓这个杯子会发生什么？”，通过成千上万次想象中的错误学习，而不损坏真实硬件。

模拟器已死吗？

传统的机器人仿真只知道你教给它的知识。每一种物理交互——海绵如何变形、杂乱抽屉如何抗拒打开、湿纸巾如何撕裂——都必须手工编程。现实世界中许多情况根本无法用这种方式编程。排列组合过于多样，无法穷尽建模。

更深层的问题是：手工构建的仿真随你雇佣的工程师数量扩展，而不是随算力扩展。 世界模型则相反——它们从视频中学习物理，并且随着更多数据和更多算力可预测地改进。无需手工编码。遵循“苦涩教训”：永远不要下注于算力会失效。

模拟器并未过时，但它们的作用正在缩小。对于刚体步态——让一只四足机器人在崎岖地形上行走——像 MuJoCo 和 Isaac Sim 这样的物理引擎表现良好。脚接触地面并以刚性、周期性的模式抬起，接触力相对简单，物理引擎可以准确处理这些情况。

操控本质上不同。当机器人手抓住咖啡杯时，接触是柔软的、分布在表面上的，并且对摩擦和材料属性高度敏感。模拟海绵被压缩或织物在指间滑动的方式需要目前模拟器无法达到的逼真度。对于操控来说，模拟接触比步态接触困难得多：抓握咖啡杯时接触细节非常重要；而踩在地板上则没那么重要。

模拟器将继续在结构化评估中发挥不可或缺的作用——测试可达范围、验证安全约束、运行可复现的基准测试。但未来可能是：对我们能够形式化的部分仍使用模拟器，其它一切则由世界模型来承担。

世界知识与动作知识

一台机器人需要两类知识。

世界知识—— 物体如何运动、重力如何作用、液体如何倾倒、织物如何垂坠——是普遍存在的。无论你是人类、机械臂，还是自动驾驶汽车，这些都是相同的。互联网充斥着正好展示这些内容的视频：烹饪教程、工厂参观、安全摄像头、体育转播。

动作知识—— 即该特定机器人如何将命令通过电机和夹持器转化为物理结果——与机体具体形态相关。扭矩上限、摩擦系数、夹持器几何形状等，必须通过针对该机器人的数据来学习。但你实际上需要的这种数据出人意料地少。

证据开始支持这一点。

Meta 的 V-JEPA 2 在超过一百万小时的互联网视频上进行预训练。研究人员随后仅用 62 小时未标注的机器人视频加入了动作条件信息。结果是：在不同实验室的真实机械臂上实现了 80% 的零样本抓取与放置成功率，无需特定任务训练。

DeepMind 的 Dreamer 4 从纯离线数据中学会了在 Minecraft 中收集钻石——这是一项需要从原始像素执行 2 万多个连续动作的任务，且在此过程中零次与环境交互。如果一个模型能从视频中学习世界动态并在从未接触环境的情况下推断出如何行动，同样的范式也可以应用于仓库导航或叠衣服。

在 7–14 亿参数规模下，这些模型展现出新兴的物理理解。OpenAI 发现，最新的 Sora 模型“在大规模训练时表现出新兴能力”——三维一致性、对象恒存性、逼真的物理特性——这些都是“纯粹由规模引发的现象”。DeepMind 的 Genie 2（11 亿参数）展示了新兴的对象交互、物理模拟、水和烟雾效果。将其与世界模型想象中的强化学习结合起来，你就开始看到机器人不仅仅是模仿示范，而是能够适应新颖情境。

互联网无法教会机器人如何移动它的手臂。但它可以教会机器人世界如何运作。这一区别正是世界模型充满希望的原因——它们从大量视频中提取物理直觉，显著减少对昂贵机器人专用数据的需求。

the world model landscape

世界模型的优势所在

1. 缩放策略有效，但代价高昂。

像 NVIDIA 的 Cosmos（7B/14B 参数）、Wayve 的 GAIA-2（8.4B）和 DeepMind 的 Genie 3（约 11B）等模型代表了规模的快速增长。（作为背景，参数是神经网络中可学习的权重——是模型容量的粗略代理，类似于 LLM 能力如何随着参数数量而扩展。）训练运行开始接近大型 LLM 的规模：Cosmos 在三个月内使用了 10,000 块 H100 GPU。Frontier 级别的训练耗资达数千万到数亿美元不等。这一发展轨迹在各类架构中都保持一致：模型更大、视频更多、物理建模更好。开源发布（例如 Cosmos、V-JEPA 2 等）开始普及获取途径，这对更广泛的生态系统具有重要意义（下文将详细讨论）。

World Model scale over time

2. 架构之争尚未定论。

遗嘱 VLAs 会获胜，还是别的技术？一些研究者基于视频生成——逐像素预测未来帧。另一些人，如 Meta 的 JEPA 方法，完全跳过像素，在抽象表示空间中进行预测。还有人使用扩散模型来应对机器人所需的连续、流畅运动。目前尚无共识，但在所有方法中，规模化趋势依然存在。这让人想起早期 LLM 时代，当时不确定是 transformers、RNN 还是某种混合会占主导——直到规模解决了这一问题。

3. 单靠模仿学习可能不足以应对。

如今大多数机器人公司采用模仿学习——向机器人展示如何完成任务，让它复制示范。这在受控环境下可行，但在现实世界中非常脆弱。世界模型使得机器人领域出现了类似强化学习的训练后能力：机器人可以在想象中探索失败模式和极端情况，从而为持续自主运行构建鲁棒性。迄今为止，唯一能展示机器人在无人干预下运行10小时以上的案例，都使用了基于强化学习的方法。

available robot data is a billion times smaller

世界模型研究尚需弥补的空白

世界模型是一个引人注目的研究方向，早期成果令人兴奋。但诸多有吸引力的研究方向在进入生产阶段前常常遇到停滞。一些领域仍然亟待突破：

随着时间保持一致性。 以视频为中心的世界模型——那些在没有持久场景表示的情况下生成像素级帧的模型，例如 Genie，在短时间内表现令人印象深刻。但在更长的时间跨度上，它们会出现时空不一致——模型对世界的内部表征逐渐失去连贯性。这种情况表现为多种形式：对象恒常性的失败（物体在场景中消失或属性中途变化）、空间漂移（你三十秒前走过的房间在回头看时显得不同），以及基本因果动力学的违背（物体穿过表面，液体无视重力）。Google 的 Genie 3，可以说是目前最强大的交互式世界模型，能够维持几分钟的连贯生成。

更难的问题在于规模是否能解决这一问题。有一些证据表明规模有所帮助——OpenAI 指出，在扩大 Sora 的预训练算力时，基本的物体持续性出现了，具体的物理失误（比如篮球传送到篮筐而不是从篮板反弹）在 Sora 2 中得到了纠正。但多项近期研究表明，仅靠扩展规模不足以让视频生成模型发现基本的物理定律，因为它们是从像素中学习统计相关性，而非物理约束。令人期待的架构方法正在出现——诸如 WorldMem 和 WorldPack 的记忆机制为模型提供了显式存储和检索过去环境状态的方式，将连贯窗口从几帧扩展到数百帧。世界模型能否维持生产级机器人所需的长期一致性，或它们是否更适合短期规划与策略评估，是该领域最重要的未解问题之一。

具有显式几何表示的模型——例如 World Labs——在架构上能免疫于许多此类故障模式。通过将生成过程基于持久的三维场景骨架（例如高斯斑点）来锚定，它们在构造上保留了对象的身份与几何形状随时间的一致性，因此在长时间尺度上的一致性大幅增强：物体会保持在你离开时的位置，房间在重访时看起来相同，基本的物理约束也得以维持。代价是显式表示方法计算开销更大，且目前在可渲染环境的丰富性与多样性方面更受限。

触觉传感与速度。 视频记录事物的外观，而非触感。力、压力、接触动力学——对灵巧操作至关重要——无法通过观看来学习。真实机器人控制跨越多个频率层次：大约 1Hz 的规划器、约 10Hz 的动作模型，以及 1,000–10,000Hz 的低级控制回路。最快的那一层是“盲”的——无视觉，只有力觉和本体感受，每秒进行数千次微调。触觉传感解锁了这个高频控制层。用于大规模捕捉触觉数据的硬件——传感手套、人工皮肤——仍在成熟中。在规划层面，世界模型依然很慢（V-JEPA 2 每个动作约需 16 秒；实时控制需要快 100 倍），且随时间跨度增长的误差累积是一个根本性问题。

训练成本与服务成本。 世界模型的构建成本很高，而运行成本可能更高。Cosmos 在三个月内使用了 1 万块 H100 GPU，前沿训练运行的费用达数千万到数亿美元。但服务成本受到的关注较少，且可能成为商业化的更大瓶颈。

核心问题是结构性的。文本模型可以在单芯片上对数十个用户请求进行批处理，将成本摊销到并发会话——运行一个 700 亿参数的 LLM 每位用户每小时只需几美分。而世界模型不能这样做。它们必须每几毫秒生成一次模拟环境的下一个状态并实时流式传输，这意味着每个用户实际上都需要一条专用的 GPU 流水线。根据我们采访的一位行业消息来源，Google 的 Genie 3 运行成本大约为每小时 100 美元。Odyssey 其标准模型每位用户需要一整块 H200 芯片，其更高级模型需要多块 H200 芯片——每小时花费数美元。即便是 OpenAI 也承认 Sora 的经济模型“完全不可持续”。

cost to serve wm v llms

乐观情况：在过去三年里，LLMs 的推理成本大约下降了 1000 倍，主要得益于量化、蒸馏和硬件改进。世界模型还处在那条曲线的早期阶段，可能会走类似的轨迹。以色列初创公司 Decart 宣称通过从零开始用 CUDA 和 C++ 构建定制推理引擎，将视频生成成本降低了 400 倍。但即便进行激进的优化，架构性限制依然存在：实时的、按用户分流的流式处理在本质上比批量文本生成更昂贵。服务成本下降的速度——以及是否下降到足以使基于世界模型的机器人在大规模上具备经济可行性——将决定这项技术从研究走向部署的速度。

the cost curve llms v video generation

迈向机器人领域的“ChatGPT 时刻”

这一模式很熟悉。在每一次重要的人工智能浪潮中，突破都来自用在大规模数据上训练的学习型表征替代人工设计的特征。卷积神经网络取代了人工设计的图像滤波器。Transformer 取代了手工编码的语法规则。世界模型正试图对物理学做同样的替代：用在互联网规模视频上训练的学习模型取代手工构建的模拟器。

scaling has driven significant gains in major foundation model categories

早期结果在方向上已很明确——通过视频预训练实现零样本操作，智能体完全在想象中训练，超过100亿参数时出现的自发物理理解。但差距同样明显：触觉数据、推理速度，以及从实验室80%效果到生产环境99.9%可靠性之间的鸿沟。

仅靠世界模型能否实现通用机器人仍是一个悬而未决的问题。许多方面尚不清楚，我们也曾见过在投入生产前就停滞的有前景的 AI 研究方向。但扩展轨迹是一致的，优秀人才正在流入，且从手工构建到学习驱动模拟的转变遵循了我们此前见过的成功模式。我们正与在这一前沿领域构建的团队深入合作。

#AI #机器人

世界模型能解锁通用机器人技术吗？

通用机器人最大的障碍是数据。一类从视频中学习物理的新型 AI 模型正在出现——这可能改变一切。