本周,我在写一个我仍在学习的话题。我对它的理解还处于早期阶段,所以请将这篇文章视为我对最近阅读和聆听内容的一次探索。
Ken Goldberg 上周写了一篇社论,题为传统工程可以弥合机器人领域 10 万年的“数据鸿沟”。其中一条脚注将机器人数据的规模与 LLM 数据进行比较 :人类需要 10 万年才能消化用于训练当今 LLMs 的文本和图像;而机器人可用的相应数据集根本不存在。
机器人的训练数据量小、成本高且高度本地化。仓库里的机器人只能从该仓库中学习。如果光照变化或地面纹理不同,它就会出错。远程操控(即人类通过 VR 装置引导机器人)速度慢且劳动密集。而且与语言模型不同,机器人交互数据并不存在可供抓取的互联网级语料库。这种稀缺性正是机器人常常无法实现泛化的原因。
大型语言模型在能够访问数万亿在线词汇后迎来了爆发式发展。机器人领域没有类似的突破,仍然停留在 GPT 之前的时代。
因此,机会在于设计能够生成这些数据的引擎,以最少的人类输入不断进化,并将机器人技术转变为一个像 LLMs 一样的复利系统,但以物理世界为基础。
在最近的一次演讲中,Jim Fan 描述了从数字孪生到数字表亲的演变。数字孪生专注于构建机器人及其环境的虚拟副本。借助 GPU,你可以启动成千上万个并行模拟,比实时运行得更快,并随机化摩擦、光照或物体重量等因素。
这种方法行之有效。这就是为什么类人机器人可以在相当于“十年”训练的几小时内学会走路,或者机器人手可以学会像转笔这样的灵巧技巧。数字孪生让从模拟到现实的迁移成为可能。
但数字孪生也有其局限性。每一个新环境(例如从仓库换成杂货店)都需要耗费大量精力手工构建资产(CAD 模型、碰撞几何、场景设置)。数字孪生速度快,但脆弱。
下一次飞跃是生成式模拟。去年,斯坦福的研究人员发表了一篇关于“ 数字表亲 ”的论文,这种方法可以自动生成与现实世界具有相同动作可能性但带有变化的虚拟场景。与精确复制单一环境的数字孪生不同,数字表亲扩展了训练分布,使技能更加稳健且可迁移。
与其手工打造每一个场景,世界模型流水线使用生成式 AI 来产生无尽的变体。扩散模型可以用纸板、塑料或金属重现同一个盒子。LLMs 可以设计出柜台高度不同的厨房,或生成各种不同的仓库货架通道布局。视频模型可以模拟杯子被放下时的晃动,或从新的角度模拟人类递交物体的动作。甚至物理效果(光照、重力、摩擦)也可以自动随机化。
通过这种方法,一次远程操作演示就能成为成千上万种合成变体的种子。录制一个机器人将盒子放到仓库货架上的过程,就可以生成不同的盒子纹理、新的货架布局,以及不同的抓取动作。
生成式模拟还解锁了反事实场景,即那些在现实中无法收集到的“假如”情况:
- 如果机器人在半路把盒子掉了怎么办?
- 如果地面很滑怎么办?
- 如果过道的灯光昏暗或闪烁怎么办?
- 如果一辆叉车驶过并部分阻挡了机器人的作业范围怎么办?
世界模型会想象出合理的变化,形成复合引擎,并拓展机器人在原始演示范围之外的处理能力。
一旦合成数据管道开始产生复利效应,瓶颈就会从收集演示转向设计生成演示的引擎。这些引擎将成为机器人智能的新飞轮。
因此,设计一台能够在大规模下反复生成正确演示的引擎至关重要。该引擎需要能够:
- 定义生成大量逼真场景的简单规则
- 自动调整物理参数(摩擦、光照、重量)以暴露边缘情况
- 标准化任务和偏好表达方式
- 创建测试以衡量技能在现实世界中是否真正有效
通过这种方法,引擎可以在最少人工输入的情况下学习,并以指数级加速训练。生成式模拟将把经验提升数个数量级,把少量演示转化为数百万次试验,就像 GPT 之于语言一样,为机器人领域带来革命性变化。