机器人迈出许多小步,人类实现一次巨大飞跃
本文信息来源:notboring

在我所在的行业里,有一种观点认为,机器人领域的价值将通过巨大飞跃来实现。
也就是说:机器人在当下并不实用,但只要向这一问题投入足够多的 GPU、模型、数据和博士学位,就会跨过某个临界点,在那之后,你将遇到能够走进任何房间、按指令完成任何事情的机器人。
无论从资金规模还是智力投入来看,这都是占主导地位的看法。我称之为“巨大飞跃”观点。
“巨跃”式观点极具吸引力。它承诺的是一个几乎不受边界限制的市场——当今劳动力市场规模约为 25 万亿美元,却受制于人类的成本高昂和不可靠性;如果机器人变得廉价、通用且具备自主性,按照这一论点,劳动力领域将出现杰文斯悖论 ——而这一切将属于率先在车库里实现重大突破的那支天才团队。这正是硅谷所钟爱的创新类型。杰出的头脑热衷于那种成功只差一个绝妙想法的机会。
秉持这些理念的人所取得的进展令人振奋。在网上,你可以看到机器人行走 、 后空翻 、 跳舞 、 拆解杂货 、 做饭 、 叠衣服 、 洗碗的视频。这简直就是《杰森一家》里的情景。机器人领域的胜利似乎终于近在咫尺,只是趋势线再向前延伸一小步。彼岸则是财富、力量与丰裕。
因此,秉持这一理念开展业务的公司——无论是在打造模型还是完整机器人——在过去几年里获得了流向机器人领域的数十亿美元风险投资中的大部分。这还不包括特斯拉从自身资产负债表中投入到其人形机器人 Optimus 的资金。

需要明确的是,他们取得的进展是真实存在的 。VLA(视觉-语言-动作模型)、扩散策略、跨具身学习、仿真到现实迁移。这些进展都在受控环境中实质性地拓展了机器人能够完成的任务。在全球各地的机器人实验室里,机器人正在叠衣服、冲咖啡、洗碗,等等。任何否认这一点的人,要么没有关注这个领域,要么并不认真。
只有当你开始将机器人部署到实验室之外时,另一件事才会变得显而易见: 机器人技术的进步并不受制于某一次单一的突破。 不存在某项根本性的创新能够突然实现对世界的全面自动化。
我们最终会实现对世界的自动化。但我的论点是,进步将通过攀爬 “变异性” 的梯度来实现。
变异性指的是机器人必须应对的任务、环境以及各种边缘情况的范围。航空航天和自动驾驶领域使用“运行设计域”(Operational Design Domain,ODD)来正式界定系统可运行的条件。扩展 ODD 正是自动化能力走向成熟的路径。对机器人而言,这一过程更加复杂。
机器人变量包括处理的对象 (完全相同的物品 vs. 成千上万种不同的 SKU)、 工作的环境 (恒温、光照完美的仓库 vs. 充满灰尘、地面不平、受天气影响且布局不断变化的施工现场)、 任务的复杂程度 (单一的重复动作 vs. 需要更换工具的多步骤装配)、 周围有哪些人 (在隔离防护的单元中运行 vs. 在共享空间内与工人协作)、 指令的清晰程度 (执行预先编程的流程 vs. 解读诸如“把这里清理一下”或“帮我做这个”之类的自然语言指令),以及出现问题时的应对方式 (出错即停止 vs. 识别错误、诊断原因并自主恢复)。
将这些变量相乘,其取值范围就会变得极其庞大 2。这是因为现实中由人类承担的工作谱系极其复杂。一个简单的试金石是:单个个体不可能胜任所有人类的工作。
大多数现实中的工作既不是完全重复性的,也不是完全开放式的。它们具有结构、有约束,并且不可避免地存在变化——这让 Frederick Winslow Taylor、Henry Ford 以及此后成群结队的工业家们大为头疼。不同的零件、略微变形的箱子、不一致的照明、磨损的设备,还有在附近做着不可预测事情的人类。
对机器人来说也是如此。
在一端,是运动回放 。机器人每一次都以同样的方式从 A 点移动到 B 点。不需要任何智能。这正是当今绝大多数工业机器人工作的方式。你保存一个位置,再保存一个,再一个,机器人就会永远沿着那条路径运行。这就像在 Excel 里“录制宏”。只要环境永远不发生变化,它就能完美运行。
而在另一个极端,则是像一名麦当劳员工 。每三分钟就要更换一个工作站:先做汉堡,然后炸薯条,再到收银,接着清洁。任务完全不同,流程顺序不可预测,还需要与人互动,环境高度混乱。通用物理智能的梦想,就是有一天机器人能够走进这样的环境,然后……直接上岗工作。
一端是自动化,另一端是自主性。在这两者之间,几乎涵盖了所有具有经济价值的工作。
在自动化与能够完全取代工人的麦当劳机器人之间,存在着数量惊人的工作岗位。
我认为,正是在这一光谱上的这些小步推进,才是我们当下解锁重大经济价值的所在。
这正是我的公司 Standard Bots 所押注的方向。
Standard Bots 打造以 AI 为原生、纵向一体化的机器人。我们目前专注于制造业和物流领域的客户。我们为客户构建了一套完整的解决方案,用于训练机器人 AI 模型,涵盖从数据采集、审核与标注,到模型训练和部署的全过程。同时,我们也让这些工具足够易用,普通制造业工人也能上手操作。
在一个充斥着“登月式”豪赌的市场中,我们的策略或许显得保守。即便是数千万美元的营收,与未来那项终极的、可催生万亿美元规模乃至数万亿美元丰裕的回报相比,也微不足道。
并非如此。
我们今天正在打造一家真正的企业,因为我们相信,这最有可能让我们率先抵达那个能够带来丰裕的终极状态。
两种策略:巨跃还是小步
如果你相信,在跨越某个门槛之后,存在着一整套具有巨大经济价值的任务在等待着你,那么最优策略就是直线冲刺 。把团队锁在实验室里。扩展模型规模。扩展算力。不要被可能拖慢你步伐的部署所分心。 纵身一跃 。
如果你和我们一样认为,经济上有价值的工作存在一个连续的光谱,其中许多工作机器人今天就能完成,那么最好的做法就是尽早将机器人投入一线,开始实际工作。
每一次部署都会教会你自己处在这条梯度的什么位置。成功会告诉你哪些是稳定的,失败会暴露模型在哪些地方失效,而两者都会清楚地指明下一步需要修复什么。你迭代 。你迈出小步 。
在领先的 LLM 实验室中,人们普遍认为数据是王。最优的数据策略,是沿着这一光谱一次推进一个使用场景。你并不需要“更多”的数据,你真正需要的是多样性 3、on-policyness4 以及课程 5。以迭代方式攀升这一光谱,是在既定资本预算下,最能同时优化这三项优质数据维度的策略。机器人在真实世界中的部署能够带来 on-policyness(这是其他任何方式都无法做到的),市场会智能地筛选出一套课程,而二者共同提供了丰富且在经济上高度相关的多样性。
我们在多年的部署过程中已经吸取了这一教训。
每当机器人技术演进,能够覆盖自动化与自主性之间工作谱系中的又一个环节时,就会解锁一批新的工作岗位、一组新的客户,以及市场中的又一块版图。一步一个脚印。
以拧螺丝为例。 要容易得多, 使用端到端 AI 来寻找螺丝或螺栓,比起事先将一切精确地预设并固定在位置上要简单得多。对于学习系统而言,搜索和反馈的成本很低。我们的机器人可以移动螺丝刀,直到“感觉”它到了正确的位置。它会轻轻晃动螺丝刀,感知何时落入槽口;如果打滑,就进行调整。而当我们的机器人学会如何拧螺丝时,就解锁了大量涉及拧螺丝的工作。随后,我们开始做这些工作,并进一步学习每一项工作的具体细节。
我们在工作中学习,并随着时间不断进步。许多这样的机器人并不完美,但它们依然有用。 在机器人变得有用之前,并不存在必须跨越的某个神奇门槛。
这不是我们的假设,而是市场给我们的反馈。
工业机器人已经是一个规模庞大且经过验证的市场。FANUC,全球领先的机器人手臂制造商,年营收约为 60 亿美元。ABB 的机器人业务部门在 2024 年实现了约 24 亿美元的营收。Universal Robots 于 2015 年被泰瑞达收购,每年创造数亿美元的收入。
这些系统确实能运转,尽管它们的工作方式非常狭窄。企业往往要花费数周时间进行集成。团队需要聘请专家来编写脆弱的运动序列。当任务发生变化时,这些专家还得再次上门,重新对整个系统进行编程,并收取费用。机器人会无休止地重复相同的动作,而它们之所以能正常工作,前提是环境始终保持完全不变。

尽管存在诸多摩擦,客户仍在不断购买这些机器人!这正是市场在发声。即便是能力有限、缺乏灵活性的自动化,也能创造足够的价值,围绕它已发展出整个产业。位于光谱左侧、低变异性的领域,已经支撑起数十亿美元规模的业务。
在机器学习中,进步很少来自一次性的飞跃。它源于梯度上升 :在环境反馈的指引下,持续进行小而稳定的改进。
我们同样以这种方式看待机器人技术。
我们的计划不是从实验室演示一跃迈向通用智能机器人。相反,我们的计划是沿着现实世界变异性的梯度不断攀升,覆盖并捕捉更广阔的光谱。
目前进展顺利。我们已在包括 NASA、洛克希德·马丁(Lockheed Martin)和 Verizon 在内的顾客现场部署了 300 多台机器人。我们以 2400 万美元的年化收入规模结束了这一年,同时还拥有数亿美元的顾客意向书(LOI)和经过验证的销售管线。你在这条曲线上看到的拐点,正是因为随着机器人(以及我们自身)不断学习,它们变得越来越好、也越来越易于使用。

客户之所以感到满意,是因为与传统自动化相比,我们在部署上已经明显更简单、在适配成本上也更低。尽管我们还没有能够自动完成任何任务的通用智能 AI 模型,但我们已经可以自动化具有高度变化性的工作,其水平是任何其他机器人公司都无法企及的。
我们也期待有一天机器人能够无所不能。我们只是认为:
- 所谓的“无所不能”,是由一连串连续的小“能做之事”构成的。
- 而每一个这样的“小能做之事”,无论是给一个变形的纸板盒打包,还是通过肛门为奶牛测量体温(这是一个真实的应用场景),要想把它做好,都需要针对具体用例的数据。
- 通过将我们的机器人今天就部署到实际场景中,我们不仅获得报酬,还能收集改进模型所需的数据。这其中包括最有价值的数据: 机器人失败时的人工干预数据。
- 当我们发现一个新的边缘案例时,我们可以对我们的整个变量机器人系统进行迭代。这是因为我们实现了完全的垂直整合 ,涵盖数据收集、模型、固件以及实体机械臂。
我们的计划是通过“吃下整个光谱”来赚钱 。在这一过程中,我们将收集到其他任何人都无法获得的数据。随后,我们会利用这些为我们的机器人量身定制的数据,对整个系统进行快速迭代,从而在“巨型飞跃”、直线式的发展路径实现之前,就达到具备普遍经济价值的阶段。
支撑我们这一押注的背景非常丰富。你需要理解的第一点、也是最重要的一点是, 机器人技术正受制于数据瓶颈 。
机器人技术受制于数据瓶颈
在我们拥有大量高质量数据的地方,机器人已经能够很好地实现自主作业。例如,如下方视频所示,通过对植物进行插条并重新栽种来实现克隆。
这其实有些反直觉,因为这几乎与大型语言模型(LLMs)所面临的挑战正好相反。像你我这样的普通 AI 用户所感受到的是,模型在不断改进,LLMs 会自动“知道”越来越多的事情。
但对 LLMs 来说,相对要容易得多。整个互联网本身就作为一个预先构建好的训练语料库存在。互联网上的信息量之大,远超你的想象。你向 LLM 提出的几乎任何问题,互联网大概率都已经有人问过并给出过答案。真正困难的部分,是构建能够从这些信息中学习的架构。
而机器人技术面临的恰恰是相反的问题。

这些架构在很大程度上已经存在。过去几年里,随着大型语言模型中的关键理念被应用到物理系统中,我们已经看到了机器人学习领域的真正突破。例如,Toyota Research Institute 的 Diffusion Policy 表明,将机器人控制策略视为生成式模型,可以显著提升机器人学习精细操作技能的速度。这种方法的“魔力”在于,它借鉴了主要用于生成图像的架构,在这种架构中,模型以迭代方式逐步去除噪声,就像下面的 GIF 所展示的那样……

……然后将其应用于生成机器人夹爪的运动轨迹。一个在某个领域行之有效的想法被迁移到另一个领域,砰——结果相当不错。
推动这一新时代到来的,是一系列不断累积的小进步。例如,研究人员所称的“动作分块”(action chunking),指的是模型不再只预测一个动作点,而是预测未来将经过的一系列点。这在性能和动作平滑性方面都带来了显著提升。
诸如 RT-2 等视觉-语言-动作模型将网络规模的语义理解与机器人数据相结合,把高层指令转化为物理动作。像 ALOHA Unleashed 这样的系统表明,基于 Transformer 的模仿学习可以通过观看示范,使真实机器人能够处理复杂的多阶段任务——包括系鞋带和物体分拣。而新兴的基于扩散的基础模型,如 RDT-1B,则显示,在大规模且多样化的机器人数据集上进行训练,能够在不同机器人形态之间实现零样本泛化和少样本学习。
但这些论文也都得出了相似的结论。要让这些卓越的创新以任何合理的成功率实现, 你需要来自你的特定机器人、在执行你的特定任务、并处于你的特定环境中的数据。
如果你训练一个机器人去叠衬衫,然后让它叠一件衬衫,它能完成。把衬衫放在不同的环境、不同的桌子、不同的光照条件下,它依然能完成。模型已经学会在“叠衬衫”这一分布之内进行泛化。但如果你让它去挂一件夹克、堆叠毛巾,或做任何与叠衬衫有实质性差异的事情,它就会失败。它并不笨,只是从未见过有人做这些事情。

机器人可以在其训练分布内进行插值,但在分布之外就会举步维艰。LLMs 也是如此。只不过它们的训练数据集规模极其庞大,以至于真正的分布外情形已经不多了。
这不太可能通过增加算力或改进算法来解决。这是这些模型运作方式的一个根本特性:它们需要你希望它们完成之事的示例。
那么,如何收集示例数据呢?
一种答案是在实验室里创造数据。把你能想到的所有边缘案例都设计出来,然后一股脑儿地丢给机器人。正如 John Carmack 所警告的那样,“现实拥有令人意外的大量细节”。现实世界会对研究人员设想的边缘案例嗤之以鼻,并抛出更加极端的情况。
另一种答案是直接拍摄人类完成你希望机器人去做的所有事情的视频。相关研究在这方面已经显露出一些希望。
例如,Skild 已经表明 ,机器人可以通过视频学习完成多种常见的家务任务,而且每个任务只需要一小时的机器人数据。

这是令人振奋的进展,而就在本周,在此基础上,Skild 宣布完成了一轮由软银领投的 14 亿美元 C 轮融资,估值超过 140 亿美元。
归根结底,通用视频或许可以提升模型的起始能力 。但即便是简单的家庭抓取与放置任务,最终策略仍然离不开机器人本体上的数据(而工业任务所需的数据量要大得多)。首先,机器人需要三维数据,包括扭矩和力,并且这些数据需要随时间连续产生。它们几乎需要 “感受” 动作的发生。视频并不包含这些数据,文本更不可能。
这有点像:读很多书能让人更容易写出一本好书,但看再多高尔夫视频,对真正打好高尔夫也帮助不大。
如果我想学打高尔夫,就必须真正走到球场上,用身体去挥杆。同样地,
收集数据的最佳方式是使用硬件 。为此,有多种不同的数据采集方法:主从机械臂、带传感器的手持设备、手套和可穿戴设备、VR 和远程操作,以及直接操控——也就是字面意义上移动机械臂并抓取物体。
所有这些方法都可行,各有优缺点。我们会混合使用其中的多种方式。
但我们继续用高尔夫的类比。用任何人的身体练习,都比看视频要好,但用我的身体练习是最好的。因为那才是我真正要用来打球的身体。
同样地,即便是来自其他机器人的数据,其价值也不如来自你自己硬件的数据。如果数据与硬件不匹配,就需要多 100 倍甚至 1,000 倍的数据量。如果我想研究自己的机器人,却没有自己的机器人,我可以用一台相似的机器人来观察其行为。但要想产生效果,就需要大量这样的相似机器人。
这是通用机器人模型面临的诸多挑战之一。
巨型飞跃究竟需要什么
对我迄今为止所提出的一切以及接下来将要论证的一切,最明显的反驳是:尽管“巨型飞跃”模型尚未解锁现实世界的实用性,但随着实验室不断取得突破,它们无疑终将做到。对魔法缺乏耐心并不好玩!
然而,考虑到该领域投入的巨额资金,公众层面对“巨型飞跃”路径究竟意味着什么的高质量思考却出奇地少。
他们究竟是在押注什么,或者说是在进行哪些押注?我们又该如何看待这些押注?
Standard Bots 所采取的路线并不轻松。它往往进展缓慢、令人沮丧。从外部来看,确实存在一个巨大的风险:我们做了所有这些工作,某一天醒来却发现某个大型实验室已经……把问题彻底攻克了。但我对我们的做法充满信心,因为我不认为“巨跃式”的观点会带来真正有意义的突破,下面我想解释原因。
可以肯定的是,你仍会在机器人领域的 Twitter 上看到越来越“魔幻”的推介:
“我们可以用 YouTube 视频来训练。不需要任何机器人数据!”
“我们可以在模拟中生成缺失的数据!”
“我们正在构建一个世界模型。零样本机器人是不可避免的!”
其中一些说法在方向上甚至是正确的。大量喧嚣背后确实存在真实而切实的进展,但噪音同样也非常多。
再说一遍,我在这里确实有偏见。但我也在用时间和金钱为这种偏见背书。因此,以下是我对实际正在发生之事的看法——Google、Physical Intelligence(Pi 或 π)以及 Skild 在实验室里究竟在做什么,试图追求一次真正的飞跃——从(别说,别说)第一性原理出发。
模型迈出第一步
当下这波机器人与 AI 的浪潮,很多都是从同一种方式起步的: 先预训练感知,再从零学习动作 。也就是说,先教会机器人如何感知,再让它通过感知来学习。
以 Toyota Research Institute 的 Diffusion Policy 为例。其视觉编码器(将像素转换为模型可用表示的部分)是在互联网规模的图像数据上预训练的,而动作模型几乎是从一张白纸开始。</span>
从“空白”开始并非理想之选,因为模型尚不具备研究人员所说的感知—行动对齐 。它还没有学会所见与所为之间的紧密关系:
- 在摄像头空间中“向左移动”,应当意味着在现实世界中向左移动。
- 双指夹爪可以通过杯柄或杯沿夹住杯子,但不能像试图用叉子喝汤的幼儿那样,去戳杯子的中心。
- 接触是物理问题,而非简单的几何问题。你与世界互动时,世界会随之改变。
这一“扎根”阶段基本上就像蹒跚学步的幼儿期: 我看见这个世界,我对着世界胡乱挥舞,有时能成功,但大多数时候是把自己撞得头破血流。
但大多数严肃投入的团队都能在几天内收集到足够的机器人数据,以建立最基本的环境认知。目前来看,一切进展顺利。
如何训练一台机器人
假设你想训练一台机器人完成一项任务。你需要做的是:
1. 获取数据
2. 训练模型
3. 评估与持续改进
获取数据 :你可以在实验室、现实世界或模拟环境中进行远程操控,或者从互联网或生成的视频中学习。每种方式都有各自的取舍,机器人公司会花费大量时间来思考并试验这些取舍。
训练模型 :你是打算从零开始构建,还是依赖预训练模型来完成冷启动?如果你要构建的是一个相对较小的模型,从零训练会更容易。大型模型通常拥有完整的训练配方和流水线,涵盖预训练、中期训练和后期训练等阶段。 预训练教会机器人关于世界如何运作的基础知识(如通用物理、运动和光照)。 后期训练则是赋予特定任务的“超能力”。
用 LLM 的术语来说,预训练教会模型在训练分布中词语之间的关系,并学习它们的潜在表示。后期训练(InstructGPT、RLHF、Codex)让模型为聊天代理或编程等部署型用例做好准备。后期训练还可以通过强化学习(RL)收紧轨迹,使机器人更快、更便宜且更准确。你在 LLM 领域听到的许多关于 RL 的热议,其实最早源自机器人面向特定任务的策略。
听起来都很美好,但你仍然需要数据。关键问题是: 如何获得这些数据?
视频梦想(及其局限)
“巨跃派”为获取所需数据提出了两大“救赎方案”。
第一种是现有的全互联网视频 。
模型显然能从视频中学到一些东西 :物体恒存性、粗略的几何结构、潜在的物理结构,以及对从未见过的物体背面进行“幻觉式”补全的能力(这究竟是非常酷,还是令人深感不安,取决于你与现实的关系)。
那为什么不直接“啃”下 YouTube,学会整个世界,然后就……搞定机器人呢?
先想一想这个问题。 人类能从观看视频中学到什么?又有哪些是学不到的?
视频确实在很多方面很有用:
- 轨迹与顺序 :视频非常擅长展示动作的运动轨迹以及行动步骤的先后顺序。
- 可供性与目标 :你看到有人拧动旋钮,就会学到旋钮是用来拧的;开关是用来按的。
- 时序与节奏 :对于行走、装配或任何本质上类似编舞的任务来说,时机至关重要。视频能够承载并传达时间信息。
如果你在学习抓取,视频可以向你展示:伸手 → 下探 → 合拢手指 → 提起。
它还能展示工具使用 :杯子的倾斜、锤子的挥动,以及人们通过滑动而非抬起来“作弊”的方式。
但有整类数据是视频根本无法传递的:质量、力、顺应性、摩擦、刚度、接触动力学。
人类有时可以通过视觉推断其中一部分,但这依赖于我们一生积累的具身经验。机器人并不具备这种先验。
在一项涉及 2200 多名参与者的实验中, 研究人员 Michael Kardas 和 Ed O’Brien 考察了人们观看教学视频学习月球漫步、杂耍和飞镖投掷等身体技能时会发生什么。结果令人震惊:

随着人们观看的视频越多,他们的信心急剧攀升。与此同时,他们的实际表现几乎没有变化,甚至还出现了下滑。
这就是 “具身鸿沟”。视频告诉你该做什么 ,却不会告诉你做起来是什么感觉 。你可以整天看别人跳太空步,但你依然体会不到地板如何抓住你的鞋底、压力如何传导到脚趾,以及如何在不摔个嘴啃地的情况下调节身体张力。
而机器人面临的情况比人类更糟。至少我们还有先验经验,机器人只有传感器和数学模型。
接下来我可能要说点辛辣的话了。
如果你没有非常仔细地观察,给机器人喂互联网视频看起来似乎是奏效的。
仔细观看 Skild 的“通过观看来学习”演示 。只有最简单的任务才使用了“一个小时的人类数据”。更令人印象深刻的演示被放在视频中段,却没有这样的标注。而且这些视频也不是从 YouTube 上随意抓取的。它们是通过头戴式摄像机精心采集的第一人称录制内容。做这一切, 真的比直接使用机器人要容易那么多吗?
简而言之,视频远远不够,主要有三大原因:
- 覆盖面: 互联网视频并未覆盖工业环境中那些怪异、受限且充满对抗性的现实情况。
- 数据效率: 仅从视频中学习通常需要比从机器人采集的数据多出几个数量级的数据量,因为在缺乏具身感知的情况下,从像素到动作的映射是欠约束的。
- 缺失的力信息: 两个表面看起来可能完全相同,但表现却截然不同。视频无法区分摩擦力。机器人只能通过亲身实践来发现。
此外,你仍然面临转化问题:人类的手并不是机器人的夹爪,运动学不同,尺度不同,合规性不同,除非使用你将要部署的精确末端执行器进行训练,否则系统性误差就会显现。
这也是为什么许多公司最终会悄然回到远程操控。
人类视频在预训练阶段很有用。但弱监督数据是有真实代价的:你要么踏踏实实地爬坡,做艰苦的工作;要么在原地横向徘徊很久,却把这称作进步。
好吧,既然 YouTube 上的视频没那么有用,那模拟又如何呢?
世界模型的适用与局限
模拟和强化学习(RL)是另一种被寄予厚望的“救世主”方案。如果机器人能够在一个逼真模拟现实物理规律的环境中进行自我博弈,那么训练出的策略理应可以迁移到现实世界中的真实机器人身上。公平地说,当前的模拟在某些方面确实表现出色,尤其是在刚体动力学方面。
NVIDIA 在运动控制领域大力推动了这一方向。迪士尼的相关研究(在 Jensen 的 GTC 2025 主题演讲中展示)表明,当优秀的物理建模与精良的控制系统相结合时,会产生怎样的魔力:类人机器人能够在模拟器中行走、翻转、跌倒后恢复,而且表现得极其优雅。
这种成功归结为两个关键要素:
- 物理建模是可处理的: 模拟器能够很好地处理刚体、接触和重力等问题。你可以对地形进行随机化、生成障碍物,并在完全不接触真实世界的情况下,训练出稳健的行走策略。
- 目标是可以明确指定的: 强化学习需要一个奖励。
对于行走来说,奖励很直观:行进距离、稳定性、能耗、速度。
对于动画来说,更加清晰:在不跌倒的情况下匹配参考动作。
因此,运动控制成为机器学习的“理想场景”,因为三件事恰好对齐:你可以建模物理规律、衡量目标,并且在出错时可以零成本重置。
随后,人们试图从行走推演到工厂作业,结果一切都行不通。
当你在现实世界中做真实的事情时,物理规律会变得异常复杂。真实任务涉及软性材料、变形的包装、流体、线缆布线、随磨损变化的摩擦、严格的公差,以及以接触为主导的结果。
你可以对其中的部分进行模拟,但要在广泛且准确的层面做到这一点,将需要庞大的人工建模工作。即便如此,你仍然无法匹配生产环境中出现的各种边缘情况。说到底,不如直接去做真实的事情。
在真实任务中, 奖励函数往往变得脆弱,甚至无法书写 。“做一个三明治”并不是一个标量目标。即便是“把这个零件放下”也充满约束:不能撕裂、不能洒漏、要对齐、滑落时要能恢复、不能卡住、不能刮伤表面处理,也不能做那些在模拟中奏效、却会在现实世界中损坏机器的动作。
Waymo 是一个绝佳的例子。如今 Waymo 大量使用模拟,但在世界模型出现之前,人类驾驶车辆进行的真实世界数据采集早已持续多年。你还记得在 Waymo 第一次实现自动驾驶行程之前,Google 的人工员工驾驶着那些看起来很滑稽的汽车在路上采集数据,持续了多久吗?正如该公司在最近的一篇博客文章中所写:“ 如此规模的真实世界完全自动驾驶经验无可替代——任何数量的模拟、人工驾驶的数据采集,或由测试驾驶员参与的运营,都无法复现 Waymo Driver 在完全接管时所遭遇的各种情境与反应谱系。”
你需要在现实世界中收集这些数据, 然后才能在仿真中重放并放大它们。这就是你获得最后几个“九”的方式。
还有, 重置。 也就是重新开始所需要付出的成本。
在仿真中,重置是免费的。在现实中,重置需要付出实际劳动。行走是一个罕见的例外,因为重置只是“重新站起来”;但如果你想让机器人通过反复试错来学习制作三明治,就必须有人来:清理现场、补充物料、重置系统、再试一次,如此周而复始,直到慢慢失去继续活下去的意志。清理一个半吊子机器人的烂摊子,并不是你当初选择成为机器人研究员的原因。
因此,仿真确实很有价值,但它仍然无法取代真实世界中的数据采集。仿真的最高杠杆用法是在部署之后:当真实机器人暴露出真实的失效模式时,用仿真去复现并成倍放大这些罕见案例。
这就把我们带回到了最基本的原则。
那么,训练机器人最好的方式是什么?(就像训练一个人一样)
想想你是如何训练一个人的。
对于简单任务,文字说明就够了;稍微复杂一些的,用一份检查清单会有帮助。但大多数真实的工厂工作并没有这么简单。你需要对齐、时机把握、判断、恢复,以及应对“有时会发生的那种情况”的能力。
在那一刻,示范胜出。它是传递意图时信息密度最高的方式。这也是为什么技工行业里的人要通过学徒制来学习。
机器人也是如此。只要学习信号的质量足够高,机器人花上几分钟甚至几个小时来学习一项任务都是可以接受的。
训练时间并不需要为零。
这也引出了我们一直以来的观点: 所谓的“巨大飞跃”并不是、也不可能是架构层面的 。
“巨大飞跃”——也就是模型突然“见得够多”、从而无所不能的那个临界点——并不存在。它令人向往、充满吸引力(也许正因为它永远看似近在咫尺,才格外迷人)。但事实是,它并不存在。即便是最聪明的人类,也需要训练和指导。Terence Tao 也需要数年时间才能成为一名熟练的焊工。
我们认为,答案很简单:投入时间,坚定不移地收集正确的数据。也就是机器人专用、任务专用、高保真度的数据,哪怕这意味着减少那些炫目的互联网演示。
由此可以得出三点结论:
- 你始终需要机器人专用的数据。
- 传达任务的最高质量方式是直接演示(远程操作或直接操控)。
- 一旦你拥有强有力的特定领域数据,来自无关任务的低质量视觉数据就难以提供太多帮助。
LLMs 之所以让人感觉神奇,是因为它们能够在整个人类文本分布上进行插值。机器人并不具备这种条件。
需要明确的是,我并不是在主张视频、模拟和更好的模型没有用处。它们显然是有价值的。我的观点是,即便具备这些条件,仍然需要收集正确的数据。
要完成一项特定工作——比如卡车装卸、生物样本制备,或奶牛体温检测——你需要关于这项具体工作的数据,而这些数据最好由你自己的硬件生成。
而要完成任何工作,这正是通用物理智能的承诺,你需要能够完成大量具体工作,这意味着你仍然需要每一项具体工作的数据,或者至少是那些足够相似、以至于你可以可靠地进行泛化的工作数据。
结论是:尽管利用所有这些数据或许有可能构建具备通用能力的机器人,但收集这些数据的难度远远超出人们的想象,而且在现有数据之外进行泛化同样要困难得多(事实上,这一点尚未被证明是可行的)。
这就形成了一个“先有鸡还是先有蛋”的问题:
- 没有数据(而且是特定类型的数据),就无法真正测试一个应用场景
- 而不实际开展该应用场景,又无法以高保真度获取这些数据
这正是我们认为机器人技术是通过小步前进而非巨跃式发展 的主要原因。无论采用哪种路径,你都需要收集所有的数据!
如果你认同这一点,那么下一步就显而易见了……
通过收集数据来获得报酬
那么,如何获取这些数据?你是要制造成千上万台机器人——在我们的案例中是机械臂——并搭建训练场景让它们进行练习吗?
如果你认为机器人必须跨越某个能力门槛才能在经济上具有实用价值,那这种做法或许是最优解。但这一论文已经被我们推翻了。FANUC、ABB、Universal Robots 等公司凭借基础自动化就创造了数十亿美元的营收。
客户早已习惯那些老式机器人,它们需要大量昂贵的实施工作,编程过程也极其繁琐。我们意识到,自己完全可以与他们竞争并胜出。

我们打造更出色的机械臂,并将自动化应用拓展到比现有确定性软件更广泛的使用场景,而且成本更低。
当我们为一位新顾客部署一台机器人时,只需要几个简单步骤和几个小时,而且过程正变得越来越简单。我们在前期就通过硬件和软件获得付款。我们的毛利在 60 天内即可覆盖获客成本。
这意味着,我们几乎可以以制造机器人的速度来扩大数据收集规模,而且这一切都由顾客出资。我们高兴,原因显而易见;他们也高兴,原因同样显而易见。我们的计划是,让机器人在真实环境中持续学习,而双方都会因此越来越满意。
至关重要的是,一旦出现问题,我们会通过远程操作进入现场环境,进行纠错,更重要的是,从问题中学习。(另外,我们还拥有使用 AR 头显为机器人 AI 模型收集训练数据的相关专利的独家权利。)
这就是我们的制胜法宝。

本周早些时候,a16z American Dynamism 投资人 Oliver Hsu 撰文探讨了从实验室走向真实世界时所面临的切实挑战 。
在论文和实验室里,一个成功率达到 95% 的机器人听起来已经很了不起。但在一家每天要运行某项任务 1,000 次的工厂里,这意味着每天会出现 50 次失败。这种表现就像 《我爱露西》 里的巧克力流水线 。即便是 98%,也意味着每天 20 次停机;99% 则是 10 次。任何一名一周内犯这么多错误的员工,都会被解雇。
Oliver 指出,生产环境需要接近 99.9% 的可靠性——每天一次干预,甚至几天才需要一次——这正是你必须雇人来修正机器人错误,还是可以放心让它自行工作的分水岭。
他说得没错。95% 还远远不够……除非你像我们一样来应对这个问题,并在实践中不断改进。在这种情况下,95% 就是一个绝佳的起点!
如果你准备好通过远程操控介入并修复那 5% 的问题,那么在第一天达到 95% 的成功率已经绰绰有余——而我们正是这样做的。我们可以将机器人部署到那些确定性、全自动机器人无法胜任的任务中。这使我们能够通过承接那些我们大多能够处理的应用场景,持续“吞噬”整个应用谱系,并将人工介入同时视为一种服务形式和一种数据收集机制。机器人负责其力所能及的部分,人类在困难案例中接手,而这些纠正又会回流到训练之中。
这一方法的效果好得惊人。 通过从构成那 5% 的每一个现实世界挑战中学习,我们可以在部署后的数周内,将失败率降低到几乎难以察觉、接近 0% 的水平。

这是因为在失败发生瞬间的干预数据是最好的数据 。我们已经发现,在问题出错点附近收集数据,能够高效地覆盖所有边缘情况,而这些往往就是我们所需的最少训练数据。我们把精力集中在自主性失效的边界,而不是反复收集那 95%始终运行良好的数据,从而找出真实世界与模型不一致的地方。并且,由于制造失败的是我们的机器人——而不是人类——我们能够学习到我们的机器人究竟在哪里失败。
了解机器人在哪里失败至关重要。当用人类示范来训练机器人时,往往会出现不匹配:人类在自己的状态分布中操作,而机器人会漂移到人类从未展示过的状态中。与其如此,不如让机器人自行失败,并迅速采取行动加以解决。
在与每一位顾客合作的过程中,我们都会了解一个具体的使用场景,训练模型,持续获取数据,在失败中学习,并不断改进我们的模型。
在某个阶段, 某一特定用例基本已经被解决。我们已经“吃下”了光谱中的那一块。 接下来就可以转向下一个,处理更多一些的变异性。
到目前为止,似乎每解决一个用例,以及我们在软件、固件、硬件和模型方面所做的相应改进,都会让我们更容易“吃下”光谱中相邻的部分。
关于我们的方法,有一种常见误解,认为这意味着每个用例都要从零开始。这并不是事实。还记得那把螺丝刀吗。
我们并不把系统看作一组彼此孤立、面向特定任务的模型。我们将其视为一套共享的物理技能基础——感知、抓取、力控制、时序编排等——这种基础会在一次次部署中不断累积。对于每一个新的用例,我们都会在这一持续改进的基础之上进行后训练。
随着每一个应用场景被解决,这些基础能力都会不断提升,从而让相邻任务变得更容易。随着时间推移,同样的核心技能(例如拧螺丝)会以不同组合反复出现,这些共享技能不断叠加、相互强化。
理想情况下,整个系统会越转越快。而现在看起来,事情正朝着这个方向发展。
这就是 Standard Bots 的运作方式。我们在学习中获得报酬。因为被迫与现实世界持续互动,我们得以更快、更好地进步。
而客户也让我们了解到一些此前从未想到过的使用场景。
关于牛体温的一段插曲
我曾和 Packy 聊起过一件事(他坚持让我把这段写进去):我们的一位新销售入职第一天,就接到了一条来自农场的导语,对方希望使用我们的机器人为奶牛测量体温。体温异常是判断奶牛出现问题时最早、成本最低的信号。
你知道该如何给一头牛测量体温吗?
具体做法是,拿一支体温计插入奶牛的肛门。根据奶牛所处的生命阶段不同,这项操作可能每周一次、每月一次,或介于两者之间。美国有 9000 万头奶牛。按照周期时间来算(每头牛大约需要一分钟), 这就是一个需要上千台机器人的机会 。
关于这个机会,有两点需要说明:
- 如果你对我说:“Evan,如果你的命攸关,给我一个你认为在乳制品行业可以实现自动化的工作”,我会说挤奶。我绝不会想到把体温计插进牛的肛门也能自动化。这是一个只有从客户那里才能学到的工作。
- 这并不是一个适合人形机器人的工作。事实上,仔细想想,真正适合人形机器人的工作少得惊人。

一个原因在于,这项工作并不适合人形机器人,因为人形机器人有些“大材小用”。你为其通用能力(以及双腿)付费,但实际需要的只是把同一件事在固定位置一遍又一遍地完成。另一个原因是,对于这项特定工作而言,人形机器人反而是 “小材大用”:无论在物理结构还是模型层面,它都没有针对这一具体任务进行配置。
首先,你需要的是一个灵活的夹爪。但归根结底,一切都取决于进入速度。你不能直接硬塞进去,奶牛不喜欢那样。那么,如何确定合适的进入速度?每头奶牛都不一样。事实证明,你需要一台对准奶牛面部的摄像头,以及一个基于数百头奶牛面部反应训练出来的模型;奶牛的表情会告诉你何时该减速(而这种行为应当在端到端训练过程中自动涌现,而无需任何手工设定的先验)。模型必须能够即时理解如何利用这些特定的传感器数据,迅速调整机械臂的速度和进攻角度,快到足以让奶牛接受它。诸如此类。
另一个原因是,这并不适合由人形机器人来完成,因为它们会非常昂贵。连埃隆本人都预测 ,到 2040 年将有 100 亿个人形机器人,每台成本在 2 万至 2.5 万美元之间。其中大约一半的成本来自腿部,而在农场环境中,腿部很可能反而成为一种负担,到处都是容易打滑的烂摊子。
还有一个更为重大的原因,说明这并不是人形机器人的工作:人形机器人在当下并不存在。
除了少数玩具式的演示之外,人形机器人如今并未在实际场景中存在。具备通用智能的机器人在现实世界中当然也尚不存在。
侧栏:人形机器人怎么样?(此处将其定义为具备双腿、双足行走能力的双足机器人)
人形机器人的前景让许多投资者为之着迷( 尤其是 Parkway Venture Capital)。这也情有可原。“世界是围绕人类这一 API 而构建的。”这听起来很美好,在一定程度上也确实如此。
但这个梦想与现实发生了令人不安的碰撞。正如《WSJ Tesla Optimus Story》近日引用我所说的那样:“使用人形机器人时,一旦切断电源,它在本质上是不稳定的,可能会倒在别人身上。”以及,“在工厂、仓库或农业场景中,腿往往不如轮子。”
我当然有动机这么说,所以别只听我一家之言。在同一篇报道中,作者写道:“ 在特斯拉公司内部,一些制造工程师表示,他们质疑 Optimus 是否真的能在工厂中发挥作用 。尽管该机器人在物品分拣等单调任务上表现出能力,但这些前工程师认为,大多数工厂工作更适合由为特定任务而设计外形的机器人来完成。”(顺便说一句,这正是我们通过模块化设计所做的事情。感谢特斯拉的工程师们。)
特斯拉的工程师并非孤军奋战。那些运营工厂、比起演示更关心自身业务的人看不到投资回报率(ROI),这也是为什么你会看到像 Figure 这样的公司将重心转向家庭场景。这是一个梦想:家用机器人,就是“罗茜”。但要把一个机器人放进你的家里,和你的孩子一起生活,它必须极其可靠。
要让人形机器人在家庭中真正有用,我们希望提出一个 HomeAlone Eval。

这个人形机器人需要在一栋房子里存活下来——面对一群精力旺盛的八岁孩子,试图绊倒它、掀翻它、让它打滑——同时还不能伤到他们。即便是人类,在上楼时孩子跳到你背上,也很难保持稳定;如果你摔倒在他们身上,至少你是柔软有弹性的。机器人则未必如此。这种人形机器人评测用强化学习来训练要困难得多,但在我们把它带回家之前,必须看到它通过这一关。6
在家庭领域,也有一些与我们论文相契合的有趣路径。Matic,以及如今的 Neo,正在从不同角度在你的家中“边干边学”,并因此获得报酬。Matic 从一个简单且具有明确价值的使用场景入手——吸尘和拖地——在学习家庭环境的同时逐步向更复杂的任务拓展。Neo 则通过对其机器人进行远程操控来收集数据。
但在任何现实可行的意义上,自主型人形机器人仍然并不存在。
我们可以选择等待人形机器人出现。也可以走到现实世界中,从客户那里学习机器人可能完成的各种任务,在逐步消化越来越多的环境和任务变数的同时,获得报酬来学习并打磨这些使用场景。而与此同时,我们未来的竞争对手还被困在实验室里。
我们正凭借这一先发优势全速前进。我们之所以能够跑得如此之快,一个重要原因在于我们实现了垂直整合。
为什么要进行垂直整合?
部署能够加速学习,有一个重要原因与模型无关,而完全取决于硬件。
回想一下,当数据与其硬件高度对齐时,其效率可提高100至1000倍。你控制的硬件越多,这一结论就越成立。
大多数实验室使用来自 Unitree 等公司的廉价中国机械臂。这在短期内是合理的选择。这些机械臂已经做得相当不错,而且价格非常低廉,只要几千美元。
在 Standard Bots,我们押注于垂直整合 。
我们制造的是一款工业级机械臂,专为端到端的 AI 控制而设计。尤其是在关节中加入力矩感知。因为在进行 AI 训练时,你需要能够记录自己如何与现实世界交互,然后基于这些交互来训练模型,使模型能够复现这些行为。
这正是我们重视力矩感知和力矩驱动的原因:这样电机就能精确控制关节施加的力度,同时机器人也能通过关节感知环境施加回来的反作用力。如果没有这些能力,你基本上只能把 AI 用在抓取、放置或折叠等有限场景中。
我们创造了一种独特的力矩感知方式。其他人都采用应变计和基于电流的力矩感知。我们有一种通过金属弯曲来直接测量力矩的方法,我们的方式更精确、更易维修,也更容易制造,各方面都更出色。真的、真的非常出色的力矩感知。
为此,我们几乎所有东西都自己做。我们甚至自己制造用于换相的电机控制器。我们不做的只有轴承和芯片。其余绝大多数部件都将由我们自行制造。这就是非常深度的垂直整合。

不过这是必要的。 旧式机器人无法适配新模型 。
传统机器人是为运动回放而设计的:你向机器人发送一段 30 秒的轨迹,它就按部就班地执行。AI 则需要 100Hz 的实时控制,也就是说,需要根据模型实时看到的情况,每秒发送 100 次新的指令。许多现有的机器人 API 甚至不支持实时力矩控制。我可以让机器人去某个位置,但我只是给了它一个位置信息;如果它撞上了什么东西,就会以最大力度撞上去。它并不具备我所需要的那种精细控制,无法把工作做好。
这套方式不适用于能够实时自主思考的机器人。因此,我们编写了自己的固件,实现实时力矩控制,并以 60 kHz(每秒 60,000 次)的频率进行电机换相。
这套固件让我们的机器人运动更加顺滑、更精确、响应更迅速,同时也更容易、更有趣地使用。这一点至关重要,因为这意味着我们在物理层面上能够覆盖更多的使用场景,进而使硬件不再限制我们在更广阔应用领域中的拓展能力 。
在将这些能够在现实环境中处理大量应用场景的机械臂部署到一线现场的同时,再加上我们自身用于预训练的数据采集——包括手持设备 7、 我们的实体机械臂 8,以及越来越多的 AR/VR9—— 我们在数据层面同样实现了纵向一体化 。
这些数据构成了我们的预训练数据组合。可以把它看作是首个用于机器人预训练的工业级基础模型。进一步的纵向一体化。如前所述,这个模型可以更小,并随着时间推移逐步加入核心技能,同时还能在特定任务上通过后训练进行部署。
数据来源于数百家工厂,它们都是我们的客户。有效载荷最高可达 66 磅,而不是那种只能举起三磅的玩意儿。工业环境、工业设备。具备 IP 等级认证、专为 24/7 运行而设计的工业级机械臂,搭配同样是工业级的模型。
当然,我们也在思考人在工厂仓库里可能做的所有事情,并像其他人一样将这些内容纳入我们的预训练体系。不同之处在于,我们的机器人随后会迅速走向现实世界,去学习人在工厂里实际所做的一切。
这是我们正在押注的一项根本性判断。
一些公司押注于只需打造一个模型,围绕它自然会形成一个生态系统,然后再将他们的产品推向市场。
我们认为,这个市场目前还过于早期,难以支撑这种做法。</
硬件、数据与模型之间的紧密集成至关重要 ,尤其是在我们仍在学习如何实现新的应用场景之际 ,因此我们认为,垂直整合是把这件事做好、也是唯一正确的方式。
新技术市场正是这样发展的。在 Packy 的 《Vertical Integrators, Part II》 中,曾在波音 Phantom Works 工作的 Carter Williams 解释说,垂直式与横向式创新之间的需求是以周期形式变化的。“市场为了创新产品而走向垂直整合,为了降本和规模化而走向横向发展。在 40 至 50 年的周期中来回摆动。”
在机器人领域,我们仍然处在这一周期中非常明显的“产品创新”阶段。
总有一天,当我们收集到覆盖工业经济中大部分价值(以及更广泛领域)的应用场景数据后,整个行业很可能会走向模块化,以实现降本和规模化。希望到那时,我们不必永远事事亲力亲为。但在今天,我们仍然必须如此。
关于垂直整合的另一个重要方面是,掌控一切有助于我们快速适应。每天,我们都会学到客户如何运营、他们的需求是什么,以及不同类型的工厂是如何运作的。能够快速学习、修正并调整的能力,价值不可估量。
例如,我们在现场意识到,模型实际上必须理解外部设备的状态,而不仅仅是机器人正在操作的对象。很多时候,会有一名操作员在机器上使用脚踏板。我们需要采集脚踏板的数据——比如它是被踩下还是松开——模型也需要能够理解这些状态。在此基础上,我们还需要打造一个通用接口,能够适配所有类型的外部设备。
还有另一件我们反复讨论、对业务至关重要的事情:能够采集失败数据真的非常重要。因此,我们在这方面也建立了一整套闭环。
就是这样。这就是我们的计划。
机器人技术目前受制于数据瓶颈。我们通过为工业应用场景打造更好的机械臂来获得报酬,同时也在收集数据。这些应用场景的范围和规模都比我们最初预期的更广、更大。针对每一个场景,我们都会进行部署、学习、发现边缘案例、介入、采集数据并持续改进。这在针对具体任务的模型层面是必要的,在系统层面同样如此。而我们之所以能够快速做到这一点(甚至能够做到),唯一的原因在于我们实现了垂直整合。
清洗、机器人、重复。
这就是我们一点一滴地吃下整个光谱的方式。
小步前进,小模型,大价值
在 《The Final Offshoring》 一文中,Jacob Rintamaki 在他近期关于机器人技术的精彩论文里写道:“我很少看到一种对通用机器人技术的框架性理解是:并不是我们现在拥有了一台什么都能做的机器人,而是我们拥有了一种可以快速、低成本、轻松地被打造为把一件事做到极致的机器人 。”
这正是我们的计划。把一件事做到极致——针对每一个工业场景,一次只做好一件事。最终,我们将覆盖整个应用场景的光谱。
Rintamaki 继续说道:“因此,这些公司的策略是,在缩短回报周期可能就是‘All You Need’的前提下, 尽可能积极地向大型企业客户部署,以开始构建护城河,而这些护城河仍然是那些更专注于视频/世界模型的大型竞争对手难以匹敌的 。”
没错。
在这里,我想重新引入变异性这一概念,以讨论我们护城河的本质。
我此前已在此详细阐述过数据护城河。我们通过收集正是提升我们特定机器人所需的精准数据而获得报酬。
对于构成每个使用场景的那一特定变异性切片,我们如何利用这些数据可能同样重要,但这一点并不那么显而易见。
我们认为,如果没有所有正确的机器人数据,通用模型无法实现所谓的“巨大飞跃”。我们也相信,在许多应用场景中,较小的模型在成本、速度等多个关键维度上优于大型模型,同时却能覆盖机器人可获取价值的绝大部分。
用一个大型通用模型解决一切问题很诱人:我们已经训练了 LLMs。把这台价值万亿美元的机器用起来!
LLMs 具有强大的语义结构。词嵌入会把相似的词放得很近,而(奇妙而美丽的是)语言中的语义距离往往映射到任务中的语义距离。
于是,一个颇具吸引力的想法出现了:以 LLM 作为骨干,用简短的文本标签来条件化行为,在一个模型中存储多种技能。“Pick.”“Place.”“Stack.”“Insert.” 同一个模型,多种技能。这就是 VLA(视频-语言-动作)的梦想。
但是 扩散模型之所以率先在机器人领域爆发,是有原因的 。
LLMs 是自回归的 :一次预测下一个动作 → 再将其反馈输入 → 一旦出错,误差就会不断累积。在控制物理系统时,这些错误的影响尤为巨大。
另一方面,扩散模型是迭代式的 :通过逐步去噪推进 → 单一步骤的失误并不会让整个生成过程失败。
但要在架构层面真正把这种方法做好,仍然面临诸多挑战。
LLMs 的设计对象是标记 :离散的符号或词语。而机器人处理的是连续的数值 :位置、速度、力矩等,是像 17.4343 这样的数字,而不是“十七”这样的词语。
在 LLMs 中,每一个数字都会变成一个 token。精度越高,token 数量就会激增,这也意味着延迟随之飙升。你的机器人会变慢,而一个反应迟缓的机器人并没有太大用处。
这正是核心矛盾所在:
- 迄今为止,机器人技术的成功在很大程度上依赖于扩散式控制
- LLMs 是自回归、基于 token 的模型
- 物理动作并不能干净利落地映射为 token
Pi 已经弥合了这一鸿沟:他们找到了与语言模型基础设施良好兼容的机器人动作表示方式。这是真正艰难而又令人印象深刻的工作。
但这里还有一个更犀利的观点。
我们之所以使用语言模型基础设施,并不是因为它是机器人领域的完美架构。 而是因为作为一个物种,我们已经投入了数万亿美元和无数工程工时来构建 LLM 基础设施。复用这台机器的诱惑实在太大了。
因此,尽管存在不完美之处,将一个 LLM 接上用于预测机器人运动的动作头(合称为 VLA),仍然是我们训练基础模型的最佳方式,这些模型能够通过来自众多不同客户和任务的示范学习多种技能。
还有一种“快与慢”的分工:将 LLMs 作为监督系统来使用,负责观察、推理并调用技能,而不是直接控制电机。Figure 的方法正是这一模式的典型例子。
通用模型的问题在于,它们必须解决所有事情。其前提假设是,只要在一个单一的超大型模型中投入足够的算力和数据,就能造出一台几乎无所不能的机器人。它们追求的是最大化的多样性:你可以走进一个完全陌生的环境,面对从未见过的工具、从未见过的设备、冰箱或炉灶,并且能够完美应对所有情况。而且这些物体还是易碎的。这种需要在一个模型中涵盖的变异性极其庞大,因此模型本身也必须非常巨大。
庞大的模型意味着模型在训练和推理阶段成本更高、更难以调试 ,而且更慢 ——这一点在当今人形机器人的表现中已经显现出来。
但这里有一个关键洞见: 参数数量随多样性而扩展,而非随价值而扩展。
我们认为,出乎意料的是,只需相对少量的参数,就可以释放市场中的大部分潜力。
再以自动驾驶为例。Apple 曾发布一篇论文 ,介绍其自动驾驶工作的相关情况,其中指出其用于决策和规划政策的参数仅有 600 万个。Elon 最近也表示,Tesla 在其汽车中使用的参数数量“少得令人震惊”。
这比我们通常听到的用于 LLMs 的数千亿甚至数万亿参数要小好几个数量级,因为 LLMs 需要随时准备回答几乎任何可以想象的问题,而且单个 LLM 用户的价值不足以支撑为其微调定制模型。
而在机器人领域,如果你要解决的是一个具有受限变异性的特定任务,情况恰恰相反。模型只需要把少数几件事做到非常好。考虑到部署成本和所创造的经济价值,为该使用场景微调模型是绝对值得的。
这意味着我们可以将更大的基础模型蒸馏成更小的模型,而我们也确实在这样做。有时我们会部署非常小的模型——它们是低参数模型,却能在多个维度上解决数量相当可观、且极具实用价值的问题。我们还可以把机器人的有限算力集中在更狭窄的问题上,从而带来更好的性能。
我们用少量但恰当的数据来训练小模型,使其在成本更低、速度更快的同时,在针对合适数据进行微调后,其性能甚至可以超过它们所源自的那些大型通用模型。
当然,对每一个具体用例而言,我们做得越好、成本越低、速度越快,部署就会越广泛,学习就会越迅速,也就越能更快地覆盖更大的应用版图。
至少,这是我的判断。
Standard Bots 是否“吞下了苦涩教训”的红丸?
我的判断并不算最时髦。押注反对涌现能力的魔力,并不有趣。
在我们的一次交谈中,Packy 问我,我们的做法是否算是“苦涩教训”取向,指的是 Rich Sutton 在 2019 年的一项观察 : “从 70 年的人工智能研究中可以得出的最重要教训是,能够利用计算资源的通用方法最终最为有效,而且优势巨大。”
他还向我推荐了 Ben Thompson 于 2024 年发表的文章 《Elon Dreams and Bitter Lessons》,文中 Thompson 认为,应当先确立一个大胆的“梦想”,再通过工程手段不断降低成本以实现规模化,这种路径胜过谨慎、渐进式的方法,并能创造新的市场。
汤普森认为,Waymo 目前看似处于领先地位,但其路径——依赖激光雷达获取精确深度、摄像头提供视觉语境、雷达提升在恶劣条件下的稳健性,以及高精地图和数据管道等——注定会遇到瓶颈,因为成本更高,而且这些依赖使其更难实现完全自动驾驶。
另一方面,Tesla FSD 押注的是通过视觉(廉价摄像头)和规模化算力实现端到端自动驾驶。在推理阶段仅使用摄像头以降低整车成本,从数百万辆特斯拉中采集驾驶数据来训练大型神经网络,并将训练过程中使用的昂贵传感器和地图蒸馏为轻量级运行时,通过规模化不断累积安全性,最终实现无处不在的 L5 级完全自动驾驶,而非受地理围栏限制的 L4 级。这就是“苦涩教训”加持的方法论。
我得想了一下再回答。我之前没有认真想过这件事,也并不是完全确定。
这当然是一个可行的问题。是否有人可以直接打造出一种超级、超级智能,只需要通过一个极其简单的语音接口来与之沟通?我的意思是,从理论上讲,显然是可以的,对吧?
不对。 事实是,想要胜出,你需要数据。
你不可能被一个没有训练数据的人给你上“苦涩教训”。
Tesla 之所以能够给所有人上“苦涩教训”,只是因为他们一开始就拥有收集数据的分发能力。 这种迭代式方法,Tesla 的 Master Plan,正是“苦涩教训”路径得以成立的前提。
这种由客户资助的迭代式路径——Tesla 走过的路,也是我们正在走的路——正是获取数据的方式 ,而这些数据让你能够从规模中获益。Thompson 本人写道:“‘苦涩教训’建立在计算力持续增长、并能可靠解决曾经棘手问题的前提之上,而 LLMs 带来的一个教训是, 你同样需要不断增长的数据量 。”
机器人领域的“苦涩教训” 在于:利用真实世界数据,最终才是最有效的方式,而且优势极其明显。
如果没有训练数据,就无法靠“苦涩的教训”走向胜利;而如果不进行部署,也就无法获得训练数据。我认为,Sutton 真正想表达的是,应当尽可能多地让机器人进入现实场景,让它们以一种交互式、持续不断、自我改进的方式进行学习。
我们还没有走到那一步。目前,系统中仍然有人类参与。
但实现这一切的第一步,也或许是我们公司应对“苦涩的教训”的最佳对冲方式,就是尽可能快地将机器人部署到尽可能多的客户那里。
如果我错了呢?
在机器人领域工作久了,很难不被现实“打脸”。这是一个几十年来始终未能兑现承诺的行业。
那么,我有多大把握认为自己是对的,而整个行业基本都错了呢?
我可以说,相当有信心——至少有足够的信心,把我最具生产力的几年投入到打造这家公司上。我相信我们的路径具有差异化,也在逻辑上自洽。但要说完全确信吗?并没有。
值得明确指出的是,这并不是我们与机器人领域其他人之间的对立。我在这个领域中最尊敬的一些人,恰恰押注在相反的方向。
Lachy Groom,Pi 的首席执行官,是我的密友,也是 Standard Bots 的 A 轮融资领投人。他以基础模型的视角在构建机器人,我认为这项工作非常重要。我们经常讨论这些问题,且目标一致:无论哪种路径能最快实现,我们都希望看到大量机器人走向现实世界。
不过,如果基础模型路线最终胜出,很难想象仅凭算力和算法,任何一家公司就能在模型市场实现“赢家通吃”。目前至少已有四家前沿 LLM 实验室,模型能力基本处在同一水平。按需智能正奇迹般地成为一种大宗商品。
如果要在这个市场中一骑绝尘,我的判断是,必须依靠数据和顾客关系来实现,有点像机器人领域的 Cursor。
假设为了论证方便,Google、Skild 和 Physical Intelligence 都解决了通用物理智能。在这种情况下,我认为真正掌握顾客关系的公司才拥有权力。那家公司可以在模型层面直接接入出价最低的一方。
这与 Packy 在 《The Electric Slide》 中所说的中国正在进行的一项押注有关:如果我是那家能够构建机器人并将其卖给顾客的公司,尤其是当顾客已经从 Standard Bots 获得价值时,那么我就希望模型商品化。我希望它们尽可能强大。让你的互补品商品化。
从长远来看,这对我们是有利的。将产品部署到现实场景中、卖给顾客并持续迭代,既是竞争优势,也是对冲。但我真正关心的只是这种优势。
我们相信,正如业内许多从业者一样,没有什么比成功让机器人在真实经济中工作更能促进人类繁荣。我们正站在“按需劳动力”的门槛上,由电子和智能驱动。这意味着更便宜、更优质的商品;意味着把人类从不喜欢的工作中解放出来。不必亲自给奶牛量体温,做农民会更有乐趣。这也意味着思想与实物之间的距离几乎消失。而这还只是第一层效应。我们无法预先知道,人们会为这支充裕的机器人劳动力构想出哪些令人着迷的用途;我们唯一能确定的是,这些用途都会是人们真正觉得有价值的事情。
我们都相信这一点。我们都希望为人类带来一次巨大的飞跃。悬而未决的问题是,我们如何从当下走到彼岸。
我相信,打造全球最大的机器人公司之路,是一次只吃下一个应用场景,把整个行业吃掉。而我饿得连一头牛都能吃下。
