机器人自主等级
本文信息来源:semianalysis

专用机器人自动化数百种工作,低自主性的拾取放置成本昂贵,通用自主性导航和检查大型场所,在早期试点中针对低技能劳动且前景广阔,研究中具备任何任务能力的自主性
机器人在制造业中应用了几十年,但它们仍然只能执行单一任务,只有在完美环境中才能发挥作用。以往对智能机器的尝试往往承诺过多而交付不足。但那时为时过早。如今,现代人工智能范式将大多数机器人障碍转化为数据问题,推动机器朝着曾经被认为不可能的能力发展。随着这些模型吸收现实世界的经验,机器人将提升现有技能,获得新技能,部署速度更快,占据越来越多的劳动力份额。
能够在任何领域准确执行任何任务的通用机器人现在已是必然趋势,大规模劳动力替代即将到来。然而,这些机器人将分层次到达,逐步增加更多能力,直到所有任务都变得可行。为了提供衡量这一进展的标准,我们推出了业界首个”机器人自主性等级”,将机器人技术分为5个不同等级。

每个自主性等级都由其解锁的能力定义,每个等级都在前面等级的基础上依次构建,以实现新的应用。为了具体阐述这些等级,我们提供了基于数据驱动的分析,涵盖当前部署情况、用例和经济效益、当前挑战以及活跃的进展领域。这些等级提供了一种任务分割方式,其中进展是累加的——机器人可能针对某一等级的任务,同时仍然受益于在其他等级开发的能力。
我们的自主等级划分基于商业可行性——而非仅仅是技术可能性。机器人自主性本质上与应用相关:只有通过往往不可逆的行动才能创造价值。因此,能力来源于可靠性和功能性。一旦可靠性得到验证,机器人还必须提供足够的吞吐量来证明其成本的合理性。
谢谢
我们与顶尖科学家进行了深入交流,调研了众多公司,参加了行业顶级会议,并深入研究了当代机器人学相关研究,以制定这一分类体系。
我们深深感谢合著者——行业从业者 Niko Ciminelli、Joe Ryu 和 Robert Ghilduta 的宝贵贡献。我们从合著者 Joe Ryu 的框架中汲取灵感来完善这一分类。没有外部专家的帮助,这个项目无法完成。

我们欢迎反馈:请就我们新的自主性分级分类进行任何讨论。您可以在大多数顶级行业活动中与我们面对面交流,如旧金山人形机器人峰会、CoRL、2025 年首尔人形机器人大会等。
描述自主性
通往完全自主性的道路始于精确的单一用途系统。但通用机器人必须重新开始,学习观察 、 规划 、 交互 ,并实现卓越的准确性 。在此过程中,它们的能力、应用和挑战可能差异很大。每个级别都可以通过以下两个维度得到充分解释:主动性和灵巧性:

通过将收益映射到智能体能力和灵巧性两个维度上,该框架展示了已取得的成就、该领域的现状,以及未来几年的预期发展。
目前,通用机器人已经在第2级的早期生产阶段投入工作,但很大程度上仍未进入公众视野。在第3级,通用机器人正处于自动化低技能工作的早期试点阶段,并开始展现其工作能力。虽然我们还处于早期阶段,但这种演进速度将比大多数人意识到的更快。
执行摘要
第 0 级:脚本化动作 – 机器人完全依赖预编程,需要静态环境和任务才能运行。
- 解锁:高精度,高重复性
- 能力:24/7自动化、高吞吐量
- 部署和使用场景(2025年):汽车和电子工厂的行业标准

级别 1:智能拾取和放置 – 机器人能够识别处于不同位置的物品,并将其拾取进行分拣。
- 解锁能力:通用感知、通用抓取
- 功能:固定式拾取和放置
- 部署和应用场景(2025年):在包裹物流中心采用拾取和放置分拣,随着功能和集成的改进,在更多仓储市场的渗透率不断提升

**第二级:自主移动** – 机器人能够理解开放世界,进行导航,并穿越各种地形。
- 解锁:高级规划、空间推理、稳健运动
- 能力:开放世界导航和穿越
- 部署和用例(2025年):检查和数据收集角色的早期生产阶段,例如建筑工地、石油天然气炼厂、关键基础设施等

**3级:低技能操作** – 机器人能够执行基础、非关键的低技能任务。
- 解锁:通用化操作能力
- 能力:高级拾取和放置、移动操作
- 部署和应用场景(2025年):在厨房、洗衣店、制造业和物流领域的早期试点阶段

第 4 级:力依赖任务 – 机器人能够执行需要力和重量理解的精细任务,例如在口袋中找到手机、在正确螺纹上拧螺丝等。
- 解锁:研究阶段
- 能力:精细、力依赖任务、细粒度操作
- 部署和应用场景(2025年):研究阶段

0级 – 脚本化运动

要理解机器人技术的转变,我们必须首先了解它的起点。当大多数人想到机器人时,他们脑海中浮现的是0级:几十年来主导工厂的自动化设备,帮助制造汽车、电子产品、飞机等。执行这些任务的机器人具有惊人的力量、速度和精度,但它们在没有智能的情况下运行,仅通过严格的编程和完美的任务/环境来操作。完全缺乏自主性,它们主要是工业工程和资本支出的纪念碑。它们代表着刚性的、单一用途的机器人世界,理解它们的本质对于认识向通用机器人技术的巨大转变至关重要。
当前视图
部署和考虑事项:被锁定

在 0 级中,机器人缺乏自主感知和对环境做出反应的能力,环境必须为它们完美设计。 一切都按照机器人的条件进行,其他所有事物和人员都必须服从。
这引出了 0 级部署的核心:“单元”。 机器人生活在一个笼子里,出于多种原因被围栏隔离,并采用特殊设计:
- 保护机器人周围人员的安全。这些机器人可能是专门为重型举重而制造的,使它们极其强大。然而,缺乏计算机视觉和自主性意味着这些机器人不会适应环境中的人类,并将继续执行其动作。相反,现有的安全保护措施通常是紧急停止(急停)按钮、光幕、控制屏障功能,但在复杂的世界中,这可能对人类安全来说不够可靠
- 该单元将机器人隔离开来,以限制可能改变其环境、位置或手头任务任何方面的外部干扰或扰动
- 每个单元都针对机器人和位置进行定制,使得手头任务的安装和编程更加简单

第 0 级的这种刚性使得自动化变成了一个工业工程项目。一条新的大型汽车装配线可能耗资 1000 万至 6000 万美元,需要数年时间建造。一位行业代表开玩笑说,这些项目有”生日”,需要数年时间才能完成。改造现有工厂甚至更加困难,对于独特的系统,集成成本极其昂贵。
集成:4到6倍于机器人本身的成本
由于改装成本差异巨大,让我们以一个具体场景为例:一个中等规模的汽车制造工厂改装了全新的、独特的白车身装配线——用于组装焊接车架。

通常,必须使用相同的系统集成商和机器人品牌+软件,以确保新系统不会中断工厂的流程。最终,总集成成本可能是机器人本身成本的 4 到 6 倍。建造和部署单元、配置相关系统(如 PLC、输送带/生产线轨道、MES 等)以及安装+测试都会产生巨额费用。可以首先构建概念验证(PoP),比如生产线的物理模型来测试系统(大多数应该这样做),但除非是高度独特的应用(如制药行业),否则大多数企业会选择跳过这一步。我们注意到,对于标准化的汽车解决方案,这可能占机器人资本支出的约 70%。

然而,这种巨大的成本和复杂性正是自动化历史上一直局限于汽车和电子等高产量、低混合度行业的原因。它是资本雄厚企业的工具,往往将大多数中型或小型工厂排除在实施任何程度自动化的门槛之外。相比之下,通用机器人技术旨在消除后续级别中的这些准入壁垒。
影响:效率与黑灯工厂
在 0 级阶段,机器人已成为某些行业的普遍补充。汽车工厂通常每座工厂使用 400-1000 台工业机器人,有些甚至报告使用多达 1650 台。在电子制造业中,机器人使用量较少,一个设施中约有 50-200 台机器人。这些可能是执行运输任务的 AMR、用于将零件静态安装到电路板上的 SCARA 机器人、铣削硬件零件的 CNC 机床,或用于机床操作的协作机器人。

汽车生产线可在不到两年内收回成本,之后运营成本降低近 75%。行业代表表示,在投资回收期后,这些工厂就像 “印钞机” 一样。一些设施甚至每天可以生产多达 2,000 辆汽车,而仓库机械臂通常可以完成约 10 个人的工作量且不会疲劳。机器人执行 0 级任务的效率促使亚马逊部署了数十万台机器人。例如,50 台机器人可以完成 200 名工人的大型装配和操作工作,每项工作的成本降低约 73%。

这种范式的巅峰是”黑暗工厂”,一个完全由机器人运营、无需照明的设施。FANUC 的一位代表表示,在日本有一家工厂,他们的机器人正在**每 80 秒制造一台机器人**。虽然这是工业自动化的顶峰,但仍被归类为 0 级。这些机器人完全是预编程的,环境/任务是完全无菌和受控的,与人类劳动的动态、非工程化环境毫无相似之处。相反,任务和环境是完全为这些机器人量身定制的,让它们能够执行任务、自我维护、更换自己的工具,并提前安排停机时间让人类进入并修复问题。
当前挑战:刚性问题
0级的根本困难在于机器人完全缺乏自主性。机器人无法自行诊断或解决问题,这会在后续创造一系列问题:
- 持续监督: 人类技术人员必须始终在现场(黑暗工厂除外)。机器人与人类的比例可能在 20:1 左右,在要求严格的工业环境中可能降至 12-15:1。大多数情况下,当人类休息吃饭或换班时,机器人也必须停止工作。如果这些机器人出现故障,停机时间可能造成巨大损失,比如汽车制造业每小时损失 200 万美元 ,或半导体晶圆厂每天损失 5000 万美元。

- 资本损耗: 程序编写的一个小错误、糟糕的集成或两个系统未能同步,都可能导致整个价值数百万美元的工厂无法运转。工厂现在变成了一个工业工程项目,而这种风险对于小公司来说太高, 将它们排除在自动化市场之外
- 不灵活性: 亚马逊这个工业工程的强者,必须围绕这些非自主机器人来建造其履行中心。事实上,与其让机器人更具协作性/智能性,他们发现改变工人更容易,方法是设计一种特殊的安全背心 ,当工人在附近时减慢机器人的速度。
展望未来
有希望的进展来源
对于第0级,我们看到成本降低是一个重要的前进路径。随着实际工资上涨和工业机器人价格下降,它们变得更具吸引力。这种趋势应该会持续下去。机器人作为制造业产品,意味着随着制造工艺改进、产量增加以及规模经济的发挥,机器人应该变得更具成本效益。

这将降低更广泛市场的准入门槛,使更多用户能够采用执行第0级任务的机器人,而无需工业工程专业知识或大量资本支出。
此外,大多数机器人都提供设备监控系统,如发那科的零停机解决方案。这些系统使机器人能够提前预测故障,减少对持续监督的需求,并增强黑灯工厂的潜力。虽然功能强大,但它们相对较新 ,并在不断自我完善。
最后,通过更”统一”的工业软件,这些机器人的集成可能会得到简化。系统集成商不再只部署一个品牌的机器人,而是可以即插即用多个品牌/配置,从而更快、更便宜地创建不那么挑剔的自动化系统。
虽然这些改进了脚本化运动系统,但挑战在于它们的完美应用。这些机器人只能在静态的、工程化的世界中运行,但真正的劳动力替代需要适应性和自主性。正如第1级将要强调的,感知变化的任务并适应它并不像听起来那么简单。
第1级:智能拾取和放置

在第 1 级中,机器人现在能够”看见”。 大约在 2015 年,我们看到了智能首次注入机器人技术,创造了一个新的自主级别,该级别后来在 2018 年左右尝试商业化。在这个级别中,我们将重点关注 2015-2022 年这个时期,即基础模型出现之前的时代。
当机器人从一级的静态任务中脱离出来,转向”拾取和放置”——从 A 区域拾取物品并放置到 B 区域时,机器人首次突破了 0 级的限制。拾取和放置存在于一个非完美的领域中,物体、配置和照明都可能发生变化。机器人必须泛化其感知能力来确定物体及其姿态,并相应调整其抓取方式——这对于 0 级机器人来说是不可能完成的任务。大规模数据集以及规模较小但至关重要的抓取数据集,通过释放灵巧性的一个组成部分: 泛化能力 (特别是在感知方面),推动了这一向 1 级自主性的尝试。有了足够的数据,机器人可以识别物体(有时是新颖的物体),识别各种姿态并调整抓取角度进行拾取。

商业化尝试转向仓储和物流的”拾取和放置”角色,将机器人部署在分拣线附近,通过从 A 箱拾取物体并放置到 B 箱来整理非易碎物品 。然而,这一智能机器人的首次尝试受到数据不足、AI 模型初期阶段、苛刻的吞吐量要求和高成本的瓶颈制约,所有这些都导致投资回报率未经证实。在 2015-2022 年期间,一些公司建立了 “机械臂农场”,进行数月的抓取操作来积累足够的训练数据。拾取成功率最终达到了 99%,但从 99%到 99.99%的 “最后一毫米” 几乎同样困难,而且即便如此有时仍不足以证明投资回报率。1 级迈出了英勇的第一步,并持续显示出线性改进,但这最终凸显了机器人自主性仍面临多少挑战。
如今,一些公司持续从线性改进中获益,AI 模型和部署解决方案的进步为面向 1 级拾取和放置任务的机器人创造了新的可行性。这些机器人目前正在解决其余的挑战 ,以变得比最初的尝试更有能力。

回顾过去 – 2015-2022
适应新颖性
虽然拾取和放置对人类来说很简单,但非静态特性对机器人来说是一个巨大的障碍。物品,有时是新颖的,可能到达时杂乱无章、被遮挡,或以新的方式呈现。这些变量中的每一个,连同阴影、反射或透明物体等挑战,都可能导致机器人的早期感知系统出现故障。它们可能错误识别物品、误判其位置和形状,并最终完全失败。这是超越0级的混乱程度。缺少的是什么?
- **问题 1:视觉感知和理解** – 在第 1 级之前,机器人上的摄像头主要用于验证动作和任务是否已完成。然而,从杂乱的箱子中自主抓取物体需要具有泛化能力的感知——能够适应新场景的感知能力。在第 1 级的抓取和放置中,这包括识别物品、从杂乱中辨别出来,以及估计其形状和姿态。这种广泛的视觉推理能力可能来自今天的**视觉-语言模型(VLMs)**,但在 2015-2022 年这个时期主要使用的神经网络需要大量带标注的特定应用图像数据集,而这种数据集在机器人应用中并不存在。

- **问题2:学习抓取** – 识别物品后,机器人需要抓取它而不抓到周围的其他物品。这要求抓取能力能够泛化到每次的新情况,但学习这一点需要大量的试错数据。在2015-2022年,开源社区和众包数据还没有今天这么大规模,所以数据收集来自现实世界中昂贵的机器人反复尝试缓慢的抓取。机器人可以在虚拟环境中行动和收集数据的仿真器当时还不够强大,无法替代物理数据。它们受到所谓”仿真到现实”差距的困扰,即仿真中的物理、环境和动作与现实不匹配。在这个时代,仿真到现实的差距明显更具挑战性,而且至今仍未得到解决。
开始的火花
解决这两个问题的第一个征象来自计算机视觉领域,实现了可泛化的感知。大规模 ImageNet 数据集的创建(2009 年)以及 AlexNet 等神经网络的成功(2012 年)展示了计算机视觉的潜力。这随后引发了许多新项目,如 YOLOv1(2015 年),它实现了用于定位物体的实时目标和边界框检测,Mask R-CNN(2017 年)则通过”掩码”实现了形状估计,将物体从其余部分中分割出来,最后是 PoseCNN(2018 年),它仅用立体相机就将这些技术结合起来,实现了物体的 6D 姿态估计。通过这些努力,模型首次具备了早期的可泛化感知能力,能够在多种情境下理解多个物体。

虽然感知最终实现了泛化,但仍然很脆弱 。系统仍然容易被新颖物体、反射或透明物体、阴影或过多杂乱所困扰。然而,在 2015-2022 年这个时代,许多人将这些进展视为支持机器人感知的机会;也许机器人现在可以将感知泛化,识别物体及其抓取姿态。

感知能力的这一突破激发了研究人员尝试收集机器人抓取数据集,其中一些如 Pinto & Gupta (2015) 显示 700 小时的机器人抓取尝试使他们的机器人达到了 80%的抓取准确率 。

虽然这种”自适应抓取”对机器人技术来说意义重大,但 80%的准确率并不满足大多数商业应用的门槛。每次失败的抓取通常由于机器人缺乏自主性而无法自行解决,40%的时间需要人工干预。由于这些通常是不安全的工业机械臂,人工必须暂停整个仓库生产线,解决问题,然后恢复流程,导致平均恢复时间约为 6 分钟。

随着规模化数据在机器人学习中展现出前景,更多项目开始涌现,比如 Levine et al. (2016) 发布了大约 3000 小时的抓取数据,并在微调后达到了 94.6%的抓取预测准确率。然而,大规模数据集主要来自计算机视觉领域,机器人技术可用的抓取数据要少得多。
即使在现代机器人数据蓬勃发展的时代,这个领域仍然很小,而在那个时代数据更是少之又少。

最终,一些公司决定通过机械臂农场自行生成海量数据来学习抓取技术。他们确实在几个月内收集了巨大的数据集,但99%的成功率往往还不够。更糟糕的是,从99%提升到99.99%需要**81倍**的改进,这比最初从1%-80%的提升幅度还要大。一些公司能够达到这个水平,但这变成了一项西西弗斯式的任务,每个新物品和每次失败的抓取都会让成功率倒退。然而,复杂的集成和低自主性最终成为许多公司最大的瓶颈,至今仍是一个问题。

部署和考虑因素:狂野西部

在 2015-2022 年期间,将这些 AI 机器人集成到优化且严苛的仓库环境中——在这种环境中 98%-99%的交付都能准时完成——成了一个充满模糊估算和即兴解决方案的”狂野西部”。与 0 级项目不同,这些拣选和放置机器人面临的挑战不仅是物理层面的,还包括信息层面的。
将这些机械臂和工作单元集成到仓库生产线中可能需要花费 9 万到 18 万美元。但机器人还有一个新的定制 API,必须与协调所有库存和物流的设施仓库管理系统(WMS)完成”握手”。通常,机器人的 API 在构建时并未考虑 WMS。因此,WMS 必须更新以适应这种握手缺口,而 WMS 更新失败可能造成数千万美元的损失。作为变通解决方案,可能会使用第三方集成商,部署费用高达数十万美元。大多数情况下,会使用权宜修复来同步系统,比如 GUI 自动化代理,这是一种仅仅模拟人类点击正确按钮的程序。

由于机器人需要完整的工位安装,集成商选择了理想且成本较低的位置,比如两条水平传送带之间的拣选放置工位。困难的位置,如垂直货架,被跳过了,因为大多数机器人都是在水平应用中学习的,将生产线重新配置为水平方向成本高昂。通过筛选合适的位置,安装可能只需要4周时间。

即便如此,仓库实施这些机器人的决策周期可能需要数月时间,一些客户最终选择将机器人仅安装在他们自己的独立区域,远离可能破坏仓库流程的机会。
尽管如此,这些机器人的自主性仍然太低。员工通常不是被”替换”,而是围绕机器人重新组织。他们通常执行机器人生产线的前/后处理工作,或成为机器人技术员。
影响:狭窄的盈利市场
第 1 级的前景巨大:实现低技能、高流动性拣选放置工作的自动化——为机器人开辟了新市场。任务的基础性质使其看起来很适合能够做到这一点的机器人:拣选和放置。企业有巨大的自动化动机,因为工资充满了”附加成本”。例如,我们听说亚马逊的员工流失率为每周 2%-4%。这意味着每 100 名车间工人,到年底可能会有 104 名工人辞职。因此必须不断招聘、入职、培训和提升生产力,使得工资比没有人员流失的情况高出 56%。事实上,亚马逊目前正面临危机,在某些地区已经轮换了所有低薪工人。

成本不仅巨大,而且不断招聘新员工的物流工作也很繁重,许多招聘潮可能导致大多数人在第一周内就辞职。这些挑战和成本使得这个岗位很适合用 AI 驱动的机器人作为可行、稳定的劳动力替代。然而,许多人发现商业案例高度依赖于任务的具体情况。
考虑高混合、低吞吐量的任务,如电商履约,机器人必须以适中的速度拣选各种各样的物品。

将累计拣选次数除以累计成本,我们在下方展示了每次拣选成本随时间的演变。在电商案例中,机器人的每次拣选成本在 3.5 年内都无法降至人工水平以下,其有效拣选率仍低于人工,11 台机器人才能完成 9 个人的工作 。

电商类仓库生产线为我们的智能拣选和放置机器人带来了一个有趣的挑战:匹配人工准确拣选多个物品的能力。虽然人工可能一次拣选 5 个物品,但这些机器人可能需要逐个拣选,无法达到人工的吞吐量。然后,如果机器人能够拣选得足够快,周围的传送带和前/后处理系统会被锁定在特定速度,或被两端的人工操作员堵塞,再次限制了吞吐量。仓库可能通过安装更多机器人来弥补这一点,但成本会变得过于昂贵。更糟糕的是,物品的”高混合度”很可能带来过于新颖的物体/场景,难以成功抓取,因此许多系统必须达到 99%以上的成功率来减少六分钟的停机时间。总而言之,这种特定配置使得智能拣选和放置机器人的成本难以得到合理证明。

然而,第 1 级引入了一个新的升级: 重试 。如果任务失败,机器人可以检测到错误并重试(几次),而第 0 级的错误会立即冻结流程。让我们以”包裹”拾取和放置为例,物品装在包裹中——统一的盒子和带标签的包装。

包裹拾取和放置为智能拾取和放置机器人带来两重好处:包装可能很重,会让人类感到疲劳从而降低吞吐量基准,而且它们相当统一,因此失败的拾取可以更容易地重试和解决,因为这不太可能是电商中出现的泛化错误。
机器人的目标是每小时 550 次拾取,但即使在这个领域达到 95% 的准确率,也能实现 520 次的有效拾取率。

在这种情况下,我们看到 10 台机器人完成 23 名人工的工作 。在这些条件下,机器人的单次拣选成本在一年后就降低到了人工成本以下。

那些瞄准第1级拣选和放置的机器人找到了一个利基市场,但仅限于拣选和放置的非常特定领域。虽然回过头来很容易理解什么有效、什么无效,但这在当时是全新的。我们询问了一些公司为什么他们一开始没有瞄准包裹领域,其中一个公司的回答概括了那个时代:我们不知道,我们意识到得太晚了。这是向智能机器人技术的首次尝试,虽然包裹市场比电商市场小,但自主技术简直太超前了。
挑战:脆弱智能的局限性
在 2023 年之前的这段时期,感知能力还有困难。一些公司试图通过在实验室的机械臂农场中复制部署现场来规避脆弱的感知问题,遵循机器人要抓取的相同物品目录,甚至部署特定的静态照明设备。这些防护措施大多只能部分解决缺陷。 相反,25% 的亚马逊商品目录都在”排除清单”上 ,这是一个由于失败风险而不能被机器人抓取的物品清单。
这个时代的灵活性仍然处于萌芽阶段。 如果公司引入新物品,他们会用机器人进行测试运行,如果抓取失败 5-10 次,就同样将其列入排除清单。此外,由于缺乏稳健的泛化能力,机器人可能会同时抓取多个物品,再次打乱仓库流程。当时可用的泛化能力根本不够稳健。
虽然其他任务看起来相对简单,只是拾取和放置的变化,但它们可能引入不同的挑战。以叠衬衫为例,这对机器人来说似乎是一项简单的任务。实际上,像衬衫这样的物体是可变形的且 “高维” 的。机器人的神经网络会首先对衬衫上的每一个皱纹、折痕、褶皱等进行分类来理解它。这被称为”状态爆炸”问题,对于强化学习来说特别困难,因为模型试图将过程中的步骤验证为好或坏的决策,而现在可能存在数量惊人的组合。 在第 1 级,叠衣服成为了那个时代的”圣杯”。

当前时刻和展望未来
令人期待的进步来源
2023 年之前的时代充满了缺陷,让许多行业专业人士伤痕累累。然而,如今针对第 1 级拣选和放置的公司已经创造出可行的解决方案,解决了许多挑战并完善了他们的系统。一些公司正在实施端到端解决方案来解决无法拣选的物品问题,降低故障率和恢复时间,并缓解排除清单的弊端。模块化系统现在可以绕过物理集成,提供更高的吞吐量,尽管成本更高。内部操作系统现在允许简化、更便宜的 WMS 集成。甚至模拟器也已经足够强大,能够引导基本包裹拣选和放置数据。
但重要的是,许多机器人正在利用基础模型进行深入的、可泛化的感知和空间推理。我们将在第 2 级中探讨基础模型为机器人提供了什么。
第2级 – 自主移动性

在第 2 级中,机器人获得了通用自主能力 。它们现在能够规划自己的任务并自主穿越开放世界。这种能力以前是不可行的,旧模型会因为开放世界中不断变化的场景、地形和物体而感到困惑;僵化的移动方法在这种混乱中会显得不足。
相反,在第 2 级中,机器人获得了主体性 ,通过基础模型和视觉-语言模型(VLMs) 的最新进展获得了更高阶的规划和空间推理能力。此外,机器人现在具备了灵巧性 ,能够通过大规模仿真强化学习穿越困难地形。这种运动方面的灵巧性使机器人能够在移动中表现出敏捷性。这两种方法都利用海量数字数据集进行学习,而不是收集每种场景的数据,从而缓解了数据稀缺的挑战。在第 2 级中,机器人能够自主感知和理解周围环境,规划路径,并使用其强健的运动能力在开放世界中长时间机动。
第 2 级的通用机器人目前正在早期生产阶段部署,用于在建筑工地、石油天然气炼厂和基础设施场所等大规模领域中承担数据收集和检查任务。这些场所往往规模过大,人类难以有效覆盖,成本过高难以布设廉价传感器,对人类过于危险,或者位置过于偏远,人类检查成本过高。相反,这些配备了额外传感器的机器人可以利用其自主能力来规划和执行这些任务。
这些自主机器人是通用革命的首个证明。这种向主体性的跨越在后续各级中产生深远影响,成为通用机器人技术的起源。
当前视图
进入开放世界与主体性
自主移动的核心挑战是开放世界,这是一个没有严格结构或可预测性的环境。与0-1级的工程化环境不同,开放世界是一个混乱的集合,包含不断变化的场景、障碍物、地形和天气。要在这里运作,机器人必须超越简单的感知和传统的刚性规划,转向场景理解和高阶规划。然而,早期的算法还不够稳健,无法胜任这项任务。
我在哪里?——在环境中定位
开放世界并不总是提供静态路径,机器人必须确定自己相对于环境的位置,否则它可能会迷路。这需要持续的地图更新,更新中的小位置误差会随着时间累积,将英寸级的误差扩大到英尺级,让机器人陷入困惑。这种误差可能决定了机器人是充满电还是成为地板上的死机器。高级产品可能无需额外措施就能解决这个问题,但大多数可能仍需使用AprilTags,这是类似二维码的贴纸,用于机器人重新定向和校准,放置在充电站。这些可以设置固定的预编程路径或行为来引导机器人。

- **第一个解决方案:SLAM** – 对此的主要工程解决方案是同步定位与建图(SLAM)。利用传感器和数据,如激光雷达、速度、时间等,SLAM 算法使机器人能够构建其周围环境的”地图”,同时跟踪其在地图中的位置。然而,SLAM 仍然**局限于**几何表示。开放世界环境不断变化,需要更”认知”的理解来减少这种漂移或错误潜在可能。SLAM 本身可能并不充分,而是一种**补充**。

规划、推理和场景理解
一个机器人可能知道自己的位置,但如果没有明确编程,它可能仍然不知道该做什么或周围有什么。要在混乱的环境中导航,机器人需要对其世界有更基础性的理解 。例如,机器人可能需要既要区分黑色水坑和沥青路面,又要规划下一步行动。感知失败可能导致将水坑误认为不是危险。或者,规划失败可能导致机器人在错误的时间躲避水坑。
突破:基础模型
最新的基础模型为机器人提供了推理和长期规划所缺失的关键要素。通过在互联网规模的文本数据集上进行训练,机器人不再需要将每种情况都编写成代码或通过昂贵稀缺的真实世界数据进行显式学习;相反,它可以将庞大的知识库泛化到新的情境中 。这些模型能够将情况转化为逐步的自然语言描述,并对其进行推理,从而释放出更广泛的能力。
视觉-语言模型(VLMs) 作为一种基础模型,能够桥接语言和视觉模态,实现视觉推理和问题解决。这些基础模型在由图像、标题和描述组成的大规模互联网数据集上进行训练,并在机器人特定数据上进行微调,以实现更好的空间推理 。现在,机器人可以广泛泛化感知能力,缓解了以前机器人感知数据不足的问题。
所有这些构成了机器人新获得的自主性 :通用化的规划、推理和感知。机器人现在可以在许多新颖环境中遵守和执行指令。例如,在”去梯子后面的楼梯”这个命令中,VLM 会识别物体及其关系,然后将场景转译给基础模型来制定”向梯子左侧移动,然后向右朝楼梯方向”的计划。这种”思考”循环赋予机器人在长时间范围内感知和导航开放世界的自主性。

敏捷运动 – 灵巧性
这种代理能力伴随着运动灵巧性的提升。仿真器不再通过实际部署收集各种可能配置的数据,或者硬编码大量控制逻辑,而是在很大程度上介入解决运动灵巧性问题。仿真环境现在提供稳健、广泛的训练平台,可以在大量环境配置上快速迭代运动控制策略,这些配置通常比部署环境更加困难。
这些仿真器改进得足够好,经过充分微调后,大部分习得的运动技能都能转移到现实世界的部署中,显著缩小了” 仿真到现实 “的差距。现在,机器人可以利用其新的运动灵巧性稳健且敏捷地穿越不平地面、斜坡、不稳定地面(岩石、沙地、建筑托盘),甚至在电机损坏的情况下仍能运动。 随着这些突破,我们看到四足机器人的运动能力在第 2 级达到了改进的拐点。

硬件提升
最后, 硬件方面的发展为这些机器人的自主性提供了充分的支撑手段。机载计算能力的进步,如英伟达 Jetson,使机器人能够接收和处理大量数据。多个传感器 、 摄像头和激光雷达现在都可以用来生成高质量的实时感知数据,使机器人能够快速适应环境固有的随机性。最后,高效率执行器和增强型电池使这些机器人能够在开放世界中执行长期任务。
部署和考虑:开放世界中的智能体

2级机器人可能采用以下形态:

但值得注意的是,四足机器人得到了解锁 。大规模仿真平台的进步使得对其四条腿的稳健控制成为可能,从而能够以灵巧性穿越地形,而它们的智能体能力可以确定场景并进行规划,这两项在 2 级解锁之前都是具有挑战性的。

重要的是,这些第二级别的机器人不再需要数百万美元的设施工程。它们的通用自主性意味着可以在新环境中仅需 1-3 周就能部署,学习其领域并可靠地执行任务。然而,电池续航时间决定了一个站点需要多少机器人或充电器。由于四足机器人的平均电池续航时间可能为 90 分钟,人们可能需要购买更多四足机器人或充电站 ,从而增加成本。
这种自由度在工作场所引入了一个新问题:安全性。对于具有自主移动能力的机器人,如果它们摔倒或着火,无法通过拔掉插头来停止它们。它们的挑战更多转向确保不造成财产损失或人身伤害。例如,开放世界的地形可能对机器人周围的人构成危险,比如光滑的表面导致70磅重的四足机器人摔倒压到某人的脚上,或者翻滚下楼梯撞到某人。可能实施的一些措施包括:
- 强大的碰撞避免功能——引导机器人避开静态或动态障碍物
- 速度和分离监控——跟踪附近的人类,使其能够保持安全距离
- 操作指导原则以及向机器人的人类同事发出机器人存在或意图信号的听觉或视觉提示

意义:解锁检查和数据收集角色
通过自主移动能力,这些机器人可以在开放世界环境中移动,决定路径,避开障碍物,并在各种地形上行进数小时。这些自主机器人通常在大规模领域中工作,如建筑工地、石油天然气站点、化工厂和校园式环境。关键在于它们能够自动化数据收集和检查任务,这些任务只需要自主移动能力和一些数据收集工具。这些类型的站点和任务具有细微差别,通常:
- 规模过大,人类无法有效检查,或者传感器化成本过高
- 过于关键,不能冒险让人类执行不力
- 对人类来说过于危险,无法继续进行
机器人现在又将劳动力市场的另一部分纳入了它们的领域。让我们看看一些例子。
建筑施工
有时候,建筑工地一周内计划完成的工作只能完成不到一半,由于涉及管道、电气、砌墙等多个方面,各项进度很容易在混乱中丢失。通常约有 40% 的建筑返工源于记录不当,这可能导致成本增加高达 20%。对工地进行全面检查或”记录”应该能解决这个问题,但对于建筑公司来说,这意味着要占用最资深监理人员 8 小时的工作日 ,而且缺乏专业化或客观性仍可能影响记录质量。

相反,许多公司将此外包给外部公司。例如,一个 200 间客房的酒店项目在州法规下可能规模足够大, 需要土木工程师或持证测量师来执行采集工作。这些工作可能每隔一周进行一次,费用超过 100 万美元 。具有自主移动能力的机器人可以自己处理这些采集工作,配备适当的摄像头/传感器/激光雷达以进行更客观、更详细的采集。完成后,它可以潜在地移动到第二个工地并在同一天执行另一项工作,这是人工团队难以匹敌的。

石油天然气
一个中型炼油厂可能在多个实施阶段中投资数百万美元,耗时多年来完全传感化其机械设备——跟踪泄漏、振动和热量。虽然成本和时间线都很重要,但这项投资至关重要:一小时的计划外停机时间成本高达 50 万美元 。相反,配备合适传感器的防爆四足机器人可以巡逻多个站点,收集更精细的数据,比如诊断热力图,成本只是一小部分 ,同时让人类远离危险。
关键基础设施
检查风力发电机、电力场所和海上钻井平台都是关键工作,但这些工作对人类构成巨大危险,通常需要停机以便进行人工检查。例如,传统数据中心可能会在大雨中停机并需要进行变电站检查。相反,我们了解到四足机器人已经能够在不停机的情况下自动化完成这种检查,为设施每年节省了大约 35 万美元 ,并可能拯救人类生命。

虽然这些都是很好的例子,但它们仍处于早期生产阶段,目前正在更多场所部署,如半导体工厂 、 钢铁厂 、 轨道基础设施 ,或用于最后一公里配送。
当今2级自主性挑战快照
机器人技术中的自主性目前面临许多困难,这些困难将影响机器人在各个级别的表现。以下是这些挑战目前如何影响机器人在第2级的胜任表现,以及可能的解决方法。
代理能力带来了新的挑战,通常通过足够的微调来修补,但并未真正解决。为了在社交环境中更好地运作,机器人需要更多的社交意识来理解人类要求它们做什么,或者确定应该听从哪个人的偏好。虽然规划能力得到了释放,但机器人仍可能误判位置,导致许多机器人依赖激光雷达作为安全检查。
复合误差仍然是一个问题。 机器人在导航和定位方面仍然不够高度准确。大多数机器人可能会使用放置在兴趣点周围的 AprilTags——比如执行另一项任务的特定位置——来确保准确定位。

运动灵活性仍然是一个挑战,需要使用变通解决方案。 在第2级中,这意味着像深泥、冰面或透明玻璃等地形目前仍然难以穿越,可能需要额外调整,或者完全避开。
协调多个自由度——机器人可以移动的方式数量——仍然很困难。 例如,双足运动确实存在于第 2 级中,但增加更多自由度(DoF)会增加一层复杂性,使稳定性和精确导航变得复杂。当各家厂商的双足行走变得更加稳定时,可能会使用额外的工程技术,如 AprilTags 或专门的策略,来修补这些问题。
展望未来
有希望的进展来源
这些自主性挑战正在多个方面得到改善。对于灵活性 ,运动仿真平台可以持续改进,使地形穿越更加稳健。双足运动应该会随着更多数据和学习的积累而得到改善。
智能体能力应该会通过更多数据和进一步学习而提升。合成数据生成目前正在通过视觉语言模型中的视觉数据增强进行,其中数据会被略微修改以生成更多、更多样化的数据,从而增强学习效果。随着视觉语言模型中视觉推理能力的提升,激光雷达可能会逐渐从机器人中剥离出来。随着视觉推理和定位能力的改善,我们可能会看到 AprilTags 的使用减少。此外,开放世界的部署有助于收集更多边缘情况的数据,这可能会引导生成更好的合成数据,并扩展学习规模。随着这些挑战的解决,我们预期机器人自主性将得到改善,并在目标市场中持续部署和改进,直至实现高度自动化。
第2级标志着通用机器人技术的开始。向自主性的飞跃为所有未来进展提供了认知基础,下一步是在这种通用自主性基础上增加操作能力。
第3级 – 低技能操作

我们在 0 级自动化中看到,脚本化自动化和操作在经济上是无价的 ,以超人的速度制造汽车,但仅限于工程化任务。1 级展示了突破到智能拾取和放置的情况,但机器人只在非常有限的用例集合中可行。在 2 级中,我们看到机器人中的代理能力对于在长时间范围内在开放世界领域中安全操作是极其宝贵的。 现在在 3 级中,机器人迎来了一种基本类型的可泛化操作:
- **操控**:有目的地、结合情境与环境交互并改变其状态的能力,例如推开门、从把手处抓握、从边缘托住盒子等。
机器人可能很好地感知物体,但这并不意味着机器人具备与之交互的必要技能。在第3级中,机器人现在理解物体如何提供操控可能性,并且现在具备了直接泛化这种操控动作的灵巧性。利用机器人的主动性,这些操控能力可以是更长时域的,包含多步规划。这两种能力都与第1级的短时域、角度抓握有所不同。将这种可泛化的操控与从第2级获得的自主移动性相结合,我们现在看到了应用中通用移动操控的引入。

第3级标志着第一代能够针对行业的通用机器人,从第1级的基础任务向技能发展,如烹饪或清洁。在厨房、洗衣房、工厂和仓库等领域,早期试点项目正在进行中。然而,它们的低技能任务——我们称之为“高级拾取与放置”——是适度的、更长时域的任务:操控/拾取物体,可能移动到其他地方,并执行进一步的操控,或”放置”物体。虽然适度,但这种能力正被用于烹饪、折叠洗衣物和分拣/整理非易损物品。第3级的部署是即插即用的,机器人从人类远程操作——远程控制机器人——和界面(如平板电脑)中学习,而不需要数月时间和数百万美元的工程投入。
能够完成 Level 3 任务的通用机器人可以自动化全球劳动力的一个特定部分,尽管还不是人类劳动的全部范畴——这是Level 4所承诺的含义。目前,前述 Level 3 的早期试点用例正在显示其有效性,这些任务符合以下条件:
- 大成功标准: 任务并没有精确约束,即将物体从 A 箱移动到 B 箱、将杯子放在桌子上、搅拌锅子、将箱子从位置 A 移动到位置 B 等
- **低吞吐量或异步执行**:该任务节奏较慢、无需满足吞吐量计算要求,或可与其他正在执行的工作异步进行,比如夜间作业
- **可重试性**:与 Level 1 类似,该任务需要支持重试,使得执行失败不会造成财产损失,特别是在 Level 3 中,不会伤害人员
- **无力觉或重量感知**:这些机器人目前没有触觉感知,仅在关节层面具备基础的力反馈。它们可能无法执行精细的、依赖力度的操作任务,比如拧开新颖的瓶盖。
当前观点 – 早期阶段
需求 – 可泛化的操作能力
为了在一个一切都在不断变化的环境中操纵物体,像第 1 级这样的弱智能抓取能力是不够的。机器人必须能够适应其动作,在给定的情境下充分操纵物体。这需要可泛化的操作能力 ,即物理 AI 赋予机器人灵巧性 ,充分生成特定任务和环境的动作来操纵物体。
学习操作 – 当今有意义的内容
虽然第 3 级仍处于非常早期阶段,但我们看到可泛化的操作能力从 VLMs 中取得了有意义的成果。目前,VLMs 已经改进,提供了更强的空间推理能力,并增加了输出动作的能力。但要输出动作,我们仍然需要机器人从动作数据中学习。
开源与数据增长
在第 1 级中,我们看到了数据稀缺问题的挑战性。幸运的是,机器人技术在数据方面经历了相对增长的幸运时期,低成本遥操作硬件的发展,如 GELLO(2023),使世界各地的用户能够收集并开源他们的机器人动作数据。在过去几年中,许多数据集被发布,慢慢积累了足够的数据来学习基本的操作任务。现在,如果我们用这些动作数据训练我们的 VLM,我们就得到了一种新型模型。

视觉-语言-动作模型
简称 VLA,通过添加动作模态来扩展视觉-语言模型(VLM)。在配对的图像/文本/动作数据上训练,无论是端到端训练还是通过微调,VLA 意味着 VLM 可以读取场景,解释任务,现在还能输出动作计划 。这些 VLA 可能有两种形式:
- 任务特定 :用于高级规划的 VLM 或改进的 VLM,以及用于特定任务/动作的额外模型
- **Singular**:一个 VLM 模型执行所有推理、规划和行动
模型的代理性理解任务”是什么”并能据此进行规划,模型现在直接输出行动计划本身,从而立即改善灵活性。利用其庞大的互联网规模知识,机器人现在全面解析新任务和环境,VLA 的行动在现场执行新颖、流畅的动作,针对场景量身定制。
几年前极其复杂的任务现在变得可行。第 1 级中的“圣杯”——折叠衣物现在是可行的,不再需要枚举和计算衬衫上的每一条褶皱。VLA 从互联网数据中理解”袖子”或”领子”等抽象概念,多模态推理任务的执行方式,现在规划并输出所需的操作。

现在也可以处理更长时间范围的抽象任务了。在这些模型中,”清理卧室”这项任务如果无法理解这个特定卧室有什么”问题”以及如何清理这个卧室,就会非常令人困惑。现在,它可以通过 VLA 的高阶规划分解为一系列基于上下文的子任务 ,比如”拿起枕头”或”整理毯子”,这些都由模型按时间顺序排列,并生成相应的行动计划。
我们承认,第 3 级任务不需要极高的精度或力度和重量理解,可以把高精度约束放在一边。此外,这些机器人很可能会比较缓慢,因为模型学习的是来自遥控操作演示数据的精细、细致特性。而且,在 VLM 中添加操作/动作功能会大大消耗上下文窗口,并减少我们在第 2 级中拥有的时间范围,目前使得这些任务最长只能持续几分钟。

然而,就像在 2 级中 VLM 的出现创造了一个持续改进导航的正反馈学习循环一样,VLA 可能为机器人灵巧性创造同样的循环。随着机器人在物理世界中持续行动和推理,它可以持续收集数据、学习和改进。虽然 VLA 前景广阔,但它们可能也不是完整的解决方案:可能会为精确的低级控制实施特定任务的模块/策略,而顺应性控制可能用于对抗相反的力,还有许多其他方法。
这一自主级别和移动操作机器人的出现,现在提出了向更大规模劳动力替代的巨大飞跃。
部署和考虑因素:机器人同事

0 级和 1 级机器人可能需要数百万美元的工程项目和定制软件集成,比如仓库管理系统(WMS)的集成。然而,面向 3 级的机器人可以像人类员工一样进行部署。一些公司将它们投放到现场,让远程操作员阅读平板电脑,并执行工作流程来收集数据和训练模型。远程操作的数量会因任务复杂性而异,但远程操作成本很低,通常外包给新兴市场,而且往往得到投资者补贴的支持。

这种集成的便利性从根本上改变了经济等式。关键指标不再是针对大量资本支出的多年投资回报率。相反,这些机器人可以通过按小时计费的机器人即服务模式在几天内实现收入为正。这打破了 0 级和 1 级机器人之前的准入门槛,这些门槛将大多数中型或小型企业拒之门外,现在使得更广泛的企业都能使用这些机器人。
虽然移动操作技术已经存在,但仍处于非常早期阶段,并且仍面临安全问题。它必须到达任务地点并了解自己的定位才能行动,因为任何位置偏差都可能损坏财产或伤害人员。早期部署很可能会在围栏区域内进行,直到这些物理安全挑战得到解决。

双足平台对某些人来说很有吸引力,因为它们能够在髋部”弯曲”来执行任务。然而,双足运动,即用两条腿行走,本质上是一种不稳定的行为。它需要不断调整平衡以确保下一步的准确性。携带物体现在增加了新的质量,运动系统在行走时必须考虑到这一点。初期的双足试点项目虽然可能具有功能性,但可以用轮式底盘机器人来替代。

在人类周围操作的机器人需要严格的安全要求。由于机器人的自主性在早期阶段仍然不足,某些安全措施可能仍需要实施/到位。 远程操作监督 ——即机器人由远程操作员监控——目前对这些机器人来说是必须的,以防出现问题时需要人工干预。尽管如此,复杂情况仍可能出现,例如在故障发生后远程操作机器人、远程操作中的延迟问题等。对于更直接的措施,一些部署可能使用:
- 势场:机器人在物体周围映射的空间以及物体可能对机器人产生的力
- 风险感知建模:评估碰撞发生的概率并相应地进行规划
- 速度和分离监控:正如我们在第二级中看到的,跟踪人类并保持安全距离
在部署考虑因素得到解决后,目前第3级机器人正在尝试承担哪些角色?
影响:低技能劳动力替代
虽然第 3 级机器人存在一种原始形式的通用操作能力,但仍处于非常早期的阶段。目前机器人的试点测试发现,它们的任务符合我们之前提到的条件: 成功标准的范围较大,吞吐量低至无或异步,可重试,且无需力感应或重量感应。 在固定应用中,机器人可能执行一系列操作来完成更长周期的任务。但大多数时候机器人会利用其移动性,比如在 A 位置拾取非易碎物品,然后移动到 B 位置放置物品。有了这些新能力,机器人将劳动力的很大一部分纳入了它们的作战范围。
虽然我们目前的条件是角色的独特特征,但它们规模庞大且相当昂贵。这些机器人获得优势的方式与第一级的目标相同:减轻加载成本。例如,在旧金山,餐厅的员工流失率每年可达170%,而招聘、入职、培训、缺勤和生产力提升过程导致的成本比单纯的低技能工资更高。以下是我们看到机器人在第三级中尝试的当前角色。

- 餐厅或食品服务中的烹饪: 机器人的食材已经预先分装好,它可以执行长期的、宽松的烹饪任务,将这些食材通过基本的连锁操作组合在一起。餐厅往往是最劳动密集型的行业,需要大约 3 倍于医院的员工数量才能产生相同的 100 万美元收入。

- 工业洗衣: 曾经看似不可能的操控可变形物体任务变成了可行的夜间工作,目前主要折叠重复物品,如毛巾、床单、枕套、餐巾等

- 物流:“仅供库存”工作流程,如仓库线的非关键补货或设置补充区域,这些都没有时间或空间限制。机器人可以在一个位置拣选各种物品并将它们放置到另一个位置,例如:补充货架、转运周转箱,或在设施内运输货物或储物箱。

- 制造业: 执行生产线旁的转移作业并补充装配线和线边库存。例如, 零件排序和为第二天的装配组织材料。

还有其他任务可能符合我们当前3级任务的标准,但我们没有列出,比如修剪树篱、景观美化或其他家政工作。虽然其他角色可能看似满足我们成功标准的大空间、低到零吞吐量计算、可重试、且无需力或重量感应,但现在判断会发生什么还为时过早。
幸运的是,如上所列,存在一些小众角色,这些角色只需要低技能操作能力,通常还需要自主移动性。凭借这些角色、工人的高负载成本,以及出色的机器人即服务(RaaS)模式工资,第 3 级机器人非常适合直接替代劳动力。我们预期随着这些机器人的改进,它们将自动化越来越多的低技能劳动部分。然而,在本文发布时,这些机器人仍处于非常早期的阶段,正面临着自身的障碍。
当前第3级自主性挑战概况
虽然第 3 级还处于非常早期的阶段,但在让机器人可靠工作方面仍存在一些困难。内存架构尚不足以泛化过去的经验,限制了机器人在新情况下执行任务的表现。 定位和复合误差使机器人难以精确导航到任务位置并为操作定位自身。有些可能会使用 AprilTags 来解决这个问题,采用不易出错的分析方法,或者对机器人进行足够的调试以可靠地执行任务。

虽然这些能力确实存在,但这并不是一个简单或便宜的成就。远程操作员可能会使用一段时间,机器人的速度不会很快,而增加新的动作只会增加难度。复杂的动作,如全身控制——比如扭转或弯曲——为问题增加了另一层难度。第3级的许多问题都可以通过更多的学习数据来解决,但移动机械手对数据需求量很大,而且仍处于早期阶段。

展望未来
有前景的进展来源
虽然 Level 3 正在部署并产生经济影响,但我们仍处于非常早期的阶段。VLA 和遥操作数据目前显示出有意义的进展,可能会继续扩展学习,或者其他进展途径可能会有所帮助。模拟器可能会在操作学习方面发挥作用。我们有早期证据表明模拟器的速度大幅提升,由于视觉合成数据的一些优势,sim2real 差距的某些方面已经开始缩小。合成数据和数据增强方法正在进步,在扩大导航、操作和控制的数据收集方面证明是有用的。甚至进一步推进真实数据,比如持续的开源数据收集,或现场部署以收集特定领域、特定任务或边缘情况数据。在大多数情况下,我们看到更大、更多样化的数据集在扩展学习,完善它们的能力并解决当前的挑战。
部署
在它们的部署中,我们预期这些执行 Level 3 任务的机器人会慢慢摆脱遥操作监督和操作措施。即时措施,如势场或风险感知建模,应该会随着自主性的改善而消退。遥操作监督将从最初的 1:1 机器人:人工比例扩展到可能 10:1,但这个比例应该会持续增加,直到自主性接管。此外,这些自主机器人最终可能会直接连接到 WMS,优化它们的任务/行动,并通过与系统的完全集成来增加吞吐量。
虽然目前一些人可能会选择轮式人形机器人,但我们预计双足行走问题将得到解决。我们已经看到双足行走技术的实质性进展,一些机器人已能应对多样化地形并变得越来越稳定。虽然有些机器人的进展可能比其他机器人更快,但我们确实预期这将对第3级产生影响。
在这个级别中,机器人在家庭中是有潜力的,但它们在范围和功能上可能会受到很大限制。一个定制机器人可能只处理洗衣工作而不做其他任何事情,从而将对人类的风险降到最低。主人甚至可能远程操控机器人,或者只在房子空无一人时让它运行。然而,只需要一个错误就可能打碎结婚照并损害他们的声誉。
虽然能力可能会持续得到完善,部署也会加速,但人类专有任务的最后堡垒依然存在。
第4级:依赖力量的任务

第 4 级代表着机器人的最终进化,能够以精确的准确度执行依赖力量的精细任务。这些任务需要灵巧性来理解并细致地对环境的物理力量做出反应。机器人必须执行熟练的细粒度操作,这需要精细、自适应的触感,比第 3 级的低技能操作任务更进一步。
我们在这个级别看到了高度自动化劳动力的前景得以实现,为那些在此之前一直是人类专属的剩余劳动任务打开了大门。
展望未来
这仍然是一个正在研究的领域,因此,我们将详述有希望的进展来源和预期影响,但不是详尽的清单。
有希望的进展来源
操控技术可以解决许多应用场景,但由于从根本上对任务和手头物体的物理特性”麻木”,这给能力设置了一个硬性上限。在这个级别中,机器人”手”出现了,配备了触觉传感或强大的反馈回路来帮助增强这种敏感性。尽管这可能还不是完整的/最终的解决方案。
公开辩论
扩展视觉模态迄今为止对大多数任务都很有效,但仍然存在一系列依赖力度的精细任务尚未得到解决。视觉模态目前难以捕捉这些物理线索并解决这些任务,但一些人认为这可以通过更多数据来解决。然而,一些人认为这不仅仅是数据问题,需要不同的方法。例如,在口袋里寻找手机主要是通过触觉感知完成的,虽然视觉可能也会被使用,但仅凭视觉会使这项任务变得非常具有挑战性。
话虽如此,最近在成本和效果方面,触觉传感技术都取得了巨大进步。力和扭矩传感也显示出在训练中有用的早期迹象。我们认为力和扭矩传感以及触觉传感器可能是未来解决方案的有用组件,但现在宣布任何一种方法”正确”还为时过早。
潜在有用的途径
第4级是正在进行的研究领域,专注于将力量和重量理解融入机器人中。未来可以使用多种方法来帮助实现依赖力量的任务:
- 先进传感器: 机器人”指尖”上的触觉传感可用于通过演示学习收集数据,并为机器人提供”触觉”感知
- 模拟器: 大规模模拟可能会缓解从模拟到现实的差距
- 新学习方法: 在新的触觉和力量数据流上训练 VLA 可能使机器人能够将视觉与物理交互联系起来
- **任务特定模型:**各种单独的策略可能用于特定动作或行为,以正确理解作用力
- **柔顺控制:**控制功能使机器人关节能够理解对抗力量并屈服或绕过它们
有许多方法正在被用来解决依赖力的任务问题,而且可能还有更多尚未出现的方法。我们承认,这些任务的解决方案可能使用其中任何一种、组合使用,或者是尚未发现的新发展。
第4级的影响:大规模劳动力替代

这些依赖力度、高精度任务的突破为体力劳动市场的大部分自动化开辟了道路。随着时间的推移,我们可能会看到以下领域的自动化:
- 技能型行业: 管道工程、电气工作和需要力度与重量直觉的精细装配任务。随着这一能力的解锁,这些工作将首次实现自动化,满足全球市场需求。
- 服务业: 精细运动技能使机器人能够自动化零售和酒店业等服务行业的其他职位。
- 制造业和物流业: 这些领域的所有剩余任务,如复杂包装、精密装配、安装等现在都成为可能。
随着面向 Level 4 的机器人变得更加可靠并赢得更多信任,它们将承担更重要的角色,比如专门为各国设立的灾难救援团队,无需承担失去”生命”的风险,或者自主太空探索,它们可能探索新世界并为后续到达的人类建立营地。
此外,我们在第一篇文章中提出的生存威胁,以及我们的合著者 Joe Ryu 在自动化边缘的深入分析,可能会在这里变成现实。拥有 4 级能力的机器人可能是超人类劳动者,租赁成本远低于人力成本,并且可能被实施用于大规模制造相同的机器人,将劳动成本压缩到不可思议的水平。商品可能变得几乎无弹性,传统市场价值可能被颠覆,因为不可能的生产能力变成现实。第一个达到这一层级的国家或公司可能会制定劳动经济的条款,并看到地缘政治动荡,一些国家实施边境管制,或彻底禁止来自其他国家的机器人和服务。
时机已至
通用机器人技术的梦想不再是遥不可及的幻想。它正在被逐步构建,一个等级接一个等级。这条路径上的每一步都释放了巨大的经济价值,并以深刻的方式重塑着我们的世界。
我们发现自己比许多人意识到的更接近最终章节。必要的 Level 0 工业机械臂向我们展示了机器人在合适应用中的能力,即使没有自主性。在 Level 1 中,新的适应性带来了巨大的希望,但它来得太早,让许多人留下了不好的印象。然而,新的范式使它们的应用变得更加可行。现在,Level 2 伴随着基础模型的到来,实现了释放通用机器人技术所需代理能力的广泛推理能力。这种向代理能力的飞跃使它们能够在我们复杂的开放世界中导航,并且仍然是未来等级中多模态推理能力的起源。Level 3 通过其新发现的操纵能力提高了灵巧性 ,将操纵泛化到各种物体和环境,这是 Level 1 的梦想。结合 Level 2 的移动性,Level 3 创造了第一个真正的人类劳动替代品,尽管只具备基本能力。最后,Level 4 代表了机器人技术的未来,力感知可能是通向完全自主机器人技术的最后一座桥梁,能够自动化几乎所有体力劳动并创造新的角色。
这个框架不仅仅是学术练习,而是战略工具。它让行业利益相关者、工程师和研究人员能够分清机器人技术的模糊界限,并将精力集中在可能获得最大收益的地方。机器人技术的演进不会是单一的戏剧性事件,而是稳步、有序的攀升。我们通过自主性等级概述了通用机器人技术的发展路径,该框架专门设计用于消除过往失败的噪音、未来炒作和模糊概念的干扰。在即将发布的文章中,我们将详细说明供应链中的赢家和输家,以及在变革持续重塑格局时可以期待什么。