返回首页
2025.08.07 03:10 约 49 分钟 全球动态具身智能

机器人自主等级

本文信息来源:semianalysis

专用机器人自动化数百种工作,低自主性的拾取放置成本昂贵,通用自主性导航和检查大型场所,在早期试点中针对低技能劳动且前景广阔,研究中具备任何任务能力的自主性

机器人在制造业中应用了几十年,但它们仍然只能执行单一任务,只有在完美环境中才能发挥作用。以往对智能机器的尝试往往承诺过多而交付不足。但那时为时过早。如今,现代人工智能范式将大多数机器人障碍转化为数据问题,推动机器朝着曾经被认为不可能的能力发展。随着这些模型吸收现实世界的经验,机器人将提升现有技能,获得新技能,部署速度更快,占据越来越多的劳动力份额。

部署和考虑因素:狂野西部

来源:SemiAnalysis

在 2015-2022 年期间,将这些 AI 机器人集成到优化且严苛的仓库环境中——在这种环境中 98%-99%的交付都能准时完成——成了一个充满模糊估算和即兴解决方案的”狂野西部”。与 0 级项目不同,这些拣选和放置机器人面临的挑战不仅是物理层面的,还包括信息层面的。

将这些机械臂和工作单元集成到仓库生产线中可能需要花费 9 万到 18 万美元。但机器人还有一个新的定制 API,必须与协调所有库存和物流的设施仓库管理系统(WMS)完成”握手”。通常,机器人的 API 在构建时并未考虑 WMS。因此,WMS 必须更新以适应这种握手缺口,而 WMS 更新失败可能造成数千万美元的损失。作为变通解决方案,可能会使用第三方集成商,部署费用高达数十万美元。大多数情况下,会使用权宜修复来同步系统,比如 GUI 自动化代理,这是一种仅仅模拟人类点击正确按钮的程序。

来源:WAP

由于机器人需要完整的工位安装,集成商选择了理想且成本较低的位置,比如两条水平传送带之间的拣选放置工位。困难的位置,如垂直货架,被跳过了,因为大多数机器人都是在水平应用中学习的,将生产线重新配置为水平方向成本高昂。通过筛选合适的位置,安装可能只需要4周时间。

来源:YouTube

即便如此,仓库实施这些机器人的决策周期可能需要数月时间,一些客户最终选择将机器人仅安装在他们自己的独立区域,远离可能破坏仓库流程的机会。

尽管如此,这些机器人的自主性仍然太低。员工通常不是被”替换”,而是围绕机器人重新组织。他们通常执行机器人生产线的前/后处理工作,或成为机器人技术员。

影响:狭窄的盈利市场

第 1 级的前景巨大:实现低技能、高流动性拣选放置工作的自动化——为机器人开辟了新市场。任务的基础性质使其看起来很适合能够做到这一点的机器人:拣选和放置。企业有巨大的自动化动机,因为工资充满了”附加成本”。例如,我们听说亚马逊的员工流失率为每周 2%-4%。这意味着每 100 名车间工人,到年底可能会有 104 名工人辞职。因此必须不断招聘、入职、培训和提升生产力,使得工资比没有人员流失的情况高出 56%。事实上,亚马逊目前正面临危机,在某些地区已经轮换了所有低薪工人。

来源:SemiAnalysis 估算

成本不仅巨大,而且不断招聘新员工的物流工作也很繁重,许多招聘潮可能导致大多数人在第一周内就辞职。这些挑战和成本使得这个岗位很适合用 AI 驱动的机器人作为可行、稳定的劳动力替代。然而,许多人发现商业案例高度依赖于任务的具体情况。

考虑高混合、低吞吐量的任务,如电商履约,机器人必须以适中的速度拣选各种各样的物品。

来源:SemiAnalysis 估算

将累计拣选次数除以累计成本,我们在下方展示了每次拣选成本随时间的演变。在电商案例中,机器人的每次拣选成本在 3.5 年内都无法降至人工水平以下,其有效拣选率仍低于人工,11 台机器人才能完成 9 个人的工作 

来源:SemiAnalysis 估算

电商类仓库生产线为我们的智能拣选和放置机器人带来了一个有趣的挑战:匹配人工准确拣选多个物品的能力。虽然人工可能一次拣选 5 个物品,但这些机器人可能需要逐个拣选,无法达到人工的吞吐量。然后,如果机器人能够拣选得足够快,周围的传送带和前/后处理系统会被锁定在特定速度,或被两端的人工操作员堵塞,再次限制了吞吐量。仓库可能通过安装更多机器人来弥补这一点,但成本会变得过于昂贵。更糟糕的是,物品的”高混合度”很可能带来过于新颖的物体/场景,难以成功抓取,因此许多系统必须达到 99%以上的成功率来减少六分钟的停机时间。总而言之,这种特定配置使得智能拣选和放置机器人的成本难以得到合理证明。

来源: 波恩大学 ,实验室中高混合度货箱的示例

然而,第 1 级引入了一个新的升级: 重试 。如果任务失败,机器人可以检测到错误并重试(几次),而第 0 级的错误会立即冻结流程。让我们以”包裹”拾取和放置为例,物品装在包裹中——统一的盒子和带标签的包装。

来源:DVZ

包裹拾取和放置为智能拾取和放置机器人带来两重好处:包装可能很重,会让人类感到疲劳从而降低吞吐量基准,而且它们相当统一,因此失败的拾取可以更容易地重试和解决,因为这不太可能是电商中出现的泛化错误。

机器人的目标是每小时 550 次拾取,但即使在这个领域达到 95% 的准确率,也能实现 520 次的有效拾取率。

来源:SemiAnalysis 估算

在这种情况下,我们看到 10 台机器人完成 23 名人工的工作 。在这些条件下,机器人的单次拣选成本在一年后就降低到了人工成本以下。

来源:SemiAnalysis 估算

那些瞄准第1级拣选和放置的机器人找到了一个利基市场,但仅限于拣选和放置的非常特定领域。虽然回过头来很容易理解什么有效、什么无效,但这在当时是全新的。我们询问了一些公司为什么他们一开始没有瞄准包裹领域,其中一个公司的回答概括了那个时代:我们不知道,我们意识到得太晚了。这是向智能机器人技术的首次尝试,虽然包裹市场比电商市场小,但自主技术简直太超前了。

订阅以获得所有 SemiAnalysis 文章的通知

通过订阅,您同意隐私政策  和  条款和条件 

挑战:脆弱智能的局限性

在 2023 年之前的这段时期,感知能力还有困难。一些公司试图通过在实验室的机械臂农场中复制部署现场来规避脆弱的感知问题,遵循机器人要抓取的相同物品目录,甚至部署特定的静态照明设备。这些防护措施大多只能部分解决缺陷。 相反,25% 的亚马逊商品目录都在”排除清单”上 ,这是一个由于失败风险而不能被机器人抓取的物品清单。

这个时代的灵活性仍然处于萌芽阶段。 如果公司引入新物品,他们会用机器人进行测试运行,如果抓取失败 5-10 次,就同样将其列入排除清单。此外,由于缺乏稳健的泛化能力,机器人可能会同时抓取多个物品,再次打乱仓库流程。当时可用的泛化能力根本不够稳健。

虽然其他任务看起来相对简单,只是拾取和放置的变化,但它们可能引入不同的挑战。以叠衬衫为例,这对机器人来说似乎是一项简单的任务。实际上,像衬衫这样的物体是可变形的且 “高维” 的。机器人的神经网络会首先对衬衫上的每一个皱纹、折痕、褶皱等进行分类来理解它。这被称为”状态爆炸”问题,对于强化学习来说特别困难,因为模型试图将过程中的步骤验证为好或坏的决策,而现在可能存在数量惊人的组合。 在第 1 级,叠衣服成为了那个时代的”圣杯”。

来源:Foldimate,相反,人们制造了专门用于叠衣服的单一用途机器

当前时刻和展望未来

令人期待的进步来源

2023 年之前的时代充满了缺陷,让许多行业专业人士伤痕累累。然而,如今针对第 1 级拣选和放置的公司已经创造出可行的解决方案,解决了许多挑战并完善了他们的系统。一些公司正在实施端到端解决方案来解决无法拣选的物品问题,降低故障率和恢复时间,并缓解排除清单的弊端。模块化系统现在可以绕过物理集成,提供更高的吞吐量,尽管成本更高。内部操作系统现在允许简化、更便宜的 WMS 集成。甚至模拟器也已经足够强大,能够引导基本包裹拣选和放置数据。

但重要的是,许多机器人正在利用基础模型进行深入的、可泛化的感知和空间推理。我们将在第 2 级中探讨基础模型为机器人提供了什么。

第2级 – 自主移动性

来源:SemiAnalysis

在第 2 级中,机器人获得了通用自主能力 。它们现在能够规划自己的任务并自主穿越开放世界。这种能力以前是不可行的,旧模型会因为开放世界中不断变化的场景、地形和物体而感到困惑;僵化的移动方法在这种混乱中会显得不足。

相反,在第 2 级中,机器人获得了主体性 ,通过基础模型和视觉-语言模型(VLMs) 的最新进展获得了更高阶的规划和空间推理能力。此外,机器人现在具备了灵巧性 ,能够通过大规模仿真强化学习穿越困难地形。这种运动方面的灵巧性使机器人能够在移动中表现出敏捷性。这两种方法都利用海量数字数据集进行学习,而不是收集每种场景的数据,从而缓解了数据稀缺的挑战。在第 2 级中,机器人能够自主感知和理解周围环境,规划路径,并使用其强健的运动能力在开放世界中长时间机动。 

第 2 级的通用机器人目前正在早期生产阶段部署,用于在建筑工地、石油天然气炼厂和基础设施场所等大规模领域中承担数据收集和检查任务。这些场所往往规模过大,人类难以有效覆盖,成本过高难以布设廉价传感器,对人类过于危险,或者位置过于偏远,人类检查成本过高。相反,这些配备了额外传感器的机器人可以利用其自主能力来规划和执行这些任务。

这些自主机器人是通用革命的首个证明。这种向主体性的跨越在后续各级中产生深远影响,成为通用机器人技术的起源。

当前视图

进入开放世界与主体性

自主移动的核心挑战是开放世界,这是一个没有严格结构或可预测性的环境。与0-1级的工程化环境不同,开放世界是一个混乱的集合,包含不断变化的场景、障碍物、地形和天气。要在这里运作,机器人必须超越简单的感知和传统的刚性规划,转向场景理解和高阶规划。然而,早期的算法还不够稳健,无法胜任这项任务。

我在哪里?——在环境中定位

开放世界并不总是提供静态路径,机器人必须确定自己相对于环境的位置,否则它可能会迷路。这需要持续的地图更新,更新中的小位置误差会随着时间累积,将英寸级的误差扩大到英尺级,让机器人陷入困惑。这种误差可能决定了机器人是充满电还是成为地板上的死机器。高级产品可能无需额外措施就能解决这个问题,但大多数可能仍需使用AprilTags,这是类似二维码的贴纸,用于机器人重新定向和校准,放置在充电站。这些可以设置固定的预编程路径或行为来引导机器人。

来源:New Atlas
  • **第一个解决方案:SLAM** – 对此的主要工程解决方案是同步定位与建图(SLAM)。利用传感器和数据,如激光雷达、速度、时间等,SLAM 算法使机器人能够构建其周围环境的”地图”,同时跟踪其在地图中的位置。然而,SLAM 仍然**局限于**几何表示。开放世界环境不断变化,需要更”认知”的理解来减少这种漂移或错误潜在可能。SLAM 本身可能并不充分,而是一种**补充**。
来源:Geo Week News

规划、推理和场景理解

一个机器人可能知道自己的位置,但如果没有明确编程,它可能仍然不知道该做什么或周围有什么。要在混乱的环境中导航,机器人需要对其世界有更基础性的理解 。例如,机器人可能需要既要区分黑色水坑和沥青路面,又要规划下一步行动。感知失败可能导致将水坑误认为不是危险。或者,规划失败可能导致机器人在错误的时间躲避水坑。

突破:基础模型

最新的基础模型为机器人提供了推理长期规划所缺失的关键要素。通过在互联网规模的文本数据集上进行训练,机器人不再需要将每种情况都编写成代码或通过昂贵稀缺的真实世界数据进行显式学习;相反,它可以将庞大的知识库泛化到新的情境中 。这些模型能够将情况转化为逐步的自然语言描述,并对其进行推理,从而释放出更广泛的能力。

视觉-语言模型(VLMs) 作为一种基础模型,能够桥接语言和视觉模态,实现视觉推理和问题解决。这些基础模型在由图像、标题和描述组成的大规模互联网数据集上进行训练,并在机器人特定数据上进行微调,以实现更好的空间推理 。现在,机器人可以广泛泛化感知能力,缓解了以前机器人感知数据不足的问题。

所有这些构成了机器人新获得的自主性 :通用化的规划、推理和感知。机器人现在可以在许多新颖环境中遵守和执行指令。例如,在”去梯子后面的楼梯”这个命令中,VLM 会识别物体及其关系,然后将场景转译给基础模型来制定”向梯子左侧移动,然后向右朝楼梯方向”的计划。这种”思考”循环赋予机器人在长时间范围内感知和导航开放世界的自主性。

来源:Giphy

敏捷运动 – 灵巧性

这种代理能力伴随着运动灵巧性的提升。仿真器不再通过实际部署收集各种可能配置的数据,或者硬编码大量控制逻辑,而是在很大程度上介入解决运动灵巧性问题。仿真环境现在提供稳健、广泛的训练平台,可以在大量环境配置上快速迭代运动控制策略,这些配置通常比部署环境更加困难。

这些仿真器改进得足够好,经过充分微调后,大部分习得的运动技能都能转移到现实世界的部署中,显著缩小了” 仿真到现实 “的差距。现在,机器人可以利用其新的运动灵巧性稳健且敏捷地穿越不平地面、斜坡、不稳定地面(岩石、沙地、建筑托盘),甚至在电机损坏的情况下仍能运动。 随着这些突破,我们看到四足机器人的运动能力在第 2 级达到了改进的拐点。

来源:YouTube

硬件提升

最后, 硬件方面的发展为这些机器人的自主性提供了充分的支撑手段。机载计算能力的进步,如英伟达 Jetson,使机器人能够接收和处理大量数据。多个传感器  摄像头激光雷达现在都可以用来生成高质量的实时感知数据,使机器人能够快速适应环境固有的随机性。最后,高效率执行器和增强型电池使这些机器人能够在开放世界中执行长期任务。

部署和考虑:开放世界中的智能体

来源:SemiAnalysis

2级机器人可能采用以下形态:

来源:SemiAnalysis

但值得注意的是,四足机器人得到了解锁 。大规模仿真平台的进步使得对其四条腿的稳健控制成为可能,从而能够以灵巧性穿越地形,而它们的智能体能力可以确定场景并进行规划,这两项在 2 级解锁之前都是具有挑战性的。

来源:Anybotics

重要的是,这些第二级别的机器人不再需要数百万美元的设施工程。它们的通用自主性意味着可以在新环境中仅需 1-3 周就能部署,学习其领域并可靠地执行任务。然而,电池续航时间决定了一个站点需要多少机器人或充电器。由于四足机器人的平均电池续航时间可能为 90 分钟,人们可能需要购买更多四足机器人或充电站 ,从而增加成本。

这种自由度在工作场所引入了一个新问题:安全性。对于具有自主移动能力的机器人,如果它们摔倒或着火,无法通过拔掉插头来停止它们。它们的挑战更多转向确保不造成财产损失或人身伤害。例如,开放世界的地形可能对机器人周围的人构成危险,比如光滑的表面导致70磅重的四足机器人摔倒压到某人的脚上,或者翻滚下楼梯撞到某人。可能实施的一些措施包括:

  • 强大的碰撞避免功能——引导机器人避开静态或动态障碍物
  • 速度和分离监控——跟踪附近的人类,使其能够保持安全距离
  • 操作指导原则以及向机器人的人类同事发出机器人存在或意图信号的听觉或视觉提示
来源: 人机协作中速度与分离监控的人机差异化以提高效率

意义:解锁检查和数据收集角色

通过自主移动能力,这些机器人可以在开放世界环境中移动,决定路径,避开障碍物,并在各种地形上行进数小时。这些自主机器人通常在大规模领域中工作,如建筑工地、石油天然气站点、化工厂和校园式环境。关键在于它们能够自动化数据收集和检查任务,这些任务只需要自主移动能力和一些数据收集工具。这些类型的站点和任务具有细微差别,通常:

  • 规模过大,人类无法有效检查,或者传感器化成本过高
  • 过于关键,不能冒险让人类执行不力
  • 对人类来说过于危险,无法继续进行

机器人现在又将劳动力市场的另一部分纳入了它们的领域。让我们看看一些例子。

建筑施工

有时候,建筑工地一周内计划完成的工作只能完成不到一半,由于涉及管道、电气、砌墙等多个方面,各项进度很容易在混乱中丢失。通常约有 40% 的建筑返工源于记录不当,这可能导致成本增加高达 20%。对工地进行全面检查或”记录”应该能解决这个问题,但对于建筑公司来说,这意味着要占用最资深监理人员 8 小时的工作日 ,而且缺乏专业化或客观性仍可能影响记录质量。

来源:Adobe Stock

相反,许多公司将此外包给外部公司。例如,一个 200 间客房的酒店项目在州法规下可能规模足够大, 需要土木工程师或持证测量师来执行采集工作。这些工作可能每隔一周进行一次,费用超过 100 万美元 。具有自主移动能力的机器人可以自己处理这些采集工作,配备适当的摄像头/传感器/激光雷达以进行更客观、更详细的采集。完成后,它可以潜在地移动到第二个工地并在同一天执行另一项工作,这是人工团队难以匹敌的。

来源:SemiAnalysis 估算

石油天然气

一个中型炼油厂可能在多个实施阶段中投资数百万美元,耗时多年来完全传感化其机械设备——跟踪泄漏、振动和热量。虽然成本和时间线都很重要,但这项投资至关重要:一小时的计划外停机时间成本高达 50 万美元 。相反,配备合适传感器的防爆四足机器人可以巡逻多个站点,收集更精细的数据,比如诊断热力图,成本只是一小部分 ,同时让人类远离危险。

关键基础设施

检查风力发电机、电力场所和海上钻井平台都是关键工作,但这些工作对人类构成巨大危险,通常需要停机以便进行人工检查。例如,传统数据中心可能会在大雨中停机并需要进行变电站检查。相反,我们了解到四足机器人已经能够在不停机的情况下自动化完成这种检查,为设施每年节省了大约 35 万美元 ,并可能拯救人类生命。

来源:Besten

虽然这些都是很好的例子,但它们仍处于早期生产阶段,目前正在更多场所部署,如半导体工厂  钢铁厂  轨道基础设施 ,或用于最后一公里配送。

当今2级自主性挑战快照

机器人技术中的自主性目前面临许多困难,这些困难将影响机器人在各个级别的表现。以下是这些挑战目前如何影响机器人在第2级的胜任表现,以及可能的解决方法。

代理能力带来了新的挑战,通常通过足够的微调来修补,但并未真正解决。为了在社交环境中更好地运作,机器人需要更多的社交意识来理解人类要求它们做什么,或者确定应该听从哪个人的偏好。虽然规划能力得到了释放,但机器人仍可能误判位置,导致许多机器人依赖激光雷达作为安全检查。

复合误差仍然是一个问题。 机器人在导航和定位方面仍然不够高度准确。大多数机器人可能会使用放置在兴趣点周围的 AprilTags——比如执行另一项任务的特定位置——来确保准确定位。

来源: 波士顿动力 ,在机器人必须下楼梯的地方放置 AprilTags

运动灵活性仍然是一个挑战,需要使用变通解决方案。 在第2级中,这意味着像深泥、冰面或透明玻璃等地形目前仍然难以穿越,可能需要额外调整,或者完全避开。

协调多个自由度——机器人可以移动的方式数量——仍然很困难。 例如,双足运动确实存在于第 2 级中,但增加更多自由度(DoF)会增加一层复杂性,使稳定性和精确导航变得复杂。当各家厂商的双足行走变得更加稳定时,可能会使用额外的工程技术,如 AprilTags 或专门的策略,来修补这些问题。

展望未来

有希望的进展来源

这些自主性挑战正在多个方面得到改善。对于灵活性 ,运动仿真平台可以持续改进,使地形穿越更加稳健。双足运动应该会随着更多数据和学习的积累而得到改善。

智能体能力应该会通过更多数据和进一步学习而提升。合成数据生成目前正在通过视觉语言模型中的视觉数据增强进行,其中数据会被略微修改以生成更多、更多样化的数据,从而增强学习效果。随着视觉语言模型中视觉推理能力的提升,激光雷达可能会逐渐从机器人中剥离出来。随着视觉推理和定位能力的改善,我们可能会看到 AprilTags 的使用减少。此外,开放世界的部署有助于收集更多边缘情况的数据,这可能会引导生成更好的合成数据,并扩展学习规模。随着这些挑战的解决,我们预期机器人自主性将得到改善,并在目标市场中持续部署和改进,直至实现高度自动化。

第2级标志着通用机器人技术的开始。向自主性的飞跃为所有未来进展提供了认知基础,下一步是在这种通用自主性基础上增加操作能力。

第3级 – 低技能操作

来源:SemiAnalysis

我们在 0 级自动化中看到,脚本化自动化和操作在经济上是无价的 ,以超人的速度制造汽车,但仅限于工程化任务。1 级展示了突破到智能拾取和放置的情况,但机器人只在非常有限的用例集合中可行。在 2 级中,我们看到机器人中的代理能力对于在长时间范围内在开放世界领域中安全操作是极其宝贵的。 现在在 3 级中,机器人迎来了一种基本类型的可泛化操作:

  • **操控**:有目的地、结合情境与环境交互并改变其状态的能力,例如推开门、从把手处抓握、从边缘托住盒子等。

机器人可能很好地感知物体,但这并不意味着机器人具备与之交互的必要技能。在第3级中,机器人现在理解物体如何提供操控可能性,并且现在具备了直接泛化这种操控动作的灵巧性。利用机器人的主动性,这些操控能力可以是更长时域的,包含多步规划。这两种能力都与第1级的短时域、角度抓握有所不同。将这种可泛化的操控与从第2级获得的自主移动性相结合,我们现在看到了应用中通用移动操控的引入。

来源: 机器人操控研究中可供性的简要回顾

第3级标志着第一代能够针对行业的通用机器人,从第1级的基础任务向技能发展,如烹饪或清洁。在厨房、洗衣房、工厂和仓库等领域,早期试点项目正在进行中。然而,它们的低技能任务——我们称之为“高级拾取与放置”——是适度的、更长时域的任务:操控/拾取物体,可能移动到其他地方,并执行进一步的操控,或”放置”物体。虽然适度,但这种能力正被用于烹饪、折叠洗衣物和分拣/整理非易损物品。第3级的部署是即插即用的,机器人从人类远程操作——远程控制机器人——和界面(如平板电脑)中学习,而不需要数月时间和数百万美元的工程投入。

能够完成 Level 3 任务的通用机器人可以自动化全球劳动力的一个特定部分,尽管还不是人类劳动的全部范畴——这是Level 4所承诺的含义。目前,前述 Level 3 的早期试点用例正在显示其有效性,这些任务符合以下条件:

  • 大成功标准: 任务并没有精确约束,即将物体从 A 箱移动到 B 箱、将杯子放在桌子上、搅拌锅子、将箱子从位置 A 移动到位置 B 等
  • **低吞吐量或异步执行**:该任务节奏较慢、无需满足吞吐量计算要求,或可与其他正在执行的工作异步进行,比如夜间作业
  • **可重试性**:与 Level 1 类似,该任务需要支持重试,使得执行失败不会造成财产损失,特别是在 Level 3 中,不会伤害人员
  • **无力觉或重量感知**:这些机器人目前没有触觉感知,仅在关节层面具备基础的力反馈。它们可能无法执行精细的、依赖力度的操作任务,比如拧开新颖的瓶盖。

当前观点 – 早期阶段

需求 – 可泛化的操作能力

为了在一个一切都在不断变化的环境中操纵物体,像第 1 级这样的弱智能抓取能力是不够的。机器人必须能够适应其动作,在给定的情境下充分操纵物体。这需要可泛化的操作能力 ,即物理 AI 赋予机器人灵巧性 ,充分生成特定任务和环境的动作来操纵物体。

学习操作 – 当今有意义的内容

虽然第 3 级仍处于非常早期阶段,但我们看到可泛化的操作能力从 VLMs 中取得了有意义的成果。目前,VLMs 已经改进,提供了更强的空间推理能力,并增加了输出动作的能力。但要输出动作,我们仍然需要机器人从动作数据中学习。

开源与数据增长

在第 1 级中,我们看到了数据稀缺问题的挑战性。幸运的是,机器人技术在数据方面经历了相对增长的幸运时期,低成本遥操作硬件的发展,如 GELLO(2023),使世界各地的用户能够收集并开源他们的机器人动作数据。在过去几年中,许多数据集被发布,慢慢积累了足够的数据来学习基本的操作任务。现在,如果我们用这些动作数据训练我们的 VLM,我们就得到了一种新型模型。

来源:GELLO

视觉-语言-动作模型

简称 VLA,通过添加动作模态来扩展视觉-语言模型(VLM)。在配对的图像/文本/动作数据上训练,无论是端到端训练还是通过微调,VLA 意味着 VLM 可以读取场景,解释任务,现在还能输出动作计划 。这些 VLA 可能有两种形式:

  • 任务特定 :用于高级规划的 VLM 或改进的 VLM,以及用于特定任务/动作的额外模型
  • **Singular**:一个 VLM 模型执行所有推理、规划和行动

模型的代理性理解任务”是什么”并能据此进行规划,模型现在直接输出行动计划本身,从而立即改善灵活性。利用其庞大的互联网规模知识,机器人现在全面解析新任务和环境,VLA 的行动在现场执行新颖、流畅的动作,针对场景量身定制。

几年前极其复杂的任务现在变得可行。第 1 级中的“圣杯”——折叠衣物现在是可行的,不再需要枚举和计算衬衫上的每一条褶皱。VLA 从互联网数据中理解”袖子”或”领子”等抽象概念,多模态推理任务的执行方式,现在规划并输出所需的操作

来源:Physical Intelligence

现在也可以处理更长时间范围的抽象任务了。在这些模型中,”清理卧室”这项任务如果无法理解这个特定卧室有什么”问题”以及如何清理这个卧室,就会非常令人困惑。现在,它可以通过 VLA 的高阶规划分解为一系列基于上下文的子任务 ,比如”拿起枕头”或”整理毯子”,这些都由模型按时间顺序排列,并生成相应的行动计划。

我们承认,第 3 级任务不需要极高的精度或力度和重量理解,可以把高精度约束放在一边。此外,这些机器人很可能会比较缓慢,因为模型学习的是来自遥控操作演示数据的精细、细致特性。而且,在 VLM 中添加操作/动作功能会大大消耗上下文窗口,并减少我们在第 2 级中拥有的时间范围,目前使得这些任务最长只能持续几分钟。

来源:Mobile ALOHA

然而,就像在 2 级中 VLM 的出现创造了一个持续改进导航的正反馈学习循环一样,VLA 可能为机器人灵巧性创造同样的循环。随着机器人在物理世界中持续行动和推理,它可以持续收集数据、学习和改进。虽然 VLA 前景广阔,但它们可能也不是完整的解决方案:可能会为精确的低级控制实施特定任务的模块/策略,而顺应性控制可能用于对抗相反的力,还有许多其他方法。 

这一自主级别和移动操作机器人的出现,现在提出了向更大规模劳动力替代的巨大飞跃。

部署和考虑因素:机器人同事

来源:SemiAnalysis

0 级和 1 级机器人可能需要数百万美元的工程项目和定制软件集成,比如仓库管理系统(WMS)的集成。然而,面向 3 级的机器人可以像人类员工一样进行部署。一些公司将它们投放到现场,让远程操作员阅读平板电脑,并执行工作流程来收集数据和训练模型。远程操作的数量会因任务复杂性而异,但远程操作成本很低,通常外包给新兴市场,而且往往得到投资者补贴的支持。

来源:Reflex Robotics

这种集成的便利性从根本上改变了经济等式。关键指标不再是针对大量资本支出的多年投资回报率。相反,这些机器人可以通过按小时计费机器人即服务模式在几天内实现收入为正。这打破了 0 级和 1 级机器人之前的准入门槛,这些门槛将大多数中型或小型企业拒之门外,现在使得更广泛的企业都能使用这些机器人。

虽然移动操作技术已经存在,但仍处于非常早期阶段,并且仍面临安全问题。它必须到达任务地点并了解自己的定位才能行动,因为任何位置偏差都可能损坏财产或伤害人员。早期部署很可能会在围栏区域内进行,直到这些物理安全挑战得到解决。

来源:Agility Robotics

双足平台对某些人来说很有吸引力,因为它们能够在髋部”弯曲”来执行任务。然而,双足运动,即用两条腿行走,本质上是一种不稳定的行为。它需要不断调整平衡以确保下一步的准确性。携带物体现在增加了新的质量,运动系统在行走时必须考虑到这一点。初期的双足试点项目虽然可能具有功能性,但可以用轮式底盘机器人来替代。

来源:IoT World Today

在人类周围操作的机器人需要严格的安全要求。由于机器人的自主性在早期阶段仍然不足,某些安全措施可能仍需要实施/到位。 远程操作监督 ——即机器人由远程操作员监控——目前对这些机器人来说是必须的,以防出现问题时需要人工干预。尽管如此,复杂情况仍可能出现,例如在故障发生后远程操作机器人、远程操作中的延迟问题等。对于更直接的措施,一些部署可能使用:

  • 势场:机器人在物体周围映射的空间以及物体可能对机器人产生的力
  • 风险感知建模:评估碰撞发生的概率并相应地进行规划
  • 速度和分离监控:正如我们在第二级中看到的,跟踪人类并保持安全距离

在部署考虑因素得到解决后,目前第3级机器人正在尝试承担哪些角色?

影响:低技能劳动力替代

虽然第 3 级机器人存在一种原始形式的通用操作能力,但仍处于非常早期的阶段。目前机器人的试点测试发现,它们的任务符合我们之前提到的条件: 成功标准的范围较大,吞吐量低至无或异步,可重试,且无需力感应或重量感应。 在固定应用中,机器人可能执行一系列操作来完成更长周期的任务。但大多数时候机器人会利用其移动性,比如在 A 位置拾取非易碎物品,然后移动到 B 位置放置物品。有了这些新能力,机器人将劳动力的很大一部分纳入了它们的作战范围。

虽然我们目前的条件是角色的独特特征,但它们规模庞大且相当昂贵。这些机器人获得优势的方式与第一级的目标相同:减轻加载成本。例如,在旧金山,餐厅的员工流失率每年可达170%,而招聘、入职、培训、缺勤和生产力提升过程导致的成本比单纯的低技能工资更高。以下是我们看到机器人在第三级中尝试的当前角色。

来源:SemiAnalysis 估算
  • 餐厅或食品服务中的烹饪: 机器人的食材已经预先分装好,它可以执行长期的、宽松的烹饪任务,将这些食材通过基本的连锁操作组合在一起。餐厅往往是最劳动密集型的行业,需要大约 3 倍于医院的员工数量才能产生相同的 100 万美元收入。
来源:CloudChef
  • 工业洗衣: 曾经看似不可能的操控可变形物体任务变成了可行的夜间工作,目前主要折叠重复物品,如毛巾、床单、枕套、餐巾等
来源:Watney Robotics
  • 物流:“仅供库存”工作流程,如仓库线的非关键补货或设置补充区域,这些都没有时间或空间限制。机器人可以在一个位置拣选各种物品并将它们放置到另一个位置,例如:补充货架、转运周转箱,或在设施内运输货物或储物箱。
来源:Extensiv
  • 制造业: 执行生产线旁的转移作业并补充装配线和线边库存。例如, 零件排序和为第二天的装配组织材料。
来源:Boston Dynamics

还有其他任务可能符合我们当前3级任务的标准,但我们没有列出,比如修剪树篱、景观美化或其他家政工作。虽然其他角色可能看似满足我们成功标准的大空间、低到零吞吐量计算、可重试、且无需力或重量感应,但现在判断会发生什么还为时过早。

幸运的是,如上所列,存在一些小众角色,这些角色只需要低技能操作能力,通常还需要自主移动性。凭借这些角色、工人的高负载成本,以及出色的机器人即服务(RaaS)模式工资,第 3 级机器人非常适合直接替代劳动力。我们预期随着这些机器人的改进,它们将自动化越来越多的低技能劳动部分。然而,在本文发布时,这些机器人仍处于非常早期的阶段,正面临着自身的障碍。

当前第3级自主性挑战概况

虽然第 3 级还处于非常早期的阶段,但在让机器人可靠工作方面仍存在一些困难。内存架构尚不足以泛化过去的经验,限制了机器人在新情况下执行任务的表现。 定位和复合误差使机器人难以精确导航到任务位置并为操作定位自身。有些可能会使用 AprilTags 来解决这个问题,采用不易出错的分析方法,或者对机器人进行足够的调试以可靠地执行任务。

来源: 有趣工程

虽然这些能力确实存在,但这并不是一个简单或便宜的成就。远程操作员可能会使用一段时间,机器人的速度不会很快,而增加新的动作只会增加难度。复杂的动作,如全身控制——比如扭转或弯曲——为问题增加了另一层难度。第3级的许多问题都可以通过更多的学习数据来解决,但移动机械手对数据需求量很大,而且仍处于早期阶段。

来源:The Fabricator

展望未来

有前景的进展来源

虽然 Level 3 正在部署并产生经济影响,但我们仍处于非常早期的阶段。VLA 和遥操作数据目前显示出有意义的进展,可能会继续扩展学习,或者其他进展途径可能会有所帮助。模拟器可能会在操作学习方面发挥作用。我们有早期证据表明模拟器的速度大幅提升,由于视觉合成数据的一些优势,sim2real 差距的某些方面已经开始缩小。合成数据和数据增强方法正在进步,在扩大导航、操作和控制的数据收集方面证明是有用的。甚至进一步推进真实数据,比如持续的开源数据收集,或现场部署以收集特定领域、特定任务或边缘情况数据。在大多数情况下,我们看到更大、更多样化的数据集在扩展学习,完善它们的能力并解决当前的挑战。

部署

在它们的部署中,我们预期这些执行 Level 3 任务的机器人会慢慢摆脱遥操作监督和操作措施。即时措施,如势场或风险感知建模,应该会随着自主性的改善而消退。遥操作监督将从最初的 1:1 机器人:人工比例扩展到可能 10:1,但这个比例应该会持续增加,直到自主性接管。此外,这些自主机器人最终可能会直接连接到 WMS,优化它们的任务/行动,并通过与系统的完全集成来增加吞吐量。

虽然目前一些人可能会选择轮式人形机器人,但我们预计双足行走问题将得到解决。我们已经看到双足行走技术的实质性进展,一些机器人已能应对多样化地形并变得越来越稳定。虽然有些机器人的进展可能比其他机器人更快,但我们确实预期这将对第3级产生影响。

在这个级别中,机器人在家庭中是有潜力的,但它们在范围和功能上可能会受到很大限制。一个定制机器人可能只处理洗衣工作而不做其他任何事情,从而将对人类的风险降到最低。主人甚至可能远程操控机器人,或者只在房子空无一人时让它运行。然而,只需要一个错误就可能打碎结婚照并损害他们的声誉。 

虽然能力可能会持续得到完善,部署也会加速,但人类专有任务的最后堡垒依然存在。

第4级:依赖力量的任务

来源:SemiAnalysis

第 4 级代表着机器人的最终进化,能够以精确的准确度执行依赖力量的精细任务。这些任务需要灵巧性来理解并细致地对环境的物理力量做出反应。机器人必须执行熟练的细粒度操作,这需要精细、自适应的触感,比第 3 级的低技能操作任务更进一步。

我们在这个级别看到了高度自动化劳动力的前景得以实现,为那些在此之前一直是人类专属的剩余劳动任务打开了大门。

展望未来

这仍然是一个正在研究的领域,因此,我们将详述有希望的进展来源和预期影响,但不是详尽的清单。

有希望的进展来源

操控技术可以解决许多应用场景,但由于从根本上对任务和手头物体的物理特性”麻木”,这给能力设置了一个硬性上限。在这个级别中,机器人”手”出现了,配备了触觉传感或强大的反馈回路来帮助增强这种敏感性。尽管这可能还不是完整的/最终的解决方案。

公开辩论

扩展视觉模态迄今为止对大多数任务都很有效,但仍然存在一系列依赖力度的精细任务尚未得到解决。视觉模态目前难以捕捉这些物理线索并解决这些任务,但一些人认为这可以通过更多数据来解决。然而,一些人认为这不仅仅是数据问题,需要不同的方法。例如,在口袋里寻找手机主要是通过触觉感知完成的,虽然视觉可能也会被使用,但仅凭视觉会使这项任务变得非常具有挑战性。

话虽如此,最近在成本效果方面,触觉传感技术都取得了巨大进步。力和扭矩传感也显示出在训练中有用的早期迹象。我们认为力和扭矩传感以及触觉传感器可能是未来解决方案的有用组件,但现在宣布任何一种方法”正确”还为时过早。

潜在有用的途径

第4级是正在进行的研究领域,专注于将力量和重量理解融入机器人中。未来可以使用多种方法来帮助实现依赖力量的任务:

  • 先进传感器: 机器人”指尖”上的触觉传感可用于通过演示学习收集数据,并为机器人提供”触觉”感知
  • 模拟器: 大规模模拟可能会缓解从模拟到现实的差距
  • 新学习方法: 在新的触觉和力量数据流上训练 VLA 可能使机器人能够将视觉与物理交互联系起来
  • **任务特定模型:**各种单独的策略可能用于特定动作或行为,以正确理解作用力
  • **柔顺控制:**控制功能使机器人关节能够理解对抗力量并屈服或绕过它们

有许多方法正在被用来解决依赖力的任务问题,而且可能还有更多尚未出现的方法。我们承认,这些任务的解决方案可能使用其中任何一种、组合使用,或者是尚未发现的新发展。

第4级的影响:大规模劳动力替代

来源:SemiAnalysis

这些依赖力度、高精度任务的突破为体力劳动市场的大部分自动化开辟了道路。随着时间的推移,我们可能会看到以下领域的自动化:

  • 技能型行业: 管道工程、电气工作和需要力度与重量直觉的精细装配任务。随着这一能力的解锁,这些工作将首次实现自动化,满足全球市场需求。
  • 服务业: 精细运动技能使机器人能够自动化零售和酒店业等服务行业的其他职位。
  • 制造业和物流业: 这些领域的所有剩余任务,如复杂包装、精密装配、安装等现在都成为可能。

随着面向 Level 4 的机器人变得更加可靠并赢得更多信任,它们将承担更重要的角色,比如专门为各国设立的灾难救援团队,无需承担失去”生命”的风险,或者自主太空探索,它们可能探索新世界并为后续到达的人类建立营地。

此外,我们在第一篇文章中提出的生存威胁,以及我们的合著者 Joe Ryu 在自动化边缘的深入分析,可能会在这里变成现实。拥有 4 级能力的机器人可能是超人类劳动者,租赁成本远低于人力成本,并且可能被实施用于大规模制造相同的机器人,将劳动成本压缩到不可思议的水平。商品可能变得几乎无弹性,传统市场价值可能被颠覆,因为不可能的生产能力变成现实。第一个达到这一层级的国家或公司可能会制定劳动经济的条款,并看到地缘政治动荡,一些国家实施边境管制,或彻底禁止来自其他国家的机器人和服务。

时机已至

通用机器人技术的梦想不再是遥不可及的幻想。它正在被逐步构建,一个等级接一个等级。这条路径上的每一步都释放了巨大的经济价值,并以深刻的方式重塑着我们的世界。

我们发现自己比许多人意识到的更接近最终章节。必要的 Level 0 工业机械臂向我们展示了机器人在合适应用中的能力,即使没有自主性。在 Level 1 中,新的适应性带来了巨大的希望,但它来得太早,让许多人留下了不好的印象。然而,新的范式使它们的应用变得更加可行。现在,Level 2 伴随着基础模型的到来,实现了释放通用机器人技术所需代理能力的广泛推理能力。这种向代理能力的飞跃使它们能够在我们复杂的开放世界中导航,并且仍然是未来等级中多模态推理能力的起源。Level 3 通过其新发现的操纵能力提高了灵巧性 ,将操纵泛化到各种物体和环境,这是 Level 1 的梦想。结合 Level 2 的移动性,Level 3 创造了第一个真正的人类劳动替代品,尽管只具备基本能力。最后,Level 4 代表了机器人技术的未来,力感知可能是通向完全自主机器人技术的最后一座桥梁,能够自动化几乎所有体力劳动并创造新的角色。

这个框架不仅仅是学术练习,而是战略工具。它让行业利益相关者、工程师和研究人员能够分清机器人技术的模糊界限,并将精力集中在可能获得最大收益的地方。机器人技术的演进不会是单一的戏剧性事件,而是稳步、有序的攀升。我们通过自主性等级概述了通用机器人技术的发展路径,该框架专门设计用于消除过往失败的噪音、未来炒作和模糊概念的干扰。在即将发布的文章中,我们将详细说明供应链中的赢家和输家,以及在变革持续重塑格局时可以期待什么。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读