物理 AI 的部署鸿沟
本文信息来源:a16z
机器人研究前沿与机器人在生产环境中落地部署之间的差距,以及这一差距为何至关重要。
在过去两年里,机器人演示和发布呈现出一种反复出现的模式。演示视频展示了令人瞩目的能力进展:机械臂能够优雅地操控全新的物体,双足机器人在杂乱地形中自如行走,基于学习的策略可以泛化到未见过的场景。这些演示通常伴随着关于架构细节、训练算力以及基准性能的提问与讨论。
然而,更难回答的问题往往是这样的:“这个演示拍了多少次才成功?”或者“如果把摄像机向左移动15厘米会发生什么?”又或者“它是否已经在实验室环境之外部署过?”
过去几年中,我们确实见证了机器人智能领域的重大突破。视觉-语言-动作(VLA)模型能够根据自然语言指令操控它们从未见过的物体。在仿真中训练的策略正以越来越高的可靠性迁移到真实硬件上。基于多样化机器人数据训练的基础模型展现出涌现式的泛化能力,也有越来越多的证据表明,规模定律同样适用于机器人动作。这些研究进展是真实的、正在加速的,而且令人印象深刻。
然而,生产环境中绝大多数机器人仍然是高度预编程的,只能在精心控制的条件下执行固定流程。ICRA 上展示的能力与工业设施和仓库中实际部署的系统之间的差距,从未如此之大。
这一差距不仅仅是新技术扩散过程中常见的时间滞后所致(尽管这确实是原因之一——规模化部署的工业机器与新兴的通用型机器人,在“机器人”这一共同名称之下,实际上属于两个不同世代的机器);它同样源于在部署自主物理系统时所固有的一系列技术与运营挑战——正如我们在推动自动驾驶汽车上路的过程中所学到的那样。
本文旨在梳理这一部署鸿沟——即机器人研究最前沿与在生产环境中大规模部署的机器人之间长期存在的深层断裂。我们将探讨研究前沿在哪里,部署现实处于何种状态,以及将两者分隔开的具体技术与运营挑战。
研究前沿
让我们先承认机器人学习已经取得了多么长足的进步,尤其是在过去两到三年里。只有在真实能力显著提升的背景下,“部署鸿沟”这一问题才显得有意义。以下是对近年来机器人学习部分关键进展的简要概述。
视觉-语言-动作(VLA)模型代表了近年来机器人学习中最重要的架构性转变。VLA 的核心洞见在于:将基于互联网规模数据预训练的视觉-语言模型进行微调,使其能够输出机器人动作,并利用从网络数据中学到的语义理解来实现机器人控制。通过在大规模上统一视觉、语言和动作数据,VLA 模型旨在学习能够在多样化任务、物体、机体形态和环境之间泛化的策略 。
Google 的 RT-2 证明了视觉语言模型(VLM)可以在机器人数据与网络数据上进行联合微调,从而输出用于机器人控制的指令,展现出对新颖物体的理解以及遵循多样且复杂指令等涌现能力。Physical Intelligence 的 π0 在此基础上更进一步,基于来自不同机器人形态的轨迹进行训练,并引入流匹配(flow matching)以实现平滑、高频的动作生成,而 π0.5 则将这一工作扩展至开放世界泛化。Generalist 的 GEN-0 将预训练数据规模提升至新的高度,并引入了一种用于感知与动作标记交互的谐波推理方法。
仿真到现实迁移 已取得显著进展。领域随机化——在训练过程中变化仿真参数以强制学习鲁棒表征——如今已使大量运动控制任务以及日益增多的操作任务实现零样本迁移。该方法通过在训练阶段随机改变质量、摩擦、光照等参数,来应对仿真到现实的差距,从而训练出即便从未使用真实世界数据、也能在实体机器人上成功运行的策略。此外,世界模型方面的持续研究,也为进一步提升仿真到现实迁移效果开辟了新的进展路径。
跨具身泛化正在兴起。Open X-Embodiment 项目汇集了来自 22 种不同机器人平台的逾 100 万条轨迹数据。基于这些数据训练的模型展现出正向迁移效果:RT-1-X 的成功率较单一机器人基线提升约 50%;RT-2-X 在涌现技能上实现了 3 倍提升。近几年的多模态语言-动作模型(VLA),如 π0、GEN-0 以及 NVIDIA 的 GR00T N1,都将跨具身作为重点,推动实现用单一策略运行于异构机器人硬件之上的愿景。
灵巧操控已跨越关键门槛。策略如今能够处理可变形物体、工具使用以及高接触密度任务——这些在几年前仍被视为难以攻克。Gemini Robotics 是构建于 Gemini 2.0 基础之上的一款 VLA,能够完成对灵巧性、精确力控和复杂序列推理要求极高的任务,例如折纸和操控扑克牌。
这是前沿领域。它在鲁棒性、可扩展性,以及跨任务、环境和具身形态的泛化能力方面进展迅速。然而,几乎没有真正实现部署。
部署的现实
现在让我们把目光转向当下实际在生产环境中运行的系统。这些机器人在很大程度上仍是“传统”机器人,与当前以机器人学习(学习型系统)为核心的研究范式形成对比。
汽车制造业使用着成千上万台工业机器人,但它们仍然被狭义地预先编程以执行特定任务。一台焊接机器人每天以亚毫米级精度重复执行同样的动作成千上万次。一旦任务发生变化——例如推出新的车型或更换焊接模式——工程师和系统集成商就需要对其进行人工重新编程。能够通过示范或指令学习新任务的机器人,其承诺至今仍主要停留在试点项目中。
仓库拣选——通常涉及从料箱中抓取各类物体——是最接近研究能力落地的应用之一。一些公司已经在生产环境中部署了学习型拣选策略。但即便如此,差距依然明显。这些系统通常只能在受控照明条件下,通过工程化的料箱呈现方式,处理结构化的产品类别(形状一致的包装商品)。而研究演示中展示的在杂乱、非结构化环境中拣取任意物体的能力,迄今尚未能在规模化场景中实现可靠部署。
人形机器人获得了极大的关注和投资。但迄今为止,大多数人形机器人的部署仍停留在试点阶段,在导航、灵巧操作或任务切换等方面高度依赖人工输入。此外,目前的人形机器人更多是供机器人开发者(通常在实验室环境中)构建和验证的一个平台,而非面向消费级或企业客户、可直接用于生产任务的完整解决方案。因此,人形机器人系统在现实世界中的部署仍主要局限于演示和试点项目。
机器人研究与机器人部署之间的整体鸿沟,只需观察各自领域中的参与者即可看出。在机器人研究领域,关注焦点多集中于致力于机器人学习突破的公司和商业实验室。相比之下,工业设施中的机器人部署现状仍主要依赖区域性的系统集成商,分销工业机器人 OEM 的系统,并采用传统方法进行编程。这两个领域在很大程度上彼此独立运作。然而,这种现状对一家新的技术公司而言是一个艰难的市场(原因我们此前已在相关文章中讨论过),这意味着开启机器人新时代的关键,很大程度上取决于当前正在取得的技术进步,能否在实质上改变机器人部署的经济性和运营考量。
如果要让世界上的机器人数量实现数量级的增长,机器人本身很可能也必须在速度、成本以及开发和部署的难易程度上实现数量级的提升——这意味着我们必须弥合研究与部署之间的鸿沟。
部署鸿沟的映射
部署鸿沟并非单一问题,而是一系列具体的技术和运营挑战;正是这些挑战限制了研究系统从实验室走向生产环境。我们在此梳理其中的一些问题。
分布偏移
研究系统通常在与训练数据来自同一分布的测试集上进行评估。而部署环境从定义上来说,属于分布外场景。
在机器人实验室中基于特定物体训练的操控策略,一旦进入仓库环境,就会遭遇不同的光照、不同的背景、不同的物体纹理以及不同的摄像机角度。sim2real 方法还面临仿真与现实不匹配的挑战,这些不匹配源于对物理现象建模的不准确以及控制的异步性。在实验室中达到 95% 成功率的策略,在部署后可能下降到 60%——并非策略本身有误,而是物理世界的长尾效应引入了大量潜在差异。
研究界以基准测试上的表现来衡量成功,而部署则要求在基准无法覆盖的长尾场景中同样取得成功。随着泛化能力的持续进展,以及策略不断展示出对未见任务和环境的零样本泛化能力,这一问题可能会逐渐减轻。然而在当前阶段,它仍然与基于学习的方法在生产环境中的部署密切相关。
可靠性阈值
研究论文通常关注平均成功率,而部署所要求的是最坏情况下的可靠性。
设想一台拣选机器人在研究评估中达到95%的成功率,这一结果会被认为非常出色。但在实际部署中,该机器人每天要执行数千次拣选操作。以95%的成功率计算,它每天将失败50次。每一次失败都需要人工干预:有人必须清理卡顿、找回掉落的物体、重新启动系统。在规模化运行时,这在运营上是不可承受的。
制造业中的生产系统通常要求可靠性高于 99.9%。要用学习型策略实现这一水平极其困难,因为失败往往并非随机发生,而是可能集中在训练分布未覆盖的边缘情况上。一个整体成功率为 95% 的策略,可能在那 10% 与训练数据不同的场景中有 50% 的失败率。
研究界通常以整体性能为优化目标。相比之下,生产级部署则要求消除各种失效模式。
延迟与能力的权衡
能力最强的 VLA 模型往往也是体量最大、运行最慢的模型。
VLA 模型以复杂的基于 Transformer 的架构和庞大的参数规模(从数十亿到数百亿)为特征,在推理阶段需要大量算力。这导致高延迟和不足的控制频率,往往无法满足低层级机器人控制对实时性的要求。
作为一个示意性的估算,操作类任务通常需要保守地以 20–100Hz 的频率进行控制。一个在边缘硬件上运行的 70 亿参数模型,其推理时间可能在 50–100 毫秒之间——这足以支持 10–20Hz 的控制,但对于需要紧密反馈回路的动态操作而言仍然不足。云端推理还会引入网络延迟,使得许多任务的实时控制变得不可能。
研究论文可以在集群上进行推理并汇报结果,但生产级部署要求在实际投放的机器人所能容纳并供电的硬件上运行。
Figure 的 Helix 和 NVIDIA 的 GR00T N1 等模型中的双系统架构,将较慢的语义推理(系统 2)与快速的运动控制(系统 1)分离,代表了一种试图解决这一权衡的努力。Generalist 的 harmonic reasoning 方法则是应对这些问题的另一种路径。
集成复杂性
研究系统通常彼此隔离,或仅存在于受控、抽象的系统环境中,而投入部署的机器人则必须与设施运行所涉及的其他一切系统进行集成。
一台仓库机器人需要从仓库管理系统(WMS)接收任务分配,与共享作业空间的其他机器人进行协同,向监控仪表板汇报状态,为合规记录事件,并与维护系统对接。高昂的实施成本和与遗留系统的不兼容性阻碍了采用,尤其是在中小企业中;同时,互操作性方面的缺口(尽管已有 OPC UA 等框架)也抑制了多厂商生态的发展。
一种在研究环境中能完美拣选物体的策略,如果无法接收关于应拣选哪些物体的指令、与传送带的节拍进行协同,或向库存追踪系统报告完成状态,那么在生产环境中其功能将受到严重限制。
基于学习的机器人系统如何与构成客户业务运营的“系统之系统”进行集成,仍然是一个尚未得到充分解决的问题。
安全认证
研究系统通常在受控环境中、以有限的时间跨度运行,而部署到现实世界的机器人往往在未签署责任豁免协议的人类身边工作。
在人类附近运行的协作机器人必须符合 ISO 10218 和 ISO/TS 15066 等标准。这些标准是为具备可预测、可分析行为的编程机器人制定的,并未对其行为源自训练数据的学习型策略提供明确规定。
如何认证一个神经网络策略符合这些原本为另一类机器制定的标准?对一个拥有70亿参数的模型进行形式化验证是不可行的。大规模测试或许是一种选择,但测试只能证明故障的存在,而无法证明其不存在。针对基于学习的系统,安全框架往往已经过时。
维护
研究系统往往由设计和构建它们的研究人员负责维护,而已部署的机器人则由并非其设计者的技术人员进行维护。
在生产环境中失败的学习型策略,无法通过阅读代码来调试。事实上,根本没有代码,只有权重。当机器人出现异常行为时,判断问题究竟出在感知、规划、控制、硬件还是系统集成,需要的专业能力是大多数现有维护团队所不具备的。
曾经只需要少数自动化工程师的行业,如今依赖由机器人专家、系统集成商、安全专家和技术人员组成的团队来维持系统运行。然而,人才供给并未跟上这一需求的增长。
研究环境通常假定操作人员和机器人专家具备高度专业能力,但这一假设无法扩展到生产场景;后者通常要求系统能够由更广泛的劳动力群体进行维护。
关于复合效应的说明
这些挑战彼此交织,相互叠加,进一步扩大了部署鸿沟。
设想在一个仓库中部署一套基于 VLA 的操作系统:
- 从实验室到仓库的分布偏移使性能从 95% 降至 80%。
- 在80%的可靠性水平下,系统每天会发生数百次故障,必须持续依赖人工干预。
- 为降低延迟而在边缘硬件上运行完整的 VLA 模型,会进一步削弱性能。
- 与仓库管理系统(WMS)的集成在接口层面引入了额外的故障模式。
- 学习型策略的安全认证需要数月时间,而在此期间研究已经向前推进。
- 一旦发生故障,维护人员无法判断问题应归咎于感知、策略还是系统集成。
每一个挑战都会加剧其他挑战。分布偏移导致故障;故障需要人工介入;人工介入的要求推高运营成本;高成本限制部署规模;有限的规模意味着更少的部署数据;部署数据不足又使分布偏移无法得到改善,如此循环往复。
这种叠加效应为弥合部署鸿沟引入了新的复杂层次。单个问题各自来看都是可以解决的,但它们之间的相互作用形成了一道纯粹的研究进展无法跨越的障碍。
弥合部署鸿沟
部署鸿沟无法仅通过纯粹的研究突破来弥合,而是需要与目前尚不存在的基础设施、工具链和运营能力协同推进。
部署分布数据
应对分布漂移最直接的方式,是收集与部署条件相匹配的数据。机器人领域的数据瓶颈(不同于文本或图像所拥有的互联网规模数据)已被充分认识,并成为一个需要共同攻克的共识性问题。高质量的机器人数据必须通过专门构建的设施和基础设施来采集、整理和标注。
所需条件:
- 可扩展的遥操作基础设施 ,能够在多样化的真实世界环境中采集示范数据,而不仅限于研究实验室。
- 部署阶段的数据采集 ,让生产环境中的机器人在执行有价值工作的同时生成训练数据,形成“飞轮效应”:部署带来更好的模型,更好的模型又推动更多部署。
- 特定领域数据集来自真实的仓库、工厂和家庭,而非实验室中的近似环境。
机器人数据飞轮的承诺在于,一旦机器人能够走向现实世界,在创造经济价值的同时采集数据,机器人数据的成本就会迅速下降,因为这一成本被机器人在运行过程中产生的价值所补贴。然而,要启动这一飞轮,必须跨越一个具有实质意义的初始部署门槛。</span>
学习型系统的可靠性工程
要让基于学习的机器人系统实现规模化部署,必须针对这些学习型系统调整可靠性工程实践。这些实践包括:
- 失效模式刻画 ——系统性地分析策略在何时、因何失效,按根本原因对失败进行聚类,而不仅仅是统计数量。
- 优雅降级 ——策略能够识别自身处于陌生环境时,主动请求人工协助,而不是无声失败。
- 混合架构 ——将学习得到的策略(灵活、通用)与预先编程的兜底机制(可靠、可预测)相结合,避免边缘情况引发系统失效。
- 运行时监控 ——能够实时检测分布漂移,并在故障级联发生之前向操作人员发出警报的系统。
目标并非消除故障——对于在开放世界环境中运行的学习型系统而言,这几乎是不可能的。真正的目标是让故障可恢复、可检测,并且被控制在可接受的范围内。
可在边缘部署的模型
能力—延迟之间的权衡要求在两者之间找到平衡点:
- 高效架构专为机器人约束而设计,而非从语言模型改造而来。Hugging Face 的 SmolVLA 仅凭 4.5 亿参数,通过在连续控制中采用流匹配以及异步推理,实现了与更大规模 VLA 相当的性能。
- 分层系统在语义推理方面低频运行(对延迟要求较低),而在运动控制方面持续运行(对延迟要求至关重要)。
- 硬件-软件协同设计 。模型需围绕机器人平台上可用的特定算力进行设计,而非面向通用的 GPU 集群。当硬件与模型以高度耦合的方式共同设计时,这一路径更为可行;否则,就需要对机器人硬件平台进行更高程度的标准化。
研究界已开始认识到这一点,并逐渐形成了一个围绕“高效 VLA”的明确子领域,专注于弥合计算需求与现实世界部署之间的差距。例如,DeepMind 发布了 Gemini Robotics’ On-Device,这是一个经过优化、可在机器人本地运行的轻量化版本。
集成基础设施
研究系统需要转变为可部署的系统,而这要求具备支持基于学习的机器人实现可扩展集成的基础设施。
- 机器人中间件用于抽象企业系统的异构生态——为常见的 WMS/MES/ERP 平台提供适配器,提供用于车队协同的标准化 API 等。
- 部署自动化 ,以减少为特定环境配置机器人所需的高技能劳动力(类似于物理系统的“基础设施即代码”)
- 已部署系统的可观测性工具 ,包括日志、指标、追踪和告警。
机器人领域尚未形成与 DevOps 实践相对应的体系,而一旦建立,将大幅降低部署过程中的运维负担。
面向学习型系统的安全框架
认证流程需要适应基于学习的系统:
- 行为表征方法 ,用于描述一个策略在其运行域内将如何表现,即使没有正式的核实。
- 测试框架 ,通过系统性探测失效模式,而非零散抽查。
- 运行时安全层 ,可在接近不安全状态时覆盖学习到的策略。
- 更新后的标准 ,专为基于学习的机器人制定。
这些解决方案既有技术层面的,也有制度层面的。
进展的形态
部署鸿沟在当下是真实存在的,但也很可能只是暂时现象。它的弥合不太可能源于某一次单一的突破,而是将通过上述基础设施和工具的持续累积式进步逐步实现。
一种可能的模式是:在受限领域内进行的窄范围部署,随着可靠性提升和集成成本下降而逐步扩展。仓库拣选变得更加稳健,制造任务变得更加灵活。每一次成功的部署都会产生数据,从而改进下一次部署。
另一种可能的模式是,我们在不同任务、环境和形态上达到某种通用能力的基线水平,而这一通用基线随后成为机器人专家和开发者在其之上构建具体应用的基础。每一个应用都需要对通用机器人进行微调——涵盖策略和硬件两个层面——以适配当前任务或环境的特定要素。
物理世界高度多变——远比虚拟领域复杂——并且涉及数量庞大的参数,这可能使单一产品解决方案难以实现。其含义正如我们此前所写 ,机器人领域未必会出现一个单一的“iPhone 时刻”,而更可能是在生态系统层面逐步演进的过程。机器人领域的突破性时刻,或许不像某一款消费级产品的拐点,更像是一个通用操作系统,支撑起由设备、开发者工具和应用组成的生态体系——更接近 Android,而非 iPhone。
此外,机器人部署鸿沟的存在,正处在中美更广泛人工智能竞赛的背景之下。正如一些人指出 ,中国选择了一条侧重人工智能应用的战略,而非在前沿模型上不断追求通向超级智能的性能极限——这一领域目前由美国领先——这可能形成一种格局:尽管美国在模型能力上占优,中国却可能率先通过人工智能释放更大的经济价值。这种格局在机器人领域尤为突出,因为中国在工业机器人以及更广泛的制造业规模上占据优势。与人工智能的其他模态类似,美国很可能在机器人学习的前沿模型和软件方面具备优势,但中国的机器人生态系统以及其在众多工业流程中的能力同样不容小觑。正如我们此前所写,美国及其盟友必须认真应对并赢得机器人竞赛 ,而弥合部署鸿沟是这一努力的关键组成部分,将机器人技术进展转化为经济和战略价值。
部署鸿沟正是研究与现实的交汇点,是能力转化为产能之处,也是基准测试上的性能转化为真正硬实力的地方。若要构建一个机器人数量在工厂、家庭乃至开拓星辰与新边疆时呈数量级增长的世界,我们就必须打造关键基础设施,把令人惊叹的演示转化为可靠且可规模化的系统。
物理 AI 可能成为人类历史上最大的市场。我们只需将其变为现实——这正是一代机器人公司所面临的机遇。
如果你正在构建用于物理 AI 部署的基础设施——包括数据采集、可靠性工程、集成工具链、边缘高效模型等——我们非常期待与你交流。