机器人行业缺少一套共同标准:物理世界的 MCP 协议
💡 文章信息:作者:Jordan Kretchmer (Partner @ Outlander) | 英文原文:点击阅读
💡 核心论点
- 目前的机器人产业由于各类传感器、电机驱动器与算法协议各异,面临着极其严重的碎片化和重复造轮子痛苦。
- 像软件行业通过模型上下文协议(MCP)确立标准一样,物理世界的机器人迫切需要定义一套交互与控制的统一标准。
- 统一协议一旦确立,将极大地加速多模态物理智能在各类不同形态机器人本体上的迁移与自我复制。
📑 严格逐字逐段翻译
机器人技术需要其缺失的标准:物理世界的 MCP
发布者:乔丹·克雷奇默
发表于 05/18/2026
相关博客
- 机器人技术需要其缺失的标准:物理世界的 MCP
-
投资前我问的 5 个问题
-
Fitmob 和 ClassPass 联手革新健身
-
Airbnb,我的 10 亿美元教训
-
鸣喇叭。颠覆 AAA 的初创公司
机器人技术需要其缺失的标准:物理世界的 MCP
作者:Jordan Kretchmer,Outlander VC 高级合伙人
机器人学并不存在模型问题,而存在集成问题。
是的,模型正在变得越来越好。视觉语言模型正在改进。远程操作正在改进。触觉正在改善。灵巧的操作正在进步。模拟正在改进。培训渠道正在改善。机器人技术的基础模型正在改进。但几乎堆栈的每个主要部分仍在建造为自己的岛屿。
这就是为什么该行业不断取得令人印象深刻的技术突破,却没有相应的部署规模。各个组件各自变得越来越好,但整个系统仍然支离破碎。
机器人技术需要其缺失的协议层。
它需要一个适用于物理世界的 MCP:一个共享标准,让感知、控制、远程操作、触觉、训练、数据、模拟、基础模型和真实机器都通过一个通用接口进行互操作。在此之前,机器人技术将继续在孤岛中前进,而将所有东西拼接在一起的成本将继续减慢整个行业的发展速度。
当前堆栈在设计上是碎片化的
目前,大多数机器人系统都是像定制项目一样组装的,而不是可互操作的产品。
一家公司构建了远程操作层。另一个则培养灵巧的双手。另一个构建基础模型。另一个构建控制软件。另一个构建触觉界面。另一个构建模拟工具。另一个建设培训基础设施。另一个制造机器人手臂、移动基地、人形机器人、无人机或水下航行器。
每一层都可能是世界一流的。但它们之间的接口通常是定制的。
远程操作系统有自己的控制 API。硬件平台有自己的命令结构。操作堆栈有自己的任务表示。VLM 有自己的感知和规划包装器。数据集管道有自己的日志模式。模拟器有自己的对象定义。人类操作员控制台有自己的干预和覆盖概念。
这意味着几乎每个严肃的部署仍然需要跨整个堆栈的自定义粘合代码。这是对行业的征税。随着堆栈变得越来越强大,它也会变得越来越大。问题不再是我们没有足够有趣的机器人技术。问题是他们不作曲。
缺失的层实际上是什么
该行业不需要一种成功的机器人架构。它需要一种共同的语言。物理世界的 MCP 将是一个协议层,它标准化机器人系统如何描述和交换:
- 能力
-
世界状态
-
对象表示
-
任务定义
-
行动请求
-
控制方式
-
安全边界
-
操作员干预
-
信心和不确定性
-
反馈信号
-
执行痕迹
-
训练数据
这并不迷人,但这正是它重要的原因。
基础设施层通常不如它们所支持的产品那么明显,但它们是生态系统形成的基础。在软件方面,标准和协议将孤立的系统变成了平台。机器人技术正接近需要同样东西的地步。
如果没有这一层,每个机器人公司都被迫表现得像一个垂直整合的孤岛,即使该行业最好的未来是模块化的。
为什么现在这很重要
随着机器人技术从严格控制的工业工作流程转向半结构化和非结构化环境,这个问题变得更加紧迫。
固定生产单元中的机器人可以进行大量定制工程。环境受到限制。变异性低。边缘情况是有限的。这并不是大多数人努力建设的未来。
真正的前沿是在以下环境中:
- 混合SKU仓库
-
高混合制造
-
物流堆场
-
建筑工地
-
农业
-
医院
-
家园
-
现场维护
-
防御环境
-
远程基础设施检查和维修
这些环境需要多种控制和智能模式在同一系统中协同工作:
- 自治
-
远程操作
-
共享控制
-
触觉反馈
-
语义推理
-
运动规划
-
力控制
-
政策学习
-
安全监管
-
人为升级
环境越开放,集成层就变得越重要。不能在这些模式之间流畅移动的机器人并不真正坚固。这只是一个在条件有利时运行的演示。
最明显的例子:操纵
最明显需要共享协议的地方就是操纵。操纵是最困难的问题相互叠加的地方:感知、接触、不确定性、灵活性、力控制、恢复、人为干预和训练。
以仓库拣货机器人为例。
如今,实际部署可能包括:
- 相机和深度传感器来自一个堆栈
-
来自另一个物体的检测
-
用于语义理解的 VLM
-
其他供应商的任务计划程序
-
来自 OEM 的机器人手臂控制
-
定制夹具
-
用于后备的远程操作界面
-
单独的训练管道
-
一个单独的模拟器
-
用于监控和 QA 的单独仪表板
每个集成点都是脆弱的。每次交接都是定制的。每个日志记录管道都是不一致的。每个训练数据集在重新使用之前都需要清理和转换。
现在想象一下两者之间的共享协议层。
感知系统发布对象、姿势、可供性和不确定性。
机器人发布运动学、末端执行器状态、控制模式、力限制、故障状态和可达工作空间。
任务规划器发布目标、子任务、约束和升级逻辑。
远程操作系统可以订阅相同的状态,并仅接管需要人工帮助的部分任务。
训练管道以标准格式记录所有内容。
模拟器使用相同的定义重播同一集。
基础模型对相同的任务图和状态表示进行推理。
这就是真正的互操作性层所要解锁的:不仅是兼容性,而且是复合性。
文字(过于简化)的示例
机器人应该能够以标准化的方式描述自己:
“robot_id”:“mm_warehouse_12”,
“platform_type”:“mobile_manipulator”,
“运动”:[“轮式”],
“操纵者”:[
“arm_id”:“右臂”,
“自由度”:7,
“有效载荷公斤”:10,
“到达米”:1.2
“末端效应器”:[
“类型”:“parallel_gripper”,
“最大力n”:35,
“触觉感应”:正确
“传感器”:[
“控制模式”:[
任务应该能够达到标准结构:
“task_id”:“pick_task_10027”,
“类型”:“拾取和放置”,
“目的”: {
“类”:“塑料袋”,
“sku”:“SKU-8821”,
“姿势估计”:[0.31,0.22,0.14,0.0,1.57,0.0],
“姿势置信度”:0.74
“来源”:“bin_B4”,
“目标”:“tote_Z9”,
“约束”:{
“最大握力n”:12,
“avoid_crushing”:正确,
“时间限制”:18
“倒退”: {
“teleop_allowed”:正确,
“失败后升级”:2
人员交接应该是结构化的,而不是即兴的:
“不可触摸”: {
“来自”:“自治”,
“至”:“远程操作员”,
“范围”:[“手腕旋转”,“握力”],
“keep_autonomous”:[“base_stability”,“collision_avoidance”],
“原因”:“low_confidence_final_grasp_alignment”,
“最大持续时间”:10
训练集应该以可重复使用的方式记录:
“episode_id”:“ep_544002”,
“任务类型”:“bin_pick”,
“观察”:{
“愿景”:“uri://frames/ep_544002”,
“robot_state”:“uri://state/ep_544002”,
“force_torque”:“uri://ft/ep_544002”,
“触觉”:“uri://tactile/ep_544002”
“行动”:{
“policy_commands”:“uri://actions/ep_544002”,
“人类覆盖段”:[
“start_ms”:8210,
“end_ms”:11520,
“operator_id”:“operator_4”
“结果”: {
“成功”:真实,
“完成时间_毫秒”:16310,
“recovery_used”:正确
这些都不是异国情调的。这就是重点。它是基础设施,应该已经以标准化形式存在。
触觉不应被困在专有系统中
触觉是应该成为共享协议层一部分的功能的最明显示例之一。
如今,触觉通常被视为远程操作的附件。但在成熟的机器人技术堆栈中,触觉应该远不止于此。
应该是:
- 运营商的实时反馈渠道
-
政策学习的训练信号
-
已记录剧集中的可重播数据流
-
模拟输入和输出
-
脆弱任务的安全信号
-
人类灵巧性和机器自主性之间的桥梁
想象一下,远程操作员引导机器人完成复杂的电缆插入任务、阀门转动、手术动作或损坏部件的取出。操作员的力调整、犹豫、补偿和接触模式不应消失在闭环中。它们应该成为整个系统可以使用的结构化数据。
这就是远程操作如何成为自治之路而不是并行的死胡同堆栈的原因。
远程操作不是拐杖。它是架构的一部分。
业界经常将远程操作视为自治最终将取代的东西。那太简单了。
远程操作在严肃的机器人部署中至少发挥着四个持久的作用:
- 长尾失败的后备
-
安全关键任务的监督
-
共享控制以实现精细操作
-
为未来政策培训生成数据
最强大的机器人系统不会在远程操作和自主之间做出选择。他们将把两者干净地整合在一起。
共享协议可以让远程操作系统在不同的机器人平台上工作,而无需每次都进行重建。它将允许远程操作员对状态、控制权限、干预和安全约束使用一致的抽象。它将让操作员的操作流入标准化数据集,从而随着时间的推移提高自主性。
与将远程操作视为附加到脆弱机器人上的劳动层相比,这是一个更强大的模型。
基础模型也需要结构
许多机器人评论都假设更好的模型自然会解决集成问题。他们不会。
基础模型和 VLM 仅当它们可以通过可靠的抽象与物理世界交互时才有用。
模型可以理解工具被部分遮挡、手柄可能是可抓握的、或者失败的插入可能需要在重试之前旋转。但是,除非机器人堆栈公开有关世界状态、动作空间、控制模式和不确定性的标准化原语,否则模型仍然被困在每次部署的自定义包装器中。这阻碍了真正的可移植性。
共享协议可以让模型执行以下操作:
- 查询机器人能力
-
检查场景状态
-
提出子目标
-
估计置信度
-
请求操作员协助
-
推荐恢复策略
-
注释失败
-
干净地移交给较低级别的控制器
这就是模型进度实际上成为部署进度的方式。
这适用于所有机器人类别
尽管操作是最明确的起点,但该协议层在整个机器人系统中都很重要。
在无人机中,它将统一任务规划、自主性、有效载荷控制、操作员干预和感知输出。
在自主地面系统中,它将统一导航、传感器融合、远程操作后备和任务级命令。
在海上机器人技术中,它将连接自主性、稀疏的人类监督、退化的通信和与平台无关的任务控制。
在工业机器人领域,它将使更多混合的制造更加模块化,并减少对一次性集成的依赖。
在农业中,它将连接许多作物和任务类型的移动性、传感、驱动和人类监督。
在手术或辅助机器人中,它将统一触觉、监督、安全逻辑和精确操作界面。
实施例不同。集成问题是相同的。
标准应涵盖哪些内容
一个严肃的机器人 MCP 层应该标准化交互的核心原语:
能力发现:这台机器可以安全地感知、触及、操纵、携带或承受什么?
世界表征:场景中存在哪些物体、人类、障碍物、表面和功能可供性,以及具有哪些不确定性?
任务规范:目标是什么,子任务是什么,重要的约束是什么,什么才算是成功?
操作抽象:可以在高层请求哪些操作,以及它们如何映射到控制模式?
人为干预:系统如何请求帮助、部分或全部控制权移交、记录干预并恢复自主?
反馈流:视觉、触觉、力、音频和遥测如何表示,以便跨工具使用它们?
安全语义:降级模式意味着什么,何时需要干预,以及如何表达置信阈值?
培训和重播:如何记录轨迹、演示、纠正、结果和上下文以供重复使用?
模拟可移植性:真实和模拟的场景如何共享共同的任务和状态表示?
这就是行业需要融合的水平。
最好的版本是什么
该协议的最佳版本不仅仅是连接软件模块。它成为具身智能的通用操作语法。它允许机器人在一个环境中从人类的纠正中学习,并在其他地方重用该教训。
它允许基础模型以与平台无关的方式对任务进行推理。
它使远程操作成为通向自治的可扩展桥梁,而不是死胡同的服务层。
它允许触觉、视觉和语义信息以可重用的格式融合。
它允许异构机器(武器、无人机、人形机器人、AMR、水下航行器、手术系统、现场机器人)参与更广泛的生态系统,而不是生活在封闭的垂直堆栈中。
这就是将机器人技术从一系列定制系统转变为真正的平台经济的原因。
经济影响大于技术影响
这不仅仅是技术标准对话。这是一个经济问题。
真正的互操作性层将通过减少每个站点和每个工作流程所需的自定义集成量来降低部署机器人的成本。它将减少供应商锁定。这将使客户更容易采用同类最佳的系统,而不是把一切都押在一个垂直整合的提供商身上。
它还将使数据变得更有价值。目前,大量的机器人训练数据被困在专有模式和特定于部署的堆栈中。标准化将使更多数据可跨任务、站点甚至实施例重用。
它还将加快模型改进传播到该领域的速度。当一个更好的策略、规划器或推理系统可以插入多个机器人环境而不是一个机器人环境时,它就会变得更有价值。
这就是生态系统的扩展方式。
赢家未必是业界所期望的
机器人技术的最大长期赢家可能不仅仅是拥有最好的手臂、最好的手、最好的模型或最好的远程操作界面的公司。他们可能是帮助定义让行业其他公司互操作的语法的公司。
因为机器人技术已经达到了瓶颈不再只是“这件事能行吗?”的阶段。越来越多的问题是“许多东西能否可靠地协同工作以进行大规模部署?”
这是一个基础设施问题。基础设施问题往往决定谁复合。
机器人行业不应再将集成视为胶水工作
机器人行业仍然倾向于将集成视为下游管道,这是在取得令人兴奋的突破之后需要解决的问题。那是倒退。集成并不是无聊的部分。它决定了突破是孤立的还是系统性的。
机器人技术的下一个重大飞跃可能不仅仅来自新的模型架构或新颖的末端执行器。它可能来自允许所有这些进步进行连接的共享协议层。这就是缺失的标准。
物理世界的 MCP。
并不是因为机器人技术需要较少的创新,而是因为它需要一种跨堆栈复合创新的方法。
你正在建造这个吗?立即申请。
乔丹·克莱奇默
专家建议、启动工具和独家更新直接发送到您的收件箱。
当我们探索每项新投资的未知之处时,我们的现场指南将记录我们在此过程中学到的所有知识。
因此,无论您是在积极融资、尝试进入风险投资领域,还是对我们改变游戏规则的投资组合感兴趣,我们的现场指南都能满足您的需求。
立即注册,独家获得融资机会、来自我们专家网络的活动/资源、我们投资组合的最新信息等等!
订阅我们的每月现场指南:
以下哪一项最能描述您?*
投资人创始人顾问社区成员LP
是的,给我报名吧!选中此框即表示我同意接收来自 Outlander VC 的新闻、活动信息和其他更新。
为未来提供资金
以下哪一项最能描述您?*
创始人投资者顾问社区成员
© 欧蓝德风险投资公司。 2022 年。
📌 核心金句与关键指标
[!NOTE]
““正如软件开发者围绕上下文协议进行统一,机器人领域也只有在把模型核心逻辑与现实物理执行控制协议彻底剥离之后,才能真正迎来爆发式的高速增长。””
🎯 行业启示与落地建议
- 未来的巨大爆发性平台将是能够定义“比特”与“原子”交互底层的接口级软件协议商。
- 投资者应密切注视在具身智能操作系统层、网络虚拟执行统一标准件等赛道上布局的团队。