机器人智能的产业化

乔纳森·希利

机器人智能的产业化

机器人领域吸引了大量的资本、世界上一些最优秀的技术人才，以及源源不断的令人印象深刻的演示，让未来变得触手可及。然而，在相对较小的受控环境（其中主要是工业自动化）之外，实际部署仍然很少。仓库、农场、工厂、医院、建筑工地：所有这些看起来仍然更像传统的劳动力景观，而不是数十亿涌入的劳动力所承诺的景观。

正是这种紧张感使得这一刻既引人注目又危险。几十年来第一次，这种炒作得到了合理的结构性变革的支撑：组件成本下降、电池经济性提高、功能更强大的模型架构、更好的模拟和培训环境，以及由资本流入和 AGI 相关雄心驱动的人才飞轮。问题不在于机器人领域是否有希望。问题在于我们是否处于商业和消费者采用的拐点以及如何验证当前的势头。

本文对这个问题采取了普遍的观点。它并没有对机器人技术的每个角落进行分类，从无人机到防御，再到自主堆栈的最深层。这里的重点是更广泛的市场背景、使我们走到这一步的力量以及最有可能产生价值的地方。

我们是如何到达这里的？

机器人技术始终坚持相同的基本前提：将劳动力转变为自动化系统。其概念根源比大多数人意识到的要深刻：埃及水钟早在公元前 3000 年就使用了自动化人体雕像(https://cs.stanford.edu/people/eroberts/courses/soco/projects/1998-99/robotics/history.html)。然而，“机器人”一词直到 1920 年才进入现代词典，由捷克戏剧 R.U.R. （Rossum 的通用机器人）。在捷克语中，“robota”字面意思是强迫劳动或农奴制。这个名字被保留下来，定义野心的类别也被保留下来。抛开演示、巨额融资轮次和具体的人工智能讨论，基本主张仍然是一样的：

我们能否制造出在现实世界中执行具有经济价值的工作的机器？

无数的技术发展引领我们进入了机器人技术的现代时代。值得注意的是，讨论四个不同的时代很重要：

# 我。 1950–2000：工业进入和基础建设

第一个时代是由可编程机电一体化定义的。 Unimate 是通用汽车于 1961 年推出的首款工业机器人，专为有限机械运动而设计（后来扩展到其他应用）。 Stanford Arm紧随其后，推动了多轴功能的发展，并在整个 90 年代仍然是主导焦点。在这个时代，机械结构领先，计算落后。

20 世纪 70 年代，底层堆栈的功能显着增强。 Modicon PLC 于 1968 年问世； Intel 4004 微处理器随后于 1971 年问世。这是机器智能开始在工业自动化中经济扩展的时刻 (Schneider Electric，英特尔)。到 20 世纪 80 年代（“数字工厂”的开始），IBM PC 已将计算带入工程主流。机器人技术成为更广泛的数字生产环境的一部分——编程、模拟、监控和集成——而不是孤立的机械装置（IBM）。

二。 2000–2010：开放机器人和移动组件时代

从那时起，机器人技术开始不再像一个工业领域，而更像一个现代计算领域。 ROS（机器人操作系统）于2007年11月7日首次提交，PR2成为规范的研究平台，首次为社区提供了共享的软件层和通用的开发环境。

同年，苹果推出了 iPhone。这开启了移动计算和智能手机时代，随之而来的是整个传感器、电池、相机、嵌入式计算和节能电子产品供应链的长期成本压缩——所有这些都将由机器人技术最终继承。优傲机器人（Universal Robots，成立于 2005 年）、iRobot 的 Roomba（2002 年）、Kiva Systems（2003 年）——都是直接受益者。亚马逊于 2012 年收购 Kiva 是第一个真正的信号，表明机器人技术可以产生战略商业价值，而不仅仅是研究兴奋。

三。 2010–2020：协作机器人和边缘计算

到 2010 年代中期，三件事融合在一起。(1) 协作机器人在商业上变得可信– KUKA LBR iiwa 是第一个经过人机协作认证的批量生产的敏感机器人，而优傲机器人则不断推动可访问性和易于部署。(2) GPU 计算在边缘变得实用——Nvidia Jetson 于 2014 年推出，使实时人工智能和计算机视觉更接近可部署系统（在 2014 年基于 CUDA 构建） 2006 年及之后变压器架构)。 (3) AI 堆栈发生根本性转变– 在策略优化（信任区域策略优化）、快速适应（模型无关元学习）和更丰富的感知架构（非局部神经网络Networks)开始用端到端、数据驱动的感知和控制取代手工设计的管道。

最终结果是机器人通过强化学习、模拟和模仿从结构化、硬编码的规则转向基于感知的学习——从数据而不是从明确的硬编码编程中获取运动技能。这为接下来的事情奠定了重要的基础。

四。 2020 年 — 今天：物理人工智能

在过去的十年里，谷歌臭名昭著的 2017 年 Transformer 论文被翻译成 RT-1 (2022)，它将机器人控制定义为在大型、多样化的现实世界数据集上训练的 Transformer 问题。接下来是 RT-2（2023），扩展到从网络和机器人数据中学习的视觉语言动作（VLA）模型。 NVIDIA 宣布了 Project GR00T (2024) 和 GR00T N1 (2025)，这是一个开放的人形机器人基础模型。机器人“大脑”开始成形，新时代的机器人模型实验室（例如物理智能、技能人工智能、现场人工智能）也随之出现。

值得注意的是，其他底层基础设施也同时得到改善。例如，5G 实现了更快的无线连接和更可靠的远程操作，而更好的数据管道和更强大的现场硬件为更广泛的远程操作、车队软件和数据收集循环打开了大门。简而言之，许多线索同时汇聚在一起。

有利的经济学。

随着每一次有意义的市场转变，都值得深入研究支持范例。在机器人技术中，两条成本曲线最重要：(1) 组件和系统成本以及 (2) 人力成本。从纯粹的经济角度来看，正是两者之间的差异使得机器人技术在今天具有吸引力，尽管劳动力供应、政治压力和社会接受度等许多其他因素也在发挥作用。

在系统方面，关键部件通常包括执行器、传感器、电池、半导体/芯片和机械结构。类人机器人包括其中的大部分，因此即使它们不能代表所有机器人系统，它们也可以作为合理的代理。幸运的是，摩根士丹利之前按部分细分了特斯拉的 Optimus BOM，说明了每个部分在整个系统中的贡献（参见下面的图 1）。

机器人智能的产业化

图 1. Optimus Humanoid BOM 细分（来自 摩根士丹利 2025 年 2 月预估)

然而，仅完整的成本细分就忽略了推动下一波机器人技术发展的潜在经济变化。因此，讨论一些具体的成本曲线很重要：

执行器 — 代表许多机器人系统中的复数成本。中国主导市场，这使得某些用例和供应链弹性变得复杂。如下图 2 所示，虽然总体价格趋势并不乐观，平均执行器价格增长高于通胀（根据 FRED），但在密度标准化后，实际前景显着改善（根据 Sayako 和 Akiya）。然而，这仍然错过了质量调整：电动线性执行器在精度、控制和精细运动方面不断提高，对永磁线性电机的研究表明跟踪误差从 2003 年的 7 μm 以下下降到后来的工作中的约 0.5 μm RMS（IEEE Transactions on磁学， IEEE/ASME 交易机电一体化)。

机器人智能的产业化

图 2. 执行器价格与功率密度的关系图（对于电动执行器）

电池成本 — 在汽车行业和电网级存储的推动下急剧下降。使用最常见的配方之一——锂离子电池，我们可以在图 3 中看到，自 2013 年以来每千瓦时的成本已大幅下降约 87%，甚至自 2020 年以来也实现了约 36% 的下降，并且即将趋于平稳。

机器人智能的产业化

图3. 彭博NEF 2025年锂离子电池价格调查

计算成本 — 不是直接的 BOM 行项目，但它是长期经济的核心。机器人技术在竞争中胜过劳动力的情况部分取决于边缘计算成本的持续下降和参数化模型性能的提高。以 Nvidia 的 Jetson 系列芯片为例（见图 4），自 2014 年以来每美元性能的数量级改进变得非常明显。

机器人智能的产业化

图 4. Nvidia Jetson 芯片性能随时间变化的价值（基于初始性能和价格）

系统成本 — 总体而言，以工业机器人为例，在过去三十年中已大幅下降，预计还会进一步下降（如图 5 所示）。

机器人智能的产业化

图 5. 自 1995 年以来的工业机器人成本（Interact Analysis）

美国的劳动力成本 – 从仓储和物流（典型用例）来看，我们看到了相反的趋势，平均每小时工资稳步上升。例如，图 6 显示了以 2003 年为指数的运输和仓库员工的工资增长（根据 FRED）。即使通胀正常化，工资增长速度仍高于该行业劳动力需求的关键性质。

机器人智能的产业化

图 6. 运输和仓储业私营行业工人的年工资增长（根据 FRED)

将这些曲线放在一起，结论相对明确：自动化/机器人技术的边际价值正在增加。在 NPV 基础上绘制此图清楚地说明了这一点（参见下面的图 7），尽管“有效边界”会根据模型而有所不同。

机器人智能的产业化

图 7. 入门级仓库运营用例的机器人部署的高效前沿。假设包括：Indeed 的平均入门级仓库工资和福利、8 年的使用寿命、预付模型中 20% 的持续维护成本、10% 的折扣率。

市场的顺风无疑支持了明确的市场需求。然而，根本问题仍然存在：

我们正处于机器人采用的拐点吗？

一些不同的权衡仍在进行（在区域和公司层面），每一个都值得简要命名：

硬件与智能——主要是最近一波浪潮中中国与美国采取不同方法的故事。现有的制造基础设施和已安装的供应链有利于中国的硬件发展；而美国在人工智能/机器学习和早期法学硕士基础模型实验室方面处于领先地位。不过，随着时间的推移，预计会有更多的交叉。
工业与消费者 — 拾取和包装托盘表面上可能看起来与拾取盘子相似，但运动、抓握动态和压力容差却并非如此。鉴于机器人技术在工业环境中的应用已经很广泛，而且投资回报率也很明确，因此在类人机器人大规模进入家庭之前，机器人的部署将会在这里规模化。
开源 (Android) 与封闭 (iOS) — 就像智能手机中 Android/iOS 的分裂一样，机器人技术开始划分为开放的、以开发人员为中心的平台（例如 ROS 等效物、开放硬件生态系统）和垂直集成的封闭系统，其中硬件、软件和模型受到严格控制。

超越经济：情报堆栈。

零部件成本的下降解释了为什么机器人技术比几年前更容易融资。然而，他们没有解释为什么市场的叙述从狭隘的自动化转向通用机器人。这种转变与情报层有关。

机器人正在从更简单的工程感知、规划和世界假设转向基于大规模视频、机器人演示、合成投影和多模式输入训练的学习表征。值得考虑的三个领域：

1。数据问题

含义很简单：机器人技术仍然缺乏与互联网同等的物理形式。法学硕士收获了数字化文本和媒体，而机器人学习仍然依赖于远程操作和人类操作员、物理硬件和现实环境（机器人偶尔也会掉咖啡！）。这种差距是显而易见的：大约约 1B 小时的互联网视频、3.5 亿小时的自动驾驶数据、约 2000 万小时的世界模型训练代理（如 Cosmos），以及全球范围内只有 30 万小时的机器人操作数据（根据 Bessemer 最近的报告）。即使在不同模式之间进行不完美的比较，机器人智能从根本上来说也是受到数据限制的。此外，并非所有数据都是平等或可用的，这通常与数据的可扩展性成反比。下面的图 8 突出显示了一些值得考虑的主要类别。

机器人智能的产业化

图 8. 机器人数据分层 — 价值与可扩展性

2. 智能层正在变得高性能

世界知识（世界模型）和行动知识（视觉-语言-模型/视觉-语言-行动模型、多模态机器人基础模型）都发展迅速。世界知识——物体如何表现、液体倾倒、织物悬垂——可以越来越多地从丰富的视频和建模中学习（参见此处）。动作知识——特定的手臂、手或人形机器人如何将命令转化为运动——仍然是特定于具体实施例的，但可能需要比前几代假设的少得多的机器人特定数据。

Meta 的 V-JEPA 2 建立在 Yann LeCun 奠定的基础上，我们最近支持了 Yann LeCun 的新企业 AMI，它经过超过 100 万小时的视频进行预训练，然后用不到 62 小时的机器人镜头进行动作调节。谷歌的 RT-2 将网络规模的视觉语言学习扩展到实际的机器人控制中。模拟器并没有消亡，运动仍然可以很好地映射到正式的物理引擎，但它们的作用正在缩小。丰富的接触操纵是学习的世界模型开始变得更重要的地方。

3. 将理论转化为解决方案

首先，他们来获取数据，然后建立模型，然后还剩下什么？实际的解决方案（重要的事情！）：移动托盘、照顾病人、焊接金属板。更好的模型首先表现为实际收益：更好的掌握、更少的远程操作干预、更快地适应新的 SKU、更强大的操作、有界工作流程内更长的自主窗口。虽然机器人技术的“ChatGPT时刻”争论仍在继续，但更相关的问题是这个新的智能层是否足以推动更多的物理任务从试点到生产的门槛。

堆栈从那里解析。数据支持构建语料库。机器人新实验室将语料库转化为可重复使用的智能。垂直解决方案提供商将这种情报转化为可衡量的劳动力经济学。

我们在寻找的地方。

The robotics landscape today is as broad as it is messy hence intentionally avoiding commentary on all aspects, especially standalone markets (e.g., drones, defense, the deeper autonomy, and large swaths of factory automation).我们的兴趣在于以下描述的三个核心瓶颈的交叉点：

1。缺乏数据可用性 -> 数据支持

如果机器人从根本上来说是数据受限的，那么数据支持就是堆栈中最重要的近期类别之一。市场仍然缺乏大规模的物理世界数据库，必须有人来建造镐和铲子以及基础商品。这包括捕获以自我为中心和远程操作的数据、生成合成环境、评估边缘情况、清理信号以及创建反馈循环，让系统随着时间的推移而改进。

这里的机会是真实且直接的。但它也已经很拥挤了。值得关注的参考点是 Scale AI（数据标记和注释）和 Mercor / Mirco1（人类数据），以展示可以大规模解锁的内容。就像人工智能中的早期数据标签浪潮一样，最强大的企业可能会使用初始服务或工具楔入更高价值的工作流软件、模型相邻工具或难以取代的专有数据循环。 This time around, it might even involve a hint of hardware.

2. 仍处于萌芽状态的智能层 -> 机器人 Neo 实验室

如果智能层变得更加有用，但仍处于早期阶段，那么机器人新实验室就是下一个合乎逻辑的领域。这些公司试图将曾经支离破碎的物理世界模型转变为可重复使用的智能。围绕世界模型、动作模型、多模式机器人基础模型以及训练、评估和部署它们的工具构建的团队将获得价值。这个周期的大部分兴奋点已经在这里流动：Skild、物理智能和现场人工智能（以及其他许多）的估值都达到数十亿美元，开始了机器人实验室之王的制造周期。但我们的兴趣更多在于实验室本身周围和底层的构建。如果投资者将前沿机器人视为潜在的完全劳动力替代品，那么更有趣的问题是哪些团队实际上可以在数据、体现、评估和推理效率方面进行复合，以创造持久的杠杆作用。实验室可能会捕捉到故事，但真正的赢家将是那些将其转化为能够以商业规模解决现实世界问题的产品的人。

这里的退出路径也将与之前的机器人周期有所不同。如果目前的兴奋节奏持续下去，传统的里程碑可能比速度、人才密度、专有数据和技术地位更重要，特别是对于预商业化的实验室和基础设施参与者而言。与传统的机器人技术相比，预计会有更多的收购、知识产权驱动的成果和战略合作伙伴关系。随着实验室和合作伙伴希望减少对高成本集中式计算的依赖，重新关注边缘推理和专门的设备上计算也就不足为奇了。

Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.

如果更好的智能最终使机器人在有限的环境中变得更加强大，那么最直接的商业受益者就是将其部署到真实客户工作流程中的公司。这就是 VSP 中技术进步与经济现实的结合。许多物理工作流程都受到足够的限制，无法学习，足够有价值，足以证明部署的合理性，但又足够混乱，以至于缺少更好的智能。至少在短期内，我们仍然偏向于工业和商业用例而不是消费者。投资回报率更明确，阵痛更直接，从试点到生产的路径更容易承保。家庭机器人很可能有一个未来，但近期的机会更有可能来自帮助企业移动、分类、提升、检查和操作。

The difficulty here is the lack of universal adoption standards.客户在速度（例如，包装的物品/小时）、准确性（例如，正确挑选的物品/所有包装的物品）和成本（例如，每小时的平均成本）之间进行滑动评估，并将劳动效率作为最终指标。预计扩大规模将从劳动力增加开始，在人手不足的领域和劳动力可用性较低的时期（例如夜班、周末）找到特定的投资回报率，在这些时期，较低的速度和准确性阈值可以证明较高的初始成本是合理的，而国内规模不断积累。

随着瓶颈转向大规模采用，下一个支持层已经开始出现：集成、服务、正常运行时间管理、维护和融资。 Formic 很早就指出了这一现实，但更广泛的教训很简单：随着机器人技术从飞行员转向舰队，周围的生态系统也变得可投资。 In many markets, that’s where durable companies ultimately get built.

下面是这些类别的映射以及它们在更广泛的机器人价值链中的位置。这是一个简化的视图——许多公司横跨多个领域——但对于传达该行业的规模和流程很有用。

机器人智能的产业化

图9.凯辉创新机器人市场格局图

你的看法是什么？

上述大部分内容都借鉴了初步研究、交易经验和广泛引用的第三方数据——但目前最有价值的信号是地面信号。运营商实际上看到了什么？哪些部署正在投入生产？飞行员在哪里熄火？

我们正在进行一项简短的调查来准确收集这些信息。请谈谈您对市场走向的看法、到 2030 年美国通用人形 BOM 的实际情况，以及这一切是否会在 10 年结束之前大规模发生。

2026 年机器人情绪调查：https://research.typeform.com/to/m9Rp5sE8

而且，与往常一样，如果您要在这个空间中进行建设，请告诉我们。

原文链接：https://medium.com/cathay-innovation/the-industrialization-of-embodied-robotic-intelligence-6d54374ed8f3

#AI #机器人

机器人智能的产业化

我们是如何到达这里的？