我们的机器经济论点(一)
本文信息来源:chainofthought
机器人技术是人工智能交易中上涨空间最大、定价最被低估的一环

我最初于2025年6月至7月间着手撰写这篇论文。而现在的这篇文章反映了2025年11月的最新形势。
机器人技术是下一个近在眼前却尚未被充分发掘的数万亿美元市场。
它是人工智能交易中潜力最大、最被低估的一个环节。而且,它的到来速度将超出所有人的预期。我预计拐点将在2026年出现。大多数人会因为反应太慢而错过良机。
在这个领域工作的创始人们不断向我传递同样的信息:从内部看,技术的进步速度远比外界看到的要快得多。技术障碍确实存在,但它们终将随着时间推移而解决,并非不可能逾越。
一旦这些制约因素消失,市场规模将呈爆发式增长。
这将会如何发展?
这个月初,我在 X(原 Twitter)上看到了 1X 家用机器人引发的热议。它预计于 2026 年发货。预告片看起来非常酷,直到你发现,即使是简单的任务,仍然需要公司员工远程操作机器人才能完成。
嗯,我觉得让陌生人窥探我的家,我永远无法感到自在。这感觉很怪异。
如果我们想要创造出真正有意义的人形机器人,我们就必须超越远程操作,进入自我进化机器的阶段。经过一番思考,我认为其发展路线图将分三个主要阶段展开,且与机器人的数据需求紧密相关。
第一阶段:专用机器人(2025-2027)
机器人技术的当前最前沿水平依赖于定义明确的状态空间和逆运动学/逆动力学模型。用通俗的语言来说,今天的机器人需要精确的环境模型、预先绘制的表面以及固定的光照才能运作。
即使是微小的变化,比如杯子放偏了两英寸,或者一道阴影挡住了传感器,都可能让整个机器人乱了套。
因此,在接下来的12到24个月里,我们将看到人形机器人加速部署于那些狭窄、定义明确的任务中:在亚马逊仓库里搬运箱子、煮咖啡、以60%的完成度做家务(虽然经常失败,但家里有个机器人这种新奇体验将吸引早期采用者)。

对于非工业用途来说,要在经济上证明其合理性依然很难。一个人形机器人的成本高达 1.3 万美元以上(如 Unitree G1),却只能举起 2 公斤的重物,这让它基本上只是一个非常昂贵的 Cosplayer。真人不仅成本更低,而且能力要强得多。
但这般高昂的价格并不会阻止早期采用者的步伐。研究人员 捣腾技术的人还是会购买,去试探极限,并试图弄清楚这些机器究竟擅长什么。
专用机器人将继续扩大规模并取得成功,因为它们操作的环境受到严格限制。
第二阶段:数据飞轮全速运转(2026年末 – 2028年+)
这就是系统开始真正学习的时刻。飞轮效应由此形成:
更多真实世界数据 → 更多边缘案例 → 更多模拟数据 → 更少的故障和更强的能力 → 更大规模的部署 → 更多的数据
真正的解锁在于部署。我们需要大量机器人在现实世界中运行,以产生通往通用智能所需的海量且多样的交互。 首批 10 万台以上的人形机器人并不需要现在就很擅长什么。 它们只需要存在,与世界碰撞,犯错,然后重试。那正是数据开始复利增长的时候。

我们几乎是从零起步的。如今已被部署的人形机器人数量微乎其微,这意味着未来的增长空间极为巨大。每一次失败都会转化为训练数据。随着时间的推移,系统将开始自我学习。基于人类反馈的强化学习、从模拟到现实的训练以及其他自适应工具,都将成为常态。
一旦循环收紧(部署、观察、更新、重复),飞轮便开始加速。每一次新的部署都让模型得以改进。每一次改进都解锁了新的工作。学习变得连绵不断。
与此同时,我们将通过以下两条数据流来进行补充:
-
模仿数据, 尤其是视频数据。 人们会受雇在工作时佩戴摄像头,记录搬运箱子、折叠衣物、收割庄稼等过程。这些录像将转化为训练数据。
-
模拟数据, 它能使所有收集到的现实世界数据的价值成倍增加。(稍后将详细讨论这一点)
与用于训练语言模型的海量文本相比,机器人数据集依然微不足道。我曾听到一些创始人将“十亿小时的机器人视频”视为我们在机器人领域迎来“ChatGPT 时刻”的神奇数字。这一说法听起来不错,但却没抓到重点。真正的目标是收集足够多的高质量数据,从而让飞轮开始自行运转。
第三阶段:任务快速扩展(2028年起)
随着数据飞轮转动得越来越快,我们将开始在此看到回报。
到了这一阶段,机器人的基础模型将变得足够健壮,使得诸如“做三明治”这类新任务,仅需通过组合预先习得的技能(如“找到面包”、“拿起刀具”、“拧开罐子”)和进行高级组合及推理即可完成。
这正是机器人真正开始成为同事的地方。
这里的关键指标是零样本泛化(Zero-Shot Generalization) + 少样本适应(Few-Shot Adaptation)。
它不再需要用 1000 个小时来训练“制作三明治”,而只需要 5 分钟的人类演示或几个文本提示。就在那一刻,机器人转变成了一台真正的软件定义机器(software-defined machine)。那也是我(以及许许多多其他人)会毫不犹豫买一台的时候,因为它终于变得有意义了。

物理图灵测试(Physical Turing Test)将成为衡量我们在这方面进展的标准。而这个测试会被打破,就像大语言模型轻松突破最初的图灵测试一样。
随着能力跃升,成本随之下降。莱特定律(Wright’s Law)开始发挥作用:产量每翻一番,单位成本就会沿着可预测的曲线下降(约 20%)。这种情况曾发生在太阳能领域,也曾发生在半导体领域,而现在绝对也会发生在这里。
与自动驾驶(经历了大该十年的渐进式发展)不同,机器人操控技术的规模化速度会更快,因为这类场景下的错误通常是可以补救的,而且环境结构也更加规整。
硬件成本已经进入下降通道。例如,2014 年每只机械臂成本约为 40 万美元(PR2),到 2018 年降至约 3 万美元(UR 机械臂),而现在每只约为 3000 美元。几年之内,甚至可能跌破 1000 美元。
一个需要注意的地方:这里的时间表是基于我尽量推测的粗略估计。大方向是明确的,但具体的时间点并不确定。这三个阶段会互相渗透并因为重叠而并行。在任何特定时刻,哪个阶段在该时刻占主导地位将会是很明显的。
经济压力正在推动普及
我在前面概述的发展路径是必然的,因为人形机器人的宏观经济理由非常充分。目前,人类劳动是全球最大的经济板块,年产值超过 30 万亿美元 。由于主要经济体出生率下降、移民减少以及提前退休等原因,劳动力短缺问题正日益加剧。
劳动力正变得越来越昂贵且难以获得。这是一个结构性趋势,而非周期性趋势。
在此背景下,即使是对体力劳动的部分自动化,在经济上也具有重要意义。能够接手重复性或危险性任务的人形机器人,可以在无需新建物理基础设施的情况下,填补广泛的劳动力缺口。即便最终只有一小部分任务实现了自动化,潜在的市场规模依然十分巨大。
传统的市场研究将 2024 年全球机器人行业的规模估值在 820 亿美元左右 , 有些预测甚至认为到 2034 年将达到 4480 亿美元。然而,我认为这些数字可能低估了真正的潜力。这是新兴技术的通病,早期的预测往往会低估市场规模,并忽略了人类创新随着时间推移所能解锁的广泛应用场景。
我认为 2034 年的市场规模更接近 1 万亿美元 ,这意味着仅在这十年内就将产生超过 9000 亿美元的新机遇。

#3:中国的扩展速度远超世界其他地区
中国的工业机器人装机量已经超过了世界其他地区的总和。 在 2023 至 2024 年间,中国部署了超过 27.6 万台新型工业机器人 ,占全球新装机总量的 51%。不仅如此,他们正将发力点转向人形机器人。
中国是全球的制造和工程中心。 尽管在尖端硬件设计和先进软件方面仍落后于美国,但它掌控着供应链和工厂。 像 宇树科技 (Unitree Robotics)(预计 2026 年上市)这样的公司已经在扩大生产规模。
最重要的是速度:深圳已成为全世界的“机器人硅谷”
北京方面也正在通过创纪录的投资规模通过支持该行业。2025 年 3 月,国家发展和改革委员会(NDRC)启动了一项国家支持的风险投资计划 ,目标是在未来二十年内提供高达 1 万亿元人民币(约 1380 亿美元)的资金。重点关注领域包括机器人技术、人工智能和先进制造业。
这比此前任何专门致力于机器人的国家基金都大一个数量级,标志着一项主导下一个工业自动化时代的明确国家战略。
物理图灵测试
当 ChatGPT 问世时,我们所有人都感到了震撼。它能写作、解释、开玩笑,并以一种惊人地接近人类的方式提供帮助。那一刻是人工智能的转折点。图灵测试被通过了。ChatGPT 随之成为了史上最快达到 1 亿用户的应用(仅用时 2 个月!)。
机器人领域仍在等待属于它这一时刻的到来。Jim Fan 博士 (英伟达)为其命名为: 物理图灵测试(Physical Turing Test)。
想象一下,为你的一群大学朋友举办完家庭派对后的那个早晨。昨晚喧闹而放纵。音乐、舞蹈、畅饮不断。然后大家都走了。现在只剩你和那一堆烂摊子:散落在地上的杯子、打翻的瓶子、未洗的盘子
一切都乱七八糟(该死)

机器人能否进入派对后的房屋,清理杂物、装好洗碗机、擦拭台面并复位家具,其表现之令人信服,以至于你无法分辨这是人做的还是机器做的?
所以……基本上就像这样:

即使在最好的现实世界机器人任务基准——斯坦福的 BEHAVIOR-1K 上,脚本化的“最优”策略在模拟环境中的完成率仅为 40%,而在真实硬件上的完成率为 22%。近一半的现实世界失败案例源于抓取问题,而这需要大量的精细运动灵巧度。
即便只是在杂乱的环境中穿行也是个挑战。机器人在杂乱环境行进的速度大约是 0.5 米/秒,仅为人类无意识漫步速度(1.4 米/秒)的三分之一。
我们距离达成目标至少还有一个数量级的差距。
“通才”型机器人策略的兴起
好吧……那么什么能让我们更接近通过物理图灵测试呢?
该领域的前沿正在向通才策略推进:即在多样的任务、环境和硬件上训练模型。我们正采取一条类似于 LLMs 的路径:先进行广泛的预训练,然后针对每个新环境进行轻量级的微调。
在机器人学中, 策略(policy) 就是大脑。它是将感知映射到动作的模型。它获取机器人当前对世界的理解(其状态)并决定下一步该做什么。一个好的策略定义了行为。而一个伟大的策略能应对突发状况。
真正巨大的市场解锁将是通用人形机器人。这比任何专用机器人的潜在市场规模(TAM)都要大得多。正因如此,包括埃隆·马斯克/特斯拉在内的所有人都在盯着这个大奖。
实现这一目标的难点在于现实世界是不稳定的。物体会移动,光线会变化。特定任务系统在这种变数之下往往会崩溃。
目标不是为了对所有边缘情况进行硬编码,而是为了教授可迁移的物理直觉。如果一个机器人能够在这个公寓里打扫卫生,然后无需重写逻辑就能搞定下一个公寓,那么经济效益就会发生转变。
智力源于多样性。机器人要真正获得智能,就必须在我们之间生活和学习。我们需要能够”优雅地失败”的机器人,这样它们才能从错误中汲取教训。
有两种能力使这成为可能:适应性和自主性。
-
适应性是指从经验中学习并进行归纳的能力。如果一个机器人能清洁一个水槽,它能否在不从头学起的情况下搞定另一个水槽?
-
自主性关乎在无监督的情况下执行任务 。一旦机器人处于新环境中,它能否在没有人类帮助的情况下端到端地运作?
机器人基础模型旨在编码物理常识:物体如何运动、如何操控它们以及如何在空间中移动。在此基础上,它们通过决定做什么而不仅仅是怎么做 ,来支持更高层次的推理。
诸如 Physical Intelligence 和 Skild AI 等公司正凭借巨额资金追逐这一愿景。他们的方法集中在一个简单的理念上:扩大数据规模,模型就能实现泛化。
数据瓶颈

来源:Coatue (@coatuemgmt)
困难在于,物理 AI(Physical AI)相比我们习以为常的语言模型,必须攀登一座陡峭得多的数据高山。
基于文本的模型具有先发优势,因为文本已经以浓缩的形式捕捉了人类相关的知识 。人类花费了几个世纪的时间将知识压缩成书籍、文章和帖子。
但对机器人来说,数据全都是新的,必须从头开始收集。机器人需要通过视觉、听觉、触觉、力度、本体感觉以及三维世界中复杂的物理规律来学习。这是一种难度大得多的数据分布。
而且机器人的扩展方式不像软件那样容易。其反馈循环既缓慢又昂贵。你无法每小时运行上千次迭代。每一次试验都在损耗硬件。零件会磨损。我可不想让一个机器保姆在我家客厅里不断地试错。
据一项估算,目前最大的机器人数据集包含大约 10⁶ 到 10⁷ 个动作样本。将此与语言或视觉训练中常见的 10¹² 个样本相比,这种不对称就显得十分鲜明了。这足足少了 6 个数量级 (1,000,000 倍)。
快速浏览一下现有的开源数据集,就会发现我们拥有的数据是多么贫乏,而差距依然是多么巨大:
|
数据集 |
规模/详情 |
|---|---|
|
超过 100 万条轨迹,22 种机器人类型,527 项技能 |
|
|
7.6 万条轨迹,350 小时数据, |
|
|
3,700 多小时的感知视频数据 |
|
|
针对灵巧手任务的 10 亿条合成演示数据 |
|
|
来自 10 多个城市的 2000 小时人行道机器人远程操作驾驶数据 |
就在两周前,目前最大的开放式以自我为中心(第一人称视频)的数据集发布了,其中包含来自 2,153 名工厂工人的 10,000 小时视频片段。不言而喻,与我们的实际需求相比,这绝对仍然只是沧海一粟。
人才储备也同样稀缺。由于该领域尚处于早期阶段,且高性能机器人难以获取,据我估算, 大概 仅有几千人真正懂得如何收集、清洗并有效利用复杂的机器人数据集。
机器人数据的两种方法
这是机器人领域一段非常有趣的时期,因为这是第一次,人们对于通用机器人模型的构建方法达成了真正的共识。
现在的机器人学家大多认同,未来的发展路径将依赖于:(1) 大量且多样化的“观察-动作”数据;(2) 基于扩散模型或 Transformer 的动作模型;以及 (3) 长序列预测,而非微小步骤的瞬时控制。
对于机器人领域而言,这一时刻相当于自然语言处理(NLP)研究者在 2018-2020 年间统一转向使用 Transformer 架构的那个阶段。现在,每个团队都在竞相构建第一个真正大规模的数据集,其规模要庞大到足以涵盖各种环境、物体、光照条件和人类行为风格,从而产生实质性的影响。
要实现突破,现在还缺什么?
-
10到100倍的多样化操纵数据
-
更廉价的硬件
-
针对长达数小时、跨越多个房间任务序列进行优化的训练设置
A. 模拟

来源:Jim Fan 博士在红杉 AI Ascent(Sequoia AI Ascent)峰会上的演讲
核心思想如下:
如果一个机器人已经应对过100万种不同的环境,那么它极有可能在第100万零1种环境中也能表现良好。
模拟是机器人学习且不造成损坏的途径。这是机器唯一可以跌倒一千次却依然能站起来的地方。在模拟中,机器人可以以比实时更快的速度进行训练,遭遇罕见或危险的边缘情况,并探索那些在物理硬件上测试太过缓慢、高风险或昂贵的动作。
模拟为我们提供了一种倍增稀缺现实世界数据的方法。单个演示可以在 N 个环境和 M 种动作变化中回放,从而生成 N × M 个新样本。
随着神经世界模型和模拟器的进步,一种新的规模定律正在浮现:物理智商(physical IQ)随着算力的使用而提升。
算力越高 = 策略越强,机器人越智能。
这正是我们实现扩展的方式。

来源:Jim Fan 博士在红杉 AI Ascent 大会上的演讲
但是模拟也有局限性。 对于无人机和基本的移动动作,模拟效果不错,因为物理原理相对简单。但对于操作任务来说,情况就复杂多了。摩擦力、接触、变形以及精细的传感反馈都很难准确建模。
而最大的挑战在于将模拟中的成功转化为现实世界中的实际表现:这就是我们所说的“ 虚实鸿沟(sim-to-real gap)”。 一个机器人在模拟器中也许表现完美,但到了真实的厨房里可能会一败涂地,只因为地板太滑或者反光使得摄像头还是致盲。
这种差距主要出在两个 P 的交汇处: 物理(Physics) 与感知(Perception)。
即使是最好的模拟器也对接触和摩擦进行了平滑处理。 它们无法捕捉真实光线、纹理或传感器噪声的复杂性。
为了弥合这一差距,研究人员依赖诸如域随机化(在变化的、略微扭曲的条件下进行训练以提升鲁棒性)和域适应(使模拟输入看起来更像真实输入)等技术。
这很重要。如果对于某些动态任务来说,“虚实鸿沟”(sim-to-real gap)在根本上是无法跨越的,那么即便收集十亿小时的模拟数据,可能也是徒劳无功,甚至是有害的。
模拟永远无法取代现实。但它是我们要更快实现目标的途径。
B. 用于模仿学习的真实世界数据
为了使物理人工智能(Physical AI)在机器人中可靠地运行,它需要捕捉边缘情况和不可预测性的多样化真实世界数据。而这两者都是模拟器难以很好地建模的。
模仿学习是获取这些数据最直接的方式。机器人通过观察人类来学习。它们不是通过试错来摸索规则,而是直接从现成的示例开始。
扩散策略(在概念上类似于 Stable Diffusion 等基于扩散的图像生成模型)正变得越来越流行,并推动了该领域的发展,因为它们能够从多样性中受益。当使用人类执行任务的视频并结合动作数据进行训练时,你可以捕捉到海量的运动方式、物体、光照条件以及失败模式。旧的模仿系统往往会将所有内容平均化,从而产生平淡无用、无法实际执行的动作。
扩散策略避免了这种“平均化崩塌”。它们预测的是完整的动作序列,然后逐步进行精细化调整,从而保持运动的流畅和稳定,而非抖动不连贯。
机器人技术正沿着两条主要路径扩展现实世界的训练数据规模。
-
收集带有动作标签的海量人类演示视频数据集。这提供了广泛的覆盖面,并教会模型通用的操作模式。
-
在受控环境中收集大型仅包含机器人的数据集。这些数据集虽然数据干净,但往往缺乏多样性,导致在原始环境之外的迁移效果较差。
扩散策略(Diffusion policies)在第一条路径上表现出色,因为它们能够吸收复杂性而不致崩溃。这就是为什么许多最新的通用系统都严重依赖人类演示的原因。

1. 遥操作
教授机器人新技能的最快方法依然是最古老的那一种:演示给它看。
最近的研究表明,构建良好的演示数据集,结合监督或混合算法, 可以让机器人仅需数十到数百次的真实世界演练就能具备执行任务的能力。
遥操作(Teleoperation) 是最常见的演示方法。由人类远程控制机器人,生成高质量的运动数据。虽然接口多种多样(VR 头显、动作捕捉服等),但核心理念是一致的:人来执行任务,机器人观看并学习。在开始精细调整之前,遥操作是让机器人从零开始获得一定任务成功率的最简单方法。
动觉示教(Kinesthetic teaching)则更进了一步。你不再是远程控制,而是直接接触机器人,物理引导其肢体完成动作。

特斯拉的遥操作团队。图片来源:Electrek
有些团队正通过众包方式扩大这一规模。
-
NRN Agents 使用基于网络的模拟器。玩家通过简单的控件引导机器人完成任务,无需特殊装备即可生成有用的轨迹。
-
Tesla 正在招聘操作员穿戴动作捕捉服,为其 Optimus 机器人演示特定行为。人类的动作会被直接流式传输到训练流程中。
硬件成本依然昂贵。虽然 VR 和动作捕捉套件的价格已降至 1000 美元以下,但高精度的动觉系统仍轻易就能达到 1 万美元以上。
传统的遥操作装置设置缓慢,且对操作员来说负担很重,尤其是当任务需要精细控制或特定的力度曲线时。此外,将人类动作映射到形状和关节限制各异的机体上的“对应问题”(correspondence problem),仍然是一个活跃的研究领域。
所以……遥操作数据对于引导启动(bootstrapping)专业技能是非常宝贵的。但它也有其上限。
2. 带注释的视频
机器人能否从 YouTube 上学习呢?毕竟那里的人们在切菜、叠衣服、修自行车,几乎做着任何你能想到的任务。
其实不然。互联网上的大多数视频对机器人学来说基本是没用的,因为仅凭视频无法告诉机器人某个动作究竟是如何执行的。视频并没有揭示关节位置、工具轨迹或场景的三维几何结构。机器人需要的是运动学数据,而不仅仅是像素画面。
这就是为什么成对的视频-动作数据集一直如此重要的原因。当将多样化的人类视频与对齐的动作数据相结合时,模仿学习会变得更加稳定和通用。
研究人员目前正致力于将原始视频素材转化为结构化的训练数据。一些团队在录制视频时添加了运动追踪器或轻量级 AR 标记,以捕获运动学标签。
-
在华盛顿大学 , 统一世界模型(Unified World Models)项目同时从有标签的机器人动作和无标签的视频片段中学习表征,并能从视频中推断可能的动作。在模拟环境中,UWM 的表现优于标准的模仿学习模型。
-
另一个工具 URDFormer,利用单张图像即可重建出整个
我不久后就能预见这样一个世界:各行各业的工人都佩戴着轻便的摄像头,生成记录真实工作任务的连续画面,从制作咖啡到收割庄稼,无所不包。一旦积累了足够多带有标注的影像资料,实现该工作自动化的路径就会变得清晰很多。
归根结底, 最强大的数据策略是将模拟与现实世界相结合。模拟能赋予你在其他方式中无法获得的规模效应——数十亿次的交互、快速的迭代以及零风险。而现实世界的数据则能确保模型实事求是,因为它会暴露那些在大规模模拟中永远不会出现的奇怪边缘情况。
机器人领域可能会重演 Waymo 在自动驾驶领域所遵循的发展模式。即数十亿英里的模拟里程加上数百万英里的真实路测。系统开始着手解决自身的弱点:当它在模拟环境中发生碰撞后,世界模型会生成相关的场景,驾驶模型随即针对这些场景进行训练,该故障随之消失。
现在,我可以想象出一大群分布式的机器人,每台机器都在收集自身的经验,并将其回传到一个共享模型中。当这种模式在数千台机器上成倍复制时,学习的飞轮将变得势不可挡。
激动人心的时刻!
