机器人技术:演示结束之后会发生什么?
本文信息来源:jax
缩放法则似乎正在生效,其他一切都在迎头赶上。
“物理 AI 的 ChatGPT 时刻已经到来,”NVIDIA 首席执行官黄仁勋在 2026 年 CES 上宣称,“届时机器将开始在现实世界中理解、推理并采取行动。”
这是一个大胆的断言。黄仁勋此前也做过类似的预测——在 2025 年 CES 上,他说这一时刻“指日可待”。但这一次,证据已让人难以忽视。在 Airtree,我们多年来一直在追踪机器人技术,等待合适的时机。现在就是那个时刻吗?
中国初创公司宇树科技(Unitree)目前正在配送售价 5,900 美元的人形机器人。Physical Intelligence 的机器人在无需人工干预的情况下连续制作了 13 小时咖啡。Google DeepMind 发布了可以通过单个神经网络控制任何机器人形态(机械臂、人形或移动端平台)的模型。摩根士丹利预计,到 2050 年,该领域年市场规模将达到 5 万亿美元。仅 2025 年一年,就有超过 100 亿美元的资金流向机器人领域。
显然,某些变革正在发生。但这些新闻报道是否预示着一场突破,能最终将一个研究领域转化为重塑经济的商业势头?
简短的回答是:既是也不是。AI 的基础正以超出所有人预期的速度就位。但机器人需要躯体,躯体需要工厂,而工厂需要供应链,且这些供应链正日益集中在单一国家。现在似乎是重新深入该行业并形成一套论文的契机,以探讨我们认为可能发生的情况、时间点,以及初创企业的赢家将从何处脱颖而出。
支持“是”的理由:缩放定律似乎正在起作用
过去两年机器人领域最重要的进展是视觉-语言-动作(VLA)模型的出现。这代表了机器人学习方式的根本性转变,早期证据表明,它们可能遵循类似于使大语言模型变得如此强大的缩放定律。

要理解其重要性,请思考机器人技术是如何演进的。几十年来,该领域一直基于一个看似合理的假设:将问题拆解为易于处理的部分。工程师们为感知、规划和控制构建了独立的系统。每个组件都会被独立优化,然后通过精心设计的接口连接起来。感知系统使用卷积神经网络来识别物体并估算其位置,输出结构化数据,例如“在坐标 (0.3, 0.15, 0.2) 处有一个杯子”。一个独立的规划系统(通常是完全不含机器学习的经典算法)会计算无碰撞路径。控制层则将这些路径转换为电机指令。
这种架构制造出的机器人能够以惊人的精度执行狭窄的、预编程的任务。但当任何意外发生时,它们就会遭遇灾难性的失败。感知系统对物体位置的估算可能稍有偏差;规划系统完全信任这一估算,计算出通往错误位置的路径;控制器完美地执行该路径——结果完全错过了物体。每一层都孤立运行,在每次交接中都会丢失信息。
VLA 则完全抛弃了这种分离模式。它们接收原始摄像头图像,将其与自然语言指令相结合,并直接输出电机指令。一个端到端的神经网络处理所有事务。正如 Physical Intelligence 的研究人员所言:“当我试图拿起这个玻璃杯时,我不会从感知、规划再到控制的角度去思考。我只是直接去拿。”
Google DeepMind 的 Gemini 机器人技术可以适应从双臂平台到 Apptronik 的 Apollo 人形机器人等各种机器人形态,仅需 50 次演示即可学习新任务。他们的 Gemini Robotics-ER 模型在空间理解基准测试中达到了顶尖水平,能够以以往系统无法实现的方式对 3D 环境进行推理。通用型 AI 已经展示了在大约 70 亿参数规模下的所谓“智能阈值”,在超过 27 万小时的操作数据(机器人处理物体)上训练的模型,随着规模的进一步扩大显示出持续的提升。NVIDIA 的 GR00T N1 则使人形机器人能够理解模糊的指令,并在不同的机器人躯体上执行复杂的任务。
这种模式——即更多的数据和算力产生更好的性能——正是研究人员希望看到的。如果这一规律成立,机器人领域就已经收敛到了一种类似于大语言模型的工作架构:从多样化的数据中学习通用能力,而不是设计狭隘的解决方案。尽管机器人领域的缩放定律(scaling laws)尚不如语言模型那样得到充分验证,但目前的证据是令人振奋的。目前的数据集规模较小,研究结果也较新,且大部分证据来自那些有动力保持乐观态度的公司。

并非所有人都相信 VLA 是正确的路径。在 NVIDIA 领导机器人研究的 Jim Fan 指出,这些模型中的大多数参数是为语言和知识服务的,而非物理。视觉系统会丢弃处理精细物体时至关重要的底层细节。
他的团队正在探索另一种方法,即让机器人构建其环境的内部模拟,并在行动前对物理规律进行推理,而不是直接将像素映射到动作。这种方法是否比通过更多数据扩展 VLA 规模更重要,目前仍是一个悬而未决的问题。
谨慎的理由:数据问题尚未得到解决
乐观的叙事在这里遭遇了残酷的现实。大语言模型是在本质上无限的数据——整个公开可用的互联网——基础上训练出来的。机器人领域则没有与之对等的资源。
“当今领先的 AI 技术,如大语言模型,依然是黑暗中的文字工作者;雄辩但缺乏经验,博学但脱离实际。” —— 李飞飞,World Labs 首席执行官
机器人动作领域并不存在类似互联网那样的海量数据。训练数据必须通过模拟、人工遥操作或精心的演示来艰苦地收集。即使是最大的私有数据集,其数据量也比语言模型消耗的数据量少几个数量级。
挑战不仅在于数据量。机器人的训练数据不仅要捕捉动作的外观,还要捕捉物体对力的反应、材料在压力下如何变形、液体如何晃动以及粉末如何散射。多样性问题同样严峻:一台被训练折叠白色毛巾的机器人可能会在毛圈布上失败,而在光照充足的实验室中训练出的机器人则难以在真实的家庭环境中运作。
这种引导(bootstrap)问题——即如何让模型具备足够的能力进行部署并开始从现实世界的经验中学习——仍然是核心瓶颈。正如 Physical Intelligence 研究团队所描述的那样:
“(行业正)处于一个‘不择手段’的引导阶段。只要你能想出办法添加到模型中的东西,都是有益的。无论你能添加模拟数据、人类视频、掌机设备还是遥操作,都无关紧要。你只需要想办法引导自己达到可以部署的程度。”
弥合数据差距
巨额资源正流向解决这一问题的领域,多种方法已初显成效。
像 MicroAGI 和 Build 这样的初创公司正专注于创建特定任务的数据集并将其商业化。
模拟提供了另一条路径。World Labs 由李飞飞创立,它能将文本提示词转化为可编辑的 3D 世界,作为机器人的训练环境。
NVIDIA 的 Cosmos 和 Omniverse 作为一个流水线协同工作,为训练创建更多样化的数据。一个在 1,000 个厨房视频上训练出来的机器人只能学会那个特定的厨房。Cosmos Transfer 则提取这些视频并生成数千个变体:不同的光照条件、不同的表面纹理、不同的时间段。原始的运动轨迹保持不变,但其周围的视觉世界却在不断变换。
Agility Robotics 正在使用 Cosmos Transfer 进行大规模合成数据生成。1X Technologies 同时利用 Cosmos Predict 和 Cosmos Transfer 来训练其人形机器人 NEO Gamma。这些模型已被下载超过两百万次。对于缺乏资源收集数百万条真实世界轨迹的机器人团队来说,合成数据增强提供了一条捷径。
需要注意的是,合成数据在接触物理方面仍然面临挑战。你可以改变物体的外观,但预测新颖材料在压力下如何变形依然很困难。Cosmos 有助于视觉泛化,但它并不能解决操纵泛化的问题。
Sunday Robotics 试图通过其“技能捕捉手套”来解决这一问题,该手套可以记录人类在日常任务中的实际动作。这种手套每副售价约 400 美元。该公司已向 2,000 多名“记忆开发者”发货,这些开发者在自己家中佩戴手套完成家务。截至目前,他们已从全美 500 多个家庭中收集了近 1,000 万条真实世界的操纵数据轨迹。
但最引人注目的成果源于部署本身。最终目标是研究人员所称的“部署阶段”,即机器人足够可靠,能够在商业环境中自主工作,并在产生经济价值的同时,将生成的训练数据作为副产品。
最近的研究结果展示了这一过程的具体表现。团队已将机器人部署在实际的商业任务中:组装纸箱、操作浓缩咖啡机以及折叠衣物。在机器人工作时,人类提供反馈,标记成功与失败,并偶尔纠正其操作方式。这些数据会回流到训练系统中。

其结果令人印象深刻。机器人可以连续运行数小时。与仅靠演示的基准方案相比,吞吐量提高了一倍以上。至关重要的一点是,这种方法能够处理模拟环境永远无法预见的故障。例如,当新到货的一批纸板因打孔不精细导致纸张粘连时,机器人学会了如何处理。没有任何模拟器能预见到这类问题。
这就是使机器人规模化落地成为可能的飞轮效应。一旦模型达到足以部署的水平,部署就会产生数据,数据会改进模型,而更优的模型则能实现更广泛的部署。数据采集的成本也随之从正向(支付人工进行遥操作)转变为负向(机器人在学习的同时从事有用功)。
硬件的现实
软件可以以接近零的边际成本无限扩展。机器人则面临相反的经济规律:每一次部署都需要一个包含电机、传感器、电池和结构部件的物理机身。
目前的通用机器人仍然价格昂贵。Agility Robotics 的 Digit 售价约为 25 万美元。特斯拉预计 Optimus 在规模化生产后将达到 2 万至 3 万美元,但早期生产成本会更高。即使是协作机器人手臂,对于小型制造商来说也是一笔巨大的资本支出。
但成本曲线正在发生变化,这主要由中国驱动。
宇树科技(Unitree)售价 5,900 美元的通用人形机器人和 Noetix 售价 1,370 美元的入门级设备,展示了此前似乎还需数年才能达到的价格水平。目前中国有超过 150 家人形机器人公司在运营,形成了一个迭代迅速、供应商价格竞争激烈的生态系统。政府政策明确瞄准了人形机器人的领先地位,不仅提供补贴,还制定了确保完整创新生态系统的国家计划。
中国主导着关键组件制造,并控制着全球约 90% 的稀土加工;几乎所有电机必需的重稀土都由其掌控。旨在限制中国获取先进技术的美国贸易限制,反而强化了中国迈向自给自足的决心。
西方机器人公司面临着战略抉择:是从中国采购并承担供应链风险,还是在支付高昂溢价的同时,眼睁睁看着中国竞争对手以低价抢占市场。这两个选项都令人不安。据报道,特斯拉的 Optimus 机器人从中国制造商而非日本老牌供应商处采购组件,这表明即使是西方最顶尖的玩家,也发现这种成本差异难以忽视。
为什么今年不会是“量产元年”
产能限制是现实存在的。2025年,中国制造商在全球范围内交付了约13,000台人形机器人——虽然增长显著,但远未达到大规模量产。特斯拉雄心勃勃的路线图预计在2026年达到5万至10万台,并到2027年向“数百万台”规模迈进,但这需要尚未得到验证的制造基础设施。
“ 赢家不会是第一个交付人形机器人的人,而是第一个交付一百万台,并让它们每天都变得更聪明的人。” —— Brett Adcock,Figure AI
精密零部件目前仍是制约因素,尽管这种情况可能不会持续太久。谐波减速器(实现平滑运动的应变波齿轮)长期以来一直由日本的 Harmonic Drive Systems 主导。但中国制造商正在快速追赶,2023 年至 2025 年间在制造扩张方面的投资超过 25 亿美元。绿的谐波、来福谐波和大族精密传动等公司现在已能提供更低成本的替代方案。行星滚柱丝杠仍然是更为严峻的瓶颈。瑞士专业厂商 GSA 和 Rollvis 占据了全球 50%以上的市场份额,而中国的进口依赖度约为 80%。但即便在这一领域,产能也在竞速追赶:仅贝斯特一家就在建设耗资 2.6 亿美元的工厂,目标是到 2026 年实现年产 100 万套,其他几家中国制造商也在扩大生产规模。问题在于,供应的扩张能否跟上预计到本十年末将从数千台激增至数百万台的人形机器人需求。
电池续航能力也面临类似的情况。目前的人形机器人单次充电仅能运行约两小时,远达不到一个完整的轮班时长。贝恩公司(Bain & Company)预计,到 2030 年这一数字可能达到六小时,虽然是显著的进步,但仍不足八小时。一些制造商并未坐等更好的电池出现。优必选(UBTech)的 Walker S2 能够在三分钟内自主更换电池组,它能自行走向充电站,在无需人工帮助的情况下更换耗尽的电芯。这与其说是技术突破,不如说是工程上的折中方案,但它确实有效。限制是现实存在的,进步亦然。
另一个限制是边缘推理。当机器人需要接住掉落的对象或调整对滑动物体的抓握时,它只有几毫秒的反应时间。即使在高速互联网环境下,将数据发送到服务器并等待响应也太慢了。机器人必须在自己的硬件上进行实时思考。
这听起来比实际操作要难。最强大的 AI 模型体量巨大,运行它们需要极高的算力。目前的模型在高端硬件上每秒大约能做出 5-10 次决策,而流畅、灵敏的动作则需要每秒 30-50 次。这就像尝试在 2015 年的手机上运行好莱坞大片。来自 NVIDIA 的新芯片和来自 Google DeepMind 的端侧模型正在缩小这一差距,但这仍然是一个现实的瓶颈。
可靠性要求差异巨大。折叠衣服的机器人偶尔失败也无妨,但手术室里的机器人绝对不行。机器人领域资深人士 Rodney Brooks 这样描述这一挑战:“它必须非常非常可靠。它必须达到‘五个九’的标准——即 99.999% 的时间都能正常工作。”
什么变得可能,以及何时实现
Standard Bots 创始人 Evan Beard 在与 Packy McCormick 合著的一篇文章中表示:
“如果你像我们一样相信,经济价值高的工作是一个连续的光谱,且其中许多工作机器人如今就能胜任,那么最好的做法就是尽早让你的机器人进入实地并开始工作。
每一次部署都会告诉你,你正处于这个梯度上的什么位置。成功向你展示了什么是稳定的,失败向你展示了模型在何处崩溃,而两者都会准确地告诉你下一步该着手修复什么。你不断迭代,小步快跑。”
最先成功的应用将会是那些枯燥乏味的应用。
结构化环境中的工业操作正处于领先地位。机器人处理可预测布局中的已知物体,例如仓库拣选、组装任务、物料搬运,能够达到商业可行性所需的可靠性。Amazon 与 Agility Robotics 的合作、宝马(BMW)对 Figure 机器人的部署,以及物流供应商采用移动端操作,都指向了这一方向。协作机器人(cobot)市场规模已经突破 35 亿美元。这些系统与人类并肩工作,处理重复性任务,而人类则负责处理异常情况。
接下来是半结构化的商业环境。商业厨房、自助洗衣店、配送中心,在这些场景中,任务的重复性足以让机器人学习,故障的容忍度足以被吸收,且在遇到极端情况时有现场人员可以监督。这一类别的实现速度比许多人预期的要快。
家用消费级机器人仍然是最宏大的目标,也最为遥远。

每个家庭都是一个独特且无序的环境。在我的家里,你可能会发现每天开着的灯都不一样,地板上有玩具,门口有鞋子,还有四处奔跑的孩子。许多人还养了宠物。机器人必须在不可预测的人类和易碎物品周围完美运行。其可靠性标准比工厂更高,且环境中的变数更是无穷无尽。行业共识认为,有意义的家庭部署最早也要到 2028-2030 年间,而大规模普及则要等到 2030 年代。
建筑工地、农田和城市街道等户外环境也面临着类似的挑战。在失败后果可能十分严重的医疗保健和个人护理领域,机器人将在受监管的场景中扩大应用,但直接与患者互动的应用仍然遥不可及。
超越技术:究竟是什么在推动普及
即使是可靠且价格合理的机器人,也需要买家愿意去克服重重障碍。
投资回报率(ROI)的计算比看起来要难得多。一台能在 95% 的时间里正常工作的机器人并不一定比人类员工更优越。集成成本往往超过了机器人本身的售价。此外,还需加上培训、维护合同、保险,以及劳动力流失带来的政治成本。像 Amazon 和宝马这样的大公司可以为了战略性学习而消化这些成本,但大多数中型制造商无法证明承担这种风险的合理性。
安全认证形成了一道准入门槛,很少有初创公司为此做好准备。在内部部署机器人的公司(例如特斯拉在自家工厂使用 Optimus)可以进展得更快,因为它们不向第三方销售。但商业销售会触发一系列要求:欧洲的 CE 认证、美国的 OSHA 合规要求和 ANSI 标准,以及来自 UL 或德国莱茵 TUV 等机构的第三方测试。目前尚不存在针对人形机器人的专门标准。如今销售人形机器人的公司必须在工业和机器人法规的拼凑中艰难前行,而这些法规从未针对其产品进行过设计。大多数机器人初创公司都缺乏处理此类事务的内部专业知识。
技术工人短缺是一把双刃剑。正是这种短缺创造了对机器人的需求,但也使得寻找能够部署、维护和监管机器人的人才变得更加困难。早期采用者报告称,瓶颈往往不在于机器人本身,而在于寻找既懂机械系统又懂人工智能软件的技师。在部署规模扩大之前,技师队伍不会壮大;但如果没有技师,部署规模又无法扩大。
消费者的需求仍处于假设阶段,而非已得到证实。工业应用场景具有明确的投资回报率(ROI):一台搬运箱子比人快、无需休息且不会受伤的机器人,其价值可以通过衡量指标收回成本。而消费级应用场景则不那么明确。家用机器人能解决什么问题,足以支撑起一笔相当于购买汽车规模的开支?“机器人管家”的愿景假设人们对家务帮助的需求极其迫切,以至于愿意为此付费、学习操作并信任它在家人身边运行。智能手机之所以成功,是因为它们解决了每个人都已经意识到的普遍问题。目前尚不清楚大多数家庭对于洗衣自动化是否持有同样的紧迫感。
初创企业的机遇
在一个市场趋势的初期,当我们还不完全清楚市场的长期结构,但相信其规模将非常庞大时,我们通常会寻求投资“卖铲子”的公司——即那些构建基础设施的公司,以便他人在此基础上构建自己的机器人应用。
数据基础设施代表了最明显的缺口。构建机器人的公司需要各种方法来管理、可视化、版本化以及分析海量的训练数据集。他们需要工具来识别故障模式并确定数据采集的优先级。机器人团队在数据处理上花费的工程时间比例高得令人不安,而不是花在模型改进上。
当 Alloy 的创始人 Joe Harris 描述管理随时间积累的多模态数据有多么复杂,以及简化数据处理对持续学习有多么关键时,我立刻产生了共鸣。像 Alloy 这样的软件工具可以通过让团队在数小时而非数天内完成数据分析,从而显著加速机器人的部署,实现更频繁的模型迭代和性能提升。
数据基础设施并不止步于训练阶段。当机器人在顾客的设施中执行任务中途失败时,必须有人知晓。传统的软件监控无法直接转化;机器人的故障是物理性的且与环境相关的。目前正在兴起的一个类别可以被称为任务与部署运维。在作业层面,这意味着追踪单个任务是否成功完成、标记异常,并将故障路由至正确的响应机制。在顾客层面,这意味着通过仪表板展示运行时间、吞吐量和事故历史,使机器人即服务(RaaS)公司能够针对顾客的 SLA 进行诊断、审计和报告。
随着对数据数量和多样性要求的提高,真实世界和合成数据的生成将变得至关重要。NVIDIA 的 Isaac Sim 提供了基础能力,但在为酒店或医院等特定领域环境创建数据方面,仍存在巨大的机遇。
随着机器人进入有未经培训人员的环境,安全与合规工具将变得至关重要。只有当所有危险都被识别并降低到可接受的水平时,人机协作才被认为是安全的。协作机器人安全标准依赖于针对每个应用程序量身定制的风险评估。初创公司通过构建系统来帮助机器人公司应对认证和监管合规问题,从而解决了部署中的实际障碍。Valgo 和 Saphira 是解决这一痛点的早期初创公司案例。
垂直领域专用平台也将迎来机遇。在这些平台中,机器人的训练、形态和认证均针对物流或洗衣等特定应用或环境而设计,从而在实现高性能和“五个九”可靠性的同时,确保快速的集成与部署。在短期内,这最有可能出现在结构化程度较高的商业环境中。
最后,还有一些公司会选择“亲力亲为”,而不是向现有的运营商销售产品。它们致力于投资构建垂直整合的产品,以比现有从业者更高效的方式提供服务,例如国防领域的 Anduril 或自动驾驶汽车领域的 Waymo。
那么,这会是机器人领域的“ChatGPT 时刻”吗?
目前还不是。但各项要素到位的速度超出了大多数观察者的预期。VLA(视觉-语言-动作)模型正初步显现出曾改变语言 AI 的规模法则(scaling laws)。在消费电子产品、中国竞争以及制造规模效应的推动下,硬件成本正在下降。数据飞轮——即部署产生训练数据,进而实现更优部署的循环——也即将开始转动。
在 Airtree,我们认为最大的机会在于这场变革中的“铲子和水”(基础设施)以及专注于结构化商业应用场景的垂直领域平台。
如果你正在这一领域深耕,特别是如果你正在解决那些将“令人惊叹的演示”与“商业化部署”区分开来的实际问题,我们很期待与你交流。