Dexterity 堆栈:为什么机器人输给毛巾

智能存在于接触点。

这是 我们新机器人系列的第一篇 ,目标很简单。在不要求你获得哲学博士的前提下,比炒作深入一层。我将梳理实际驱动机器人的基础设施,包括硬件和软件,并揭示那些进展真正呈复合增长的技术堆栈部分。

我从灵巧性和手部入手,因为如果机器人不能正确使用它的手,那它就只是一个无用(且昂贵)的金属堆。这不仅是硬件问题;更关系到一种独特的智能形式。从事这方面的研究让我更加体会到我们的双手是何等宝贵的礼物。

让我们开始吧!

——滕言

人是万物中最聪明的,因为他有双手。

阿那克萨戈拉(公元前500年)

这是我看着祖母叠衣服时学到的。

她坐在床沿,怀里抱着一摞刚从干衣机里取出的温热衣物。毛巾、衬衫、袜子,一件接一件。她半眯着眼睛,时不时被一档看了不下十几遍的电视节目吸引又走神。她的手从不停歇。角落衔接得干净利落。袖子自然地折进衫里。每件衣物都堆成整齐的一摞,大小相同。

她几乎没有在用心。动作自顾自地进行。那种技能已沉入意识之下,进入某种更古老、更安静的东西。像是一种自我运转的古老智慧。

这就是人类的双手。不只是附属工具,而是一种我们几乎未曾留意的智能。四亿年的进化浓缩成你无法完全解释的工具,即便你用得天衣无缝。

这也是为什么机器人演示常常让我心生些许怜惜。

它们在演示中可以完美后空翻,但在没有远程操控的情况下却连装洗碗机都做不好。它们会奔跑,会跳跃,却仍然输给脏盘子。

本文讨论的是为什么灵巧性是机器人学中的真实瓶颈,为什么它位于智能之下,以及如何区分真正的进展与令人印象深刻的演示。

我们把智能放错了位置。长期以来,我们沿袭一种偏见,把身体视为大脑的仆人。先思考,后行动。实际上,顺序恰恰相反。

正如神经科学家丹尼尔·沃尔珀特(Daniel Wolpert)所言,人类拥有如此强大大脑的真正原因是为了产生复杂的运动。大脑存在是为了控制身体,而不是相反。

试试看。伸手去触摸你所爱之人的脸颊。在接触之前,你的手会按照对方面部的曲线重新塑形。接触时,力会分布到骨骼和肌腱上,皮肤将信号传入你的神经系统,握持无须刻意就会调整。触感柔和,你没有预先计划。事后你也无法用语言描述那一刻。

在你看来,这仿佛无足轻重。对机器人来说,却是一切的关键。

机器人操作对抗的是现实中大量信息集中在接触点这一事实。我们试图让金属和塑料重现经数亿年进化而成的能力,而我们往往连要模仿的技能都无法准确描述。

在我们讨论进展之前,需要对问题作出更清晰的定义。

什么是灵巧?

许多人将移动与灵巧混为一谈。一只用于焊接汽车车门的机械臂并不灵巧。它是精确的 。它能重复预先计算好的路径,因为它在一个高度结构化的环境中运行,所有变量都受到控制。

灵巧是指在世界不配合时仍能控制接触力的能力。

  • 那就是在手指间旋转一支钢笔而不把它掉到地上。

  • 那是你在黑暗口袋里用皮肤感受到硬币边缘的方式。

  • 那是触摸草莓的质地并在不看一眼的情况下就能准确判断出多少压力能托住它,多少会把它压成果酱的感觉。

换句话说,灵巧性 = 接触智能。 机器人学中的最后一寸问题。

你可以把一个形状奇特的工具交给一个人,他们会想办法去抓住并使用它。我们不需要事先训练来拿住一个新的物体。我们就是这样做到的。

机器人做不到这一点。它们是专才,在一项任务上表现出色,但在其他方面却脆弱不堪。这一差距体现在莫拉维克悖论上——该观察指出,人类觉得轻而易举的任务,比如捡起一枚硬币或行走,对机器来说却异常困难,尽管它们在数学等其他领域表现出超人能力。

你看,逻辑在计算上代价很低。运行一个棋类算法所需的能量非常少。但系鞋带所需的感觉—运动计算要复杂得多,代价也高得多。

困难的问题很容易,而简单的问题很难

– 史蒂文·平克

在进化过程中,数亿年里一直在优化我们身体的运动控制,随后才增加了我们称之为智能的薄薄一层皮层。新皮层很年轻。双手古老。要把手逆向工程成金属爪子是极其艰难的。

错误在于把这当成一个问题。 灵巧性实际上是一个问题堆栈, 而它们大多数都存在于意识之下。

天哪,为什么“造一只手”这么难?

机器人灵巧性是多项棘手问题汇聚之处。第一个问题始于结构解剖。

瓶颈一:执行器与布局

握住前臂,扭动手指。你会感觉到动作,但不是在你预期的地方。完成工作的肌肉根本不在手上,而是在前臂。力通过长长的肌腱——本质上是生物电缆——传到手指。

进化让手变得轻巧、快速、低惯性。你可以在不与自身质量作斗争的情况下加速、减速和反向。人类的手是远程驱动的杰作。

工程师在尝试制造机器人手时,大致有三种选择

  1. 关节内电机: 将电机放在指关节处可以实现精确控制,但会使手指变得沉重。增加的质量提高了转动惯量,限制了速度并使大力动作变得危险。

  2. 缆线驱动: 电机置于前臂,通过肌腱或缆线将力传递到手指。这更接近生物结构,特斯拉和 Shadow Robot 等公司对此有认真研究。代价是控制复杂性。缆线会伸长、磨损、打滑,并引入随时间变化的摩擦。补偿这些变数需要持续估计,而微小误差会在指尖迅速放大。

  3. 液压: 加压流体可以通过紧凑的执行器输出巨大的力。但代价是系统开销。泵、阀、密封件和储液罐增加了重量、故障模式和延迟。以毫秒精度控制流体流动(例如接住落下的玻璃所需的那种精度)将考验实时控制的极限。

机器人在操纵物体时既需要“力量”也需要“控制”。数据来源:Science RoboticsFrontiersScience Robotics (Comparison)Actuators MDPIMaxon GroupAdvanced Materials

瓶颈二:延迟

拿起一个纸杯,你立刻就知道它是空的还是满的。如果它开始打滑,你在它掉下来之前就能感觉到。

人类的灵巧性依赖于处于意识之下的快速局部控制回路。手会在几十毫秒内不断调整握力,修正打滑、振动和微小错位。等到意识反应过来,这个问题通常已被处理。

对比一下神经系统接收的信息量和意识能处理的信息量:

  • 感觉系统通过视觉、触觉和本体感受大约传递 10 亿比特/秒的信号。

  • 大脑的意识觉察:只有每秒 10–50 比特。

换言之,神经系统会过滤并丢弃大部分感觉输入,只让一份精简摘要进入意识。当杯子滑落时,意识可能只会形成一个简单指令,“抓住它”,而真正的工作是在意识之外通过快速的修正回路完成的。这就是我奶奶所拥有的“ 古老的智慧 ”。

历史上,工程师们尝试将所有原始感官数据传送到机器人的中央“大脑”。这一设计选择与生物学原理正面冲突。人类的灵巧性依赖于外周智能。如果机器人每次摩擦变化都必须向其头部询问下一步该做什么,它的动作永远会太慢。

  • 视觉传感器延迟: 触觉传感器使用相机读取表面形变。细节丰富,但以 30–60 Hz 的帧率来看,它们太慢,无法捕捉到微滑动。像 Daimon Robotics (得到联想支持)和 GelSight 等初创公司正在推动更高的帧率和更薄的外形设计。

  • 推理延迟: 视觉-语言-动作(VLA)模型在泛化方面表现出色,因为它们从海量数据集中学习概念。但它们速度较慢,思考时间为数百毫秒。VLA 应在 2–10 Hz 的频率上决定目标。机械手需要在 200–1000 Hz 的频率上实现反射性控制。

信号处理与反应时延比较。人类脊髓反射约为 30 毫秒的环路。相比之下,现代 VLA 模型引入了 200–500 毫秒的时延。数据来源: NCBIPubNubReddit (AskScience)Robotics SEArxivRohit Bandaru

瓶颈三:维度性

进化以其卓越智慧,用生物肌肉解决了力量、速度与重量之间的平衡。肌肉是一种柔软、有顺应性的、功率密集且能自我修复的驱动器。它容忍误差,吸收冲击,优雅地形变而不是断裂。

研究人员尝试用机器人中的执行器来重现这一点,执行器相当于推动关节运动的肌肉。这样的尝试直接撞上了我有时称之为“机器人学的原罪”的问题:我们增加自由度的速度,总是跑赢了我们提升机械智能的速度。

自由度(DoF)描述了一个系统可以独立运动的方式数量。一个简单的工业夹具只有一个:开或合。人的手大约有 25 个自由度,具体取决于你如何计算耦合关节,手指、手掌和手腕之间有多块肌肉相互作用。

机器人手自由度演进:迈向类人灵巧的路径(1980–2025)

要旋转一支钢笔,机器人必须同时协调27个关节,并预测钢笔会如何滑动(摩擦)以及手指会如何变形(合规性)。

控制一个系统的难度并不会随自由度线性增长;它呈指数级增长。这就是维度的诅咒。 随着维度增加,可能状态的空间增长得如此之快,以致穷尽式规划变得不可能。原则上,为了确保钢笔不会掉落,机器人每秒需要评估天文数字般多的可能未来情形。

像钢笔这样的刚性物体已经很难处理,但仍然在一定程度上可控。可变形物体更糟。绳子、布料或鞋带会连续改变形状。你无法在实时条件下可靠地计算每一次折叠和扭曲。

这迫使机器人依赖直觉(训练出来的神经网络),而不是物理方程。神经网络在不完全建模世界的情况下逼近良好行为。

这就是字节跳动机器人在穿鞋带上取得83%成功率如此令人印象深刻的原因。它同时以高成功率应对可变形物体、微小目标、频繁遮挡和持续不确定性。

瓶颈四:感知崩溃

大多数现代机器人在行动前都会先“看”。视觉主导一切。系统检测到杯子,估计其位姿,规划伸手动作,并执行抓取。

然后手指合拢。

就在那一刻,机器人把自己蒙住了。手在接触开始的恰好时刻挡住了摄像头,而那正是交互最困难、信息最丰富的时候。视觉适用于远距离,灵巧性发生在接触时。手挡在眼前,模型就失去了场景。

这种失效模式就是遮挡问题

为了解决这个问题,研究者们正在开发“ 触觉幻觉 ”技术。在接触发生之前,AI 根据视觉数据推断触觉属性,如硬度和摩擦力。基本上,它在猜测触觉应该是什么样的。

还有人,比如图02,直接将相机集成到手掌或指尖。既然不能信任大脑去“幻觉”出图像,不如把眼睛装到手上。

机器人灵巧性堆栈

既然约束已经明确,我们可以把视角转向我们实际上前进得有多快? 这很重要,因为它让我们对能够进入家庭的通用人形机器人何时准备就绪有一个时间线的概念。

我的观点是,人类水平的灵巧性将由一个系统堆栈实现,而不是单一的突破。 某些层级会随着更好的学习而更快进展。其他层级则由物理和机械主导。

我觉得按照一个灵巧性堆栈来思考很有帮助:

  1. 材料与合规

  2. 驱动与功率密度

  3. 触觉传感

  4. 反射控制回路(局部、快速)

  5. 技能学习(策略)

  6. 任务规划(推理)

进步在顶层最快。我们在学习与规划方面进展迅速,因为这些软件层随数据和算力扩展。下游的进展要慢得多,在那里世界由金属、摩擦、热量和磨损来角力。

通用操控在接触瞬间被决定,而接触受到底层支配。所以当你看到令人印象深刻的演示时,正确的问题是:“这些演示到底推进了哪些层面?”

1)硬件解锁:驱动器、封装与顺应性

在机械上复制人类手部肌肉很困难。

任何机器人驱动装置都面临着力量、速度、精度、体积、重量和能耗之间的权衡。一种足够有力的手部设计可能过于笨重;一种紧凑且精确的设计可能不够耐用或需要过多的能量。增加更多自由度会提高机构的脆弱性和复杂性。

金属和塑料不留情面。当接触力线不对齐时,总得有东西让步,而往往牺牲的是机械本身。这就是为什么目前大量研究探索更软的材料和新的驱动器设计。人造肌肉、弹性关节、可变刚度机制以及软硬混合结构,都是为了在材料层面上重新引入机械的“容错性”。

智能弹簧

人类的手在移动时才消耗能量。天然的弹性有助于在不用额外太多力的情况下维持握持。许多机器人手则恰恰相反。如果电机在紧握物体,往往需要持续供电,这会产生热量,像 Optimus 这样的机器人因此需要液冷系统。 2025 年的研究正转向于  弹簧与可调刚度 ,以便机器人手能用更小的力维持握持。

共享数据

将数百个传感器和数十个电机的电缆通过一个可旋转的腕关节引出,会增加更多机械故障点。

研究人员正在改用单一共享数据线 ,这样每个触觉传感器就不需要各自的电缆,只需少量电源和数据信号线,并且可以串联模块。

2)系统解锁:延迟、反射与本地控制

掌上边缘计算

手必须从机身“独立”出来。目前,机器人胸腔里的“大脑”控制手指。这太慢了。信号传输耗时过长。

我们正看到处理器直接嵌入掌部或手指,在本地运行高频控制回路,仅向上层发送高层状态信息。这大幅缩短了反应时间,并且模仿了使人类操作成为可能的脊髓架构。

还有一种更激进的方法: 完全取消皮肤传感器 。Kyber Labs 使用设计得非常灵活的手指,因此当手指碰到某物(即便是像羽毛一样轻的物体)时,电机会立即感受到额外的阻力。该阻力会在电机的驱动电流中表现为微小变化,因此控制器可以估算接触力并立即停止,直接利用电机本身作为传感器。

3) 学习解锁:维度

这可以说是灵巧性中最棘手的问题,也是最有可能通过更高智能得到缓解的问题。

学习能够做的是使空间变得可导航。

慢棋 方法

早期,工程师试图用精确的坐标和方程来编程实现灵巧性。你测量杯子的质量、手指的摩擦力,然后精确计算需要施加多大力。

然而,如果你的估计有一点偏差,也许杯子有些潮湿,也许表面磨损了,物体就会掉落。

我们无法用方程来定义灵巧性,因为即使是也不知道自己是如何做到的。 我们知道的多于我们能说的 。所有这些灵巧动作都是语言之前的。这就是手工编码的操作系统失败的原因

模仿与增援学习

所以,研究人员转向了学习方法。

在模仿学习(IL)中,机器人观察人类或远程操作者多次执行任务,并学习再现这些行为。与盲目探索相比,这大大减少了试验次数。代价是覆盖范围。机器人只能学到它所见到的,而人类示范无法与机器人的关节、传感器和约束完全对应。

另一种学习方法是增强学习,机器人自主探索,通常需要数百万次,通过奖励和失败发现策略,而不是通过示范。这可能会发现人类永远不会教授的行为,但样本成本极高。因此,大多数用于操作的增强学习都在模拟环境中进行,在那里失败既便宜又快速。

这就引出下一个瓶颈。在仿真中学到的技能在现实世界中经常失效。物理引擎只是近似。摩擦不准确。接触行为不同。传感器噪声更大。这就是所谓的“仿真到现实差距”,它是灵巧机器人学中未解决的核心问题之一

一种有前景的应对方式是可微分物理引擎的兴起。这些系统不再把物理视为一个固定的黑箱,而是允许学习算法对模拟器本身进行求导,在训练过程中调整物理参数。NVIDIA 的 Newton 就是这种转变的一个例子。

与此同时,一类新模型正在重塑机器人在高维空间中推理的方式。

视觉-语言-动作模型将大型语言模型的推理能力与物理世界相连接。给机器人一个自然语言指令,“拿起苹果”,并结合视觉输入,模型就会输出一系列运动动作。这就是常识最终在机器人学中出现的地方。

权衡在于速度。这些模型推理能力强,但推理速度慢。典型推理耗时在200到500毫秒之间。对于决定该做什么来说,这个速度可以接受。但要在当下决定如何去做,则远远不够快。

新的研究,例如 Tactile-VLA 框架,通过将触觉纳入模型的词汇表,进一步推动了这一理念。对触觉标记进行微调让系统能够推理物理交互本身,而不仅仅是物体和目标。“表面感觉滑,增加握持力”成为模型可以表征的一个概念性步骤。

更好的视觉-语言-行动模型并不会消除维度复杂性,但它们让复杂性变得可导航。

我们接下来该往哪里走?

错误在于期望出现一个单一的“面向机器人的通用人工智能”时刻。灵巧性将以大多数现实工程所到达的方式到来——通过一系列长期累积的小胜利。

为了在不被演示迷惑的情况下衡量进展,我会留意这些体征:

  1. 在遮挡下的稳定抓取 且不会速度降到爬行般缓慢

  2. 从接近失败的状态中恢复 (初始打滑、抓取错误、碰撞)

  3. 对可变形物体的胜任能力 (布料、电缆、食物)

  4. 能够在数月密集接触作业中存活下来的手 无需不断重新校准

  5. 更低的功耗和热量 在相同的操控性能下

话虽如此,我对有几个领域特别感到兴奋。

机器人皮肤的创新

在一个与生物学实际对齐的领域是机器人皮肤。触觉不仅仅是另一个传感器。对人类来说,它是一个快速、局部且有判断性的系统。

这里一个有前景的方向是 类神经形态电子(NRE) 皮肤。这类皮肤不再持续传输连续测量数据,而只在发生变化时发送信号。滑动、压力峰值、突然接触。其结果是爆发式、事件驱动的反馈,更接近生物皮肤的工作方式。在实际层面上,这意味着机器人可以在微秒级接收丰富的触觉信息,而不会像今天的相机和基于帧的压力传感器那样淹没系统。

更大的一步是 主动痛觉感知 ,或“人工痛觉”。

今天的机器人在接触瞬间在经济上是盲目的。它们会毫不犹豫地毁掉一个价值5万美元的机械臂去碾碎一个售价0.1美元的汽水罐,因为没有对损坏成本的局部感知。一切都被优化为任务成功。

这就是为什么 人工痛觉 很重要。它是一个缺失的控制层。

当局部应力或压力超过安全阈值时,皮肤可以在无需等待中央控制器的情况下触发即时撤回反射。

这仍然是一个遥远的设想,但指尖上的此类传感器不仅可以检测压力,还可以为硬件分配实时折旧值。控制器会学会有些动作即便成功也代价高昂。如果机械应力超过局部预算,手指会收回。这是机器人反射的金融化。

在一条并行的跑道上,像 Prophesee 这样的公司正将事件驱动相机 (Metavision)嵌入触觉传感器(如 GelSight)。这些传感器能检测微振动,并在物体落下前数微秒调整抓握力。

触觉版 GPT

我相信最终,操控会从“看得更多”转向“预测接触”。

自然的终点是一个 大型触觉模型 ,一种基础模型,不是以文字或图像训练,而是以力、振动、打滑和温度训练。它不是预测下一个 token,而是预测下一个接触瞬间。给定一个动作和上下文,它估计未来几毫秒内力如何变化。

有了足够的物理经验,这样的模型不需要事先见过每一个物体。海绵看起来很软。纸杯看起来很脆。系统学习人类隐含携带的先验知识。

在实践中,这将呈现为一种层级结构:

  • 视觉与语言决定下一步做什么 (缓慢、语义性、2–10 Hz)

  • 触觉决定在接触时如何安全完成 (快速、反应性、200–1000 Hz)

触觉模型成为更大型机器人基础模型内的一个子系统。它不是大脑,而是防止大脑在最后一寸毁掉任务的那部分。

Mimic 这样的公司正在明确追求这一想法,目标是在工业环境中“编码”操作直觉,即使真正的人类级灵巧性仍是一个愿景。

灵巧性也关乎舒适(温度)

灵巧性不仅是控制。它也关乎接触给人的感受。

机器人可以施加正确的压力、匹配合适的质感,甚至模仿人类握手的节奏,但如果手是冰冷的,互动仍会失败。在室温下,皮肤会立即产生后缩的反应。感觉不对劲。不是机械的,而是死板的。

那种反应是生物性的。温暖表明有生命。

如果类人机器人真的进入家庭,我预期舒适工程会成为一个真正的设计轴心。来自电池、电动机或处理器的废热将被引导通过掌心和手指,使表面温度接近人体范围。不是为了性能,而是为了信任。当触觉进入社交空间,热力学就成为用户界面的一部分。

实用指南:当前生态系统

尽管存在瓶颈,灵巧性正在迅速发展。但这种发展并非单一路径,而是分化为几种不同的设计理念。

最简单保持方向感的方法不是继续问“谁拥有最好的手”,而是开始问:

他们在选择哪种权衡?

力量与带宽、传感与简洁、顺应性与精度、产品可靠性与研究灵活性。

工业实用主义者:“足够的灵巧度以配对”

在工厂里,部分灵巧就足够了。公司们更注重结合智能 AI 的简化夹持器。它们并不按人类标准具备完全的灵巧性,但通过在很少重新编程的情况下处理多种物体,推动了自动化的边界。

因此,工业自动化中取胜的模式不是超灵巧的机械手。它是 简洁的末端执行器 + 强感知能力 + 快速集成

你可以在极其紧凑的工业机械臂中看到这一理念的上限——即便在运动学奇异点(许多系统在此会变得抖动或不稳定)也能保持稳定。就像这一款:

  • MIRO U:这是一款奇特的、超类人化的工业机器人,外形不像人类,更像《蜘蛛侠》里的九头蛇。这是因为它有六只机械臂。它通过在稳定的轮腿底座上快速滚动穿梭工厂来实现多任务作业。

2)类人通用型机器人:“我们需要能在真实世界中存活的手”

类人机器人承受着最糟糕的约束:它们被期望去触碰一切。

垃圾桶、货架、电缆、包装、软性物品、工具、门、把手、手推车。它们必须在手挡住自身摄像头、物体每天变化且有人类在近旁的情况下完成这些动作。

这就迫使设计做出不同选择。你会看到团队在三项要求上趋同:

  • 更多自由度 (以便手能自适应)

  • 更多感知 (以免接触盲目)

  • 更强的机械容错性 (以免小错误演变为失败)

8台机器人在各项指标上的热力图。没有任何一台机器人在所有指标上都占据主导。

以下是四个具有代表性的押注:

  • Tesla Optimus:Tesla 已将执行器移至前臂 在第二代中并在第三代将复杂度提高到 22 自由度,每只手有 25 个执行器。这比先前原型的复杂度几乎增加了 200%。指尖还具备多区特性,不仅可以检测压力,还能感知质地、滑移和摩擦。

  • Sanctuary AI Phoenix: Sanctuary 是市场上“液压取胜”论点中最有力的例子之一。液压系统能在小体积内输出强大力矩,这对紧凑型手部很重要。他们的押注是,如果能够控制住液压,就能实现电系统难以做到的快速、高强度的手内操作。

  • Figure: Figure 采取了极其务实的路线。它增加了掌部摄像头,以便在头部摄像头被遮挡时手部仍能看见。它还使用软质材料(纺织品/橡胶)。柔软的手指更有包容性;如果抓取偏差 1 毫米,手指会挤压变形而不是失败。

  • Clone Robotics: 在生物模仿方面走到了极端,采用液压人工肌肉,这提供了刚性齿轮系无法比拟的合规性和抗冲击能力。然而,人工肌肉难以建模,且由于热力学损耗,其效率低于直驱电驱系统。该公司在 2025 年初发布了其全身版“Protoclone V1”,标志着其向完整肌肉骨骼类安卓的转变。

3)以触觉为先的专家:“灵巧就是感知。”

另一群人则押注真正的瓶颈并非自由度,而是接触可观测性

如果无法及早检测到打滑、测量微振动或读取指尖的力分布,那么控制策略总是反应迟缓。而迟缓就是物体掉落的方式。

  • Sharpa:SharpaWave 机械手是对密集触觉雄心的一个清晰示例:指尖上的阵列能够捕捉细微的压力变化,配合高达 22 自由度。其目标不仅是握持,还包括在接触变化时实现受控的交互和更快速的纠正。

  • SpikeATac (Columbia Engineering ROAM 和 CLUE 实验室):他们在一个指尖上集成了两种互补的触觉信号:一种在接触开始或断开时产生快速脉冲,另一种测量稳定压力。这种配对让机器人在接触时立即反应并在 2 毫米内停止,从而实现对易碎物体的快速且温和的处理。

  • Psyonic Psyonic 的 Ability 手是一款面向截肢者的仿生手,同时也可作为机器人触觉的模型。它具备压力感测功能,并将振动反馈传递到手臂。如此高保真的压力数据能够驱动快速反应,例如在检测到打滑时自动收紧。

4) 极简反射式机械手:“别事事都装传感器,要通过推断判断接触。”

相反的理念同样有趣:彻底避免复杂的触觉皮肤。

相反,直接把驱动器本身当作传感器。

如果手指是自由移动的,任何接触都会导致电阻和电机电流变化。仅此就足以在没有高分辨率触觉阵列的情况下触发快速反应。

  • Kyber Labs 他们的演示是反射设计的有力案例研究。高速运动、在极轻接触时立即停止——这个视频演示中它旋转螺母的表现相当有意思。它不是用指尖传感器,而是通过监测电机电流来检测接触(电阻变化会以电流变化表现出来)。它旨在低成本并可在标准机器人臂上实现量产化

5) 研究用拉车马:“让它能在训练中存活。”

最后,是那类默默支撑整个生态系统的“类别”:为研究人员打造的手。

这里的约束是残酷的。增援学习和长远操控训练会产生无尽的碰撞、打滑、撞击和重置。脆弱的手会报废。

  • Shadow Robot 它以“Shadow Hand”最为著名。它只有三根手指,因此能在反复碰撞以及在增援学习实验中常见的手指扭曲中存活下来。实际上,它因“压力测试”式的耐久性故事而闻名。在大规模训练中停机代价昂贵

结论

灵巧性不会靠一次突破解决。它会通过一个复合的技术栈来解决。

更好的传感器让学习更容易。更好的执行器让控制更安全。更好的模型把凌乱的硬件变成可用之物。每一层都提升其他层。进步是复利的。

Matthew Crawford 写道 与机器共事会让你受到一种超出自我意识的审判。 你可以用言语撒谎。你可以用视觉欺骗自己。但你无法和一个 剥落的螺栓 讲道理。触觉就是那种真相。对任何形式的营销都免疫。

我们已经建立了在比特世界中蓬勃发展的模型,在那里一切都便宜、可逆且无限。但我们生活在原子世界,摩擦是真实存在的。错误代价高昂。

所以,是的,我们在制造能够像我们一样推理的机器方面正变得越来越擅长。

我们仍在学习如何构建能够像儿童那样抓握的机器。

接下来发生的在实时观看时看起来不会很吸引人。更好的外壳。更快的反应回路。更柔顺的手。知道何时退让的控制器。一千个小修小补,把“令人印象深刻的演示”变成“可靠的工作者”。

今天:折叠毛巾。

明天:在拥挤的箱子里穿线缆。

最终:修理你水槽下的漏水管,然后准确告诉你它为什么坏了。

敬礼,

滕炎 & Ravi

这是我们持续机器人研究系列的第一篇文章。更多深度解析将陆续推出。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读