返回首页
2026.04.20 05:22 约 20 分钟 具身智能

物理世界的前沿系统

>

作者:Oliver Hsu · 2026 年 4 月 15 日

机器人学习、自主科学和新型界面,作为物理 AI 新兴范式的实例

今天 AI 中占主导地位的范式(就其在生产就绪环境中的使用而言)是围绕语言和代码组织的。支配大型语言模型的缩放定律已被很好地表征,数据、算力和算法改进的商业飞轮正在旋转,渐进式能力增益的回报仍然很大且大多可读。这一范式赢得了它所获得的资本和关注。

但一组邻近且相关的领域在其孕育阶段一直在取得有意义的进展。这些活动领域包括 VLA、WAM 和其他通用机器人模型方法,追求 AI 科学家中的物理和科学推理,以及利用 AI 进步重新思考我们与机器交互方式的人机交互新型界面(包括 BCI 和神经技术)。除技术进步外,这些领域中的每一个都看到了人才、资本和创始人活动涌入的开端。将前沿 AI 扩展到物理世界的技术原语正在并行成熟,过去十八个月的进展速度表明这些领域可能很快进入自己的扩展阶段。

在给定的技术范式中,当前感知能力与中期上行潜力之间差距最大的领域往往是那些受益于推动当前前沿的相同扩展动力,但与现有范式相距一步——足够近以继承其基础设施和研究势头,但足够远以需要非平凡的额外工作。这个距离起到双重作用:它创造了对快速跟随的天然护城河,并定义了一个更丰富、更少探索的问题空间,更可能产生涌现能力,正是因为容易的路径还没有被采取。

今天有三个领域符合这一描述:机器人学习、自主科学(特别是材料和生命科学)以及新型人机界面(包括脑机接口、无声语音、神经穿戴设备和数字化嗅觉等新型感官模态)。这些不是完全分离的努力,主题上是物理世界新兴前沿系统组的一部分。它们共享技术原语的共同基底,如物理动力学的学习表示、具身行动的架构、仿真和合成数据基础设施、扩展的感官流形以及闭环代理编排。它们以创造跨领域复合动态的方式相互强化。它们是定性新颖 AI 能力最有可能从模型规模、物理基础和新数据模态的相互作用中涌现的领域。

本文调查了这些系统底层的技术原语,研究了为什么这三个领域专门代表前沿机会,并提出它们的相互强化构成了将 AI 扩展到物理世界的结构性飞轮。

图

原语

在研究特定应用领域之前,值得理解使这些前沿系统成为可能的共享技术基础。五个主要原语支撑着前沿 AI 进入物理世界的进展。这些技术不一定特定于任何特定应用领域;相反,它们是构建将 AI 扩展到物理世界的系统的构建块。它们的同时成熟使新兴时刻具有独特性。

图

物理动力学的学习表示

最基本的原语是学习物理世界行为方式的压缩、通用表示的能力——物体如何移动、变形、碰撞和响应力。没有这一点,每个物理世界 AI 系统都必须从头学习其领域的物理学,这是一个代价高昂的命题。

多个架构家族正从不同方向汇聚于此能力。视觉-语言-动作模型 (VLA) 从上面接近:它们采用预训练的视觉-语言模型——已经富含对物体、空间关系和语言的语义理解——并用输出运动指令的动作解码器扩展它们。关键洞察是,学习看见和理解世界的巨大成本可以分摊到互联网规模的图像-文本预训练上。Physical Intelligence 的 π₀、Google DeepMind 的 Gemini Robotics 或 NVIDIA 的 GR00T N1 等模型已在不断增加的规模上展示了这种架构。

世界动作模型 (WAM) 从下面接近相同的能力:它们建立在以互联网规模视频预训练的视频扩散变换器之上,继承关于物理动力学的丰富先验——物体如何在力下下落、遮挡和相互作用——并将这些先验与动作生成耦合。NVIDIA 的 DreamZero 展示了对全新任务和环境的零样本泛化,在实现现实世界泛化方面取得了有意义的改进,同时通过仅少量适应数据从人类视频演示实现跨具身迁移。

第三种路径,可能是理解这一领域走向何方最具启发性的路径,完全摒弃了预训练的 VLM 和视频扩散主干。Generalist 的 GEN-1 是一个原生具身基础模型,从头开始在超过五十万小时的真实世界物理交互数据上训练,主要通过执行日常操控任务的人类佩戴的低成本可穿戴设备收集。它不是标准意义上的 VLA(因为没有视觉-语言主干被微调),也不是 WAM。它是一个一流的物理交互基础模型,从头设计为从人-物接触统计中学习动力学的表示,而不是从互联网图像、文本或视频中学习。

像 World Labs 等公司正在构建的空间智能对这个原语很有价值,因为它解决了 VLA、WAM 和原生具身模型都共享的表示差距:它们都没有显式建模其运行场景的三维结构。VLA 从图像-文本预训练继承 2D 视觉特征。WAM 从视频学习动力学,视频是 3D 现实的 2D 投影。从可穿戴传感器数据学习的模型捕获力和运动学,但不捕获场景几何。空间智能模型可以通过学习重建、生成和推理物理环境的完整 3D 结构(几何、光照、遮挡、物体关系和空间布局)来帮助填补这一差距。

方法之间的趋同就是要点。无论表示是从 VLM 继承、通过视频联合训练学习,还是从物理交互数据原生构建,底层原语是相同的:物理世界行为方式的压缩、可迁移模型。这些表示的数据飞轮是巨大的且大部分未被利用——不仅包括互联网视频和机器人轨迹,还包括可穿戴设备现在开始大规模捕获的庞大人类物理体验语料库。相同的表示服务于学习折叠毛巾的机器人、预测反应结果的自动驾驶实验室和解释运动皮层抓握计划的神经解码器。

图

具身行动的架构

物理学的表示是必要的但不充分。将理解转化为可靠的物理行动需要解决几个相互关联问题的架构:将高级意图映射到连续运动指令、在长动作视野上保持一致性、在实时延迟约束内运行,以及通过经验改进。

双系统分层架构——将慢速、强大的视觉-语言模型用于场景理解和任务推理(系统 2),与快速、轻量级的视觉运动策略用于实时控制(系统 1)分离——已成为复杂具身体的标准设计模式。GR00T N1、Gemini Robotics 和 Figure 的 Helix 都采用这种方法的变体,解决了大型模型提供的丰富推理与物理任务要求的毫秒级控制频率之间的根本张力。或者,Generalist 采取了同时思考和行动的谐波推理方法。

动作生成机制本身正在快速演变。π₀ 开创的流匹配和基于扩散的动作头已成为产生平滑、高频连续动作的主导方法,取代了从语言建模借来的离散标记化方法。这些方法将动作生成视为类似于图像合成的去噪过程,产生比自回归令牌预测在物理上更平滑、对复合错误更鲁棒的轨迹。

但最重要的架构发展可能是将强化学习扩展到预训练的 VLA——这一思想是,在演示上训练的基础模型可以通过其自身的自主练习改进,就像一个人通过重复和自我修正来完善技能一样。Physical Intelligence 在 π*₀.₆ 上的工作代表了这一原则在规模上的最清晰演示。他们的方法 RECAP(带优势条件策略的经验和修正强化学习)解决了纯模仿学习无法解决的问题:长任务视野上的信用分配。如果机器人以略微错误的角度抓取浓缩咖啡机的过滤器,故障可能要到几步之后插入失败时才显现。模仿学习没有机制将故障归因于早期的抓取;RL 有。RECAP 训练一个价值函数来估计从任何中间状态成功的概率,然后条件化 VLA 选择高优势动作。关键的是,它将异构数据(演示、策略上自主经验、执行期间提供的专家遥操作修正等)整合到统一的训练管线中。

这种方法的结果对动作 RL 的未来令人鼓舞。π*₀.₆ 在真实家庭中跨 50 种新颖服装类型折叠衣物,可靠地组装盒子,并在专业机器上准备浓缩咖啡饮料,连续运行数小时无需人工干预。在最困难的任务上,RECAP 将吞吐量提高一倍以上,并将故障率削减一半或更多(与仅模仿基线相比)。该系统还展示了 RL 后训练产生与模仿定性不同的行为,如更平滑的恢复、更高效的抓取策略和适应性错误修正——这些都不存在于演示数据中。

这些收益表明,驱动 LLM 从 GPT-2 到 GPT-4 的相同算力扩展动力开始在具身领域运作——只是在曲线上更早,并且具有连续、高维且受现实世界物理无情约束的动作空间。

图

作为扩展基础设施的仿真和合成数据

在语言中,数据问题由互联网解决:数万亿自然出现的文本令牌,免费可用。在物理世界中,数据问题大几个数量级——正如现在很好理解的,由旨在为物理世界构建数据供应商的初创公司迅速增加表明。真实世界机器人轨迹收集成本高、规模化危险且多样性有限。语言模型可以从十亿次对话中学习;机器人无法(还)有十亿次物理交互。

仿真和合成数据生成是解决这一约束的基础设施层,它们的成熟是物理世界 AI 现在加速而不是五年前加速的关键原因之一。

现代仿真栈结合了基于物理的仿真引擎、通过光线追踪的逼真渲染、程序化环境生成和世界基础模型——这些模型通过从仿真输入生成逼真视频来弥合 sim-to-real 差距。管线从真实环境的神经重建(仅使用智能手机),通过用物理上准确的 3D 资产填充,到带有自动注释的大规模合成数据生成。

仿真栈的改进意义在于,直观地说,正在改变支撑物理世界 AI 的经济假设。如果物理 AI 的瓶颈从收集真实数据转移到设计多样化虚拟环境,成本曲线就会崩溃。仿真随算力扩展,而不是随人工或物理硬件扩展。这以与互联网规模文本数据改变训练语言模型经济效益相同的方式,改变了训练物理世界 AI 系统的经济效益,意味着对仿真基础设施的投资对整个生态系统具有超大杠杆。

然而,仿真不仅是机器人原语。相同的基础设施服务于自主科学(实验室设备的数字孪生、用于假设预筛选的模拟反应环境)、新型界面(用于训练 BCI 解码器的模拟神经环境、用于校准新型传感器的合成感官数据)以及 AI 与物理世界交互的其他领域。仿真是物理世界 AI 的通用数据引擎。

图

扩展感官流形

物理世界通过比视觉和语言丰富得多的信号集进行交流。触觉传达关于材料属性、握持稳定性和接触几何的信息,这些对相机来说是不可见的。神经信号以远超任何当前人机界面的带宽编码运动意图、认知状态和感知体验。亚发声肌肉活动在产生任何声音之前就编码语音意图。第四个原语是 AI 对这些先前不可访问模态的感官访问的快速扩展,不仅由研究驱动,还由构建以消费者规模捕获和处理这些信号的设备、软件和基础设施的生态系统驱动。

这一扩展最明显的指标是新设备类别的出现。这些包括 AR 设备——近年来在用户体验和外形因素上有大幅改进(公司在该平台上为消费者和工业用例构建应用);语音优先的 AI 可穿戴设备,通过陪伴用户进入物理世界为基于语言的 AI 提供更全面的上下文。长期来看,神经界面可能开启更全面的交互模式。AI 在计算中带来了一种转变,创造了戏剧性地推进人类与计算机交互方式的机会,像 Sesame 这样的公司正在构建新的模式和设备来做到这一点。

像语音这样的更主导模式为与计算机交互的新兴方式创造了顺风。当像 Wispr Flow 这样的产品将语音推向更主要的输入模式(鉴于其高信息密度,这是一个优势)时,无声语音界面的市场动态也变得更有利。无声语音设备使用各种传感器检测舌头和声带运动以解读语音而不发出声音,代表了一种与计算机和 AI 交互的更高信息密度模式。

脑机接口(侵入式和非侵入式)代表了更深层的前沿,围绕它们的商业生态系统继续推进。那里的信号是临床验证、监管审批、平台集成和机构资本朝着几年前还纯粹是学术性的技术类别趋同的进展。

触觉感知正在进入具身 AI 架构,因为机器人学习中的一些模型开始明确将触觉作为其方法的一流部分。嗅觉界面正在成为真正的工程产物:使用具有毫秒响应时间的微型气味发生器的可穿戴显示器已被证明可用于混合现实应用,而气味模型正在被构建以与视觉 AI 系统配对用于化学过程监控。

所有这些发展的模式是它们在极限上相互趋同。AR 眼镜生成关于用户如何与物理环境交互的连续视觉和空间数据。EMG 腕带捕捉人类运动意图的统计。无声语音界面捕捉亚发声发音和语言输出之间的映射。BCI 以可用的最高分辨率捕获神经活动。触觉传感器捕捉物理操控的接触动力学。每个新设备类别也是一个数据生成平台,为多个应用领域底层的模型提供动力。在 EMG 衍生运动意图数据上训练的机器人学习与仅在遥操作上训练的机器人不同的抓取策略。响应亚发声指令的实验室界面实现了与键盘不同的科学家-机器交互。在高密度 BCI 数据上训练的神经解码器产生通过任何其他渠道无法访问的运动规划表示。

这些设备的扩散正在扩展可用于训练前沿物理世界 AI 系统的数据流形的有效维度——而这种扩展的大部分是由资金充足的消费产品公司而不只是学术实验室驱动这一事实,意味着数据飞轮可以随市场采用而扩展。

图

闭环代理系统

最后一个原语更多是架构性的。它是将感知、推理和行动编排成在长时间视野上无需人工干预即可持续、自主、闭环运行的系统的能力。

在语言模型中,类似的发展是代理系统的出现——多步推理链、工具使用和自我修正工作流,将模型从单轮问答者推进到自主问题解决者。在物理世界中,相同的转变正在进行,但要求要严苛得多。一个犯错的语言代理可以无成本地回退,而一个掉了一烧杯试剂的物理代理则不能。

三个属性区分物理世界代理系统与其数字对应物。第一,它们需要在实验或操作循环中具身:直接接口到原始仪器流、物理状态传感器和将推理基于物理现实而不是其文本描述的驱动原语。第二,它们需要长视野持久性:内存、来源跟踪、安全监控和恢复行为,跨操作周期保持连续性,而不是将每个任务视为独立情节。第三,它们需要闭环适应:基于物理结果而不仅仅是文本反馈修订策略的能力。

这一原语是将单个能力(一个好的世界模型、可靠的动作架构、丰富的传感器套件)转化为可在物理世界自主运行的功能系统。它是集成层,其成熟使下面描述的三个应用领域作为真实世界部署而不是孤立的研究演示成为可能。

图

三个领域

上述原语是通用使能层。它们本身并不指定最重要的应用将在哪里出现。许多领域涉及物理动作、物理测量或物理感知。区分前沿系统与仅是改进的现有系统的,是日益增加的模型能力和扩展基础设施在该领域内复合的程度——不仅创造更好的性能,还创造此前不可能的定性新能力。

机器人技术、AI 驱动科学和新型人机界面是这种复合最强的三个领域。每一个都以独特的配置组装原语。每一个都受所讨论原语正在解除的限制约束。每一个都在其运行的副产品中生成正是使原语本身更好的那种结构化物理数据,闭合一个加速整个系统的反馈循环。它们不是唯一值得关注的物理 AI 领域,但它们是前沿 AI 能力与物理现实之间相互作用最密集的领域,也是与当前语言/代码范式的距离为涌现创造最多空间的领域,同时仍高度互补且受益于这些能力。

图

机器人技术

机器人技术是该论点最字面的具身:一个领域要求 AI 系统实时感知、推理并物理作用于物质世界。它也是最直接同时压力测试每个原语的领域。

考虑通用机器人折叠毛巾必须做什么。它需要可变形材料如何在力下行为的学习表示——任何语言预训练都无法提供的物理先验。它需要一个动作架构,可以将高级指令转换为 20Hz 或更高控制频率的连续运动指令序列。它需要仿真生成的训练数据,因为没有人收集了数百万真实世界的折毛巾演示。它需要触觉反馈来检测滑动并调整握力,因为单凭视觉无法区分坚固的抓握和即将失败的抓握。它需要一个闭环控制器,可以检测折叠何时出错并恢复,而不是盲目执行记忆的轨迹。

这就是为什么机器人技术是一个前沿系统,而不是一个有更好工具的成熟工程学科。原语不只是改进现有的机器人能力;它们解锁了此前在狭窄控制的工业环境之外不可能的操控、运动和交互类别。

近年来前沿已显著推进,正如我们之前所。第一代 VLA 证明了基础模型可以跨多样任务控制机器人。架构进步在桥接机器人系统中的高级推理和低级控制方面取得了进展。设备上推理变得可行,跨具身迁移意味着模型可以用有限的数据适应全新的机器人平台。剩余的核心挑战是规模化的可靠性,这仍是部署的瓶颈。即使每步 95% 的成功率在 10 步任务链上也只产生 60%,而生产环境要求远好得多。这是 RL 后训练具有高潜力的地方,可以帮助我们朝着指示一个领域进入其扩展阶段的能力和鲁棒性迈进。

这些进展对市场结构有影响。几十年来,机器人技术的价值累积在机械系统本身,虽然它仍然是栈的关键部分,但随着学习策略变得更加标准,价值迁移到模型、训练基础设施和数据飞轮。但机器人技术也反馈到之前讨论的原语:每条真实世界轨迹都是更好世界模型的训练数据,每次部署失败都揭示仿真覆盖的差距,每个测试的新具身都扩展了可用于预训练的物理体验的多样性。机器人技术既是原语最苛刻的消费者,也是它们改进信号的最重要来源之一。

图

自主科学

如果说机器人技术针对实时物理动作的需求测试原语,自主科学针对略有不同的东西测试它们——对因果复杂物理系统的持续、多步推理,时间视野以小时或天衡量,实验结果必须被解释、上下文化并用于修订策略。

AI 驱动科学是原语最完整结合的领域。一个自动驾驶实验室需要物理和化学动力学的学习表示来预测实验将产生什么。它需要具身行动来移液试剂、定位样品和操作分析仪器。它需要仿真来预筛选候选实验并分配稀缺的仪器时间。它需要扩展的感知(如光谱学、色谱法、质谱法)和日益新颖的化学和生物传感器来表征结果。它比任何其他领域都更需要闭环代理编排原语——能够维持多周期假设-实验-分析-修订工作流而无需人工干预,维持来源、监控安全并基于每个周期揭示的内容调整策略的能力。

没有其他领域如此深入地利用这些原语。这就是使自主科学成为前沿系统而不仅仅是带有更好软件的实验室自动化的原因。Periodic Labs 和 Medra 等公司将科学推理能力与分别在材料科学和生命科学中测试该推理的物理能力统一起来,启用科学迭代并在此过程中生成实验训练数据。

这些系统的价值相当直观。传统材料发现从概念到商业化需要数年,而 AI 加速的工作流可以将这一过程压缩到更少。约束正在从假设生成(基础模型可以容易地辅助)转移到制造和验证(需要物理仪器、机器人执行和闭环优化)。SDL 旨在解决这一瓶颈。

自主科学的另一个重要属性,跨这些物理世界系统的格局,是它作为数据引擎的角色。SDL 运行的每个实验不仅产生科学结果,还产生物理基础、实验验证的训练信号。聚合物在特定条件下结晶方式的测量丰富了世界模型对材料动力学的理解。验证的合成路径成为物理推理的训练数据。表征的失败教代理系统其预测在哪里崩溃。AI 科学家进行真实实验产生的数据在质上不同于互联网抓取的文本或仿真输出,因为它是结构化的、因果的和经验验证的。这是物理推理模型最需要且无法从其他来源获得的数据类型。自主科学是直接将物理现实转化为改善整个物理世界 AI 生态系统的结构化知识的领域。

新型界面

机器人技术将 AI 扩展到物理动作,自主科学将其扩展到物理研究。新型界面将其扩展到人工智能与人类感知、感官体验和身体自身信号的直接耦合,通过从 AR 眼镜和 EMG 腕带到植入式脑机接口的设备。统一这一类别的不是单一技术,而是扩展人类智能与 AI 系统之间通道的带宽和模态的共同功能,并在此过程中生成关于人类与世界交互的数据,这对构建物理世界 AI 直接有用。

与现有范式的距离是这一领域挑战和潜力的来源。语言模型在概念上知道这些模态,但不一定原生于无声语音的运动模式、嗅觉受体结合的几何或 EMG 信号的时间动力学。解码这些信号的表示必须从扩展的感官流形中学习。许多这些模态没有互联网规模的预训练语料库,数据通常必须来自界面本身,这意味着系统及其训练数据以语言 AI 中没有类比的方式共同演化。

这一领域的近期表达是 AI 可穿戴设备作为消费产品类别的快速涌现。AR 眼镜可能是这一类别最明显的实例,连同其他采用语音或视觉优先输入模态的可穿戴消费设备。

这一消费设备生态系统既为 AI 扩展到物理世界创造了新的硬件平台,也是物理世界数据的基础设施。戴 AI 眼镜的人可以产生关于人类如何在物理环境中导航、操控物体并与世界交互的连续第一人称视频流。其他可穿戴设备捕获连续的生物特征和运动数据。综合起来,AI 可穿戴设备的安装基数正成为物理世界 AI 的分布式数据收集网络,以此前不可能的规模为人类物理体验提供仪器。考虑智能手机作为消费设备的规模——以这种规模启用计算机感知世界的新模式的新型消费设备的扩散,也为 AI 与物理世界交互创造了一个庞大的新通道。

脑机接口代表了更深的前沿。Neuralink 已植入多名患者,并迭代其外科机器人和解码器软件。Synchron 的血管内 Stentrode 已用于让瘫痪用户控制数字和物理环境。Echo Neurotechnologies 正在开发用于语音恢复的 BCI 系统,建立在他们在高分辨率皮质语音解码方面的工作之上。此外,像 Nudge 这样的新公司已成立,以汇集人才和资本来构建用于与大脑交互的新神经界面和平台。研究领域的技术里程碑也值得注意。BISC 芯片展示了在单芯片上以 65,536 个电极的密度无线神经记录,BrainGate 团队直接从运动皮层解码内部语音。

将 AR 眼镜、AI 可穿戴设备、无声语音设备和植入式 BCI 等所有这些联系起来的脉络不仅仅是它们都是界面。它是它们共同构成了人类物理体验和 AI 系统之间日益高带宽通道的频谱——该频谱上的每一点都帮助支持本文中三个领域底层的原语持续进步。在数百万 AI 眼镜佩戴者的高质量第一人称视频上训练的机器人学习与在精心策划的遥操作数据集上训练的机器人不同的操控先验;响应亚发声指令的实验室 AI 以与键盘控制不同的延迟和流畅度运行;在高密度 BCI 数据上训练的神经解码器产生通过任何其他通道无法访问的运动规划表示。

新型界面是感官流形本身通过开启此前不存在的物理世界与 AI 之间的数据通道而增长的机制。而这种扩展由寻求大规模部署产品的消费设备公司驱动这一事实,意味着数据飞轮将随消费者采用而加速。

物理世界的系统

将机器人技术、自主科学和新型界面视为结合相同原语的前沿系统的不同实例的原因是,它们以复合方式相互启用。

机器人技术启用自主科学。自动驾驶实验室在其核心是机器人系统。为通用机器人技术开发的操控能力,如灵巧抓取、液体处理、精确定位、多步任务执行,都直接可迁移到实验室自动化。随着机器人模型在通用性和鲁棒性上改进,SDL 可以自主执行的实验协议范围扩大。机器人学习的每一项进展都降低成本并提高自主实验的吞吐量。

自主科学启用机器人技术。自动驾驶实验室生成的科学数据,如经验证的物理测量、因果实验结果、材料属性数据库,可以提供世界模型和物理推理引擎需要改进的结构化、有根据的训练数据。此外,下一代机器人需要的材料和设备(例如,更好的执行器、更敏感的触觉传感器、更高密度的电池等)本身就是材料科学的产品。加速材料创新的自主发现平台可以直接改进机器人学习运行的硬件基底。

新型界面启用机器人技术。AR 设备是收集关于感知和与物理环境交互数据的可扩展方式。神经界面生成关于人类运动意图、认知规划和感官处理的数据。这些数据对训练机器人学习系统非常宝贵,特别是对涉及人机协作或遥操作的任务。

这里有关于前沿 AI 进展本质的更深点。语言/代码范式取得了非凡的成果,并在扩展时代继续显示出强劲的改进。物理世界提供了几乎无限的新颖问题、数据类型、反馈信号和评估标准供应。通过将 AI 系统基于物理现实(通过操控物体的机器人、合成材料的实验室和连接到生物和物理世界的界面),我们打开了与现有数字前沿互补——并可能相互改进——的新的扩展轴。

我们应该期待从这些系统涌现的行为很难精确预测,因为涌现按定义来自单个良好理解但集体新颖的能力的相互作用。但历史模式当然令人鼓舞。当 AI 系统获得与世界交互的新模式时——当它们能看见(计算机视觉),当它们能说话(语音识别),当它们能读写(语言模型)——所产生的能力在质上大于组成改进的总和。向物理世界系统的过渡代表了下一个这样的相变。从这个意义上说,这里讨论的原语正在被构建,并可能使前沿 AI 系统能够感知、推理和与物理世界互动,在物理领域解锁大量价值和进展。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读