下一个自动化前沿:物理世界的模型与数据
本文信息来源:17000credits
机器人来了,宝贝!

核心论点: 自动化技术的下一个前沿并非另一个软件工作流,而是物理世界。能够感知、推理并在杂乱多变的任务中行动的智能体,需要基于仪器化交互数据训练的专业模型,而不仅仅是更庞大的 LLMs。硬件早已部署在工厂车间;真正缺失的是智能本身——以及支撑它的数据基础设施。
我一直想写一篇关于 AI 智能体本质的文章。部分原因是自我教育(因为只有将想法公开发表到网上,我才能确认自己是否真正理解),另一部分则是因为这个术语被广泛用于指代许多不同事物。然而,智能体技术的发展速度似乎快得超出我的研究范围——由于目标不断变化,我的工作流程尚未与智能体技术实现有效对接。
有趣的是,这正是智能体的核心所在——流程与工作流。或许最终可以这样检验 AI 智能体的本质:它们是否在创建、执行或实施某个流程/工作流?若非如此,则不能称之为真正的智能体。
但更重要的是,大多数流程和工作流都是动态变化的。这正是智能体技术如此引人注目的原因。我们实现机械化流程自动化已有相当长的时间,成效参差不齐。这些流程大多基于复杂(有时也不太复杂)的嵌套条件语句,比如"如果这封邮件包含某个关键词,就将其归类到指定收件箱"等等。但真正能阅读邮件并根据具体内容进行回复,则完全是另一回事。突然间,可自动化处理的事务范围就大幅扩展了。
然而,这些自动化功能并非凭空产生。要构建这些工作流,必须依赖某些数据集。你不可能直接让 LLM 完成任意任务并指望它自行解决——至少目前还不行。有些领域它表现出色,但更多领域仍缺乏优质数据集支撑。具体如下图所示:

但现实是,鲁恩的基准实际上是一个相当不错的基准,因为它要求同时实现数字和物理工作流程的自动化。目前人工智能所做的大部分工作,都是在实现数字优先工作流程的自动化。虽然存在一些物理工作流程自动化的案例,但事实上,大多数被自动化的工作流程都发生在移动设备或计算机上。它们运行于浏览器或云端。甚至在 ChatGPT 问世、智能代理风靡之前,就已经有许多公司在尝试自动化这些流程了。
那时候我们还称之为机器学习。如果你曾参加过 AI/ML 公司的推介会,他们开场白总会强调自己拥有多少训练数据。数据就是关键所在。只有获得优质数据,才能构建出可靠的模型。当时有些初创公司(至今仍有)会向你兜售这样的观点:数据质量不必太高,因为他们已打造出更高效的解决方案。当然,这正是 Transformer 模型带来的变革:输入垃圾不再必然产出垃圾。规模化和自监督机制大幅降低了(但并未消除)噪声数据对功能输出的影响(需要明确的是,这里指的不是实际推理成本)。
所以核心问题始终是:如何获取真正有价值的数据。
数据提取过去很难——现在依然不简单——但如今使用的 LLMs 让这件事变得容易得多 ,因为它们已经完成了大量基础工作。现在,任何拥有数字化工作流程或工具的人都能"轻松"(实际操作仍具挑战性)启动流程自动化,并开始构建实现自动化所需的训练语料库。
因此,数字工作流程被智能体自动化似乎只是时间问题。正如我之前所说,当前的 LLMs 还无法实现全自动化,但只要有合适的数据,我认为它们能完成大多数数字工作流程的自动化。这些数据本就存在,数字体验可以轻松生成这些数据,模型也能基于这些数据进行训练——即便它们目前还缺乏准确理解上下文的能力。发送邮件?每秒都有海量邮件在自动发送。撰写备忘录?早就实现了自动化。安排会议?管理项目?在线购物?创意生成?诸如此类,不胜枚举。
当然,我并不是说我们应该把所有事情都自动化,也不是说自动化产出必定优于人工。但现实很可能是:这些工作要么被自动化取代,要么人类执行起来轻松许多,再或者需要支付额外溢价才能获得人工服务。
但这些都属于数字化工作流程。同样地,由于我们掌握了现成可用的数据并建立了相应模型(或即将建立),这类流程的自动化理应相对容易实现。
但实体工作流程呢?这些数据存在于何处?我们真的能训练模型来解决这类问题吗?
我们生活在一个软件吞噬世界的时代。但软件并非去年才问世。软件已经吞噬世界有段时间了。某些领域被迅速吞并(客户关系管理系统、数据工具等),但要逐步渗透到与实体更相关的行业则需要更长时间。当教育科技或制造科技等终端市场被提及时,风投总是感到担忧是有原因的——因为这些领域难以数字化,在过去 50 多年里始终处于技术采用曲线的长尾端。这些都是无法被塞进电子表格、通过电子邮件管理的实体产业。

但这并不意味着它们缺乏自动化或自动化机遇。据估计,仅发那科(FANUC)机器人在美洲的装机量就达 20 万至 30 万台。因此,制造业和工业领域并非完全与自动化和自动化尝试绝缘。
关键在于机器人价格昂贵,硬件开发难度高。即便完成采购、安装并投入运行,它们(大多数情况下!)仍缺乏智能。需要具备独特细分领域技术能力的人员才能确保其高效运转并持续更新优化。当软件开发日趋简化和低代码化时,机器人技术并未遵循相同的发展曲线,至少未能保持同步的进化速度。
现实情况是,当前通过 LLMs 构建的自动化系统缺乏适用于机器人的强大数据集。虽然已有相关尝试,但数据提取的难度远超表面所见。即便 LLMs 已消化了整个互联网信息,机器人技术涉及的众多工作流程仍未被数字化。零散数据虽已陆续上传至云端,但其更新速率远未达到理想水平。
工业环境中已有自动化应用,但其质量尚无法与数字世界的自动化相提并论。

因此需要更优质的训练数据。 我曾写道,机器人革命将从中西部某个地方开始。 我们已配备好工具和机器人,现有工作流程中也存在相关数据。接下来只需将其数字化并输入正确的模型。完成这一步后,真正的自动化就能启动——对吧?
然而,问题真的只在于数据吗?在 Transformer 模型横空出世之前,业界关注的是获取更优质的数据和构建更精良的模型。随后 Transformer 模型的出现,使得语言模型能够采用"暴力计算"的方式。它们之所以被称为大型语言模型而非精确语言模型,正是因为传统的"垃圾进-垃圾出"法则在此变得不再绝对适用。当然,LLMs 仍存在更多数据也未必能解决的问题(如幻觉效应、上下文窗口限制等)。但推动当前 AI 时代实现爆发式发展的关键突破并非更好的数据。我认为甚至不是更多的数据——更多数据会让人误以为我们发现了某种能解锁潜能的神秘数据宝藏。事实上,是更优秀的模型(或建模方法)促成了当今语言基础模型的繁荣。这些 LLMs 确实在不断吸纳海量数据,并随时间推移变得更强(且成本更低),但这一切的前提是模型架构的改进,而非相反。
因此,错误在于假设不再需要构建新模型——认为我们今天拥有的基础模型将永远适用,或者说这场竞赛的参赛者已经取得了各种胜利。我认为基础语言模型确实正迈向更高平台,那些优胜者已在这场竞赛中遥遥领先。
但我认为,不能简单地假设成为语言基础模型就意味着你也能成为数学、化学、生物学或物理学的基础模型,甚至金融与会计领域也是如此。诚然,从理论上讲,语言是人类理解所有这些学科的底层基础。但语言本身是一种存在信息损耗且不完整的交流方式,其他学科的理解远不止于文字表述。这就是为什么我们会用完全不同的符号体系来描述数学,而非仅依赖自然语言。
理论上,我们可以将所有关于某个主题的书面文字塞进现有的 LLMs 并充分训练它们,但这似乎是一种低效的输出生成方式。此外,数据需求可能过于庞大,因为这些数据可能并不都以数字格式存在、随时可供使用。而且这些数据可能并不存在于能让语言模型真正理解的同一向量空间中。
因此问题就变成了——能否构建一个更高效的模型来接收这类信息?能否创建出充分理解物理规律的模型,其理解程度是语言所无法恰当描述的?能否用更少的数据实现这一目标?或者使用更优质的数据呢?
因此回到机器人技术领域,与机器人交流仅靠自然语言是远远不够的。你需要物理知识和上下文理解——这正是当前 LLMs 似乎尚未具备的能力。当然,现有的大型 LLM 超规模系统未来或许能达到这个水平,但这显然不是它们当前的重点发展方向。主流 LLM 的发展路线仍以语言为核心;物理世界建模虽已初现端倪,但远未成熟。那么能否用现有 LLM 来构建物理模型?当然可以。但这可能会催生出完全不同的新型模型。
物理自动化需要基于仪器化交互数据(力/扭矩、视觉、本体感觉)训练的专业模型。规模效应固然重要,但若缺乏可靠的数据采集和评估机制,发展就会遭遇瓶颈。
如今有几家初创公司正全力聚焦于机器人自动化领域。其中许多企业致力于开发新型机器人,随后叠加更优的模型来提升机器人性能。另一些则采取机器人无关策略,试图仅通过更先进的软件(或许搭配部分传感器)构建更出色的系统。我无法断言哪类企业将最终胜出。从风投视角来看,机器人无关策略可能因其带来的利润提升、更优的渠道定位等优势而获胜。但另一种观点认为,我们尚未真正拥有能够支持软件快速普及的机器人平台。正如移动时代来临前需要先经历智能手机革命,机器人领域或许也需要类似的突破性时刻。
无论采取何种有效策略(或许还存在尚未考虑到的关键因素),他们都需要构建更优质的模型。仅获取更优质的数据是远远不够的。
工业环境天生追求效率。自工业革命伊始,自动化进程便持续缓慢推进。当然,其中不乏失败的尝试,但也存在颠覆性的成功案例,而这一进程短期内不太可能停滞。构建能够理解失败与成功之间微妙差异的基础模型,正是创造巨大风险投资价值的关键所在。