智能的工业化:从软件到数字劳动力

引言
1 对人工智能行业的分析似乎在两种框架之间反复摆动:一种把它视为高资本支出的聊天机器人平台,另一种则把它视为以通用人工智能(AGI)或超级人工智能(ASI)形式出现的“人类的最后发明”。前一种框架的优点是与现代科技行业的分类(从 SaaS 到其它 API 商业模式)相契合,但我也认为它往往会堕入“聊天机器人近视症”,经常忽略人工智能的恰当经济分析单位。后一种关于超级智能的观点更具吸引力,但也有些空泛,因为 AGI 和 ASI 仍然定义模糊,这会把任何商业分析从硬事实转向无法衡量的形而上学辩论。
在本文中,我主张人工智能不仅仅是另一波软件浪潮。相反,我将现代人工智能视为一种资本密集型的工业引擎,具有生产可重塑全球经济的数字劳动力的潜力。为分析这场革命,本文采用了劳动力视角,考虑到能力的“参差前沿”以及采用具代理性的架构时固有的实施差距。从自治架构到“数字工人”的飞轮,以下各节概述了塑造人工智能未来的一些关键向量。
-
摆脱聊天机器人近视症:从软件到数字劳动力。 人工智能行业占主导地位的分析框架常常把聊天机器人误认为是目标,而非上路的入口。本文将人工智能重新定位,不把它视为另一种软件类别,而是视为数字劳动力的出现。这一转变在经济影响上更接近工业革命而非软件浪潮。
-
国家治理的算法:超级大国的 AI 竞赛。AI 不仅有潜力改变消费者生活和企业竞争格局,也可能影响国家之间的科学、经济和军事地位。当国家竞争力,尤其是超级大国的竞争力处于关键时,政府对新兴技术的影响可能会显著改变其改进速度和社会普及程度。
-
主体性 AI 的挑战:把“智能”变为执行力。LLMs 擅长自然语言和解读模糊性,但企业和消费者需要的是确定性的精确表现。本文探讨了为何主体性自治源于架构,而非仅由模型能力决定,以及主体性 AI 如何在创造力与可控性之间寻求平衡。
-
参差不齐的前沿与人工智能进展的隐形形态。“参差不齐的前沿”解释了为何人工智能在某项任务上能胜过哲学博士,却在另一项小学逻辑谜题上不及格。这种不均衡的能力分布并非轶事噪音,而是基于概率模型的结构性特征,或许是理解人工智能经济影响的最重要概念。
-
代币、劳动与能动的飞轮。 本文认为代币通货紧缩既非漏洞也非商品化的令人担忧的信号,而是增长引擎。推理成本的快速下降拓宽了代理可执行任务的范围,加速了人工智能从工具向自治经济主体转变的进程。
-
人工智能竞争优势的来源。 尽管关于人工智能产业的许多分析集中在前沿模型实验室之间的竞争差异上,本文认为主要的竞争优势来源是在技术栈更高层形成的。智能代理架构是这里的关键机制,因为它们能捕获专有的上下文、“在工作中学习”,并深入整合到企业和消费者的工作流程中。
-
从应用商店到意图市场:人工智能对应用的影响。 图标、菜单和仪表盘是人为瓶颈的产物,而非最佳的计算界面。随着代理开始接管任务执行,最终胜出的产品将是为机器消费而优化的,而非为人类注意力而设计的。
-
从幂律到相变:重新思考人工智能的进展。 仅凭基准测试无法解释为何人工智能需要越来越大的计算和能耗投入。对金融和商业领袖而言,关键问题不是模型是否在改进,而是改进的机制本身是否在发生变化。
-
LLM 占主导地位,但并非唯一。 围绕 LLM 扩展的热潮并未解决关于如何构建智能的既有学术分歧。相反,随着企业将 AI 推向对话之外并应用于自治执行,这些争论重新回到聚光灯下。
-
对“Agentic:自动驾驶车辆”的概念性试驾。 文章认为自动和半自动驾驶车辆代表了当今在现实世界中部署的最先进的具代理性人工智能之一。并且该行业在安全、延迟和可靠性方面面临的制约,是企业和消费软件尚未遭遇的。
摆脱聊天机器人近视:从软件到数字劳动
人工智能产业的演进仍处于初期。因此,许多企业领导者仍在寻找理解其影响的框架。大多数人自然而然地试图把人工智能套入个人电脑、互联网或云计算革命的模式——主要因为这些变革是当今许多高管亲身经历过的。一些分析师甚至认为这“不过是软件”,暗示它最终只是 SaaS 市场的一个子集。
本文认为这种观点源自“聊天机器人近视症”:一种将第一个被广泛采用的应用(聊天机器人)误认为是技术最终形态的谬误。这种观点具有危险性,因为对话式聊天机器人只不过是通向具代理性的人工智能的垫脚石,而具代理性的智能体将成为该行业的主要应用领域。尽管前沿实验室经常讨论 AGI(通用人工智能)和 ASI(超通用人工智能),但这些目标与智能体并不相互排斥;事实上,据报道,“智能体”在 OpenAI 通向 AGI 的进程中被定义为第三级(图 1)。
图 1:OpenAI 的 AI 等级,20242

AI 代理的基本原则
如果你检索关于代理的新闻文章,很可能会花数小时在彼此冲突的定义中摸索。Perplexity 用来与网站交互的工具算不算代理?Nest 恒温器算不算代理?运行一家公司的软件算不算代理?尽管以上这些都符合广义的技术定义,我们必须聚焦于与现代 AI 的经济应用相关的定义。
为此,我们可以将代理定义为在三个阶段的连续循环中运作的系统 3:
-
感知: 它通过数据、文本或视觉输入感知环境。
-
决定: 它推理接下来应做什么以达成特定目标。
-
行动: 它执行会产生现实世界影响的动作(例如,发送电子邮件、购买库存或推送代码)。
从这个定义中最重要的结论是与早期聊天机器人的鲜明对比。ChatGPT 在 2022 年推出时,是一个被动的神谕。它可以根据训练数据回答问题,但无法浏览实时网络(感知),无法暂停并推理制定计划(决定),也无法执行工具(行动)。自那之后,随着聊天机器人变得更具代理性,它们已逐步具备了这些能力中的许多。
代理能力的三个层级
行业分析因使用“agent”一词来描述能力差异巨大的系统而更加复杂。为理解对劳动的影响,我们可以将其拆解为三个不同的能力层级 4.
-
第 1 级:反射型代理(基于模型) 该代理利用 LLM 理解用户意图并将其路由到相应的工具。它管理传统应用的“控制流”,取代人类通常进行的指点和点击操作。
-
对劳动的影响: 低。它可能创造更顺畅的用户界面(通常称为无头应用),并且是一种“AI 工作流”,但从根本上仍是软件工具,而非对劳动的替代。这代表了代理的工具和副驾驶阶段。
-
-
第 2 级:以目标为导向的代理(您现在所在的位置) 我们正进入这一时代。这类代理不只是沿着既定路线行事;它们被赋予一个高层目标,必须制定计划来实现该目标。代理将目标分解为步骤,执行这些步骤,并且——关键在于——观察结果。如果第一次尝试失败,第 2 级代理会回溯、调整计划并再次尝试。
-
对劳动力的影响: 高。在此阶段,任务时长成为关键衡量指标。随着这些代理能够在无需人为干预的情况下处理更长、更多步骤的任务,它们开始在数据分析、基础编码和研究等工作流程中替代初级认知劳动。
-
-
第 3 级:学习型代理(黄金标准) 这是企业级与消费级人工智能的未来形态。尽管第 2 级代理能制定计划,但通常在任务完成后会重置。第 3 级代理具有情节记忆并能从经验中学习。如果你在周一纠正了第 3 级代理,它会将在周二把该反馈融入其行为中。
-
劳动影响: 变革性。在企业中,这是一个“在职学习”的代理,随着时间推移提高其经济价值,并创造出可防御的专有流程知识护城河(即上下文)。
-
短视的聊天机器人视角,将机制误认为效用
ChatGPT 在 2022 年底的爆炸性成功使许多人将聊天机器人视为人工智能的主要应用。相反,我们认为最终的主要应用领域将是作为劳动增强或替代的代理。把最初的原始应用视为技术演进终点的短视,是困扰早期技术革命分析的一个极为常见的障碍:
-
蒸汽机只是个水泵。 最早的蒸汽机在 18 世纪早期被用于从矿井抽水 5。早期将该行业潜力仅仅视为水泵的观点,完全忽视了蒸汽作为运输和制造业革命性技术的主要变革作用。
-
电力犹如电烛市场。 最初广泛的商业应用是作为燃气照明的替代品。因此,早期的行业度量是“每流明成本”。随着人们逐渐认识到电力是一种将彻底改变工业和消费者生活的通用技术,这一度量逐渐淡出视野,电力最终促成了现代信息技术产业的兴起。
-
手机起初只是无绳电话。1980 年,AT&T 请麦肯锡预测 2000 年蜂窝电话市场的规模。该咨询公司估计为 90 万用户 6。到 2000 年,美国的实际用户数为 1.09 亿。手机最终远不止是一部电话,逐步演变为个人通信与计算设备。
-
互联网和传真机一样重要。1998 年,诺贝尔奖得主保罗·克鲁格曼发出了他那句如今广为人知的关于互联网的预测:“到 2005 年,将会清楚地看到互联网对经济的影响并不比传真机更大”。7
聊天机器人是一个了不起的应用,但它只是蓬勃发展的人工智能生态系统中的一个组件。若把人工智能框架建立在这一早期组件之上,业界参与者可能会为树木所迷,忽视森林。确实,从聊天机器人经济学(聊天机器人日活跃用户、付费与高级付费、用户留存等)来构建行业分析,有助于理解这一特定应用,但对解释人工智能最终的经济影响几乎无能为力。
劳动视角:以具代理性的应用作为人工智能的主要应用领域
更重要的是,我也认为很可能大部分非人工智能的软件应用领域会随着时间“代理化”;随着代理逐步取代传统用户界面和业务逻辑,它们将成为我们使用所有其他软件的接口。
“AI 代理将成为我们未来与计算机交互的主要方式。它们能够理解我们的需求和偏好,并主动在任务和决策上帮助我们。”
——Satya Nadella
要剖析这一点,我们先回顾传统软件的定义。软件是增强人类行为并在现实世界中完成任务的工具。在计算机行业的大部分历史中,这一点一直成立,每一次革命都带来新的软件能力,通常还有新的用户界面。这导致软件的广泛使用,以至于几代人之前难以想象,这在 Marc Andreessen 2011 年著名的那句“software is eating the world”中得到了最好体现 8。在他那篇著名的文章中,Andreessen 指出,计算机行业经过数十年的演进,产生了“一个首次实现数字互联的全球经济”。作为一种工具,软件可以增强人类从叫车到分析实时业务表现的一切能力。
在我看来,现代人工智能并不是这一趋势的延续;它是一个将引导我们走上新道路的破坏性事件。人工智能使得代理能够利用基础模型进行意图识别与推理,借助全球数字互联来产生数字劳动力。智能代理的潜力不在于创造另一种工具,而在于它本身成为一名工人。与人类并肩工作时,代理可能带来的生产力提升远超软件所能达到。a16z 的 Alex Rampell 最近探讨了这一概念,以解释并扩展安德烈森原文中的部分观点,即“软件正在吞噬劳动。9”

现代生成式人工智能最初以聊天机器人形式被引入。早期聊天机器人是从 LLMs 被动检索信息的一种方式。随着 2024 年推理模型的引入,这种被动用例开始进入能动型人工智能领域,因其开始使用工具和进行规划(尽管早期的工具使用在 2023 年由聊天机器人插件体现)。这催生了第一批被广泛使用的早期代理形式,即深度研究。我们现在正超越这一时代,出现了面向消费者、企业和政府任务的基础代理的早期实现。
表1:聊天机器人与劳动视角的人工智能

从劳动力角度来看,我认为人工智能的发展与以往的产业周期更为相似,尤其像通用技术的发展。其最终的可寻址市场是全球劳动力市场,能够识别这一点的框架将最有利于那些关注行业进展的人士。任何框架也应当保持中立与平衡,以便看空者和看多者都能自由使用。我将在本文中深入探讨这一框架。
国家治理的算法:超级大国的人工智能竞赛
人工智能不仅可能改变消费者的生活和企业的竞争格局,还可能影响国家间的科学、经济和军事地位。正如在微电子产业早期发展中(例如太空竞赛、冷战、越南战争)美国是需求的主要来源,在第二次世界大战期间它也是工业现代化的核心推动力(例如威洛河奇迹)。当国家竞争力,尤其是超级大国的竞争力处于关键时刻,政府对一种新兴技术的影响可以极大地改变其改进速度和在社会中的普及程度。
“如果人工智能超越人类智能并获得自我改进的能力,它可能使掌控它的国家在科学、经济和军事上获得不可动摇的优势。”
——《华尔街日报》,2025年11月10日
在他们 1995 年关于通用技术的分析中,Bresnahan 和 Trajtenberg 指出“…那些改变对通用技术(GPT)投资回报率的外生力量…冷战的到来导致了一项政府采购政策,可能发挥了类似作用”10。因此,任何关于人工智能的分析都应考虑各国政府在多大程度上会提供一种“主权扳机”,从而改变人工智能采用的速度和程度。
在本节中,我试图提供一个理解政府如何介入关键技术的框架,以及该框架如何帮助我们理解近期的举措和未来可能面临的行动。

美国的人工智能护城河并不像表面看起来那么深
当 ChatGPT 于 2022 年首次推出时,中国的反应相对谨慎。事实上,中国政府的首批举措包括一系列监管、对深度伪造的限制、算法披露以及对聊天机器人的严格审查 11。随着美国前沿实验室在 2023 年开始展现出快速的能力提升、且美国开始对 GPU 实施重大出口限制,这种谨慎的反应在 2023 年开始放松。不久之后,北京开始推动国内芯片生产,为模型开发者补贴算力成本,并为国内模型训练建设共享数据存储库。媒体在 2025 年初以“DeepSeek 时刻”广泛注意到这一点——中国以模型的能力和显著的基础设施效率震惊世界;尽管如此,相关进展早在那之前就已在加速,并且仍在快速推进(见图 2)。
图2:中国迅速缩小对美国的人工智能领先差距

中国争夺人工智能主导地位的举措
中国的人工智能策略与美国大不相同。中国的政策由中央协调,具有以下特点:
-
对开放模型的持续关注。 中国的 LLM 策略围绕“开放权重模型”展开,即核心 LLM 权重对任何人开放可复制。再加上 AI 研究人员的公开研究和训练数据的开放,这促使中国 AI 生态系统蓬勃发展,因为企业可以杠杆彼此的突破,避免重复和竞争性投资 12。虽然中国对开放性的偏好起初似乎源于希望更快缩小与美国的差距,但其战略后果加剧了价格竞争和代币商品化。
-
主权计算与能源优势(“中国技术栈”)。随着 2023 年对向中国销售先进 AI 芯片的限制,政府迅速动员国内芯片厂商(尤其是华为)加快为中国模型开发者生产自有芯片。到 2025 年,该举措在需求端获得推动,政府对改用国产芯片取代美国芯片的企业提供高达 50%的电力折扣。这是一个高度战略性的举措,通过降低 AI 模型关键原材料(能源)的成本,以弥补在另一项关键要素(GPU)上的相对弱势。事实上,在能源基础设施方面,中国相较于美国拥有深厚优势。中国有 32 座在建核反应堆,而美国只有 2 座。此外,中国大力扩张煤炭和石油生产,并在清洁能源部署方面处于世界领先地位。美国现有煤电装机容量为 174 吉瓦,而中国在规划、建设和运行中的容量目前为 1591 吉瓦。 事实上,2010 年至 2024 年间,中国的发电量增长超过了全世界其他国家的总和,且 2024 年中国发电量是美国的两倍 15。
-
在私营资本不足时由公共资金弥补。 除了对能源的间接补贴外,中国政府还提供了大量其他优惠和补贴以刺激国内的人工智能创新。上海、北京和深圳等地方政府向人工智能初创企业提供代金券,帮助负担训练新模型或许可预训练基础模型的算力租赁费用 16。此外,政府支持的创投基金已向智谱、Moonshot、MiniMax 和 DeepSeek 等国内最有前途的人工智能初创公司注入资本,政府还通过国家数据资源平台和国家一体化算力网络提高了数据与算力资源的可用性 17。
-
够用的技术,大规模部署。 中国的“AI+”计划于 2024 年启动,旨在将人工智能迅速整合进国内产业 18。尽管中国不太可能超过美国在半导体领域的实力,但它着重于利用“够用的技术”,通过补贴降低成本并推进大规模部署的雄心计划。国务院公布的该计划,目标是在 2027 年前实现关键领域中超过 70%的 AI 驱动智能终端和 AI 代理渗透率 19。在美国,早期代理与具代理性的人工智能之间存在显著的“实施差距”,公司必须重构工作流和数据结构以利用具代理性的人工智能。中国的政策似乎将这一差距视为相较于美国的关键优势。

中国的做法与美国形成对比,象征着在不同政府和经济体制之间进行的一场超级大国竞赛,技术栈愈发分化。有趣的是,就部署而言,中国一侧的国界实际上较为渗透。事实上,a16x 的一位合伙人最近指出,美国创业者越来越多地在使用来自中国的开放模型 20.
美国政府在两届政府期间的行动
在中国加紧推进其政府主导的人工智能举措之时,美国政府并未袖手旁观。美国的应对反映了其私有资本的优势与导向。诚然,随着拜登和特朗普政府交替,政策发生了明显变化,但两届政府似乎都很早就认识到在国家安全上输给中国的严重后果。以下关键事件突显了政府在人工智能领域不断演进的行动:
-
知识产权防护与人工智能安全(2022–2024)。 在拜登政府时期,美国于 2022 年推出《芯片与科学法案》,在十年内拨款 2800 亿美元以扩展本土半导体制造和研究。政府还通过第 14110 号行政命令在早期将注意力集中于人工智能安全。此外,在本届政府任期末期,政府对最初于 2022 年引入的半导体出口管制进行了重大更新。限制涵盖了 HBM(高带宽内存)、先进 GPU 以及半导体制造设备 21。这些限制不仅针对中国,还在分层限制体系下适用于全球许多其他国家。
-
放松安全关注(2025 年初)。 特朗普政府上任第一天就取消了第 14110 号行政命令。商务部还开始重新谈判此前根据《芯片法》拨发的补助金,认为前一届政府的补助“过于慷慨”22。对大多数国家的限制有所放宽,但对中国的限制仍然存在。
-
全速前进与“构建吧,宝贝构建”(2025 年中期—至今)。 此前美国政府允许中国购买 Nvidia 的较低功耗 H20 处理器,但据路透社报道,2025 年 12 月的一项行政命令允许在加收 25%附加费的情况下出售性能更强的 H200 芯片。特朗普政府于 2025 年 7 月发布了其 AI 行动计划,明确以在与中国的人工智能竞赛中取胜为重点,内容包括大幅放宽监管限制、联邦主导的限制州监管的法规、广泛的政府内部采用,以及基础设施建设的快速通行许可 23。此外,该计划提出了明确的外交目标,以促进对外出口并加强与盟友的合作。2025 年 11 月,白宫通过启动“创世任务”进一步强化了其对人工智能的关注,该任务包含多项行政命令,重点是利用美国政府的专有数据来加速科学进步。
“……从今天起,美国的政策将是不惜一切代价在人工智能领域领先于世界。”
——唐纳德·J·特朗普总统,2025 年 7 月 23 日
我们仍处在这场人工智能霸权竞赛的早期阶段,但政府介入的途径正变得更加清晰。这与我们在最近的技术革命中所见的任何情况都不同,比如点 com、移动或云计算市场,然而许多人仍依赖那些框架来理解人工智能的扩展。我认为这是错误的,因为政府的参与可以显著改变围绕资本、采用和投入成本经济学的计算方式。
图3:特朗普总统在白宫人工智能峰会,2025年7月

由政府推动的历史性技术与工业浪潮
目前,人工智能投资占国内生产总值的比重已相当可观,并在 2025 年国内生产总值增长中占比更大。然而,作为 GDP 的百分比(2025 年约为 1.6%),它仍远不及许多历史周期,尤其是那些由政府倡议推动的周期。我认为,考察两类极端的政府支持技术与工业浪潮,有助于为分析推动人工智能竞赛的潜在地缘政治因素提供有益背景。在高端案例中,我考察了二战及其在峰值时占美国 GDP 惊人的 37.8%,当时以威洛·伦奇迹(Willow Run Miracle)作为该时期最引人注目的事件。明确地说,二战支出是全面战争立场的结果,我不认为人工智能在短期内会达到这种水平;然而,这依然强烈提醒我们政府在工业与技术发展中的作用。在更保守的端点上,我则触及了 20 世纪 60 年代的太空竞赛,该竞赛直接孕育并推动了集成电路产业从萌芽走向发展。
二战与威洛·伦奇迹
“我们必须成为民主的兵工厂。”
富兰克林·D·罗斯福总统,1940 年
第二次世界大战是人类历史上由政府主导的最广泛的工业与技术扩张之一,战争相关活动到 1944 年占美国 GDP 近 38%。战争中最持久的工业事件之一集中在福特汽车公司位于 Willow Run 的工厂。福特被要求将其汽车制造能力转向航空,被委以为国家制造重型轰炸机的任务。第一年,福特只生产了 56 架飞机,质量低劣,以至于最初的飞机只能用于非作战任务。但在工厂设计师查尔斯·索伦森的监督下,工厂迅速提升产能。到达高峰时,工厂每 63 分钟生产一架轰炸机,成为美国工业力量的象征 24.
图 4:Willow Run 轰炸机制造厂

太空竞赛催生了现代半导体产业
太空竞赛的灵感源于苏联于 1957 年 10 月 4 日令世人震惊地发射史普尼克卫星,尽管许多人将这场竞赛的正式开端追溯到约翰·F·肯尼迪 1961 年在国会前的著名演讲。虽然集成电路(IC)在 20 世纪 50 年代末已在硅谷被开发出来,但政府成为该行业第一个关键的超级客户,从而将产业从初生期推向发展 25。
“现在是采取更大步伐的时候——是开展一项伟大的新美国事业的时候——是这个国家在太空成就上发挥明确领先作用的时候,这在许多方面可能掌握着我们地球未来的关键。”
— 约翰·F·肯尼迪总统,1961 年 5 月 25 日
NASA 和空军需要既轻便又节能的计算机来运行计划中的导弹(民兵 II 型)和航天器(阿波罗),这是在仍被机房大小的计算机和电子管主导的时代提出的艰巨要求。有了像美国政府这样有保障的顾客,私人融资得以被激励,这对于这一新兴且资本密集的产业来说是迫切需要的。到 20 世纪 60 年代后期,当政府对太空竞赛的支出开始放缓时,集成电路的成本已急剧下降,正好进入了私营部门需求的甜蜜点。在其巅峰期,阿波罗计划占 1966 年国内生产总值的 0.7%。
图5:肯尼迪总统与苏联宇航员格尔曼·季托夫和美国宇航员约翰·格伦,1962年

人工智能竞赛的历史背景
美国目前在人工智能基础设施上的支出约占国内生产总值的1.6%,而且主要来自私营部门。这与政府推动的两次世界大战、“新政”及国家公路系统的支出相比相形见绌。但这接近互联网泡沫时代的电信支出,并高于20世纪60年代太空竞赛的支出。历史背景表明,人工智能的发展轨迹在很大程度上取决于政府资助,如图6所示。
图 6:以过去技术与产业浪潮为例,示意 2030 年人工智能支出占 GDP 比例 26

TERFF 框架
当政府参与技术或产业发展时,若还牵涉到两大强权之间的竞争,分析其影响就更为复杂。无论是当今的中国与美国、冷战时期的苏联与美国,还是二战期间的同盟国与轴心国,我们都必须通过一个能够兼容不同经济与政治制度的框架来审视国际竞争。我认为这可以通过 TERFF 框架来实现:
-
技术生产力 :一个国家能多快将其资产和创新潜力转化为可用杠杆,以推动更具技术性或工业化的转型?在冷战期间,作为主要技术买方的美国能够促进集成电路和软件的主导地位,而苏联则不得不以 5 到 9 年的滞后对美国技术进行逆向工程。
-
动员弹性 。国家及其盟友治理和激励机制在大规模重新配置劳动力、数据、资本和知识产权方面的固有效能。冷战期间,五角大楼/达尔帕和去中心化的资本主义对苏联那种僵化集中、由国家计划委员会(GOSPLAN)主导的体制施加了相当大的压力。
-
资源安全。 供应链的韧性与可用性。冷战时期,美国主导海上通道控制并实现了矿产进口多元化,而苏联则长期存在质量控制问题。
-
金融杠杆。 私人融资、财政投资与货币政策使美国拥有比苏联配额驱动的资本体系更具韧性的金融系统。二战期间,美联储将收益率曲线钉住在 0.375%–2.5%,美元成为盟国的储备货币(例如,1944 年布雷顿森林体系)。
-
联盟的力量倍增器。 与其他国家为共同利益建立并巩固联盟,以赢得竞争,是推动技术和工业变革的极其强大的催化剂。在冷战时期,这体现在北约的联合研发和“五眼情报共享”,而苏联的华沙条约组织效率远低于此。二战期间,则表现为租借计划,尤其是美英之间的密切外交关系。
图 7:美中在人工智能领域的早期 TERFF 行动

早期迹象表明,世界各国政府都对国家层面的人工智能进展表现出浓厚兴趣,联盟和资源池以美中为中心。即便监管严格的欧盟,最近也开始推迟并放宽其于 2024 年推出的《人工智能法》,并将某些合规最后期限延后至 2027 年 27.

全球范围内政府推动人工智能的进展尚不明朗,但早期迹象表明步伐正在加快。在公司董事会层面,预计各企业将花时间评估其行为如何使其成为本国倡议的“国家冠军”。
具有主体性的人工智能挑战:将“智能”转化为执行力
尽管 2025 年对人工智能的推理能力和早期主体框架来说是非凡的一年,基础模型的原始能力与它们对企业损益表和消费者计算的实际影响之间仍存在显著的“实施差距”。这种差距存在的原因在于,原始的 LLM 输出是概率性的,而我们的银行账户、日历和业务流程则要求确定性和安全性。
无论你是部署自主编码代理的首席技术官,还是信任人工智能为你谈判园林绿化费用的消费者,要求都是相同的:系统必须可靠,而不仅仅是有创造力。为了弥合这一差距,我们需要超越模型权重和聊天机器人,关注具有主体性的人工智能系统架构。通往自主代理的道路,不仅由基础模型铺就,而是由以代理为中心的系统和架构构成。
在本节中,我们将探讨:
-
历史背景: 在长达 70 年的较量中,“符号人工智能”(基于规则)与神经网络(基于概率)之间的对抗,正在可能演变为一种混合方法,这对构建可靠的智能体而言是必要的。
-
智能体的构成: 深入解析 LOCE 堆栈(LLM、编排、上下文与执行),这是一个用于理解构建可靠智能体系统所需组件的框架,无论这些系统运行在企业服务器群还是智能手机上。
-
基础设施影响: 我还讨论了为何“主体性”不仅仅是一次软件升级,而可能成为对计算、网络与能耗的巨大乘数效应。
从符号系统到神经网络的70年历程
在深度学习、Transformer 和 LLMs 主导 AI 产业之前,研究者和从业者长期把注意力放在符号人工智能和专家系统上,经历了多次 AI 繁荣与寒冬。符号人工智能起源于 Marvin Minsky 等人的研究,他们批评早期人工神经元理论,从而将产业重心转向符号系统。这个时代从 20 世纪 60 年代延续到 90 年代,显得主导了整个行业。符号人工智能的重点是教计算机理解由人类明确生成的规则,以模仿人类的认知过程。尽管这种方法在 20 世纪 80 年代曾带来一段小型经济繁荣 28,但这些方法最终失灵,因为基于显式规则的框架往往脆弱,难以涵盖现实世界的边缘情形。
神经网络在 20 世纪 80 年代末到 90 年代初重新吸引了研究人员的关注,此前的突破包括 Yann LeCun 和贝尔实验室在使用反向传播和卷积神经网络识别手写文字方面的工作 29。由于计算能力尚未高效且数字数据尚不充足,这些早期努力对商业的影响有限。行业还需要摩尔定律带来的数十年发展以及互联网推动的数字数据爆炸,才能进入现代时代。2012 年 AlexNet 在图像识别性能上的惊人跃升以及 Google 在 2017 年发明的 Transformer30 是其中的主要加速因素。
正如在重大革命中常见的那样,关于将这两个领域与“神经-符号(Neuro-Symbolic)”方法融合可能是解锁通用人工智能(AGI)和超人工智能(ASI)关键的讨论正日益增多 31。事实上,Google DeepMind 最近指出其开创性的 AlphaGeometry 系统正采用这种方法:“AlphaGeometry 是由一个神经语言模型和一个符号演绎引擎组成的神经-符号系统,这两部分协同工作以寻找复杂几何定理的证明。类似于‘快思慢想’[丹尼尔·卡尼曼]的理念,一个系统提供快速的‘直觉’想法,另一个则进行更为深思熟虑的理性决策”32。的确,这也是贯穿 DeepMind AlphaX 系列项目的一个主导主题。
表 2:神经-符号是目的地吗?

有趣的是,随着人工智能进入具代理性的时代,这种混合方法可能成为主导主题,最近有一篇论文深入探讨了代理体的这一概念:Agentic AI: A Comprehensive Survey of Architectures, Applications, and Future Directions33。事实上,斯坦福教授 Edward Y. Chang 的一篇最新论文以数学严谨性解释了为何需要在 LLM 的系统 1(概率且快速的思维)之上加入系统 2 级别的思考以实现特定的现实世界目标。他甚至认为这可能使 LLMs 带我们走向 AGI34。
挖掘代理系统的组成部分
随着 AI 解决方案从聊天机器人和孤立的辅助工具演进为能够执行复杂多步骤工作流程的自治代理,理解支撑这一切的技术栈就显得很有帮助。我认为一个有用的思维模型是“LOCE”栈,代表 LLM(或任何基础模型架构)、编排、上下文和执行。
图 8:LOCE 堆栈

这四层结构,连同核心基础设施和治理,描述了具有行动能力的人工智能系统的核心构造。理解这些层次为任何对行动型人工智能的分析提供了基础,并有助于监测这一关键实施差距的弥合进程。
代理的推理引擎:基础模型(LLM)
能够通过迭代推导出答案的 LLM,是通往行动型人工智能系统的关键垫脚石。对于标准聊天机器人,LLM 的工作是进行对话。在行动型系统中,LLM 的目标是完成任务。LLM 的角色是理解任务意图,并充当创造性的决策者。可以把它想象成餐厅里一位出色的主厨。一名合格的厨师不会偏离食谱,但一位伟大的主厨能即兴发挥,加入一些随机性来创造奇迹。
“LLMs 并不足以构成通用人工智能,但它们是必要的底层基质。实际问题不是是否舍弃模式模型,而是如何将它们组织成可靠、遵循约束、具备长期推理能力的体系。”
——教授 Edward Y. Chang,斯坦福大学,2025 年
与传统的确定性软件不同,LLM 是概率性的。虽然这种概率性有时可能成为一种责任,但在适当的防护措施到位时,它也可以非常强大。与传统软件不同,LLMs 非常擅长处理模糊性,即便任务定义不清或目标是动态的,仍能持续推进。LLMs 还具有惊人的自然语言理解能力,能够将自然语言指令路由到具体的技术功能而无需硬编码。但 LLMs 的一些弱点确实为具代理性的系统增加了风险。
回到我们的厨房类比,这位 LLM 厨师有慢性失忆,有时会偏离轨道。除非作为应用层的一部分被加入记忆(现代聊天机器人可以这样做),否则 LLM 在会话之间没有持久记忆,只有在训练期间所摄取数据的知识。此外,它没有采取行动或完成任务的能力。现代聊天机器人通过工具调用、像深度研究这样的代理式应用,甚至应用程序 SDK 增加了行动功能。但这些都不是 LLM 本身固有的,无法帮助处理广泛的企业或消费者任务。这就是堆栈其他层发挥作用的地方。
智能化指挥塔:编排层
编排层是当我们要求概率性基础模型在现实世界中采取行动时,应对其问题的关键解药。它将确定性软件的基于规则的护栏和关键的落地上下文注入到代理的任务流程中。用我们的厨房类比,编排器就是厨房经理或餐厅老板;她确保我们的创意大厨不违反卫生法规,也不会亏本定价菜品。

作为提醒,确定性软件就像在做算术的 Excel 表格:5+5 的答案永远是 10。相比之下,LLMs 是概率性的,因此在没有推理链的情况下,早期聊天机器人在你每次问 5+5 时可能会给出不同的答案。通过推理模型和高级后训练(针对简单数学查询),我们现在已经超越了这种状态,但概率性与确定性之间的根本差异依然存在;并且正如本文后面讨论的“锯齿状前沿”概念所示,这种差异可以说进一步被放大。
一位 AI 批评者可能会认为这不过是把 LLMs 包装进老派软件,从而承认了 AI 的根本性弱点。一位 AI 超级看涨者则可能认为 AGI 或 ASI 不需要确定性的防护措施;它们会自己搞清楚,任何超人都应如此。现实是,基于当前及中期的 AI 模型能力,编排是一个关键组成部分,使企业和消费者能够在现实世界中利用 AI 的力量。
确实,如果我们回顾本节前面关于神经-符号(neuro-symbolic)的讨论,将确定性的防护措施注入具代理性的过程,与认为 LLMs 需要符号(基于规则的)落地才能达到 AGI 的观点非常相似。
一个确定性的 Shell 和一个概率性的核心
整个编排层并非老式的确定性软件。事实上,在许多情况下,LLMs 被用于任务规划甚至结果的核实。编排器在流程中注入确定性和上下文,充当代理活动的指挥塔。它可以将任务分配给子代理,确保遵循基于角色的访问控制,并监控工作流模式。它还可以通过阻止一个失控的、具有概率性的 LLM 连续运行数小时来控制成本,或者在任务允许时切换到廉价的本地模型。
图9:代理式指挥塔,编排

代理的记忆:上下文层
成功代理行动最关键的要素是上下文。例如,如果代理不了解“发票”、“采购订单”和“供应商”之间的关系,就无法处理 invoice。上下文层补充了关键数据,以弥补 LLM 的概率性短板。它充当了 LLM 在正确推理代理任务时所需的短期和长期记忆。换句话说,它为神经网络 LLM 提供了一种符号化的稳定性,作为护栏。在我们的厨房类比中,这些正是厨师准备菜肴所需的确切原料。
在设计代理系统时,需要非常注意在恰当的时间提供恰当的数据。上下文管理是代理版本的提示工程。数据太多会使系统超载,并超出 LLM 的上下文窗口;数据太少则会令 LLM 困惑。下面列举的一些上下文来源示例,可帮助提供现实世界的视角:
-
结构化知识图谱。 业务或用户的基于事实的数据来源,帮助代理在商业环境中理解理想的任务计划,或在消费者环境中理解个人偏好。
-
向量记忆(RAG 或具代理性的 RAG)。 为数据集提供语义含义,使代理能够检索策略文件、过去的任务失败或成功案例,以及业务或用户目标。
-
工作记忆草稿板。 短暂的上下文、关于立即行动历史的记录,以及来自传感器或工具的反馈。
-
动态上下文的工具 。通过 API 或 MCP 连接拉取的实时数据。代理可以通过这些工具连接调整其计划或查看最近步骤的结果。
上下文可以在任务或循环开始时由编排器注入到 LLM 中以建立初始状态,然后在任务进行过程中通过动态上下文加载将其供给 LLM。

在早期聊天机器人热潮时期,人们常说“数据是新的石油”,这对于模型训练仍然适用。在具有代理性的意义上,精炼的数据是完成任务的燃料,也是代理的上下文。随着代理式人工智能的持续发展,捕获和利用高质量上下文正成为企业的关键资产。对于消费者而言,理解并保护个人上下文的厂商可能会享有强大的消费者转换成本优势。
图10:向“等待以达成进球”添加确定性

智能体的工具包:执行层
执行层代表智能体为完成任务可用的工具和服务生态系统。在厨房类比中,这使得厨师能够使用精美的刀具和烹饪用具。这些工具可以帮助触发现实世界的动作(例如,“预订一辆 Uber”)。现代智能体可能利用像 MCP(模型上下文协议)这样的新兴标准来调用并与工具和服务通信,或者他们可能利用像 Apple 的 App Intents 框架这样的专有层,为工具调用和 MCP 使用增加一层安全性。
如果代理正在调用某项服务,这可能是一个传统的应用,但由于代理负责与该应用的交互,传统用户界面就不那么必要了。这就是为什么人们常谈论应用被颠覆,但应用并不会完全消失。它们更可能为代理舍弃用户界面,成为无头应用或服务。

这一层是安全与治理协议的关键领域。只读工具的使用,比如查询股票价格或天气,通常处于安全绿区。但当你使用工具去影响现实世界,例如汇款或删除文件时,就需要强有力的治理。在这方面,编排层通常负责管理执行的安全防护措施。
代理治理与安全
阻止概率性混乱的最后一道防线是能动治理与安全策略。用厨房的比喻来说,这就是防止厨房着火或上菜变质的餐厅规章、监控摄像头和门锁。能动体治理与安全需要积极且持续的监控,但也不能过于苛刻,否则会削弱 LLM 能力带来的优势。以下要点有助于构建这些策略:
-
身份 – 能动体需要权限来访问完成任务所需的相应工具和服务,但像人类一样,能动体对可访问内容应有限制。这也是安全的关键组成部分,因为第三方能动体需要权限才能“进入”,而第一方能动体需要在其允许执行的操作上设置护栏。
-
沙箱与杀伤开关。 对于尤其敏感的任务或在测试新的能动系统时,沙箱机制可以让工程师测试并约束能动体,防止任何有害或不合规的行为。
-
可观测性。 通常很难看清一个代理为何会做出某个动作或预测其下一步行动,因此在可观测性系统上的创新将至关重要。这还包括评估和核实,这些可以在最终任务完成前作为对代理工作的重要闭环检查。
AI 基础设施:软件与硬件
对于监测 AI 的企业和金融高管来说,或许最重要的结论是,硬件和基础设施需求可能会大幅增加。从聊天机器人推理转向具代理性的推理,令牌消耗可能增加 50 到 100 倍,具体取决于工作负载。而具代理性堆栈额外的软件基础设施需求只会进一步增加对基础设施的要求。
代币的原材料是计算、能源和数据。计算组件包括为人工智能优化的“加速计算”半导体(GPU、定制 ASIC)、越来越高密度和高带宽的内存以及最前沿的网络;所有这些通常由主要服务器供应商提供并装配在机架中。在数据方面,随着原本“冷”数据变得关键并转为“热”数据,对高性能闪存存储的需求也在增加。与此同时,随着智能体(agentic)负载的出现,能源需求也在加剧,这迅速成为领先超大规模云服务商激进数据中心规划的关键瓶颈之一。
然而,智能代理堆栈的构建也引入了超出 LLM 基础设施的新技术组件。特别是,基础设施软件开始承担不同但日益重要的角色。数据织物、向量数据库、数据流系统、可观测性、安全软件等,都将对推动高效能的代理工作流至关重要。一些领域将由现有企业提供,而其他领域则为以 AI 为本的初创公司留下空间。
参差不齐的前沿与隐藏的 AI 进展形态
分析 AI 行业的挑战之一在于,你会听到关于它今天如何影响个人生活的截然不同的亲身经历。你可能会听到一位数学家惊讶地指出,AI 正在彻底改变他们的研究过程 35,而你的邻居可能会告诉你,LLM 无法告诉你“strawberry”一词中字母 R 出现了多少次。
这不仅关乎用户熟练程度的高低,也是一个经验证的事实——在哈佛商学院的一篇论文中被称为“参差不齐的技术前沿”36。人工智能在某些方面表现出色,而在其他方面却糟糕透顶,随着每一次新模型的发布,它都会在这些成果之外迈向下一层参差不齐的能力(图 11)。
图11:难度相当任务的参差前沿

这可能导致一个有趣的观察:每次前沿模型发布时,乐观派与悲观派都会提供有力的轶事。但由于前沿通常随着模型能力提高而整体向上和向右移动,悲观派的轶事很快就会显得陈旧。然而,对于不熟悉 Jagged Frontier 的 AI 评论员来说,这可能对公正分析致命。原因很简单:当前的锯齿状前沿几乎总是远比明日的锯齿状前沿糟糕。事实上,如果我们设想像 AGI 或 ASI 这样的未来状态,前沿会显著变得不那么锯齿状。
图 12:Tomas Pueyo 对参差不齐前沿与 AGI 的解读 37

导致参差不齐前沿的根本原因是什么?LLMs 的概率性特征及其在某些任务上“幻觉”的倾向很可能是最重要的推动因素;对于具代理性的用例,我们可以设想指挥协调不足、任务时长内的一致性以及上下文断层也可能导致参差不齐。代理在长时间内保持一致性的能力(任务时长)也可能是一个重要因素。
《Jagged Frontier》最初报告的作者也指出,在前沿范围内使用人工智能处理任务的工人通常显示出明显的生产力提升。与此同时,在前沿范围之外利用人工智能处理任务的工人往往会经历生产力下降。主要担忧在于工人可能无法判断哪些任务属于前沿,哪些不属于。
理解人工智能何处可以替代人工、何处可以作为增强工具、以及何处根本不应使用,对于试图跨越具代理性人工智能实施鸿沟的企业来说,是一项关键工作。这也是前沿模型实验室和具代理性人工智能供应商产品策略的重要组成部分。更重要的是,锯齿状前沿始终在变化(即希望朝前推进),因此这对于人工智能行业参与者来说是一个持续性的任务。
思考具代理性锯齿状前沿
将智能体用于以往由人类完成的任务,显然需要深入理解这些任务在当前锯齿状前沿中的位置。此外,利用超出 LLM 能力的智能体组件以降低其不可预测性,具有极大的价值。事实上,我们认为锯齿状前沿是“实施鸿沟”的关键组成部分,识别并纠正位于前沿之外任务的技术和运营解决方案将显著影响人工智能的采纳速度。我们认为以下因素有助于思考这一挑战:
可验证性决定自主性 。Andrej Karpathy 倾向于将人工智能视为与由“软件 1.0”定义的早期计算时代不同的“软件 2.0”。他将软件 1.0 时代描述为易于自动化你能明确指定的事物(一个可以通过容易指定的算法完成的任务),而软件 2.0 则易于自动化你能验证的事物 38。如果一个任务是可验证的,那么它可以通过增援学习来掌握(通常在训练后阶段),这很可能描述了特定时期内许多处于参差前沿的任务。这就是为什么我们往往会在高度可验证的领域如科学、数学和编码中看到令人惊讶的突破,而在我们定义为“常识”的任务上感到失望。从具有主体性的角度看,这也适用于可以由 LLM(不同于核心 agent 的 LLM)或人为环节验证的任务。 例如,如果卖方研究分析师使用代理为一家公司撰写财报回顾,当前阶段的 LLMs 几乎肯定需要在发布前由人工进行事实核查;尽管如此,编辑工作通常比创作更容易,所以分析师的整体产出应该会提高。
-
知道何时需要人工的编排者。 理想情况下,AI 代理的编排流程应包含确定性规则,说明何时任务需要人工核实、何时不应完全由 LLM 驱动的流程来管理。这并非易事,也是为什么深厚的机构知识和前置部署工程师在 2026 年及以后对现实世界 AI 用例愈发重要的绝佳例证。
-
适当的上下文可将任务推向前沿。 对于超出 LLM 训练或 RL(增援学习)组件范围的任务,可在任务循环中注入任务特定的上下文(即针对类似任务的方法论和解决方案)。同样,适当的上下文也能帮助 LLM 在边界外任务中担任核实者的角色。
-
降低越界风险的工具。 代理化技术栈的执行层也可以作为对抗参差不齐的前沿风险的重要防线。例如,如果任务超出前沿,因为它需要企业内部的专有信息,编排器可以调用诸如 RAG 流水线之类的工具,从向量数据库中检索相关信息。

参差不齐的前沿问题无法用当前技术完全解决,但代理化技术栈中确定性成分(相对于概率性的 LLMs)可以在很大程度上缓解由越界意外带来的不可预测性和性能不足。我预计代理化的确定性方面在未来几年将显著进步,并直接缩小实现差距。不过,这一进展的时机将在各终端市场之间有所不同,可能会引发许多关于人工智能的乐观派与悲观派之间的辩论。
图13:参差不齐的人工智能前沿可能令人震惊

替代、生产力提升与信托
如果一项任务完全位于参差不齐的前沿(Jagged Frontier)之内,那么在其他因素不变的情况下,该任务很可能可以由智能代理自主完成。如果一项任务位于前沿之外,但可以通过工具和人工核实来降低风险,那么这就是可以由人工增强的任务。无论是由代理自主完成还是作为人工副驾驶完成,生产力通常都会提高。这给试图判断哪些类型的工作可以由代理完成、哪些不能完成的分析增加了复杂性。在麦肯锡最近发表的一项研究 39 中,作者试图通过将任务划分为“可自动化”和“不可自动化”两类来解决这一问题,并进一步以代理可完成的工时而非工作岗位数来计量。不幸的是,可自动化与不可自动化之间的二分法不稳固,因为能力的参差不齐前沿始终在变化。例如,如果你在 2023 年初询问专家关于创意平面设计师和 PPT 制作人员哪一类会受到更多 AI 冲击,很多人很可能会选择后者;而 Google 的 Nano Banana 工具则持不同观点。
-
重新设计工作流程以最大化生产力。 当前沿技术尚不足以实现合理程度的自主性时,可以调整工作流程以最大化人类与智能体的生产力。随着具代理性的人工智能普及,这很可能成为顾问和前置部署工程师的一个非常受欢迎的角色。此外,那些最能将智能体作为副驾驶加以利用的人,可能会获得价值更高的工作;从企业角度看,这可能意味着一位人工智能鉴赏家能完成 5 位前人工智能时代从业者的工作。
-
测量差距与杰文斯悖论。 如果在非前沿任务中智能体作为有效的副驾驶发挥作用,其带来的益处可能无法用“节省工时”来衡量。它可能体现在更高的工作质量或更高的员工士气上。随着具代理性的人工智能普及,这类效益很可能不易测量。此外,如果前沿内具代理性任务的边际成本下降足够快,杰文斯悖论可能会起作用并导致该任务的需求上升。因此,以前因为耗时或成本过高而无法完成的任务,随着人工智能的普及可能会变得司空见惯,而这一“影子可寻址市场”将难以提前测量或预测。
-
参差不齐的信托缺口。 预测哪些任务在当前模型能力前沿之内或之外的难度,直接影响实施差距。如果企业领导无法信任代理实施的结果,那么采用速度可能会放缓。这表明早期的代理采用将以低风险、高可验证性的任务为主,而高风险、难以验证的任务会在后期才被采纳。

实施差距与 J 形曲线
“实施差距”是指从早期代理概念验证到能够作为数字化工作者行动的更广泛多代理系统之间的时间。这或许是任何以经济或金融为中心的高管最需要理解和衡量的关键概念,因为它决定了人工智能带来加速经济影响的时机。该概念在经济学文献中也很普遍,我们认为它与近期关于通用技术 J 曲线生产力悖论的研究密切相关 40。我们大多数人都能记得 21 世纪技术周期中的这个差距。从互联网泡沫到移动与 Web 2.0 的货币化和普及之间的差距,以及从初创公司早期的云系统到企业云采用之间的差距。事实上,蒸汽和工业自动化、铁路和电力的发展中出现过更长时间的差距。
在他们 2021 年的论文 《生产力 J 曲线:无形资产如何补充通用技术》 中,Brynjolfsson、Rock 和 Syverson 指出,“要实现它们(通用技术)的潜力还需要大量的无形投资,并对生产组织本身进行根本性重构”。
这一论点同样适用于企业的人工智能采用:公司逐渐意识到,理想的人工智能实施,尤其是智能体,需要对工作流程、人的角色、数据捕获、治理等进行“重新思考”。所有这些都需要时间,以及有形和无形的投入,在转型过程中,生产力或投资回报率可能难以衡量。此外,参差不齐的前沿使得难以估计近期人工智能的影响以及需要弥补的差距。
话虽如此,我认为智能体式人工智能的实施差距可能比以往的技术和产业周期要短,原因有几个:
-
SaaS 与云端基础设施奠定了基础。 成熟的 SaaS 工作流程、与记录系统的连接以及与外部工具和服务的 API 连接,都作为构建智能体编排、上下文捕获和工具连通性的经受考验的基底。这也是为什么领先的 SaaS、云与记录系统公司可能在为企业客户提供智能体架构解决方案方面具有先发优势。
-
地缘政治“竞赛”可以缩短这一差距。 尽管许多通用技术在达到最终生产力之前都存在一段差距,但那些解决了政府真实需求或优先事项的技术往往差距要短得多。例如,航空业主要由政府对航空邮件的需求以及第一次世界大战推动起来。同样,微电子行业(特别是集成电路)的早期需求几乎完全来自美国政府。这也是在任何分析中都应考虑到国家对人工智能重视程度的又一原因。
-
早期成功的落地可能引发 ROI 错失恐惧症。 具备自治能力的人工智能在落地过程中的差距将对不同公司和行业产生不均衡的影响。那些在云和 SaaS 技术上深度投入的公司和行业,可能比仍在运行大型机的公司更容易实施自治工作流。此外,每位员工拥有更多“可验证”任务的公司或行业也可能更快地采纳这类技术。关键在于,将营收增长与员工人数脱钩的公司很可能不会对此守口如瓶,人们可以想象这会对一些落后者的行动产生刺激效应——尤其是在公开市场中。
这是否意味着许多行业的差距将在2026年开始缩小?这当然有可能。不过,历史和经济学的纯粹主义者会反驳说,人工智能自20世纪50年代就已开始发展,因此2026年出现快速的投资回报起飞,只不过是一个正常、平淡的实施差距罢了!
代理定价矩阵
2025 年最受关注的讨论之一是厂商应如何为代理产品定价。这并非已成定局,主要因为我们处在代理广泛采用的早期阶段。尽管如此,“参差边界”(Jagged Frontier)和 J 曲线概念有助于我们剖析这一论争,从客户和厂商两方面理解各种定价方法的风险与收益。
表 3:代理定价矩阵

代理定价难题中也许最棘手的一点是,随着新模型的发布,参差边界始终在变化。许多以利润最大化为目标的公司选择按消耗计费的方案,因为在 AI 仍处于不确定性高峰期的背景下,这样做看似可控;不幸的是,考虑到代理可能以快速且难以预测的速度消耗代币,即便代币成本下降,这也可能压缩客户的使用量。
代币、劳动力与能动性飞轮
通过将人工智能产业视为一种通用技术,其最终效用在于增强和替代劳动力,我认为有两个关键要素构成了理解该产业可能发展路径的框架:
-
代币价格下降是能动性燃料。 在考虑通用技术的影响时,投入成本是最终应用经济学的关键要素(Bresnahan & Trajtenberg)。对于面向终端用户的人工智能,衡量投入成本的主要指标是使用基础模型的每代币成本。代币成本正在急剧下降。这是一个非常鼓舞的信号,因为它拓宽了人工智能应用的适用范围,特别是为能动性人工智能可能的快速扩张奠定了基础。
-
人工智能的可服务市场(TAM)取决于全球劳动力市场。 关于人工智能的 TAM,讨论从 2023 年的“互联网搜索”到 2025 年的“SaaS”和“所有应用软件”不等。尽管这些都是令人印象深刻的 TAM,但错误在于将人工智能视为像以往技术周期那样的人类潜在新数字工具。它可以成为一种新工具,但最终目的地很可能是具代理性的人工智能——在理想状态下,它不仅仅是增强工作;而是直接执行工作。关键在于将资本(计算与能源)转化为数字劳动力。乐观者会将其视为走向完全自主和大规模生产力提升的稳步上升,而悲观者则会认为技术的局限性不会让我们超越“代理作为副驾驶”的时代。无论哪种观点,两者都在争论人工智能能影响那同一约 50 万亿美元劳动 TAM 的多少 41。正如我们将讨论的,把劳动作为 TAM 并不必然意味着大规模裁员,也不意味着人工智能对现有技术 TAM 不会有影响。此外,这并不是建议初创公司在其融资资料的 TAM 页面上写入 50 万亿美元——我们将在本节后面深入探讨 TAM 计算的动态。
通过劳动力视角,我们可以开始探讨人工智能走向具代理性的经济影响。
代币价格下跌推动了人工智能的进展
自 2022 年 ChatGPT 推出以来,代币价格显著下降。迄今为止,主要的 LLM 收入机制来自聊天机器人付费 SaaS 订阅和代币的付费 API 接入。生成这些代币的成本在很大程度上决定了两者的货币化经济学。考虑到这一点,值得注意的是,模型制作者似乎几乎在每次发布时都对代币价格的下降表示庆祝。
““使用给定水平的人工智能的成本每 12 个月大约下降 10 倍,较低的价格会带来更多的使用。你可以从 2023 年初的 GPT-4 到 2024 年中期的 GPT-4o 看到这种代币成本的变化,在此期间每代币价格大约下降了 150 倍。摩尔定律以每 18 个月约 2 倍的速度改变了世界;这远远更强大。”
—Sam Altman,“三点观察”,2025 年 2 月 9 日
专注于前沿模型的推理成本,Epoch AI 指出中位价格每年下降 50 倍,并且有些分析显示在 2024 年之后的降速加快到每年 200 倍 42。OpenAI 最近发布的 GPT-5.2 在 ARC-AGI-1 基准测试中得分 90.5%,每个任务成本为 11.64 美元,而一年前同类得分为 88%,每个任务成本为 4,500 美元——一年内下降了 99.7%43。传统和低性能模型的价格下降速度甚至更快。当然,在其他因素不变的情况下,在设备端或本地使用开源模型的边际成本可以接近于零。模型供应商不仅对代币成本下降感到满意,似乎也在能力和成本效率上展开竞争。这些因素可能表明市场有商品化的趋势,那么为什么模型制造商不抵制这种趋势呢?
我们认为模型制造商和任何在人工智能领域认真的参与者都在欢迎代币价格下跌以及“智能”明显商品化的趋势,因为他们正确地将注意力放在对应用空间的货币化上。正如 Microsoft 利用其操作系统平台来货币化若干关键的生产力应用(例如 Word、Excel、PowerPoint 等),前沿实验室也在试图占领一些最大的具代理性的应用市场。首先是通过深入研究,这是一个早期的具代理系统,仅被薄薄地伪装成聊天机器人功能,以及编码代理。最近,这一领域正扩展到购物代理,未来看来,OpenAI 也计划通过消费级硬件(运行一个具代理的操作环境)来货币化其模型。具代理性是货币化引擎,而劳动是衡量总体可寻址市场(TAM)的关键构成要素,代币则封装了推动这一市场的关键投入成本(见图 14)。
图 14:将输入商品化,代币驱动具代理的人工智能

代币的原料是能量、算力(即 IT 基础设施栈)和数据。能够从这些原料中榨取越多的基础设施和算法效率,就越好。最重要的是,原料成本上的基础设施效率并不必然意味着这一层组件的商品化(问问 1990 年代的 Intel 或 19th 世纪的 John Rockefeller);像摩尔定律一样,这关乎每美元的性能提升。尽管摩尔定律早已开始放缓,行业中有些说法称我们正经历“黄的定律”,AI 相关 GPU 的每美元性能可能每六个月翻一番 44。在整个行业都被激励去提升模型能力并降低代币成本的情况下,AI 进步的引擎有可能通过一个良性循环获得越来越多的收益(见图 15)。正如我们下面讨论的那样,智能体架构开销的成本同样至关重要;尽管如此,代币成本仍然为消费和企业市场中 AI 采纳的经济理据提供了一个有力的先行指标。
图15:资本与自主劳动的飞轮

随着人工智能从工具演变为“工作者”,可寻址市场(TAM)函数也随之改变
传统信息技术创新可以是通用技术(例如微处理器、个人电脑和互联网),但我的观点是,大多数历史上的信息技术创新明确被用作人的工具,长期来看对劳动力的广泛替代有限。自一开始,现代生成式人工智能的设计就是朝着能够自主执行人类任务的智能体稳步前进。目标路径是从初级任务到达成人水平的创新,最终实现完全数字化的智能体组织(参见前述 Metz, R. 2024 年 7 月 11 日 Bloomberg 文章)。认为这绝不会发生的悲观者和认为这必然会发生的乐观者的观点各有合理之处,但两者实际上是在针对同一目标展开争论:杀手级应用是自主认知劳动。此外,具有代理性的人工智能的近亲是人工智能驱动的机器人学,其根本目标是实现自主的体力劳动这一杀手级应用。
但这是否意味着全球 50 万亿美元的工资总额就是人工智能的可寻址市场(TAM)?当然不是,但劳动成本需要成为任何具代理能力垂直领域估算 TAM 时的核心组成部分。例如,Lightspeed 在一篇关于 AI 服务可寻址市场的文章中指出 45:“Genesys 帮助运营呼叫中心(400 亿美元的 TAM),但一个 AI 支持机器人可以解决查询(>3000 亿美元的 TAM),Excel 帮助分析师创建模型,但一个 AI 金融分析师就能完成,等等。”许多具代理能力的垂直领域的最终 TAM 很可能远大于相关软件的 TAM,且随着时间推移可能接近劳动 TAM。
这是一个极好的经验法则,但在具代理能力的 AI 早期阶段,越来越明显的是有些工作任务比其他任务更容易实现自动化。此外,随着代理供应商寻求推动采纳并帮助客户克服代理实施差距的初期成本,代理定价通常会是每项任务等价人工成本的一小部分。
在特定垂直领域,这可能会形成一个市场,使得具有行动能力的总可寻址市场(agentic TAM)最终仅略高于软件 TAM,并且远低于劳动力 TAM。在其他市场,杰文斯悖论可能占上风——由于任务的高需求弹性,行动型 TAM 会激增,最终接近劳动力 TAM;在某些市场,由于代理人边际成本迅速下降,可能会形成全新的 TAM,行动型 TAM 最终可能超过任何先前的劳动力 TAM。我将在下文深入探讨每一种情景及识别每种情景的第一性原理。
代理经济学与三镜过滤
关于具行动能力的人工智能及其对全球劳动力预期影响的早期学术研究仍处于初期阶段,观点差异巨大。尽管如此,为了对该主题进行主题性理解,我们可以将其归结为一些相对简单的数学原理。

如前所述,代币成本是智能体式人工智能的重要输入成本,但支持智能体任务的架构框架也有成本。这体现在编排开销上,包括所有编排任务和上下文管理。此外,智能体通常需要工具来完成任务,因此这些工具(软件和服务)的成本也必须考虑,就像你为人类使用 SaaS 或通过 API 调用服务时所做的那样。
最重要的变数是成功概率。如果一个智能体只有20%的成功率,完成同一任务的人类的完成成本很可能更低。因此,该智能体将无法交付所需的投资回报率,并会被弃用。关键在于,随着基础模型和智能体架构的发展并获得新能力,成功概率可以提高。因此,今天没有合理投资回报的智能体,可能只需等待下一次前沿模型的发布就能在明天展现令人惊讶的高投资回报率。市场高度动态,仍处于早期阶段。
我们认为可以将其归纳为三重视角过滤框架,用以判断具代理性的人工智能在特定垂直领域今天是否可行,以及在人类在环干预方面在特定任务中需要保留多少(即代理自治水平):
-
能力与可靠性。 该任务是否在当前基础模型和具代理性架构的能力范围内?基础模型能力的参差不齐需要通过细致测试来判断某项具体任务是已在当前能力之内,还是需要等待前沿模型的未来改进。就目前而言,对具代理性人工智能最有希望的任务应当是可验证的任务(例如编码、顾客支持或半自动驾驶)。此外,典型任务的时长是否在当前模型或其套件的时长限制之内,还是模型会在循环完成前先表现良好然后陷入幻觉?一些模型短板可以通过健全的编排软件和上下文管理来纠正,因此为代理搭建的初始支撑工作也是能力与可靠性视角中的重要部分。的确,许多在 2025 年出现的代理实现陷阱似乎跳过了架构步骤,这一教训很可能会在 2026 年促成截然不同的实现策略。
-
治理与合规。 监管、道德或社会因素会深刻影响“足够好”能力与可靠性的门槛,而对于智能代理来说,这一门槛通常远高于对人类的要求。例如,像 Waymo 这样的自动驾驶汽车通常比人类有更好的安全记录,但其推广仍面临许多非技术性障碍。再比如医疗领域,某种具备主体性的解决方案可能比大多数人更能准确解读放射报告,但监管和道德方面的顾虑可能会在相当长一段时间内将医生保留在诊断环节中。
-
经济可行性。 在特定任务上,代理的每次服务成本(CPSO)是否超过人工成本,某些任务是否便宜到无法证明自动化的合理性?在某些细分领域,这无疑会是事实。相反情况也可能存在。以 AlphaFold(Google DeepMind 的蛋白质折叠人工智能系统)为例,其能力远超发明之前的任何可能性。实际上,DeepMind 现在已构建了一个包含超过 2 亿个预测结构的数据库,这些结构基本涵盖了科学界已知的所有蛋白质 46。全球有 350 万名研究人员在使用它,AlphaFold 3 于 2024 年推出,将此能力扩展到 DNA、RNA 和药物。没有任何可行的经济论据能证明应由人类来完成 AlphaFold 的工作,因为其 CPSO 实际上在任何人类替代方案面前都具有近乎无限的优势。
除了这些因素外,通常还需要大量工作来确保组织或任务在结构上为具有代理能力的人工智能大规模部署做好准备。这可能是一笔不可回收的经济成本,用于引入用于编排的适当软件、用于上下文管理的数据结构,以及用于代理的遥测工具。同时还可能包括为最佳利用代理式人工智能能力而耗时的工作流程修改过程。这就是实施差距,每项任务和每个行业在完全推动代理式人工智能之前都面临这一采用障碍。
动态可扩展市场(Dynamic SAMs)与最终可用市场(ultimate TAMs)
在大多数情况下,代理的成本会低于等效的人力成本,从而带来效率提升。该效率提升的大小很可能取决于特定行业或任务中人工智能竞争的程度;例如,在某个行业中,如果某个代理供应商掌握关键的行业专属上下文或遥测数据,那么对客户而言的效率提升可能较小,而该代理供应商的利润率则会更高。
对特定垂直领域的需求弹性也会显著影响最终的总可寻址市场(TAM)。如果某项任务并非企业通过增加大量人力即可获取更多利润的任务,那么该任务可能属于需求缺乏弹性的情况。在这种情况下,可服务可寻址市场(SAM)可能会接近软件 TAM,并持续低于劳动力 TAM(见图 16)。
图16:需求弹性低的自主代理任务

在其他任务中,杰文斯悖论可能会起作用(即技术效率使得一种资源更具吸引力,从而这些效率推动了对该资源的更大使用);例如,如果一家银行的权益研究分析师通过使用深度研究代理的生产力提高了 10 倍,那么该分析师可能能够覆盖更多的股票。这是一个高度弹性的任务,因此代理相对于人工的更低成本会显著扩大市场。因为我假设每项任务的代理成本通常应低于每项任务的人力成本,这使得具代理性的可寻址可用市场(agentic SAM)能够接近但不超过劳动总可寻址市场(labor TAM)(见图 17)。
图17:具有高需求弹性的具代理性任务

在极端情况下,杰文斯悖论也能开启全新的可寻址市场(TAM):只有最富有的人才能负担得起私人助理,但如果一家消费科技公司推出了足够强大的具有代理能力的 AI 助手,那么广泛的消费者需求可能创造出一个远超原有人类助理劳动力市场规模的“私人助理”可寻址市场(见图 18)。这种类型的“杰文斯式可寻址市场解锁”对具有代理能力的 AI 厂商来说极具吸引力,这些隐藏的机遇可以催生全新的市场和公司。
图18:杰文斯可寻址市场解锁

请注意,上述每张图表都显示了具有主体能动性的人工智能代理(agentic AI SAM)起始规模远低于传统软件与工具的可寻址市场(TAM)。在大多数行业中,早期阶段的代理采用通常会呈现这样的情况,这也与大多数企业在为代理做准备时将面临的实施难题相吻合。这也导致了 2025 年出现的多篇论文对代理缺乏投资回报率表示悲观时引发的诸多混淆。在这种采用不确定性中,行业的突围很可能发生在早期采用者开始显著出现收入增长与运营支出脱钩之时,而由此产生的经济性“错失恐惧症”(FOMO)可能会促使更保守的客户进入实施流程。当然,所有这些都取决于人工智能模型能力和主体能动性架构解决方案改进的速度。
总体的主体能动性人工智能可寻址市场仍然模糊不清
上述框架有助于确定特定领域的总可用市场(TAM),但我也希望有一种方法来估算整个具代理性的人工智能 TAM。确实,对于围绕 AI 资本支出和前沿实验室未来代币需求的辩论而言,这将是一个极具价值的估算。然而,在当前早期阶段,这是一项艰巨的任务,显然超出了本文的范围。但我可以补充一些关于如何构建此类计算的想法。
“我们发现,目前已展现的技术理论上可以自动化约占美国当前工作时数约57%的活动。”
——麦肯锡全球研究院,2025年11月
也许关于这种框架最好的参考来自麦肯锡最近的一份报告,该报告估计以当前的能动性技术(此前引用 Yee、Madgavkar 等,2025)计算,美国 57%的工作时长可以被自动化。该报告涵盖了实体和非实体工作,机器人影响前者,数字代理影响后者。重要的是,研究并不声称 57%的“工作”会被代理和机器人消灭,因为许多可自动化的任务只是人类工作的一部分,自动化会让人类在未被自动化的任务上更高效。因此,他们对到 2030 年由人工智能自动化带来的经济价值的中位数估计为 2.9 万亿美元。
尽管出于多种原因经济价值并不直接等同于可寻址市场(TAM),但我认为如果基础模型和能动性架构继续快速改进,最终的可寻址市场合理地可能是 2.9 万亿美元的若干倍。尤其是,我们认为这一数字也可能只是未来几年杰文斯(Jevons)式 TAM 释放可能带来的潜在影子 TAM 的一小部分。
人工智能的竞争优势来源
我们仍处于生成式 AI 产业发展的初期阶段,不足为奇的是,用以理解该领域战略与竞争动态的框架仍在演进中。在生成式 AI 热潮的早期,人们曾认为 LLMs 本身可以形成显著的护城河和网络效应;尽管情况可能会随时间改变,但当前趋势表明 LLM 层的护城河较不稳固,且网络效应尚不明显。请考虑以下几点:
-
人类反馈的飞轮效应尚未形成。 早期的假设是,拥有更多用户的 LLMs 会比用户更少的 LLMs 更聪明。其思想在于,用户提出大量问题并为答案打分,会提供关键的 RLHF(来自人类反馈的强化学习)数据。但现实是,大量高价值的 RLHF 数据来自于诸如 Mercor、Handshake 或 Surge AI 等公司在后训练阶段提供的受雇专家。普通用户对聊天机器人回答点赞或点踩的边际价值似乎更有限(尽管对风格和偏好匹配仍有帮助)。
-
像 MCP 这样的标准正在削弱平台效应。 另一种关于以 LLM 为中心的护城河的理论让人联想到操作系统的应用护城河:随着 LLM 吸引用户,它们可能比竞争对手获得更多的应用连接。但业界正迅速在工具和服务互连标准上达成共识,Anthropic 的 MCP(model context protocol)有望成为领先者。OpenAI 最近发布了一个 apps SDK,这类似于 Apple 的 App Intents,是传统应用向无头代理化服务和工具演进的中介;在 MCP 标准之下这是否仍会作为专有层存在,仍然是一个尚未解决的争论。
基于上述因素,应用领域(代理)似乎拥有更清晰的路径去建立可防御的护城河和网络效应。这也是另一个理由,说明前沿实验室在寻求为其资本支出密集型模型创造投资回报时,会试图捕获代理化 AI 的关键价值来源。
正如每一次重要科技浪潮常见的情况,既有企业往往拥有固有优势,但执行力和复杂的权衡常常为快速成长的初创公司打开机会之门。这是惯性与颠覆之间的张力,会催生创造性毁灭,拆除旧有护城河以迎接新的格局。
既有企业在捆绑与分发上的先发优势
当前沿实验室推出新模型时,自然会关注第三方应用和 API 客户如何利用这些新模型的能力。但模型实验室如何利用该技术来改进其现有核心业务呢?

当 Google DeepMind 推出 Gemini 3 时,它也迅速将其用于搜索中的 AI 模式,将最新模型注入其主要业务特许经营。Google 并未披露其 Gemini 模型是否直接嵌入其广告排序模型,但考虑到广告长期以来一直是新机器学习基础设施的主要先行消费者,如果 DeepMind 更广泛的创新没有随着时间推入广告体系,那将令人感到意外。
同样,Meta 经常指出其 AI 研究正在改进其广告平台和社交媒体业务,Grok 已被用于改善 X 的信息流,Microsoft 已将 OpenAI LLM 技术作为协同助手整合到整个 Office 套件中。通过将前沿技术与已有平台捆绑以实现货币化并不新鲜;只是许多 AI 评论员似乎低估了这一点。如果 AI 能在这些庞大且具传统业务模式的特许经营中刺激投资回报率,就能为风险更高、尚未充分验证的 AI 项目提供资本支出。
“我们的广告业务继续表现非常好,很大程度上得益于我们在 AI 排名系统方面的改进……现在通过我们完全端到端、由 AI 驱动的广告工具的年化运行率已超过‘600 亿’。”
—Mark Zuckerberg,Meta 2025 年第三季度财报电话会议
即便在我们度过一项新技术最大不确定性的阶段之后,平台所有者通常也会为自己选择一组使用率高、价值高的应用——将其余的(以及长尾)留给第三方生态参与者。例如,即便在 iPhone 应用生态蓬勃发展时,Apple 似乎也有意通过地图、浏览器、音乐、消息、日历等一系列第一方应用来占据特定的应用类别。类似地,Microsoft 在推动 Windows 广泛且繁荣的第三方生态方面发挥了作用,但其极为成功的 Office 系列应用则由平台所有者保留。
图 19: incumbents 的捆绑与分发优势

这是否意味着没有传统科技背景的私人 LLM 实验室或非从属的 AI 初创公司在这些捆绑应用领域会处于极端劣势?这取决于既有企业的执行能力,当然也取决于上市公司在 AI 转型影响利润率和现金流量时,是否愿意承受外界审查。捆绑并未阻止 dotcom 时代 Google 的崛起,也没有阻止 Spotify(对抗 Apple Music)、WhatsApp(对抗 Android 和 iOS 的消息服务)或 Slack 在企业通信领域的出现。此外,显而易见的是:领先科技平台的第三方应用生态庞大,对成功竞争并颠覆既有企业的初创公司具有巨大价值。因此,为了激烈竞争和颠覆的利润动机看起来仍然合理。
上下文捕获带来转换成本
代理依赖上下文,上下文是注入在智能代理流程中恰到好处的精炼数据。对于企业来说,这可能是记录系统、元数据以及对公司数据和工作流的语义理解。在消费者领域,这可能是消费者偏好和当前环境(例如:是否在下雨、用户是否在外出途中)的个人知识图谱。
在消费者和企业两方面,这些上下文在短期记忆与长期记忆之间保持平衡;它也分为检索到的上下文与学习到的上下文,后者会随着某家供应商的智能代理在“工作中”积累知识而增加更高的转换成本。
代理通过传感器、遥测或流式实时数据流捕获短暂数据,而长期记忆则会随着时间积累并存储下来。在长期记忆方面,既有企业具有天然优势,尤其是那些长期向其数据池贡献数据的既有客户。与此同时,初创公司在短期记忆方面往往更具优势,因为它们的 AI 原生背景使其能够为遥测和上下文捕获专门构建代理化解决方案。
在代理化 AI 部署过程中,上下文可能成为最重要的核心换挡成本来源之一,消费者和企业将要求严格的隐私与安全护栏。的确,企业和消费者可能会避免让自己的上下文被单一公司控制,这可能为可移植上下文创新带来机会——尤其是在消费领域。
代理之间协作的网络效应
如果没有出现能够“无所不能”的 ASI,应用领域很可能发展为针对不同任务的专业代理,或由多名代理组成的团队。尽管人们自然会认为这将像今天的应用商店模式那样运作,但有一些关键差异表明代理化 AI 会呈现一种独特的网络效应形式。
-
代理提供横向功能扩展。 当前移动计算的应用生态已形成将市场划分为 iOS 与 Android 应用生态的强大护城河。然而在大多数情况下,这些应用在功能上是孤立的。当用户需要新功能时,他们通过为新任务添加新应用来垂直扩展其应用库。代理不仅可以垂直扩展,也可以横向扩展,通过与其他代理协作获得新功能。因此,代理可以呈现出网络效应:随着横向功能的增加,总体功能可能呈超线性增长。
-
通过编排实现差异化。编排质量决定了企业或消费者解决方案管理用于不同任务的代理群体的效率。因此,随着供应商争相通过所支持的一方与第三方代理数量以及为编排系统内代理提供在岗学习的用户数量来创新并争夺领导地位,编排层很可能成为竞逐激烈的领域。
能够将现有开发者和合作伙伴生态系统连接并加以利用的既有企业,若能在以应用为中心的孤岛逐步变为代理化的过程中保持领先,可能抵御来自以 AI 为本的初创公司的颠覆。然而,如果既有企业在维护其以应用为中心的护城河时对于利用这一转变动作迟缓,创新者窘境可能会抵消这种惯性。此外,初创公司无需面临与旧有平台功能保持向后兼容的挑战。
从应用商店到意图市场:AI 对应用的影响
技术革命的一个特点是,它们常常改变软件产业的基本要素。我们已经见证了用户界面从打孔卡到触摸屏的演进,这不仅带来更丰富的功能集,也让更多人能够使用软件。与此同时,软件分发方式从软盘转向应用商店下载,为小公司和个人打开了长尾应用市场。我们还看到软件开发随着丰富的工具链和信息资源(如 Stack Overflow)而演进。
现在显而易见,人工智能正在带来另一场更为戏剧性的变革,可能影响软件的各个方面。有人说,软件吞噬了世界,而现在人工智能正在吞噬软件。这个话题很大,可能值得单独成文。但我将讨论一些关键要素,未来可对每一点进行深入展开。
AI 作为应用的新用户界面
无论你是新兴消费级应用开发者还是既有厂商,向具代理性的 AI 转变都在慢慢但确定地解开用户界面与底层应用功能之间的紧密耦合。这一变化深远,远超图形界面、触控甚至语音的变革。这意味着创新(以及商业成功)的重心不再那么依赖人类如何在你的应用中指点点击,而是转向设计那些代理“会选择”使用的应用。在消费领域,用户界面的变动常常会扰动传统计算平台,为后来者打开机会之门。或者,如果隐私和延迟在偏好竞争中获胜,既有厂商可能会利用并杠杆化其操作系统与应用生态的主导地位来构建一个具代理性的未来。
“……当我和他们(软件公司 CEO)一起闲聊时,他们会问,……当代理接管时,我们要如何继续做我们现在做的事?”
— Travis Kalanick,2025 年 7 月,All-In Podcast
以图20中的示例为例,我们可以想象未来的消费者级人工智能代理如何改变应用的本质以及用户与之的交互方式。一个语句(或键入的命令)就能替代多个手动的应用工作流程,且像一名顶级的执行助理一样,该代理会利用用户的个人背景信息。用户并不一定关心使用了哪些应用或服务,只要行程已预订并且考虑到了用户的个人偏好即可。
图 20:AI 是面向消费者的自治应用的用户界面

计算机行业的历史常常是在减少摩擦。从图形用户界面到触摸屏,用户界面随着计算能力演进。AI 有可能为这一趋势注入火箭燃料。此外,如前所述,具备自治功能的 AI 在纵向和横向上都能扩展(代理可以组合多个工具和代理的功能以产生新功能),而传统的孤立应用大多只在纵向扩展。横向扩展是一项尚未充分探索的能力进步,很可能会增加新产品和新公司的创新空间。所有这些对于消费者科技领域都有若干关键影响,我将在接下来的部分中探讨。
生成性和短暂性应用的新长尾
当 Apple 的 iOS App Store 刚开始快速发展时,那些长尾应用往往是由业余爱好者而非公司制作的,这也是 App Store 早期受欢迎的一个重要原因。事实上,2008 年十大付费应用之一就是 iBeer,这款应用利用加速度计在你倾斜手机时模拟啤酒杯变空的效果,就像你在喝它一样 47。有了人工智能,这种现象可能会大不相同。很容易想象,长尾将成为为用户在特定时刻的具体需求即时生成的个人化、短暂性应用——不需要人类程序员参与。
例如,用户不必去下载一个“康涅狄格州的游玩项目”应用,她可以让一个 AI 代理为她的家庭即时生成一个康涅狄格周末冒险行程。AI 会生成一个仅为该单一目的存在的微型应用界面。在这种情况下,“开发者”就是用户,而“可寻址市场(TAM)”只是一个人的市场。应用的长尾从静态产品转向流动的、按需的、有代理性的服务。
如果事态按所描述的那样发展,其行业影响可能很大。始于17年前的移动软件革命所促成的旧长尾模型,是从面向小众受众转向面向个人用户。长尾开发者的角色将解构为高度功能化的代理助手。这可能削弱应用商店的护城河,并要求现有企业谨慎转向代理化市场与编排,以抵御颠覆。

不断变化的护城河与“企业操作系统”
代理进入企业领域,迫使进行一定程度的重构,以添加必要的编排和防护措施,从而发挥代理化人工智能的优势并抑制其概率性弱点。这可以通过多种方式实现,既有开放式也有围墙花园式的方法。
例如,可以考虑类似“MAESTRO”的架构,旨在通过为代理改造 Kubernetes 编排并在诸如 Google 的 A2A 之类的新兴开放标准上处理通信,来消除围墙花园和供应商切换成本 48。
替代性框架认识到数据/语境的重要性,并围绕来自那些帮助企业处理关键任务数据和工作流的同一供应商的主体化编排构建。这种封闭花园式的方法很有意思,因为一些最容易面临“AI 吃掉应用”风险的 SaaS 供应商,恰恰可能通过以语境为中心的封闭花园策略最终取得日益占优的行业地位。
这为现有的 SaaS 供应商创造了一个关键的拐点,尤其是那些拥有现有工作流、自动化或安全资产的厂商。他们中的许多拥有深厚的专业知识、针对客户的特定数据以及关于结构化工作流的知识。如果他们能利用这一地位,将主体化编排注入到当前依赖人为、在很大程度上确定性的工作流中,就能把现有成功连接并杠杆化,从而在主体化 AI 领域获得更大、更有可能主导的地位。最终,他们可以获得更广的垂直覆盖和更高的客户黏性。
另一方面,如果现有企业未能迅速行动,可能会被更激进的竞争对手边缘化,或被不拘泥于特定工具和平台的初创公司超越。这实际上是一个被抽象化引发的颠覆(初创公司取胜)与因惰性保持主导(既有企业取胜)的对决。古老的开放与封闭之争再次浮出水面。
从幂律到相变:重新思考人工智能的进步
2025 年 11 月,Gemini 3 发布时,新闻报道和社交媒体用户热情地发布了一张强调该模型卓越能力的基准卡(图 21)。该基准卡共有 20 项指标,Gemini 在多方面展示了非常出色的表现。其他前沿实验室过去也曾实现对手的跃迁,而这种跃迁的频率似乎在加快。实际上,Anthropic 的 Claude Opus 4.5 和 OpenAI 的 GPT 5.2 也在 2025 年底带来了另一波令人惊讶的能力提升。但这些基准意味着什么?它们如何与麻省理工学院 2025 年 7 月的报告《生成式人工智能鸿沟:2025 年企业中的人工智能现状》这类令人警醒的报告相互印证?有没有哪个基准告诉我们正在接近平台期?其中一些指标接近 100%,但随后又出现了更为棘手的新基准。
图 21:Gemini 3 专业版模型卡 49

伴随每一次新模型发布而来的指标泛滥,无法向非技术背景的金融人士解释为何人工智能的资本支出和研发需求如此之大且可能还在不断增加。在同一天,你既能看到一篇讨论收益递减或趋于平台的文章,也能看到另一篇里研究人员在谈论人工超级智能。可以想象这种复杂性如何渗入实验室首席财务官与人工智能研究人员之间的对话:

我们需要了解人工智能改进在现实世界中的影响,包括人类级任务完成的时间表。我们还需要弄清 LLM 的尺度法则是否会触碰天花板,以及驱动这种情况的因素。最后,了解“向指数级跃迁”这一概念有多现实,以及我们是否应当思考像 ASI(人工超级智能)这样的空灵概念,也很重要。虽然由 AI 研究人员来预测这些问题最为合适,但我认为这些议题同样是金融和商业领袖需要密切关注的。
扩展定律、幂律与回报递减
如今,人们常听到为新模型发布配备越来越大的 GPU 集群和更多数据,但这种可预测的扩展并非一直显而易见。2020 年初,来自 OpenAI 的研究人员发表了一篇研究论文,向世界介绍了语言模型的扩展定律 50。
“模型性能最强烈地取决于规模,规模由三个因素构成:模型参数数量 N(不包括嵌入)、数据集规模 D,以及用于训练的计算量 C。”
——Kaplan 等,2020 年 1 月
Kaplan 报告及其后续研究为自 2022 年 11 月 ChatGPT 发布后真正开始的资本支出和研发竞赛提供了学术助力。该报告为 Richard Sutton 在 2019 年的 Bitter Lesson 文章中那句出人意料却极具先见之明的话提供了数学上的严谨支持:“……研究人员试图利用他们对领域的人类知识,但从长远来看唯一重要的是对计算的利用”51。
我不会展开主要方程(Kaplan 论文中的方程 1.5),但基本观点是:损失(交叉熵损失,表示预测与正确答案之间的差异)会随着更多的计算、数据和参数而下降。更具体地说,损失按幂律下降,而这非常重要。
重要的是,幂律并不等同于我们在金融圈常听到的“指数”概念。按定义,随着接近最低损失,规模化带来的改进最终可能面临不经济的成本和收益递减——可以想见,预训练的增益会放缓。幸运的是,我们似乎还远未接近这一极限,而 Gemini 3 正是这一点上最新的鼓舞人心的例子。
图 22:部分 AI 指数技术性能基准与人类表现对比,2025 年初 52

上限可能并非铁板钉钉:迈向指数级增长
在图 23 中,我们可以看到最新模型已接近 ARC-AGI-1 基准的理论最高值,且几乎没有停滞迹象,正如向上并向右延伸的曲线所示。事实上,诸如 GPT-5.2 Pro 和 Grok 4 等领先模型已将得分推入 80%–90%区间,实际上饱和了曾被视为 AI 重大挑战的基准。
图 23:ARC-AGI-1 排行榜基本已达饱和 53

更具挑战性的 ARC-AGI-2 基准因此建立(ARC-AGI-3 将在 2026 年的排行榜讨论中亮相)。如图 24 所示,前沿模型已经推进到 50% 以上的区间,我们并不会对 2026 年出现饱和感到惊讶。
图 24:ARC-AGI-2 排行榜可能在下一步达到饱和

尽管基于 LLM 的模型持续取得进展,但若出现平台期,对整个行业将是不利的。对极限的担忧有多重原因。首先,如果在实现足够的推理能力、具代理性的架构和延展任务长度,以推动企业或消费市场中大规模部署具经济可行性的代理之前就触及极限,可能会延缓实现落地的临界点;这种担忧令人信服,因为历史上几乎所有通用技术都曾出现过类似情况,尽管它们最终被证明非常有用(例如蒸汽机、铁路、互联网泡沫等)。其次,按幂律提升的模型能力仍然依赖于持续增加的计算和数据;出于经济原因以及推动这些计算所需能源等自然资源的稀缺性,这可能不可持续。第三,如果在新模型发布中显现出这一极限,资本市场对规模化投入的兴趣可能会减弱。
尽管如此,以上所有推论都假定进步的机制保持不变。是否存在一种机制,使得增长更为持续并呈指数级?如果人工智能产业从幂律规则进入到持续指数增长的相变呢?这样的机制很可能具有以下特征,将增长曲线从依赖外部投入(算力和数据)转向由系统自身能力驱动的内部改进:
-
数学能力达到或媲美最顶尖的人类。 本质上,AI 研究需要高级的数学技能,来引导探索能带来更强模型能力的路径。这是一项艰巨的成就,但已取得实质性进展。事实上,数学家 Terence Tao 与 DeepMind 研究人员最近的合作表明,通过利用 DeepMind 的 AlphaEvolve 工具,“由大型语言模型引导的进化搜索可以自主发现补充人类直觉的数学构造,偶尔能匹配甚至提升已知的最优结果”54.
-
编码能力已可与最优秀的人类相媲美。 一旦人工智能能像最优秀的人类那样编写代码,算法效率的提升可能会更快。事实上,随着人工智能为基础设施创造新的内核和软件框架,资本效率也可能提升。“SWE-bench”指标衡量人工智能能解决多少编程问题;该基准在 2023 年为 4.4%,在 2025 年随 Claude Sonnet 4.5 达到了 77.2%55。据报道,Anthropic 最近广为传播的研究预览版本 Claude Cowork 几乎全部由人工智能在两周内完成撰写 56。
-
AI 研究员代理正在在无人干预下改进模型。 如果 AI 代理能够杠杆世界级的数学和编码技能,它们大概就能通过编码、实验和深入分析开始生成更好的模型。若此成为可能,实验室或许可以快速部署大量研究员来生成和检验假设、运行实验并设计用于提升能力的新架构。终极目标是 RSI(递归自我改进),但在达到这一理想成就之前,AI 研究员代理可能会带来许多阶跃式的改进。
创建自主 AI 研究员面临诸多挑战,且不能保证 AI 实验室一定能解决这些问题。然而,最关键的研究难题是长期执行力。简言之,这是指一个 LLM 或代理在长时间内保持任务执行的能力,而不会丢失进度、崩溃或出现幻觉性失败。当然,正如我在本文前文所讨论的,现实世界中代理的能力也将高度依赖于在关键工作流中加入治理和确定性的代理架构改进。
图 25:2025 年任务长度大幅跃升 57

剑桥大学、马克斯·普朗克智能系统研究所及若干其他大学的研究人员在 2025 年晚期发表的一篇研究论文表明,随着单步准确率的边际提升,远期任务的难度可能以指数方式改善 58。论文的新颖结论基本上是,长时程任务受到作者所称的“自我条件效应”困扰;这表明模型不仅受限于上下文窗口大小,其自身过去的错误也会腐蚀模型。其结果是,随着模型错误的累积,每步准确率随时间下降。研究人员的结论是,能够“思考”的模型(链式思维或顺序测试时计算模型,首次在 2024 年末商品化)可以减轻这一问题并延长任务时程。换言之,推理有可能让模型自行调试。
“…在步准确率固定提升的情况下,时程长度的改善呈二次增长,突显了规模的复合效益。”
—回报递减的错觉:衡量 LLMs 的长时域执行,2025 年 9 月 28 日
尽管这无疑是一个令人振奋的进展,但在现实世界中、面临多样任务选项的智能体,其时域长度会受到许多挑战的影响。然而,随着人工智能研究加速朝向真实世界的代理应用,时域长度呈指数级改善的前景对于任何分析 AI 行业的人来说都是一个重要的考量。
LLMs 占主导,但并非唯一
当前这一波人工智能浪潮始于 ChatGPT 的前所未有的成功,但它是数十年研究的集大成。大部分这些研究在 ChatGPT 出现前并未在金融和商业圈被广泛理解或讨论。不过这种状况正在改变,曾经鲜为人知的学术领域成为日常商业对话的一部分,这着实令人惊叹。尽管如此,ChatGPT 发布前的学术争论并未消失,许多争论集中在 LLMs 或基于 transformer 的架构是否应成为推动人工智能进步的核心技术。这些争论既引人入胜,又对任何探索人工智能的商业或金融高管至关重要。
LLM 的替代方案仍在争论之中
ChatGPT 是运行在基于 Transformer 的 LLM 之上的一个应用程序,因此头条新闻和公众热情理所当然地集中在前沿实验室最新的 LLM 创新上。正如我们此前所讨论的,这也导致了行业分析框架常常出现“聊天机器人近视”,未能认识到 AI 的最终应用空间是具备代理性的,而聊天机器人仅仅是起点。这种混淆常常因将“AI”与“LLMs”混为一谈的自然倾向而进一步加剧,尽管后者仅仅是实现 AI 代理性目标以及更广泛的 AGI(甚至 ASI)研究目标的众多工具之一(尽管目前是占主导地位的工具)。
包括 Google DeepMind 在内的许多前沿实验室在进行 AI 研究时采用多种框架,除了 LLM 扩展之外。此类架构有很长的清单,下面我仅总结其中几个。
-
世界模型 。世界模型是构建环境物理、动力学和规则模拟的人工智能架构。这使它们能够超越 LLMs 的模式识别,模拟当代理或机器人采取某个动作时接下来会发生什么。这是各大研究所的顶级研究领域,尤其是 Google DeepMind。事实上,DeepMind 的 David Silver 和 Richard Sutton 撰写了《The Era of Experience》,强调人工智能应当从经验中学习,而 DeepMind 的 Genie 3 是一个基础性世界模型,旨在为代理提供可供其获得这种直接经验的模拟 59。
-
JEPA(联合嵌入预测架构)。JEPA 是一种构建世界模型的独特方法,因此可以说其概念相似。但这确实是一种非常独特的做法,所以我们将其单独列出。前 Meta 首席人工智能科学家 Yann LeCun 可谓是 JEPA 发展的主要声音。其核心思想是,与在世界模型中模拟每一个像素不同,你可以训练一个模型在世界模拟中预测想法/概念,而不是生成精确的细节。
-
神经符号系统。 顾名思义,神经符号系统将神经网络(即一个 LLM)的概率能力与符号系统的显式规则、逻辑和知识图谱相结合。符号系统在 20 世纪 80 年代经历过一轮小型经济繁荣(此前引用的 Liguori,2025),但随着神经网络最终获得足够的数据和计算能力以实现突破,符号系统逐渐没落。神经符号混合方法在实验室和研究人员中正获得相当大的动力。

正如过去 70 年的人工智能研究一样,概率模型与更确定性的、基于规则的框架之间持续存在振荡。这种振荡的一个缩影似乎在当前用于实现具代理性的 AI 的架构中得到了很好的体现。
当心混淆谬误
对社交媒体的任何休闲式浏览都会发现,研究人员(或研究爱好者)在讨论一篇关于某种架构的最新论文,该架构比 LLMs 更有希望实现通用人工智能。与此同时,你也会看到以金融或市场为导向的专业人士在争论当前资本支出周期的利弊,这也有其道理,因为基于 LLM 的架构确实比近期记忆中的任何技术浪潮都更为资本密集。问题在于这两类群体将他们的论点混为一谈。
图 26:将 LLM 替代方案混为一谈的谬误

对任何具有经济影响的创新持悲观和怀疑态度是合理的,激烈的争论也是高效资本配置的一部分。在研究方面,关于理论和架构的概念之争推动着创新。但图26中那两个假设性引述仍存在一个问题:混淆谬误的罪过。
许多替代 LLM 的架构具有以下特征:1)在许多情况下,公司会将这些替代方案与 LLM 一起使用(即在 LLM 的创造性之上加入符号规则或确定性),2)许多 LLM 替代方案的资本开支需求可能与纯 LLM 的资本开支需求相当或更高,3)LLM 的资本开支与许多 LLM 替代方案高度可互换。因此,在大多数情况下,基于研究者的对 LLM 的怀疑并不是当前关于人工智能经济学或资本开支讨论的可靠输入,反之亦然。
我们以最近发布的一些世界模型为例(例如 Google DeepMind 的 Genie 3)。在特定环境上训练世界模型相较于 LLMs 可能在资本使用上更高效,但推理成本可能会超过 LLMs。与预测下一个词的 LLM 不同,世界模型通常会并行运行多次未来模拟以决定合适的行动。这种“思考时间”在需要采取行动的瞬间可能会消耗大量计算资源。最终,如果世界模型被证明是未来的发展路径,行业可能需要更多的 GPU 和资本支出。
话虽如此,确实存在一些架构路线更偏向于资本支出强度远低于传统模型的方案。2025 年初的 DeepSeek MoE 冲击就是一个例子,尽管其实际资本支出以及从资本密集型模型中蒸馏出的程度仍不甚清晰。而极端版本的神经-符号方法(在符号一侧更为极端)则提供了可以调和资本强度的路径 60。最后,前 Meta 首席科学家 Yann LeCun 大力主张他的 JEPA 式世界模型,认为这是比 LLMs 更廉价的替代方案(并可能取代 LLMs)。
归根结底,AI 的开发与部署是一项资本密集型的事业,任何算法或基础设施方面的效率突破都会是 AI 应用领域的好消息。最终,可合理地得出结论:在可预见的未来,LLMs 仍将是 AI 公司战略的核心。

Agentic:自动驾驶车辆的概念性试驾
尽管我在本文中讨论的概念在现实世界中有许多实例,但 agentic、世界模型与边缘人工智能的前沿应用可能就在你旁边等红绿灯的特斯拉车内,或正把你送往渔人码头的 Waymo 车上。全球各地的半自动驾驶车辆正在从基于规则的代码向基于神经网络的自主性转变。
事实上,在许多方面,Tesla、Waymo 以及中国的近自动驾驶车辆供应商在将 agentic AI 概念商业化的速度上,可能超过了企业与消费级软件公司。他们面临着同样的挑战,例如如何在本质上具有概率性的系统中注入可预测的确定性。他们也看到了通过在世界模型上训练以实现真正自主任务完成的机会,并且正在面对属于他们自身的 agentic 实施差距。
也许最重要的是,自动驾驶车辆开发领域的领导者是主要 LLM 实验室的一部分或与之密切相关(例如 xAI 和 Google DeepMind)。因此,可以合理地得出结论:数字代理领域的经验将溢出到自动驾驶车辆这一具身人工智能领域,反之亦然。
因此,在结尾部分,我将巩固并回顾迄今讨论的概念,同时介绍一些我较少涉及的主题,比如边缘 AI 与云端 AI 之别。正如任何试过特斯拉 FSD 或乘坐过 Waymo 的人都能看出,我们在实现完全自主之前,就已经在自动驾驶车辆方面看到了价值与创新——在 2026 年,消费者和企业级的能动型 AI 也可能出现类似现象。

从专家系统到神经网络
自动驾驶车辆(AV)行业在 2024 年初经历了从符号化、基于规则的人工智能向神经网络过渡的最新版本,标志性事件是特斯拉发布了 Full Self-Driving beta v12.1.2。Elon Musk 和团队此前宣布,他们舍弃了 30 万行 C++代码,转而采用在数百万小时驾驶视频上训练的端到端神经网络。他们的赌注是,全力押注于人工智能将使车队在行驶中学习,从而加速实现完全自主驾驶的进程 61.
“我们还缺最后一块拼图,那就是把汽车的控制部分从大约 30 万行 C++代码转变为一个神经网络,这样整个系统就会是一个神经网络,光子输入,控制输出。”
——埃隆·马斯克,《All-In Podcast》2023 年峰会
同样,Waymo 在 2025 年 12 月的一篇博客中解释了其 Waymo 基础模型如何成为“为我们的 AI 生态系统提供动力的多功能、最先进的世界模型”。有趣的是,公司还指出该模型的核心组件之一是“Driving VLM”,这是一种在 Gemini 上训练的视觉语言模型,Gemini 是 Google DeepMind 的 LLM62。特斯拉和 Waymo 都强调,他们可以利用车队的真实驾驶数据来训练这些模型,并进一步修正不安全的极端情况。
马斯克指出“没有哪行代码指示车辆在减速带处减速”,但他对特斯拉的设想恰好概括了更广泛的具代理性人工智能愿景。人工智能模型的概率性是一种创造力和理解模糊性的来源,这对自主性至关重要,也是纯规则系统可能永远无法捕捉的东西。但正如你不会希望关键任务级的企业应用仅靠概率运行一样,你也不希望你的电动车在通过路口时产生幻觉。正如我在讨论具代理性人工智能架构时所述,要实现完全的自主驾驶,似乎需要谨慎的编排和足够的上下文信息。
用于安全自动驾驶的确定性编排
正如面向企业和消费者的智能代理应用的编排层提供关键的验证器和确定性护栏一样,自动驾驶车辆系统也利用类似组件来确保安全。以 Waymo 为例,编排层包括一个评估数字“驾驶员”表现的“评估器”模型、一个独立的车载验证层用于核实机器学习模型生成的轨迹,以及提供数学安全保证的严密“安全包络”。
对于特斯拉,该公司有一个更隐含的编排层,因为它将模型增援学习作为长期轨迹来推进。然而,系统中包含作为神经网络安全包装器的确定性法典,并且系统调用导航规划工具向模型提供明确的目的地信息。
上下文与世界模型
Waymo 利用世界模型进行训练,并作为将其收集的现实世界数据赋予意义的示意图。在实践中,这意味着 Waymo 车辆将环境的激光雷达、雷达和视觉数据与明确的高保真地图捆绑在一起,以在整个运行过程中决定分秒必争的驾驶决策。这些高价值数据不仅确保人类的安全出行,还可用于识别边缘情况以改进和训练基础模型。
图 27:Tesla 与 Waymo 的上下文传感器

特斯拉通常回避激光雷达和雷达传感器,而只依赖摄像头画面带来的视觉信息。其逻辑有两方面:1)如果人类仅凭双眼就能驾驶,那么植入人工智能的车辆最终也应能做到同样;2)基于摄像头的系统制造成本更低且外观更简洁(即特斯拉车顶上没有大型传感器模块)。特斯拉还依赖占用网络(Occupancy Network)来创建对世界的实时、详尽理解,并较少依赖预存地图和数据来确定背景语境。
边缘与云的混合实现
延迟是边缘人工智能相较于云端实现的关键优势,在自动驾驶中很难想象有比延迟更危险的应用场景。由于延迟阈值通常低于50毫秒,自动驾驶对边缘计算的要求极高。尽管如此,用真实世界的视频和传感器数据训练基础模型仍更适合在大型云端模型中进行。正如许多数字人工智能应用的常态一样,自动驾驶行业在其车辆中同时使用边缘与云端人工智能。
快思慢想
Waymo 的模型很好地说明了混合方法。借用了丹尼尔·卡尼曼的《思考,快与慢》框架,Waymo 在边缘侧部署智能以对实时传感器输入做出快速且近乎反射性的响应。与此同时,云端则用于训练和“慢思考”,以及处理诸如起火的失控车辆等罕见且复杂的情形(即云模型可以利用其深厚的知识来解释发生了什么并提供解决方案)。云端还可用于车队范围的管理,或许最终用于所有车辆的群体智能。此外,对 Tesla 和 Waymo 而言,云端还可以利用海量的车队数据来训练大型模型。
蒸馏与本地模型优化
对于特斯拉和 Waymo 而言,通过从更大模型进行蒸馏与优化来克服边缘 AI 模型的体积限制,以实现更强的能力。在 Waymo 的案例中,使用“教师”基础模型(例如基于 Gemini 的 VLM)将能力蒸馏到“学生”模型中。然后,学生模型使车载本地感知与规划成为可能。
类似的流程在消费电子、物联网、无人机和机器人使用的边缘模型中也很常见。总体目标是将复杂的云端模型压缩为能够满足边缘应用隐私和延迟需求的版本。
在路上学习
类似于 DeepMind 在能从现实活动中学习的智能体(即“体验时代”)方面的研究重点,端到端自动驾驶的目标也是建立一个学习飞轮。对特斯拉而言,公司在后台运行实验性模型。如果模型预测了一种动作而人类选择了不同的动作,这就被记录为用于训练的高价值数据。此外,每当人类在非车辆强制情况下取消 FSD,这对模型训练来说是一个强烈的负面奖励信号。
与此同时,Waymo 利用一个评论模型(Critic)审查自动驾驶日志,以识别不安全或低效的行为。公司还利用大型模型将单个真实世界事件扩展成数千个变体用于训练。最后,公司利用闭环强化学习模拟数百万虚拟英里并包含极端边缘案例,以训练“Waymo driver”。

对于特斯拉和 Waymo 来说,显而易见的是,它们为模型构建了庞大且不断补充的真实世界数据集。这形成了一个良性循环:更好的模型带来更出色的表现,吸引更多驾驶员/乘客,进而带来更多用于训练的数据(见图 28)。这正是企业和面向消费者的自治型人工智能研究人员希望将更广泛的计算世界带向的方向。自动驾驶为我们展示了这条路径,并阐明了代理与人工智能更广泛的力量。
图 28:自主飞轮

结论
自动驾驶车辆的“学习飞轮”为可能影响更广泛经济的具代理性未来提供了引人注目的预览。正如这些物理代理正在通过最先进的编排和丰富的数据语境学会在拥挤道路的复杂环境中导航一样,AI 领军者也在试图应对企业与消费者工作流程的现实世界挑战。从软件向数字劳动力的转变及其所面临的挑战,不仅仅是一次简单的重新命名;它是对经济生产力的根本性重构。这样的重构由代币成本下降、具代理性架构的稳定作用以及地缘政治竞争加速影响的融合推动。
尽管“落地差距”很可能成为乐观派与怀疑派激烈争论的焦点,但人工智能能力提升的轨迹短期内看似难以放缓。当各组织尝试弥合这一差距,从被动的聊天机器人向主动、可验证的智能代理转变时,人工智能的潜在经济影响可能可与过去的工业革命和数字革命相媲美。对于投资者和企业领导者而言,战略要务已不再是单纯惊叹于最新聊天机器人的原始能力,而是识别并构建那些将定义这一新数字劳动时代持久护城河的编排层和专有上下文引擎。
免责声明:本文所表达的观点和意见仅为我个人观点,不代表我的雇主或其关联公司的观点。本文仅供一般讨论之用,不构成投资建议、推荐或买卖任何证券或金融工具的要约或邀约。
Metz, R. (2024 年 7 月 11 日)。OpenAI Scale Ranks Progress Toward “Human-Level” Problem Solving。Bloomberg
代理人的学术定义通常被描述为通过传感器感知环境并通过执行器作用于环境;值得注意的是,这是教科书《Artificial Intelligence: a modern approach》中的标准定义。Russel, S.J. 和 Norvig, P.
这一三级分类是典型五级框架的简化版本,鉴于我们关注经济影响,排除了简单反射型和效用型代理。
Moore, S. (2019 年 4 月 18 日)。 最早的蒸汽机用于抽水。Farm and Dairy。
Hazlett, T. W. (2017 年 7 月)。 我们本可以比实际早四十年拥有手机 。Reason Magazine。
Krugman, P. (1998). 经济学:为什么大多数经济学家的预测是错误的 。Red Herring 杂志。
Andreessen, M. (2011 年 8 月 20 日)。 为什么软件正在吞噬世界。 Andreessen Horowitz。
Rampell, A. (2025 年 10 月 3 日)。 软件正在吞噬劳动力。YouTube。
Bresnahan, T.F., & Trajtenberg, M. (1995)。 通用目的技术:“增长引擎”? 计量经济学杂志,83-108。
Chin, J., & Huang, R. (2025 年 11 月 10 日)。 将重塑一切的人工智能冷战。The Wall Street Journal。
Lambert, N. (2025 年 9 月 9 日)。 关于中国开源人工智能的发展轨迹。Interconnects。
Yoon, J. (2025 年 11 月 11 日)。 如果人工智能竞赛根本不是关于芯片呢?Financial Times。
Clemente, J. (2025 年 6 月 16 日)。 中国与美国:人工智能霸权需要可靠的电力。Forbes。
Huang, R., & Spegele, B. (2025 年 12 月 10 日)。 中国的人工智能强势:来自世界最大电网的廉价电力。The Wall Street Journal。
Vaughn, S.(2025 年 9 月 10 日)。 从代金券到签证:中国在人工智能主导地位上的创新计划。Foreign Policy Research Institute。
Chan, K., Smith, G., 等。(2025 年 6 月 26 日)。 全栈:中国不断演进的人工智能产业政策。RAND。
He, A.(2024 年 8 月 12 日)。 在发展人工智能方面,中国走工业化路线。Centre for International Governance Innovation。
Chang, W.(2025 年 10 月 2 日)。 中国的“AI+”驱动旨在实现跨部门整合——对欧洲的警钟。MERICS。
The Economist.(2025 年 8 月 21 日)。 中国正悄然以其开放模型超越美国。
Allen, G. C.(2024 年 12 月 11 日)。 解读拜登政府更新的出口管制。 战略与国际研究中心(CSIS)。
Reuters.(2025 年 12 月 22 日)。 独家:消息人士称 Nvidia 计划于二月中旬前开始向中国发运 H200 芯片。 路透社。
The White House. (2025 年 7 月 23 日)。 白宫公布美国人工智能行动计划。 总统 Donald J. Trump,白宫。
Trainor, T. (2019 年 1 月 3 日)。 福特的 Willow Run 装配厂如何助力二战胜利。Assembly Mag。
Leibson, S. (2024 年 6 月 10 日)。 月球上的首批集成电路——阿波罗制导计算机,第一部分。Electronic Engineering Journal。
Tunguz, T. (2025 年 11 月 6 日)。 我们是否正被人工智能牵着鼻子走?tomtunguz.com,Theory Ventures。
Haeck, P. (2025 年 11 月 19 日)。 欧盟承诺在人工智能监管方面发挥领导作用。现在却按下了暂停键。Politico。
Liguori, G. (2025 年 8 月 2 日)。 绘制人工智能演进图谱:从符号系统到自主代理及其未来。LinkedIn。
Mucci, T. 人工智能的历史。IBM。
Vaswani, A., Shazeer, N., 等(2017 年 6 月 12 日)。 注意力就是你所需要的一切。ArXiv。
Jones, N., & Nature. (2025 年 11 月 29 日)。 象征性人工智能能否解锁类人智能。Scientific American。
Bảo Châu, N. (2024 年 1 月 17 日)。AlphaGeometry:一个达到奥林匹克水平的几何学 AI 系统。Google DeepMind。
Aboud Ali, M., & Dornaika, F. (2025 年 10 月 29 日)。 自主代理式人工智能:架构、应用与未来方向的综合综述。arXiv。
Chang, E.Y. (2025 年 12 月 5 日)。 通用人工智能缺失的一层:从模式炼金到协调物理学。arXiv。
陶昕 (2025 年 11 月 5 日)。 大规模的数学探索与发现。Terry Tao,《What’s New》(WordPress)。
Dell’Acqua, F. M.(2023 年 9 月 22 日)。 驾驭参差边界:人工智能对知识型员工生产力与质量影响的田野实验证据。 哈佛商学院。
Pueyo, T.(2025 年 11 月 28 日)。 我对参差边界的看法。Substack:Uncharted Territories。
Karpathy, A.(2025 年 11 月 17 日)。 可验证性。Karpathy:karpathy.bearblog.dev/verifiability/
Yee, L., Madgavkar, A., 等。(2025 年 11 月 25 日)。 代理、机器人与我们:人工智能时代的技能伙伴关系。 麦肯锡全球研究院。
Brynjolfsson, E., Rock, D., & Syberson, C. (2021). The Productivity J-Curve: How Intangibles Complement General Purpose Technologies. American Economic Journal: Macroeconomics, 333-372.
Our World in Data, (2021). Labor share of gross domestic product (GDP)., 2004-2020. Via International Labour Organization; Our World in Data.
Cottier, Snodin, et al. (2025, March 12). LLM inference prices have fallen rapidly, but unequally across tasks. Epoch AI.
ARC Prize。 (2025 年 12 月 11 日)。X 帖子,x.com/arcprize。
Huss, R.(2025 年 5 月 15 日)。 黄氏定律正在吞噬摩尔定律(并重塑人工智能的增长曲线)。Hackernoon。
Lightspeed. (2024 年 11 月 18 日)。 人工智能将吞噬服务。LSVP.com。
Iannaccone, S. (2025 年 12 月 24 日)。AlphaFold 改变了科学。五年后,它仍在演进。Wired。
Kumparak, G. (2008 年 12 月 2 日)。Apple 公布 2008 年 iPhone 应用下载量前十名。TechCrunch。
Jyoti, R. (2025 年 12 月 8 日)。 认识 MAESTRO:人工智能代理正在终结多云供应商锁定。CIO (cio.com)。
Google DeepMind。(2025 年 11 月 18 日)。Gemini 3 Pro,模型卡。Googleapis.com。
Kaplan, M. H., McCandlish, S., 等。(2020 年 1 月)。 神经语言模型的规模定律。arXiv。
Sutton, R。(2019 年 3 月 13 日)。 苦涩的一课。Incomplete Ideas。
Maslej, N., Fattorini, L., 等。(2025 年 4 月)。 人工智能指数报告 2025。HAI Stanford University。
ARC Prize。(2025 年 12 月)。ARC-AGI 排行榜。Arcprize.org。
Georgiev, B., Gomez-Serrano, J., Tao, T., 等。(2025 年 11 月 3 日)。 大规模的数学探索与发现。arXiv。
Anthropic。(2025 年 9 月 29 日)。 推出 Claude Sonnet 4.5。Anthropic.com
Bastian, M.(2026 年 1 月 13 日)。Anthropic 的 Claude Cowork 在不到两周内构建完成,使用 Claude Code 编写代码。The Decoder。
METR.(2025 年 12 月 19 日)。METR_Evals。X 帖子,x.com/METR_evals/。
Sinha, A., Arun, A., 等. (2025 年 9 月 28 日). 报酬递减幻觉:衡量 LLMs 中的长期执行能力. arXiv.
Silver, D., & Sutton, R. S. (2025 年 4 月 26 日). 欢迎来到经验时代. GoogleAPIs: storage.googleapis.com.
Velasquez, A., Bhatt, N., 等. (2025). 神经符号 AI 作为扩展规律的对立面. PNAS Nexus, 117.
Ramey, J. (2024 年 1 月 26 日). 特斯拉在最新 FSD 更新中押注人工智能. Autoweek.
Waymo AI 团队,(2025 年 12 月 9 日)。显著安全的自动驾驶人工智能。Waymo 博客。