AI 基础设施路线图：2026 年的五大前沿

原文链接： AI Infrastructure Roadmap: Five frontiers for 2026

作者： Bessemer Venture Partners

免责声明： 本翻译好的文章仅限于我自己阅读，不是转载和发布。

第一代 AI 基础设施公司解锁了智能的“大脑”。下一代将把这些智能引擎释放到现实世界中。

第一代 AI 是为一个“模型即产品”的世界而构建的，进步意味着更大的权重、更多的数据和出色的基准测试成绩。AI 基础设施反映了这一现实，推动了基础模型、计算能力、训练技术和数据运营领域巨头的崛起。这也是我们 2024 年 AI 基础设施路线图的重点，随着 AI 基础设施革命的展开，它推动了我们对 Anthropic、Fal AI、Supermaven（被 Cursor 收购）和 VAPI 等公司的投资。

但情况已经发生了变化。大型实验室正在超越追逐基准测试的收益，转而设计与现实世界交互的 AI，而企业也正在从概念验证（POCs）走向生产环境。将我们带到这里的——为规模和效率而优化的——基础设施，无法将我们带入下一个阶段。现在需要的是将 AI 扎根于运营环境、现实世界经验和持续学习的基础设施。

新一波 AI 基础设施工具的舞台已经搭好，这些工具将使 AI 能够在现实世界中运行。我们确定了将定义这下一波浪潮的五个前沿领域，每个领域都解决了一个需要超越模型扩展来解决的结构性限制。

下一代 AI 基础设施的五个前沿领域

1. “驾驭（Harness）”基础设施

随着 AI 部署从单一模型转向复合系统，旨在“驾驭”模型——释放其全部潜力的基础设施变得比以往任何时候都更加重要。

以内存和上下文管理为例。大多数企业 AI 系统都患有组织失忆症。虽然基本的检索增强生成（RAG）解决了模型和数据源之间的连接问题，但复合 AI 系统现在需要更复杂的内存基础设施。企业拥有大量的历史数据和组织知识——从专有文档到 CRM 记录——AI 系统必须访问这些数据和知识以避免幻觉并扎根于公司特定的现实中。

可靠的 AI 部署不仅依赖于原始模型的算力，还依赖于对知识检索、跨会话上下文管理和规划等组件的编排。随着模型变得商品化，差异化转移到了内存和上下文层。曾经由开发人员从头开始构建的东西——定制的向量数据库和检索系统——现在正作为一个独立的基础设施类别出现。初创公司和大型科技公司现在都提供即插即用的语义层，在会话之间保持对话上下文、用户偏好和长期记忆。

新颖的评估和可观测性提出了另一个关键的基础设施挑战——这在以前的软件开发范式中是不存在的。考虑一下将对话式 AI 智能体推向生产环境的团队。传统的监控跟踪完成率、延迟、错误代码和点赞/踩的反馈。但对话式 AI 的失败方式不同。当聊天机器人给出一个自信的错误答案，逐渐偏离用户的实际问题，或者在产生看似合理的内容时误解了请求，用户通常不会做出反应。没有抱怨，没有踩，没有错误信号。在仪表板上看对话似乎很好，而 AI 只是悄无声息地失败了。

据估计，78% 的 AI 失败是不可见的 —— AI 弄错了，但没有人发现。用户没有发现，传统监控没有发现，甚至情感分析也没有发现。这些失败集中在重复出现的模式中：

自信陷阱 —— AI 自信地给出错误答案，而用户接受了它
偏离 —— AI 逐渐回答了一个与所问问题不同的问题
无声的不匹配 —— AI 误解了请求，但产生的内容看似合理，以至于用户没有提出异议

即使使用更强大的模型，这些模式在 93% 的案例中依然存在，因为它们源于交互动态——模型如何呈现输出以及用户如何传达意图——而不是能力差距。

新的基础设施正在涌现以解决这个问题。像 Bigspin.ai 这样的平台不仅提供部署前测试，还提供模型输出针对黄金数据集和用户反馈的实时生产监控。我们也在超越传统分析，转向语义指标，像 Braintrust 和 Judgment Labs 这样的新平台，以及诸如“大语言模型作为裁判（LLM-as-a-judge）”等技术，正在涌现以实现高质量的评估和指标定义。

这些例子说明了对 AI 驾驭基础设施不断发展的需求。有关环境、运行时、编排、协议和框架的更多信息，请参阅我们的 软件 3.0 路线图。

2. 持续学习系统

当今的 AI 模型面临着一个根本性的限制：冻结的权重阻止了部署后的真正学习。虽然像压缩这样的上下文管理策略很强大，而且我们看到许多大型实验室将其用于长时间运行的智能体，但上下文学习只能通过死记硬背实现表面层面的适应，而不是获得新技能。随着上下文的增长，它的成本也变得极其高昂，因为键值（KV）缓存随着增加的上下文线性扩展。从技术和经济角度来看，构建能够记住一切并在多年使用中不断改进的 AI 系统是不可行的。

这就是持续学习提供解决方案的地方。它使 AI 能够随着时间的推移跨任务积累知识和技能，在获得新能力的同时保持早期的能力。与训练一次并静态部署的传统模型不同，持续学习系统在生产中不断进化——每次交互都变得更聪明，同时避免了灾难性遗忘。研究人员和从业人员正在通过预训练和训练后阶段的创新来追求这一目标。

架构方法从根本上重新思考模型如何学习：

Learning Machine 正在构建在推理过程中像人类一样持续学习的模型。通过新的架构和训练范式，模型将掌握“如何学习”的元技能，从而在部署后适应个人用户和企业
Core Automation 正在从根本上重新思考 Transformer 架构，以构建内存从新颖的注意力机制中自然涌现的系统
斯坦福大学和英伟达的 TTT-E2E 使用了一个滑动窗口的 Transformer，它在测试时通过对其上下文进行下一个标记预测来继续学习——将该上下文压缩到其权重中。在训练期间，模型学习如何在推理时更好地更新自己的权重，使该方法端到端化

近期的、生产就绪的解决方案也正在涌现：

“卡带（Cartridges）”方法将长上下文存储在一次离线训练的小型 KV 缓存中，然后在推理期间跨不同用户请求重用
Sublinear Systems 和基础模型实验室正在竞相通过新颖的技术解决上下文限制问题

我们看到的持续学习方法的范围，从可能完全重新定义该领域的高风险架构“登月计划”，到逐步改进现有 Transformer 的生产就绪技术。我们渴望见到这一领域的创始人。

持续学习的生产部署需要标准 ML 工作流中尚不存在的新治理原语。回滚机制能够在更新引入回归时恢复到稳定的检查点，这需要对权重、数据和超参数进行完整的血统跟踪。隔离技术允许安全地进行实验而不影响核心能力。创建基准测试（超越“大海捞针”测试）来衡量持续学习系统与上下文内学习的性能，也将是至关重要的。

3. 强化学习平台

由于数据质量从根本上决定了 AI 的能力，“垃圾进，垃圾出”这句古老的机器学习格言比以往任何时候都更加相关。像 Mercor、Turing 和 micro1 这样的数据平台通过动员人类专业知识创建高质量数据集，在 AI 革命的第一波浪潮中发挥了重要作用。但我们认为，随着 AI 系统从模式识别演变为自主决策，一个关键的局限性已经显现：人类生成的标注数据不再足以支持生产级 AI。它无法教会 AI 系统如何导航具有延迟后果和复合决策的复杂、多步骤任务。

这就是强化学习（RL）变得不可或缺的地方，因为 AI 必须通过交互而不是静态数据集来学习，以使 AI 扎根于“经验”中。利用 RL 堆栈现在是 AI 基础设施工具的基石，以教导智能体复杂的行为，而无需承担现实世界试错的成本和风险。这个新兴堆栈中的平台包括：

| 环境构建和经验策划 | Bespoke Labs、Deeptune、Fleet、Habitat、Matrices、Mechanize、OpenReward、Phinity、Preference Model、Proximal、SepalAI、Steadyworks、Veris、VMax |

| ————————- | —————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— |

| 强化学习即服务 (RL-as-a-service) | Applied Compute、cgft、Metis、osmosis、Trajectory |

| 平台基础设施 | AgileRL、Hud、Isidor、OpenPipe、Prime Intellect、Tinker |

4. 推理的拐点

在我们的 2024 年路线图中，模型部署和推理优化成为了一个关键的基础设施层，当时像 Fal、Together、Baseten 和 Fireworks 这样的供应商开创了高效的服务解决方案。当时，资本密集型的模型训练消耗了整个 AI 堆栈中的大部分计算资源。今天，我们正在见证计算重心的根本转变。随着 AI 智能体和应用程序大规模地从原型过渡到生产，现在的推理工作负载在计算需求和经济重要性方面都可与训练相媲美——在许多情况下甚至超过了训练。正如英伟达的 Jensen Huang 在他的 GTC 2026 主题演讲中所说，“终于，AI 能够做富有成效的工作了，因此推理的拐点已经到来。”

这个拐点反映了一个成熟的市场，在这个市场中，持续运行 AI 系统的成本和性能与构建它们的初始投资同样重要。

新一代的基础设施初创公司正在通过跨推理堆栈的专业优化来解决这一生产势在必行的要求。像 TensorMesh 这样的公司正在利用 LMCache 来消除冗余的重复计算，RadixArk 正在推进基于 SGLang 的多轮对话路由和调度，而 Inferact 正在推动 vLLM 性能边界以实现高吞吐量服务。Gimlet Labs 甚至像 NVIDIA 这样的超大规模计算公司，都在致力于专为复杂智能体系统构建的异构推理创新。这些创新将前沿的系统研究转化为可衡量的生产收益：更快的响应时间和更低的成本。

我们还看到了新颖部署推理的创新，其中边缘和设备端是一个主要例子。随着 AI 渗透到从机器人到消费者的所有经济部门，AI 部署需要满足用户所在的需求，这并不总是基于云的。我们看到像 WebAI、FemtoAI、PolarGrid、Aizip Mirai 和 OpenInfer 这样的公司在消费设备端 AI 部署的可能性的最“边缘”进行构建。来自 Perceptron 等模型供应商的设备端创新对于物理 AI 也很重要，正如我们在关于智能机器人的思考中所概述的那样，我们预计该领域会有更多创新。

边缘 AI 对于国防等行业也至关重要，在这些行业中，通信会受到干扰或被拒绝；像 TurbineOne、Dominion Dynamics、Picogrid 和 Breaker 这样的公司正在带头为作战人员提供基础设施工具，即使在最严酷的环境中也能驾驭 AI 的力量。

5. 世界模型

模型层是 AI 基础设施堆栈中最具活力和竞争最激烈的层之一。虽然大型语言模型（LLMs）已经接管了语言智能，但一种新的模型类别——世界模型（world models）——已经出现，为物理世界提供智能。

随着 AI 从我们的屏幕走向我们的物理现实，新的挑战出现了：如果一个 AI“大脑”没有“身体”，它如何发展对物理学和世界的直觉？世界模型提供了一个解决方案。在核心层面，这些是在真实世界数据（视频、传感器、GPS 等）上训练的 AI 系统，它们学会了在给定当前情况和行动的情况下预测世界将如何演变。它们不是描述现实，而是模拟现实。

从这些较新的研究中，出现了三种广泛的架构范式。在实践中，公司也开始探索结合了各自元素的混合架构：

来自 Reka 和 Decart 等公司的基于视频的世界模型将问题构建为视频生成之一，直接在像素空间中预测未来的帧。因为它们逐步生成输出，所以它们可以实时运行并动态响应新输入，这使它们非常适合交互式环境。尽管它们在维持较长视野的物理一致性方面仍有困难，但它们产生了视觉上令人信服的输出
来自 World Labs 等公司的显式 3D 表示模型采取了不同的路径，构建了持久的 3D 场景表示，以较低的推理成本提供了强大的空间一致性。目前，这些环境是预先生成和静态的，但 World Labs 已发出信号，实时交互性在其路线图上
基于由 AMI Labs 首创的联合嵌入预测架构（JEPA）的潜在预测模型（Latent predictive models），通过在压缩的潜在空间中预测未来状态，完全避免了像素生成。这种方法在计算上效率高得多，并避开了许多视觉故障模式，但代价是降低了可解释性。虽然每种范式都取得了有意义的进展，但重要的差距仍然存在——如何解决这些差距将塑造世界模型更广泛的商业化之路

世界模型的商业机会是广阔的。我们最近分享了我们对机器人领域的世界模型的看法，因为该行业一直是最引人注目的早期应用之一。通过生成无限的合成训练环境，世界模型解决了阻碍物理 AI 数十年的数据稀缺问题。自动驾驶正在证明这一点，Waymo 和 Wayve 使用世界模型来模拟罕见的边缘情况，这是任何真实世界的测试程序在经济上都无法复制的。同样的核心功能可以解锁更多内容，例如国防、医疗保健、工业运营和企业规划中的高风险模拟。

世界模型不是一种特定于垂直行业的工具——它们是机器智能的新基质，类似于 LLM 对基于文本的推理所做的贡献。早期在它们之上构建的行业，在部署于现实世界中工作的智能体方面将拥有巨大的先发优势。我们对构建跨行业使世界模型成为可能的架构和模拟器的公司感到兴奋。

构建让 AI 体验和进入现实世界的基础设施

虽然第一代 AI 基础设施公司构建了智能引擎——模型、计算集群和训练管道，证明了 AI 的能力——但下一代必须构建神经网络和驾驭工具，使 AI 能够在现实世界中持续感知、记忆、适应和运行。这些前沿代表的不仅仅是对现有基础设施的增量改进。在这些领域进行建设的公司不仅在优化延迟或降低成本；他们正在解决将令人印象深刻的演示与创造持久价值的可靠系统区分开来的根本挑战。

#算力基建

AI 基础设施路线图：2026 年的五大前沿

第一代 AI 基础设施公司解锁了智能的“大脑”。下一代将把这些智能引擎释放到现实世界中。