前沿 AI —— 联合嵌入预测架构

原文链接： Frontier AI — Joint Embedding Predictive Architecture

作者： Nkechi Iregbulem

免责声明： 本翻译仅供个人阅读和学习参考，不得用于任何商业用途或进行随意转载发布。

人们要求我解释我在 AI 领域的投资逻辑的次数超出了我的预期。到目前为止，我一直故意保持模糊——将自己描述为机会主义者，在想法出现时支持它们。在实践中依然如此。但我认为有必要更精确地说明我到底在寻找什么。

我把它分成两类。第一类是软件的前沿应用——在那些历史上一直抗拒 AI 的领域中，AI 可以有意义地解锁或加速工作的地方。制造业、建筑业、科学、芯片设计。在这些地方，瓶颈是现实世界的复杂性，而不是计算能力。第二类是我所说的前沿 AI 本身——对可能代表模型构建方式真正阶跃函数变化的更怪异、更早期、更具投机性的想法下注。本质上就是“登月计划”。

JEPA（联合嵌入预测架构）牢牢地属于第二类。而且因为它已经成为一个日益增长的话题，我想值得写下来它到底是什么。

JEPA 是一种通过预测世界的抽象表示而不是重建原始数据来学习的模型架构。要理解为什么这种区别很重要，请花一秒钟想想你的母亲。

脑海中浮现的不是像素级完美的图像。不是她以无损音频呈现的声音。那是一些压缩的、抽象的东西——一种感觉、一种姿态、你的大脑几十年来积累并折叠成一个可检索想法的一组联想。你的大脑不存储原始片段。它存储意义。

大多数模型不是那样工作的。理解为什么——以及理解 JEPA 取而代之做了什么——需要稍微绕道了解一下模型实际上是如何学习的。

每一个现代生成模型都大致遵循相同的结构。

原始数据输入——像素、token、音频波形。编码器处理该数据并将其压缩为潜在表示（latent representation）：一个捕获输入基本特征的密集数值向量。这是模型的内部语言。它是抽象的、高维的，存在于人眼无法看到的地方。

从那里开始，解码器接收该潜在表示并重建一些东西——图像、句子、预测。模型通过将其重建结果与原始输入进行比较来学习。预测错了一个稍微不一样的像素？调整。错了一个词？调整。误差信号通过网络向后流动，模型随着时间的推移在重建方面变得越来越好。

这就是循环：原始数据 → 编码器 → 潜在空间 → 解码器 → 重建 → 误差信号 → 重复。

它很有效。GPT、Claude、Gemini、Stable Diffusion——所有这些的核心都是在海量数据上训练的重建机器。学习来自于输出端的预测误差。

这种局限性很微妙但很重要。当模型被训练去重建原始数据时，它必须对所有东西进行建模——包括所有不携带任何语义意义的噪声、纹理和表面变化。预测缺失图像块的模型必须关心光照梯度和胶片颗粒，因为这些细节存在于重建目标中。模型无法区分信号和噪声，因为它会因为弄错任何一个而受到惩罚。

结果就是模型虽然有能力但效率低下——模型必须内化大量的表面细节才能对事物的含义形成有用的理解。

JEPA 代表联合嵌入预测架构 (Joint Embedding Predictive Architecture)。它移除了解码器。

流水线变成了：原始数据 → 编码器 → 潜在空间 → 预测器 → 预测的潜在表示。

没有重建步骤。模型从不试图生成像素或 token。相反，它接收一个上下文（输入的某一部分）并预测目标的潜在表示会是什么样子——而不是目标本身。

模型的目标很简单：最小化它预测的表示和实际表示之间的距离。两个向量。它们之间的距离。那就是整个训练信号。

因为预测目标已经是抽象的——已经被编码了——所以模型没有动力去对噪声进行建模。像素级的变化在编码器中无法存活下来。存活下来的是结构、因果关系和语义。模型学会了预测意义，而学习信号完全来自于它是否正确地理解了意义。

想想接住一个橄榄球需要什么。一旦球在空中，接球的人并没有停下来处理完整的感官场景——风速、轨迹、距离、他脚下的地面——然后再决定去哪里。他解读比赛，感觉球的前进方向，并在球到达之前跑到那个地点。接球之所以发生，是因为他预测了一个抽象的未来状态并向其移动。JEPA 正试图建立同样的能力——一种在不重建其外观的情况下预测接下来会发生什么的能力。

JEPA 是一个组件，而不是一个完整的架构。

世界模型是一个完整的认知架构。它包括状态表示（我在哪里，正在发生什么）、预测器（接下来会发生什么）、记忆（以前发生过什么）、评论家（这好不好）和行动者（我应该做什么）。这些组件协同工作，让模型能够感知、预期、记忆、评估和行动。

JEPA 处理状态和预测。它回答了这个问题：给定当前情况的表示，我应该期待下一个表示是什么？它是架构中模拟世界如何演变的部分——什么导致了什么，什么跟随着什么。

国际象棋棋手感知棋盘，预期对手的动作，回忆以前的比赛，评估位置，并选择一步棋。JEPA 是那个棋手理解棋子如何移动并能建立关于比赛走向的内部模型的部分。这是基础——世界模型中的其他一切都依赖于一个好的预测器——但它是更大架构的一部分。

这种框架之所以重要，是因为“世界模型”这个词被随意使用。JEPA 的支持者提出了一个具体的主张：在潜在空间中的预测，基于语义而不是原始数据，是构建能够推理世界如何运作的模型的正确基础。世界模型架构的其余部分是否建立在该基础之上，以及建立后会是什么样子，这是一个独立且仍然开放的问题。

在训练期间选择预测什么是关于模型学会理解什么的选择。

基于重建的训练产生的模型在它们的输出媒介——文本、图像、音频——中表现得很流利。这些知识是真实的，但它是围绕数据的表面属性而不是其因果结构组织起来的。这对生成很有用。但对于规划、物理推理、理解如果你做某事会发生什么，它的用处就没那么大了。

同样值得注意的是，今天人们松散地称为“世界模型”的大多数模型——LLM（大型语言模型）、VLM（视觉语言模型）——从根本上讲仍然是 token 预测器。它们必须用语言来思考。即使当一个视觉语言模型在处理图像时，它最终也会通过语言路由一切来进行推理。这并非毫无意义，但它是一个约束。这意味着模型必须在对世界采取行动之前先叙述世界——这与我们的橄榄球类比是同一个问题，只是披上了更多参数的外衣。

潜在预测是一种赌注，押注存在一条更有效的理解世界的路径——一条涉及学习直接预期意义，而不通过重建绕道的路径。这也是一种赌注，押注这种预测更接近智能实际的工作方式：不是通过呈现世界的完整细节，而是通过维护它的一个紧凑模型并向前投射。

当你想起你的母亲时，你的大脑并没有重建她。它访问了一个表示。JEPA 正试图建立以同样方式学习表示的模型——通过预测它们，而不是生成它们的原始形式。

Yann LeCun 和他在 Meta FAIR 实验室的团队一直是这种方法最响亮的支持者，他的应用研究衍生公司 AMI Labs 现在正致力于在此基础上进行商业开发。但他们并不是唯一的人。去年，我支持了一家名为 Primate AI 的公司，该公司的成立专门是为了将 JEPA 从研究推向生产——构建能够实时推理物理世界的模型。机器人技术是显而易见的应用，但其应用面远大于此。任何需要模型对世界的不完整图景采取行动——而不是生成它的描述——的领域，都是其用武之地。

在未来的某个时候，我将写一家我支持的名为 After Thought 的公司，该公司致力于神经符号 AI 和计算认知科学的交叉领域——构建像人类一样进行推理的推理模型，而不仅仅是近似输出的模型。这直接与这里涵盖的所有内容联系在一起。