下一轮 Token 超级周期:长视野推理中的机会
作者:Rishub Nahar,Emergence 团队
2026 年 4 月 15 日 · 阅读时长 4 分钟
简短摘要
长视野任务正成为占主导的 AI 工作负载,驱动着大量新的 token 消耗。
这一转变正在解锁新一波基础设施机会。我们看到三个有前景的领域:
- 解耦芯片上的内存与计算,以应对日益严重的内存短缺
- 构建吞吐量优先的推理云,以改善与当前推理提供商相比的经济效益——后者通常针对低延迟优化
- 创建通用上下文”垃圾回收器”,以修剪和维护上下文窗口

范式转变
从 2023 年到 2025 年初,大多数企业 AI 应用围绕同步、聊天为中心的体验展开。占主导的工作负载特征是低延迟,几乎没有持久上下文。
但到 2025 年底,一种不同的模式开始出现。新应用开始聚焦于长时间运行的后台任务——延迟要求更宽松,但输入/推理数据的量通常大几个数量级。Claude Code 是这里的典型产品,但我们看到长视野正成为应用层中占主导的工作负载类型。
例如,在 AI 原生服务(我们机构另一个主要关注领域),长视野任务占推理量的大头。毕竟,如果一项服务异步交付结果,那么其大部分推理负载也可以是异步的。

为何重要——OLAP 类比
最清晰的类比是过去十年伟大的 OLAP 玩家的崛起。当公司开始在云规模数据集上运行分析查询时,工作负载变得显著更加数据密集。这种转变需要一个新的技术栈,并诞生了几家如今市值超过 2000 亿美元的品类定义型公司。
这是一个不完美的比较,但长视野工作负载与大规模分析工作负载在数据和延迟需求方面有相似的形态,我们相信它也将催生新的基础设施范式。以下是希望在长视野时代构建的创始人的三个大胆机会。

机会 1:为 AI 带来 Snowflake 时刻——将内存从计算中解放
在长视野任务中,由于其解码密集型特征,瓶颈通常是内存而非计算。
在这些任务中,模型执行大量中间推理步骤和对各种数据存储和 MCP 的工具调用。这些操作的输出 token 极大地推高上下文长度,导致 KV 缓存 1:1 增加。不断膨胀的缓存可以迅速消耗即使是高质量 GPU 上的所有可用内存。如果没有有效的剪枝或压缩,即使是中等大小的 700 亿参数模型在不到 10 万 token 时也会撞上内存墙。(注意:10 万 token < 300 页文本——对长时间运行的工作负载来说不算多)。今天的前沿模型大约是 1 万亿参数,随着我们朝着 10 万亿参数模型(如 Mythos)推进,问题只会加剧。
这不是理论问题。内存紧缩的影响已经被感受到,从主要内存制造商的飙升股价可以看出。
目前正在探索几个有趣的方向来解决这一内存短缺:
- 框架级优化(如 SGLang、vLLM)以更高效地分配内存
- 增加芯片上/本地内存容量的前沿芯片(Fractile)
然而,要真正实现无限内存,我们需要将内存与计算解耦——本质上是为推理做 Snowflake 在 2010 年代为分析所做的事。
挑战在于将存储与计算解耦对推理来说极其困难。在 OLAP 中,你可以通过少量大型数据库扫描来服务单个查询,需要相对较少的网络调用,因此远程存储可行。在推理中,注意力要求模型为每个生成的 token 访问并计算 KV 缓存。如果使用网络存储,这将产生海量 I/O。
一个简单的类比:
想象你必须手抄一本书,逐字逐句。如果书在你的桌子上(本地内存),你可以连续抄写。如果书在城市另一端的图书馆(远程内存),而你必须为每一个字步行往返,你将慢得难以想象。
推理通常需要书在桌上。
尽管面临挑战,我们看到新兴方法旨在放松局部性约束,并将我们推近无限网络内存的圣杯。我们看到的值得关注的技术包括用光纤而非铜线传输数据以提升带宽。
如果有人成功外置内存同时保持合理的延迟,他们将释放无限内存为这一代长视野代理提供燃料。这将是 AI 的 Snowflake 时刻。
机会 2:构建吞吐量云——拥抱延迟,以提供卓越经济效益
今天的新云是为速度而生的。它们的出现是为了支持第一代基于聊天的 AI 应用,超低延迟就是一切。
为实现这一点,它们依赖庞大的、始终在线的高端 GPU 舰队,常常牺牲利用率以换取响应能力。但长视野工作负载颠覆了这些要求。上下文要大得多,但延迟要求宽松得多。
这创造了构建一个新推理架构的机会,专为延迟不太重要的高吞吐量工作负载而设计。这样的架构理论上应该能够实现显著更好的推理经济效益。在这一品类中构建的创始人需要意识到几件事:
批处理和池化只是答案的一部分
- 这些是改善芯片利用率最明显的杠杆,但收益从根本上是有上限的
- 这也不是持久优势——每个主要推理提供商已经在某种程度上这么做了
模型和硬件路由是更可能的持久差异化来源
- 我们认为,在异构硬件上协调不同模型进行预填充和解码是改善经济效益最具吸引力的机会之一。它在技术上也非常困难,这使得它对初创公司更有趣。
品类定义和教育在这里比在其他推理市场更难
- 在多模态推理中,像 Fal 这样的公司通过占据特定模态(”图像和视频推理”)的心智份额而获胜
- 长视野推理更抽象。它不是一种新模态,而是一种不同的工作负载形态。因此,它有被视为文本推理的渐进延伸的风险
机会 3:为上下文创建垃圾回收器
随着我们推动越来越长时间运行的任务,我们想保留的总状态量将永远超过上下文窗口中的可用空间。残酷的现实是,检索在上下文窗口被填满之前就开始退化。这更说明了我们需要能够智能地压缩、替换和消除窗口中累积的过多上下文的解决方案。这是任何人谈论”构建套件”时所涉及工作的主要部分。坦率地说,这是我们仍最不清楚独立、可泛化的解决方案是否能起作用的品类。
- 经典的系统内存垃圾回收以确定性规则运作:移除不再被引用的对象,并使用固定算法压缩其余部分。
- 相比之下,上下文管理需要判断。它涉及决定哪些信息仍然相关,以及如何在不丢失重要信号的情况下总结它。因为这因用例而显著不同,所以是否可能有完全通用的解决方案尚不清楚。
但我们持开放态度,并急切地希望被证明是错的!
结语
代理正在承担越来越长的任务,对芯片内存、推理预算和上下文窗口施加前所未有的压力。我们相信这是大胆创始人正面解决这些挑战、构建定义新一代基础设施公司的时刻。如果你正在构建或思考这些挑战,我们很乐意聊聊。
长视野万岁。