返回首页
2026.04.13 01:39 约 8 分钟 大模型内核

推理市场将如何成熟

原文链接: How the Inference Market Will Mature

作者: Investing in AI

免责声明: 本翻译仅供个人阅读和学习参考,不得用于任何商业用途或进行随意转载发布。

周日快乐,欢迎来到 Investing in AI。请务必收听我们的 AI in NYC 播客,以了解有关 AI 新闻和有趣的的应用 AI 初创公司的最新分析。此外,也请查看 Neurometric 新推出的“小模型市场”(Small Model Marketplace)。100 多个执行特定任务的模型——没有 token 成本,只需统一的月费。

今天我想问一个每位投资者都应该思考的重要问题:

如果推理成本趋于零,阿尔法(超额收益)在哪里?

这个问题目前正在每个专注于 AI 的基金中回荡。而这是一个错误的问题——因为它假设价格下降意味着市场萎缩。历史告诉我们恰恰相反。我们实际看到的是从“投机性建设”阶段(整个投资逻辑是“不惜一切代价购买 H100,然后再想办法”)向“效用效率”阶段的过渡,在后一个阶段,资金从押注最好的大脑转向押注最好的利润率。这是一个根本不同的游戏,而大多数投资者还没有更新他们的剧本。

这篇文章是我试图阐述推理市场如何成熟、防御性头寸在哪里,以及随着 AI 不再是一项科学实验而开始成为一种工业实用工具,资本应该流向何处。

在 19 世纪 60 年代,威廉·斯坦利·杰文斯观察到,随着蒸汽机变得更加省油,煤炭的总消耗量反而增加了。更便宜的能源并没有减少需求——它解锁了以前不经济的用例。同样的动态现在正在推理领域上演。

当推理很昂贵时,AI 是一个聊天机器人。它坐在文本框后面,等待人类输入一些东西,然后返回一个响应。那是一个工具。当推理实际上是免费的时候,AI 就会变成一个后台的自主智能体——持续地监控、决策、行动,而无需人类参与。那不是一个工具。那是一支劳动力队伍。

经济上可行的 AI 用例的表面积扩张速度快于价格下降的速度。推理成本每降低 10 倍,不仅仅是让现有的应用变得更便宜;它使全新类别的应用成为可能。想想物流优化对供应链中的每一个包裹进行推理,或者金融合规性实时检查每一笔交易,或者客户服务智能体不仅仅是回答工单,而是在客户注意到之前就主动解决问题。

对于投资者来说,这意味着问题不是“推理市场会萎缩吗?”而是“这个爆炸性市场的哪些细分领域将获得持久的利润率?”这才是真正分析的开始。

OpenAI、Anthropic、Google DeepMind——这些是重研究、高资本支出的参与者,他们竞相构建地球上能力最强的模型。他们的商业模式是以溢价出售最大的推理能力。

这里的防御性比大多数人想象的要窄。它归结为最后 5% 的智能——区分一个能起草一封体面电子邮件的模型与一个能驾驭复杂法律策略或对药物发现做出有意义贡献的模型之间的边际能力。对于高风险、高价值的决策,其中错误率会带来真实的后果,前沿能力确实能获得真正的溢价。

第二条护城河是数据的新鲜度。与 Reddit 和新闻机构等平台的独家合作,让前沿实验室能够获得较小参与者无法复制的实时“世界数据”。当你的模型需要推理昨天发生了什么,而不仅仅是静态训练语料库中的内容时,这个管道就很重要了。

但这是给投资者的警告:对于一般任务——摘要、翻译、基本问答、内容生成——前沿模型被极大地过度配置了。客户流失风险是真实的。随着开源和蒸馏模型在 80% 的用例上缩小差距,前沿实验室面临一个战略分岔口:主导高端层级,或者眼看着他们的业务量被侵蚀。要么做前沿,要么破产。没有舒适的中间地带。

这就是我认为最有趣的投资机会所在(因此致力于 Neurometric),这也是大多数投资者仍然低配的细分市场。

投资逻辑很简单:你不是出售原始的模型访问权限(输入 token,输出 token),而是托管功能性任务。银行对账。线索验证。医疗编码审查。合同条款提取。客户不购买推理——他们购买一个完成的工作单元,按任务定价。

从投资者的角度来看,经济学非常美妙,原因如下。收入是按每个任务固定的。客户为一笔对账交易支付 0.15 美元,或者为一个合格的线索支付 2.00 美元。但你交付该任务的成本是可变的且不断下降的。你正在运行优化的、专门为该任务微调的小型语言模型,在折旧的或二级市场的硬件上运行。每个季度,你的成本基数都在下降,而你的价格保持不变。那就是在不提高价格的情况下扩大了利润率——私募股权(PE)投资者的梦想。

这是 SaaS 2.0。传统的 SaaS 销售使人类能够工作的软件。行动即服务(Action-as-a-Service)销售的软件就是工作本身。人类完全从任务本身的循环中被移除,这意味着你的单位经济效益不再受劳动力成本的限制。

防御性来自两个方面。首先,垂直专业化。为医疗事故诉讼调整的情感分析器与通用的情感模型是截然不同的产品——不同的训练数据,不同的容错率,不同的监管背景。这种特殊性创造了转换成本。第二,也是更重要的一点,数据引力(data gravity)。一旦任务托管商处理了 1 亿份保险索赔,内置于其微调过程中的反馈循环就会创造一条任何通用计算量都无法克服的准确度护城河。模型变得更好,因为它在生产环境中运行,这意味着每一个新客户都在扩大这一差距。

这里还有一个很重要的硬件套利故事。NVIDIA A100/H100 的二级市场开始发展出真正的流动性。经过蒸馏的、特定于任务的模型不需要最新的芯片——它们需要足够且便宜的芯片。在二手的 A100 上运行一个为发票处理微调的 7B 参数模型的成本,只是为同一任务运行 GPT-5 成本的一小部分,而且对于那个狭窄的任务,准确度相当甚至更好。这是一种随着时间推移而复利的结构性成本优势。

从 PE 的角度来看,这是推理技术栈中最具投资价值的细分市场。可预测的单位经济效益,高转换成本,不断扩大的利润率,以及一条清晰的盈利之路,而无需前沿规模的研发预算。

Azure、AWS、GCP,以及越来越多受地区政府支持的云——它们玩的完全是另一场游戏。它们的护城河不是智能。是基础设施。

两个因素使这个细分市场持久。第一个是能源墙。大规模建设和运营数据中心需要对能源和物理土地的控制,这是无法快速复制的。单是许可审批就需要数年时间。第二个是主权。在欧盟、中东和东南亚,国内托管的强制要求正在激增。当一个政府说“这些数据不能离开我们的国界”时,在当地有业务的超大规模云服务商就默认赢了。

对于投资者来说,这是一种安全的收益游戏。这些是 21 世纪的公用事业股票——不令人兴奋,不是高增长,而是具有监管护城河的必要基础设施。你买的是管道,而不是水。

最后一个值得关注的细分领域是推动计算在本地设备上进行——手机、车辆、工厂传感器、可穿戴设备。

驱动因素很简单:延迟(有些决策不能等待云端的往返)、隐私(有些数据不应离开设备)和成本(使用客户的电力而不是供应商的)。随着模型变得更小、更高效,可以在设备上运行的任务范围不断扩大。

这里的防御性存在于硬件-软件协同优化中。如果你的模型是唯一一个能在 Apple Watch 的神经网络引擎或特斯拉 FSD 芯片上高效运行的模型,你就拥有了一条由芯片架构定义的护城河,而不仅仅是模型质量。第二个优势是数据邻近性——处于生成数据的“线路上”意味着你可以在信息到达云端之前就对其采取行动。

这还处于早期阶段,但轨迹是清晰的。在未来五年内,边缘推理将吸收很大一部分高频、低复杂度的任务。

以往科技周期的直觉是假设会发生整合——即推理将遵循存储市场的路径,走向少数几家商品供应商。我认为那是错的,原因在于定性差异。

存储之所以整合,是因为比特就是比特。希捷硬盘上的一个字节与西部数据硬盘上的一个字节是相同的。存储是横向的——产品是没有差异化的。但 AI 推理是有倾向性的。律师审查合同所需的“逻辑”与化学家分析分子相互作用所需的“逻辑”有着根本的不同。推理本质上是垂直的,这意味着它是碎片化的而不是整合的。

监管动态强化了这一点。反垄断审查和数据驻留法充当了一道防火墙,防止一两个参与者完全占据市场。推理市场看起来将更像专业制造,而不是商品化的云存储。

  • 如果在 IPO 后的估值合理,做多前沿实验室。
  • 做多具有高任务粘性、不断扩大的数据引力和低成本硬件策略的“行动即服务”(Action-as-a-Service)提供商。这些是通向持久、不断扩大的利润率路径最清晰的企业。
  • 在渴望主权的国家做多区域云提供商。这里的监管顺风强劲且正在加速。
  • 关注边缘 AI。一旦它开始起飞就做多。它还没到那一步,但终将到达。
  • 对缺乏超大规模云服务商的规模和前沿实验室的准确性的中端模型提供商保持谨慎。这是推理市场的“死亡地带”——在成本上竞争太贵,在质量上竞争太普通。

推理市场的成熟不是关于利润率的消亡。它是关于专业化的诞生。赢家不会是那些在某种宏大的、普遍的意义上“解决了 AI”的公司。他们将是那些将其工业化的人——将智能转化为可靠、廉价、无形的工作单元,每天运行数百万次而无人察觉。

对投资者来说,那不是反乌托邦。那是最好的市场类型:产品消失在日常业务的基础设施中,而计费表永远不会停止运转。

感谢阅读。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读