返回首页
2026.04.20 05:22 约 7 分钟 大模型内核

三年推理格局:波特五力分析

>

作者:Rob May · 2026 年 4 月 12 日

训练战争已经结束。推理战争才刚刚开始

从 2023 年到 2025 年,AI 行业的主导逻辑很简单:谁控制最多算力谁就赢。各公司争相囤积 H100。超大规模运营商向数据中心投入数千亿美元。隐含假设是,在最多硬件上用最多数据训练的最大模型将捕获大部分价值。

这一假设现在是错的。

在 2026 年中期,推理支出与训练支出的比率正接近 10:1。模型存在了。现在的问题是谁获得报酬来运行它们——以及以什么利润率。我们已经从算力稀缺转向利润稀缺。战略竞争已从谁能构建最大的大脑迁移到谁能以最低的边际成本和最高的可靠性提供智能。

为了理解未来三年钱将流向何处,我想应用一个大多数 AI 投资者已停止使用的框架,因为它感觉太”MBA”了。这正是为什么值得重新审视它。Michael Porter 的五力分析切穿炒作,直达推理栈的结构经济学。让我们逐层分析。


应用于推理的五力

Porter 的框架提出五个问题:供应商有多大权力?买方有多大权力?新进入者竞争有多容易?是否有替代品限制定价?现有竞争对手之间的竞争有多激烈?

应用于推理,这些问题清晰地映射到栈的三个不同层:芯片层、模型层和托管层。每一层都有不同的权力结构。每一层都有不同的投资含义。


第 1 层:芯片提供商——熔炉

推理芯片市场表面上看起来像供应商的天堂。先进半导体制造集中在台积电(TSMC),英特尔和三星是遥远的替代选择。这种代工集中度赋予上游巨大的供应商权力。但更有趣的动态是下游正在发生的事情。

替代品的威胁很严重。针对训练的并行矩阵数学优化的通用 GPU 对推理工作负载越来越低效。语言处理单元(LPU)和定制 ASIC——专门为以更低功耗、更低延迟和更低成本运行推理而构建的芯片——在大多数生产部署的每美元性能基础上击败 H100。Groq 证明了这一点,NVIDIA 收购了它们以防御这一市场转变。每个主要云提供商现在都在出货自己的硅:AWS Trainium/Inferentia、Google TPU、Microsoft 的 Maia。这是超大规模运营商的垂直整合,以捕获原本会流向 NVIDIA 的利润。

到 2029 年的战略展望:单一芯片统治一切的时代结束了。推理需要异构算力——不同的架构用于边缘部署(手机、汽车、本地设备)与数据中心服务。没有差异化架构或客户基础的纯芯片设计公司面临残酷的利润压缩。电网本身正成为战略变量——在低成本能源市场拥有最佳购电协议的人持有任何芯片创新都难以轻易克服的结构性成本优势。

投资解读:高度信心押注具有可防御架构的定制硅(ASIC)。它们周围无聊的基础设施——冷却、电力、电网互连——可以说是比芯片本身更强的投资。


第 2 层:模型提供商——炼金术士

这是最有趣的战略张力存在之处。

前沿模型实验室——OpenAI、Anthropic、Google DeepMind——陷入我所说的”智能陷阱”。他们投资数百亿美元构建的模型,对于一组迅速扩展的企业任务来说,已不再比以一小部分成本运行的开源替代方案有意义地更好。Meta 的 Llama 发布在商品化智能上设立了一个价格底线。如果开源模型可以充分完成你 80% 的企业工作负载,你就不能为该能力的前沿版本收取溢价。

买方的议价能力正在快速上升。企业不再被锁定。他们有模型可选性。他们越来越精通何时 0.01 美元/百万 token 的 SLM 是正确选择,何时 15 美元/百万 token 的前沿模型是合适的。这种精明是前沿模型定价的结构性上限。

正在显现的三方战斗看起来是这样的:

前沿模型保持其与复杂多步推理、高风险决策和新颖综合任务的相关性。它们是一级方程式赛车——令人印象深刻、昂贵,并适合一组高端复杂用例。开源模型已成为底线。它们将能力分布的中间商品化,使货币化”足够好”的智能几乎不可能。小型语言模型是被忽视的机会。任务特定、高效、可在便宜硬件上部署——为狭窄功能(文档提取、SQL 生成、分类、摘要)优化的 SLM 将成为 2029 年最高利润率的模型投资。不是因为它们令人印象深刻,而是因为它们盈利。

投资解读:前沿实验室是有选择性的公开股权投资,特别是如果它们能够垂直化或向上移动栈并破坏更多应用市场。高资本支出、不确定的货币化和开源替代压力使私募市场估值看起来过高。模型层中的真正赚钱在于垂直专业化——训练最佳放射学报告生成器的实验室将比任何通用模型每 token 赚得更多。


第 3 层:托管和基础设施公司——管道

这是栈中竞争最残酷的一层,也是仍在按 2015 年云基础设施剧本进行模式匹配的投资者最不理解的一层。

每百万 token 成本在过去 36 个月跨大多数模型类别下降了大约 100 倍。这不是会逆转的趋势。这是日益高效硬件上商品化推理的自然终局。Token 定价的”零竞赛”是结构性的,而非周期性的。

买方权力极强。企业会为 10% 的延迟降低或 5% 的成本降低切换托管提供商。他们没有忠诚度。他们默认是多云的。对于精明的买家来说,托管层的切换成本几乎为零。

“中间商挤压”是真实的并在加速。纯粹托管公司面临来自两个方向同时压缩。模型提供商希望托管自己的模型作为服务——在其模型许可收入之上捕获托管利润。芯片提供商正在推出自己的云,将硅访问与服务基础设施捆绑。独立推理云正受到其依赖的供应商和客户的双重挤压。

设备端 AI 是被最低估的替代威胁。随着 Apple、Qualcomm 等将能干的推理推送到消费者硬件上,目前在云中运行的相当一部分将迁移到边缘。到 2029 年,边缘推理预计将代表总 AI 工作负载的相当大一部分。在手机或笔记本电脑上运行的每个推理作业都是一个永远不会触及托管提供商数据中心的作业。

投资解读:通用托管是回避或低配。低利润率、高替代风险、没有结构性护城河。例外是具有大规模优势、垂直化工作流优势或靠近廉价电力的地理位置优势的基础设施玩家。否则,你是在投资作为商业模式的利润压缩。


2029 年推理格局:三个结论

第一,token 成为公用事业。基本智能——摘要、分类、提取、生成——成为像 2010 年算力周期一样的商品化。利润不再存在于此。争夺 token 价格份额就像竞争销售电子。

第二,护城河上移。竞争优势从模型权重迁移到两个地方:专有数据循环(从生产使用中变得更聪明、竞争对手无法复制的系统)和系统级集成(AI 如何连接到实际业务工作流,而不仅仅是 API 调用)。获胜的公司不是拥有最好模型的公司。它们是其模型最难被替换的公司。

第三,能源是约束。电力瓶颈——不是算力、不是人才、不是数据——成为超大规模运营商和独立推理云的决定性战略变量。最好的购电协议、最好的热管理、最好的电网关系成为软件玩家无法克服的持久竞争护城河。


结论:在推理经济中竞争

未来三年的赢家不会构建最聪明的 AI。他们会让 AI 如此便宜、可靠和集成,以至于它消失在每笔交易的结构中。

Porter 的洞察始终是战略关于选择。在推理层,选择是二元的:要么以规模成为最低成本生产商,要么在特定垂直领域中成为最不可或缺的集成。介于两者之间的一切都是利润陷阱。

训练淘金热结束了。基础设施工业化才刚刚开始。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读