代币最大化的代价

作者：Aspiring for Intelligence

原文链接：https://aspiringforintelligence.substack.com/p/the-price-of-tokenmaxxing

免责声明：本翻译文章仅限个人阅读，不用于任何形式的转载和发布。

这些数字令人震惊。但隐藏在它们背后的新问题也同样令人震惊。对于Anthropic来说，这几个月令人瞠目结舌。在2025年底，该公司的年化收入约为90亿美元。到2026年3月，这个数字已经攀升至约190亿美元，而就在本周，即2026年4月6日，Anthropic的年收入运行率超过了300亿美元，该公司在与谷歌和博通达成一项涉及数千兆瓦下一代TPU容量的具有里程碑意义的计算协议时，自己证实了这一点。

好好想想：Anthropic在短短34天内就增加了约110亿美元的年化收入。在过去十年所有软件上市公司的IPO中，没有一家公司实现了这种水平的增长。The Information强调了一个案例，他们认为Anthropic到年底可能会达到1000亿美元！Claude是大部分这种增长背后的引擎，从大多数指标来看，它已经成为有史以来构建的最强大、被最广泛采用的AI工具之一。我们当然喜欢使用它。但随着我们看到这些数字加速增长，另一组问题开始浮现。这种增长可持续吗？运行Claude的实际成本是多少，现在和长期由谁来承担这个成本？随着Anthropic周围开源模型生态系统的爆炸式增长，“万物皆Claude”的时代有多持久？

Anthropic比OpenAI晚成立几年，筹集的资金也少得多，它向300亿美元收入运行率的攀升提醒人们，对产品的专注和差异化的视角可以超越先发优势。他们不仅筹集的资金更少，而且烧钱的速度也明显更慢。AI竞赛的发展速度之快，足以让去年的情况看起来像古代历史。不久前，OpenAI还是宠儿，但今天，竞争格局看起来已经大不相同，而且还在发生变化。

那么这一切对定价意味着什么，以及我们可以对使用所有这些Claude的更广泛生态系统抱有什么期望？

感谢阅读《Aspiring for Intelligence》！这篇文章是公开的，所以请随意分享。

在我们理解增长故事之前，我们需要了解其底层的定价架构。Claude主要提供四个层级的服务：

免费版：Web、iOS、Android和桌面访问。每日使用量有限。不包含Claude Code。
Pro版（20美元/月）：免费版容量的5倍，优先访问权，并捆绑了Claude Code。个人专业人士的最佳选择。
Max版（100-200美元/月）：两个变体：5倍Pro版（100美元/月）和20倍Pro版（200美元/月）。持久内存，抢先体验功能，以及在高峰时段的最高优先访问权。专为几乎持续运行Claude的高级用户打造。
开发者API（按代币付费）——推动企业级数字的定价。截至2026年4月：

Claude Haiku 4.5：每百万代币 1美元输入 / 5美元输出
Claude Sonnet 4.6：每百万代币 3美元输入 / 15美元输出
Claude Opus 4.6：每百万代币 5美元输入 / 25美元输出

对于理解Anthropic的增长来说，最重要的区别是消费者和企业之间的区别。个人订阅者支付统一的月费并拥有共享的使用量。企业客户（在团队或定制企业计划上）在席位费之上按代币付费，不包含任何使用缓冲。每次调用都会计费。这意味着超过1000家每年支出在100万美元以上的企业客户，几乎完全在推动基于代币的收入，而不是基于席位的收入。这是一个从根本上不同于传统SaaS且可能更持久的经济模型，正是它使得300亿美元的运行率感觉像是结构性的，而不是被消费者订阅夸大的。

当你计算一下，Max版的经济效益是惊人的。一位开发者追踪了八个月内100亿个代币的使用情况，如果按照API费率计算，这相当于15000美元以上，而在Max计划下只需约800美元。按照每月200美元和年度承诺计算，每年2400美元就能获得直到最近看起来还实际上是无限的智能体计算能力。

将其与一名初级软件工程师约10万美元以上的底薪、福利和管理开销进行比较，你就会开始明白为什么企业需求信号如此爆炸性。在短暂的时间窗口内，你可以将Claude Max作为24/7自主软件开发人员运行，成本大约只有人类成本的2-3%。这种数学计算并没有持续下去，这种级别的计算能力也不会让每个人都享有。

2026年4月4日，Anthropic做出了一个悄然但具有重大影响的改变。Claude Pro和Max订阅者不能再通过像OpenClaw这样的第三方智能体框架（这是一个在公告发布时估计有13.5万个活跃实例的操作系统平台）来路由他们的订阅使用量。该公司表示，该政策将在未来几周内扩展到所有第三方工具。

逻辑很简单：Anthropic自己的工具——Claude Code、Claude Cowork——旨在最大化提示缓存命中率，重用以前处理过的上下文，以大幅降低计算开销。第三方工具在很大程度上绕过了这个优化层。单个繁重的OpenClaw会话消耗的庞大基础设施，可能相当于许多具有同等输出量的标准Claude Code会话。分析师估计，高级智能体用户在统一费率订阅下支付的费用与在API费率下同等使用量将花费的成本之间的差距超过了5倍。Anthropic一直在悄悄地交叉补贴一种它从未打算为其定价的使用类别。

对于想要继续通过第三方工具运行Claude的用户，前进的道路是：直接API计费，每百万代币3-15美元（Sonnet）或每百万代币5-25美元（Opus），或者是在他们的订阅之上收取的一个新的“额外使用量”即用即付层。在庞大的使用量下，通过这些渠道执行的任务每次运行大约为0.50-1.00美元。统一费率的套利时代结束了。

这很重要，原因超出了OpenClaw本身。它发出了关于Anthropic发展方向的某种结构性信号：该公司希望拥有客户关系、计算经济学和分发层。3月份承诺向Claude合作伙伴网络投入1亿美元，推出受控的Claude驱动的应用程序市场，封锁第三方工具——这些都不是孤立的决定。它们是一家平台公司围绕其护城河进行整合的架构。

这种平台雄心在本周随着Claude Managed Agents的推出得到了加强——这是一种云服务，它处理开发人员以前必须自己构建的脚手架（容器、状态管理、工具编排），在模型使用费之外，按照每智能体运行时间0.8美分计费。这是直接为了拥有智能体开发层，而不仅仅是底层的模型。

在Anthropic收紧其定价抓手的同时，开源模型生态系统正变得比以往任何时候都更强大。2026年4月2日，Google DeepMind发布了Gemma 4——一个参数范围从2B到31B的开放权重模型家族，采用完全宽松的Apache 2.0许可证。26B专家混合（MoE）变体在推理期间仅激活3.8B个参数，以极低的延迟和成本提供接近前沿的推理，而密集模型则为需要它的工作负载提供可预测性。两者都具有256K上下文窗口、原生函数调用、智能体工作流支持和多模态输入——并在单个80GB H100 GPU上运行。

Gemma 4在当下显得尤为相关的原因在于时机。随着Anthropic收紧对OpenClaw等第三方工具的访问，一大批此类用户正转向Gemma 4作为他们的本地替代方案，并发现它出奇地强大。这种架构正是为了这一刻而构建的：按参数计算的智能，而不是按云支出美元计算的智能。稀疏激活、高效注意力和逐层嵌入技巧意味着Gemma 4可以从你已经拥有的硬件中提取前沿水平的推理。

而且Gemma可能还不是开源浪潮中最锋利的边缘。开放模型排行榜上的最高位置被中国模型占据：阿里巴巴的Qwen 3.5、智谱AI的GLM-5、月之暗面（Moonshot AI）的Kimi K2.5。2026年Databricks的一项调查发现，超过四分之三的企业已经在运行闭源和开源模型的混合组合。

问题不再是Claude是否是最好的模型。对于最复杂的任务，它通常仍然是。问题是你是否负担得起将所有东西都通过它进行路由。这就是定价转变开始看起来不那么像一种税收，而更像一种强制功能的地方——并且矛盾的是，一种富有成效的功能。

当Claude Max是200美元/月且没有有效上限时，开发人员构建了在计算上很草率的智能体。为什么不呢？启动一个重试循环，让智能体自由地来回聊天，重新查询你已经拥有的上下文——所有这些都不会花费你可以衡量的任何东西。订阅是固定的开销，另一次调用的边际成本为零。

当每个API调用都要花费真金白银时，情况就变了。你负担不起在重试循环中旋转或进行冗余调用的智能体。你负担不起多智能体设置，在这些设置中，智能体花在相互协调上的时间比做实际工作的时间还多。你必须思考。在这样的环境中幸存下来的架构具有一套共同的属性：

智能任务分解。将工作分解为最小的子任务，这样每个模型调用都在做成本最低的事情。并非每一步都需要Opus。
缓存和记忆。不要问模型同一个问题两次，返回存储的结果，而不是重新查询输出。
分层委派。使用便宜、快速的模型。Haiku，或开源替代方案用于路由、分类和简单查找。仅将Opus或Sonnet保留用于真正需要前沿推理的任务。
提前终止。检测任务何时卡住，并在它烧光信用额度之前终止它。最糟糕的智能体系统是那些代价高昂地失败的系统。

具有讽刺意味的是，这可能会产生更好的智能体系统。这种约束迫使你思考效率和协调，其方式是“无限”从未做到的。最好的多智能体系统是那些最小化智能体间通信的系统，而不是那些让智能体自由聊天的系统。

在这个转变中隐藏着一个重大的机遇。在过去的一年里，由风险投资支持的AI应用层在很大程度上建立在一个简单的假设之上：基础模型的成本将保持足够低，或足够统一，以至于你可以在它们之上进行构建而不必太担心经济学。但是，随着Claude的API定价在规模上变成了真金白银，以及随着Anthropic在自己的产品和第三方生态系统之间划出更硬的界限，一个新的设计空间打开了。构建智能路由层的公司——能够动态决定哪个任务使用哪个模型，实时优化成本与质量的系统——将具有结构性优势。深刻理解开源和闭源模型如何运作的公司将具有优势。将前沿API与自托管开放模型混合的混合架构基础设施将变得越来越有价值。“正确的模型用于正确的任务”不仅是一项技术原则，而且是一个利润故事。

下一阶段AI应用开发中的赢家不会是那些选择了最佳单一模型的人。他们将是那些围绕异构混合构建了最有效的编排层，并相应地为自己的产品定价的人。

让我们回到标题数字。年化收入300亿美元。在六个月前90亿美元的基础上增长！对于我们的许多初创公司，我们谈论的是数百万，而且这还是在他们成功增长的情况下。这种增长是真实的，极其令人印象深刻。企业信号——1000多家每年支出100万美元以上的客户并非炒作。它反映了在严肃的组织内部，Claude真正被采纳为基础设施。与谷歌和博通达成的一项关于将在2027年上线的多千兆瓦下一代TPU的计算协议，只是表明Anthropic预计这种需求将继续加速。

但过去几周的定价变化也讲述了一个关于这些数字底层的利润结构和可用计算的不同的故事。推动“Claude作为每年2400美元的软件工程师”叙事的统一费率订阅正在收紧。开源生态系统正在缩小能力差距。而真正支出的企业客户是通过API进行支出的，在那里每个代币都会被计费。

这并没有使Anthropic的增长故事变得虚假，但它使我们在思考未来时变得更加有趣。未来十二个月的问题不是Claude是否好。它显然很好。问题是，随着有能力的替代方案的激增以及智能成本继续下降，护城河是否足够深，定价架构是否足够自律，以维持这300亿美元的运行率！系好安全带吧 :)。

代币最大化的代价

推荐阅读

Alpha 藏在尾部

代币经济中的衡量系统

Yotta：全球 GPU 的操作系统

为什么 Coinbase 扼杀了加密行业的政治未来

代币最大化的代价

推荐阅读

Alpha 藏在尾部

代币经济中的衡量系统

Yotta：全球 GPU 的操作系统

为什么 Coinbase 扼杀了加密行业的政治未来

了解 RecodeX 的更多信息