DeepSeek 简报:128 天后流量与用户僵尸化,GPU 充裕的西方新云厂商,代币经济学(Tokenomics)重塑竞争格局
本文信息来源:semianalysis
作者:Wei Zhou,AJ Kourabi 和 Dylan Patel

自从中国 LLM DeepSeek R1 发布引发股市和西方 AI 界震动以来,已经过去了 150 多天。R1 是首个公开发布、在推理能力上与 OpenAI 相匹配的模型。然而,由于 DeepSeek(以及中国)以极低的价格(输入$0.55/输出$2.19)提供 AI 模型,远低于当时最先进的 o1 模型输出 Token 价格 90%以上,人们担心 AI 模型会被商品化,这一担忧在很大程度上掩盖了 R1 的成就。自那以后,推理模型的价格大幅下降,OpenAI 最近也将其旗舰模型的价格下调了 80%。

R1 在发布后,随着 DeepSeek 持续扩展 RL,获得了更新。这使得该模型在许多领域,尤其是编程方面有了显著提升。这种持续开发和改进正是我们此前所提到的新范式的标志。
今天我们将关注 DeepSeek 对 AI 模型竞赛的影响以及 AI 市场份额的现状。
繁荣……然后衰退?
DeepSeek 在发布后,消费者应用流量激增,导致市场份额大幅上升。由于中国的使用情况很难被准确追踪,且西方实验室在中国被封锁,下面的数据低估了 DeepSeek 的实际覆盖范围。然而,这种爆发式增长并未持续,DeepSeek 的市场份额此后有所下降。

对于网页浏览器流量来说,情况更加严峻,自发布以来 DeepSeek 的流量在绝对值上有所下降。而同期其他领先的 AI 模型提供商用户数量都实现了显著增长。

DeepSeek 自有平台上模型的用户活跃度低迷,这与第三方平台托管的 DeepSeek 模型形成了鲜明对比。R1 和 V3 在第三方平台上的总使用量持续快速增长,自 R1 首次发布以来,增长了近 20 倍。

深入分析数据后,将 DeepSeek 的代币仅限于公司自身托管的部分,我们可以看到 DeepSeek 在总代币中的占比每个月都在持续下降。

那么,尽管 DeepSeek 的模型越来越受欢迎,价格看起来也非常便宜,为什么用户还是转向其他开源提供商,而不是使用 DeepSeek 自己的网页应用和 API 服务呢?
答案在于代币经济学以及在为模型提供服务时各种关键绩效指标(KPI)之间的权衡。这些权衡意味着模型的每个代币价格是这些 KPI 决策的结果,可以根据模型提供商的硬件和模型设置进行调整。
代币经济学基础
代币是 AI 模型的基本构建单元。AI 模型可以通过以代币形式阅读互联网进行学习,并以文本、音频、图像或动作代币的形式生成输出。代币只是文本的一小段(比如“fan”、“tas”、“tic”),大型语言模型会统计和处理这些代币,而不是整个单词或字母。
当黄仁勋谈到数据中心正在变成 AI 工厂时,这些工厂的输入和输出就是 token。就像实体工厂一样,AI 工厂通过 P x Q 的公式赚钱:P 是每个 token 的价格,Q 是输入和输出 token 的数量。
与普通工厂不同,模型提供商可以根据模型的其他属性来确定每个 token 的价格。我们在下方列出了关键的 KPI。
- 延迟或首标记生成时间 :指模型生成一个标记所需的时间。这也被称为“首标记生成时间”,大致表示模型完成预填充阶段(即将输入标记编码到 KVCache 中)并开始在解码阶段生成第一个标记所需的时间。
- 交互性 :指每个用户每秒生成多少个 token,通常以每秒每用户的 token 数量来衡量。一些服务商也会讨论交互性的反面,即每个输出 token 之间的平均时间(每个输出 token 的时间,简称 TPOT)。人类的阅读速度为每秒 3-5 个单词,但大多数模型服务商已经将输出速度定在每秒大约 20-60 个 token。
- 上下文窗口 :指模型在“短期记忆”中可以保留多少个 token,在更早的 token 被移除、模型“遗忘”对话早期内容之前。不同的使用场景需要不同大小的上下文窗口。对于大型文档和代码库的分析,更大的上下文窗口有助于模型对数据进行连贯的推理。
对于任何给定的模型,你都可以通过调整这三个关键绩效指标(KPI)来实现几乎任何每个 token 的价格。因此,仅仅以每百万 token 的价格($/Mtok)来讨论 token,并不总是有意义或实用的,因为这忽略了工作负载的性质和 token 用户的需求。
DeepSeek 的权衡
现在让我们来看一下 DeepSeek 如何为其 R1 模型提供服务的代币经济学,以了解他们为何在自己的模型上失去市场份额。

将延迟与价格进行对比,我们可以看到,DeepSeek 自己的服务在延迟方面已经不再是最便宜的。事实上,DeepSeek 能够以如此低价销售其产品的一个重要原因,是他们强制用户在模型输出第一个 token 前等待数秒。相比之下,一些其他服务商以相同价格提供服务,但响应延迟要少得多。用户可以选择 Parasail 或 Friendli 等服务商,以每 $2-4 的价格获得几乎无延迟的服务。Microsoft Azure 的服务价格是 DeepSeek 的 2.5 倍,但延迟却减少了 25 秒。自我们收集这些数据以来,DeepSeek 的情况变得更加严峻,因为几乎所有 R1 0528 实例现在都以低于 5 秒的延迟进行托管。

使用相同的图表,但将气泡大小表示为上下文窗口大小,我们可以看到 DeepSeek 为了提供非常低成本的模型,在有限的推理计算资源下做出的另一种权衡。他们运行的是 64K 的上下文窗口,这是主流模型提供商中最小的之一。较小的上下文窗口限制了诸如编程等需要模型在整个代码库中连贯记忆大量 token 以进行推理的用例。在相同价格下,你可以从上图中的 Lambda 和 Nebius 等提供商那里获得超过 2.5 倍的上下文窗口大小。

深入研究硬件,我们可以通过上面的 AMD 和 NVDA 芯片在 DeepSeek V3 上的基准测试看到,服务提供商是如何解决每百万 token 成本($/Mtok)问题的:通过在单个 GPU 或 GPU 集群上同时批处理更多用户,模型提供商可以通过增加终端用户的总等待时间(以每用户中位端到端延迟的 x 轴为衡量标准),提高延迟和降低交互速度,从而降低每个 token 的总成本。更高的批处理量和更慢的交互速度会以极大牺牲用户体验为代价,降低每个 token 的成本。
需要明确的是,这是 DeepSeek 的主动选择。他们并不关心通过用户赚钱,或通过聊天应用或 API 服务为用户提供大量 token。该公司唯一关注的是实现 AGI,对终端用户体验并不感兴趣。
以极高的速率进行批处理,使他们能够以最小的算力成本进行推理和对外服务。这使得最大量的算力可以用于内部的研究与开发。 正如我们之前讨论过的 ,出口管制限制了中国生态系统在模型服务方面的能力。因此,对于 DeepSeek 来说,开源是有意义的。他们将现有的算力保留在内部,而其他云服务可以托管他们的模型,从而赢得用户心智和全球采纳。虽然出口管制极大限制了中国在大规模推理模型方面的能力,但我们认为,这并未同等程度地阻碍他们训练有用模型的能力,这从最近腾讯 、 阿里巴巴 、 百度 ,甚至红点的发布中可见一斑。
Anthropic 其实和 DeepSeek 比他们自己愿意承认的还要相似
在人工智能领域,唯一重要的就是算力。像 DeepSeek 一样,Anthropic 也受限于算力。Anthropic 将产品开发重点放在了代码上,并且在像 Cursor 这样的编程应用中得到了广泛采用。我们认为,Cursor 的使用情况是最终的评估标准,因为它代表了用户最关心的: 成本和体验 。Anthropic 已经连续一年多排名第一,这在 AI 行业相当于几十年。
注意到像 Cursor 这样的令牌消费者取得的成功后,公司推出了 Claude Code,这是一款内置于终端的编程工具。Claude Code 的使用量激增,远远超过了 OpenAI 的 codex。
作为回应,Google 也发布了他们自己的工具:Gemini CLI。虽然这也是一款类似于 Claude Code 的编程工具,但 Google 利用其 TPU 的算力优势,为用户免费提供了极高的请求额度。

Claude Code,尽管其性能和设计都非常出色,但价格昂贵。 在许多方面,Anthropic 的代码模型的成功给公司带来了巨大的压力。 他们的算力资源非常紧张。
这一点在 Claude 4 Sonnet 的 API 输出速度上表现得最为明显。自 Claude 4 Sonnet 推出以来,速度已经下降了 40%,目前仅略高于每秒 45 个 token。造成这一现象的原因与 DeepSeek 类似——为了用现有的算力资源处理所有的请求,他们不得不以更高的批处理率运行。代码类的使用场景往往偏向于更大 token 数量的对话,这相比于 token 数量较少的休闲聊天应用,更加剧了算力资源的紧张。无论如何,像 o3 和 Gemini 2.5 Pro 这样的同类模型运行速度明显更快,这反映出 OpenAI 和 Google 拥有更为庞大的算力资源。

Anthropic 专注于获取更多的算力,并与亚马逊达成了一项重大协议,这一点我们之前已经报道过。
Anthropic 将获得超过五十万颗 Trainium 芯片,这些芯片将被用于推理和训练。不过,这一合作关系仍在推进中。尽管大众普遍认为 Claude 4 是在 AWS Trainium 上预训练的,但实际上它是在 GPU 和 TPU 上训练的。
Anthropic 也向他们的另一大投资者 Google 寻求算力支持。Anthropic 从 GCP 租用了大量算力,特别是 TPU。在取得成功后,Google Cloud 正在将其服务扩展到其他 AI 公司,并与 OpenAI 达成了协议。与此前的报道不同,Google 只向 OpenAI 租赁 GPU——并未提供 TPU。
速度是可以被弥补的
Claude 的速度反映了他们的算力限制,但总体来说,Anthropic 的用户体验优于 DeepSeek。首先,尽管速度较低,但仍然比 DeepSeek 每秒 25 个 token 要快。其次,Anthropic 的模型在回答问题时所需的 token 数量明显少于其他模型。这意味着,尽管速度有限,用户实际体验到的端到端响应时间却显著更短。
虽然这取决于具体的工作负载,但 Gemini 2.5 Pro 和 DeepSeek R1-0528 的输出字数是 Claude 的三倍以上。Gemini 2.5 Pro、Grok 3 和 DeepSeek R1 在运行 Artificial Analysis 的智能指数(该指数汇总了多个不同的基准测试分数)时,使用的 tokens 数量显著更多。事实上,Claude 在主流推理模型中输出的总 tokens 数量最低,并且相比 Claude 3.7 Sonnet 有了令人印象深刻的提升。
这一代币经济学的方面表明,服务提供商正在多个维度上努力提升模型。不仅仅是让模型更智能,而是让每个生成的代币都更智能。

推理云的崛起
随着 Cursor、Windsurf、Replit、Perplexity 以及其他“GPT 封装器”或 AI 令牌驱动应用的迅速崛起并获得主流认可,我们看到越来越多的公司开始效仿 Anthropic,专注于将令牌作为一种服务进行销售,而不是像 ChatGPT 那样捆绑为月度订阅。
接下来,我们将探讨 DeepSeek 的下一步计划,并回应有关 R2 推迟的传闻。