重新审视精益分析

框架依然适用。许多具体指标需要重写，有些则根本不再适用，而新的指标正迅速涌现。

人们经常问我，在人工智能世界里，《Lean Analytics》会如何变化。我一直在反复思考这个问题，因为变化来得实在太快了。

我的合著者 Alistair Croll 也一直在和我探讨这个问题。他思考得比我超前得多（这向来如此！），但我们看到的是同样的趋势：构建成本已大幅坍塌，模型会在你脚下不断漂移，而你的“用户”甚至可能根本不是人类。

简而言之：《Lean Analytics》的核心框架依然成立。但过去被教导必须死盯的一些具体指标，需要重写。其中一些甚至已被彻底取代。

这篇文章讲的，就是如何区分它们。先提醒一句，这会是一篇长文。我们将讨论哪些仍然有效（快速带过）、哪些正在产品指标层面发生变化（详细展开）、哪些正在商业模式层面发生变化（真正的冲击有些正发生在这里），以及接下来会出现什么（更具推测性，但同样重要）。

如果你还没读过《精益数据分析》（Lean Analytics），这里有一份快速入门

如果你读过《精益数据分析》，可以跳过这一部分（或者快速浏览一下）。你大概也可以让 ChatGPT 或 Claude 帮你概括一下。当然，你也随时可以买这本书。😉

以下内容足以帮助你跟上。

《精益数据分析》有四个值得重点把握的核心观点：

1. 了解你所处的阶段

在《Lean Analytics》中，我们提出所有企业都会经历的 5 个阶段：共情 → 黏性 → 病毒式传播 → 收入 → 规模化。

以下是几篇入门文章：

在每个阶段，都有需要跟踪的关键指标。许多创始人会对自己所处的阶段自欺欺人，急于在打下坚实基础之前就实现“曲棍球杆式”增长。在当下争相打造下一个 AI 宠儿的热潮中，这种情况尤为明显。

2. 了解你的商业模式

我们定义了六种原型：SaaS、电子商务、双边市场、用户生成内容/社区、移动端应用，以及媒体。虽然这些分类已经过时，但理解你的业务如何运作这一原则仍然至关重要。

当你绘制出业务地图后，就更容易确定应追踪哪些指标。以下是书中的一个经典示例：

你可以通过以下几篇文章，进一步理解如何绘制你的业务（以及商业模式）地图：

3. 选出那个唯一重要指标（OMTM）

在任何阶段、任何商业模式下，都会有一个你应当聚焦的单一指标。这就是“唯一重要指标”的概念。

你不可能同时解决所有问题。OMTM 能帮助你明确该优先处理什么，以及用什么正确的方式来衡量它。

以下是一些相关文章：

4. 划定底线

基准会告诉你，你何时已经获得了继续推进的资格。我们称之为“沙线”，因为它们并非一成不变。值得庆幸的是，关于特定指标目标的数据有很多，尽管在 AI 和代理型产品领域，指标和目标都在迅速变化。

这里有一篇关于基准测试的更多信息的文章：利用你最优秀用户打造超级爆款产品的 4 个步骤

这些原则在人工智能时代都没有改变

尽管《Lean Analytics》写于 2013 年，但其核心原则依然稳固。不过，今天正在构建的企业已发生显著变化。人工智能改变了用户界面、定价模式、利润率等诸多方面。AI-first 和 agentic 产品的使用方式也有所不同。人们对价值创造的预期发生了变化。平台之间的连接方式也在改变。

例子：这五个阶段并没有消失，而是每一个都被打上了一个问号。

我们需要将新指标与旧指标整合起来，以界定精益分析的各个阶段。我们需要新的指标来帮助评估我们的商业模式是否奏效。我们仍然需要衡量正在发生的情况，但我们正在改变衡量的内容和方式。

先从产品指标说起。

产品指标：六个关键转变

转变一：价值实现时间大幅缩短

传统 SaaS 的引导流程相对直接。用户注册后，经过几个步骤，便能看到产品价值，并有望再次回来使用。这一过程很少是立竿见影的，许多公司甚至并未将价值实现时间（TTV）视为优先事项。

2024 年，我开展了一项关于 TTV 的研究，结果非常引人关注。以下是其中一个例子：

你应该如何看待 AI 产品的 TTV 价值？

我的经验是：人们愿意尝试，但也很善变。

随着人们对 AI 越来越熟悉，他们也逐渐意识到，这类东西多少仍带有一些试验性质。他们愿意试一试，但这种意愿是有限度的。

如果他们不能确信输出质量足够高，就会很快转身离开。而且，他们的预期门槛也在不断提高；人们了解那些铺天盖地的宣传，因此会期待你的 AI 产品真正让他们惊艳。

这不仅仅关乎聊天类产品。用户丢进一份杂乱无章的文档，就期待得到一份打磨完善的提案；上传一张电子表格，就期待获得清晰整洁的分析；勾勒一个线框图，就期待生成一个可用的 UI；交出一份合同，就期待立刻得到审查。输入方式各不相同，期待却始终如一：快速产出高质量结果，并且最好一次成功（或至少在极短时间内做到）。

但有趣的是，事情也有另一面。 达到熟练所需的时间也大幅缩短。 如今，非技术用户无需经历过去那种门槛极高的学习曲线，也能生成专家级别的输出。你的激活曲线过去曾是一条学习曲线，如今可能只需一两次交互。

这确实是 Lean Analytics 式的一次重大转变。过去需要数周才能达到熟练，如今可能只差一次输入。相应地，监测体系也必须随之调整。

缩短达到胜任所需的时间是件好事。但这可能会对商业模式产生负面影响（我稍后会重点谈这一点）。如果由于 AI 填补了专业能力缺口，一个人现在就能完成过去三个人的工作，那么你就不再需要让公司里的每个人都完成上手培训。这会打击你的席位数量、扩展收入以及 ACV 曲线。用户更满意了，席位却更少了。这种张力从“转变 1”这里就已开始，并会一路传导到后续的一切环节。

衡量什么： 首次产出有用结果所需时间，以及无论第一次尝试是提示词、上传还是草图，首次尝试就获得有用结果的用户比例。

转变二：激活不再是确定性的

在传统 SaaS 中，激活是一个确定性事件。如果用户完成了一系列步骤（连接数据、邀请队友、创建项目），他们就会得到可预测的结果。你可以对漏斗进行埋点，因为 A + B + C 会稳定地产生 D。我曾与 Ben Williams 就早期 PLG 指标这一背景撰文讨论过这一点，而其中大多数指标都默认这种确定性关系成立。

AI 打破了这一假设。

在 AI 产品中，用户即便完成了激活漏斗中的每一步，仍然可能只得到平庸的结果。他们设置好了账户，连接了数据，上传了文档，点击运行。可结果却是……不过如此。你的仪表盘显示他们已经被激活，但事实并非如此。

激活不再是一个非此即彼的门槛，而是一个按质量加权的事件。

这之所以重要，是因为产品中的一切都是一个循环。Nir Eyal 的 Hooked 为我们提供了理解产品习惯如何形成的主导心智模型：触发、行动、可变奖励、投入。每一次在这个循环中的往返，都会加深这种习惯。这个框架在 AI 时代依然适用，但有一个关键的例外，打破了其底层大量数学逻辑。

在经典的 Hooked 模型中，“动作”是确定性的。用户采取动作后，就会出现奖励（奖励幅度可能不同，但会稳定出现）。AI 循环在动作的两端都引入了变数。用户会不断延展并测试你所设定范围的边界，通过提示或提出要求，让产品去做一些你从未设计其执行的事情。输出质量也会参差不齐。单一循环中出现两个变数来源，确实更难以进行监测，而旧有的留存计算方式并非为此而构建。

这并不意味着激活必须简化为单一提示。在 AI 产品中，复合式多步骤激活依然可以运作得非常出色，而且当这些设置确实能提升输出效果时，其表现往往比一次性激活更好。连接上下文、上传参考资料、配置模板、让工具学习你的语气风格。更多的设置可能意味着更高的首次运行质量，而这恰恰是你想要的。变化并不在于“激活变短了”。真正的变化在于，完成这些步骤并不能保证用户获得了价值。

应衡量什么： 旧有的漏斗完成率指标仍然适用（目前如此），但要将其与“转变 1”中的首次尝试质量信号结合起来。漏斗指标告诉你，用户完成了这些步骤。质量信号则告诉你，完成这些步骤是否真正产生了价值。两者缺一不可，你的激活仪表板必须将它们并列展示。

转变三：参与度是有方向性的（而且其轴线并非产品类型）

传统的产品经验认为：用户在产品中花费的时间越多越好。会话更长。DAU 更高。功能使用更深入。几乎每一份面向投资人的演示文稿里都会写上会话时长。

AI 颠覆了这个问题。正确的视角不在于参与度是上升还是下降。更根本的问题是： 用户的时间究竟花在了什么上？

花在挣扎上的时间 （反复生成、反复提示、调整输入，试图得到有用输出）= 糟糕的参与度，而且次次如此。高再生成率、长时间会话却没有复制或发布事件、用户在流程中途放弃。这是披着参与度外衣的失败，它会美化你的仪表盘，而你的产品却在无声走向衰亡。
花在让 AI 替用户完成工作上的时间 （操作电子表格、生成提案、审阅文档、起草电子邮件）= 良好的参与度，而且可能非常高。这些分钟代表的是 AI 的劳动，而非用户的摩擦成本。一个用户的电子表格被 AI 重组了 20 分钟，说明他获得了真实价值。这个参与度数字是产品特性，不是问题。
花在探索或创作上的时间 （头脑风暴、构思创意、迭代设计或草稿）= 良好的参与度。传统直觉在这里依然成立。
用户零耗时，任务完成 = 对于智能体和自动化产品而言，这是理想状态。最好的结果是无形的。

别再问 “参与度是上升了还是下降了？” 开始问 “时间究竟被用在了什么地方？” 这才是当下产品经理该问的问题，而大多数仪表盘并未被设计成能够回答这一点。

GitHub Copilot 将建议被接受的比例作为核心指标，据已发表的研究显示，这一比例在全行业范围内徘徊于 27%至 30%。这是传统 SaaS 中根本不存在的一项 KPI。它直接衡量的是 “AI 完成的工作是否有用？”，而不是 “用户是否留了下来？” 两者差别巨大。

转变四：用户黏性关乎流动，而非壁垒

传统的黏性本质上是一场频次游戏：DAU/MAU、回访、习惯循环。Andrew Chen 多年前曾在一篇广为人知的文章中写到 DAU/MAU 在哪些情况下会失效：间歇性但高价值的产品、按周节奏使用的工具，以及任何不符合日常习惯模式的产品。AI 并没有让 DAU/MAU 失去意义，而是放大了 Andrew 早已指出的这些局限。

两件事正同时发生。

首先，用户期待用一款 AI 产品完成比它所取代的线性 SaaS 工具更多样的任务。 “这款 AI 肯定能比那个单一功能工具做更多事，对吧？” 正逐渐成为顾客的默认心态。这是真正的机会。产品经理应积极挖掘用户在当前产品范围之外所输入的提示、上传的内容以及提出的需求。 每位用户的任务多样性是此前并不存在的增长向量，而你的产品应向何处扩展的信号，此刻就存在于你的提示日志和交互数据之中。

其次，具有黏性的 AI 产品，与其说依赖把用户圈住的壁垒，不如说更在于融入他们的工作流程。Trace Cohen 最近撰文《护城河已死，运河万岁》，对此作了精准概括。他写道：“护城河通过排他性实现扩张，运河则通过吞吐量实现扩张。”

在 AI 时代，黏性更像是“运河式思维”。你的不可或缺，来自吞吐能力和深度嵌入，而不是因为切换成本把用户困住。正如 Trace 所说：“‘航线’往往比帝国更长久。”

应衡量什么：DAU/MAU 仍然是一个基础指标（尤其是在仍有人类参与闭环时），但应搭配那些真正能够反映流动性的指标：

每位用户的任务多样性。 用户是否正在把你的产品延伸到你最初并未设定的使用场景中？
集成深度。 用户有多少工具和数据源连接到了你的产品？每一项连接都是一条运河。
触发因素的多样性。 什么会让用户再次回来？是单一触发因素，还是多种触发因素？多个入口点意味着你已嵌入他们工作流程的多个环节。
工作流链式衔接。 你的产品是否会将流程交接给其他工具，或从其他工具接收交接？作为多步骤流程中的一个节点，正是“处于流程之中”的字面定义。

当人类不再是主要用户时，经典的 DAU/MAU 将变得棘手。

不要做一条狭小的运河

把“粘性”理解为流程中的一环，也有其失效模式。所谓“处于流程之中”，也可能意味着你只是连接两条大河的一条小运河——今天很有用，但也容易被任意一侧河岸的拥有者拓宽、收窄，或改道。今天你还不可或缺；明天，上游工具推出一个 AI 功能，就可能吞掉你那一块业务。

防御性的做法，是吃下更多链条环节。传统护城河式软件臃肿、迟缓、昂贵，而且并非原生 AI。真正的机会，不是整齐地夹在这两类工具之间，而是取而代之。

Claude Code 并不只是待在你的 IDE 旁边。它取代了编辑器的足够多功能、Stack Overflow 的足够多作用，以及开发者过去需要手动完成的足够多实际工作，从而成为一种不同形态的产品。这就是这种模式。

因此，在上述四项指标之外，再增加一项指标： 替代广度 。当顾客采用你的产品时，他们放弃了多少相邻工具、订阅服务或手动流程？如果答案是零，你仍然只是一条很容易被绕开的狭窄渠道。如果答案具有实际意义，你就正在成为其他一切流经的主干道。

转变五：质量如今已成为一级指标

我们又回到了这个问题。变化 2（激活是一个按质量加权的事件）与这一变化有着共同的根源：AI 的输出是概率性的，而非确定性的。正是这一单一变化，连锁影响了你从 SaaS 方法论中沿袭下来的每一项指标。激活是这种影响显现的一个环节，持续的产品质量则是另一个，而这正是这一变化关注的核心。

传统模式下：功能要么可用，要么不可用。你将其上线，埋点追踪，然后继续推进。

AI 的现实是：输出是一种分布，而不是一种属性。

一个“80% 足够好”的产品，与一个“95% 足够好”的产品，在用户感受中几乎是两种完全不同的产品。这个差距的重要性，超过了你转化漏斗中的任何其他差距。质量不是你一次性交付的东西，而是你必须像关注留存一样持续监测的指标。

Klarna 就是那个警示案例。2024 年，他们大举押注纯 AI 客服，宣称 AI 完成了 700 名客服人员的工作。到了 2025 年年中，CEO 公开收回了这一说法，并重新开始招聘人工客服。

还有第二个大多数团队追踪得远远不够的因素：脆弱性。 你的质量取决于你并不拥有的模型、你几乎无法控制的集成，以及那些会在上游服务提供商更新某些内容时悄然退化的提示词。即使团队里没有任何人改动代码，质量也可能下滑。这是一类新的风险，而传统仪表盘上根本没有它的位置。

应对之道，是基于你的真实提示词，衡量不同模型之间的表现。如果你的产品中使用了不止一个模型（而大多数团队现在如此，或将会如此），那么每个模型都有各自的质量分布，而且都可能独立发生变化。对你接触到的每一个模型运行同样的评估，并观察其中的差距。当某家提供商出现退化时，你会看到；当另一家有所改进时，你也会看到。你的模型如今是一家必须主动管理的供应商，而不再是一个可以配置后便置之不理的依赖。

衡量什么，首先要从基础指标开始： 将点赞率和重新生成率作为核心信号。重新生成率在“转变 3”中体现为一个反映用户困扰的指标；而在这里，它则是其反面：同一个数字，回答的是不同的问题。

除此之外： 像跟踪留存一样，持续跟踪 eval harness 得分。要在你使用的每一个模型上运行这些 eval，而不只是某一个，这样你就能在回归和改进发生时及时发现。

最后： 按用户群组划分的质量分布。新用户体验到的产品，与重度用户体验到的产品并不相同。他们还不知道该如何使用。默认情况下，这个工具对他们来说表现更差，而大多数团队并没有衡量这种差距。

侧栏：Alistair 谈为何 eval 是新的 MVP

我的《Lean Analytics》合著者 Alistair Croll 最近写了一篇我认为每位产品经理都该读的文章：“ 反馈循环就是产品。”

他的核心论点与这一转变完全一致。在精益创业时代，MVP 是用于检验你最高风险假设的最小化实验。而在 AI 时代，你最高风险的假设已不再是 “模型能做到这一点吗？”（它能）。而是 “在对用户最重要的情境中，我们的系统是否能够正确运行？”

他写道：“评估套件就是 MVP：它是那组最小化的行为集合，其改进可以被自动化并加以衡量。”

如果你在打造 AI 产品，却没有评估框架，那你就没有产品。你有的只是感觉。去读那篇文章吧。这是我所见过的，对“将评估作为管理工具”最清晰的阐释。

转变六：对 AI 的信任与适应程度是领先指标

这并不在《Lean Analytics》一书中，因为当时没有这个必要。技术熟练度一直都很重要，但其影响范围从未像现在这样广泛。对于传统 SaaS 工具来说，如果用户会点击按钮、能读懂标签，他们就能使用产品。而在 AI 场景下，对这项技术本身的适应程度是一个变量，它会影响你所关心的每一个下游指标。

大局已然清晰。Gallup 于 2026 年 2 月对美国 23,717 名员工开展的调查发现，区分 AI 采用者与观望者的并非是否能够获得这些工具，而是员工是否认为 AI 有用、合乎伦理，并适合其工作流程。非使用者往往质疑 AI 是否与自己的岗位相关。低频使用者则看到一些潜在价值，但受到实际顾虑和风险的掣肘。

斯坦福大学《2026 年 AI 指数报告》显示，全球员工采用率为 58%，但美国仅为 28.3%，远低于新加坡的 61%和阿联酋的 54%。同一款产品可能建立在截然不同的用户群体之上，而大多数团队并未对此进行衡量。

在 B2B 语境下，我的假设是，AI 原生用户与对 AI 持犹疑态度的用户，在激活、黏性和任务多样性曲线上会呈现出显著不同。相同的产品、相同的套餐、相同的角色，却表现出不同的行为。AI 原生用户会把工具的边界拉得更远，以你原本未曾设计的方式向其发出提示，并在每次会话中获得更多价值。对 AI 犹疑的用户则更为谨慎，对工具使用不足，并会在产品其实运行正常的情况下，悄然得出“这不适合我”的结论。如果你把他们作为同一个群组来衡量，平均值就会掩盖真正的情况。

在 B2C 语境下，利害关系则更为私密。面向陪伴、心理健康支持、友谊和情绪健康的产品，如今已成为一个真正的类别。斯坦福的数据表明，全球有 52%的受访者对将 AI 用于陪伴感到兴奋，而在新加坡和印度尼西亚等地，这一比例更是超过 80%。在这些场景中，用户是否愿意接受 AI，是产品最核心的问题。价值创造几乎可以直接通过用户是否愿意持续出现、持续交谈、并持续与一个非人类对象进行情感互动来衡量。这与“他们是否完成了任务？”完全是不同的衡量框架。

信任也并非只有一种。它至少包含四个方面，而且它们彼此独立变化：

对输出的信任：这是否正确？这是否有用？
对数据处理的信任：我的提示词会被发送到哪里？谁能看到它？
对安全性的信任：这会被利用或泄露吗？
对可靠性的信任：如果我依赖它，它会让我出丑吗？

我还不知道有哪些团队已经在自己的产品分析中，针对“AI 舒适度”群组细分开展严格研究。但这种差异确实存在，衡量它的工具也已具备，而且这样做是有意义的。只需在引导流程中加入一个问题（“你在日常工作中多频繁使用 AI？”），再结合你很可能已经在采集的行为信号（提示词复杂度、重新生成率、到使用高级功能的时间），就足以建立一个可用的群组视图。用这一视角重新审视你现有的激活、留存和信任指标，很可能会发现一些被总体仪表板掩盖的差距。

应衡量什么：

按 AI 舒适度分群的采用与激活曲线 ，而不只是按角色或套餐划分。
接受率 ，正如我们在“转变 3”中所看到的，它衡量的是“AI 的工作是否有用？”。当按 AI 舒适度分群切片时，这一指标尤其能揭示问题。AI 原生用户与对 AI 持犹疑态度的用户，建立信任的速度有多快？相比绝对数值，曲线的斜率更能说明你的产品是在赢得信任，还是在失去信任。
覆盖率 ，指用户重写、编辑或重做 AI 输出的频率。覆盖率下降，意味着信任信号上升。
对于具有情感亲密属性的 B2C 产品： 会话深度、回访敏感功能的比率、互动的定性语气。
数据/安全担忧的信号： 功能退出使用、询问“这些数据会流向哪里？”的支持工单，以及刻意避开敏感输入的使用行为。

对 AI 的信任与安心感，并不是什么虚无缥缈、无法衡量的东西。它们会在你的数据中留下真实信号。要像衡量留存一样为它们建立监测体系，因为在 AI 时代，它们实际上就是留存。

商业模式指标：三大关键转变

产品指标会改变。更大的冲击，是 AI 正在如何重塑商业模式。

设想这样一个场景：你的 AI 功能上线了。用户参与度是你产品中任何其他功能的 10 倍。你的 CEO 欣喜若狂。整整一个月，每次全员大会的演示文稿里都有你。

六个月后，在财务复盘中发现：毛利率已然崩塌，核心用户带来的成本高于其支付金额，而你最亮眼的参与度指标，恰恰正扼住你的损益表咽喉。

这正在各类产品中悄然发生。

转变一：每次成功完成任务的成本，成为你新的 CAC 计算方式

传统 SaaS：每位顾客的获客成本、客户终身价值和毛利率都相对稳定。规模扩大带来的是成本下降，而不是成本上升。新增一名用户的边际成本几乎为零。

AI 现实：你的高频用户确实会让你亏钱。

Token 是可变成本。固定费率订阅加上重度用户，意味着每个账户都会出现负利润。SaaS 的客户终身价值曲线不再成立。用户越多地使用你的产品，你的单位经济效益就越差，这恰恰与你想要的方向完全相反。

应衡量什么：

每位活跃用户的毛利率。不是每位付费用户，而是每位活跃用户。差别很大。
每次成功完成任务的成本
模型成本占营收的百分比
高频用户的边际成本与其带来的边际收入之比

Intercom 的 Fin 就是把这件事做对的一个绝佳例子。他们没有按席位收费，而是定价为每次成功解决收费 0.99 美元。只有当 Fin 真正解决了问题时，你才需要付费。这就是基于结果的定价方式，而且它在数学上诚实地反映了 AI 产品的实际运行成本。ElevenLabs 从一开始就采用了基于使用量的定价。Anthropic 和 OpenAI 也都曾公开探讨过面向消费者的订阅经济模式。

如果你的定价和指标不能反映可变计算成本，你就是在盲飞。

（前些时候，我曾写过更多关于商业模式如何塑造哪些指标更重要的内容。核心论点依然成立，真正新的变化在于成本结构。）

转变二：定价如今也是产品决策的一部分

基于使用量和基于结果的定价模式仍处于早期阶段。混合模式（较低的月费加上按使用量计费，并对超额部分收费）很可能是大多数 AI 产品最终的落脚点。

对产品经理而言，关键在于：如今定价决策也是产品决策，而不再只是财务决策。定价模型是在告诉用户，怎样才算成功。它必须与底层的单位经济模型相匹配。若这一步出错，你要么会吞噬利润率，要么会限制增长。有时两者都会发生。

想想“每月 20 美元无限次 AI 查询”和“每次成功结果 0.99 美元”之间的区别。这不仅仅是两种定价模式。从用户的角度看，它们是两种完全不同的产品。前者传递的信息是：“放心试验吧，你学习的成本由我们承担。”后者则是：“只有你赢了，我们才算赢，而你必须想清楚‘赢’究竟意味着什么。”两种方式都行得通。但没有一种是中性的。

这是真正的转变，因为大多数产品经理过去并不需要深入思考定价问题。那曾是财务部门的问题，或 CEO 的问题，或者是“等需要时再想办法解决”的问题。如今这种情况正在迅速改变，而原生于 AI 时代的产品经理必须将定价视为产品设计的核心组成部分。

题外话：我在为 Highline Beta 构建 AI 工具时（我们很快就会发布一些东西！），花了很多时间为这些工具添加埋点，以追踪 AI 的使用情况并计算成本。我相信市面上肯定有工具可以帮你完成这些事，但我想亲自弄清楚该怎么做：在构建中学习。

看看哪些操作（功能）会推高成本，这很有意思；接着判断它们是否带来与之相称的价值，再进一步弄清楚该如何为所有内容定价。

你的产品中可能包含一些成本高昂却并未为用户创造大量价值的 AI 功能，这很容易把一切都拖垮。添加 SaaS 功能通常成本较低（即新功能的运行成本不会高得离谱），而这对于 AI 功能来说显然并不成立。

转变三：实验已不再是虚荣指标

实验数量过去总让人觉得是一项虚荣指标。在人工智能时代，我认为它已成为至关重要的指标。而它之所以获得这样的地位提升，是因为一种此前并不存在的特定机制。

借助 AI 进行产品开发，让你能够以快得多的速度发布更多内容。交付一项功能的成本已经大幅下降。这听起来似乎是一个毫无疑问的胜利，但事实并非如此。

如果你发布得更快，却没有开展真正的实验，那么你就是在凭感觉往产品里乱塞东西 （据我所知，这个词是我刚刚发明的！）

你添加功能，只是因为你能做，而不是因为你有证据证明它们会创造价值。大多数这类功能都不会产生价值。有些会被忽视。有些会以你未曾预料、也无法衡量的方式被使用。产品变得臃肿，代码库变得臃肿，用户的认知负担也随之加重。

除此之外，你推出的每一项 AI 驱动功能，其使用都伴随着成本。不是一次性的构建成本，而是持续的单次调用成本。推理并非免费。因此，靠“感觉堆功能”带来的臃肿不只是杂乱无章，更是一种会随着使用而不断累积的负担。用户每次使用一个你并无证据证明其必要性的功能，你都在为 token 付费。它用得越多，成本就越高，而你甚至都不知道它是否在创造价值。

这是一种尤其糟糕的结果：缓慢、昂贵，而且尚未得到验证，同时集于一身。AI 时代之前的产品臃肿只是让人恼火；AI 时代的产品臃肿则会吞噬利润空间。

强有力的实验是唯一的防线，而《Lean Analytics》在这里的价值不是下降了，而是提升了。选择一个指标、写下一个假设、对其进行压力测试，并决定下一步该怎么做，这种纪律性正是一个正在学习的团队与一个只是在交付产品的团队之间的区别。Lean Analytics 循环正是为此而设计，而且从未像现在这样重要。

一个有用的筛选标准是：对每一次实验，在发布之前先写下假设和决策标准。若你做不到这一点，那你就不是在做实验，而是在做一次发布。两者各有其用，但不要把它们混为一谈。

衡量什么： 将每季度实验次数作为真正的指标，而非虚荣指标。在上线前写明假设。根据数据淘汰功能，而不只是不断增加功能。还要衡量生产环境中每项功能的单位成本，因为 AI 时代的产品审视不再只是 “这项功能有人用吗？”，而是 “这项功能的使用是否足以证明我们持续运营它所付出的成本是合理的？”

将这一切串联起来：价值密度

在结束商业模式这一话题之前，先说明一点。上述三个转变背后贯穿着一条原则，值得单独点明。

Ben Murray，SaaS 领域的 CFO 对此说得很清楚：“如果说 SaaS 关乎利润率效率，那么 AI 关乎价值密度。你优化的是每一美元算力所能带来的产出、生产力，或所替代的劳动力规模。”

这就是新的单位经济问题，而且是可以衡量的。相关数据中已经开始显现这些数字。ICONIQ 于 2026 年 1 月发布的《State of AI》报告指出，对于处于扩张阶段的 AI B2B 公司而言，推理成本占收入的 23%。同一份报告显示，2026 年 AI 企业的平均毛利率为 52%，高于 2024 年的 41%，但仍明显低于成熟 SaaS 公司通常达到的 70%至 90%。Bessemer 认为 AI 优先公司的毛利率在 50%至 60%。Jason Lemkin 的表述是：“随着规模扩大，你需要越来越多的推理能力。你无法在不削弱产品的情况下削减这部分投入。”

那么，究竟该如何衡量价值密度？它并不是单一的比率，而是三个，而且它们各自独立变化。

每项任务的交付成本。 你需要付出多少 token 和算力成本，才能产出一次成功的结果？这就是你漏斗的最底部。如果这个问题答不上来，其他问题也无从谈起。
每一美元算力所获取的收入。 你的收费是否足以覆盖可变成本并留出利润空间？在固定费率套餐下，遇到重度用户时，该账户每一美元算力对应的收入甚至可能为负。
每一美元算力成本为用户带来的价值。 这是大多数团队都会忽略的一项。用户获得的东西，是否值得你为此花费的成本？一个团队可能在前两个比率上表现出色，却仍然构建出一款没人愿意为之支付更多费用的产品。一个团队也可能在第三个比率上很强，但经济性却糟糕透顶。只有同时衡量这三项，这种诊断才有效。

未来：人类逐渐退出闭环

商业模式正变得愈发复杂。但产品仍必须驱动这些模式。这是《Lean Analytics》中的一项原则，至今丝毫未变。

真正发生变化的，是“产品”究竟是什么，以及是谁（或什么）在使用它。贯穿下文的一条主线，是同一种转变在四个不同距离上的呈现。人正逐渐退出这个回路。依然在构建，依然在使用，依然在付费。但这些行为越来越多是通过、在背后，或与那些决定实际发生什么的代理并行完成的。

过度构建是新的过拟合

如今，构建变得如此容易，以至于风险已变成：推出的东西超过用户能够消化的程度，或者超过你的数据所能证明其确实正确的范围。每一个功能都有成本——认知成本、运营成本以及实实在在的成本——但当增加一个功能的成本几乎降为零时，想把一切都推出去的冲动就很难抗拒。

Alistair 曾从工程角度撰文讨论过这个确切的问题：

回退机制与删除问题

在《回退机制将害死我们》一文中，Alistair 认为，AI 消除了过去迫使人们进行删除的摩擦。旧代码之所以被保留下来，是因为重写成本高昂；旧功能之所以继续存在，是因为开发代价不菲。摩擦本身，就是垃圾回收机制。

如今，既然构建成本已变得低廉，就没有什么会被修剪掉。回退机制层层堆积，变成“看不见的承重墙”。测试也变得不再诚实（AI 生成的测试往往会为了让自己通过而进行优化，而不是验证期望的行为）。整个系统就在无声无息中不断臃肿。

他写道：“删除似乎比保留风险更大，而在毫无阻力的情况下，东西就会留存下来。”

产品经理必须对此负责。如果你的团队里没有人说“这个必须砍掉”，那你就在积累一种连你自己的指标都看不见的债务。更糟的是，正如 Alistair 所指出的那样，你连回归测试套件都不能信任，因为测试是 AI 写的，测试结果也是 AI 在评判。去读读那篇文章吧。

那些能够抵制“构建过多”、并学会像衡量新增功能一样审慎衡量删除内容的产品经理，将会胜出。

将智能体视为用户

当一个 Claude 智能体代表一个从未见过你 UI 的人类使用你的产品时，谁才是用户？“激活”究竟意味着什么？会话时长又是什么？当使用你产品的对象没有注意力限制、不会疲劳、也不存在流失风险时，什么才算是参与度？

我并不完全知道。我也不确定现在还有谁真正知道。

我确实知道的是：如果你今天还没有把代理流量作为一个独立群组进行埋点监测，那么当这种转变发生时，你就会错过。而且，这种转变一定会发生。

务实的做法是，开始采集用户代理字符串、API 模式，以及任何其他有助于你区分“由人类操作界面”和“由智能体调用 API”的信息。将它们作为不同的漏斗分别跟踪。二者的行为不同，成功标准不同，把它们混在同一个指标里，最终会让你两边都得出错误结论。

侧栏：Rob May 谈 HX 为何取代 UX

Rob May 最近写了一篇值得一读的文章：“The End of The Funnel: Why HX Is The Next Big Design and Investment Frontier。”

他的观点是：过去三十年的用户体验设计，核心一直是让人类点击正确的按钮。转化漏斗。新手引导流程。针对按钮颜色进行 A/B 测试。而当一个自主智能体替你预订航班时，它会跳过这一切。它调用一个 API，然后返回结果。

他有一句话：“漏斗不只是坏了，它已经无关紧要了。”

取而代之的是 Rob 所说的 HX，即 Harness Experience。这个比喻是有意为之。你不是在操作胸背带，而是把它穿在身上。它能分散负载，让你始终与强大的事物相连，并让你无需事事亲力亲为也能保持掌控。HX 是这样一层设计：由人来引导、信任并审计一支代表其行事的智能体队伍。用户不再是司机，而成为导演，相应的衡量指标也随之改变。你不再衡量点击和转化，而开始衡量结果、监督和干预。

如果你想更清晰地理解“把代理视为用户”在实践中究竟意味着什么，Rob 的这篇文章是我读过的最佳解读。

可发现性与复用

两个问题，一个根源：一个不属于你的 AI 决定你的产品是否会被使用。

可发现性是显而易见的问题。用户打开 ChatGPT 说：“帮我规划一次墨西哥之旅。”ChatGPT 会决定是否调用 Expedia、Booking、Kayak、某个细分领域的专业服务，或者以上都不选。用户从未亲自选择工具。是 AI 替他们做了决定。过去三十年里，分发的核心是让人类发现并选择你。而在智能体时代，人类把选择权委托出去，你竞争的是 AI 的选择逻辑，而不是人类的注意力。

复用是大多数团队尚未真正应对的问题，也是这两者中更令人不安的一个。用户注册并付费使用 Canva。他们安装了 Canva 的 ChatGPT 应用。随后，他们请求 ChatGPT 帮助设计某样东西。ChatGPT 仍然会决定是否调用 Canva。用户其实已经做出了选择。用户也已经付了费。除非用户明确提出要求，否则每一次用户通过 AI 完成工作时，AI 都可以推翻这一选择。

Claude 技能也是同样的逻辑。你安装一个技能后，可以明确说明何时使用它，也可以由 Claude 自行决定。随着越来越多的工作流经由 AI 助手完成，AI 不仅成为获取用户的守门人，也成为你已拥有工具能否被再次使用的守门人。拥有顾客，并不意味着掌握了顾客真正获得价值的那些时刻。这是一种新型的平台风险，而大多数团队尚未将其计入考量。

应开始追踪的指标：“拥有或付费购买该产品的用户”与“在可以调用该产品时，AI 实际调用了它的用户”之间的差距。对于付费订阅者而言，如果其 AI 已有 30 天未调用该产品，其风险要高于一个只是没有直接登录的订阅者。前者可能再也不会直接登录了，他们可能只会和 ChatGPT 交互。而 AI 可能已经悄悄停止选择你。

代理到代理产品

当你的产品是一个由代理组成、并与他人的代理协作的网络时，唯一重要指标是什么？黏性是什么？流失又该如何定义？

我们尚未完全知道答案。但那些在2026年认真思考这些问题的产品经理，将写出这本书的下一个版本。

如果你还记得产品指标的第二个转变，我当时借助了 Nir Eyal 的《Hooked》作为产品循环的主导心智模型。触发、行动、奖励、投资。当人类正逐渐退出这一循环时，经典“钩子模型”的每一个阶段都必须重新审视。

这四个阶段依然存在。只是如今，每个阶段都多了一个五年前并不存在的问题：当触发是由 AI 发起时，“触发”意味着什么？当行动由 AI 执行时，“动作”又是什么？对于一个无法感知奖励的事物，你该如何给予“奖励”？而对于一个不记得此前循环的系统，或一个对自己参与过的每一次循环都拥有完美记忆的系统，“投资”这一概念是否还适用？

弄清这一点的产品经理将引领潮流。他们将为 AI“用户”打造新产品和新体验，同时找出该衡量什么，以判断自己是否正朝着正确的方向前进。

今天真正该开始做什么

精益分析的框架依然适用。了解你所处的阶段。了解你的模式。选出那个唯一重要的指标。划出一条不可逾越的界线。

你从 SaaS 方法论中沿袭下来的那些具体指标，需要重写。价值实现时间已大幅压缩。参与度具有方向性。黏性就是信任。质量是一个群组，而不是一种属性。你的高阶用户可能恰恰是你单位经济效益上最大的漏洞。

以下是我从今天开始会具体采取的做法：

审视你的参与度指标。 不要再问“参与度是上升了还是下降了？”，而要开始追问“用户的时间究竟花在了什么地方？”把时间耗费在挣扎上，是披着参与外衣的失败。把时间花在让 AI 代用户完成工作上，才是真正的价值。无论是哪种情况，仪表盘上的数字看起来都一样：你的任务，是分清自己看到的究竟是哪一种。要是判断错了，接下来一个季度你优化的就会是失败。
增加按用户群体划分的质量视角。 将新用户的输出质量与资深用户分开衡量。两者之间的差距可能比你预想的更大，而且这能准确告诉你引导流程需要在哪些方面改进。
关注每位活跃用户的毛利率。 不是每位付费用户，而是每位活跃用户。你最优质的用户，要么是你最宝贵的资产，要么是你最大的责任，而你当前的仪表盘很可能并不能告诉你答案。
开始单独监测代理流量。 即便它现在只占 2%。这种情况不会持续太久，而你会希望在流量形态发生变化之前，先掌握基线数据。
构建一套评估框架。Alistair 说得对。如果你无法系统性地评估你的 AI 是否在做你希望它做的事，那你就没有一个产品。你有的只是感觉。
评估你如何构建功能。 你是在开展严谨的实验，还是在用“感觉驱动”的功能不断堆砌，最终把产品拖垮？你的团队效率和成效如何？

这本书依然经得起检验，只是观察问题的视角已经变了。

面对 AI 正在推动形成的产品、商业模式和指标变化，你将如何应对？

重新审视精益分析

框架依然适用。许多具体指标需要重写，有些则根本不再适用，而新的指标正迅速涌现。