避开“黄砖路”之死：AI 时代垂直应用层创业的求生与突围

作者：Joe Schmidt IV

美国 | 科技 | 观点 | 文化 | 图表

David Haber 最近在 a16z 播客上与 Apollo 的 Marc Rowan 进行了对话——点击此处查看他们的对话。- 广告

我不断从创始人和潜在员工那里听到的问题是：AI 应用层还有构建空间吗？还是说 OpenAI 和 Anthropic 会吞噬一切？

这个问题背后隐藏着一种特定类型的 AI 妄想症。有些人得出结论，认为唯一能避免沦为永久底层阶级的持久之地，要么是在大型实验室内部，要么是在前沿领域从事机器人技术、硬科技或类似方向——理论上，任何”实验室无法触及”的领域。如果每一款软件都即将被吞噬——无论是被 Codex 或 Claude 直接吸收其工作，还是被未来某个模型让你所构建的一切变得多余——那就快跑吧！

听着，我和几乎任何人一样都是 AI 至上主义者，但我认为他们只说对了一半。实验室确实正在蚕食应用层的巨大版图。但”应用层”并非单一的同质化机会。正确的框架是看你是在黄砖路上，还是在奥兹国的其他地方。

黄砖路是我们对实验室正在走的道路的简称，他们正在这条路上投入非凡的资源。实验室最适合解决代码生成、写作或图像创作这类问题的原因在于，这些问题会随着原始模型能力的提升而改善：每一分钱花在预训练和后训练上都能提高产品质量。与此同时，奥兹国的其他地方则居住着更复杂、通常是垂直领域的问题，这些问题并不像给商业用户提供一个带有标准工具和计算机使用权限的水平工具那么简单。其价值更多来自于围绕模型构建的脚手架——使输出在特定行业内可信、合规且可操作——而非底层模型的原始能力（尽管这仍然很重要！）。

我们正在实时目睹这一点的上演，因为 OpenAI 和 Anthropic 实际上是在告诉市场，他们无法用一个通用的 AI 同事解决所有问题。他们已经宣布了大规模的前沿部署合资企业，围绕为其模型进行企业级配置和定制来构建整个公司。如果你认为下一个模型版本就能解决这些问题，你就不会向这些项目投入数十亿美元。

因此，如果你想通过构建 AI 应用来致富——避开黄砖路，在奥兹国的其他地方建设。以下是我们学到的东西，以及我们投资组合中的一些创始人关于什么行之有效的经验。

黄砖路

如果你正在创办一家公司，黄砖路是最明显的道路，但也是最危险的。拿一个高性能模型，接入一些现成的连接器（如 G Drive、Slack、Salesforce、Notion、GitHub），然后在上面加一个某种智能体编排层。神奇！

问题在于，这正是实验室用 Cowork 和 Codex 在做的事情。显然，他们拥有模型，这给了他们更好的利润率、控制权，以及对其下游任何人施加定价权的能力。但也许最重要的是，他们还拥有定义其产品旨在解决什么问题的架构选择权。到目前为止，他们一直有意坚持模型加工具调用的模式，而这正是道路上所需的水平低步骤数工作所需要的。即使一家初创公司能以某种方式超越 Codex 或 Claude Code，实验室也拥有庞大的分销渠道和 AI 领域最大的品牌光环。

如果你是一家 AI 应用公司，用同样的连接器、没有底层子智能体或配置、也没有分销渠道来执行这套策略，那你很可能正走在一条通往虚无的道路上。

奥兹国的其他地方

对初创公司来说，并非全是悲观和绝望。在黄砖路之外存在着巨大的机遇，初创公司有清晰的路径来拥有自己的客户并解决复杂问题。

这些企业正在构建智能体体验，其中模型被编织进一个由工具、自动化和集成（读作：软件）组成的复杂网络中，这导致大多数此类初创公司默认是垂直领域的。他们可以专注于多步骤和多参与者工作，使用针对角色和垂直领域特定任务的子智能体，而 Anthropic 和 OpenAI 无法用水平平台触及这些领域：跨系统收集上下文，然后路由到需要在不同阶段审批的多个人类。这通常涉及一个或多个遗留系统，倾向于需要确定性结果（其中模糊性是不可接受的），并且有时与某些有价值的业务成果挂钩。实验室明白这些问题有多有价值：这就是为什么他们在构建自己的外包配置商店，以及为什么存在一整类高端强化学习业务。

为什么奥兹国的其他地方不会被巫师所拥有

对上述观点的回应是，迄今为止，押注模型/实验室不会进步一直是一个相当糟糕的交易。它们很可能会继续变得更好，并最终蚕食这些应用层企业所服务的市场。

实验室当然会进步，但我认为奥兹国的其他地方有几种方式可以随着时间的推移进行防御：

数据和学习的飞轮：

你内化的很多东西都不在任何训练集中——未成文的行业规范、未记录的标准、存在于从业者头脑中的部落知识。这些都不在公共网络上。再多的训练算力也无法替代置身于这些知识实际存在的流程之中。这里有两个叠加的飞轮：一个是跨客户的飞轮——当你看到同一问题的更多变体时，模式会复合增长；另一个是客户内部的飞轮——特定决策背后的原因、未言明的例外、公司自己的经验法则，这些只有通过与系统的真实互动才会浮现。

即使客户数据不能跨客户使用，应用公司也将能够利用跨客户问题类型的模式识别，并用它来为未来问题提供正确的架构。一家已经让其智能体处理过一百份法律红线、一千个保险承保周期或一万个 SDR 活动的公司，已经内化了问题的形态，这是后来者通过首次启动一个全新的智能体所无法复制的。

原则上，一个水平智能体可以构建同样的学习基础设施。但除了纯粹的专注问题外，原因在于用户体验：捕获这类知识完全取决于你提供给用户的工作流界面，而垂直玩家可以围绕其工作流需要呈现的内容来塑造这些界面。水平工具做不到这一点。评估集、标记输出和边缘案例分类法可以复合成一个垂直特定的数据飞轮，这可以为微调提供燃料，而后来者如果没有相当的生产环境暴露是无法生成这些的。这是否可能取决于数据权利、积累的生产环境暴露量以及客户合同的结构，但模式识别无论如何都会累积。

管理模型的可变性和复杂性：实验室已经在内部进行路由——针对不同请求使用不同模型类别，引擎盖下的集成系统。但他们无法做到的是跨供应商路由，或评估竞争对手的模型用于特定子任务，或在某个狭窄领域使用实际上最好的开源微调模型。奥兹国其他地方的公司会从整个模型市场中为每个子任务选择正确的模型，而不仅仅是其母公司实验室发布的模型。他们还会做没人愿意做的工作——每次新模型落地时，重新运行升级评估，为客户边缘案例重新校准提示，在不破坏生产环境的情况下进行部署。实验室不会代表客户做这些事；他们卖给你下一个模型，然后告诉你去迁移。奥兹国其他地方的公司则吸收迁移成本。客户得到的是整个市场上可用的最佳智能，加上每次升级的连续性。

成本优化：通过 Opus 4.7 运行每个查询是通往负毛利率的最快路径。最好的奥兹国其他地方的公司会在不同层级的模型之间进行路由——最困难的任务用前沿模型，大部分任务用中端模型，在他们已经赢得使用权的领域用较小的定制或微调模型。有些公司现在在此基础上对自己的模型进行后训练，针对客户关心的狭窄工作切片进行优化，并以前沿 API 调用成本的一小部分提供服务。实验室定价的是底线：以 X 美元提供最低限度的智能。奥兹国其他地方的公司则销售相反的东西——为工作流实际需要的特定智能水平提供最低的美元成本。这只有在你确切知道每个子任务需要什么水平时才有可能，而实验室在结构上无法跨每个垂直领域知道这一点。这直接转化为更低、可控的结果价格。

治理：成为客户在该垂直领域运行 AI 的控制平面——权限、审计、智能体被允许做什么以及智能体实际做了什么——具有相当大的价值。这个控制平面是由特定用例的护栏构建的，这些护栏在不同行业和工作类型中看起来完全不同。因为他们端到端地拥有智能体所触及的工具、工作流和数据，他们能够以水平工具难以做到的方式提供确定性结果。他们也是为最终买家吸收监管复杂性的实体——法律领域的 FRCP 和律师规则、医疗保健领域的 HIPAA、金融领域的 SEC 和 FINRA、州保险法规等等。一个水平玩家如果不一下子变成一百个不同的垂直领域，就无法可信地做到这一点。CIO 们希望有一个合作伙伴能通过合同声明他们正在处理其提供的智能体的合规性。

所有这些都归结为同一件事：专注。这可以是一个垂直领域（保险、法律、会计），也可以是一个深入执行的功能（销售、客户支持、财务）。无论哪种方式，这项工作需要一个团队埋头于一个客户群体——其工作流、其边缘案例、其法规。实验室不是为此而建的。他们必须无处不在，为所有人服务，这正是他们最初建造黄砖路的方式。同样的权衡也使他们无法进入奥兹国的其他地方——你可以同时无处不在，或者你可以在一件事上做到卓越。不能两者兼得。

以销售为例——来自 11x 技术 CEO 的实用建议

在实践中你应该如何思考这个问题？以下是 11x 的 CEO Prabhav Jain 的一些实用建议。

专注于结果

构建一个对实验室具有韧性的公司的战术路径，就是从一个你的客户真正关心的特定结果开始。对我们来说，那就是帮助公司产生更多销售线索。从那里开始，问题就变得战术化了。我们想要端到端地拥有哪些真正推动销售线索的活动？将每个活动分解为任务。哪些任务是智能体化的，哪些不是。哪些需要复杂的领域洞察，哪些不需要。实验室也会发布工作流，但当工作流有很多步骤、混乱的输入、难以解释的状态或现实世界的约束时，仅仅一个更好的模型是无法解决问题的。这项工作落到了老式优秀的软件工程上，而实验室在这方面并不比一个专注的应用公司更有优势。例如，以下是我们处理的一些任务，有些是智能体化的，有些不是：基于自定义信号的潜在客户勘探、潜在客户丰富、深度账户研究、来自 CRM 的上下文获取器、特定渠道的消息撰写器、潜在客户资格认定智能体以及电子邮件送达率系统。这些不是你可以一次性完成的任务，需要深入的工程能力。

奥兹国类比中的关键洞察是，任何真实工作流中大约一半非智能体化的部分，实验室没有任何优势。他们在编写模型层之下的确定性软件方面并不比你强。而智能体化的那一半仍然需要你根据实际想要的结果来调整、训练和约束模型。领域知识通常不在通用训练数据中。这些技能需要为垂直领域或功能从头开始构建，并在工作流中的正确时刻输入到模型中。当我们的智能体在电话中资格认定一个入站线索时，我必须接受关于该特定行业和该角色什么是好的销售对话的训练。这是应用公司的工作，并且它会复合增长。

更重要的是，这些技能会不断过时，因为企业在发展，所以你发展这些工作流和上下文的能力就变成了一个竞争优势。例如，当我们开始我们的规模化电子邮件外联产品时，”AI”撰写的电子邮件才刚刚开始出现。快进到今天，人们对 AI 撰写与人类撰写的电子邮件有了敏锐的感知，关键是，这种情况每几个月就会变化一次。我们的智能体必须根据市场动态不断适应，但这正是护城河建立的地方。事实上，尽管存在这种动态，我们的正面回复率在过去几个月里提高了 4 倍，并且我们为客户产生了数亿美元的销售线索。

致力于复杂性高的问题

复杂的问题是真正商业价值被解锁的地方。否则，你会发现自己在构建一个薄薄的包装层。

分解任何足够复杂的商业问题，混乱很快就会显现出来。这里有一个来自 GTM 世界的例子，听起来微不足道：如果一家公司已经是客户，你不应该联系该公司的联系人。但事实远非如此。也许你的 CRM 中有与该公司关联的域名。那些拥有数十个子公司的公司呢？如果 CRM 记录有母公司的域名呢？如果 Salesforce 中一个过时的匹配字段向现有客户的 CRO 发送了冷推销呢？现实世界的数据是混乱的。人类都难以处理。模型不会神奇地跨越这个障碍。从这种混乱中建立秩序需要为问题的特定形态专门构建的智能体，而不是一个指向 CRM 的通用辅助驾驶。事实上，根据我们拥有的数据，我们意识到我们的数据质量和新鲜度远高于我们的客户，所以默认情况下，我们以我们自己的数据为准。

护栏不仅仅是为了防止坏事发生。这正是你的客户付钱给你的原因。

护栏被严重低估了。即使在同一产品内部，每个用例也需要自己的护栏。对我们来说，一个受监管的金融服务潜在客户要求的保证与一个中端市场 SaaS 客户不同，这些保证会向下影响到智能体被允许如何写作、它可以联系谁、它可以接触什么数据、它在通话中能说什么以及每个决策如何被记录。

一个一刀切的系统在这种差异下会崩溃。护栏必须按用例构建，按客户配置，并持续审计，这项工作完全落在应用公司身上。这就是为什么我们有 FDE 和技术部署策略师需要为每个客户的需求进行调整。例如，我们与一家 F1000 机构合作，通过语音向其庞大的 SMB 客户群进行经同意的外呼。最初的几次迭代接通率很低——我们必须快速迭代并学习如何让这种特定类型的受众在通话的前 10 秒内参与进来。SMB 企业主的行为与大型 B2B 买家或消费者非常不同。我们现在一天为他们产生的销售机会，比他们整个销售团队在该细分市场一个月产生的还要多。

以保险为例——来自 FurtherAI 的 CEO 的实用建议

销售是一个例子。保险是另一个例子，它从不同的角度说明了同样的问题。以下是 FurtherAI 的 CEO Aman Gour 对在道路之外进行建设的思考：

当我们开始在真实的保险运营中部署 AI 时，我们不断听到一个特定的假设：模型就是智能，而工作流只是围绕它的脚手架。

我们合作的保险公司越多，我们就越确信这是本末倒置。

在保险业，很多智能实际上存在于工作流本身之中。两家保险公司可以通过看起来相同的路径运行一个提交：提交、审核、报价、承保。但路径是容易的部分。将两家保险公司区分开来的是路径内部的一切：哪些风险被升级，哪些损失信号重要，当两个偏好规则冲突时哪个胜出，何时需要人类签字，哪些外部数据被拉入，以及最终决策如何被记录。

这种逻辑并不存在于一个干净的规则引擎中。它分布在 SOP、经理审核、承保理念、保险公司特定的偏好以及多年的运营经验中。其中很多并没有以模型可以简单阅读的形式被记录下来。

这就是为什么我们不相信一个每次都从头推理的纯智能体，也不相信一个一旦现实变得混乱就会崩溃的僵化工作流。相反，我们一直在构建智能体化的工作流。工作流给你可重复性、可审计性和成本控制。智能体处理可变性，并在快乐路径中断时进行恢复。人类则留在循环中，负责那些问责制重要的判断决策。

在第一天，这自动化了手动工作。但随着时间的推移，每次升级都变成一个信号，每个例外都是反馈，每次人类修正都显示出手册不完整的地方。随着时间的推移，工作流不再是一个脚本，而开始成为保险公司的运营记忆。这是实验室难以触及的部分。他们会继续发布更好的模型和更好的通用智能体，他们应该这样做。但他们不会在保险公司的生产工作流中停留足够长的时间来了解为什么一个账户被升级，为什么一个风险被拒绝，或者为什么一个核保人覆盖了偏好指南并且这样做是正确的。

这种理解只有通过在生产环境中运行工作流数千次才能获得。你在第一天发布的工作流不是护城河。生产使用随着时间的推移创造的循环才是。

对我们来说，这就是在道路之外建设意味着什么。

如何判断你是否在奥兹国的其他地方？

工具与步骤测试：这项工作需要多少步骤，你必须构建来支持它的工具有多复杂？比较一下跨 Google Drive 的水平 AI 搜索——一个步骤，一个工具，结果宽容，用户阅读摘要，如果错了就重新提问——与一个跨三年公司先例的多步骤法律红线：跨多个工具的数十个步骤，输出必须通过合伙人审核，并且可能需要在法庭上辩论。两者看起来都像是”一个智能体在工作”，但只有其中一个需要专注团队花费数年时间构建的那种深度软件。

系统测试：你是在构建一个客户通过它运行工作的系统，还是一个位于他们已有系统之上的工具？系统端到端地拥有工作流——数据捕获、治理、已完成工作的记录——并且是客户在描述实际工作如何完成时所指向的东西。另一方面，工具只是为客户已经运行的工作流添加智能。工具案例能产生真实的收入，但实验室可以拿走它，因为客户并不依赖你作为编排层。高 ACV 通常是系统的信号，因为系统取代了真实的人员编制并因此获得相应报酬，但这并非保证。问问自己，如果实验室发布了一个据称直接与你竞争的东西，客户是否仍然需要你的工具。如果是，你就是在构建一个系统。如果否，你就是一个工具——即使你的 ACV 很高。

对冲基金 / P&L 测试：实验室的表现是根据基准来评判的，而奥兹国其他地方的表现则是根据客户的 P&L 来评判的。你的客户不关心你的模型在 SWE-Bench 或 MMLU 上得分很高——他们关心你的智能体是否完成了交易，是否正确标注了合同红线，或者是否承保了正确的保单。如果他们专注于其工作流特定的结果，而不是一个通用能力分数，那么你就在奥兹国的其他地方。如果他们为通用能力付费，那你就是在卖给他们一些他们可以通过 Claude 或 Codex 席位获得的东西。最好的智能体企业将需要像对冲基金一样执行——以客户 P&L 衡量的阿尔法获胜，而不是以基准分数。

两者都能（并且将会）获胜

我们将在黄砖路上和路外都看到巨大的赢家。模型将继续获胜，因为他们拥有模型，并且他们拥有他们设计的水平工具的分销渠道。

如果奥兹国其他地方的企业拥有工作系统——公司工作实际执行的界面以及从中产生的数据被捕获的地方——他们就能获胜。这些公司拥有数据捕获、工作流行动系统和治理。随着更复杂的工作流在一个垂直领域成熟，它们会复合成为一个客户依赖的核心体验。随着现有企业和新进入者发布新的模型世代，这家公司成为集成它们并将其交付给客户的层。模型在底层是可替代的；工作系统则不是。

下一代企业软件将在道路之外构建。

#大模型API #a16z #水平SaaS #护城河 #责任交付 #黄砖路 #Sandhill #286

避开“黄砖路”之死：AI 时代垂直应用层创业的求生与突围