重置“自建还是购买”之争

如今，AI 生产力的提升取决于系统与用户的契合程度，这迫使每家公司面对的已不是一个决定，而是两个。

Microsoft Copilot 在 4.5 亿个席位中的付费采用率仅为 3.3%。“Claude Code 改变了一切”这句话也同样成立。把这两点同时放在一起，正是大多数公司默认做错的“构建还是购买”决策重置。

你无法使用的手机

我的朋友 Dorothy 曾这样描述使用一款未针对她的工作进行调校的 AI 工具的感觉：就像拿起了别人的手机。主屏幕是定制的，键盘不对，通知也属于别人的生活。这个比喻一直留在我脑海里。

近来流传的“Claude Code 改变了一切”这一说法，确实是真的。一位非技术背景的传播公司创始人在 X 上分享称，他在三周内搭建了一个由六个智能体组成的个人幕僚长系统；这条帖子获得了 370 万次浏览。“我不是工程师，但我也能交付自己的工具”这股浪潮是真实存在的。但这只在你自己的语境范围内成立——那是只有你才能接触到的真实处境：你的收件箱、你的实时数据、你的权限，以及你实际思考工作的方式。离开了这一范围，这种说法就成了虚假的承诺。

这不是个人问题

经典的“构建还是购买”决策，始终是一道成本与适配度的权衡题。当供应商提供的80/20通用版本，比自行构建和维护所需的人力成本更低时，企业就会选择购买。过去，大多数公司都选择了购买，因为自行构建成本高昂。

AI 正在改变这道方程的两端。80/20 通用方案过去一直是自动化的上限；如今，其上方可能出现一个个性化版本。而构建这一个性化版本的成本已经大幅下降：编程代理让非工程师也能进行开发创作，并使工程师的生产力提升 5 到 10 倍。生产力的高低，取决于系统与个人实时情境的匹配程度，但供应商无法交付这种适配。用户必须自己来创作，而现在他们已经能够做到。

Salesforce 基于其数据之上推出的 AI，已经能够生成 “以下是五封可发送给潜在客户的邮件草稿。” 如果提供更多上下文（如通话录音和会议纪要），这些草稿还能体现出这个潜在客户与那个潜在客户的不同特点。但它们仍然不完全是 AE 会写出来的那种草稿。供应商看不到的，是 AE 对销售漏斗的判断框架：他们凭直觉判断哪些潜在客户值得推进、何时施压、何时等待。供应商可以交付成品，也越来越能够提供面向特定顾客的撰写层。但他们无法交付的是驱动写作的个人判断 ：也就是 AE 对销售执行的心智模型。

新的门槛更接近于培养一名新员工，而不是推出一个 SaaS 功能。新员工会接受培训，了解这家公司有哪些独特做法，这位经理希望怎样推进工作。只有当作者愿意投入精力，将自己独特的偏好、判断和语境加以编码，这样的迭代才会发生。老牌玩家在 80/20 标准上执行得近乎完美，但这个标准已在悄然改变。

这场重构正在两个层面发生。 能力层： 大多数个人无法打造出适合自己的 AI，少数能够做到的人也未必能长期维持。 结构层： 掌握数据的供应商可以推出可用的 AI 功能，甚至可能围绕替代人工成本重新定价，但他们无法在他们的数据之上交付你的 AI，因为用户层面的适配并不是供应商能够交付的成品；它是一层由用户亲自构建的能力。

SOP/判断的分野

这种分野存在于两类工作之间：一类是操作手册在任何地方都相同的工作，另一类则是你的独特判断本身就是工作的核心。

由 SOP 定义的工作属于第一类：导语评分、文档摘要、合规审查。这类工作的语境差异较小（每个人面对的都是相同字段、相同工单结构、相同审批路径），判断差异也较小（SOP 已规定该怎么做）。其语境范围覆盖整个公司，掌握相关数据的供应商可以在这里交付可用的 AI。

判断力 / 非共识型工作指的是一切以你独特判断力作为差异化优势的工作。风险投资中的交易评估、战略决策、依赖判断力的内容创作，以及那些你不会放心交给外包人员的工作内容。具体到不同角色、不同任务、不同个人，相关语境都会变化，判断也会随之改变。这里的语境范围以个人为单位，供应商若不重新解决“按个人定制创作”的问题，就无法交付真正可用的 AI。

这就是将共识机器应用于“构建还是购买”的决策：tokens 在共识型任务上胜出，判断力在非共识型任务上占优，而支持这两个层级的方式也各不相同。

企业面临两类“构建还是购买”的决策。不妨称之为 SOP/判断力划分 。SOP 层是一类决策；判断力层则是另一类。

SOP 层：仍是默认选择，但存在争议

对于由 SOP 界定的工作，记录系统（SOR）是默认归宿：在 CRM 数据上使用 Salesforce + Agentforce，在 Office 和 Teams 中使用 Microsoft + Microsoft 365 Copilot，在 IT 和运营团队早已深度依赖的工单数据上使用 ServiceNow + Now Assist。它们掌握着数据、工作流界面，以及数十年来操作人员形成的使用习惯。

但“购买”这一决策正实时受到挑战。Microsoft 365 拥有 4.5 亿用户，可免费使用 Copilot Chat；其中仅约 1500 万人（3.3%）为 Copilot 付费。默认购买并未赢得这场替代之争。

原因在于结构性差异：每家公司都有自己的模式、定义和升级路径，而建立在 SOR 数据之上的通用代理，只有在企业内部有人将其配置为与公司实际情况相匹配后才会真正有用。而大多数公司并未完成这项工作。

这种差距为 AI 时代工作流楔入式攻击者创造了切入机会。一个很好的例子是 Sierra，由 Salesforce 前联席 CEO Bret Taylor 共同创立：这是一款客户体验代理，旨在运行于顾客现有技术栈之上，而不受任何单一 SOR 的束缚。如果代理承担了实体对齐、评分以及实际交互，那么 SOR 的角色就会被压缩为“供其他系统读取的数据库”，其护城河远不如“销售代表每天都在其中工作的系统”那样稳固。

对于买方而言，对于 SOP 工作，“从 SOR 购买”仍可能是正确的默认选择，但这与 2020 年的押注已不相同。它需要开展面向企业自身的配置工作，而 3.3%这一数字表明，大多数买家都在跳过这一步。

任何代理式 AI 产品，无论是原生于 SOR、工作流楔子，还是内部自建，从根本上说都是一个代理胸背带 （包裹模型的编排层：工具调用、记忆、控制流、错误处理）+ 提示词 （供应商随产品提供的系统提示定义了默认行为）+ 与你的实时数据的连接 ，构建在 AI 模型之上。能够统一数据并编写自有胸背带的公司，可以在不支付供应商溢价的情况下获得集成收益，但大多数公司并不具备这样的能力。判决层才是四种真正选择所在之处。

判断层：四种选择方案

这四种方案适用于个人判断存在差异的那一层，而且确实各有取舍。大多数公司做出选择靠的是默认路径，而非有意识的设计。

选项一：每个人都自己构建

培训并赋能每个人直接基于模型打造适合自己的 AI。

这里的上限最高。一旦奏效，用户的竞争性判断就会被编码进他们的提示词、技能和工具链中。但下限也同样残酷：大多数人做不到，许多做得到的人也不会去做，而多数尝试者也难以长期坚持。

我从风险投资行业这个微观世界来思考这一点。面向风投的 AI 产品会推出一个个模块（项目发掘、尽职调查、投资备忘录生成），而每个模块都承载着供应商开箱即用的一套工作方式。很多产品会列出“本周最值得关注的公司”，而我的反应始终如一：我不要你们认为最有意思的公司，我要的是 NextView 认为最有意思的公司。即便是判断“是否应该让合伙人看一看某家公司”这项任务——也就是判断类工作的初级版本——其中也编码着一家机构特有的投资论文。我的这版提示词比任何供应商的版本都更好，因为它融入了 NextView 对早期团队和市场的思考方式，这也促使我们在 NextView 自行构建了 AI 辅助评估系统。至于尽职调查，也就是判断类工作的高级版本，则更加依赖个体，因为我们相信，非共识型押注的优势正来自个人独特的判断力。

供应商的价值会坍缩为合作伙伴日常使用的 CRM 系统（Affinity、Attio）之上的一层薄薄封装，而问题也随之变得显而易见：如果我可以直接对提示词进行迭代，那我还要为供应商付什么钱？

风险投资处于判断差异谱系的极端一端。大多数类别更接近中间地带，而这正是另外三种选择真正发挥作用的地方。

选项 2：构建内部底座

Ramp 构建了自己的内部底座，使个人判断创作能够基于统一的公司数据展开。正如 Ramp 首席产品官 Geoff Charles 分享的那样：AI 使用量同比增长 6,300%；99.5% 的团队成员在使用 AI 工具；800 多名构建者在六周内交付了 1,500 多个应用。

Ramp 的这套体系由三部分组成：Glass，即 Claude Cowork 的内部版本，通过一个 Okta 单点登录（SSO）认证 30 多种工具（Salesforce、Snowflake、Slack、Notion、Google Workspace、Figma）；一个四人团队在不到三个月内就将其搭建完成。内部技能市场 Dojo 承载了 350 多项共享技能。自研编码代理 Ramp Inspect 目前已支持来自非工程人员发起、进入生产环境的人类发起 PR 的 12%。

Ramp 的底层平台在公司层面实现了达到 SOR 水准的集成收益，同时通过 Dojo 保留了按个人划分的判断撰写层。默认通常只有两个选择：向 SOR 供应商缴纳“供应商税”，或者陷入按个人割裂的混乱。Ramp 找到了第三条路径。

这一选项只适用于有能力自行构建它的公司。Ramp 的文化（速度、主动性，以及领导层对大胆下注的支持）先于其 AI 战略而存在；当时既没有规划，也没有正式的变革管理。如果没有这种文化而照搬这套做法，几乎注定会令人失望。

选项3：前线部署的人类

一类为每家公司部署个性化方案的人群：顾问、企业内部 AI 工程师、下一个 Palantir，以及越来越多的 AI 产品供应商本身。

这种现象在结构上之所以存在，是因为 A 公司的标准作业流程、数据来源和判断模式，并不等同于 B 公司，即便表面的工作流程看起来完全相同。两家公司都在做“销售线索评分”，但使用的字段不同，对“合格”的定义不同，升级处理路径也不同。前线部署的作用，就是把一个智能体系统连接到某家公司那套多达十八个步骤的具体工作版本中。

对于一些 AI 供应商而言，前向部署正变得不再是可选项，而是不可避免：没有它，产品就无法被充分用好，也就难以带来真正的生产力提升和投资回报。这也正是定价模式转向的关键所在。如果一家供应商在交付产品的同时派出前向部署工程师（FDE），那么只要这种组合能更有效地证明其对人工的真实替代作用，它或许就更有可能按劳动力成本置换收费，而不是沿用按席位计费的模式。

其经济逻辑并不像 Palantir 式神话所暗示的那样轻松。AI FDE 人才稀缺，而方法论的复利效应可能比预期更慢，因为每位顾客的配置确实都不尽相同。可复用的支架主要是可观测性和评估框架，而这些支架连同方法论，正是供应商的护城河。

方案四：接受这一层仍然保持手动操作

接受这样一个现实：大多数判断性工作仍将保持人工处理，这是轻松的默认选择，也是企业在不主动做出选择时事实上的结果。它保留了人类在不可编码判断上的带宽，代价则是你未能获得的杠杆效应。

大多数公司实际上是在默认选择这一方案，不是因为它们经过了评估，而是因为另外三种看起来太难了。对一些公司来说，这没问题。但如果把它当作所有公司的默认选项，那就是个错误：非共识前沿不会停滞不前。随着竞争对手构建出这一层，昨天还属于竞争优势的判断，今天就会逐渐变成基本门槛，而那些按兵不动者会发现，自己原地不动时，门槛却已经提高了。

什么被低估构建：选项2，产品化

这张坐标图里最有意思的创业切入口，是那个尚未被填上的空白：帮助那些无法构建出 Ramp 级平台的公司，做出某种真正有用的东西。如今，几种不同形态正开始浮现。Dust 正在将覆盖全公司的底层基座产品化（技能市场加连接器）。另一种路径则瞄准个人层面：帮助企业员工在公司已经采购的 AI 工具中写出更好的提示词，这正是“我们花钱买了 Copilot”和“真的有人把它用好”之间缺失的用户体验。不同的切入方式，针对的是同一个问题。

Microsoft Copilot Studio、Google Agentspace、Salesforce 的 Agentforce Studio，以及 Workday 的 Sana（于 2025 年被收购，这本身也说明了一个信号：老牌厂商正在创业公司站稳脚跟之前先行买下这一切入口）都在竞速争夺覆盖全公司的那一版方案，而数据和分发渠道是它们的优势所在。它们的产品围绕管理员侧配置来组织：由一名管理员搭建代理，所有人来使用。创业公司的切入口则将这一模式倒转过来：面向每个客户的创作型用户体验，在那里，最终用户而非管理员才是创作者。

那个无法被产品化的变数，正是让 Ramp 的文化得以奏效的关键。产品化版本可以出售基础设施或用户体验，却卖不了这种文化。

这意味着什么

四种方案一览：

对于试图攫取价值的创始人来说，个体情境不可移植的特性是一种约束，而非护城河。真正的护城河存在于支架之中：那些确实能够在顾客之间规模化复制的部分。以前线部署配合可复用作战手册的模式，是围绕替代人工成本来收费的。内部基底即服务出售的是每个顾客专属创作层所依托的基础设施。两者都承认，创作层是按顾客分别定制的，并在那些可迁移的部分上攫取价值。

暴露无遗的是：通用型 AI 工具不具备这三道结构性护城河中的任何一道——没有第一方数据（SOR 路线），没有工作流锁定（楔子策略），也没有前线部署能力（个性化策略）。这类产品的采用率将持续停留在 3.3%。

为每一层做出选择

“Claude Code 改变了一切”的说法是对的，但人们由此得出的含义却错了：当用户亲自定义适配方案时，它改变的是那一层依赖个体判断且判断因人而异的工作。至于 SOP 层面，则是另一种决策，对应着另一种正确答案。

大多数公司并没有在决定应当如何分别处理这两类决策。它们要么让两者都默认落入“购买 SOR”的路径，从而无法充分满足判断层的需求；要么让两者都默认变成“让个人自己摸索”，从而浪费了 SOP 层的杠杆效应。真正的突破在于，有意识地为每一层分别作出选择。

回头审视你自己的工作：哪些部分 AI 供应商实际上可以替你交付，哪些部分则必须由你亲自编写？