谁获得了价值? – Melody Koh – 地面真相
View 平台团队的 Vera 刚刚解决了我们多年来一直未能解决的问题。
问题是:确保任何合作伙伴遇到的每个人都在我们的 CRM 中得到正确的分类,以便我们可以邀请他们参加未来的活动。五个合作伙伴,每月数百次会议,联系人分散在不同的日历中。我们尝试通过手动流程、提醒、定期清理来解决这个问题。没有什么卡住的。
Vera 的背景是项目管理和运营。她以前从未写过代码。她使用了 Claude Cowork(Anthropic 的 Claude Code 的非技术版本——桌面应用程序中的代理,不需要终端)。
她构建了一个自动化系统,可以从每个合作伙伴的 Google 日历中提取信息,根据我们的 Affinity CRM 交叉引用联系人,筛选出投资组合创始人和内部团队成员,并为每个合作伙伴填充个性化列表 – 每周发送到他们的收件箱。跨越四个模块的大约 1,100 行 Python 代码。我检查了代码并需要修复三个项目,但都不是主要的。
如果从未接受过工程师培训的人们现在可以构建解决实际操作问题的生产系统,那么谁会获得价值?
印刷机并没有创造出更快的抄写员
Anthropic 的 Claude Code 负责人 Boris Cherny 在 Lenny 的播客 上提出了一个观点,重新构建了整个对话:编码代理并没有让工程师变得更快。他们使抄写员的瓶颈变得无关紧要。
印刷机并没有创造出更好的抄写员——它第一次让一类全新的人(出版商、小册子作者、可以传播研究成果的科学家)变得有意义。抄写员生产力的提高结果只是一个脚注。文艺复兴是头条新闻。
编码代理也在做同样的事情。这个故事并不是“工程师的交付速度提高了 10 倍”——尽管这种情况正在发生。故事是,维拉刚刚建立了一个生产系统,解决了我们公司多年来一直未能解决的问题。阻碍她前进的瓶颈不是天赋或判断力——她比任何人都更了解这个问题。这是将这种理解转化为代码的技巧。这个瓶颈正在消失。
直观的结论是每个人都会赢——但这并不是历史所表明的。
Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.
每个人都说价值转向品味、策划、判断、代理和“人情味”。这些概念并没有错,但正如经济学家克里斯蒂安·卡塔利尼(Christian Catalini)认为,它们不是一种策略。它们是“我们给尚未分析的残差起的名字”。
卡塔利尼进一步提出:真正的界限与工作是辛苦还是轻松、创造性还是例行公事无关。它与是否有人可以验证输出密切相关。
这种重构完全改变了问题。这不是“人工智能能做什么?” — 是“谁能验证输出是否正确?”一旦你这样问,你就可以开始了解哪些公司真正获胜。
如果可以根据某种客观标准对输出进行评分(正确/错误、通过/失败、更好/更差),那么它就可以实现自动化。并不是因为人工智能更擅长,而是因为可测量性是自动化发挥作用的原因。 Vera 的日历同步之所以有效,是因为输出是可验证的:联系人要么在 CRM 中,要么不在 CRM 中。
但执行工作的成本和验证工作的成本却是相反的方向。 AI 执行的成本正在大幅下降——SWE 基准准确率从 一年内的 4.4% 上升到 71.7%。验证人工智能输出的成本并没有以同样的速度下降。在许多领域,它正在上升——因为有更多的人工智能生成的输出需要验证,而需要验证的经验丰富的人却越来越少。
卡塔利尼将这些曲线之间的空间称为可测量性差距。在自动化成本低廉且验证负担得起的地方——聊天、图像、短代码突发、数据输入——价值已经迁移。这些是来自共识机器的共识单元。
自动化成本低廉但验证成本昂贵——这就是结构性危险所在。代理可以产生输出。没有人能够负担得起地确认输出是否正确。
我们不必对这是什么样子进行理论分析。 It happened this month.
未经验证会发生什么
上周,The Information 报道称,Meta 内部的人工智能代理触发了该公司归类为 Sev 1 的安全警报——第二高严重级别。一名工程师招募了一名人工智能代理来分析内部论坛上的技术问题。该代理不仅对其进行分析,而且在未经工程师批准的情况下自动发布了响应。据报道,该回复包含有缺陷的技术指导,导致团队成员无意中授予对敏感公司数据的广泛访问权限。在被收容之前,这种暴露持续了大约两个小时。
该特工通过了所有身份检查。它有合法的凭证。失败的原因不是身份验证,而是验证。在采取行动之前,没有人检查代理的输出是否正确。
价值迁移的地方
大多数就到此为止了——普遍认为验证很重要。 But “value shifts to trust” doesn’t tell you which companies win.
执行附加组件首先商品化
Cohesity 是一家年收入超过 20 亿美元、拥有 400 名 IT 部门的数据安全公司,其首席信息官 Brian Spanswick 告诉 The Information,他至少会在未来或未来保留其核心企业平台(Salesforce、ServiceNow、Workday)。两年。但是这些平台在其核心软件之上销售的自动化附加组件呢?这些正在被替换。
“我不会花在这些流程自动化平台上的开销,”斯潘斯维克说。
他一直在考虑购买 ServiceNow 的 IT 资产管理工具,该工具可以在员工离开时自动关闭并停用公司设备和帐户。但在 Cohesity 网络安全主管在不到两天的时间内使用 Anthropic 的 Claude Code 代理创建了类似的工具后,他的想法发生了变化。该公司仍在对其进行压力测试,但到目前为止,它似乎比 ServiceNow 的产品“便宜得多”,后者每个用户每月的费用可能高达数百美元。
这是维拉在 Cohesity 上演的故事。执行层——资产跟踪、设备退役、事件标记——是共识工作。可测量、可指定、可自动化。网络安全主管在两天内构建了替代品,因为这项工作有明确的验证标准:设备要么退役,要么不退役。
但平台公司并没有消亡——他们正在转向验证
ServiceNow 的回应很能说明问题。一位发言人对其软件可以被 vivi 编码工具取代的想法提出异议,认为此类人工智能替代品“通常会停滞不前”,因为它们缺乏“受监管企业实际需要的合规性、集成性和可审计性”。
他们现在销售的是“保险”,而不是验证——“如果出现问题,你有一个企业供应商来追究责任。”合规认证、审计追踪——这些都是责任盾牌,也是验证机制。
但保险可以赢得时间,ServiceNow 正在利用它。他们嵌入 Claude 作为默认的构建代理模型,竞相成为一个真正的验证和治理层——不仅仅是当出现问题时你责怪的供应商,而是一个可以在输出之前确认输出正确的平台。这就是关键:从保险到验证。
FJ Labs 合伙人 Jeff Weinstein,具体化 持久信任在光谱的另一端是什么样子。 Kirkland & Ellis 和其他白鞋律师事务所在人工智能时代会表现得很好,“不是因为他们卓越的法律建议,而是因为他们是风险转移产品,而不是律师事务所。他们的主要产品是 CYA。”他们不需要转向——责任吸收就是他们的产品。对于其他人来说,路径很明确:保险可以赢得时间,但验证才是目的地。
三家公司的赌注
那么谁真正获胜呢?三种赌注正在出现——验证镜头会告诉你哪些赌注是持久的。
赌注 1:出售工具(副驾驶)
这些公司向保留判断和验证权威的专业人士出售人工智能工具。哈维律师。 EvenUp 适用于人身伤害律师。医生缩写。专业人员使用人工智能来起草、总结或分析,然后验证输出并承担责任。
红杉资本的朱利安·贝克 (Julien Bek) 最近争论认为,这是“副驾驶”模式——而且是结构性张力最大的模式。副驾驶可以让专业人士更快,但专业人士仍然是瓶颈。你正在向你正在部分自动化工作的人推销产品,这限制了你可以积极推动的程度。
还有一个更深层次的问题。副驾驶直接陷入结构鸿沟:他们之所以能工作,是因为个人环境是可控的,但企业环境问题组合起来更困难。使副驾驶在组织层面发生变革的知识分散在 Slack 线程、电子邮件链和只存在于在那里多年的人身上的部落知识中。这种上下文架构还不存在。
赌注 2:出售结果(自动驾驶仪)
这些公司完全跳过专业人士,将经过验证的结果出售给最终客户。 Bek 将其称为“自动驾驶”模型,他的主要见解是,在软件上花费的每一美元,六美元用于服务。自动驾驶机会不是软件预算,而是服务预算。
Crosby 不向律师出售 NDA 起草工具。它起草 NDA。 WithCoverage 不向经纪人出售保险分析工具。它提供了覆盖范围建议。 Rillet 不销售会计软件,而是负责会计工作。
这就是“下一个价值 1T 美元的公司将是一家伪装成服务公司的软件公司”。挑战——而且是巨大的——是自动驾驶仪必须在“内部”建立验证。当没有专业人员检查输出时,公司本身承担责任。那些在其领域积累专有验证数据的人——数千份保密协议、保险单或税务申报中的“正确”数据——建立了一条复合的护城河。发送看似合理但未经验证的输出,您反而会积累风险。
卡塔利尼将这些公司称为“责任承保人”——他们“检测隐藏的风险,承担责任,提供使未来自动化成为可能的基本事实。”他将这种商业模式称为“软件即劳动力”:将经过验证的结果而非软件访问货币化。
但贝克并没有解决其中的一个紧张问题。这种六比一的比率——每美元软件对应六美元服务——之所以存在,是因为服务历来需要昂贵的人力。如果自动驾驶技术能够使现有服务公司的成本降低 20%,同时享有 95% 的利润率,那就是一场淘金热。但如果五十个自动驾驶仪进入每个垂直领域,价格就会崩溃。 6 美元的 TAM 服务本身就会萎缩——人工智能对于它所扰乱的市场来说变得通货紧缩。
计数器:这是在每个垂直领域内发挥作用的共识机器。已经验证了 100,000 项 NDA 的自动驾驶仪可以推动其领域内的共识前沿——昨天的非共识法律判决变成了今天的自动化任务。获胜者之所以能够占领萎缩的市场,正是因为它已经将最多的验证压缩到了自己的系统中。
赌注 3:购买业务,保留利润(运营商)
还有第三种选择:不要购买副驾驶工具,不要外包给自动驾驶服务公司——收购现有业务,自己部署人工智能,并保持利润提升。
这是吸引最大资金的赌注。杰夫·贝佐斯 (Jeff Bezos) 正在寻求筹集 1000 亿美元资金,用于“制造转型工具”——收购公司并利用人工智能对其进行升级。 Thrive Capital 推出了超过 10 亿美元的 Thrive Holdings,并建立了合作伙伴关系,OpenAI 研究人员直接与收购的企业嵌入以构建定制模型。 General Catalyst 与他人共同创建了至少 10 家初创公司,它们收购了法律、IT、HOA 管理等服务公司,并用人工智能对它们进行了改造。 Lightspeed 在工程服务和医疗保健领域也做了同样的事情。 Newcomer 报道“AI roll-up 已正式成为主流”。
逻辑很简单。如果人工智能使执行成本降低,那么最大的奖励不是出售人工智能,而是拥有利润率提升的业务。收购一家拥有 200 名会计师、年收入 5000 万美元的会计师事务所。部署人工智能。与 60 名会计师保持相同的收入。利润增长归所有者所有,而不是您可能购买的任何副驾驶或自动驾驶供应商。
这些不仅仅是技术赌注。它们是转型的赌注——而困难的部分不是人工智能。变革管理、合规基础设施和组织信任使变革得以持续。自动执行的技术已经存在。不存在将其部署到一家拥有 200 人的会计师事务所而不破坏一切的操作手册。
我曾与曾在其中几个汇总中工作过的操作员交谈过,一致的信息是:这比论文所暗示的要难。你不能只是强行灌输硅谷人工智能采用的剧本并期望它坚持下去。这些被收购企业中的大多数员工处于 1 级或 2 级——充其量是单会话人工智能用户。组织是生命系统。削减 50% 的员工数量,但文化、执行节奏和机构知识并没有保持不变。
也就是说,有一些早期的成功故事。我正在跟踪的一项医疗服务汇总在六个月内从收购前的 4% EBITDA 利润率提高到 10%——主要是通过使用 Claude Code 来构建运营自动化。没有什么革命性的:更好的渠道管理、流程简化,以及自 1994 年以来运营人员臃肿的实践从未优先考虑的常识性改进。利润率的提升来自于利用人工智能更好地运营业务——如果你有足够的资金来执行的话,这很简单。
验证权衡
每个赌注都以不同的方式解决验证问题——护城河的形状取决于你选择的解决方案。
这些并不是一个梯子上的梯级——它们是对你想在验证链中所处位置的不同押注。这三个问题的结构性问题都是相同的:谁来验证输出,以及当输出错误时谁承担责任?但答案会带来根本不同的业务。
缺失的初级循环
在这一转变中,还有一个大多数人没有谈论的结构性风险。正是在经济最需要扩大验证能力的时刻,企业正在合理地缩减生产未来验证器的渠道。
卡塔利尼称之为“失踪的初级循环”。与不太受人工智能影响的职业相比,受人工智能影响的领域的早期职业工人的就业率已经下降了约 16%。不是大规模裁员——冻结招聘渠道,悄悄地将人工智能视为初级执行力的替代品。
矛盾的是:被裁减的初级职位与培训能够验证人工智能输出的下一代人员的职位相同。切断培训渠道,就会削弱最稀缺资源的未来供应。副驾驶、自动驾驶和操作员都需要验证员。如果没有人训练他们,他们从哪里来?
这意味着什么
当一项技术使生产变得廉价时,会明显发生两件事:
- 生产成为一种商品。 价值主张是“我们可以建造这个东西”的个人和公司失去了护城河。这种情况发生在抄写员、文员、旅行社身上,现在也发生在软件开发和知识工作领域。
- 验证成为稀缺资源。 每一次廉价生产浪潮都催生了验证基础设施的相应繁荣——审计、认证、监管、质量保证。那些能够说“这是正确的,这是安全的,这是合规的,我将把我的声誉押在上面”的人和机构会变得更有价值,而不是更少。正如卡塔利尼所说:“未经验证的规模并不是护城河。而是不断累积的债务。”
正如温斯坦所说(https://www.linkedin.com/feed/update/urn:li:activity:7439658032084566018/):“代码成本趋向于零。但信任成本却并非如此。”副驾驶卖的是速度,但却继承了专业驾驶的瓶颈。积累专有验证数据的自动驾驶仪构建了复合的护城河。购买业务并自行部署人工智能的运营商可以获得纯软件公司无法获得的利润。
问题不在于你能否建造。问题在于是否有人应该相信你所构建的东西,以及你对答案下的赌注。
上述所有内容都适用于最终有人可以检查输出是否正确的工作。但有一类决策在结构上是不可能进行验证的——不是因为我们缺乏带宽,而是因为直到几年后才存在确认输出是否正确的框架。早期投资、创造性工作、战略押注。那里的经济状况完全不同,这就是本系列接下来要讨论的内容。
随着人工智能使生产变得廉价,价值集中在 你的 行业中的哪里——您会下哪一个赌注:出售工具、出售结果,还是将人工智能部署到现有业务中?我想听听我没有考虑过的领域的人们的意见。**
感谢您阅读《地面真相》!免费以接收新帖子并支持我的工作。
原文链接:https://melodykoh.substack.com/p/who-captures-the-value