返回首页
信息来源:x.com 2026.06.15 04:14 约 13 分钟 商业洞察 1万 阅读

无法训练的

无法训练的

 

2026 年年中,投资人版本的 AI 狂热症是一种绝望:觉得没有任何东西值得投资,我们应该把所有钱都投进 Anthropic 和 Nvidia,然后回家。我从未有过这种感觉。好几个子版本以来,我一直确信这些模型比我更聪明;按市场价格买入 Anthropic 和 Nvidia,我会很乐意;我所有最聪明的朋友也都相当确信,自我改进很快就会奏效——但我依然没有这种感觉。这种绝望并不愚蠢。其逻辑是这样的:如果模型在所有事情上都持续变得更强,那么任何构建在模型之上的公司都只是一个单薄的封装,迟早会被吸收;而最终能存续的唯一价值,就是算力和前沿权重。

拿软件来说,这是那种“绝望”最有力依赖的案例。Devin 在 2024 年发布时,解决了标准软件基准中 13% 的任务,却基本上被一笔带过。一年半后,最好的 agents 已经达到接近 90% 的水平,并且正在 Goldman Sachs 和 U.S. Army 内部承担实际工作。几乎所有人都得出了同样错误的结论:模型吞噬了软件工程。但随着模型吞下了软件工程中最容易衡量的那一部分,我们正在重新认识到许多团队早就知道的一点——工程工作一直都难以衡量,而那些最可衡量的部分,未必就是唯一重要的部分。

MIT 的 Mert Demirer 及其合著者终于把这件事量化了:在超过 10 万名开发者中,最新的 coding agents 将代码编写量提升了大约 180%,而真正交付上线的部分只提升了约 30%。编写代码变便宜了。其余部分仍然要经过人,而且这很重要。当然,净影响依然令人惊叹。

基准测试是你可以衡量的东西,而可以衡量的东西就是可以据此进行训练的东西。因此,编码代理最先成熟:编译器是一个免费的验证器,测试套件是一个免费的验证器,而当答案可以零成本地自我校验时,你就可以围绕这个校验不断打磨,直到战胜它。但通过测试从来不意味着,对于一个有十年历史的代码库——其中那个模块之所以存在有三个没有文档说明的原因,而部署流水线则靠一个没人愿意承认是自己写的 cron job 勉强维系——你的改动就是正确的。

那种正确性无法从排行榜上读出来,实际上也无法从任何东西上直接读出来。你只能把这样一个复杂的系统放到真实世界中运行足够长的时间,边运行边学习,才能知道它是否有效;而更聪明的模型也不会让世界运行得更快。没有人会对一个像 Google 这样规模的系统做单元测试,然后仅凭那个绿色勾选就信任它;你信任它,是因为它在多年的真实负载下存活了下来。这样的正确性不仅是私有的,它还是一种资本无法压缩的、缓慢形成的护城河。即便是最乐观的人也承认,这个时钟无法被跳过:率先推动 OpenAI 推理模型发展的 Noam Brown 最近写道,评估一个 agent 在一年期时间范围内表现的唯一可靠方法,或许就是让它运行……整整一年。

正如 Gabe Pereyra 所说,真正的自动化并不只是模型变得更好。而是产品、模型、工作流程和公司一起推进,而这四者中有三者是以组织的速度在移动。推动人发生变化,是任何基准测试都触及不到的部分:让一位持怀疑态度的合伙人改变她处理事务的方式,在一次重建过程中维系整个团队。正因如此,当我们招聘 CEO 时,处理人的能力至少和分析能力同样重要,而更聪明的模型并不会改变这种权重。反馈是模糊的,时间跨度是以年计的,而信任属于一个人。我认识的每一家公司,都让每一位工程师投入前沿编码模型,但没有一家以任何接近那种速度改变了自己的 eng org。采用只花了一个季度,而那真是一个代币增长如魔法般爆发的季度!但重建需要数年。

可被看清的东西,正是正在流失价值的东西。真正有价值的工作,从构造上就是不可见的:任何你能放上排行榜的东西,你都可以针对它进行训练,所以任何可衡量的东西都已经在走向商品化。这个过程需要时间,也从来不是彻底完成的,但方向从不会逆转。用钱来表述,就像我在 Rippling 的朋友 Matt MacInnis 所说:花一个 token 去回答一个通用问题几乎不值钱,因为任何人的模型都能回答它;而花一个 token 去基于你公司的数据进行推理则值钱得多,因为它做的是你真正想要它做的事,而不只是看起来合理的事。

可判读的工作正从两个方向被吞噬。自下而上,任务趋于饱和:一旦一项工作可以被低成本地验收,买方就不再追问是谁用哪个模型完成的,而开始追问它要花多少钱,于是这项工作就会落到那一周最便宜的开源或蒸馏模型手里。在任何利润空间可能产生影响的地方,利润空间最终都会变得重要。自上而下,各家实验室正试图让模型吞下它们自己的脚手架。检索、在便宜调用与昂贵调用之间的路由、工具使用,甚至推理策略,所有过去包裹在模型外部的装置,都在被拉进权重之中,直到包装层本身就是模型。这就是吸收前沿。利润压力也会朝另一个方向切割:一个通用代理必须随时准备应对任何事情,这很昂贵;而一个聚焦的应用程序则可以把某一条工作流调优到只需消耗其中一小部分的代币开销,而且不同于出售这些代币的实验室,它还能把这部分差额留给自己。

因此,对于任何一种工作,我们都可以问两个问题。它的正确性是否是私有且昂贵才能确立的,是否属于那种只存在于某个人数据内部的真相?它是否被高墙围住,锁在一个你无法进入的系统里?把这些与这项任务的饱和程度对照起来,你就会得到一个 2×2 矩阵。答案公开的饱和型工作就是商品化 tokens,而 open models 占据了它。答案公开的前沿工作,也就是 coding benchmarks 所在之处,则是 labs 获胜,因为当 eval 是免费的,拥有它本身毫无意义。真正的奖赏在最后那个角落,也就是不可训练的那一类:其正确性只存在于私有环境中的前沿工作。你可以在为 AI-native 先锋公司提供托管的 inference clouds 中看到这一点,在那里,绝大多数 tokens 都是由 custom models 生成的,而不是通用的 open models。

通往最后那个角落的壁垒高低不一。单个开发者的玩具代码库具有可移植性且标准化,所以攀登很短。银行的生产系统两者都不是,而且你不会仅仅因为在 SWE-Bench Verified 上聪明 2% 就拿到 root 权限。

能力可以吞噬很多东西,但更好的模型并不会让私有的 ground truth 变成公开信息。它并不持有许可证,不会签署责任,也不拥有公司的文件;而且当答案出错时,它也不能成为被起诉的一方。这里的瓶颈不是智能,而是权限,以及问责。你可以想象一个比任何人都聪明得多的模型,但它仍然需要被允许进入这扇门,而且仍然需要有人为它所做的事情署名。

那扇门有一把锁和一把防盗门闩。锁就是环境:只有在你被信任并进入系统内部之后,在通过安全审查、完成集成、签下由你对结果负责的合同之后,你才有机会验证 AI 是否在其中做了有用的事情。防盗门闩就是用户。如今,大多数美国医生每天都会打开 OpenEvidence,而再多的算力也买不来这一点。实验室明天就可以训练出一个完美无瑕的医疗模型,但仍然无法进入内科医生的使用习惯,或进入 UCSF 的决策流程,因为信任是在关系中、在用户的默许下缓慢建立起来的,而不是靠抹去这些关系的梯度下降。

这同样也是工作的一部分。一个应用程序之所以能在“不可训练”角落占据一席之地,是因为它承担了那些并不起眼的工作:整理一家公司的私有现实,以便模型能够据此采取行动;为模型提供执行所需的工具;与顾客合作,改变其劳动力的现实。能够提供这种“翻译”的公司很难被复制——而且这种翻译永远不会结束。集成与维护会随着合作关系的持续而持续,由那些将领域专长工程师和工具部署在顾客身边的团队赢得。

举一个例子,在一家顶级白鞋律师事务所里,单是并购业务每年就接近处理一千笔交易。出于保密原因以及其他十几个理由,你不可能让几百名律师助理各自把客户文件下载到电脑端,再让一个通用 agent 去快速处理这些文件;而且即便可以,你得到的也只会是一些碎片化的认知,一次只包含某一位助理的修改,根本看不到一整笔交易是如何流转的。真正重要的信号存在于交易这一层级,而一笔交易有其自身的结构:对于并购来说,包括 NDA、term sheet、diligence、purchase agreement、附属文件、交割清单;对于知识产权诉讼,则包括动议、证据开示、现有技术、更多动议。每个业务领域都有自己的一套,而且无论是律师还是工具,都无法在这些领域之间互换。而这家律所真正要解决的问题,其实位于更高一个层级:并行运作每一个业务领域,就像一位顶级合伙人同时管理数百个事项、不断拓展新业务并培养律师助理一样。要改造这样一家律所,并不是一个你可以为其编写 eval 的单一任务。 这需要一个操盘者像用 Moneyball 方法那样去运作它,在极其模糊的中间目标、不完整的反馈以及极长时间跨度的情况下,并且还要处于一个不会保持静止的环境中。

难以辨识的价值不幸的是也更难销售,原因与它难以商品化相同:一家企业无法仅凭外部观察判断,AI 是否会比基准方案更好地改变其运营。因此,最强的公司不再试图向外部证明这一点,而是先进入系统,然后直接为结果定价。Sierra 只有在其 agent 解决了顾客问题时才收费,而当它把问题转交给人工处理时则不收费,因此价格本身就成了评估标准,而这之所以可行,只是因为 Sierra 掌握着“已解决”的定义。Cognition 的 Devin 在软件领域也采取了同样的做法,提供“performance guarantee”,而这类承诺只有在一个你被信任并深度嵌入的系统中,才能针对结果作出。

即使是提供 token 服务——这一层人人都爱称之为纯粹的大宗商品——其实也并不像大宗商品那样运作。最优秀的 AI-native 公司会将其 serving 集中在一两家提供商(Baseten 或 Fireworks)上,因为每 token 成本会按规律被商品化,而真实流量下的可靠性以及对稀缺算力的保障性访问则不会。你在哪里进行 serving,与您使用哪些模型,是两种不同的选择。只有价格才是 inference 中表现得像大宗商品的部分。

一个常被提出的反对意见是:实验室就是你的供应商——为什么它不会以低于成本的价格推出自己的第一方产品把你拖垮,或者撤销你的 API 访问权限,自己拿下市场?这才是真正版本的绝望,而它只有在模型层是一个单人游戏时才成立。显然并非如此——它看起来更像是一场三方半的殊死混战,外加一批训练进度落后六个月的国际玩家,以及一个规模是去年 5 倍的发展联赛。顾客希望他们的供应商之间存在竞争,而实验室想要的是市场份额,胜过它们想要让任何一个应用程序死掉。

你可以在这些实验室正面竞争的市场中看到这一点。在消费者聊天领域,最好的模型从来都不是自然而然的赢家。ChatGPT 在多年真正的竞争中一直保持领先,而它现在失去的份额流向了 Gemini,依靠的是 Android 和搜索的力量,而不是更好的模型。Anthropic——预测市场(以及互联网风向)目前认为其拥有最好的模型——在消费者聊天中几乎无足轻重,反而是在企业和编程领域建立了自己的业务。如果更好的模型都无法在最核心的应用场景中夺走对手的用户,它就更不可能通过集成打通一家医院的记录系统或一家银行的责任体系。公众的选择依据不只是今天的编码能力。如果前沿领域仍然拥挤,上层将会很有价值。

如果这项工作无法从外部进行评分,就必须由内部的人来决定什么才算是好的答案,而这个决定本身就是整个游戏。足够多这样的决定被记录下来后,就会变成一个 benchmark。Harvey 为法律领域发布了一个,Sierra 为语音代理发布了一个。你之所以有资格定义一个领域里“好”意味着什么,是因为你已经成为那个领域正在使用的一方,而这些公司正是通过真实采用过程中的艰难磨合赢得了这种资格。

决定真金白银去向的评估是私有的,而且因公司而异:这家公司,在这类事项上,会把什么样的工作视为合格,而这件事远未完成,因为法律的深度远远超过任何公开测验。OpenEvidence 正在界定什么样的临床答案才算安全。这些都不是真正的衡量,而是对什么是真实、什么是好的判 judgment,并将其写下来,直到它成为衡量其他所有人的标准;而基础实验室无论变得多聪明,都无法制定它,因为这种地位只存在于该领域内部。这种权威往往会落在它原本就所在的地方。资深律师书写法律基准。安全临床答案的定义则由内科医生来决定。而“已解决”意味着什么,则由那个已经拥有顾客的公司说了算。

吸收前沿不断抬升,因为我们持续学会去衡量更多工作,而凡是可衡量的都会被吞噬。不可训练的地盘会在任何站在上面的人脚下不断缩小,所以你无法找到一个可防御的位置然后就此安稳下来。你必须不断迈向那些尚且无法被评分的领域,并且持续重新进行承保判断。对于一个狭窄任务,凭借你的私有数据和你自己的 evals,你可以把训练推进到前沿,并在关键之处胜过通用模型,而那个专用模型也会成为护城河的一部分。另一方面,在通用模型上竞争是一场资本战争,你会输给那个拥有最多 compute 的人,这也是那些获取能力有限且任务清晰可定义的公司会掉进去的陷阱。一旦它为了生存而决定在一大片通用任务上投入训练、试图超越前沿,赢家看起来往往主要由 datacenter 的规模决定,而结局通常不是诞生一个独立的冠军,而是把公司 sale 给某个 compute 资源充足的买家。

所有这些都是防守。更难的其实是进攻:首先要决定该构建什么。这正是我一整年都在寻找的东西,而我大概一年只能找到三次。模型在这方面帮不上忙。你让它做什么,它就做什么,但它无法告诉你什么事情值得让它去做,而且你也无法对此进行基准测试,所以你没法训练它。这也是为什么现有巨头不会拿走一切:他们守住自己已有的地盘,而下一个机会来自那些比我们其他人更早发现某种用途的人。也许比起算力,意图才是更稀缺的投入。

这种绝望有一半是对的。薄封装层确实正在被吸收,而如今很多看起来像公司的东西,本质上就是一层薄封装。错的是对剩下什么的判断。机制很清楚;终点并不清楚。我要押注的是方向:智能会持续变得更便宜,而价值会不断滑向模型无法触及的少数地方。不可训练之处,就是带着历史的价值。所以,进入其中一个领域,去做那些不光鲜的转译工作,并开始写下在那里“好”意味着什么,因为一定会有人这么做。今年被引用最多的 benchmark score,是一张即将变得毫无价值的疆域地图,也是一个通知:有些人即将失去定义什么才算“好”的权利。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读