返回首页
2026.04.20 05:22 约 8 分钟 深度学习

AI 的”温水煮青蛙”

>

作者:Guru Chahal · 2026 年 4 月 11 日

当持续进步成为深思熟虑执行的敌人

在 AI 领域,我们目前正处于”一切同时发生”的阶段,但大多数日子里我们意识不到这一现实,因为每个单独的公告都感觉是渐进的。

我想回顾一下过去 90 天实际发生的事情——主要以 Anthropic 为案例研究,尽管同样的动态适用于 OpenAI、Google 和其他每个前沿实验室。我不关注炒作,只关注正在发布的产品。

模型不断变好,节奏没有放缓

我最近翻阅了 Anthropic 在过去两年每次 Claude 模型发布时公布的系统卡——从 Claude 3 Opus(2024 年 3 月)到 Mythos Preview(2026 年 4 月)。三个基准测试在不同模型代际中存活的时间足够长,足以衡量真实趋势:GPQA Diamond(研究生级科学推理)、SWE-bench Verified(代理编码)和 MMMU(多模态理解)。

数字令人震惊。GPQA Diamond 在 25 个月内从 50% 升至 95%,提高 45 个百分点。SWE-bench Verified——可以说是最具实际相关性的基准,因为它衡量模型是否能在真实代码库中修复真实的 bug——从 22% 升至 94%。这是 72 个百分点的增长。

更重要的是,增长没有减速。最近三次 GPQA 跃升是该系列中最大的,最近一次 SWE-bench 跃升 +17 点是在曲线看起来已经趋于平稳之后。在唯一减速的领域(MMMU,多模态理解),那是因为模型正接近人类专家水平的表现。是基准在饱和,不是模型在饱和。

我承认——基准并不是全部。但在这种情况下,亲身体验是吻合的。Anthropic 的内部调查显示,他们的工程师在 59% 的日常工作中使用 Claude(一年前为 28%),并报告了 50% 的生产力提升——在 12 个月内两个指标大约都翻了一倍。自他们在工程组织中采用 Claude Code 以来,每个工程师每天合并的拉取请求增加了 67%。Claude 辅助的工作中有 27% 是本来根本不会做的任务——那种以前从未具有成本效益的探索性和扩展性工作。

如果 Anthropic 自己的工程师——构建着地球上最复杂的一些软件——每天都在多发布 67% 的代码,想想当同样的收益击中应用层软件开发时会发生什么——那里对代码的要求通常没那么严苛。

一切的时间表——产品开发、竞争响应、市场进入——都在压缩。而构建模型的人压缩自己时间表的速度比任何人都快。

产品节奏不知疲倦

不仅仅是模型在变好——基于这些模型构建的产品正以两年前被认为不可能的速度发布。

仅在 2026 年第一季度,Anthropic 就发布了:

新模型:Claude Opus 4.6 和 Sonnet 4.6,拥有 100 万 token 上下文窗口、14.5 小时任务完成视野,以及 18 个月前难以想象的编码性能。然后 Mythos Preview 在 SWE-bench 上得了 94 分——意味着它可以自主解决基准中几乎所有真实世界的 GitHub 问题。

代理基础设施:Claude Managed Agents——一个为生产 AI 代理处理沙箱、状态管理、工具编排和错误恢复的平台。这正是一代初创公司一直在构建的管道。定价为每个会话小时 0.08 美元加上 token 成本。

桌面和计算机使用:Claude Cowork 和 Computer Use——可以指点、点击和导航你实际屏幕的 AI。Dispatch 让它在你离开桌子时运行任务。它在 Excel、PowerPoint 和你的浏览器内原生运行。

企业连接器:与 Google Workspace、Microsoft 365、Salesforce 以及数十种其他企业工具的深度集成——不是浅层的”粘贴文本”集成,而是跨应用程序的完整上下文共享。

安全工具:Claude Code Security——基于推理的漏洞扫描,在生产开源代码中发现了 500 多个零日漏洞。还有 Project Glasswing,部署 Mythos 用于防御性网络安全。AI 在做真正的安全研究,而不只是模式匹配。

记忆和个性化:跨会话的持久记忆,甚至在免费层级也可用。Claude 记住你的偏好、项目和工作风格。

数一数大约是每四天就有一次重大产品发布。这只是 Anthropic 一家。竞争压力意味着 OpenAI、Google 和其他公司也以类似节奏运作。

技术栈正在被自下而上吞噬

这是对任何构建或投资软件的人来说最重要的模式:

前沿实验室同时在三层发布:

模型层(底部):更好的模型、更大的上下文窗口、更便宜的推理。这是基本要求。

赋能层(中部):代理编排、安全扫描、可观察性、企业控制、开发者 CLI。这是基础设施初创公司最应该担心的层。

应用层(顶部):桌面代理、办公生产力插件、计算机使用、连接到所有主要 SaaS 工具的连接器。这是实验室直接接触最终用户的地方。

每一层都使其上一层成为可能,而实验室同时推进这三层。自 2026 年 1 月以来,节奏大约是每两周一次重大发布,并且还在加速——仅最近一周就在所有三层都有发布。

没有单个公告令人警觉。这就是温水煮青蛙。这边是托管代理平台,那边是安全扫描器,下周是 Excel 集成。但放大到季度视角,你会意识到平台供应商正在系统性地吞并本应是初创公司机会的堆栈层。

Anthropic Managed Agents 的引入

对我而言,最近最有趣的发布之一是托管代理基础设施。Anthropic 的 Claude Managed Agents 是一个完整的云服务,用于构建和部署生产 AI 代理:安全的沙箱执行、持久会话、凭证管理、多代理协调和错误恢复。全部通过 API。

像 Notion、Asana 和 Sentry 这样的主要 SaaS 公司已经在其上构建。定价极具吸引力——每个会话小时几美分加上 token 成本。

这很重要,因为它与代理平台层竞争——目前数十家资金充足的初创公司正在构建的编排、沙箱和部署基础设施。如果模型提供商以商品化定价处理管道,独立代理基础设施公司的价值主张就会显著缩小。其主要差异化在于”我们让部署和管理 AI 代理变得容易”的初创公司,现在有一个资金非常充足的竞争对手,而且这个对手还控制着底层模型。

而且轨迹是清晰的。今天是代理基础设施。明天是垂直代理应用——客户服务、财务、HR。平台不必自己构建每个垂直领域。它只需要让任何人在其平台上构建代理变得轻而易举,而这正是托管代理基础设施所做的。

持久价值是什么样子?

我没有清晰的答案。但我认为正确的问题是:

模型供应商在哪里停?历史表明,平台供应商擅长横向基础设施,而拙于深层垂直工作流。Salesforce 构建了平台,但没有构建其上的每个应用。AWS 构建了云,但没有构建每个 SaaS 产品。Anthropic 及其同行可能会遵循同样的模式——但他们正在主张的”横向”表面积比我们一年前预期的要大得多。

什么能挺过基准跑步机?如果一个编码模型今天能解决 SWE-bench 的 94%,明年开发者工具公司需要提供什么模型本身不能原生做到的事?答案必须超越”我们用一个漂亮的 UI 包装模型”——它需要是专有数据、工作流锁定,或真正难以复制的领域专长。

压缩在哪里创造机会?如果产品开发时间表被砍半,这不仅威胁现有公司——也使全新的品类变得可行。在开发需要 18 个月时不值得构建的产品,在它需要 3 个月时可能值得构建。问题是谁捕获那个价值——快速行动的 AI 原生初创公司,还是突然有工程带宽扩展的现有公司?

温水煮青蛙

AI 的温水煮青蛙是真实的。每周的公告感觉可以管理——这边一个新模型,那边一个新集成,一个代理平台发布。没有单个事件迫使你重新思考你的世界观。

但把过去 90 天串起来,画面就不同了。在研究生级推理上从 50% 跃升到 95% 的模型。自主解决几乎每个基准任务的编码代理。可以在你午餐时使用你计算机的桌面代理。让任何人在几天内部署生产代理的托管基础设施。进入每个主要生产力工具的企业连接器。

我们都应该问自己的问题——不论我们在生态系统的哪个位置、扮演什么角色——是我们在经历温水煮青蛙吗?是时候停下来,根据这些不懈的改进深思熟虑地评估我们的世界观了吗?

我鼓励自己以及与我合作的每位创始人,花时间真正内化这些复合的 AI 改进,并考虑它们代表的机会和威胁……而不是处于温水煮青蛙之中,被动地试图吸收每天高潮迭起的公告。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读