AI 现状:2026年5月
作者:Nathan Benaich (Air Street Capital) | 来源:SandHill.io #283
本期《AI 现状》涵盖了 2026 年 4 月在 AI 政策、研究、工业和初创企业领域的主要发展。前沿实验室正在转变为基础设施公司,网络安全攻防战升级,中国的大模型在智能体编码上缩短了差距,机器人技术悄然从演示走向落地。
一些新闻简讯
Profluent(生命科学领域的前沿 AI)宣布与礼来(Lilly)达成 22.5 亿美元的合作,用于大基因插入疗法;Sereact(具身智能)完成了 1.1 亿美元的 B 轮融资!
Air Street AI 聚会 将于 5 月 14 日在纽约举行。
我们正在为《AI 现状报告》招募研究分析师。
前沿 AI 已跨越了进入进攻性网络行动的卢比孔河。英国的 AI 安全研究所(AISI)透露,Anthropic 的 Claude Mythos Preview 是第一个通过其 32 步“最后的人(The Last Ones)”靶场测试的模型——这是一个企业网络模拟测试,通常需要人类红队耗时 20 小时才能完成。Mythos 在 10 次运行中通过了 3 次,并在专家级任务上保持了 73% 的成功率。
OpenAI 的 GPT-5.5 在仅仅三周后也跟进了,呈现出几乎相同的功能表现。最重要的是进步的速度:AISI 现在估计前沿网络攻击能力每四个月翻一番,较 2025 年底七个月翻一番的速度有所加快。由 AI 驱动的攻击还是遥远前景的观念已被数据彻底击碎。
上市的网络安全公司在为这种加速定价方面仍然非常迟缓。依赖静态签名和基于规则的供应商面临着生存危机。目前,公开市场将整个网络安全板块视为 AI 落后者,直到有证据表明并非如此。
回想起来,2019 年最初的微软-OpenAI 联盟似乎是一个倾斜的战略遗迹。重新谈判的结构谨慎地解除了这些条款,但并没有完全分道扬镳。微软仍是主要云合作伙伴,保留非排他性知识产权许可至 2032 年。转折点在于:OpenAI 获得了多源采购其算力的权利(与 Oracle 和 CoreWeave 合作),而 AGI 条款则换成了更细化的能力门槛和更窄的收入分享。
这是一个重置,而不是脱钩,但这个先例很重要。不再受独家供应商限制约束的微软正在大胆地将其每一个前沿模型放入平台,包括从第一天起就支持 Anthropic 的 Opus 4.7。这里传递出的信息是,独家平台押注的时代已经结束;多元化现在是唯一站得住脚的基础设施策略。

然而,这种计算规模的扩张遇到了比实验室预想的更快的当地阻力。至少有 11 个州提出了限制数据中心立法的提案。数据中心“邻避主义(NIMBYism)”正在迅速加速,现在它是扩张规模的一阶瓶颈。
四个中国实验室在 12 天的窗口期内发布了开源权重的编码模型:智谱(Z.ai)的 GLM-5.1、MiniMax M2.7、月之暗面(Moonshot)的 Kimi K2.6 以及 DeepSeek V4,它们在智能体工程方面都达到了大致相同的能力天花板,且推理成本远低于西方前沿模型。
关于智能体编码旧有的“中国落后六到九个月”的框架已经不再站得住脚。剩余的差距很小、竞争激烈,并且现在是由评估器、脚手架(scaffold)和基准测试决定的,而不是由原始能力决定的。在整个领域最具经济影响力的能力上,几个最好的模型是中国的,并且是开源权重的。
最近的两项实验在真实的真实市场环境中对智能体的表现进行了压力测试,结果令人深思。
在 Anthropic 的“Project Deal”中,69 个由员工支持的智能体在 500 多个房源中穿梭,完成了 186 笔交易,交易额达 4000 美元。数据揭示了一个黑暗的趋势:能力呈复利增长。Opus 4.5 智能体在价格和选择上系统性地在谈判中击败了 Haiku 4.5 智能体。这表明,智能体市场可能内在会奖励具有隐藏溢价的更优模型,从而为拥有最好算力的人复合优势。

General Reasoning 的 KellyBench 提供了对抗性的反例:让智能体使用历史博彩数据在 38 周的英超联赛赛季中管理资金。结果是一场大屠杀:每一种前沿模型平均都亏损,甚至表现最好的 Opus 4.6 复杂性得分也只有 32.6%。结论很明确:当前的基准测试夸大了能力。当面对非平稳性和实际风险时,前沿就崩塌成了噪音。
研究进展速览
π0.7 (Physical Intelligence): 标志着第一个经受住语言模型基准测试的机器人基础模型的到来。
ML-Master 2.0: 引入了分层认知缓存(Hierarchical Cognitive Caching),使智能体能够在长时间范围内进行实验策略。
AI 科学家没有进行科学推理就产生结果 (耶拿大学): 大量证据表明,所谓的“AI科学家”常常无视证据、缺乏修正能力的推理,评估无法检测出这些故障。
高效的大语言模型 RL 训练与经验回放 (FAIR / NYU): 将主流强化学习实践引入了大语言模型技术栈,大幅降低了推理计算成本。
市场融资与退出
OpenAI 融资 1220 亿美元,投后估值达到 8520 亿美元,由亚马逊、英伟达、软银和微软等领投。
Anthropic 从谷歌获得了 400 亿美元的增量投资,从亚马逊获得了 50 亿美元投资,并与谷歌和博通达成了芯片协议。
Skild AI 收购了 Zebra Technologies 的机器人自动化业务。
SpaceX 以 600 亿美元的收购方案截胡了 Cursor 计划的 20 亿美元融资。
中国阻止了 Meta 收购 Manus 的交易。这是中国首次在国家层面禁止境内 AI 初创企业被收购。