AI安全只剩12个月

过去十年的科技发展，其核心特征之一便是人们不断追问：一家公司的影响力和权力上限究竟在哪里？而对于AI实验室，最根本的担忧在于，这个上限可能是无限的。

这导致投资者将所有注意力都投向AI部署，科技行业以前所未有的程度卷入政治，市场信念极度匮乏（且波动剧烈），而各国政府则试图将实验室划为近乎国内恐怖组织的范畴。

核心的认知在于，我们正目睹生产力从劳动力向资本转移。当这一过程完成，实验室的激励将永久性地从安抚构建模型的研究人员，转向为拥有它们的股东积累资本。我们必须追问，在这扇窗猛然关闭之前，还剩下哪些可以施加影响的杠杆。

AI安全或许是这场转变中的最后一道防线。

大约有十二个月的时间窗口，将安全理念嵌入技术和社会基础设施，之后IPO和竞争动态将使其永久性地无法实现。目前除了算力之外，所有约束实验室行为的机制要么已经失效，要么即将到期。而在这个窗口期内建立起来的东西，必须在未来多年承受来自市场的巨大压力。关心此事的人们手中可用的杠杆正在迅速减少，但或许在过去一周左右，他们被赋予了一个特定的机会，来重新夺回某种程度的重要性或机遇。

安全输掉了市场

尽管起初充满理想色彩，但AI安全运动唯一真正的商业杠杆，是押注安全性对用户、监管者和资本配置者至关重要。这是一个错误的假设。

我们很快发现，优先考虑速度的实验室占领了市场，因为用户积极反抗那些说教意味过浓的模型。安全从一个理想化的差异化因素，变成了市场主导地位的障碍。纯粹被视为一种消费者税，安全团队只会拖慢发布速度、制造无法解决的问题，并泄露内部政治纷争。

由于未能将安全包装成企业级溢价，这场运动输掉了内部的经济论证（公平地说，在智能体出现之前，这个经济论证充其量也只是有争议的）。在一场竞相最快部署最强大模型的竞赛中，安全只是一种可量化的成本，用以防范那些尚无法证明存在的风险。

雪上加霜的是，安全还需要消耗算力，而此时，由于研究方向缺乏算力，人才正从最大的实验室流失，转而选择为一家新实验室筹集标准的10亿美元（估值40亿美元）资金，而所有人都认为这家新实验室的下行风险是受保护的。

劳动力作为最后的约束

这让我们回到人的问题上。AI实验室离开了人（和算力）就一无是处，而这种意识形态上的一致性（围绕AI安全行为，或许还有企业级与消费级之争）已经影响了招聘动态，Anthropic的人员流失率明显较低，氛围的转变可能为员工创造了真正的议价能力。

最近与战争部的对峙中，“我们不会被分裂”公开信收集了谷歌和OpenAI数百名跨公司员工的签名，以支持Anthropic划定的红线。这表明跨公司团结至少是可能的，或许为AI安全再次打开了一扇窗。

当你的机构被俘获，市场激励指向错误的方向时，剩下的唯一约束就是构建这个东西的人拒绝无条件地构建它。

但劳动力杠杆只有在人才需求远远超过供给时才有效。隐含的威胁总是“我们可以离开”，但这只有在离开会造成实验室无法通过其他方式解决的问题时才奏效。如果AI今天能完成初级安全研究员40%的工作，并且这个数字每年以两位数增长，那么“我们可以离开”的算计就会迅速改变。尽管我们可能愿意相信，但安全领域的人才稀缺可能是一个12-18个月的问题，而不是24-36个月的问题。

对“劳动力杠杆即将到期”的明显回应是“在它到期之前自动化安全研究，问题就自行解决了”。

这个诱人的未来版本（在很大程度上）是错误的，而实验室自身的研究成果解释了为什么我们会反复需要人类参与其中。

为何无法通过自动化解决问题

从概念上讲，安全最不可能被自动化，因为这个问题本质上是人类与机器的对抗。

模型越来越擅长识别何时被评估，并相应地调整其行为，正如OpenAI/Apollo注意到o3在评估中表现不佳，从而没有限制其部署，以及Anthropic自身关于“对齐伪装”的研究表明，Claude会故意假装遵守训练目标以避免被修改。

能力提升只会让情况更糟。随着模型性能增强，它可能变得更擅长悄无声息地对抗，并可能将复杂性提高到我们愚钝的人类思维无法在任何合理的时间尺度上理解正在发生或未发生什么的地步。

Anthropic的对齐负责人之一Evan Hubinger在11月发表了一份详细评估，阐述了为什么对齐的困难部分尚未遇到。他的论点是，当前的模型是对齐的，但这仅仅是因为我们仍处于可以直接验证输出和检查推理的简单阶段。真正困难的问题（监督比你更聪明的系统，确保模型在你无法检查的任务上正确泛化，长期强化学习筛选出寻求权力的智能体）尚未真正到来。他的一阶解决方案是在遇到难题之前，使用最新一代的可信模型作为自动化的对齐研究员，然后构建其他模型来解决难题。

Marius Hobbhahn的《短期时间线计划是什么？》提出了类似的观点，指出最低可行的安全计划要求前沿模型压倒性地用于对齐和安全研究，并且实验室愿意为了规模化推理而接受数月的发布延迟。对于像我这样的非AI安全研究者来说，这些是合理的计划，但它们几乎肯定是不现实的。没有人会在计划用产品发布和12个月内淘汰工程师来几乎每日摧毁上市公司时，愿意将他们最强大的模型指向Nick Bostrom式的、可能成真也可能不会的推测性未来。

因此，我的直觉告诉我，在任何合理的时间尺度上，你都无法通过完全自动化来实现真正的安全。

现状如何

回到那封团结信，因为它作为一个高水位标志具有指导意义，并可能打开一个奥弗顿窗口，以确立可能的改变。

这封信代表了安全作为劳动力杠杆的最佳可能条件：它涉及一个相对二元化的道德问题（大规模监控、自主武器），有一个明确的对手，获得了跨公司支持，并且Anthropic的主要竞争对手在试图缓和局势的同时，称SCR（供应链风险）指定是“一个极其可怕的先例”。

结果呢？Anthropic被指定为供应链风险。OpenAI拿到了合同。至于红线是否得以维持，从Sam过去10条推文来看（他时而巧妙、时而笨拙地处理着AMA和公司多名员工不那么隐晦的推文），仍然存在争议。

尽管这封信将某种“意识形态安全”带到了AI行业的表面，但没有人会为了欺骗性对齐的评估方法组织跨公司请愿。而且你可以肯定，没有人会为分配给可解释性研究的算力建立一个notdivided.org网站。未来现实的安全问题看起来更像是：“在我们发布一个更擅长长期编码任务、并能让我们在4-8周内碾压Claude Code/Codex使用的模型之前，进行多少红队测试才算足够？”

Anthropic似乎正在赢得的这场后来居上的战斗，恰逢（有人可能会说加速了）那些使我们走到今天的 principled commitments 的瓦解。Anthropic从其负责任扩展政策中删除了硬暂停条款以保持势头。OpenAI也大同小异，其准备团队人才流动频繁，并且在2024年戏剧性地关闭了其AGI准备小组。广泛而言，支撑实验室安全工作的大多数具有约束力的限制实际上已经消失，Anthropic最新的博客文章可能被解读为另一种形式的屈服，因为随着竞争加剧和“更快起飞”情景的出现，这些实验室各自一些长期存在的论点在几周内就被悄然搁置了。

市场终归是市场

Anthropic和OpenAI都可能在未来6-18个月内上市。这两家雇佣了全球大多数前沿安全研究人员的组织，将恰恰在安全最佳方案要求将其最强大的模型用于安全研究而非扩展智能体时，向公众股东负责。证明各实验室估值的收入增长恰恰存在于那些安全审查最慢、最可能延迟发布的用例中。而正如我们所看到的，意识形态固然很好，但没有什么比糟糕的氛围或执行不力更能威胁人才护城河了，当每家实验室的股票每秒都在交易时，这一点将比以往任何时候都更加清晰。

一旦是成千上万的投资者而不是区区五家在为实验室股权定价，人们自然会转向政府，将其视为下一个把关机制。乔治城大学一篇关于AI应急准备的论文显示，大多数政府准备得多么不足，纵观欧盟（合规截止日期推迟至2027-2028年）、英国（实验室已经忽视的自愿合作）、中国（目标不同的国家驱动框架）……

原文来源：Michael Dempsey

#AI