Anthropic 与对齐
你不关心政治并不意味着政治不会关心你。
― Pericles
这不是一篇关于美国对伊朗所发动的行动的文章,但这是一个有用且及时的类比。关于国际法的概念以及谁可能在违反它,可以进行无休止的争论。有些人会认为美国因这些袭击而违反了国际法;也有人会指出,在我有生之年,伊朗通过其公开行动及对恐怖组织的支持,一再违反国际法。
重要的是要注意,整个争论从根本上毫无意义:“国际法”这一概念本身是虚假的,不是因为相关法规和协议不存在,而是因为它们的效力归根结底取决于可执行性。由此推及,必须存在一个能够实施这种执行、并具备相应能力的实体,而这样的实体并不存在。
是的,联合国存在,但该机构只能在其成员国同意并愿意服从其法令、并具备执行其授权的能力时发挥作用。换言之,真正重要的行为体是国家本身,而这些国家的相对强弱并非由律师和法官决定,而是由它们投射武力和胁迫他人的能力决定。
换句话说,如果在这个周末之后你仍想坚持“国际法”这一概念,那么请认识到争论已被裁定:伊朗有违,因为他们的军队刚刚被美国彻底教训了一顿,这意味着美国来决定谁对谁错。
Anthropic 对 报战部
当大多数美国人以及世界其他地区的人都忙于关注伊朗事态时,科技界另一场激烈辩论仍在持续。再次出现的一方是美国自身,而另一方则是一家私营公司,Anthropic。《华尔街日报》报道:
联邦政府将停止与 Anthropic 合作,并将该人工智能公司定性为供应链风险,这是政府与该公司就其技术如何被五角大楼使用的冲突的重大升级。尽管 Anthropic 与政府的关系降至新低,但竞争对手 OpenAI 周五晚间表示已与国防部达成协议,其模型将被用于机密环境,直到最近这一地位一直仅由 Anthropic 保持。周五五角大楼与两家硅谷宠儿之间的这一连串迅速事态,可能将塑造联邦政府,尤其是五角大楼,未来如何使用前沿人工智能工具的格局。
Anthropic 本周早些时候在一份达里奥·阿马德伊就与战争部讨论发表的声明中阐明了其立场:
在极少数情况下,我们认为人工智能可能破坏而非捍卫民主价值观。有些用途也明显超出当今技术能够安全可靠完成的范畴。有两个此类用例从未被纳入我们与战争部的合同,我们认为现在也不应纳入:
- 大规模国内监控。 我们支持在合法的对外情报和反情报任务中使用人工智能。但将这些系统用于大规模国内监控与民主价值观不相容。由人工智能驱动的大规模监控对我们的基本自由构成严重且新颖的风险。在现行法律允许此类监控的范围内,这仅是因为法律尚未跟上人工智能快速增长的能力。例如,根据现行法律,政府可以从公共来源购买美国人行踪、网页浏览和社交关联的详细记录,而无需获得法令——情报界已承认这一做法引发隐私担忧,并在国会内产生两党反对。强大的人工智能使得将这些零散、单个看似无害的数据自动、大规模地汇集成任何人生活的全面图景成为可能。
- 全自主武器。 像今日在乌克兰使用的那类半自主武器,对民主防卫至关重要。即便是全自主武器(即完全将人类排除在决策链之外、自动选择并打击目标的武器)也可能对我们的国家防务至关重要。但目前的前沿人工智能系统还远不够可靠,无法为全自主武器提供支撑。我们不会有意提供会使美国战士和平民处于风险中的产品。我们已提议与国防部直接合作开展研发以提高这些系统的可靠性,但他们并未接受这一提议。此外,若没有适当的监管,全自主武器无法被信赖去行使我们受过高水平训练、职业化部队每天表现出的关键判断力。它们需要在现有并不存在的适当防护措施下部署。
据我们所知,到目前为止,这两项例外并未阻碍我们的模型在武装部队中的推广与使用。
战争部已表示,他们只会与同意“任何合法使用”并在上述情形下移除安全防护措施的 AI 公司签约。他们威胁说,如果我们坚持这些防护措施,就会将我们从他们的系统中移除;他们还威胁要将我们定性为“供应链风险”——这是一个只用于美国对手、从未对美国公司使用过的标签——并动用《国防生产法》强制移除这些防护措施。后两项威胁本质上自相矛盾:一方面将我们标为安全风险;另一方面又将 Claude 视为国家安全的关键。
无论如何,这些威胁并不会改变我们的立场:我们无法在良知上同意他们的请求。
在听这期节目之前我其实没意识到国家安全局(NSA)隶属于战争部;这确实为关于监控的论点提供了有用的背景。而且,正如十年前斯诺登披露的那样,NSA 在对何为合法监控的解读上既可能激进也可能富于创造性。人们或许本希望尤其是电信公司能像 Anthropic 那样采取立场。
与此同时,如果不是由民选国会通过的法律,那么应以何种标准来决定什么可以允许、什么不允许?Anthropic 的立场是,Amodei —— 我在此用他来代表 Anthropic 的管理层及其董事会 —— 应该决定其模型的用途,尽管 Amodei 并非民选产生,也不向公众负责。
其次,谁来决定何时以及以何种方式使用美国的军事能力?这是战争部的职责,战争部最终对总统负责,而总统也是通过选举产生的。然而,Anthropic 的立场是,一个不受监督的 Amodei 可以单方面限制其模型的使用。
值得注意的是,有报道称 Anthropic 的担忧可能不仅限于完全自主武器;据 Semafor 报道:
Anthropic 是为数不多的可供美国政府以机密方式使用的“前沿”大型语言模型之一,因为它可通过 Amazon 的最高机密云以及 Palantir 的人工智能平台获得,这也是其 Claude 聊天机器人最终出现在监控当时被扣押的委内瑞拉总统尼古拉斯·马杜罗行动的官员屏幕上的原因之一……
在马杜罗突袭事件发生后不久,在 Palantir 与 Anthropic 的例行沟通中,一位 Anthropic 官员与 Palantir 的一名高级主管讨论了这次行动,该主管从交流中判断这家 AI 初创公司不赞成其技术被用于该目的。一位国防部高级官员表示,Palantir 这名主管对 Anthropic 询问所暗示的该公司可能会抵制其技术在美军行动中被使用感到震惊,并将此对话报告回五角大楼。
Anthropic 否认反对 Claude 可能在马杜罗突袭中扮演的任何角色,但 Semafor 的报道引起共鸣,因为在一些科技圈存在抵制参与任何军事行动的趋势。为此,可以说这场对峙正按应有的方式结束:Anthropic 及其模型将被从战争部的技术栈中移除,取而代之的是其他方案。
朝鲜与核武器
阿莫德伊一直就人工智能和国家安全的其他方面发表过直言不讳的观点;摘自彭博社 1 月刊 :
Anthropic 首席执行官达里奥·阿莫代伊表示,在美国正考虑允许 NVIDIA 向北京出售 H200 处理器之际,向中国出售先进人工智能芯片是带有“难以置信的国家安全影响”的错误。阿莫代伊在瑞士达沃斯世界经济论坛接受 Bloomberg 主编约翰·米克尔斯韦特采访时说:“运送这些芯片将是一个大错误。我认为这简直疯狂。这有点像把核武器卖给朝鲜。”
这在相当程度上提高了混乱采购决策的风险:如果我们字面上接受 Amodei 的类比,后果值得深思。
从伊朗说起:除了伊朗在中东及更广范围内导致数千名美国人死亡这一事实外,支持美国干预的论点之一是伊朗继续追求核武能力。朝鲜正好说明了原因:朝鲜无需购买核武器,因为他们已经拥有核武,这无疑使针对他们的任何潜在军事行动变得更加复杂。核武器使你在(不存在的)律师事务中更有说服力
国际法庭!
简而言之,核武器显著倾斜了权力平衡;在 AI 具有同等重要性的程度上,美国不仅对 Anthropic 允许其模型能做什么有更大兴趣,也对 Anthropic 本身被允许做什么有更大关注。
我认为,这为将 Anthropic 定性为供应链风险提供了重要背景。 战争部长皮特·赫格塞斯在 X 上表示 :
根据总统要求联邦政府停止一切使用 Anthropic 技术的指示,我指示战争部将 Anthropic 指定为对国家安全的供应链风险。自即日起,任何与美军有业务往来的承包商、供应商或合作伙伴不得与 Anthropic 开展任何商业活动。
这将摧毁 Anthropic:至少该公司依赖 AWS、Microsoft 和 Google 的云托管服务,而这些公司都有与国防部的合同;我想同样适用于 NVIDIA。对该公司有利的是,Hegseth 的声明似乎与法律不符 , 法律将 Hegseth 的权限限制在与美国政府合同相关的工作;换言之,只要不将 Anthropic 的模型用于提供给美国政府的任何服务,AWS 仍然可以为 Anthropic 提供模型托管。
不过,这是一项极端措施,几乎受到了普遍的沮丧和反对,即便是在那些同情私营公司不应对美军拥有否决权的人当中也一样。为什么美国政府要削弱其一位人工智能骄子?
事实上,Amodei 已经回答了这个问题:如果核武器是由一家私营公司开发的,且该私营公司试图对美军强加条件,美国绝对有动机摧毁那家公司。原因要追溯到国际法、朝鲜和其他问题:
- 国际法最终是权力的函数;强权即公理。
- 有些能力类别——比如核武器——足够强大到能够根本性地影响美国的行动自由;我们可以轰炸伊朗,但我们不能对朝鲜那样做。
- 在人工智能达到核武器级别——或更强——的程度上,Amodei 和 Anthropic 正在构建一个可能与美国军队相抗衡的权力基础。
Anthropic 经常谈论对齐;然而,他们坚持要控制美国军队这一点,根本上与现实不相符合。当前的人工智能模型显然还未强大到可以与美国军队匹敌;但如果那确实是发展轨迹——而在主张这一轨迹方面,没有人比 Amodei 更直言不讳——在我看来,美国面临的选择实际上相当二元:
- 选项一是 Anthropic 接受相对于美国政府的从属地位,不再寻求对其模型如何使用保有最终决策权,而是将此交由国会和总统决定。
- 选项二是美国政府要么摧毁 Anthropic,要么将 Amodei 免职。
注意,我并不是在重复 Anduril 创始人 Palmer Luckey 关于民主监督重要性的(非常有力的)论点;Luckey 在 X 上写道 :
这比任何关于具体条款的争论都更触及问题核心。你相信民主吗?我们的军队应该由民选领导人监管,还是由公司高管来监管?…
这是一场关于人工智能的辩论,但这并不改变其背后的权衡。相同的问题同样适用于像监控系统或自主武器这样具伦理争议但重要的能力的定义和使用。说“但它们会设置防护性的自主系统接口!”很容易,但你立刻会陷入相同乃至更多的问题——什么是“自主”?什么是“防御”?在进行进攻行动时保护某个资产算不算防御,或者在一个将我们视为进犯的国家海域外停靠一个航母舰队又如何?
归根结底,你得相信美国实验仍在继续,相信人民有权选举和罢免做出这些决策的当权者,相信我们这个不完美的宪政共和体制仍足以治理国家,不需要将实际权力外包给亿万富翁、企业及其幕后的顾问。我仍然信奉这一点。这就说明了“老兄你只要同意 AI 不会参与自主武器或大规模监控,为什么不能同意,这么简单,拜托老兄”这种立场是站不住脚的,美国不可能接受。
我同意这是一个有力的论点;但我提出的论点更为基础也更为残酷,与是否相信美国实验无关(尽管在这点上我和 Luckey 意见相同):美国绝不能容许一个独立的权力结构——而这正是人工智能有可能支撑的——公然寻求摆脱美国控制。
复杂系统
为记录在案,我并不希望 Anthropic 被摧毁,我希望他们成为美国的 AI 领军者。另为记录在案,我不信任 Amodei 在国家安全或 AI 安全问题上的判断。
就国家安全而言, 我已经在 X 上就 Amodei 在达沃斯的言论发表评论 :

去年我在 《AI 的承诺与芯片的不稳定性》 中阐述了为什么我认为从整体视角看美中竞争,在涉及芯片和中国问题上会带来一些痛苦的权衡:
与本篇文章相关的重要要点是,台湾在这两种情形中都是触发点。向亚洲转移战略意味着为防御中国可能的入侵或封锁而做准备;向美洲收缩则可能意味着承认或默认中国为亚洲的霸权,这不可避免地将导致中国对台湾的吞并。
不必多说,这是一个我小心翼翼涉足的讨论,部分原因是我在台北断断续续居住了二十多年。当然,这也涉及道德层面:台湾是一个充满活力的民主社会,其民众并不希望与中国统一。为此,现状既荒谬又出人意料地可持续:在几乎所有方面,台湾都是一个独立的国家,拥有自己的边界、军队、货币、护照,以及——与科技相关的——经济,越来越由台积电主导;与此同时,台湾并未宣布独立,美国的官方立场是承认中国认为台湾属于中国,但既不支持这一观点,也不支持台湾独立。
以我的经验,华人和台湾人在处理这种模糊地带时比美国人要容易得多;不过,灰色地带的作用也是有限的。同样重要的是现实因素,比如军事实力(过去有利于台湾,如今明显有利于中国)、经济联系(台湾与中国之间、以及中国与美国之间的联系都极为紧密)和发动战争的可信度。在这方面,乌克兰冲突及由此形成的中俄关系意义重大,因为两国在军事技术共享以及陆路石油和粮食补给链方面的合作日益紧密,而与此同时美国则消耗殆尽。由此延伸出另一个变化因素:在美利坚和平成果下美国制造业的空心化,已与中国在制造业——即最关键的战斗能力——上的主导地位直接相关。
尽管如此——或者更确切地说,曾经有——一个可能让中国犹豫不决的重要因素:台积电的重要性。芯片支撑着现代经济的各个方面;人工智能的兴起以及由此可能带来的巨大收益,只会使这种需求更加迫切。只要中国需要台积电的芯片,他们就有强有力的动机不去冒犯台湾。
需要考虑的关键是相反的情形:切断中国对先进芯片的获取,不仅会降低中国公司依赖美国生态系统的可能性,也会降低摧毁台积电的成本。更重要的是,如果人工智能真的如 Amodei 所说那样强大——相当于甚至超过核武器——那么对中国来说,正是实施这种破坏行为在博弈论上最优:如果中国不能拥有人工智能,那么在当前情况下,确保任何人都无法拥有人工智能反而相对容易。
正如上文引述所指出的,Amodei 普遍将中国视为一种威胁;令我担忧的是,他在建议的芯片管制路线所带来的后果方面,始终未能承认那种做法有可能置全民于无法获得人工智能的风险中。
话虽如此,Amodei 并不真正赞成人人都能使用的人工智能:他和 Anthropic 一直是开源模型的公开反对者,并且是我认为“非常错误”的拜登关于人工智能的行政命令的主要推动者之一。像台湾问题一样,我认为这些立场显示出缺乏系统性思考:
- 首先,如果只有封闭的人工智能系统存在,那么难以想象的权力将掌握在这些系统所有者手中;看起来 Amodei 认为这种权力应该由他来掌控(至少,我更希望由美国政府来掌控)。
- 其次,认为人工智能安全只能由少数负责任的管理者来保证的想法,忽视了存在着强烈动力去构建其他模型的事实。多年前当只有少数公司在研发人工智能模型时这一点就很明显,而现实中迄今发生的情况也证明了这一点。
- 第三,在一个人工智能广泛扩散的世界里,对抗人工智能的最好防御将是人工智能;这意味着更多的人工智能实际上比有限的人工智能更安全,因此开源最终更安全。
在这些观点上当然可以存在分歧;但我对 Amodei 和 Anthropic 的具体担忧在于,他们一贯表现出单一地专注于成为唯一胜利者并掌握全部权力的模式,而很少考虑其他人可能如何对这种局面作出反应。或者更直白地说,现实是其他人确实存在,而且他们拥有枪支、导弹,甚至是核武器。强者仍可能为王,我个人不愿把人类的未来交给一个似乎不断忘记这一事实的个人和公司。
将信任托付给谁
我确实认为 Ramez Naam 在 X 上的这篇帖子 是本周末构建辩论的最乐观方式:

我确实对人工智能的监控能力感到极度不安;我们曾认为存在的许多保障措施实际上大多是因为克服这些措施所需的摩擦。人工智能,比计算机和互联网更能消解摩擦,我完全理解为何 Anthropic 在这一具体问题上的反驳能够引起广泛共鸣。
应对这一新现实的方式应是通过制定新法律并加强负责的监督;为一位未经选举产生的执行官欢呼或甚至要求其决定如此强大能力的使用方式和场所,只会把我们引向一个更加专制的未来。
与此同时,我们的对手肯定会开发自治作战能力(是的,我承认我的芯片建议会使这种情况更早发生——权衡取舍很难!);如果美国要继续作为国际法的最终来源,就必须朝这个方向前进。而我所说的美国,是指由民主选举产生的总统和国会,而不是旧金山的一位执行官。我不希望那样发生,更重要的是,掌握武器的人不会容忍那样的局面。Anthropic 需要与这一现实保持一致。