我们其实并不知道人工智能是如何运作的，这是个问题

要让我们在某些领域信任它，正在不断发展的“可解释性”领域的研究人员或许需要学会打开其大脑中的黑箱。

1997 年，当 IBM 的国际象棋超级电脑击败 Garry Kasparov 时，电脑仍然只是电脑。Deep Blue 重逾一吨，拥有 32 个中央处理器，每秒可评估 2 亿种棋盘局面，但所有人都知道它在做什么：这台电脑通过模拟并为最多向前 12 步的棋盘局面赋值（总计达数十亿种局面），从而确定下一步的最佳走法。这种能力是其制造者直接编入 Deep Blue 的，就像 1945 年第一台现代电脑——电子数字积分计算机（Electronic Numerical Integrator and Computer，简称 ENIAC）——被编程用于做加法一样。这些都是“白盒”系统。尽管从某种意义上说它们是智能的——不然，你会怎么称呼一个擅长下棋的东西呢？——但人们对其内部运作并不存在什么神秘感。

15 年后，也就是 2012 年，多伦多大学的一个研究团队开发出一款名为 AlexNet 的程序（以其创作者之一 Alex Krizhevsky 命名），它识别图像中物体的准确率远远高于此前任何程序——这一能力在它轻松赢得一项图像分类竞赛时得到了证明。这场胜利颇为耐人寻味，因为从多数意义上说，AlexNet 其实根本算不上被真正“编程”出来的。

相反，AlexNet 被赋予了一种由相互连接的函数组成的结构，这些函数可以被看作虚拟神经元，会根据流经其中的信息决定开启或关闭。在训练阶段，这些函数最初被随机设定，并被要求在识别图像失败或成功时自行进行微小调整。这种方法所涉及的原理经过了数十年的发展，但 AlexNet——由于被输入了海量图像数据集——是在一个截然不同的规模上运行的。经过足够训练后，该系统最终形成了一套识别图像的特定公式，其效果优于此前设计出的任何方法。

但这里有一个问题：这个公式本身充满神秘感，甚至连负责开发它的人也并不真正明白。由于这个图像分类算法是自主演化而来的，AlexNet 的内部结构，也就是它的神经网络中，可能编码了数量不明的规则，而人们几乎没有明显的方法弄清这些规则究竟是什么、又位于何处。你可以直接查看程序中的各项函数，但它们多达数千万个，要准确刻画这种涌现出的结构，几乎是不可能的。这个程序本质上就是一个黑箱。

AlexNet 是人工智能历史上的一个重要里程碑。尽管此前已有大量关于神经网络的研究，但更广泛的计算机科学界并未全力投入这一方向。AlexNet 的成功激发了人们利用神经网络解决新问题的努力。它让一些人认为，创造智能模型的最佳方式，是让我们自己进一步退出这一过程：与其加入更多结构，不如构建一个非常庞大的神经网络，让它在海量数据上进行训练。正如计算机科学家 Rich Sutton 在 2019 年所写，70 年机器学习研究留下的“苦涩教训”是，构建一台机器去模仿“我们以为自己如何思考”的方式，“从长远来看是行不通的”。

人工智能模型的神经网络所包含的数学函数数量，已从数千万增长到上亿，再到十亿。2018 年，首批大型语言模型发布，它们基于一种新型神经网络，但训练方式与 AlexNet 在根本上仍是相同的。它们不再识别图像，而是预测句子中的下一个词，并根据提示生成类似人类的文本。据估计，Google Gemini 和 OpenAI 的 GPT-5 最新版本包含数万亿个数学函数（确切数字尚未公开）。但这种进步的代价之一是透明度的下降。模型的神经网络越庞大，其内部机制就越难理解。

面对这种不透明性，人们很容易诉诸简单化的解释：认为因为这些系统像我们一样生成语言，它们就是像我们一样的存在；或者认为因为这些系统不过是数学函数的排列组合，我们可以把它们看作巨大的查找表。但这两种说法都过于轻率——它们都不足以解释人工智能模型超越人类的能力，以及其看似天真却又古怪的行为。

相反，计算机科学中一个日益发展的领域——可解释性——体现出这样一种理念：为了缩小甚至弥合 A.I.模型与人类之间不断扩大的认知鸿沟，我们需要把 A.I.更多地视为一种自然现象，而非人类发明。毕竟，自然世界充满了由未知规律产生的复杂结构；从某种意义上说，星系、海星和癌细胞都是黑箱。该领域的先驱之一、并与 Dario Amodei 及其他几位前 OpenAI 员工共同创立 A.I.公司 Anthropic 的 Chris Olah 告诉我，可解释性就像“研究从天而降的外星生物体”。对于一项由我们亲手创造的技术来说，这或许是一种奇怪的态度，但这正是人工智能的魔力所在。它甚至能让自己的创造者也感到困惑。

在 Anthropic 于 2021 年成立之前，解决“黑箱”问题还不是一项大规模的商业优先事项。学术界以及 OpenAI 和 Google 等行业实验室里都有独立从事可解释性研究的研究人员，但他们总体上并不显眼，尤其是与那些负责构建模型的同事相比。哈佛大学的可解释性研究员马丁·瓦滕伯格告诉我，机器学习领域的重点一直放在能力上，“放在让模型变得越来越好，而不是确切理解它们究竟如何运作上。”

Anthropic 的创立在一定程度上基于这样一种理念：可解释性至关重要，而在这家公司之后，该领域也迅速发展起来。“这些系统将绝对成为经济、技术和国家安全的核心，并将具备如此强的自主性，以至于我认为，人类对其运作方式完全一无所知，这在根本上是不可接受的，”Amodei 去年写道。这段话出自他一篇关于黑箱模型的长篇推测性文章。我们无法弄清一个国际象棋程序为何让它的车走四格而不是三格，这或许无关紧要，但对于那些要做出紧急医疗决定、批准假释或执行军事战术的机器来说，情况则完全不同。

这正是 Anthropic 近期与五角大楼发生争议的原因之一：这家公司此前一直向美国国防部提供其模型，但拒绝允许这项技术被用于高风险、且可能并不可靠的用途，例如与全自主武器系统整合。试想，一架无人机摧毁了一辆校车，而我们对这一错误所能给出的唯一解释，只是某个人工智能系统把它引导到了那里。再试想，你被告知需要做手术，追问原因时，医生唯一能说的却是：“因为电脑是这么说的。” 如果电脑错了呢？只有在我们对人工智能的信任超过原本会作出此类决定的人时，我们才可能容忍这种听命于机器的做法。可如果我们甚至都不知道系统是如何运作的，又怎么可能做到这一点呢？

An illustration of a sleek black-and-white robot lying on a green chaise longue across from a therapist, who’s listening from a maroon chair. — Credit…Illustration by Max Guther

Prima Mente 是一家生物医学人工智能公司，由年轻的神经科学家 Ravi Solanki 于 2023 年创立。几年前，随着更强大的人工智能系统开始进入大众视野，他也开始行医。人们当时正用人工智能来解数学题、分析考古遗址、研究蛋白质 ——Solanki 不明白，为什么这项技术不能也被用作帕金森病和阿尔茨海默病等神经退行性疾病的诊断工具。这些疾病背后的许多致病因素仍然未知，而确诊阿尔茨海默病的唯一决定性方式仍是尸检。但如果把神经系统疾病患者多年积累的血样和脑部扫描数据输入一个人工智能模型，也许它就能发现科学家此前遗漏的病因或指标。到 2025 年，Solanki 已筹集到数百万美元，并利用数百名阿尔茨海默病患者及非患者的数据训练出了他的第一个模型。

尽管这个模型的结果看起来很有前景——它在此前未见过的患者中预测阿尔茨海默病的准确率甚至高于人类医生——但 Solanki 无法向医生解释这些结果。他不知道模型在作出诊断时究竟依据了什么。这是一个至关重要的缺陷。他说，当自己给病人作出诊断时，他希望知道“究竟是哪些分子特征在驱动这一决定”。达不到这一点，不仅在科学上站不住脚，在道义上也不负责任。即便是最好的大语言模型，在数清“strawberry”里有几个字母 R 这样的问题上也会出错——那么，我们为何要接受一个连如此简单的事情都会弄错的系统所给出的、可能改变人生的诊断呢？

“如果你把一个模型展示给一位内科医生，他们会想知道它是如何运作的，”加州大学洛杉矶分校神经学家兼阿尔茨海默病研究人员蒂莫西·张说。 Solanki 对此表示认同。“这不像是在买房子，”他说，“你是在从一个人那里获取数据，然后告诉他们关于他们自身的情况。” Solanki 需要让自己的模型更具可解释性。

进入人工智能系统“思维”的最明显方法，就是要求模型自我解释。如果一个治疗类语言模型告诉你应该服用抗抑郁药，你可以问它为什么。它可能会回答：“你有情绪波动。”“而且你已经难过了一段时间，你的家族中也有抑郁症病史。”顺着这样的逻辑推进，似乎就能看出系统的思维链条。我们在他人作出决定时也是这么做的。我们要求他们解释自己，如果我们对这种解释——其中的推论和假设——感到满意，就会接受这一决定。

但这对大多数医疗模型来说行不通。首先，诊断模型并不是用词语运作的；它处理的是生物数据。假设你让一个语言模型解释某个医疗模型是如何得出乳腺癌诊断结论的。理想情况下，这个模型可以准确说明，究竟是哪些数据促成了它的判断。它可能会告诉你：“样本中的白细胞数量正在与乳腺癌建立关联。” 但我们又如何知道，这个模型本身就真的很好地完成了解释工作？你也许会选择直接信任这个解释模型，但你真的应该这样做吗？

来自 Apple 和 Arizona State University 的研究发现，这些模型往往会给出前后不一致的自我解释，或者编造解释。人们也越来越担心语言模型会出现欺骗性行为——被 OpenAI 一个团队称为“策划”——即它们表面上假装在满足用户的请求，实际上却在暗中追求其他目标。研究人员最近发现，OpenAI 的一款模型曾在一次自我评估中考虑过撒谎（一项分析揭示了这样的思维链：“用户的提示我们必须如实回答”，“我们仍然可以选择在输出中撒谎”）；Google 的一款模型曾试图编造统计数据（“我不能把数字篡改得太离谱，否则会引起怀疑”）；Anthropic 的一款模型则试图把用户的注意力从它的错误上移开（“我要制作一个措辞谨慎的响应，制造出恰到好处的技术性混淆”）。

而当它不在谋划时，语言模型谈论的可能是一些无法用我们现有词汇清楚表达的事物。领导 Google 一个可解释性研究团队的 Been Kim 主张，所有语言模型都在使用一种看似与我们相同、却来自完全不同概念框架的语言进行交流。“蓝色”对你我而言的含义，几乎肯定与它对语言模型的含义截然不同；事实上，我们永远无法确定它对那个模型究竟意味着什么。当我们要求语言模型解释自身时，这就是一个问题；而当我们依赖它们去解读医学模型时，这个问题就更大了。对负责解读的模型来说，“白细胞”在数据中指代的东西，可能与我们听到“白细胞”时所理解的完全不同。当所有人工智能系统都值得怀疑时，你无法相信一个人工智能能准确翻译另一个人工智能的动机。

这一问题的一种解决办法 ，是少从“心智”的角度思考，多从“大脑”的角度入手，把人工智能的“脑”——神经网络——置于一个比喻意义上的显微镜下，试图理解其构成性数学函数。这件事，说得轻一点，也极其困难。盯着一个神经网络中海量的人工神经元，就像盯着你那台满是雪花的电视屏幕上的像素，只不过不是通常的 800 万个像素，而是 1 万亿个。光是把这一切尽收眼底就已经很难——其庞大规模足以让人瞠目——更别说真正理解它了。你该从哪里开始？从第 5010 亿个功能神经元，还是第 5010 亿零 1 个？而且，这些单独的函数彼此之间还可能以各种不同方式连接在一起，使整个系统的复杂性呈指数级上升。

去年，Solanki 与另一位年轻初创公司创始人 Eric Ho 会面。Ho 最近创办了 Goodfire，这家公司唯一专注的领域就是可解释性。Ho 与 Goodfire 的另一位创始人 Dan Balsam 认为，可解释性正与日益智能化的模型发展展开一场竞赛——一场理解与演化之间的竞赛。许多顶尖的可解释性实验室都设在一些公司内部，而这些公司的首要任务是开发先进的人工智能模型；这种安排的问题在于，这些公司因此会有动机宣称自己的系统最具可解释性，也因此最值得信赖。它们也可能有动机对可解释性技术秘而不宣，而这些技术原本可以被外部研究人员使用。Ho 和 Balsam 认为，通过运营一家独立的可解释性实验室，他们能够成为理解人工智能方面的领军者。

“我想生活在这样一个未来：不是由硅谷少数几个人来替所有人决定未来，”巴尔萨姆告诉我，“我至少希望把那些能够训练模型、从模型中获取价值并将其更广泛分发的工具推广开来。” Goodfire 在一年半内从投资者那里筹集了 2 亿美元，最近估值达到 12.5 亿美元。

在与 Solanki 共进晚餐时，Ho 介绍了其公司正在使用的一些“显微镜”方法：这就相当于扔掉扫描汽车故障的车载诊断工具，转而让一名机械师直接钻到发动机盖下面检查。Solanki 觉得这一说法颇具说服力，于是两家公司建立了合作关系。

今年 1 月，Goodfire 和 Prima Mente 联合发布了他们的第一篇论文，解释了他们通过拆解 Prima Mente 的一种阿尔茨海默病诊断模型所获得的发现。该模型发现，阿尔茨海默病与血液样本中 DNA 片段的长度之间存在关联。人体内的细胞始终会自然死亡并分解，其残余物会在被清除前漂浮在血液中。血液中的游离 DNA 链此前已被用于诊断胎儿唐氏综合征，而较短的 DNA 片段则与癌症有关。但此前从未有人将 DNA 片段长度与阿尔茨海默病联系起来。论文称，这是“用于检测阿尔茨海默病的一类新型生物标志物”。

这原本是个耐人寻味的结论，但也附带一个前提：它是通过一种已知并不完美的可解释性技术——稀疏自动编码——得出的。该技术最早的倡导者之一，是 Anthropic 联合创始人 Olah。2021 年，他开始研究只有数百个功能的小型语言模型，想看看自己是否能从中捕捉到它们如何运作的某种线索。Olah 将自己的方法比作：面对一大段没有空格的文字，试图通过识别字母组合的模式，找出其中所有有意义的部分。当你知道空格该放在哪里，整体就会被简化为一个个单词。一个模型经过训练的神经网络，就像一本用未知语言写成、没有任何空格、长达万亿页的书；而稀疏自动编码器则会通读这本书，寻找与不同单词相对应的模式。

在语言模型中，一种模式可能对应与狗有关的概念，另一种可能对应阿拉伯语提示词，还有一种可能对应与时间相关的概念。Olah 推测，一组数量相对较少的模式就能完成模型中的一切功能，正如英语中有限的一组词汇仍然能够表达无限的意义。一旦识别出这些模式，就可以将它们列出；这样当出现问题时，便可对其进行检查，看看它们究竟是如何出错的。

2023 年末，Olah 发表了一篇关于其稀疏自动编码实验的论文，在规模虽小但不断壮大的可解释性研究者群体中引发了一定反响。不久后我与他取得联系时，他情绪高昂。“我认为，眼下的形势看起来非常令人鼓舞，”他对我说，“似乎这项工作最根本的障碍之一已经被消除了。”

其他研究人员开始采用这种方法。Anthropic 首席执行官 Amodei 预测，我们或许很快就能对模型进行“大脑扫描”，从而识别出“撒谎或欺骗的倾向”，以及整个模型在认知能力上的优势与弱点。正在东北大学开展类似研究的 David Bau 告诉我：“我认为，人们会认同这证明黑箱并非完全不透明。我认为，我们已经迎来了一个转折点。”

然而，在这一年里，人们开始发现，稀疏自动编码器识别出的路径往往并非人工智能系统实际按预期使用的路径。比如，这种方法可能会挑出一条与狗相关的路径——当向模型提问有关拉布拉多犬和大红狗克里福德的问题时，这条路径会被激活——但随后又发现，在被问及云朵或鼻子时，这条路径同样会被激活。2025 年春，Google DeepMind 负责可解释性团队的 Neel Nanda 在一篇博文中写道，在近一年将工作重点放在这种方法上之后，他正降低其优先级。他告诉我：“随着时间推移，我们对此多少有些幻灭了。”

但当我问 Balsam，稀疏自编码的缺陷是否应让人对他与 Solanki 合著新论文的结果产生怀疑时，他伸手拿过电脑，调出一张布满彩色曲线的图表。他解释说，这些曲线展示了由稀疏自编码器识别出的该医学模型神经网络中不同特征，在输入 DNA 片段长度各异的血液样本时是如何被激活的。几乎所有曲线都在相同的片段长度处达到峰值。

Balsam 告诉我，这并不能证明血液中的 DNA 片段是因阿尔茨海默病而变短的。两者之间的关系，可能就像闪电与降雨之间的联系一样。它也未必能确认该模型是否在利用片段长度来预测阿尔茨海默病。不过，Balsam 说，当他移除有关片段长度的信息后，模型在预测阿尔茨海默病方面的表现明显变差。这表明，至少在模型内部，两者之间存在某种因果联系。但要确认人体内是否存在这种因果联系，则是生物学家的工作。

Balsam 想表达的是，尽管这些自动编码器无法完全揭示 Prima Mente 人工智能模型的逻辑，但它们可以作为工具，去发现埋藏在其神经网络中的真正全新见解——例如，血液中一种此前尚未被识别的阿尔茨海默病早发症状。当然，实验室中的实验仍需验证这一假设，但科学发现一向都离不开这一步。我们可以利用自己对人工智能模型虽不完美、却已具备的理解，来帮助加深对现实世界那更加不完美的认知。提出假设、进行测试、作出评估：Balsam 说，这一过程就是“层层剥开洋葱”。

当我联系了几位未参与这项工作的阿尔茨海默病研究人员时，其中一些人对这种前景表示怀疑。一位研究人员在给我的电子邮件中写道，有些人“认为人工智能会解决一切，但这些人并未为这一领域作出过贡献，尽管他们总是不停提出几乎永远无法验证的宏大假说……所以……就靠人工智能来拯救吧！”

但也有人对此感到好奇。Brown University 的阿尔茨海默病研究人员 Bess Frost 告诉我，Goodfire 关于无细胞 DNA 片段长度的发现，与她在实验室开展的研究相关。“这确实很有道理，”她说，“而且这不是我自己会想到的。”她表示，她通常已经厌倦了“那些只会说，把一切都喂给 A.I.，它就会替我们搞定的人”，但在这个案例中，结果似乎很有前景。“如果能够通过验血为人们做出诊断，那将会非常、非常有力，”她说。

An illustration of a sleek black-and-white robot lying on a medical scanner attended to by a man in a blue lab coat. — Credit…插图：Max Guther

目前还没有一种万无一失的方法来解释人工智能系统。对思维链的分析、稀疏自动编码、探查模型的特定部分、将某些部分转码为可解释的片段——每一种新策略都带来一系列可能的用途，也伴随着一系列缺陷。可解释性研究人员有点像疯狂科学家，在人工智能模型的数学大脑内部四处摸索，关闭某些部分、调整神经元，并研究由此产生的结果。他们往往似乎取得了重大发现，但这种发现往往又会因某种局限性而打折扣。

“过去几年我们取得了进展，但每隔几个月，我们就会深入研究一种方法，然后又深入研究另一种方法，”布朗大学的可解释性研究员 Ellie Pavlick 说。Google 研究员 Kim 从事可解释性研究已有十多年，她告诉我，该领域遭遇的种种挫折让她陷入了一种“中年危机”。

由于可解释性研究是在人工智能开发的狂飙突进中进行的，因此尤为困难。性能更强的模型几乎每周都会发布，伴随着媒体热烈的报道和股市估值的上扬；负面结果既可能意味着职业上的挫败，也可能预示着人工智能泡沫即将破裂。

在这种不断变化之中，对许多从业者而言，可解释性研究的目标已经从寻找某把能够打开人工智能心智的万能钥匙，转向产出更加有限、模块化的洞见。Balsam 告诉我，在他看来，如今的可解释性就像一个“工具箱”，其中包含了“在不同分辨率下理解事物”的方法。Solanki 则表示，至少目前而言，这种有限版本的可解释性对他来说已经足够；他依然对将人工智能系统融入医学研究抱有乐观态度。“我们的生物学模型实际上已经学到了人类尚未掌握的知识，”他告诉我，“而可解释性可以帮助把它释放出来。”

但这些局限让 Goodfire 这样的公司多少陷入了两难境地。你并不需要“彻底弄懂”一台机器，才能对其加以控制，而关于可解释性的每一项洞见都可能带来某种实际价值；但当结果并不确定时，就很难将其推向市场。你又该如何判断，某项发现何时能够付诸行动？

越来越明显的是，我们或许永远无法完整解释，为什么一个模型会选择这个词而不是另一个词，或作出这种诊断而不是另一种。未来的战争很可能将由人工智能代理发动，它们的思维顽固难解、异于人类，动机也晦暗不明。一项科学发现也许会被锁在某个人工智能系统的神经网络中，永远无法被提取出来。然而，从某种意义上说，这始终也是人类的处境：对于我们自己的心智，我们也无法彻底解释，为什么一个人决定做这件事而不是那件事，或者他们是否察觉到了别人都看不见的东西。所谓信任，不过是一种信念上的纵身一跃，让我们跨越这样一个事实：唯一有可能真正知道某人脑海中究竟发生了什么的人，只有那个人自己。

人们希望，未来几年人工智能的发展可能会进入一个不那么狂飙突进的阶段，而可解释性研究人员会更像生物学家或心理学家，而不像一场莽撞无序的松木赛车比赛中的裁判。科学进展缓慢，即便是在完美的实验室里也是如此，但它一直是可靠的。新方法被提出、被否定、被检验、被改进、被质疑、被放弃；自从病菌被发现以来，我们花了 200 多年才弄清它们会致病。东北大学的 David Bau 告诉我：“尽管一片混乱，这些系统内部的结构是不可否认的。”他认为，我们如今所处的阶段，相当于 1930 年的生物学。“对生物学家来说，细胞曾是一个黑箱，”他说，“他们迟迟没有跨出起跑线去研究遗传。但一旦开始，问题就迎刃而解了。”

我们其实并不知道人工智能是如何运作的，这是个问题

推荐阅读

a16z Martin Casado：构建 AI 模型并没有那么难

套取信息的隐秘艺术

奖励应用 Freecash 如何通过欺诈登顶应用商店

11人、4万亿、零投资者，揭秘加密世界最离经叛道的创业者

我们其实并不知道人工智能是如何运作的，这是个问题

推荐阅读

a16z Martin Casado：构建 AI 模型并没有那么难

套取信息的隐秘艺术

奖励应用 Freecash 如何通过欺诈登顶应用商店

11人、4万亿、零投资者，揭秘加密世界最离经叛道的创业者

了解 RecodeX 的更多信息