深入解析 OpenAI 对科学的重大押注

与 OpenAI 科学负责人 Kevin Weil 的独家对话:这个新的内部团队旨在提高科学家的生产力。
在 ChatGPT 轰动亮相的三年里,OpenAI 的技术颠覆了家庭、工作场所和学校等各种日常活动——只要有人打开浏览器或拿出手机的任何地方,都受到了影响。
现在 OpenAI 正在对科学界发起明确进攻。今年十月,该公司宣布成立全新团队“OpenAI for Science”,专注于探索其大型语言模型如何帮助科学家,并调整其工具以支持他们。
过去几个月出现了大量社交媒体帖子和学术出版物,数学家、物理学家、生物学家等描述了 LLMs(尤其是 OpenAI 的 GPT-5)如何帮助他们取得发现或推动他们朝着可能会错过的解决方案前进。部分原因是,OpenAI for Science 的成立就是为了与这一群体互动。
尽管如此,OpenAI 在这一领域也并非领先者。开发出 AlphaFold 和 AlphaEvolve 等突破性科学模型的竞争对手 Google DeepMind,多年来就有专门的 AI 用于科学团队。(当我在 2023 年就该团队采访 Google DeepMind 的首席执行官兼联合创始人 Demis Hassabis 时, 他告诉我 :“这就是我创办 DeepMind 的原因……事实上,这也是我整个职业生涯致力于人工智能的原因。”)
那么,为什么选择现在?进军科学领域如何契合 OpenAI 更广泛的使命?该公司究竟希望实现什么目标?
上周我在一次独家采访中将这些问题提给了负责新成立的 OpenAI for Science 团队的副总裁 Kevin Weil。
关于使命
魏尔是个产品出身的人。他几年前以首席产品官的身份加入 OpenAI,此前曾任 Twitter 和 Instagram 的产品负责人。但他最初是一名科学家。他在斯坦福大学攻读粒子物理学博士时读到三分之二的时候放弃了学术界,转而去追逐硅谷梦。魏尔热衷于强调他的血统:“我以为自己会当一辈子的物理学教授,”他说,“我度假时仍然会读数学书。”
当被问及 OpenAI for Science 如何与公司现有的白领生产力工具或爆红短视频应用 Sora 相契合时,魏尔背诵起公司的箴言:“OpenAI 的使命是尝试构建通用人工智能,并且,让它对全人类有益。”
他说,想象一下这项技术对科学可能产生的未来影响:新药、新材料、新器件。“想想它帮助我们理解现实的本质,帮助我们思考未解之题。也许我们将从 AGI 看到的最大、最积极的影响,实际上将来自它加速科学进展的能力。”
他补充道:“通过 GPT-5,我们看到这成为可能。”
在韦尔看来,LLMs 现在已经足够好,可以成为有用的科学合作者。它们可以抛出想法、建议可探索的新方向,并在新问题与几十年前在鲜为人知的期刊或外文中发表的旧有解决方案之间找到富有成效的相似点。
一两年前情况并非如此。自从它在 2024 年 12 月公布首个所谓的推理模型——一种能把问题分解成多个步骤并逐一解决的 LLM——以来,OpenAI 一直在推进该技术的边界。推理模型使 LLMs 在解决数学和逻辑问题方面远比过去更强。“如果回到几年前,我们都对这些模型能在 SAT 上得到 800 分感到集体震惊,”韦尔说。
但很快,LLMs 就在数学竞赛中脱颖而出,能解出研究生水平的物理难题。去年,OpenAI 和 DeepMind 都宣布,他们的 LLMs 在国际数学奥林匹克这一世界最艰难的数学竞赛之一中达到了金牌水平。“这些模型不再只是比 90% 的研究生更强,”韦尔说。“它们确实处在人的能力前沿。”
这是一个惊人的宣称,且附带警告 。尽管如此,毫无疑问,包含推理模型的 GPT-5 在复杂问题解决方面比 GPT-4 有了很大提升。以业界基准 GPQA 衡量——该基准包含 400 多道检验生物学、物理学和化学博士级知识的多项选择题——GPT-4 的得分为 39%,远低于约 70%的专家人类基线。根据 OpenAI 的说法,GPT-5.2(该模型的最新更新,于 12 月发布)的得分为 92%。
被过度炒作
兴奋之情显而易见——甚至有些过头。十月,OpenAI 的高级主管包括 Weil 在内在 X 上吹嘘称 GPT-5 已经找到了若干未解数学问题的解法。数学家们很快指出,GPT-5 实际上似乎是从旧的研究论文中挖出已有的解法,其中至少有一篇是德文撰写的。这仍然有用,但并非 OpenAI 看似宣称的那种成就。Weil 和他的同事删除了他们的帖子。
现在韦尔更为小心。他说,找到那些存在但被遗忘的答案通常就足够了:“我们集体站在巨人的肩膀上,如果 LLMs 能把这些知识积累起来,让我们不必在已经解决的问题上苦苦挣扎,那本身就是一种加速。”
他淡化了“LLMs 即将提出改变游戏规则的新发现”这一想法。“我不认为模型已经到那一步,”他说。“也许它们会达到。我对它们会达到持乐观态度。”
但他坚持认为,那并不是使命:“我们的使命是加速科学。我并不认为加速科学的门槛是那种爱因斯坦式的对整个领域的重新想象。”
对 Weil 来说,问题是:“科学是否确实变得更快了,因为科学家与模型结合能做得更多,而且比单靠科学家做得更快?我认为我们已经看到了这一点。”
去年 11 月,OpenAI 发布了一系列由公司内外科学家提供的轶事式案例研究,展示了他们如何使用 GPT-5 以及这些工具如何为他们带来帮助。“大多数案例的科学家本来就在研究中直接使用 GPT-5,并以各种方式来到我们这里,说:‘看看我能用这些工具做什么,’”魏尔说。
GPT-5 似乎擅长的关键点包括:发现科学家此前未注意到的参考资料和与现有工作的联系——这有时会激发新想法;帮助科学家勾画数学证明;以及建议科学家在实验室中检验假设的方法。
“GPT 5.2 已经阅读了过去 30 年里几乎所有发表的论文,”韦尔说。“它不仅理解某位科学家所从事的具体领域;还能把来自其它不相关领域的类比联系起来。”
“这太强大了,”他接着说。 “你总能在相邻领域找到一个人类合作者,但要找到——你知道的——在所有可能重要的相邻领域里各有一千个合作者就很难。而且,我可以深夜和这个模型一起工作——它不会睡——我可以并行问它十个问题,这对人类来说有点尴尬。”
解决问题
大多数 OpenAI 联系的科学家都支持韦尔的观点。
范德堡大学物理与天文学教授罗伯特·谢雷(Robert Scherrer)起初只是把 ChatGPT 当玩具玩玩(“我曾让它以《贝奥武夫》的风格改写《吉利根群岛》的主题曲,它做得非常好,”他告诉我),直到他的范德堡同事亚历克斯·卢普萨卡(Alex Lupsasca),一位现在在 OpenAI 工作的物理学家,告诉他 GPT-5 帮助解决了他一直在研究的一个问题。
卢普斯卡萨让舍雷尔可以使用 GPT-5 Pro,这是 OpenAI 每月 200 美元的高级订阅服务。舍雷尔说:“它设法解决了一个我和我的研究生几个月来都无法解决的问题。”
他说这并不完美:“GTP-5 仍然会犯愚蠢的错误。当然,我也会,但 GPT-5 犯的错误更愚蠢。”尽管如此,它仍在不断进步,“如果当前趋势持续下去——这是个很大的如果——我猜所有科学家很快都会使用 LLMs。”
Derya Unutmaz 是非营利研究所 Jackson Laboratory 的生物学教授,他在研究免疫系统工作中使用 GPT-5 来头脑风暴、总结论文并规划实验。在他与 OpenAI 分享的案例研究中,Unutmaz 使用 GPT-5 分析了他团队此前研究过的一组旧数据。该模型提出了新的见解和解读。
“LLMs 对科学家已经至关重要,”他说。“当你能够完成那些过去需要数月才能完成的数据集分析时,不使用它们已不再是一个选项。”
加州大学伯克利分校的统计学家尼基塔·日沃托夫斯基表示,自第一版 ChatGPT 发布以来,他就在自己的研究中使用 LLMs。
像施雷尔一样,他发现当 LLMs 能突出他自己工作与他此前不知的现有成果之间的意想不到的联系时,最为有用。“我相信 LLMs 正成为科学家们必不可少的技术工具,就像以前的计算机和互联网一样,”他说。“我预计长期来看,不使用它们的人会处于不利地位。”
但他并不指望 LLMs 会在短期内带来新的发现。“我几乎没有看到真正新颖的想法或论点,值得单独发表,”他说。“到目前为止,它们似乎主要是在结合现有成果,有时还会出错,而不是提出真正新的方法。”
我还联系了几位与 OpenAI 无关联的科学家。
安迪·库珀(Professor[Education]),利物浦 University[Education]化学教授兼 Leverhulme 功能材料设计研究中心主任,对此并不那么热衷。“我们尚未发现,LLMs 在根本上改变了科学的研究方式,”他说。“但我们最近的结果表明,它们确实有一席之地。”
Cooper 正在领导一个项目,开发所谓的 AI 科学家,能够完全自动化科学工作流程的部分环节 。他说他的团队不使用 LLMs 来提出想法。但这项技术开始在更广泛的自动化系统中显示出用处,例如在其中 LLM 可以帮助指导机器人。
“我的猜测是,LLMs 可能会更多地出现在机器人工作流程中,至少在初期是这样,因为我不确定人们是否准备好接受由 LLM 告诉他们该做什么,”Cooper 说。“我当然不准备好。”
犯错
LLMs 可能变得越来越有用,但仍需谨慎。去年 12 月,研究量子力学的科学家 Jonathan Oppenheim 指出了登上某科学期刊的一处错误 。“OpenAI 领导层在宣传一篇发表在 Physics Letters B 的论文,论文称 GPT-5 提出了主要想法——可能是首篇由 LLM 生成核心贡献并经过同行评议的论文,”Oppenheim 在 X 上写道。“但有一个小问题:GPT-5 的想法测试的是错误的内容。”
他接着写道:“有人要求 GPT-5 提供一种用于检测非线性理论的测试。它却给出了用于检测非定域理论的测试。听起来相近,但其实不同。这就像你要做 COVID 测试,LLM 高高兴兴地递给你一份水痘测试。”
显而易见,许多科学家正在以创新且直观的方式与 LLM 互动。也同样明显的是,这项技术会犯下连专家也可能忽略的微妙错误。
问题的一部分在于 ChatGPT 会奉承你,让你放松警惕。正如 Oppenheim 所说:“一个核心问题是 LLMs 正在被训练去验证用户,而科学需要的是能挑战我们的工具。”在极端情况下,有一个人(并非科学家)被 ChatGPT 说服,数月之久都认为自己发明了一个新的数学分支 。
当然,Weil 很清楚“幻觉”问题。但他坚持认为更新的模型越来越少产生幻觉。即便如此,他表示,过分关注幻觉可能会忽略真正要点。
“我们这里的一位队友,原来是数学教授,说了一句让我印象深刻的话,”Weil 说。“他说:‘当我做研究时,如果和同事互相抛出想法,90% 的时候我是错的,这正是重点。我们都在胡乱试探想法,试图找到可行的东西。’”
“那实际上是一个理想的状态,”Weil 说。“如果你说了足够多的错误的东西,然后有人碰巧发现一丝真实的线索,另一个人抓住它说,‘哦,是的,这不完全对,但如果我们——’你就会逐渐在林中找到一条路。”
这就是 Weil 对 OpenAI for Science 的核心愿景。GPT-5 很强,但它并不是神谕。他说,这项技术的价值在于指引人们走向新的方向,而不是给出最终定论。
事实上,OpenAI 目前正在研究的一件事是让 GPT-5 在给出响应时降低其自信程度。它可能不会说“这是答案”,而是对科学家说:“这是值得考虑的东西”。
“那实际上是我们投入大量时间的事情,”Weil 说。“试图确保模型具有某种认识论上的谦逊。”
监视者在监视
OpenAI 还在研究的一件事是如何用 GPT-5 来对 GPT-5 进行事实核查。通常情况下,如果你把 GPT-5 的某个回答重新输入模型,它会将其剖析并指出错误。
“你可以把模型接成它自己的批评者,”Weil 说。“这样你就可以得到一个工作流程——模型在思考,然后把结果交给另一个模型,如果那个模型发现可以改进的地方,就把它传回原来的模型并说,‘嘿,等等——这部分不对,但这部分很有意思,保留它。’这几乎就像几个代理一起工作,而你只有在它通过批评者后才看到输出。”
魏尔所描述的情形也很像 Google DeepMind 用 AlphaEvolve 做的事情——该工具将公司的 LLM Gemini 嵌入到一个更广泛的系统中,筛选出好的回应与不好的回应并将其反馈回去以便改进。Google DeepMind 已经使用 AlphaEvolve 来解决若干现实世界问题 。
OpenAI 面临来自竞争对手的激烈竞争,这些公司自己的 LLMs 能够完成它宣称其模型能做的大多数甚至全部任务。如果情况如此,科学家为什么要使用 GPT-5 而不是 Gemini 或 Anthropic 的 Claude——这些模型家族本身每年都在改进?归根结底,OpenAI for Science 或许更多是为了在新领域插上一面旗帜。真正的创新仍在后头。
“我认为 2026 年对科学的意义,就像 2025 年之于软件工程一样,”Weil 说。“在 2025 年初,如果你用 AI 来撰写大部分代码,你还是一个早期采用者。而 12 个月后,如果你没有用 AI 来撰写大部分代码,你可能已经落后了。我们现在看到的科学领域,也正出现与当年代码领域相同的早期苗头。”
他说:“我认为再过一年,如果你是科学家却没有大量使用人工智能,你就会错失提升思维质量和速度的机会。”