OpenAI 首席运营官 Brad Lightcap:GPT-5 的能力、重要性及人工智能的下一步走向
有关 OpenAI 备受期待的旗舰模型向我们展示的不同形式的智能,以及人工智能未来轨迹的对话。

本文信息来源:bigtechnology
随着 OpenAI 发布 其新旗舰模型 GPT-5,我与公司首席运营官 Brad Lightcap 讨论了在构建该新模型过程中学到的经验,以及他们希望如何应用它。
我们进行了富有洞见的对话,涵盖了人工智能研究与扩展的现状、人工智能需具备何种特征才能被视为通用人工智能(AGI),以及这项技术将如何为企业带来价值。
以下为我们完整的对话,经为清晰与篇幅略作编辑。你也可以在 Apple Podcasts、Spotify 或 你选择的应用 上收听。
Alex Kantrowitz:嗨,Brad,请简要介绍一下 GPT-5 是什么,以及它相较于之前的 OpenAI 模型有哪些改进?
Brad Lightcap:GPT-5 是我们下一代的旗舰模型。它有一个非常有趣的特点,即在同一模型中融合了动态选择能力,能够判断是否需要深入思考并进行推理来给出答案。
以前你必须在 ChatGPT 中处理模型选择器——大家最爱的功能。你得为特定任务选择想用的模型,然后进行提问并获取答案。有时你会选择一个擅长深度思考的模型,有时不会。我认为这对用户来说是一个令人生惑的体验。
GPT-5 把这一切都抽象化了,它会为你做出那个决定。同时它实际上是一个更聪明的模型,因此无论你是否使用思考模式,得到的答案都会更好。它在写作、编程、医疗等方面有了极大提升——更准确、更快速,总体上我们认为这是一个更好的使用体验。
那些关注 GPT-5 炒作的人大概以为你会先宣称智能的爆发性提升,而不是先强调一个会把查询分流到“推理”或“非推理”的开关。为什么要以可用性而不是智力提升为先?
因为智能确实取决于模型会花多少时间去思考。你给问题分配越多的思考时间,就越可能得到更好的答案。通常,思考时间越长,给出的答案越好。所以当我们在某些基准测试和评估中让模型有思考时间时,它的表现会远远超过我们现有的任何模型。即便你不允许任何思考时间,它通常还是能给出比我们那些不进行思考的模型(如 GPT-4.1)更好的答案。
所以这确实是一次在智能上的显著进步。我认为它在几乎所有维度上都应当是质量更高的模型。但关键在于那段推理时间——以及能够动态使用推理时间来思考——我们认为这实际上才是重要的部分。它带来了更好的用户体验。
你会说这个模型的能力是呈指数级增长,还是只是增量提升?
很难用那种方式来衡量。我认为我们现在已经进入了必须在许多不同维度上衡量智能的阶段,这并不是在规避问题,而是在解释为什么 GPT-5 如此特别。显然,它在你期望它更优秀的核心方面表现更好。它在像 SWEBench 这样的评测上得分更高,在我们用来测试它的各种学术评估中也表现更佳。
尤其在这一点上,我们实际上特别强调让它在某些健康基准测试上得分更高。所以它在医学推理和其他与健康相关的事项上更强。但现在决定一个模型好坏的因素很多,因为根据模型的训练方式以及它如何思考问题,你可以在许多维度上进行权衡。例如,如果它更快,我们认为这实际上表明它更优秀。如果它在单位思考时间内能给出更好的答案,我们认为这也是一个重要且值得衡量的改进向量。
如果它能够做到结构化思维、问题解决、工具使用等,这些都是我们实际会衡量的能力,但对用户来说相当“隐形”。如果你只是使用 ChatGPT,你未必能察觉这些功能在幕后同时发生,但这些方面在 GPT-5 上都比我们以前的模型更出色。
我之所以问这个问题,是因为从 GPT 到 GPT-2、GPT-3 以及 GPT-4 的跨越显示出能力在各方面普遍提升。没有什么“这里有智能提升、那里没有”的保留。我相信我们的做法是训练了更大的模型,结果是在各方面都更强。那么现在情况变了吗?
是的,从技术角度来看发生了变化。
从 GPT-2 到 GPT-3、从 GPT-3 到 GPT-4,这些基本上是对一种——并且仍然是——“规模化范式”的延伸,即通过训练越来越大的模型、进行更大规模的预训练来提升性能。这是一种训练路径,结果是得到更好的模型,这一规律仍然成立。但现在我们有了另一类训练方式,可以称为后训练(post-training)。
能在测试时以比过去更有趣的方式利用计算资源,几乎相当于第二阶段的训练。因此我们认为,这确实在某种程度上提升了我们的能力,成为推动模型迈向新智能水平的倍增器,同时也能把很多期望智能模型具备的能力训练进去。
因此,例如使用工具这一点,我们认为对整体智能非常重要,
GPT-2 和 GPT-3 做不到这么好。GPT-4 在更初步的层面上能做到这一点。而现在的 GPT-5 将这种能力内置进来,并受益于这种多步和更长远的推理过程。我们希望把这些从用户那里抽象出来。显然,我们并不认为作为 ChatGPT 的用户你应该不得不停下来去思考这些问题。在某种意义上,我认为模型选择器曾成为让人沮丧的点,正是因为人们并不想每次与 AI 模型对话时都必须做出这些决定。
他们希望模型替他们做出那些决定。这也是为什么我们认为 GPT-5 是一个重大进步。
你是否认为,OpenAI 现在也认为,预训练存在收益递减?毕竟我们现在讨论的是训练这些模型的不同形式。
完全不是。我们的扩展规律依然成立。从经验上看,没有理由相信预训练会出现任何形式的收益递减。至于后训练(post-training),我们实际上才刚刚触及这一新范式的表面。O 系列模型,作为之前的推理模型,仅仅是我们开始探索后训练范式可行性的起点。我认为在未来一两年内,这将成为主导主题——在这一维度上继续扩展,并继续看到由此带来的显著收益。因此现在我们在两个轴上推动模型改进,我们认为这会收紧并加速创新的步伐。
您认为今后绝大多数的改进会来自扩展规模,还是来自算法?
总是多方面共同作用,对吧?算法、规模、算力和数据总是同时发挥作用。所以我们在这三方面都发力,我认为它们在我们展望未来时都扮演着非常重要的角色。显而易见,难点在于把它们结合起来。要训练更大的模型,通常意味着你需要在更多数据上训练,显然也需要更多算力。因此这些因素之间存在微妙的平衡,因为…
仅仅扩大规模并不一定在所有情况下都会带来同等幅度的改进。你还必须能够把其他部分也一并推进。这并不是按下某个按钮就能完成的。我们确实付出了很认真的努力,去尽力把这些要素汇聚到一起。
你们不把它称作通用人工智能(AGI)。Sam Altman 在 Theo Von 的节目上说 GPT-5 在几乎所有方面都比我们更聪明。我当时说,好吧,那听起来就像你会想象的 AGI。帮我理解到底发生了什么,因为看起来他也许想称它为 AGI,但你们还没这么做。那为什么这还不是 AGI?
嗯,这很难下定义。开个玩笑,如果你问五个人什么是通用人工智能(AGI),你会得到七个答案。我们看这件事的方式是把它看作一个累积的过程,对吧?它是一个系统。你必须界定这个系统是什么,以及你期望它能够做什么。就我而言,我认为那是一个能够可靠地学习那些分布外新事物的系统,凭借它的推理能力、思考能力、解决问题的能力、使用工具的能力以及提出新想法的能力。所以,我认为我们已经到了我会称之为 AGI 的系统吗?不是。但我认为我们开始在像 GPT-5 这样的模型中,甚至我猜在其后继者中,看到总体通用学习系统的痕迹和组成部分开始聚合在一起。我不知道是否会有那么一个时刻,我们能说好吧,我们已经从非 AGI 世界跨入了 AGI 世界。即便有,我也不确定我们是否会在发生之前意识到这一点,因为我们在与现有模型合作时学到的一件事是,能力的潜在超越是显著的。 我认为,当 Sam 提到这些模型的智能以及把博士学位装进口袋时,我们还没有真正把这点作为一个可利用的资源来开发。
从某种意义上说,我认为就算把人工智能的发展在此处暂停十年,你们仍然有大约十年的时间去开发新产品,去探索人们如何将这些模型——即便是像 GPT-5 这样的模型——以有趣的方式应用到产品和流程中。其中一个有趣的地方是,随着模型变得更智能,它们在产品构建层面上几乎会提出更高的要求,要求你更仔细地考虑如何把它们接入系统。
我常打个比方,你可以把它想象成一个非常非常聪明的实习生。归根结底,他们只能为你做几件事:在会议上做笔记、写摘要、做一些基础分析。但如果你请来的是一位博士,那个人具备巨大的能力组合。也许他们在第一天上岗时并不能完全胜任,但你的工作就是想办法给他们足够的背景、足够的信息,并提供合适的工具,使他们在日后真正发挥作用。把他们培养到完全发挥效能,实际上比培养实习生需要更长的时间。
我认为在 AI 模型方面情况也会类似。这是一个持续的过程,而且我认为不会是线性的。但就目前而言,我会说我们可能还没有达到我所谓的通用人工智能(AGI)级别的系统。
这提出了一个有趣的问题:从现在起继续让模型变得更聪明真的有意义吗?还是应该去构建那些辅助能力?Sam 在媒体通话中提到过,GPT-3,他说,是高中水平的智能。GPT-4,可能是大学生水平。GPT-5,是专家级别。那么对 OpenAI 来说, 追求增加更多智力还是更应该把重点放在除“聪明”之外的能力上?
这两方面都会做。确实还有一些未解决的问题。你在这里提到了一些,我也同意这些问题——你会期望一个真正聪明的人能够理所当然地做到的事情,我们的模型仍然在这些方面挣扎。所以在这里还有开放性的研究需要我们去做,我认为,才能在我所称的“完整智能谱系”上闭环。
部分归结于纯粹的智商。这是你对事物运作方式的知识以及回忆信息的能力。但更重要的是你推理如何使用其他工具来解决问题的能力;是你反思并回顾自己思路链条、思考路径的能力,并在感觉自己走错方向、没有想出解决问题的正确策略时能够进行纠偏。因此我们看到的一个很酷的现象是,在这些维度上 GPT-5 —— 我们可以可靠地测量 —— 比我们之前的系统更好。
对我们而言,一个真正想弄清楚的现实问题是:它们在现实世界中的表现如何?开发者如何使用这些模型?企业如何将这些模型应用于现有的、现实的问题,来看新一代模型是否比上一代更出色?因此,对我们来说,现实世界的基准测试正日益成为衡量智能的一个重要标志,和学术基准相比越来越重要。
在 OpenAI 内部,持续学习是多大的优先事项?
我们有许多优先事项。我认为这肯定是其中之一。但我们对我们的研究轨迹感到非常有信心。
最高优先级、中等、还是低优先级?
OpenAI 的有趣之处在于我们如何把开展研究系统化。这从公司早期就一直如此。
我在 2018 年加入 OpenAI。我们对研究采取这种高度探索性的方式。我们的研究方法并非自上而下,不是只有一个想法然后所有人都紧跟那个想法、按部就班地做一件事。我们真正做的是由小团队进行大量开放式探索。我们探索不同路径,看看这些路径是否会带来新想法;如果这些想法有效,我们就把它们循环回核心理念、主线思路;如果无效,我们就把这些团队重新组合到其他看起来可行的想法中,然后让新的想法从那里衍生出来。
所以这确实有点像在黑暗中摸索。当你找到那块“可能是正确道路”的草地时,你会把所有人带到那个点,然后让大家再多摸索一会儿。我认为事情大概就得这样进行。事先很难断定这些问题的答案。你可以有直觉,而我们的研究人员的直觉通常比一般人更准确一些。但这归根结底仍然是科学探索。
有一点很有意思,来自
,他是沃顿商学院的,已经在使用 GPT-5。他说 ,我认为这是一个重大进步,但如果你一直在关注这一曲线,可能会感到意外。他说这些模型在数学奥林匹克中获得了金牌。我已经分不清“巨大进步”究竟意味着什么。现在所有模型都在非常快速地进步。我想还有,
那么问题是,如果你有一个模型,其能力达到了研究生或大学水平的生物学,然后它进一步提升到更高的研究生水平生物学,普通聊天机器人用户可能感受不到这一点,尽管它已经变得更聪明了。
那么这种智力提升将如何反映在普通用户的 ChatGPT 体验中,以及那些已经使用这些推理模型一段时间的 Plus 用户的体验中?
是的。我在 X 上看到过类似的说法,大意是对那些可能是付费层级、每天活跃并且在使用这些系统方面堪称专家的顶级 ChatGPT 用户来说,这种改进会显得像是提升,但可能比较微妙。但对于普通用户、免费用户——而我们会把 GPT-5 放到免费层——这会感觉像是一次显著的提升。
如果你实际看一下免费用户使用 ChatGPT 的方式,大多数人其实并没有体验过这些推理模型的强大。他们主要在用 GPT-4.0,而且大多以一种非常回合制、快速来回、几乎像搜索一样的方式使用,我认为这种方式并不能真正展现模型的全部能力。所以对很多人来说,这将是第一次使用具备推理能力的模型。
不仅是首次将其用于推理,还将是用户首次体验到模型会就思考问题的时长以及相对于问题难度应给予多好答案这一决策过程。因此,我们预计对普通用户而言,这种体验将有显著不同。也许对那些顶级的强力用户来说,差别不会那么明显。我同意这种看法,而且我认为这是一件自然且积极的事——如果你一直在追踪那种 AI 进步的速度,并在每个阶段都在探索前沿,是的,可能会让人眼花缭乱,但相比于使用一两年前基本上被视为最好的模型,这种变化会让人感觉更加连贯。
我觉得你说得很对,普通用户把 ChatGPT 当作一种搜索工具来用。我有个朋友把他儿子足球训练的照片上传上去,向它询问教练建议。他相当惊讶,因为它能对站位做出真正的分析。我确实认为,随着普通用户接触到这些功能,会相当令人震撼。
是的,每个人的切入点都有所不同,这正是它的有趣之处。对每个人来说,这都非常个人化。我们在这次发布中大量关注了健康领域,因为这是我们持续从人们那里听到的、关于他们如何开始使用强大 AI 的共同起点之一——即在他们面对健康问题时使用它。所以我们确实努力确保如果人们要将 AI 系统用于健康相关事务,我们能为他们提供最合适的模型。因此,这也是训练 GPT-5 的一个重要推动力。
你多次提到健康。你希望它取代全科医生吗?很多人都得不到充分的医疗服务,但我担心把一个可能会产生幻觉(hallucinate)的模型交给他们,然后说,“这就是替代品”。
我不认为它会取代全科医生,但我认为它能帮助人们在他们的就医过程中拥有更多主动性,更多对医疗管理过程的控制。它还能让人们对病情有基本认知。我们经常听到有人在管理某种疾病却并不真正了解,因为没人花时间向他们解释清楚。这并不是说谁做错了什么,而是医疗体系的设计不允许有足够时间让人们理解自己在管理的是什么。因此,即便只是给人们提供这样的基础教育:你正在管理的这种病很常见,会以这种方式表现,你会有这些类型的症状——对人们理解如何管理疾病的心理状态来说,这是一个巨大的突破。
我认为你仍然需要与全科医生或专科医生合作接受治疗。但有一种东西可以在整个过程中陪伴你,我觉得这对很多人来说非常安慰,并且在很多情况下实际上被证明是有帮助的。显然,我们希望该模型尽可能准确。在该领域专门推动模型能力提升,一直是我们重点关注的方向。
但我们认为,现在随着 GPT-5 以及显然未来的模型,我们持续看到准确率上升而幻觉率下降。GPT-5 的表现取决于你如何衡量,但它比前代模型准确四到五倍。[编辑按:OpenAI 在其博客中的表述如下 “与 GPT‑4o 相比,GPT‑5 的回答出现事实错误的可能性约低 45%,而在“思考”状态下,GPT‑5 的回答出现事实错误的可能性约比 OpenAI o3 低 80%。”]
这在医疗领域可能会更加明显。我现在无法立刻给出具体数据,但我认为我们有很大程度的控制能力,并且正朝着让它们可靠且准确的方向推进。
企业在部署这类技术方面一向进展缓慢,我也知道有很多审批和审查流程,要把东西推向市场很难。但我确实认为,当你拥有更好的模型时,就能更快更有效地推进。那么,谈一谈 GPT-5 中更好模型将如何在电子商务领域发挥作用吧。
我赞同你的评估。在很多方面,我常说我们还没有在商业领域看到类似 ChatGPT 的那一刻。我认为 AI 对消费者而言是一个很棒的工具——在那种情况下你的搜索范围可以说更窄,问题也更受限。显然,你处理的上下文更有限,可以一步步推进,外部依赖很少,模型的纯粹智能可以真正得以展现。而企业则属于另一类更复杂的场景。
所以你面对的是复杂的业务流程,涉及大量的多用户依赖,需要处理大量上下文信息,还要调用许多工具。这些工具必须按特定顺序、以特定方式并在一定的防护措施下使用。而且当它们出问题时,容错性并不高。归根结底,这有点回到我们之前谈到的那个问题。
我认为,当你看像 GPT-5 这样的模型及其对商业的影响时,关键是其基础能力的提升。它们使用工具的能力、以结构化方式思考、解决问题、递归地纠正自身错误、进行长上下文检索等能力,这些看似小的改进在边缘场景中确实很重要。作为普通个人用户在每天使用 ChatGPT 时你可能感受不到这些变化,但作为开发者或企业,你会开始感觉到。因此我们也有很多轶事式的观察。我们在发布前与大型企业、小型初创公司以及介于两者之间的各类组织一起测试这些模型,尤其是 GPT-5,并收到了来自 Uber、Amgen、Harvey、Cursor、Lovable、JetBrains 等公司的大量反馈——这些公司在案例中对模型可靠调用工具、处理长上下文、有效解决问题和推理的能力非常敏感。所以我认为这是一股在企业内部普遍上涨的潮流,关键将在于我们合作的开发者能否……
有没有一个统一的说法,像“以前的模型做不到,但现在通过 GPT-5 可以做到”,还是这些能力是分散的,呈现为一系列它现在能够实现的功能?
我会说这是全面上升的态势。所有进行基准测试的机构以及我们合作的公司,现在通常都习惯于对他们使用的所有模型进行评估和基准测试。大家在这些评测中普遍报告了更高、持续更高的表现。我们在几个领域特别看到明显的跃升,其中之一肯定是代码生成。
我提到过我们合作的一些公司,比如 Cursor、JetBrains、Windsurf、Cognition 等,他们的普遍反馈是,无论是在互动式编码环境还是更具代理性的编码环境中,GPT-5 现在都感觉是最有能力的编码模型。我们还持续观察到的另一点是,它在非常技术性的领域中推理和解决问题的能力显著提升。
哈维就是一个很好的例子:Harvey AI 与律师事务所合作,而律师事务所非常依赖它能够可靠、准确且始终如一地呈现所审视案件的情况和法律分析,提供在进行法律分析时所需的那种结构化思维。所以我预计这种能力会延续下去。金融服务是另一个非常有趣的领域,强调数据分析、研究和规划。这些都是我们已看到改进的方面。
随着我们继续看到 GPT-5 在市场中渗透,我们会获得越来越多这样的反馈,并能继续改进这些用例。
说到这点,降低成本如何与您今年宣布的480亿美元融资相协调?真的有可能在降低成本的同时实现投资者在这方面的期望吗?
在 OpenAI 的历史上,每次我们削减成本,通常都会看到相应的使用量增长,而增长通常会超过成本的下降。因此,只要这种趋势持续,我们就会继续在模型上削减成本。我们知道开发者在延迟、模型质量与智能以及价格之间需要进行复杂的权衡。我认为我们在这里所做的,基本上是将市场在这三方面的反馈纳入考量,把这些模型——不仅是标准模型,还有迷你模型和纳米模型——置于质量、成本和延迟的这一前沿,从而优化出我们认为市场成功所需的配置。我们努力在非常有吸引力的平均延迟下找到一个非常有竞争力的价格目标,当然还包括 GPT-5 所带来的内在模型质量和智能。因此我们将继续推进这一前沿。我认为
我们越是推动那道前沿,通常就越能看到人们希望用它做更多事情。正因为有了这种需求,我们非常幸运,这也激励我们努力把它做得更好。
你们有朝一日会实现盈利吗?
我也希望如此。
好,我们接受。
布拉德,在我们结束前让我先问第一个问题……GPT-6 什么时候发布?
嗯,你不是第一个这么问的人。推特上这类问题来得很快。
我们认为 GPT-5 非常强大。我们也认为未来会有更好的模型。我们知道未来一定会有更好的模型。现在我们只专注于如何把它交到人们手中?如何支持那些与我们一起使用该模型进行构建的公司?然后……
我们仍处于这一科学的探索阶段。我认为令人兴奋的是,我们才刚刚开始,可以说还在第一局,我们自己也在理解所处的范式。所以这是一个重要的第一步,你必须了解自己在哪儿,才能知道要去往何处。希望从这次的经验中学到的东西会让 GPT-6 更加出色。