Google 的 Koray Kavukcuoglu:将抽象的 AI 思维转化为用户友好的产品
本文信息来源:FT
这家科技巨头的首席 AI 架构师兼 DeepMind 首席技术官探讨了 Gemini 3 LLM 以及朝着通用人工智能目标迈进的进展
Koray Kavukcuoglu 是 DeepMind 的首席技术官,也是 Google 的首席 AI 架构师。
他一直在领导开发 Gemini 3,这是这家科技巨头于 11 月发布的最新 AI 大型语言模型(LLM)。该模型的一项新功能是,能够基于用户搜索查询创建交互式应用和小组件。
这款新的 LLM 的能力令竞争对手印象深刻,促使 OpenAI 首席执行官 Sam Altman 宣布进入“code red”状态,强调必须改进其公司广受欢迎的聊天机器人 ChatGPT,以追赶 Google。
对 Google 更为有利的是,该公司拥有完整的 AI 技术栈,这意味着它掌握着硬件、数据中心、芯片以及所有支持前沿 AI 研究的其他要素。随后,它可以将任何新产品直接发布给其庞大的顾客基础。
在与《金融时报》AI 通讯员 Melissa Heikkilä 的对话中,Kavukcuoglu 解释了 Gemini 3 脱颖而出的原因,以及它如何帮助 Google 在争夺 AI 霸主地位的竞争中占据优势。
Melissa Heikkilä: 你自 2024 年初以来一直担任 DeepMind 的首席技术官,去年夏天又担任了 Google 的首席 AI 架构师这一新角色。首席 AI 架构师的工作具体是什么?
Koray Kavukcuoglu: 我们正在构建一项真正基础性的技术。而我最首要、也是最重要的关注点,是确保我们的 AI 开发与我们的产品之间能够紧密衔接。
我们希望让 Google 全部产品、所有产品领域,都能够使用我们正在构建的最先进 AI 技术。因此,在 Google DeepMind,我们正在打造这一前沿技术,[其]目标是构建 AGI(artificial general intelligence,通用人工智能——在能力和智能上超越人类的机器)。至关重要的是,我们要在与用户的持续连接中完成这件事,而这只能通过产品来实现。要做到这一点,我们的产品就必须能够访问我们的前沿技术。
这是一种全新的技术,需要全新的基础设施,才能实现规模化应用。而这些正是我所关注的重点领域:推动这种转型,建设相应的基础设施,与产品团队协作,让他们能够使用最先进的技术,并以最佳方式与用户建立连接。

MH: 请帮我把 Gemini 3 放在一个更容易理解的背景中来看。对普通人来说,我们已经看到了很多新的 AI 模型,它们似乎都只是渐进式的发展。许多非 AI 领域的人可能也听说了 OpenAI 的 GPT-5 有点令人失望。那么,为什么 Gemini 3 是一件大事?它为什么对 Google 也如此重要?它又是在 AI 竞赛中如何定位你们的?
KK: 从我们的角度来看,它之所以重要,是因为我们觉得自己在多模态理解方面又迈出了重要的一步,而这一点对用户来说真的非常关键。我们的内容并不仅仅是文本。内容是以多种形式存在的。这也是为什么 NotebookLM [Google 的 AI 研究与笔记助理] 非常受欢迎的原因,[因为] 人们喜欢……上传各种各样的文档,然后……围绕这些内容提出问题。
因此,随着我们不断提升这种能力……无论是人们的视频、图片、PDF 等所有内容,能够对这些信息进行真正深入的理解,都是一次重大的进步。我也希望我们的用户能在他们获得的答案类型以及获取的信息质量上,感受到这种显著的提升。
第二个是编程。但编程并不只属于软件工程师。越来越多地,编程也关乎学习。
[通过 Gemini 的生成式用户界面],当人们提出问题时,他们会获得更加直观的答案,这些答案能够当场进行教学,同时还配有模拟以及小型组件,让用户可以从中学习并进行实验。
我认为,能够把这种概念性和抽象层面的进展转化为真正具体、有影响力、面向用户的界面和交互,才是能够产生差异的关键。能够与产品一起做到这一点,是我们独有的差异化优势。我们不仅仅是在发布模型,而是在与产品一起发布这些经过深思熟虑的用户界面和交互,并且依托我们所拥有的完整全栈能力来构建。
在工程方面,借助 Antigravity [Google 的 AI 驱动集成开发环境],我们正在推出一种全新的代码构建方式。以代理优先为核心的代码开发环境[软件可以自主运行并独立于人类输入]是一大进步。这是因为这些模型具备在如此高阶、抽象层面进行执行并以代理形式运作的能力。
MH: 你能否带我了解一下支撑这一模型的研究过程以及实现这些能力的技术突破?
KK: 模型开发涉及多个方面的技术投入。首先是预训练。预训练(即模型在数据集上进行训练的阶段)主要关注架构层面的改进,让模型架构更优、更高效,并且能够更好地理解所获取并用于训练的数据。我们在性能上取得了相当显著的提升,也对自己在这方面的能力感到非常满意。
预训练赋予你潜力,因为你拥有一个理解数据的模型,它不仅能捕捉数据中的信息,还能捕捉其潜在价值。这种潜力在产品中的体现方式是通过后训练,在这一阶段,模型会学习如何以适应该产品的方式与用户交互。
在后训练阶段,我们取得了多项进展,使模型具备了高层次的代理式行为,以及编写和理解代码的能力。模型知道,对于你提出的某个问题,它可能会展示一个表格,其中包含它通过搜索从网络上找到的图片。
但对于你提出的另一个查询,它会决定编写一个小程序,向你展示一个模拟、小部件。因此,模型会自行做出这些决定,而这一切都源于其……编码能力和代理能力。
这一切在预训练阶段、后训练阶段以及公司各个层面的协同,共同促成了这些成果。
MH: 为此所需的计算力一定高得惊人。你们是如何从中赚钱的?
KK: 最重要的一点是,我们的全栈式方法。我认为这是我们独特的优势。第二,我们与自有产品一起推进这项工作。无论是我们所做的所有研究、前沿技术的发展,还是将这些模型发布给用户,都是基于一个事实:我们通过产品来完成这一切,有数十亿人在使用这些产品,我们能够看到需求在哪里,人们希望如何使用它们。
我认为这里最重要的一点在于,我们所进行的每一项前沿技术开发,都是由我们从用户那里获得的信号所引导的。这种以用户为根基的理念,正是对我们而言重要且与众不同之处。
MH:Google 表示,Gemini 3 是迈向真正通用型 agent 的第一步,也是对 agent 应是什么样子的愿景。这是否就是我们可以期待的人工通用智能在外观和体验上的样子?
KK: 说实话,我不会这么说。我们所做的一切都是朝着那个方向前进的。显然,我们正在努力构建 AGI。这是我们的 mission。这是我们的 goal。但我认为对我来说有一件非常、非常重要的事情,那就是我们并没有……构建 AGI 的 recipe[因为这仍然是 research]。正因如此,打造正确的产品、选择正确的产品,以及理解用户的信号,才是引导我们技术 development 的关键。
因为 AGI 将会是对用户有用的东西。它必须如此。这正是我们正在努力构建的目标。而实现这一点的唯一方式,就是以负责任的方式从用户那里获得反馈信号。这也是为什么当我们说要从一开始就以安全和安全性为核心来设计模型时,我们不仅在模型层面这么做,也在产品层面这么做。
而 Google 在触达数十亿用户方面拥有悠久且成功的历史。我们也正是依托这一点,来帮助我们了解用户的需求所在,了解技术究竟需要在哪些方面为用户解决问题。这就是我们正在构建的通往 AGI 的路径。
MH: 你也曾表示,Gemini 3 避开了陈词滥调和奉承式表达,而这在生成式 AI 模型中相当常见。你们是如何做到的?具体做了哪些工作?
KK: 模型的人格特质非常重要。关于人们希望模型呈现出怎样的“感觉”,有很多讨论。我认为我们的一个优势在于,我们既与外部合作伙伴和公司合作,也服务于内部产品。每一个产品本身也都有一些自身的内在人格特质。我们所做的是大量研究,探索如何对模型的人格特质进行量化。谄媚性(sycophancy)就是我们关注的维度之一。我不认为有任何人可以声称在这方面已经找到了万能的解决方案。
但我们觉得已经朝着理解如何创建一个可控的模型迈出了步伐,这样的模型能够在广泛的领域中发挥作用。其中一个重要方面是,模型应当提供用户所需要的信息,而不是伴随着过多的冗余铺陈或过度的奉承。
在某些情况下,应该使用它;而在许多情况下,我们知道其实并不需要它。

MH: 你会如何描述 Gemini 3 的人设?
KK: 我们并没有特意为 Gemini 进行人设编码。当然,后训练主要关注的是用户体验。但对我们来说,更重要的是能力和真实性,以及基于这些所呈现的朴素语言。
MH: 从更宏观的角度来看 AI 研究和整个领域,作为一名科学家,目前有哪些 AI 方面的进展让你感到兴奋?
KK: 现在,一切都在快速推进。这之所以如此之快,是因为我们已经在现实世界的使用场景中看到了这些模型带来的影响。人们正在将这些模型用于工作、学习和教育,并且它们正在产生切实的影响。
对我来说,最令人兴奋的事情在于,当我们不断学习如何基于这些模型打造更好的 agent 时所发生的一切。因为当我们提到 agent,很多人只会想到编码 agent,但那只是其中一个方面。更重要的是它们是如何被使用的,以及在你生活的哪些部分你正在依赖它们。
学习是让我真正、非常兴奋的一部分。因为我们看到的是,突然之间,你可以与现有内容进行更加丰富的互动。因此,我们能够以更加多元的方式将这些内容与用户连接起来。而随着我们在智能体方面不断进步,我认为我们会看到这种情况变得更加明显。
MH: 接下来我们可以期待什么?
KK: 我们用了六个月时间来开发 [Gemini 3] 模型,在 Gemini 2.5 的基础上构建,整合了我们从用户那里获得的所有信号和经验,最终打造出了这一版本。我们将从各种不同的社区获取反馈,包括消费者、……开发者以及企业。我们的重点将真正放在对这些反馈的理解上。
不可避免地,总会存在差距,然后再去弥合这些差距。在这个过程中,我们也会理解人们真正试图解决的重要问题是什么。因为一旦你的模型在质量或准确性上达到一定水平,人们就会以更严苛、更加富有创造性的方式来推动它。因此,从这种创造力中学习,正是接下来要做的事情。