Google 如何重拾状态并领先 OpenAI
本文信息来源:WSJ
在 ChatGPT 主导早期聊天机器人市场之后,Google 凭借强大的 AI 模型实现反击;这是多年来规模最大的一次搜索引擎改版
Google 首席执行官 Sundar Pichai 于 5 月出席公司年度开发者大会。camille cohen/AFP/Getty Images
在八月某个清晨的凌晨时分,Google 的一名人工智能项目经理将 DeepMind 实验室的最新成果加载到了一个用于 AI 模型排名的平台上。
GoogleGOOG-0.87% 在 AI 种族 中一度落后,而其对手 OpenAI 则通过 ChatGPT 聊天机器人吸引了数以亿计的用户。Google 的研究人员希望,一项新的功能——闪电般迅速的图像生成器——能在 ChatGPT 的一个薄弱环节上为这家 搜索 巨头带来优势。
Naina Raisinghani 因常常工作到深夜而在 Google 内部广为人知,她需要为这个新工具取个名字才能完成上传。但当时已是凌晨 2 点半,周围却无人可问。于是她索性自己编了一个名字,将朋友们给她起过的两个昵称混合在一起:Nano Banana。
短短几天之内,Nano Banana 就在 平台 LM Arena 的性能排行榜上登顶,在 X 上成为热门话题,使用量也远远超出 Google 的预期。到 9 月时,Google 的 Gemini AI 应用 已成为 Apple 的 应用 商店 中下载量最高的 应用。
两个月后,Google 推出了迄今为止最强大的 Gemini 模型,一举超越竞争对手,成为能力最强的 AI 聊天机器人。由此,这家 Alphabet 旗下公司跃居 AI 阵营的前列 ,超过了 OpenAI。

Google 在科学与研究方面的深厚根基、愿意投入数十亿美元开发定制硬件,以及近年来推动领导层变革、为更快速的实验扫清道路,如今都开始显现回报。同时,它也成功——至少截至目前——保护了至关重要的搜索业务,未被聊天机器人迅速走红所冲击;聊天机器人正在改变消费者使用互联网的方式。
Google 的 AI 工作已开始通过搜索广告、面向消费者和企业的 Gemini 付费版本,以及其内部开发的新型电脑芯片销售来产生可观收入。11 月发布的最新 Gemini 模型在多项指标上超过了 ChatGPT,推动 Alphabet 的股票大涨,并在 OpenAI 内部触发了 Code Red。此后,随着更强大版本的 ChatGPT 发布,该公司缩小了这场竞争的差距,而 ChatGPT 的用户数量仍远远超过 Google 的 Gemini。
在新一代 Gemini 模型发布当天,Google 首席执行官 Sundar Pichai 大力强调了公司 AI 推进的规模。“很高兴看到我们以 Google 的规模在进行发布,”他在一份内部备忘录中对员工表示。
2015 年皮查伊登上 Google 的最高职位时,AI 仍然只是计算机科学研究人员高度关注的一项技术,几乎无人问津。次年,他宣布,这家因搜索引擎、地图和生产力工具而为消费者所熟知的公司将全面押注 AI。
在一篇发布于公司博客的备忘录中,皮查伊写道,过去十年是一个以智能手机为中心的世界。“但在接下来的 10 年里,”他预测道,“我们将转向一个以 AI 为先的世界,一个计算将无处不在的世界。”
Google 早已奠定了基础,成立了名为 Google Brain 的 AI 研究部门,该部门于 2011 年由计算机科学家杰夫·迪恩共同创立;他曾参与开发支撑当今大型语言模型的神经网络技术。几年后,Google 收购了总部位于伦敦的 AI 研究实验室 DeepMind,该实验室由棋坛神童德米斯·哈萨比斯共同创立,后者后来因参与开发助力生物分子研究的 AI 系统而分享了诺贝尔奖。
在当时并未引起太多关注的情况下,Google 也开始设计自家的 AI 芯片,认为要支撑语音识别等应用将需要海量的计算能力。这些被称为张量处理单元(tensor-processing units,简称 TPU)的芯片,其设计目标是相比计算机中的中央处理器或游戏显卡中的图形处理器消耗更少的电力。事实证明,它们成为了改变游戏规则的技术,对 Google 以及整个行业都产生了深远影响。
Google 开始设计自家的 AI 芯片。图为该公司在 2021 年的一款张量处理单元(TPU)。Michael Nagle/Bloomberg News
不过在早期,该公司在开发自家聊天机器人时采取了谨慎的态度 。部分高管和研究人员对这类技术的安全性心存顾虑,因为它有可能生成不准确、带有偏见或在其他方面存在问题的信息。
谷歌大脑(Google Brain)前员工 Julia Winn 表示,聊天机器人最初并未被视为公司更广泛 AI 雄心的核心,而在对早期模型的测试中,很容易通过提示引导其生成带有种族歧视或性别歧视的回应。
“谷歌对这类风险的重视程度远远超过我工作过的任何地方,这也是可以理解的原因,”她说。这种谨慎让不少公司研究人员感到沮丧,其中一些人选择离开。
2022 年 8 月,Google 推出了一款具备多种对话能力的聊天机器人模型,并通过名为 AI Test Kitchen 的应用向少数人开放,这相当于一个试验场。Google 将其命名为 LaMDA,并允许用户测试三项功能:“Imagine It”“List It”以及“Talk About It(Dogs Edition)”,后者让用户只能围绕狗展开对话。
ChatGPT 挑战
三个月后,OpenAI 在自身历时多年的研发努力之后,将 ChatGPT 向公众开放。该聊天机器人不仅能够进行对话,还可以创作故事、笑话、计算机代码等内容。
短短五天内,就有一百万人报名测试。与 Google 的 LaMDA 不同,用户在使用它时并未面临明显的限制。
一些多年来一直从事相关技术工作的 Google 员工对被反超感到愤怒。另一些人则对公众如此迅速地与 ChatGPT 互动感到震惊。
分析师和投资者曾怀疑 Google 是否错过了科技领域的下一波重大浪潮。他们在问,这家公司能以多快的速度推出自家的 AI 产品,以及聊天机器人崛起是否会蚕食 Google 的搜索和广告业务——而这些业务在 2022 年带来了 2540 亿美元的收入。
当 OpenAI 推出 ChatGPT 时,短短几天内就有一百万人注册进行测试。该聊天机器人于 2023 年在东京的一场交易展会上进行了推广。richard a. brooks/AFP/Getty Images
Dean 和 Hassabis,Google 的两位资深 AI 科学家,以及 2022 年加入的机器人学家 James Manyika,一直致力于在 AI 训练上整合 DeepMind 与 Brain 两个部门。2023 年 1 月,他们向 Alphabet 董事会展示了打造公司迄今最智能模型的计划。
与此同时,Google 迫切需要向用户推出一款聊天机器人,而且要尽快。次月,Google 推出了基于其 LaMDA 模型构建的 Bard,但这次发布搞砸了。
在一段推广 Bard 的视频中,Google 展示了其对有关詹姆斯·韦布空间望远镜问题的回答。该聊天机器人错误地回应称,该望远镜拍摄了太阳系外行星的“第一批照片”。这一失误导致 Alphabet 股价下跌 8%。
据熟悉此次谈话的人士透露,大约在那段时间,刚刚退休的 Google 联合创始人 Sergey Brin 在一次队伍上与一位名叫 Daniel Selsam 的 OpenAI 研究员聊天。Selsam 问他,为什么他没有全职投入到 AI 领域?ChatGPT 的推出难道没有激发他作为一名计算机科学家的想象力吗?
ChatGPT 正在成为家喻户晓的 AI 聊天机器人,而 Google 仍在笨拙地推进其产品落地。Brin 认为 Selsam 说得有道理,于是重返工作岗位。

在 2023 年的大部分时间里,Google 高管一直在努力协调并统一其 AI 开发工作。据前员工称,Brain 和 DeepMind 两个部门的文化存在差异:前者更专注于研究,后者则侧重于打造产品,在合并后由此产生了紧张关系。
尽管如此,Google 仍然拥有一个相对于其主要竞争对手的巨大优势。OpenAI 必须向投资者融资;而 Google 可以用其数百亿美元的利润为研究和开发提供资金。但与此同时,Google 也必须想办法防止生成式 AI 杀死自己的“金鹅”——它在网络搜索市场高达 90% 的份额,这是其广告业务的根基。
Project Magi
为了弄清楚由 AI 驱动的搜索应该是什么样子,这家公司启动了一项名为 Project Magi 的多团队协作计划,由 Liz Reid 领导。她于 2024 年出任 Google 搜索业务副总裁。她在一次采访中解释说,该团队面临的挑战是:在答案并不集中于单一网页的情况下,如何改造搜索系统,从而快速呈现一个清晰的答案。
“人们不只是使用搜索,他们依赖搜索,”她说道,“如果你把事情搞砸了,你会听到你妈妈的抱怨,你会听到你朋友的抱怨,你还会听到你孩子的抱怨。”
现任 Google 搜索副总裁的 Liz Reid 领导了一个多团队的项目,旨在弄清由 AI 驱动的搜索应当是什么样子。camille cohen/AFP/Getty Images
Google 在 2023 年底之前发布了其首个 Gemini 模型。前员工表示,OpenAI 最初主要是在文本上训练 ChatGPT,而 Google 则在文本、code、音频、图像和视频等多种模态上训练 Gemini,这也是其开发周期更长的原因之一。
Gemini 的首个版本在许多方面仍落后于 ChatGPT,但正如 Google 早期在神经网络方面的研究一样,其在技术上更具雄心的路径会随着时间推移带来回报。
“我确实认为我们仍然从那段悠久的历史中受益,”Brin 在 12 月于斯坦福大学的一场活动中表示。
自 Brin 回归以来,他的大部分工作都集中在指出 Gemini 中需要修复的问题。Brin 还通过在 2024 年以 27 亿美元的收购将他们的初创公司并入 Google,帮助 AI 研究员 Daniel De Freitas 和 Noam Shazeer 重返 Google。此后,这两人一直在协助领导 Gemini 相关工作的推进。
Google 联合创始人 Sergey Brin(右)在 5 月的年度开发者大会上与公司 DeepMind 部门负责人 Demis Hassabis 交谈。jeffrey dastin/Reuters
在 5 月的 Google I/O 大会上一次舞台访谈中,Brin 表示他一直高度参与其中。“我往往会深入到技术细节之中,”他说,“而这是我很享受的一种奢侈。”
“我想使用这个”
2024 年 5 月,Google 推出了 AI Overviews——一种简短的 AI 生成摘要,通常会出现在搜索结果的顶部。公司发现,用户开始进行更复杂的搜索。
随后而来的是 Google 多年来对其搜索引擎最大规模的一次重塑:开发了 AI Mode,这是一种搜索选项 ,以聊天机器人式的对话方式回答查询。Reid 表示,在内部,一次又一次的演示展示了这种模式的潜力,但同时也凸显了在保持速度和质量的同时,将搜索重新编程为聊天机器人形态是多么困难。
最后,经过多次迭代,Reid 表示,她和团队中的其他人开始看到足够的价值,可以将其向公众推出。“我们开始主动去使用它,不再只是为了测试,而是会想,‘哦,我想用这个,’”Reid 回忆道。
Google 于去年 5 月推出了 AI Mode。同时还发布了更强大的 AI 模型版本 Gemini 2.5,但并未像许多员工预期的那样引发热议。Alphabet 的股价自年初以来下跌,并在整个夏季持续低迷。
会议参会者正在体验展示 Google 的 Gemini AI 的活动。camille cohen/AFP/Getty Images
AI 对 Google 搜索主导地位构成的威胁最终也带来了一线希望。2024 年 8 月,一名联邦法官裁定 Google 在在线搜索和搜索广告领域构成非法垄断。该裁定指出,Google 每年向 Apple 支付 200 亿美元,以成为这家 iPhone 制造商 Safari 浏览器中的默认搜索引擎的这项交易,具有反竞争性。
Google 的律师辩称,随着 AI 聊天机器人成为一种流行的新型搜索形式,公司的垄断地位实际上已经终结。今年早些时候,法官接受了这一论点,并裁定 Apple 的协议仅需进行少量修改即可继续,这帮助 Google 避免了更为极端的补救措施。
该项裁定,加上 8 月推出的 Nano Banana,推动了 Google 的股价上涨。
负责 Gemini 应用以及 Google Labs(某种意义上是新 AI 应用试验场)的 Josh Woodward 将 Nano Banana 的上线称为一次“成功的灾难”。当全球用户开始生成数以百万计、随后达数十亿张图像时,Google 一时间难以找到足够的算力来满足需求。他表示,公司动用了紧急借入的服务器时间,以获取更多计算能力。
到 10 月,Gemini 的月活跃用户已超过 6.5 亿,高于 7 月的 4.5 亿。

11 月,Gemini 3 的发布再次引发了计算能力的瓶颈。这是 Google 十多年来一直在预见的问题,而其解决方案——其自主研发的 AI 计算机芯片——正显现出竞争优势。其最新一代芯片名为 Ironwood,已显著降低了运行其 AI 模型的成本。
11 月底传出的消息称,Google 正在就向 Meta 出售价值数十亿美元、用于其自身 AI 项目的芯片展开谈判 ,这一消息足以令全球领先的芯片制造商 Nvidia 的股价在当天下跌 7%。
在今年 12 月发给员工的一份内部备忘录中,Pichai 定下了一个胜利的基调。“我们将在一个非常有利的位置结束 2025 年,”他写道。“回想公司仅仅在一年前的状态,看到如今取得的进展令人难以置信。”