现在我真的赢了那场人工智能赌注

本文信息来源：astralcodexten

2022 年 6 月，我和一位评论者打赌 100 美元，说人工智能将在 2025 年 6 月之前掌握图像构图能力。

DALL-E2 刚刚问世，展现了 AI 艺术的潜力。但它无法遵循复杂的指令；它的图像只能与提示的“氛围”相匹配。例如，以下是它尝试的一些作品：“一个红色球体放在蓝色立方体上，右边是一个黄色金字塔，所有这些都放在绿色桌子上”。

当时我写道：

我不会错误地认为这些问题是AI艺术固有的。我猜一个稍微好一点的语言模型应该能解决大部分问题……据我所知，一些更大型的图像模型已经解决了这些问题。我预计这些问题在未来几个月的研究中会得到解决。

评论者们对此表示反对，认为这种预测过于乐观。AI 只不过是一只模式匹配的“随机鹦鹉”。要想准确回答问题，需要对语法有深入的理解，而这需要超越法学硕士（LLM）的全新范式。例如，Vitor 的言论：

你为什么对此如此自信？像 DALL-E 这样的系统无法以需要实际内部世界模型的方式理解语义，在我看来，这正是问题的核心。我们也可以在语言模型本身中看到这种确切的失败模式。只有当人类要求一些模糊且有很大解读空间的内容时，例如缺乏太多内部逻辑或连续性的诗歌或奇幻故事，它们才能产生良好的结果。

并不是自吹自擂，但两年前你天真地说过，我们现在就会有类似 GPT 的模型，规模扩大几个数量级（100T 参数）（https://slatestarcodex.com/2020/06/10/the-obligatory-gpt-3-post/#comment-912798 ）。

我承认我的预测，你现在也同样天真。在我看来，真正解决这个问题似乎已经是AI完备的了。我愿意为此打赌（欢迎提出关于操作化的想法）。

所以我们打赌了！

好的。我建议在 2025 年 6 月 1 日实现这一目标，如果我们能够获得当时最好的图像生成模型（由我决定），或者能够说服其他有权限的人来帮助我们，我们将向它提供以下提示：

1. 一幅彩色玻璃画，画中一位女士在图书馆里，肩上停着一只乌鸦，嘴里叼着一把钥匙

2. 一幅油画，描绘了一位工厂里的男人看着一只戴着高顶礼帽的猫

3. 一幅数字艺术画，描绘了一个孩子骑着一只尾巴上挂着铃铛的骆驼穿越沙漠

4. 太空中一名宇航员抱着一只涂着口红的狐狸的 3D 渲染图

5. 像素艺术：大教堂里一位农民手握红色篮球

我们为每个提示生成10张图片，就像DALL-E2一样。如果10张图片中至少有一张在3/5的提示中完全正确地描述了场景，那么我赢了，否则你赢了。输家支付给赢家100美元，无论结果如何，我都会在博客上公布（可能是公开讨论）。如果我们意见不一致，由Gwern来评判。

当时的一些图像模型拒绝画人类，所以我们同意在需要人类的图片中用机器人代替人类。

2022年9月，我在Google Imagen上取得了一些不错的结果，并宣布我在三个月内赢得了这场为期三年的赌注。评论者们冲我大喊大叫，说Imagen的预测仍然不够准确，我宣布胜利为时过早。这场争论愈演愈烈，以至于“RLHF和人类法学硕士评估平台”Surge的Edwin Chen介入，并咨询了他的专业AI数据标注团队。他们的结论很明确：AI很糟糕，而我错了。为了避免进一步丢脸，我同意等到赌注结束，并在2025年6月重新评估。

赌注现在结束了，官方裁判格温认定我赢了。在我得意洋洋之前，先来看看那些让我们走到这里的照片吧。

人工智能组合性：三年回顾

图片集 1：2022 年 6 月

当我们在 2022 年 6 月首次下注时，AI 模型在这五个提示上能做到的最好成绩是：

你明白为什么人们会持怀疑态度了！大多数图片里，所有元素都齐全：宇航员、狐狸、口红。但它们的组合方式看起来最“合理”或“现实”，而不是按照提示的顺序——比如，涂口红的是宇航员，而不是狐狸。有时，也会出现一些不相关的、难以解释的失败，比如#1 中半狐半宇航员的丑陋形象。这里我们得到了 0/5 分。

图片集 2：2022 年 9 月

三个月后，当 Google Imagen 生成以下内容时，我宣布我获得了胜利：

我说它把猫、骆驼和篮球都拼对了，达到了必要的3/5分。埃德温和他的评估员不同意。他们认为猫是成功的。但骆驼尾巴上的铃铛不太明显（最接近的4号铃铛更像个球形）。最后的机器人不太像个农民，也不像个大教堂，篮球也更像橙色而不是红色。他们给了我1/5分。还行。

图片集 3：2024 年 1 月

2023-2024 年 ACX 预测大赛的其中一个问题是，到 2023 年底，是否有人工智能会赢得这场预测。为了解决这个问题，Edwin 和他的 Surge 团队于 2024 年 1 月重返图像矿场。他们检查了 DALL-E3 和 Midjourney 的数据；我只包含了 DALL-E3 的数据，因为 DALL-E3 的数据表现更好。它们如下：

这些具有更高的艺术品质，并且最终可以生成人类（而不仅仅是机器人）。

但他们还是没赢。这次埃德温答应了猫和农夫。但那只愚蠢的骆驼尾巴上还是没挂铃铛，那只#$%&ing 的乌鸦嘴里还是没叼着钥匙，虽然狐狸在一张照片（#2）里涂了口红，但宇航员手里却没拿着。2/5，离胜利只差一步。

在预测市场上，用户预测陈埃德温那年会让我获奖的概率为62%，结果引发了众怒。“你在开玩笑吧？”一位评论者问道。“陈埃德温是个混蛋吗？显然他是，”另一位评论者说道。

图片集 4：2024 年 9 月 – 12 月

贝叶斯阴谋论 Discord 上的用户askwho声称，Google Imagen 于 2024 年 9 月通过了测试（他说是 Imagen 2，但根据时间推算，可能是 Imagen 3）。但他并未公开发布这条消息，也不记得所有细节，因此我将评估一下这条同样关于 Imagen 3 的 12 月相关说法：

我给它打3/5分。我们保留了戴高顶礼帽的猫和拿着篮球的农夫，铃铛终于挂在了骆驼的尾巴上。但乌鸦的图案不是彩色玻璃，狐狸仍然没有涂口红。

我试图联系埃德温确认，但没有成功。我很好奇他发生了什么事，快速搜索了一下，发现他的AI数据标签公司做得很好，他现在可能已经是亿万富翁了。希望他现在在某艘游艇上放松一下，远离那些愤怒的预测市场评论员。

在没有评分员的情况下，我想我会让赌注耗尽。

图片集 5：2025 年 5 月至 6 月

这些使用的是 2025 年 5 月发布的 ChatGPT 4o，所有图像均于 6 月 1 日生成（感谢读者）：

这不仅是5/5的满分，而且在风格搭配上也明显提升了不少，而且这些都是一次性完成的。现在回想起来，评委们对之前的模型的淘汰似乎是正确的，那些模型有点笨手笨脚，有些模型只是碰巧做对了。4o 真的有效。

埃德温大概还在他的游艇上，但最初的比赛评委格温对此表示认可，他说：

我觉得我同意他肯定赢了赌注。正如你所说，图像看起来正确，而且我愿意把球称为“红色”，因为它整体呈黄色（经典的色彩恒常性）。

悼念：你最后的几座球门柱，虽已远去，但不会被遗忘

写一整篇博客文章来炫耀自己赢了赌注可能是不礼貌的。

无论如何我都会这样做，因为我们仍在进行同样的争论——人工智能是否是一只“随机鹦鹉”，永远无法超越“单纯的模式匹配”进入“真正理解”的领域。

我的立场始终是，两者之间没有根本区别：你只是从匹配浅层模式转向更深层模式，而当这些模式的深度达到人类能够匹配的程度时，我们称之为“真正的理解”。这种说法并不完全正确——在某种形式的心理主体能力上，人类仍然比人工智能做得好得多——但再次强调，这（巨大的）差异只是程度上的差异，而非性质上的差异。

我认为这篇论文到目前为止做得很好。到目前为止，每当人们声称AI没有“真正的理解”就无法完成某件事时，AI都能通过更好的模式匹配来完成。2020年就是如此，当时GPT-2无法完成2+1的加法运算，Gary Marcus宣称扩展性失败，是时候“考虑投资不同的方法”了（陶哲轩认为，现在与AI合作“就好比试图指导一个平庸但并非完全无能的研究生静态模拟”）。我认为AI艺术的进步也说明了同样的故事。

这个故事里还有一个不和谐的地方。当我给4o一个非常困难的提示时……

请画一只涂着口红的狐狸，腋下夹着一个红色篮球，正在读一份报纸，报纸的标题是“我赢了三年的人工智能赌注”。狐狸的肩上站着一只乌鸦，乌鸦嘴里叼着一把钥匙。

…它仍然不能完全正确：

但聪明的人类可以完成任意复杂的任务。那么，在某种意义上，人工智能是否仍然“只是模式匹配”，而人类“真正理解”了呢？也许随着规模的扩大，人工智能在模式匹配方面会越来越好，最终能够胜任所有可以想象到的合理任务，但它们仍然无法像人类那样无限优秀？

我认为这里发生了一些事情，AI 所做的相当于人类在听过一次提示后试图将其保留在工作记忆中——这是我们无法随意做好的事情。我承认我无法证明这一点，而且这不一定是直觉——AI 确实有一个便笺簿，更不用说它面前始终有提示。这只是基于与数学问题的类比，对我来说这是有意义的，AI 经常在与人类相同的点上崩溃（例如，它们可以“在脑海中”计算两位数的乘法，但不能计算三位数的乘法）。我认为，当我们足够好地解决代理问题，使 AI 能够生成计划（例如一次绘制图片的一部分，然后检查提示，然后完成剩余部分）时，这个问题就会得到解决。这可能需要新的技能，例如自我参考和规划，这些技能可以手动添加，也可以在扩展和训练过程中自然产生，或者两者兼而有之。