现在我真的赢了那场人工智能赌注
本文信息来源:astralcodexten
2022 年 6 月,我和一位评论者打赌 100 美元,说人工智能将在 2025 年 6 月之前掌握图像构图能力。
DALL-E2 刚刚问世,展现了 AI 艺术的潜力。但它无法遵循复杂的指令;它的图像只能与提示的“氛围”相匹配。例如,以下是它尝试的一些作品:“一个红色球体放在蓝色立方体上,右边是一个黄色金字塔,所有这些都放在绿色桌子上”。

当时我写道:
我不会错误地认为这些问题是AI艺术固有的。我猜一个稍微好一点的语言模型应该能解决大部分问题……据我所知,一些更大型的图像模型已经解决了这些问题。我预计这些问题在未来几个月的研究中会得到解决。
评论者们对此表示反对,认为这种预测过于乐观。AI 只不过是一只模式匹配的“随机鹦鹉”。要想准确回答问题,需要对语法有深入的理解,而这需要超越法学硕士(LLM)的全新范式。例如,Vitor 的言论:
你为什么对此如此自信?像 DALL-E 这样的系统无法以需要实际内部世界模型的方式理解语义,在我看来,这正是问题的核心。我们也可以在语言模型本身中看到这种确切的失败模式。只有当人类要求一些模糊且有很大解读空间的内容时,例如缺乏太多内部逻辑或连续性的诗歌或奇幻故事,它们才能产生良好的结果。
并不是自吹自擂,但两年前你天真地说过,我们现在就会有类似 GPT 的模型,规模扩大几个数量级(100T 参数)(https://slatestarcodex.com/2020/06/10/the-obligatory-gpt-3-post/#comment-912798 )。
我承认我的预测,你现在也同样天真。在我看来,真正解决这个问题似乎已经是AI完备的了。我愿意为此打赌(欢迎提出关于操作化的想法)。
所以我们打赌了!
好的。我建议在 2025 年 6 月 1 日实现这一目标,如果我们能够获得当时最好的图像生成模型(由我决定),或者能够说服其他有权限的人来帮助我们,我们将向它提供以下提示:
1. 一幅彩色玻璃画,画中一位女士在图书馆里,肩上停着一只乌鸦,嘴里叼着一把钥匙
2. 一幅油画,描绘了一位工厂里的男人看着一只戴着高顶礼帽的猫
3. 一幅数字艺术画,描绘了一个孩子骑着一只尾巴上挂着铃铛的骆驼穿越沙漠
4. 太空中一名宇航员抱着一只涂着口红的狐狸的 3D 渲染图
5. 像素艺术:大教堂里一位农民手握红色篮球
我们为每个提示生成10张图片,就像DALL-E2一样。如果10张图片中至少有一张在3/5的提示中完全正确地描述了场景,那么我赢了,否则你赢了。输家支付给赢家100美元,无论结果如何,我都会在博客上公布(可能是公开讨论)。如果我们意见不一致,由Gwern来评判。
当时的一些图像模型拒绝画人类,所以我们同意在需要人类的图片中用机器人代替人类。
2022年9月,我在Google Imagen上取得了一些不错的结果,并宣布我在三个月内赢得了这场为期三年的赌注。评论者们冲我大喊大叫,说Imagen的预测仍然不够准确,我宣布胜利为时过早。这场争论愈演愈烈,以至于“RLHF和人类法学硕士评估平台”Surge的Edwin Chen介入,并咨询了他的专业AI数据标注团队。他们的结论很明确:AI很糟糕,而我错了。为了避免进一步丢脸,我同意等到赌注结束,并在2025年6月重新评估。
赌注现在结束了,官方裁判格温认定我赢了。在我得意洋洋之前,先来看看那些让我们走到这里的照片吧。
人工智能组合性:三年回顾
图片集 1:2022 年 6 月
当我们在 2022 年 6 月首次下注时,AI 模型在这五个提示上能做到的最好成绩是:

你明白为什么人们会持怀疑态度了!大多数图片里,所有元素都齐全:宇航员、狐狸、口红。但它们的组合方式看起来最“合理”或“现实”,而不是按照提示的顺序——比如,涂口红的是宇航员,而不是狐狸。有时,也会出现一些不相关的、难以解释的失败,比如#1 中半狐半宇航员的丑陋形象。这里我们得到了 0/5 分。
图片集 2:2022 年 9 月
三个月后,当 Google Imagen 生成以下内容时,我宣布我获得了胜利:

我说它把猫、骆驼和篮球都拼对了,达到了必要的3/5分。埃德温和他的评估员不同意。他们认为猫是成功的。但骆驼尾巴上的铃铛不太明显(最接近的4号铃铛更像个球形)。最后的机器人不太像个农民,也不像个大教堂,篮球也更像橙色而不是红色。他们给了我1/5分。还行。
图片集 3:2024 年 1 月
2023-2024 年 ACX 预测大赛的其中一个问题是,到 2023 年底,是否有人工智能会赢得这场预测。为了解决这个问题,Edwin 和他的 Surge 团队于 2024 年 1 月重返图像矿场。他们检查了 DALL-E3 和 Midjourney 的数据;我只包含了 DALL-E3 的数据,因为 DALL-E3 的数据表现更好。它们如下:


这些具有更高的艺术品质,并且最终可以生成人类(而不仅仅是机器人)。
但他们还是没赢。这次埃德温答应了猫和农夫。但那只愚蠢的骆驼尾巴上还是没挂铃铛,那只#$%&ing 的乌鸦嘴里还是没叼着钥匙,虽然狐狸在一张照片(#2)里涂了口红,但宇航员手里却没拿着。2/5,离胜利只差一步。
在预测市场上,用户预测陈埃德温那年会让我获奖的概率为62%,结果引发了众怒。“你在开玩笑吧?”一位评论者问道。“陈埃德温是个混蛋吗?显然他是,”另一位评论者说道。
图片集 4:2024 年 9 月 – 12 月
贝叶斯阴谋论 Discord 上的用户askwho声称,Google Imagen 于 2024 年 9 月通过了测试(他说是 Imagen 2,但根据时间推算,可能是 Imagen 3)。但他并未公开发布这条消息,也不记得所有细节,因此我将评估一下这条同样关于 Imagen 3 的 12 月相关说法:





我给它打3/5分。我们保留了戴高顶礼帽的猫和拿着篮球的农夫,铃铛终于挂在了骆驼的尾巴上。但乌鸦的图案不是彩色玻璃,狐狸仍然没有涂口红。
我试图联系埃德温确认,但没有成功。我很好奇他发生了什么事,快速搜索了一下,发现他的AI数据标签公司做得很好,他现在可能已经是亿万富翁了。希望他现在在某艘游艇上放松一下,远离那些愤怒的预测市场评论员。
在没有评分员的情况下,我想我会让赌注耗尽。
图片集 5:2025 年 5 月至 6 月
这些使用的是 2025 年 5 月发布的 ChatGPT 4o,所有图像均于 6 月 1 日生成(感谢读者):





这不仅是5/5的满分,而且在风格搭配上也明显提升了不少,而且这些都是一次性完成的。现在回想起来,评委们对之前的模型的淘汰似乎是正确的,那些模型有点笨手笨脚,有些模型只是碰巧做对了。4o 真的有效。
埃德温大概还在他的游艇上,但最初的比赛评委格温对此表示认可,他说:
我觉得我同意他肯定赢了赌注。正如你所说,图像看起来正确,而且我愿意把球称为“红色”,因为它整体呈黄色(经典的色彩恒常性)。
悼念:你最后的几座球门柱,虽已远去,但不会被遗忘
写一整篇博客文章来炫耀自己赢了赌注可能是不礼貌的。
无论如何我都会这样做,因为我们仍在进行同样的争论——人工智能是否是一只“随机鹦鹉”,永远无法超越“单纯的模式匹配”进入“真正理解”的领域。
我的立场始终是,两者之间没有根本区别:你只是从匹配浅层模式转向更深层模式,而当这些模式的深度达到人类能够匹配的程度时,我们称之为“真正的理解”。这种说法并不完全正确——在某种形式的心理主体能力上,人类仍然比人工智能做得好得多——但再次强调,这(巨大的)差异只是程度上的差异,而非性质上的差异。
我认为这篇论文到目前为止做得很好。到目前为止,每当人们声称AI没有“真正的理解”就无法完成某件事时,AI都能通过更好的模式匹配来完成。2020年就是如此,当时GPT-2无法完成2+1的加法运算,Gary Marcus宣称扩展性失败,是时候“考虑投资不同的方法”了(陶哲轩认为,现在与AI合作“就好比试图指导一个平庸但并非完全无能的研究生静态模拟”)。我认为AI艺术的进步也说明了同样的故事。
这个故事里还有一个不和谐的地方。当我给4o一个非常困难的提示时……
请画一只涂着口红的狐狸,腋下夹着一个红色篮球,正在读一份报纸,报纸的标题是“我赢了三年的人工智能赌注”。狐狸的肩上站着一只乌鸦,乌鸦嘴里叼着一把钥匙。
…它仍然不能完全正确:

但聪明的人类可以完成任意复杂的任务。那么,在某种意义上,人工智能是否仍然“只是模式匹配”,而人类“真正理解”了呢?也许随着规模的扩大,人工智能在模式匹配方面会越来越好,最终能够胜任所有可以想象到的合理任务,但它们仍然无法像人类那样无限优秀?
我认为这里发生了一些事情,AI 所做的相当于人类在听过一次提示后试图将其保留在工作记忆中——这是我们无法随意做好的事情。我承认我无法证明这一点,而且这不一定是直觉——AI 确实有一个便笺簿,更不用说它面前始终有提示。这只是基于与数学问题的类比,对我来说这是有意义的,AI 经常在与人类相同的点上崩溃(例如,它们可以“在脑海中”计算两位数的乘法,但不能计算三位数的乘法)。我认为,当我们足够好地解决代理问题,使 AI 能够生成计划(例如一次绘制图片的一部分,然后检查提示,然后完成剩余部分)时,这个问题就会得到解决。这可能需要新的技能,例如自我参考和规划,这些技能可以手动添加,也可以在扩展和训练过程中自然产生,或者两者兼而有之。


如果您不同意,请告诉我 – 也许我们可以打赌!