返回首页
2025.07.07 04:45 约 7 分钟 大模型内核

当你什么都不喂给 AI 时会发生什么

257666_futureproofing_jgibbs-no-input2

本文信息来源:theverge

艺术家特伦斯·布罗德让 AI 在完全没有任何训练数据的情况下生成图像。

如果你在 YouTube 上偶然看到 Terence Broad 的 AI 生成艺术作品《(un)stable equilibrium》,你可能会以为他用画家 Mark Rothko 的作品训练了一个模型——那些早期、更明亮的作品,在他的视野变得更为阴暗、充满厄运之前。和 Rothko 早期的风格一样,Broad 的 AI 生成图像由纯色的简单色块组成,但这些色块在不断变形,持续变化着形态和色调。

但 Broad 并没有用 Rothko 的作品训练他的 AI;事实上,他根本没有用任何数据训练它。通过对神经网络进行黑客式操作,并将其部分元素锁定在递归循环中,他让这台 AI 在完全没有训练数据的情况下生成图像——没有输入,也没有影响因素。根据你的视角,Broad 的艺术要么是纯粹人工智能创造力的开创性展示,是对 AI 灵魂的窥探,要么只是巧妙但毫无意义的电子副产品,更像是吉他反馈噪音而不是音乐。无论如何,他的作品为生成式 AI 的更具创造性和伦理性的应用指明了方向,而不是像现在那样大规模制造充斥我们视觉文化的平庸复制品。

Broad 对于用他人作品训练生成式 AI 的伦理问题有很深的保留意见,但他创作 (un)stable equilibrium 的主要灵感并非来自哲学,而是源于一份糟糕的工作。2016 年,在寻找一份不涉及监控的机器学习工作时,Broad 在一家运营米尔顿凯恩斯市交通摄像头网络的公司找到了工作,该公司强调数据隐私。“我的工作是训练这些模型并管理这些庞大的数据集,比如说,围绕英国最无聊城市的 15 万张图片,”Broad 说。“我真的受够了管理数据集。当我开始从事艺术创作时,我就想, 我不干了——我不再制作 [数据集]。”

一家跨国公司的法律威胁让他更加远离输入内容。Broad 早期的一次艺术成功,是用一种叫做自编码器的人工神经网络,对电影《银翼杀手》(1982)的每一帧进行训练,然后让它生成这部电影的副本。最终的结果(其中一些片段至今仍可在网上找到),既展示了 2016 年前后生成式 AI 的局限性,也对人类创造智能所带来的风险进行了讽刺性的评论。Broad 把视频发布到网上,很快就引起了广泛关注——以及华纳兄弟发来的 DMCA 下架通知。“每当你收到 DMCA 下架通知时,你可以提出异议,”Broad 说,“但那样你就有可能被美国法院起诉,作为一个刚毕业、背负大量债务的人,这不是我愿意冒的风险。”

当《Vox》的一位记者联系华纳兄弟寻求评论时,华纳兄弟很快撤回了通知——但不久后又重新发出了通知。(Broad 表示,这段视频已经被多次重新上传,每次都会收到下架通知——具有讽刺意味的是,这一过程在很大程度上是通过 AI 进行的。)策展人们开始联系 Broad,他很快就在惠特尼美术馆、巴比肯艺术中心、Ars Electronica 以及其他场馆举办了展览。但对作品法律地位模糊的担忧让他倍感压力。“我记得我去惠特尼美术馆的私人预展时,坐在飞机上,紧张得要命,因为我在想,‘哦,华纳兄弟会不会把它关掉’,”Broad 回忆道。“我当时非常多疑。幸运的是,我从未被华纳兄弟起诉,但这件事一直让我难以释怀。从那以后,我就想,‘我想继续创作,但我不想在未经他人同意、未付报酬的情况下,仅仅基于他人的作品进行创作。’自 2016 年以来,我没有再用别人的数据训练生成式 AI 模型来创作我的艺术。”

2018 年,布罗德在伦敦大学金史密斯学院开始攻读计算机科学博士学位。他说,正是在那里,他开始认真思考自己“数据禁欲”誓言的全部含义。“你怎么能在不模仿数据的情况下训练一个生成式 AI 模型?我花了一段时间才意识到这是自相矛盾的。生成模型本质上就是一个统计模型,只是模仿它所训练的数据。所以我不得不尝试用其他方式来重新表述这个问题。”很快,布罗德把注意力转向了生成对抗网络(GAN),这是一种当时非常流行的 AI 模型。在传统的 GAN 中,有两个神经网络——判别器和生成器——相互配合进行训练。两个网络都会分析一个数据集,然后生成器试图通过生成假数据来欺骗判别器;当它失败时,会调整自己的参数,而当它成功时,判别器则会调整。经过这样的训练过程后,理论上判别器和生成器之间的拉锯战会产生一个理想的平衡,使得 GAN 能够生成与原始训练集相当的数据。

Broad 的灵感时刻在于他直觉到可以用另一个生成器网络替换 GAN 中的训练数据,将其与第一个生成器网络循环连接,并让它们互相模仿。Broad 说,他最初的尝试导致了模式崩溃,生成的只是“灰色斑块,没什么有趣的”。但当他在系统中加入颜色变化损失项后,图像变得更加复杂和鲜艳。随后对 GAN 内部元素的实验让这项工作更进一步。“[GAN] 的输入被称为潜在向量,本质上就是一个很大的数字数组,”Broad 说。“你可以在生成的可能空间中平滑地在不同点之间过渡,相当于在两个网络的可能空间中移动。我认为有趣的一点是,它可以无限地生成新事物。”

从他最初的结果来看,罗斯科的对比立刻就显现出来了;布罗德说他把那些最初的图像保存在一个名为“罗斯科风格”的文件夹里。(布罗德还说,当他在一次科技会议上展示构成 (un)stable equilibrium 的作品时,观众中有人愤怒地指责他撒谎,说他没有向 GAN 输入任何数据,并坚称他一定用色域绘画对其进行了训练。)但这种对比其实有些偏离重点;布罗德作品的精彩之处在于过程,而不是结果。他的初衷并不是要创作罗斯科风格的图像,而是想揭示他所使用的网络中潜在的创造力。

他成功了吗?连 Broad 自己也不太确定。当被问及《(un)stable equilibrium》中的图像是否真正是“纯粹”人工智能创造力的产物时,他说:“网络的输出本身并没有被强加任何外部表现或特征,但我推测我的个人审美偏好在这个过程中以某种‘元启发式’的形式产生了一些影响。我也认为它为什么会输出这些内容有点神秘。很多学者建议我去调查和理解它为什么会这样输出,但说实话,我很享受这种神秘感!”

与他谈论他的研究过程,并阅读他的博士论文后,其中一个收获是,即使在最高的学术层面,人们其实也并不完全理解生成式 AI 的具体工作原理。将像 Midjourney 这样的生成式 AI 工具与 Photoshop 进行比较,前者几乎完全依赖于“提示工程”,而后者则允许用户调整几乎无穷无尽的设置和元素。我们知道,如果给生成式 AI 输入数据,输出结果会是这些输入的某种组合,但没有人真正清楚,在这个黑箱内部,具体发生了什么。(其中一部分是有意为之;Broad 指出,一个名为 OpenAI 的公司对其模型和输入高度保密,这本身就很讽刺。)

Broad 对无输入输出的探索揭示了 AI 的内部过程,尽管他的努力有时听起来更像是早期用冰锥在大脑中乱捣的脑叶切除术,而不是像精神分析那样更为细致的探索。揭示这些模型的工作原理也让它们不再神秘——这在技术乐观主义者和末日论者都沉浸在 Broad 所说的“胡扯”、即“全能、近乎神秘的 AI 海市蜃楼”之时尤为关键。“我们以为它们做得远比实际多得多,”Broad 说,“但其实只是一些矩阵相乘。你很容易就能进去开始改变一些东西。”

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读