人工智能的开放性

可操作摘要
-
OpenAI成立于 2015 年,是一家非营利组织,致力于为每个人打造人工智能。随着 OpenAI 研究的不断深入,公司越来越将重点放在通用人工智能 (AGI) 上。
-
2017 年 3 月,OpenAI 领导层决定,如果公司要真正迈向 AGI,那么公司的非营利性地位已不再可行,因此决定从非营利性公司转变为一家有上限利润的公司。
-
2020年1月,OpenAI研究员、约翰·霍普金斯大学教授Jared Kaplan等人发表了《神经语言模型的缩放定律》。计算和缩放的重要性成为OpenAI模型发展的核心。
-
对计算的同样渴望促使 OpenAI 最终从微软筹集了数十亿美元,以获得对 Azure 的优先使用权。
-
OpenAI 从开源转向更加封闭的理念,导致了开源支持者与 OpenAI 支持者之间的理念分歧。同样的冲突也导致一些团体脱离 OpenAI,试图变得更加开放。
-
最引人注目的是,OpenAI 前研究副总裁Dario Amodei离职创办了自己的公司 Anthropic。在此过程中,他带走了14 名研究人员,其中包括OpenAI 前政策负责人 Jack Clark。尽管 Amodei 于 2020 年 12 月离开 OpenAI,但据报道, “此次分裂源于 [OpenAI] 在 2019 年获得微软10 亿美元里程碑式投资后,对发展方向的分歧。”
-
OpenAI 哲学体系的另一端则秉持开放原则,其中包括 Stability with Stable Diffusion 和 EleutherAI 等公司。然而,许多开源的积极支持者远非纯粹的开源主义者,他们习惯于利用开源技术谋取私利,或躲在 AI 安全的幌子下控制底层技术。
-
许多人主张,需要更好地解决人工智能领域的问题,包括虚假信息、偏见、侵犯知识产权和数据隐私。然而,许多公司却利用这些问题来封闭自己的技术,称安全问题是保持开放的主要障碍。
-
虽然这种情况以“AI安全”的名义发生,但通常是出于竞争差异化的需要。OpenAI首席科学家兼联合创始人Ilya Sutskever就OpenAI关闭GPT-4的决定发表了同样的看法:“从竞争格局来看,竞争非常激烈。GPT-4的开发并不容易。”
-
但随着大型企业为了在竞争中保护自己而相互竞争,它们也增加了自身权力的积累。Hugging Face首席执行官克莱门特·德兰格 (Clement Delangue )和Replit首席执行官阿姆贾德·马萨德 (Amjad Masad)就人工智能面临的最大风险进行了对话。克莱门特这样描述这种危险:“我个人认为,当今人工智能面临的主要风险是权力的集中。”
-
权力集中的弊端在于它会导致单点故障。当大型组织能够有效地审查人员和系统可以使用的信息时,这将对决定这些人和系统未来的思维方式产生巨大的影响。人工智能也是如此。对特定模型的控制越集中,一家公司可能产生的影响就越具有普遍性。
-
鉴于ChatGPT六个月前才刚刚问世,单一人工智能系统就能对现代语言产生普遍影响的想法或许有些极端,但法学硕士(LLM)的强大力量意味着它们能够迅速普及。虽然语言一直以来都受到诸多影响,但世界从未见过能够从根本上影响语言的技术,尤其是那种仅由少数几家公司控制的技术。
-
如果人工智能最终引领第四次工业革命,那么它就需要让每个人都能触及,无论成本、地域或政治立场如何。我们需要消除技术和信息的壁垒。并非每个人都拥有GPU,甚至并非每个人都拥有互联网。但人们创建了训练这些模型的数据,因此,扩大访问权限将协调数据创建者和模型创建者之间的激励机制,确保那些贡献数据构建模型的人能够获得其价值的归属和补偿。
OpenAI的崛起
自20世纪50年代艾伦·图灵首次发表《计算机器与智能》以来,人工智能一直是科技界人士梦寐以求的事物。自那时起,智能技术的发展经历了多次飞跃,随后又经历了几次倒退。在实现根本性的智能系统之前,计算能力和数据可用性必须达到临界规模。机器学习和数据科学的持续进步,使其逐渐崛起。随着摩尔定律的不断发展,以及互联网开启“大数据”时代,真正意义上的人工智能的诞生已然准备就绪。
2012 年,一篇名为《基于深度卷积神经网络的图像网络分类》的开创性论文发表。该论文的作者Geoffrey Hinton博士和他的两名研究生Ilya Sutskever和Alex Krizhevsky提出了一种名为 AlexNet 的深度卷积神经网络 (CNN) 架构,这代表着图像分类任务的一大飞跃。其中一项关键突破是 AlexNet 可以在 GPU 上进行训练,这使得它能够利用比仅在 CPU 上训练的算法更强大的计算能力。这篇论文还引发了许多其他关于深度学习中 CNN 和 GPU 的有影响力的论文的发表。随后,在 2015 年,非营利组织OpenAI成立,其目标是为每个人打造人工智能。在公司的成立公告中,OpenAI 强调其专注于创造价值而非获取价值:
作为非营利组织,我们的目标是为所有人而非股东创造价值。我们强烈鼓励研究人员发表他们的研究成果,无论是论文、博客文章还是代码,我们的专利(如果有的话)也将与全世界共享。
该公司将其开放性视为招聘的竞争优势,承诺“提供探索仅着眼于未来而非产品和季度收益的研究的机会,并最终与任何想要的人分享大部分(如果不是全部)研究成果。”涌入 OpenAI 的人才成为该领域专家的名人录。
到2014年,顶级人工智能研究人员的市场薪酬已与NFL顶级四分卫新秀的薪酬持平。这种由谷歌或Facebook等大型科技公司提供的薪酬,被一些早期参与OpenAI建设的人视为负面信号。例如,曾在NVIDIA、谷歌大脑和Facebook工作过的Wojciech Zaremba ,在被OpenAI的使命而非金钱所吸引后,成为了OpenAI的联合创始人:
Zaremba 说,尽管他对谷歌和 Facebook 等公司非常尊重,但这些近乎疯狂的报价实际上让他望而却步。他觉得,这些钱至少与其说是为了赢得他的青睐,不如说是为了阻止 OpenAI 的成立。这笔钱反而让他更加坚定地朝着这家初创公司宏伟的使命迈进。
叙事的转变
随着 OpenAI 研究的不断进展,该公司越来越专注于通用人工智能 (AGI) 的开发。2017 年 3 月,OpenAI 领导层决定,如果公司想要在 AGI 领域取得真正的进展,那么非营利组织的身份已不再可行,因为作为非营利组织,OpenAI 无法获得所需的大量计算资源。
2018 年 5 月,OpenAI发布了关于训练大型模型所需计算历史的研究报告,结果显示,自 2012 年以来,计算量增加了 300,000 倍,每 3.4 个月翻一番。
来源:OpenAI
随后,OpenAI 于 2018 年 6 月发表了《通过生成式预训练提升语言理解》,首次介绍了GPT模型。GPT 模型是一种基于 Transformer 的神经网络架构,专为语言生成任务而设计。该模型建立在 Transformer 架构之上,而该架构的提出源于2017 年 6 月发表的基础论文《Attention Is All You Need》 。
OpenAI 想要创建的模型,例如 GPT 以及后来的DALL-E,都需要大量的计算资源。OpenAI 的领导者,例如 Greg Brockman,认为为了“保持竞争力”,他们需要更多资源——大量的资源。作为第一步,Sam Altman找到了 Reid Hoffman 和 Vinod Khosla。从最初的转变到 2023 年 4 月,OpenAI 陆续筹集了超过 110 亿美元的资金。
OpenAI 于 2018 年 4 月发布的新章程展现了业务的微妙变化。该公司仍然强调其开放性和“普遍使命”:
“我们承诺利用我们在 AGI 部署方面获得的任何影响力,确保它能造福所有人,并避免使用人工智能或 AGI 来伤害人类或过度集中权力。”
然而,该章程也强调了公司需要“调动大量资源来完成我们的使命”。后来,在2019年3月,OpenAI宣布成立“OpenAI LP”,解释了其如何在通过财务激励吸引投资者的同时,平衡其基本使命。这种公司结构将使OpenAI能够吸收投资者的资本,但会限制其投资者可能获得的回报,并将任何额外的回报集中到OpenAI的非营利部门。
至关重要的是,OpenAI 的新章程缩减了开放性的承诺,并指出安全性是其理由:
我们致力于提供公共产品,帮助社会走向通用人工智能 (AGI)。目前,这包括发布我们的大部分人工智能研究成果,但我们预计,出于安全方面的考虑,未来我们的传统出版业务将减少,而安全、政策和标准研究的共享将更加重要。
必须承认的是,由于投资者的财务动机与 OpenAI 的成果规模息息相关,竞争可能成为一个因素。当公司需要创造财务回报时,击败竞争对手就变得尤为重要。对竞争的重视往往优先于开放性。
建立战争基金以扩大规模
OpenAI LP 宣布成立后,该公司立即着手筹集其领导团队认为迫切需要的资源。2019年 7 月,微软向 OpenAI 投资了10 亿美元,其中一半后来被披露是以 Azure 积分的形式投资的,这使得 OpenAI 可以基本免费使用微软的云产品。在这笔交易之后,OpenAI 在云计算方面的支出迅速扩大。2017 年,OpenAI在云计算方面花费了790 万美元。2019 年和 2020 年,这一数字合计攀升至1.2 亿美元。OpenAI 曾是谷歌云的最大客户之一,但在微软投资之后,OpenAI 开始专门与 Azure 合作。
2020年,微软宣布“开发了一台由Azure托管的超级计算机,专门用于测试OpenAI的大规模人工智能模型”。这台超级计算机配备了28.5万个CPU核心和1万个GPU,是世界上最快的系统之一。借助微软的计算资源,OpenAI显著提高了新产品的发布速度。
OpenAI 专注于计算资源,因此该公司越来越注重规模化发展。 《麻省理工学院技术评论》 2020 年的一篇简介文章对 OpenAI 对规模化的关注进行了如下描述:
关于如何实现通用人工智能 (AGI),目前有两种主流技术理论。一种理论认为,所有必要的技术都已存在;只需研究如何扩展和组装它们。另一种理论认为,需要一个全新的范式;深度学习,目前人工智能领域的主导技术,远远不够……OpenAI 一直以来几乎完全停留在扩展和组装这一端。它的大部分突破都是将大量计算资源投入到其他实验室开发的技术创新中而取得的。
计算资源的增加使得 OpenAI 能够不断提升其模型的能力,最终于 2019 年 2 月发布了GPT-2。然而,在 OpenAI 不断追求规模的同时,该公司似乎也越来越倾向于保密。在 GPT-2 的推出过程中,OpenAI 认为完整模型过于危险,无法一次性全部发布,因此在 2019 年 11 月正式发布完整模型之前,进行了分阶段发布。罗格斯大学专注于研究人工智能虚假信息的助理教授布里特·帕里斯 (Britt Paris)认为,“OpenAI 似乎是在试图利用人们对人工智能的恐慌来牟利。”
2020 年 1 月,OpenAI 研究员、约翰·霍普金斯大学教授 Jared Kaplan 与其他人共同发表了《神经语言模型的缩放定律》,其中指出:
随着我们适当扩大模型规模、数据和计算能力,语言建模性能的提升将平稳且可预测。我们预计,更大规模的语言模型将比现有模型表现更佳,样本利用效率更高。
来源:OpenAI
再次,计算和规模的重要性成为 OpenAI 模型发展的核心。2020 年 5 月,OpenAI发表了一篇关于 GPT-3 的论文《语言模型是少样本学习者》,进一步强调了对规模的关注。该论文展示了随着计算能力的提升,性能可以平稳扩展。
来源:OpenAI
此外,OpenAI 发现,扩大规模也能提高泛化能力,他们认为“扩大大型语言模型的规模可以极大地提高与任务无关的、少量样本的性能,有时甚至可以与之前最先进的微调方法相媲美。” 自由研究员 Gwern Branwen在一篇博客文章中提出了“扩展假设” ,并指出:
OpenAI于 2020 年 5 月宣布推出 GPT-3,这是迄今为止训练出的最大的神经网络,比之前大了一个数量级……令大多数人(包括我自己)感到惊讶的是,规模的大幅增长并没有像许多人预期的那样带来收益递减或负增长,规模效益仍然如 OpenAI 所预测的那样持续显现。
OpenAI 研究的成功并不局限于学术界或 AI 爱好者圈子。随着 ChatGPT 于 2022 年 11 月 30 日发布,它一炮打响,五天后用户数量就达到了100 万。ChatGPT 发布两个月后,即 2023 年 1 月,它已成为有史以来增长最快的消费产品,月活跃用户数达到1 亿。同月,微软再次向 OpenAI 投资100 亿美元,加倍投入。许多人也开始相信,ChatGPT代表着几十年来对谷歌搜索霸主地位的首个真正潜在威胁。
资料来源:Exponential View
OpenAI 内部预计2023 年营收为2 亿美元,2024 年为10 亿美元。尽管外部反响积极,并有望取得财务成功,但 OpenAI 的产品也付出了代价。一份报告估计,OpenAI 2022 年的亏损翻了一番,达到 5.4 亿美元。Sam Altman 预计在接下来的几年里将筹集高达 1000 亿美元的资金,以支持其持续扩张的规模。这将使其成为“硅谷历史上资本最密集的初创公司”。仅 ChatGPT 一项的成本就让 Sam Altman 本人形容为“令人咋舌”,估计每天需要花费70 万美元才能维持服务运行。
虽然ChatGPT的成功以及微软看似无穷无尽的资源使OpenAI成为人工智能领域的领军企业,但该公司采取的策略并非人人都认同。一些参与公司早期愿景制定的人士认为,OpenAI的演进过程正使其与公司名称所暗示的开放性越来越远。
从OpenAI到ClosedAI
OpenAI 从非营利性机构转型为营利性机构的过程发生在 2017 年至 2018 年初,并于 2018 年 4 月正式宣布。早在宣布这一决定之前,OpenAI 最初的理念与当前理念之间的裂痕就已初现。2017 年 6 月,OpenAI创始人之一埃隆·马斯克 (Elon Musk) 已从该公司挖走了深度学习专家、OpenAI 研究员安德烈·卡帕西 (Andrej Karpathy),任命其为特斯拉自动驾驶部门负责人,这标志着 OpenAI 内部冲突的早期迹象。
2018年2月,OpenAI宣布埃隆·马斯克将辞去公司董事会成员职务。马斯克离职后,未能兑现承诺的全部10亿美元资金,而此前他离职前只贡献了1亿美元。尽管马斯克和OpenAI都声称马斯克的离职是由于利益冲突加剧,但这一说法如今变得更加扑朔迷离。2023年3月,有消息称马斯克“认为OpenAI已经严重落后于谷歌……马斯克提出了一个可能的解决方案:他将接管OpenAI并亲自运营。” 但OpenAI拒绝了,马斯克最终与OpenAI分道扬镳。
后来,在 ChatGPT 取得成功以及微软向 OpenAI 投资 100 亿美元之后,埃隆·马斯克开始更加直言不讳地表达他对公司的批评和存在分歧。
来源:Twitter
受到这些批评的并非只有埃隆·马斯克一人。OpenAI发布新章程并宣布成立 OpenAI LP 时,该公司宣称其致力于避免“权力过度集中”的工作。2019 年 3 月,人们对 OpenAI 的立场表达了质疑。将投资者回报率限制在 100 倍以内,无论如何都会阻碍典型的财务驱动激励措施,这一想法招致了批评。在一篇 Hacker News 文章中,一位评论者提出了以下观点:
谷歌的早期投资者已获得约20倍的资本回报。谷歌目前的估值为7500亿美元。你的赌注是,你的公司结构将比谷歌的回报率高出几个数量级(因此估值至少高出一个数量级),但你又不想“权力过度集中”?这该如何实现?如果不是资源的集中,权力究竟是什么?
随着 ChatGPT 的成功,OpenAI 逐渐放弃了最初分享研究成果的愿景。2023 年 3 月,OpenAI发布了GPT-4,这是该公司首个实际上封闭的模型。在发布 GPT-4 时,该公司辩称,出于对竞争和安全的担忧,该模型无法更加开放地发布:
“考虑到 GPT-4 等大型模型的竞争格局和安全隐患,本报告未包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。”
在同一时间的一次采访中,OpenAI 首席科学家兼联合创始人 Ilya Sutskever解释了OpenAI 改变其研究分享方式的原因:
我们错了。完全错了。如果你像我们一样,相信人工智能(AGI)终有一天会变得极其强大,强大到难以置信,那么开源就毫无意义。这绝对是个坏主意……我完全相信,几年后,每个人都会清楚地认识到,开源人工智能并不明智。
此后,人工智能社区的成员们对这一决定提出了批评。Nomic* 信息设计副总裁 Ben Schmidt解释说:“由于无法看到 GPT-4 的训练数据,我们很难知道该系统在哪些方面可以安全使用,也很难找到修复方案。” 此前,有人在Twitter上发布了一条帖子,解释了这种封闭式方法的固有局限性。
来源:Twitter
当 OpenAI 为其模型封闭上下文时,用户面临的最大限制之一就是难以理解模型中固有的潜在权重或偏差。例如,一篇关于 ChatGPT 的评论指出,它表现出“亲环保、左翼自由主义倾向”的政治偏见。除了具体的偏见实例之外,Ben Schmidt 进一步解释说:“为了做出明智的决定,确定模型不适用于哪些情况,我们需要了解模型中存在哪些类型的偏见。” Hugging Face的研究科学家Sasha Luccioni解释了OpenAI 的方法给科学家带来的限制:
在阅读了近100页的GPT-4报告和系统卡后,我的问题比答案还多。作为一名科学家,我很难依赖那些无法验证或复制的结果。
除了个别案例中关于可复制性或偏见的批评之外,还有其他批评者更关注其对整个人工智能研究的影响。一个大量借鉴学术界经验的学科,如今正面临着自上而下的企业层面的控制,即 OpenAI 与微软的结盟。Lightning AI 首席执行官兼 PyTorch Lightning 创始人William Falcon在 2023 年 3 月的一次采访中解释了这一批评:
“这会开一个不好的先例……我是一名人工智能研究员。所以我们的价值观根植于开源和学术。我来自Facebook 的Yann LeCun实验室……现在,由于 [OpenAI] 面临着盈利的压力,我认为今天就是他们真正走向闭源的日子。”
从 2020 年开始直到 GPT-4 推出,Sam Altman 对 OpenAI 的优先事项不断演变,这些变化不仅引发了公众关于盈利与非盈利、封闭与开放的争论,也不仅仅引发了 Altman 和马斯克之间的冲突。
相反,OpenAI 的做法“迫使它做出的决策似乎离初衷越来越远。它为了吸引资金和人才而过度炒作,为了保持优势而守护自己的研究成果,并追求计算密集型战略——并非因为它被视为通往通用人工智能的唯一途径,而是因为它看起来是最快的。” 这种方法已经让 OpenAI 的一些员工真正崩溃了。
最值得注意的是,OpenAI 前研究副总裁Dario Amodei离职,创办了竞争对手 AI 初创公司 Anthropic。他带走了14 名研究人员,其中包括OpenAI 前政策负责人 Jack Clark。虽然 Amodei 于 2020 年 12 月离职,但据报道, “此次分裂是由于该团队在 2019 年从微软获得具有里程碑意义的 [10 亿美元] 投资后,对方向产生了分歧。”OpenAI 培养了几位校友,他们后来创办了其他 AI 公司,例如Adept或Perplexity AI。但 OpenAI 的定位会越来越多地将公司内外的许多不同的 AI 专家置于开放和封闭之间的不同极端。
人工智能家族树上的裂缝
资料来源:Contrary Research
剖析人工智能领域的最新参与者,揭开专家、机构和思想交织的家族谱系。《Attention Is All You Need》这篇引入了Transformer架构的关键论文,如今已成为大型语言模型的关键构建模块,其主要作者是谷歌的人员。谷歌于2014年收购DeepMind时承诺,DeepMind “将免受盈利压力,从而专注于一个目标:开发能够匹敌甚至超越人类智能的计算机软件”。
协作学术文化在过去一直是人工智能领域的重要组成部分。就在2023年1月,《经济学人》杂志还提出了关于协作的均衡力量的观点:
人工智能知识传播速度极快……由于最顶尖的人工智能人才骨子里都是科学家,他们通常会以能够继续发表研究成果并在会议上展示成果为条件,选择投奔私营部门。正因如此,谷歌才会公开其重大进展,包括人工智能模型的关键组成部分“Transformer”(变压器),从而助其竞争对手一臂之力。(Chatgpt 中的“t”代表“Transformer”。)Meta 的顶级人工智能专家 Yann LeCun 认为,所有这些的结果是,“没有人领先于其他人超过两到六个月。”
人工智能研究的协作性也是人工智能家族谱系中相互交织的关键驱动因素之一。许多人工智能领域的杰出人物都曾在谷歌大脑、Meta AI、英伟达以及现在的OpenAI等公司工作过。但OpenAI的关闭以及随后ChatGPT的成功,将整个行业推入了一场人工智能军备竞赛,并以谷歌的“红色代码”等应对措施为标志。
竞争加剧和技术突破迫使大多数人工智能参与者在如何建立各自的公司方面做出哲学立场。虽然谷歌的一些人认为开源将使像 OpenAI 这样的公司更难建立护城河,但其他人则更专注于利用开源为自己谋利,或关注人工智能内部的安全隐患。
稳定AI与稳定扩散
Stability AI 或许是开源最积极的支持者之一。该公司成立于 2019 年初,其核心产品是DreamStudio,这是一款由 Stable Diffusion 提供支持的文本转图像界面。其他文本转图像模型(例如 DALL-E 或 Midjourney)只能通过云服务访问,而 Stable Diffusion 则已开源发布。
来源:GitHub,截至 2023 年 7 月 5 日
Stability AI 首席执行官兼联合创始人 Emad Mostaque 将公司定位为开源的捍卫者。2023 年 5 月,他表示自己打算“成为开源的领导者,即使其他人都选择封闭”。他进一步阐述了开放模型对于利用私有数据的重要性:
开放模型对于私有数据至关重要……世界上大多数有价值的数据都是私有数据,受监管的数据。你不可能在健康聊天机器人、教育或金融服务中使用黑盒模型。而一个开放模型,它以开源为基础,但包含授权的变体数据,以及公司的私有数据,才是真正重要的。
Stability AI 对开源承诺的最大证据是该公司参与了 Stable Diffusion 项目。然而,众所周知,Stability AI 会夸大其参与 Stable Diffusion 开发的程度。2022 年 10 月,Stability AI 完成了1.01 亿美元的A 轮融资。2023 年 4 月,该公司用于此轮融资的演示文稿被泄露。在演示文稿中,Stability AI 声称自己是 Stable Diffusion 的“共同创造者”,并且为 Midjourney 和 EleutherAI 等其他项目做出了重要贡献。
实际上,Stability AI 的贡献被澄清为计算拨款,其中包括7500 万美元用于 AWS 计算资源。Stable Diffusion 的实际开发是慕尼黑大学(简称 CompVis)和纽约生成式 AI 初创公司Runway的研究人员多年研究和工作的成果。Mostaque 后来更清楚地说明了该模型的起源,但这并没有阻止大多数消息来源错误地将Stability AI 称为 Stable Diffusion 的主要开发者。
“据我所知,Stability 在我们开发这个产品时根本就不知道,”最初开发 Stable Diffusion 的慕尼黑大学研究小组负责人 Björn Ommer 告诉《福布斯》。“他们后来才加入进来。” Ommer 还就Stable Diffusion 的所有权归属问题发表了看法。“Mostaque 拿到 A 轮融资的钱后,就更清楚了 Stable Diffusion 的真正开发者是谁,以及他的公司并不拥有这个知识产权。”
正如 OpenAI 在吸引投资者资本时优先级不断变化一样,Stability 也面临着类似的冲突:一方面要致力于开源,另一方面又需要展现所有权以获得资本和竞争优势。Stability 夸大了对 Stable Diffusion 所有权的主张,这给开源 AI 社区带来了打击,但该公司的问题远不止于此。
Stability AI 试图通过开发语言模型,超越 Stable Diffusion 在图像生成方面的成功。2023 年 4 月,Stability AI推出了StableLM,旨在回应 ChatGPT。该模型在GitHub上提供30 亿和 70 亿参数模型,后续还将提供 150 亿和 650 亿参数模型。Stability AI 始终坚持开源承诺,并承诺发布该模型的完整技术报告。然而,AI开发者和记者的非正式测试发现,其性能明显逊于运行 GPT-3.5 的 ChatGPT 以及 EleutherAI 和 Nomic* 的其他开源模型。
2023年上半年,Stability AI 曾试图以40亿美元的估值进行一轮融资,但最终选择发行小额可转换债券。2023年6月,《福布斯》杂志发表了一篇文章,指出 Stability 在自我介绍中存在诸多矛盾之处。例如,Stability 将 AWS 列为“战略合作伙伴”,而 AWS 的一位副总裁告诉《福布斯》,Stability“访问 AWS 基础设施的方式与我们的其他客户并无二致”。
稳定组织还声称与联合国教科文组织、经合组织、世界卫生组织和世界银行建立了合作伙伴关系,但这四家机构均否认存在此类合作关系。《福布斯》的文章还指出了稳定组织的其他问题,例如欠税、拖欠工资以及包括研究主管和首席运营官在内的高管离职。
人择人工智能与体质人工智能
Anthropic 是 OpenAI 家族中最著名的公司之一。2020 年 1 月,约翰·霍普金斯大学物理学家Jared Kaplan和几位 OpenAI 研究人员发表了《神经语言模型的缩放定律》。这项研究反映了 OpenAI 的理念转变,即需要更多的计算能力、更多的资本,因此也需要不同的企业愿景。
资料来源:AGIWear;Jared Kaplan
微软联合创始人保罗·艾伦 (Paul Allen) 创立的人工智能研究所所长奥伦·埃齐奥尼 (Oren Etzioni)强调了OpenAI 的方向性转变:
他们最初是一家非营利组织,旨在让人工智能普及化。显然,当你获得(10亿美元)资金时,你必须创造回报。我认为他们的发展轨迹已经变得更像企业了。
在达里奥·阿莫迪(Anthropic 首席执行官)的带领下,卡普兰与克里斯·奥拉等 14 位 OpenAI 研究人员于 2021 年创立了 Anthropic 。该公司采取了另类方法,以确保其能够平衡商业化与社会责任。一份关于 Anthropic 创立的报告如此解释其目标:
为了避免商业干预,Anthropic 注册为一家公益公司,并制定了特殊的治理安排,以维护其“负责任地开发和维护先进人工智能,造福人类”的使命。这些安排包括设立一个长期利益委员会,该委员会由与公司或其支持者没有任何关系的人员组成,并将对包括董事会组成在内的事宜拥有最终决定权。
Anthropic 为保持更强的“社会意识”所做的努力主要体现在治理决策上,例如转型成为一家公益公司。然而,该公司正在构建的技术重点更多地集中在确保其模型输出的安全性上。Anthropic 采取的方法被称为“宪法人工智能”。
传统上,像 ChatGPT 这样的法学硕士 (LLM) 会采用一种称为“强化学习”的方法进行训练,该方法基于人类反馈 ( RLHF )。虽然 Anthropic 在2022 年推广了这一术语,但这种做法自2017 年就已存在。明确地针对人类反馈进行优化无疑会让模型更容易被用户接受,但也存在将反馈提供者的偏见融入模型的风险。为了解决这个问题,Anthropic 的方法提供了所需参数的“构成”。该公司这样描述这种方法:
在监督阶段,我们从初始模型中抽样,然后进行自我批评和修改,最后根据修改后的反馈对原始模型进行微调。在[RLHF]阶段,我们从微调后的模型中抽样,用模型评估两个样本中哪个更好,然后从这个AI偏好数据集中训练出一个偏好模型。
资料来源:Anthropic
Jared Kaplan这样解释强化学习的方法:
“该模型通过强化更符合宪法的行为来进行自我训练,并阻止有问题的行为。”
虽然 Anthropic 对人工智能安全的关注似乎更符合开源原则,而非 OpenAI 日益增长的企业优先级,但其人工智能安全方法中的一些元素可能被视为“名义上的开放”。尤其是 Anthropic 对人工智能安全部署的重视,使其变得极其保密。最近对人工智能公司遵守欧盟人工智能法规草案情况的评估将 Anthropic 排在倒数第二,这在很大程度上是由于其在训练数据、能力和评估方面的保密性。
资料来源:斯坦福大学
Anthropic 的部分保密性可以追溯到其文化根源,即其部分创始人和最大支持者的有效利他主义(EA) 意识形态。尤其是 Anthropic A 轮和 B 轮融资的领头人Jann Tallinn和Sam Bankman-Fried (SBF),他们都与 EA 运动息息相关。影响 Anthropic 的最突出的 EA 思想之一是信息危害的概念。信息危害由 EA 哲学家Nick Bostrom于 2011 年提出,是指必须保密的想法,因为传播这些信息可能会造成重大危害。信息危害的一个典型例子是可以帮助某人制造核武器的信息。一个更现代的例子是可以帮助某人构建强大的 AI 系统的信息。从功能上讲,将商业机密标记为信息危害会赋予员工不分享这些信息的道德责任,从而促进一种秘密文化。
即使开源社区中的许多人可能不同意 Anthropic 的做法,他们强调人工智能安全或许是出于好意。通常,当公司使用“人工智能安全”的论点时,其目标通常是追求仁慈的通用人工智能 (AGI)。但这一长期目标也可能被用来为潜在的有害手段辩护。例如,在很多情况下,对计算、应用和进步的竞争迫使人工智能公司放弃了他们仅有的几个安全参数。
尽管包括 OpenAI 在内的许多公司都以安全为由,将自身封闭起来,但一个显而易见的问题是,为了争夺市场份额,竞争的动机可能不那么高尚。安全是更好的营销手段,但竞争或许才是更直接、更强大的诱因。对竞争的恐惧可能是公司远离开源的原因之一。OpenAI 首席科学家兼联合创始人 Ilya Sutskever对 OpenAI 封闭 GPT-4 的决定也表达了同样的看法:
从竞争格局来看,竞争非常激烈。GPT-4 的开发并不容易。OpenAI 几乎花了很长时间才完成这个项目。而且有很多公司也想做同样的事情,所以从竞争的角度来看,你可以将此视为该领域的成熟。至于安全方面,我认为安全因素目前还没有竞争因素那么突出。但这种情况将会改变。
因此,尽管 Anthropic 的初衷可能是好的,但该公司在人工智能安全方面的做法却反映出当前人工智能领域存在的一个更广泛的问题。在那些不致力于开放合作的公司中,为了击败竞争对手而施加的经济激励越多,就越有可能在人工智能军备竞赛中加剧相互毁灭的可能性,而不是通过合作努力为整个人类创造最佳结果。
EleutherAI & “毫不讽刺地与 OpenAI 展开竞争”
Stability AI 不仅声称自己是 Stable Diffusion 的共同创始人,还声称自己在另一个重要项目 EleutherAI 的创建中发挥了关键作用。EleutherAI 可以说是最早的开源人工智能研究小组之一,由Connor Leahy、Sid Black和Leo Gao在Discord上创立。
来源:IEEE
该团队最初于 2020 年 7 月以 Discord 服务器的形式启动,用于复制 GPT-3。2020 年 12 月,EleutherAI 发布了“The Pile”,这是一个用于训练语言模型的多样化文本数据集。2021 年 3 月,该团队发布了 GPT-Neo,随后又发布了包含 60 亿个参数的模型 GPT-J,并于 2022 年 2 月发布了 GPT-NeoX。这三个模型在各自发布时都是规模最大的开源语言模型。
EleutherAI 的模型备受赞誉,一位谷歌大脑的研究科学家表示: “如果没有 EleutherAI 完整公开发布的 The Pile 数据集及其 GPT-Neo 系列模型,我们的研究就不可能实现。” 微软和Meta已使用 EleutherAI 的“The Pile”来训练 AI 模型。EleutherAI 现已成立为非营利组织,并获得了Stability AI 和 Hugging Face 的资助,以及谷歌云研究项目 TPU Research Cloud 和云 GPU 提供商 CoreWeave 的资助。
然而,一篇文章报道称,当 EleutherAI 被问及 Stability AI 和 EleutherAI 之间存在何种官方关联时,其回答是“无”。更令人困惑的是,Eleuther AI 的网站最近开始将 Stability AI 首席执行官 Emad Mostique 列为其董事会成员。EleutherAI 现任首席执行官 Stella Bidderman 在 Discord 上澄清了这一情况,称“Stability AI 是我们的资助者之一,Emad 是我们的董事会成员。”
虽然 EleutherAI 获得了一些拨款和资金,但该公司一直避免筹集风险投资。相反,EleutherAI 的创始人之一 Connor Leahy 后来创立了 Conjecture,并获得了 Nat Friedman、Daniel Gross、Patrick 和 John Collison、Arthur Breitman、Andrej Karpathy 以及 Sam Bankman-Fried 等人的资助。截至 2023 年 7 月,Connor 仍担任 EleutherAI 董事会成员。
像 EleutherAI这样的项目已经证明,高质量的开源人工智能模型是可能的。但更大的问题是,在人工智能军备竞赛中,人工智能领域内部的力量是否会对任何大规模成功的开源项目产生过于不利的影响。
当今人工智能的现状
目前人工智能领域最大的变革来自OpenAI,尤其是来自大型科技公司的回应。2023年4月,谷歌合并了其谷歌大脑和DeepMind团队。据《金融时报》报道,此前独立运营的DeepMind将放弃其“珍视的独立性,以换取对人工智能未来更大的权力和影响力”。另一方面,谷歌大脑一直以来都更直接地商业化,将其工作整合到搜索、广告和翻译中,为“谷歌的盈利做出了重大贡献” 。
2023年2月,谷歌研究院和人工智能高级副总裁杰夫·迪恩(Jeff Dean)制定了一项新政策:“谷歌将充分利用自身的人工智能发现,只有在实验室成果转化为产品后才会分享论文。” 在一个资金雄厚、专注于尽可能多地占领人工智能领域的玩家的世界里,人工智能的重心正趋向于集中式的封闭式格局,而不是合作。
鉴于以往大型科技巨头无法有效处理建设性批评的历史,中心化在人工智能领域尤其危险。2021年3月,Timnit Gebru 和其他谷歌大脑研究人员发表了一篇论文《论随机鹦鹉的危险:语言模型会不会太大?》。该论文探讨了大型语言模型的弊端,包括在广泛的训练数据集中可能出现的偏差。
谷歌表示,格布鲁的论文“对这项新技术的描绘过于悲观”。在积极捍卫该论文后,格布鲁很快被谷歌解雇。一些人认为,人工智能领域需要更好地解决一些问题,例如:
-
偏见:宾夕法尼亚州立大学的研究表明,自然语言处理 (NLP) 模型倾向于将更多负面词汇与残障人士联系起来。《华盛顿邮报》与艾伦人工智能研究所的研究人员合作,调查了谷歌的 C4 数据集,该数据集包含 1500 万个网站,用于训练包括谷歌 T5 和 Meta 的 LLaMA 在内的行业大型语言模型。结果发现了许多反穆斯林偏见的例子、数百个色情网站的例子以及超过 7.2 万个“纳粹党十字记号”的例子。
-
数据隐私:面对监管挑战,OpenAI 于2023 年 3 月 14 日更新了其隐私政策,允许用户删除个人信息。然而,鉴于特定数据一旦嵌入 LLM 后分离起来非常复杂,因此在技术上是否能够执行 GDPR 的“被遗忘权”仍存在争议。OpenAI 对数据使用拥有广泛的权利。出于对敏感数据的担忧,这导致三星和摩根大通等公司彻底禁止员工使用 ChatGPT 等工具。
这项技术的威力显而易见,但其固有问题也同样需要解决,例如权力集中、审查制度和数据所有权。封闭式的单体式中心故障点只会增加这些问题在得到改善之前恶化的可能性。
有时,监管可以有效制衡权力的集中化。在2023年5月4日与拜登政府的一次会议上,行业主要参与者谷歌、微软、OpenAI、Stability AI、NVIDIA、Hugging Face和Anthropic同意开放其人工智能系统供公众评估,以“探索这些模型如何与拜登-哈里斯政府的《人工智能权利法案》和《人工智能风险管理框架》蓝图中概述的原则和实践保持一致”。
美国政府还向国家电信和信息管理局 (NTIA)发出了全国范围的请求,收到了包括上述参与者在内的 1.4 万份回复。Anthropic 发布了题为“规划 AI 问责之路”的建议,呼吁采取诸如建立大型 AI 训练运行的预注册、风险评估以及在模型发布前强制进行外部红队测试等措施。OpenAI 的回应则提出了详细的建议,例如红队测试、定量模型评估、评估危险能力以及“高性能”基础模型的注册和许可。
OpenAI 提出的解决方案甚至比国家监管更进一步,建议成立一个国际管理机构来监管人工智能相关的风险。在一篇题为《超级智能治理》的文章中,Sam Altman、Greg Brockman 和 Ilya Sutskever 建议:
“……我们最终可能需要一个类似国际原子能机构的机构来开展超级智能工作;任何超过一定能力(或计算等资源)阈值的努力都需要接受国际机构的监管,该机构可以检查系统、要求审计、测试是否符合安全标准、限制部署程度和安全级别等。”
然而,尽管监管有助于维持人工智能领域的权力平衡,但它也常常被用作保护现有参与者的壁垒,并使新进入者更加难以取得成功。仅在 2023 年第一季度,OpenAI 就与许多其他公司、大学和行业协会一起,在游说活动上投入了总计9400 万美元。OpenAI 进行了一次大规模的多国巡演,尤其是在欧盟,以推动其人工智能监管更加“淡化”,尤其是在与 OpenAI 相关的方面。正如斯坦福大学以人为本人工智能研究所的国际政策研究员 Marietje Schaake 所描述的那样:“来自像 OpenAI 这样的关键利益相关者的任何及所有建议都应该从以下角度来看待:这对他们的利润意味着什么?”
权力集中
毋庸置疑:早在当前人工智能繁荣之前,科技行业就已经高度集中。截至2021年底,苹果、亚马逊、微软和Meta等大型科技股占据了罗素1000增长指数(该指数追踪美国大盘股)的39%。将OpenAI仅仅视为类似Stripe或Airbnb的又一个大型初创企业的成功案例是错误的。OpenAI与微软的财务关系使其地位独一无二。微软向OpenAI投资的数十亿美元导致了OpenAI团队内部的分裂,这不仅是因为资金规模巨大,更是因为这笔资金来自科技行业的一家大型垄断企业。
随着 OpenAI 越来越保护其竞争地位,该公司将努力控制更多生态系统。例如,OpenAI 于 2023 年 4 月尝试为“GPT”一词申请专利,以保护与其产品(例如 ChatGPT)相关的品牌知名度。但是,除了简单的思维集中之外,如果生态系统中的大部分都集中在一个参与者手中,还会对技术产出产生实际的负面影响。Hectiq.ai的首席科学家兼联合创始人Martin Laprise这样解释依赖集中模型的危险:
“考虑到人们将部分思考过程委托给‘某事’的长期后果,这已经有点令人不安了,现在想象一下,他们又将这个过程委托给一个由一小群策展人严格控制的集中模型。”
Laprise 的担忧源于对多样化 RLHF 的需求,RLHF 是指利用人工反馈来强化模型学习的过程。如果依赖外部模型进行训练,那么由于只有一小部分有偏见的策展人提供人工反馈,任何潜在的输出都会受到限制。在《华尔街日报》的一篇评论文章中,Peggy Noonan 就AI 生态系统的潜在拥有者提出了以下观点:
业内人士都承认,人工智能的发展不仅缺乏管控,甚至连管控的计划都没有。硅谷的缔造者们才是真正的掌控者。他们对待工作的道德底线又如何呢?机器智能研究所负责人埃利泽·尤德科夫斯基在《时代》杂志上指出,微软首席执行官萨蒂亚·纳德拉今年2月曾公开吹嘘,他的新必应人工智能将让谷歌“站出来展示他们的舞蹈天赋”。我想让人们知道,是我们让他们“舞动起来”的。尤德科夫斯基先生说:“在理智的世界里,微软首席执行官可不会这么说。”
中心化不仅仅引起意识形态自由主义者的担忧。单点故障的后果令人担忧,原因有很多。任何一家公司都面临意外泄露公司机密信息,或因漏洞而暴露个人用户数据的风险。用户群越大,此类泄露的危害就越大。
来源:Twitter
与这些大型中心化 AI 参与者截然相反的是开源 AI 的最大支持者,例如Hugging Face首席执行官Clement Delangue,他曾在国会作证。Delangue 在概述他的证词时表示:
开放科学和开源人工智能通过赋能数十万家小公司和初创企业,使其能够运用人工智能进行开发,从而实现经济收益的分配。它促进了创新,并促进了所有企业之间的公平竞争。得益于道德的开放性,它为人工智能的发展开辟了一条更安全的道路,赋予了公民社会、非营利组织、学术界和政策制定者所需的能力,以平衡大型私营企业的权力。开放科学和开源人工智能能够防止黑箱系统,提高企业的责任感,并帮助解决当今的挑战,例如减少偏见、减少虚假信息、保护版权,以及在价值创造过程中奖励所有利益相关者,包括艺术家和内容创作者。
在国会作证之前,德兰格和Replit *首席执行官阿姆贾德·马萨德在一次会议上讨论了人工智能面临的最大风险。德兰格这样描述现实与叙事之间的脱节:
我个人认为,当今人工智能面临的主要风险是权力的集中。这些技术非常强大,要想让它们在社会中可持续地应用,我们需要让更多人了解它们的工作原理,了解它们的训练内容,并了解如何限制和缓解它们的影响。我们的使命一直是提高[人工智能]的透明度,否则这些技术就会闭门造车。这会导致一种完全脱离现实的叙事。它们有点像被美化的自动完成功能,同时在公共领域……你会看到人们将它们描述为将接管并摧毁世界的东西。在我看来,这是由于缺乏透明度以及对这些技术如何构建的教育造成的。
马萨德继续解释了人们对人工智能的一些主要担忧,以及这些担忧是如何被这些大型中心化参与者所引发的:
很多安全担忧源于炒作。这些大公司是炒作的受益者。从某种意义上说,他们是焦虑的受益者。例如,微软研究院拿到了GPT-4的早期版本,写了一篇论文,称其为“与通用人工智能的首次接触”。然后他们又把它改成了“AGI的火花”。他们把……研究当成了营销机会。他们把这个系统宣传成通用人工智能,然后又煽动那些一直在谈论AGI问题的人们的恐惧。这正在创造一个非常有害的环境,对他们来说,这是营销,但对很多人来说,这关乎生死。
最后,德兰格指出,过度关注通用人工智能这一更大、更可怕的威胁,也会影响世界对这一技术进步的看法。与其说是理解,不如说是担忧:
通过关注(AGI 的威胁),我们将公众的注意力集中在一些尚未发生、甚至可能永远不会发生的事情上。而我们却忽略了当今真正的挑战,例如偏见、错误信息、缺乏透明度或权力控制。
应对人工智能威胁的措施范围之广,如同开源与封闭之间的做法范围之广。在推特上,《科技冲击》(The Techlash)一书的作者Nirit Weiss-Blatt和 Hugging Face 的人工智能研究员Sasha Luccioni合作制作了一张人工智能安全谱的可视化图表,分享了他们对一些杰出人工智能贡献者的看法。
资料来源:Twitter;相反的研究
Weiss-Blatt 将这个光谱称为“人工智能恐慌促进因素的分类”。她进一步解释了这些类别:
-
恐慌如生意:“我们告诉你们,你们都会死于神一般的人工智能……所以你们必须听我们的。”
-
人工智能恐慌营销:“我们正在构建神一样的人工智能,但它也可能是一个怪物……除非你投资我们来驯服这个怪物。”
-
有关专家表示:“我们不太相信X风险,但想对所有潜在危害发出警告。”
-
人工智能伦理:“X风险恐慌分散了我们对与人类灭绝无关的实际/当前危害的注意力(例如偏见、错误信息)”
开源人工智能的支持者经常指出,更高的开放性能够更有效地应对人工智能问题。Amjad Masad 和 Clement Delangue 之间的讨论延伸到了如何在大公司更加开放的愿望与避免大型语言模型在不良行为者中泛滥之间取得平衡。曾在 OpenAI 工作、现就职于 Hugging Face 的Irene Solaiman在一篇论文中提出了这样的观点:
“在 GPT-2 等互联网规模的语言模型中发现的偏见代表了该模型训练所依据的数据……我们预计,互联网规模的生成模型将需要越来越复杂和大规模的偏见评估。”
Meta 首席人工智能科学家Yann LeCun在 Twitter 上讨论了同一话题,讨论了大型企业通过封闭的方式推进自身议程的优点,以及技术开放时进步的快速增长。
来源:Twitter
这些模型越开放,它们所展现出的偏见就越容易受到审视。训练数据越封闭,这些偏见就越难以理解。封闭生态系统的这些局限性也为不良行为者创造了可乘之机。开放性提供了一种平衡机制,确保各种规模的优秀参与者都能发挥更大的能力。
审查制度
权力集中也可能导致审查制度更加容易。当大型组织能够有效地审查个人和系统能够使用的信息时,这将对决定这些人和系统未来的思维方式产生重大影响。语言相对论原理(也称为沃尔夫主义)提出了一个假设,即语言的结构会影响甚至决定个人感知和思考世界的方式。
随着人工智能系统逐渐囊括我们大部分数据,这些系统的输出将开始塑造人们对现实的理解。一些著名的哲学家曾探讨过语言、理解和权力之间的这种密切关系。法国理论家吉尔·德勒兹和菲利克斯·瓜塔里在他们的著作《千高原》中写道:“母语并不存在,只有在政治多元性中,一种主导语言对权力的掌控。” 德国哲学家路德维希·维特根斯坦的表述更为直白:“你的语言的局限,就是你的世界的局限。”
鉴于ChatGPT才刚刚问世,人工智能系统可能对现代语言和行为产生影响的想法本身可能显得有些极端,但人工智能模型的强大功能意味着它们能够迅速普及。尽管语言一直以来都受到诸多影响,但世界从未见过能够从根本上影响语言的技术,尤其是由少数几家公司控制的技术。
在更广泛的虚假信息领域,出现了一个新词——恶意信息(Malinformation),它是“恶意软件”和“虚假信息”的结合体。该词的一个定义是:“恶意信息既包含故意的成分,又包含对他人有害的内容,但同时也包含真实性。”《话语杂志》(Discourse Magazine)的一篇文章探讨了公众对新冠疫情、疫苗的争论,以及政府、媒体和推特等大型科技公司试图控制虚假信息传播的方式:
将真实信息描述为‘恶意’,已经落入了规范公共言论的灰色地带。这种说法假设公众容易受骗,容易受到言语伤害,因此需要权威机构的监督和过滤故意制造伤害的事实……这种说法完全没有将恶意或伤害纳入虚假信息的定义中。更确切地说,“恶意”指的是真实的信息,只是从引导公众走向某个方向的人的角度来看,这些信息是不受欢迎的、具有“误导性”的。换句话说,虚假信息就是错误的真相。
“不受欢迎的”真相的概念开始与乔治·奥威尔在《一九八四》中探讨的“新闻言论”和思想犯罪的概念惊人地相似。人工智能系统要对社会对现实的认知产生普遍影响,可能还需时日。但像微软这样的大公司已经在产品捆绑和分销方面展现了其优势。
因此,大型中心化组织利用其人工智能系统的分布式特性来更有效地控制公共话语,并非异想天开。对抗审查制度的能力取决于一种高效且分布式的制衡机制。这种制衡机制不太可能来自一个强大且同样中心化的参与者。相反,它更有可能来自相关方赋能的长尾效应。
正如 Hugging Face 的克莱门特·德兰格 (Clement Delangue)在国会作证时所描述的那样,“开源人工智能……赋予了公民社会、非营利组织、学术界和政策制定者所需的能力,以平衡大型私营企业的权力。” 长尾组织和个人拥有的权力越大,单一视角的集中式组织就越难以占据主导地位。
数据所有权
最后,现实情况是,语言和图像模型代表了人类语言和文化有史以来最伟大的融合。每个模型都基于现有的语言和图像进行训练。数据越多,结果就越好。数据仍然是推动人工智能革命的“新石油”。但由于这种依赖性,人们不禁要问,这些系统将如何管理底层数据,并确定其所有权和信用。
例如,Midjourney 和 Stability AI 因未经艺术家同意从互联网上抓取其图像并将其用于训练图像模型而被起诉。Midjourney 的首席执行官 David Holz 在被问及此事时并没有给出很好的回应,他表示: “艺术界已经存在抄袭问题。我不想卷入其中。” 同样,Getty Images 也起诉Stability AI 使用其库存照片来训练模型。微软和 OpenAI 也因其 Copilot 产品的编码代码未经同意使用数百万个 GitHub 代码库进行训练而受到抨击。
其他公司,例如Reddit,尚未采取法律行动。但他们正在积极推动那些利用这些网站数据进行 LLM 训练的公司付费获取访问权限。一些互联网上最有价值的数据源(例如 Reddit 和 Twitter)对互联网数据抓取的抵制,导致 The Verge 称之为“网络社交时代的终结”。Reddit 首席执行官史蒂夫·霍夫曼表示:
Reddit 的数据确实很有价值。但我们不需要把所有这些价值都免费提供给世界上一些最大的公司。
Reddit 试图通过提高第三方 API 访问价格来收回成本,这引发了大规模用户抗议,超过7000个子版块被屏蔽,谷歌的搜索结果也明显下降。Twitter 也采取了类似的举措,埃隆·马斯克引入了新的登录和速率限制,“以解决极端的数据抓取和系统操纵问题”。这导致Twitter 在 2023 年 7 月的第一个周末出现严重中断和错误,而Bluesky等 Twitter 竞争对手的注册人数也创下了历史新高。
从 GPT 的早期版本可以清楚地看出,开放互联网网站占据了法学硕士(LLM)训练数据的绝大部分。例如,GPT-3 的训练数据来源包括Common Crawl和 Webtext2,其中大部分数据来源于从 Reddit 抓取的超链接。
来源:语言模型是少数学习者
更多像 Reddit 这样的提供用户生成内容 (UGC) 的公司将被迫尝试将其内容的访问权货币化。热门开发者问答网站Stack Overflow的首席执行官 Prashanth Chandrasekar曾表示:
“为法学硕士项目提供支持的社区平台绝对应该得到补偿,这样像我们这样的公司就可以重新投资于我们的社区,继续促进社区的繁荣发展。”
接受用户生成内容 (UGC) 训练的法学硕士 (LLM) 将会损害许多企业的内容飞轮,这可能会导致互联网上可供未来法学硕士 (LLM) 训练的人工生成内容减少。数据所有权和使用问题将变得越来越复杂。人工智能公司对其模型训练数据越不透明,这类归因就越难以理解和有效管理。
更糟糕的是,像 OpenAI 和 Anthropic 这样的领先人工智能公司已经开始限制其自身成果用于训练其他法学硕士的数量。随着这些复杂的问题迫使人工智能变得越来越封闭,真正的开源人工智能究竟会是什么样子呢?
构建开源人工智能
人工智能政治指南针
随着该领域的发展越来越快,每家公司都被迫沿着新兴的理念路线进行自我定位。自从Jared Kaplan和OpenAI团队发布《神经语言模型的扩展定律》以来,开启了“规模就是一切”的时代。不同的公司在决定如何获取足够的计算资源时,不得不根据自身认为所需的财务资源,以不同的方式进行调整。
一家公司的开放程度,以及他们对人工智能带来的机遇与风险的关注程度,都是有待商榷的细节。OpSci研究主管Alexander Doria阐述了他对不同平台各自优劣的看法。
来源:Twitter
虽然这种格局只是个人对每家公司定位的看法,但随着各家公司在如何协调自身战略方面做出越来越多的不同选择,意识形态光谱这一更广泛的概念实际上已经存在。然而,一个仍在快速演变、可能影响每家公司的动态是,对规模和业绩的关注方式正在持续变化。
虽然 OpenAI 和 Anthropic 等封闭平台生成的模型通常仍在大多数性能基准测试中名列前茅,但开源提供商也提供了令人印象深刻的演示。像Guanco或Vicuna (基于LLaMA构建的开源聊天机器人)这样的开源模型,与当前领先者 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列的封闭模型相比,具有竞争力。
资料来源:LMSys 排行榜;相反的研究
Vicuna 出自大型模型系统组织 (LMSO),该组织是由伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学的学生和教师组成的研究合作项目。LYMSYS 以300 美元的价格,利用7 万条用户共享的 ChatGPT 对话训练了 Vicuna-13B,证明了利用其他模型的输出进行模型训练的可行性。
其他开源项目,例如 AutoGPT,正在将基础模型与不同的方法相结合,以创建新的功能。AutoGPT 将 GPT-4 的“思维”串联起来,使其能够自主实现用户设定的任何目标,就像一种AI 代理一样。AutoGPT 于2023 年 4 月 1 日火爆一时,截至 2023 年 6 月,其GitHub 星标已超过 13.2 万颗,成为有史以来排名第 29 位的开源项目。该项目已经实现了递归调试甚至自我改进等功能。
研究人员还在构建开源数据和基础设施,以确保完全开源的人工智能能够与行业模型相媲美。该领域的领导者是RedPajama ,它是人工智能研究人员于2022 年 6 月创立的初创公司 Together与 Ontocord.ai、ETH DS3Lab、斯坦福 CRFM、Hazy Research 和 MILA Québec AI Institute 合作推出的。他们的第一步是在2023 年 4 月发布 RedPajama 基础数据集,旨在复制 Meta 的 LLaMA 数据集。截至 2023 年 6 月,这个5 TB 的数据集已被“下载数千次,并用于训练超过 100 个模型”。
大型企业已经注意到开源法学硕士 (LLM) 和工具的强大力量。2023 年 6 月,Databricks以 13 亿美元收购了MosaicML。MosaicML 此前构建了一个名为 MPT-7B 的热门开源法学硕士 (LLM),下载量高达 330 万次。虽然 Databricks 主要以数据分析和管理平台而闻名,但收购 MosaicML 标志着该公司迈向人工智能开放的一步。在宣布此次收购时,Databricks 联合创始人兼首席执行官 Ali Ghodsi这样描述公司的动机:
每个组织都应该能够从人工智能革命中受益,更好地控制其数据的使用方式。Databricks 和 MosaicML 拥有实现人工智能民主化的绝佳机会……Databricks 和 MosaicML 的共同愿景植根于透明度和开源贡献的历史,这将在我们的客户应对我们这个时代最大的计算革命的过程中为他们创造价值。
大多数大公司不太注重人工智能的民主化,而是专注于控制它的策略。像 Databricks 这样的公司一直秉持开源精神,但它并非唯一一家致力于确保当前革命尽可能保持开放的大公司。
开源的拥护者
说到目前涉足人工智能领域的大公司,它们中的大多数都拥有独特的优势,能够利用当前的人工智能热潮,因为它们出售的是法学硕士的“镐和铲子”:云计算。OpenAI 的最大投资者微软拥有 Azure,其业务价值高达340 亿美元。同样,谷歌也拥有其谷歌云平台,其业务价值高达260 亿美元。虽然微软已经向OpenAI投资了数十亿美元,更不用说Inflection AI或Adept AI了,但谷歌也投资了Runway和Anthropic等公司。但对于这些超大规模的云计算巨头来说,这些投资中的大部分都可以转化为其云计算业务的收入。
Meta 的独特之处在于它不提供云计算服务。相反,该公司与 AWS建立了“战略合作伙伴关系”,并在4000 万平方英尺的自有数据中心投资了200 亿美元。Meta 的独特之处还在于它决定开源其基础的 650 亿参数大型语言模型LLaMA 。除了发布模型之外,Meta 还发布了模型的权重。《纽约时报》的一篇文章描述了这样做的好处:
分析所有这些数据通常需要数百个专用计算机芯片和数千万美元的资金,而大多数公司并不具备这些资源。那些拥有这些资源的公司可以快速、轻松且廉价地部署软件,其成本仅为开发如此强大软件所需成本的一小部分。
同一篇文章引用了Meta 首席人工智能科学家 Yann LeCun 的话,解释了 Meta 在人工智能方面的开放态度:
最终胜出的平台将是开放的平台……开放的平台进步更快。这样你就拥有了一个更有活力的生态系统,每个人都可以做出贡献。
马克·扎克伯格在 2023 年 6 月的一次采访中进一步解释了这种方法,他对Meta 方法的评论听起来与 OpenAI 最初恳求那些更有兴趣为更多开放项目做出贡献的人工智能人才的呼吁非常相似:
Meta 在人工智能开发方面采取了相当开放和学术的态度。部分原因是我们希望吸引世界上最优秀的人才来研究这个问题,而很多顶尖人才都希望能够分享他们的研究成果。
扎克伯格继续描述了他的相反观点,即开源最终是构建人工智能最安全的未来的方式:
我认为,如果开源技术没有得到更广泛的普及,少数组织拥有它并不能为世界带来最好的服务。而且我认为,回顾历史,你会发现,正是在存在这些……权力失衡的时候,才会出现一些奇怪的局面。所以,这就是我认为开源通常是正确的方法之一。确保系统尽可能安全可靠的最佳方法之一就是开源,因为这不仅仅是让很多人能够访问它,而是构建开源系统所带来的审查。
Meta 决定开源其 LLM 模型时,最初仅持有研究许可证,这意味着开发者无法将该模型商业化用于付费用例。该公司正在考虑将该模型商业化,但不得不考虑责任方面的问题,例如,模型训练数据集中可能包含版权内容。然而,扎克伯格认为,这非但不会限制 Meta 的竞争力,反而会让 Meta 的所有产品都拥有一个“AI 代理”,而“LLaMA……基本上将成为驱动这一切的引擎”。
Meta 将自己定位为开源的捍卫者,其策略与谷歌和微软截然不同。但这并非 Meta 第一次在机器学习领域与谷歌交锋。
2015 年 11 月,谷歌大脑团队发布了名为 TensorFlow 的机器学习框架。不久之后,Facebook 的人工智能研究团队于 2016 年 10 月发布了类似的框架 PyTorch。虽然 TensorFlow 最初更为常用,但 PyTorch 已逐渐占据机器学习领域的主导地位,并成为OpenAI 基础设施的核心支柱。2022 年 6 月,一篇文章概述了谷歌推出名为 Jax 的新框架的举措,实际上暂时将机器学习领域的主导权拱手让给了 Meta:
在对开发者、硬件专家、云服务提供商以及接近谷歌机器学习项目的人士的采访中,他们的观点一致。TensorFlow 已经输掉了开发者的心智争夺战。其中一些人甚至主动说出了同样的话:“PyTorch 抢走了 TensorFlow 的饭碗。”
尽管 Meta 对开源 AI 的支持力度巨大,但迄今为止,构建 AI 模型的一个重大障碍是规模。如果拥有最多数据和计算能力的大型公司各自为政,那么竞争将变得十分困难。但现实情况是,构建 AI 的成功将越来越不仅仅取决于规模。
规模并非唯一重要
2020年1月发表的《神经语言模型的缩放定律》论文,重点阐述了基础模型规模越大,效果越好这一观点。例如,斯坦福大学基础模型研究中心发布了一项基准测试——HELM(大型模型整体评估),该测试发现,最适合情境学习的模型规模越大。
大型模型在不同任务上也展现出突破性的涌现能力。涌现可以被认为是量变逐渐增加,导致质变显著变化的现象——常见的类比是水超过冰点变成冰。论文《大型语言模型的涌现能力》展示了诸如 OpenAI 的 GPT-3 和谷歌的 LaMDa 等模型如何在 10^22 个参数左右的各种任务上展现出突破性的性能。
资料来源:谷歌
然而,更大的模型需要更多的数据来训练,DeepMind 具有里程碑意义的Chinchilla论文提出了一套新的缩放定律,这比最初的“神经语言模型的缩放定律”论文预测的数据要多得多。Replit* 最近于 2023 年 4 月发布了一个代码补全模型,其发展更为深入。该模型基于 27 亿个参数进行训练,性能比同类模型高出 40%。
这些关于 LLM 扩展的新见解解释了 Sam Altman所说的“我认为我们正处于一个巨型模型时代的终结,我们会用其他方式让它们变得更好”的原因之一。打造了全球最大计算机芯片的初创公司 Cerebras Systems曾散布谣言,称 OpenAI 的 GPT-4 将拥有 100 万亿个参数。这引发了推特上的一个疯传,但 Sam Altman否认了这一说法,称其“完全是胡说八道”。
原因显而易见——根据最新的缩放定律,一个拥有 100 万亿个参数的模型所需的数据量将比GPT-3 多4000倍,这是一项艰巨的任务,触及了互联网上公开数据的基本极限。研究人员在一篇名为《我们会耗尽数据吗?机器学习中数据集扩展极限的分析》的论文中发现,我们可能在 2024 年左右耗尽公开数据。目前高质量数据集的规模约为几 TB,而根据 Chinchilla 缩放定律,一个拥有 100 万亿个参数的模型需要的数据量估计为180 PB。
来源:EpochAI
与此同时,规模较小的开源人工智能公司也蓬勃发展。一份来自谷歌高级工程师的备忘录,题为《我们没有护城河,OpenAI 也没有》,于 2023 年 5 月 4 日泄露,并在硅谷“广为流传”。备忘录指出:
令人不安的事实是,我们并没有能力赢得这场军备竞赛,OpenAI 也是如此。就在我们争吵不休的同时,第三方势力却悄悄地蚕食着我们的利益。当然,我说的就是开源。
作者认为,“当免费、不受限制的替代品的质量相当时,人们不会为受限制的模型付费”,并附有图表,表明开源模型的开发速度非常快,间隔时间为一到两周。
资料来源:SemiAnalysis
然而,这一立场遭到了人工智能研究人员的批评。多位研究人员指出,上图是对使用 GPT-4 的开源模型的评分。Anthropic 的斯坦福大学博士 Jesse Mu 在推特上回应道:
引用的语言模型评估具有误导性:它们衡量的不是前沿能力,而是一个非常狭窄的任务分布。声称封闭式语言模型没有护城河的说法,一定是在实际的知识工作中评估开源软件模型,而不是像‘给一家餐馆命名’这样的问题。
人们不再无休止地追求通用模型的更多参数,而是将重点转向通过除扩大规模之外的其他方式,寻找这些模型的有效改进。例如,Snorkel AI 研究员 Stephen Bach发表了一篇名为《多任务提示训练助力零样本任务泛化》的论文。“零样本学习”是一种即时工程方法,它使模型能够学习从未有过训练数据的任务。
来源:Snorkel AI
Snorkel AI 首席执行官 Alex Ratner总结了Bach 及其团队所做的工作,“通过整理多任务训练数据集,他们能够获得一个比 GPT-3 小 16 倍的模型,并且在一系列基准任务中表现优于 GPT-3。”
另一种以较少计算量实现类似性能的方法是通过针对特定任务的训练和模型压缩。例如,GPT4All是一个压缩语言模型,可以在仅配备 4GB RAM 和 CPU 的边缘设备上运行。使用经过微调的 GPT4All 版本可以降低将语言模型应用于特定任务的成本。
来源:GitHub,截至 2023 年 6 月 28 日
除了提升单位计算成本之外,像 GPT4All 这样的开放模型还提供了 AI 技术的透明度和可访问性。由于其代码和数据公开,任何人都可以审核模型的创建过程。此外,由于它们可以在资源匮乏的系统上运行,因此即使没有稀缺的GPU 硬件,也能让那些无法获得该技术的人受益。
AI 的 Linux 时刻
开源模型引发的关注和热度的激增,促使斯坦福大学人工智能实验室教授 Chris Ré宣布: “人工智能正在迎来它的 Linux 时刻。” 正如 Chris Ré 在他对 Linux 的类比中所说:
一群开源黑客聚集在一起,构建了一个免费提供的操作系统……巨头微软凭借Windows继续拥有庞大的用户群,并打造出人们梦寐以求的优秀产品,但开源在计算领域也发挥了巨大的作用。开源采用宽松的许可方式,让更广泛的人群能够参与重要计算工具的开发;它还打破了各种壁垒,让更多人能够以各种方式使用技术。我们能否在人工智能领域做到同样的事情(甚至做得更好)?我们或许需要在看待开源软件方面开辟新天地,并重新思考这场运动在人工智能系统背景下的意义。
开源社区为开源数据集做出了重大贡献。例如,LAION-5B 是一个包含超过 50 亿张图像的数据集,用于训练图像模型,其报道标题为“人工智能的未来取决于高中教师的免费数据库”。EleutherAI 发布了The Pile,这是一个高质量的数据集,用于训练许多领先的开源模型。人工智能社区浓厚的开源文化催生了Hugging Face等平台,其中心和库托管着开源模型以及用于训练它们的开源数据集。
正如泄露的谷歌备忘录所指出的,自 Meta 于 2023 年 2 月 24 日发布LLaMA 以来,开源人工智能活动在今年迎来了爆发式增长。LLaMA随后于 2023 年 3 月 3 日被泄露,引发了广泛的实验。2023 年 3 月 13 日,斯坦福大学发布了Alpaca ,并引入了一个名为alpaca-lora 的库,使用一种名为低秩微调的微调方法,允许个人在消费级硬件上微调模型。到 2023 年 3 月 18 日,LLaMA 已可在MacBook CPU 上运行。所有这一切在不到一个月的时间内完成。
大型公司也有动力推广开源模型。Databricks于 2023 年 4 月推出了Dolly 2.0,这是一个完全开源的法学硕士 (LLM),Databricks 声称其训练成本不到 30 美元。Databricks收购的模型训练平台 MosaicML 于2023 年 5 月开源了 MPT-7B ,这是一系列基于 1T 代币训练的可商用法学硕士 (LLM),其质量与 Meta 泄露的 LLaMA-7B 模型(未获得商业使用许可)相当。
正如马克·扎克伯格在 2023 年第一季度 Meta 财报电话会议上指出的那样:
我认为我们这样做的原因是,与该领域的其他一些公司不同,我们不销售云计算服务,我们试图将我们正在构建的各种软件基础设施保持专有。对我们来说,如果行业能够对我们所使用的基本工具进行标准化,那就更好了,这样我们就可以从其他人所做的改进中受益,而其他人使用这些工具,在某些情况下,比如开放计算,可以降低这些工具的成本,从而提高我们的业务效率。所以我认为,在某种程度上,我们在基础设施方面的策略与谷歌、微软或亚马逊等公司不同,这为我们创造了不同的激励机制。
扎克伯格的这一观点促使 Stratechery 的 Ben Thompson 提出了这样的论点:
“这个现实之所以引人注目,以及我之所以关注扎克伯格在那次电话会议上的评论,是因为 Meta 具有独特的优势,可以克服开源的所有限制,从训练到验证,从 RLHF 到数据质量,正是因为该公司的商业模式并不依赖于拥有最好的模型,而仅仅依赖于世界上拥有大量的模型。”
各种开源模型的激增带来了诸多好处,但仅仅拥有功能性是不够的,还必须拥有广泛的用途。核心机遇在于快速改进,使开源人工智能更加可用——水涨船高。但除此之外,开源还对安全以及权力和影响力的平衡产生了影响。Snorkel AI 首席执行官、华盛顿大学机器学习教授 Alex Ratner 提出了这样的观点:
“我们正在从 GPT-X 转向 GPT-You。特定领域的个性化定制已经出现,例如面向医生的PubMedGPT、面向律师的Pile of Law,以及面向金融的BloombergGPT(或FinGPT )。像alpaca-lora这样的库的出现,让个性化访问变得民主化,允许消费级硬件用户定制自己的模型。用户将能够将自己的价值观和行为融入模型中。”
模型和数据所有权也是一个问题。企业通常不愿将其私有专有数据交给像 OpenAI 这样的公司。相反,企业正尝试根据自身用例定制预训练模型。Numbers Station 联合创始人兼首席科学家 Ines Chami指出,他们为企业创建并部署了规模更小、更专业的模型:
“个性化并根据组织调整模型非常重要……我们的想法是生成特定于组织的答案,因此我们使用微调技术和反馈。”
大型模型的使用成本也很高。Numbers Station在一篇博客文章中指出,尖端模型“通常拥有数十亿个参数,服务成本高达数百万美元。在最佳情况下,对 100 万行较短的上下文用户数据进行推理的成本可能高达 3.7 万美元。” 他们声称,可以生产出比现有模型小 800 倍、成本低 2275 倍的模型,同时保持相同的质量。
布朗大学教授 Stephen Bach与 Snorkel AI合作,开发出了一个经过微调的 GPT-3 法律分类模型。他们声称,该模型的质量与 GPT-3 相同,但体积却缩小了 1400 倍,生产运行成本仅为 GPT-3 的 0.1%。GPT4All 也提供了类似的机会,只需极少的计算资源即可实现高质量的性能。
如果人工智能真正是第四次工业革命,那么它就需要让每个人都能使用,无论成本、地域或政治立场如何。我们需要消除技术和信息的障碍。并非每个人都拥有GPU,甚至并非每个人都拥有互联网!数据创建者和模型创建者之间需要有一致的激励机制,以确保那些贡献数据构建模型的人能够获得其价值的归属和补偿。
理想的解决方案将打破快速和普遍采用过程中存在的许多障碍:
-
消除信息壁垒:数据和代码均开源。这需要用于观察、讨论和整理数据的工具来训练模型。这不是一个黑匣子,而是一个可理解且可追溯的模型。模型还应该能够“隔离”运行,确保敏感数据永远不会离开用户的系统。
-
消除意识形态障碍:需要有一个民主的程序来决定一个模型能说什么、不能说什么。如果我们要审查通用系统,那么就需要就这些控制措施达成一个普遍的妥协,而不是由最强大的科技巨头颁布一套单一的规则。不同的群体应该采用不同的模型。
-
消除技术壁垒:模型不应该、也不能继续依赖庞大的基础设施来运行。只有能够利用低功率机器在本地运行这些模型,才能实现该技术的普及。
-
消除地理障碍:特定模型的管理者需要找到方法,让世界各地的人们都能访问他们的模型。即使没有互联网,也必须有一种方法让模型得以传播。
* Contrary 通过一个或多个附属公司投资 Nomic 和 Replit。
附录
真正开放的人工智能格局概述
资料来源:Contrary Research
人工智能简史
