加速中的数据战争
AI 训练数据即将枯竭
大多数人刚开始消化OpenAI的发布内容,谷歌I/O就用他们自己的一系列发布抢走了至少一部分AI世界的风头。总的来说,多模态演示非常出色,突显了我们正在经历的无与伦比的创新速度。与《她》的比较是不可避免的,只是时间问题,高度智能化、个性化的助手将出现在我们所有人的口袋中(为了苹果的利益,我们的设备将需要足够的RAM来在设备上运行这些助手)。
在此背景下,数据战争愈演愈烈。
数据枯竭近在眼前

关于Llama 3 8B在15万亿个标记上训练的讨论已经很多,远远超过了Chinchilla的最佳水平。正如Sebastian Raschka博士所写:
这是一个非常有趣的发现,因为正如Llama 3博客文章所指出的,根据Chinchilla的比例定律,对于一个拥有80亿参数的模型来说,最佳的训练数据量要小得多,大约是2000亿个标记。此外,Llama 3的作者观察到,无论是80亿还是700亿参数的模型,即使在15万亿的规模上也表现出了对数线性的改进。这表明我们(即研究人员)可以通过超过15万亿个标记的更多训练数据进一步提升模型。
这种对数据比例定律的确认进一步突显了用于模型训练的数据即将枯竭的问题。

来源:Stanford AI Index
高质量的训练数据显然是许多新模型(包括微软的SLM和Phi-3)表现出色的背后原因。在他们的技术报告中提到:
我们遵循“Textbooks Are All You Need” [GZA+ 23] 中的工作序列,利用高质量的训练数据来提高小型语言模型的性能,并偏离标准的扩展定律。在这项工作中,我们展示了这种方法允许仅用3.8B总参数(而Mixtral例如有45B总参数)就能达到像GPT-3.5或Mixtral这样高性能模型的水平。
与之前在“计算最优模式” [HBM+ 22] 或“过度训练模式”下训练语言模型的工作不同,我们主要关注在给定规模下数据的质量。
任何种类的数据,高质量或低质量,都在迅速枯竭,这对未来几代LLM/SLM有影响。
Alexandr Wang 正确指出,合成数据不会成为许多人希望的灵丹妙药。过度依赖合成数据而非人类生成数据会导致“模型崩溃”,即模型可能逐渐忘记真实的基础数据分布,产生狭窄范围的输出。

应对数据壁垒
鉴于基础模型已经耗尽了互联网上的大部分数据,数据合作伙伴关系成为研究实验室核心GTM功能是不可避免的。
当你考虑到谷歌、Meta和微软相对于Anthropic、OpenAI等公司的领先优势时,这一点就更加紧迫了。

来源:Morgan Stanley
上周,OpenAI的首选出版商计划的一个演示文稿据称被泄露,揭示了与内容平台达成交易的一些机制(OpenAI最近与Reddit、Axel Springer、金融时报等多个平台达成了合作)。
首选的“高质量编辑合作伙伴”将在聊天对话中获得优先展示和“更丰富的品牌表达”,以及更显著的链接处理和财务激励。作为回报,OpenAI可以使用出版商的内容进行训练,并授权在ChatGPT中展示这些内容(特别是当代数据,这在数据不断变化的情况下尤为关键)——“更丰富的品牌表达”和显著链接处理的更广泛影响将在另一篇文章中讨论。
数据扩展的资本密集程度非常明显;Reddit在上市时披露,他们10%的收入来自出售用于LLM训练的数据。互联网的广告商业模式会被取代吗?
Abraham Thomas阐述了存储/内存成本与数据创建之间的反身性,作为一系列连锁反应,释放了广告商业模式(内存和存储成本降低->生成和存储的数据爆炸->广告商补贴不断下降的存储成本)。
这一链条可能会被平台拥有的用户生成内容(UGC)通过研究实验室为新训练数据支付的报酬所超越,这些金额最终可能会超过广告收入。

来源:Abraham Thomas
鉴于我们很快就会耗尽高质量的公共数据,高质量专有数据的溢价将会快速上升。
这应该会为平台创造新的激励机制,使其优先考虑数据需求大的研究实验室而非广告商,从而影响产品设计和用户界面,以优化内容创作而非广告支出回报率。
再一次,Abraham Thomas 写了一篇关于定价数据资产(在人工智能时代)的优秀入门文章:
似乎没有上限,模型会随着你提供的训练数据越多而变得越好。
在你的庞大语料库上撒上一点点质量——例如,通过简单的去重——对模型性能有显著影响。随着训练集的不断扩大,这通常比获取下一个数据点更有效;超过某个点后,数据质量的提升比数据数量更有效。
更一般地说,整个数据栈需要重构,使生成模型成为数据的一级消费者和生产者。
除了工具之外,在人工智能时代,还有一个完整的商业生态系统等待建立。定价和使用模型、合规性和数据权利、新一代数据市场:一切都需要更新。不再有“未经同意的内容”;即使是淘金热的城镇也需要他们的治安官。
总结思考
当我们想到扩展法则时,通常认为我们会受到计算能力的限制,而实际上我们正面临数据生产无法跟上大型研究实验室需求的难题。
关于数据中心资本支出和能源作为前沿模型训练和推理的潜在速率限制因素,已经有很多关注,但数据稀缺的紧迫性和敏锐性意味着值得反思资本密集型数据战争的次要影响。
广告商业模式可能不会完全颠覆,但数据许可将成为足够重要的新收入来源,值得在产品设计中进行修订,不仅仅是为了广告支出回报率。
本周图表
计算的发展,从大型机到人工智能

来源:Nvidia GTC
Gemini正以不祥的态势迅速逼近ChatGPT,甚至在谷歌将其全面融入生态系统之前。

来源:Morgan Stanley