返回首页
2025.08.11 02:08 约 6 分钟 大模型内核

当 LLMs 在社交平台上大快朵颐

本文信息来源:smartmargin

用于免费训练的数据的时钟正在走向终点。到 2028 年, 我们可能会开始耗尽 。对此,LLM 实验室将越来越多地转向唯一可再生的新鲜对话内容来源: 社交平台。

我预测在五年内(或许更早),送入前沿模型的新增令牌中有 30%将来自经授权或未授权的社交流,而非网络爬取。历史上,社交平台并不是最佳的采集场所,因为数据被围墙花园所隔离:将数据保留在内部往往比对外授权更有利可图。不过这一点正在改变,社交平台开始意识到相关性的代价:留在围墙花园内意味着有可能在 LLM 对话中被忽略(从而错失消费者的目光)。

以下是我预计在未来几年社交流将如何塑造模型行为的方式:

当 LLMs 在社交平台上大快朵颐

社交平台胜过静态网页的地方

  1. Real‑time relevance: 经授权的社交流会在数小时内更新,而 Common Crawl 的快照可能滞后 35–90 天。新的信号会更快进入 LLMs。
  2. Conversational DNA: 社交本质上就是对话,这有助于 LLMs 理解人类的实时互动。在 Anthropic 2024 年的一项测试中,经过 Reddit 微调的模型在对话有用性上比仅基于博客的基线高出 15%。
  3. Long‑tail depth: 网页通常无法覆盖人类对话的长尾部分。Reddit 和 Twitter 通过注入主流网页所缺乏的小众词汇解决了这一问题。
  4. Embedded quality signals: 社交流量信号让模型更容易判断内容的质量。Scale AI 将能够估算点赞和观看时长等数据,相较于原始网页文本能实质性降低标注成本。
  5. 可授权的新鲜度: Reddit 的 2024 年 S‑1 披露,数据授权已贡献 9% 的收入——这为保持信息流清洁与实时提供了财务激励。我预计在未来几年,这将成为社交平台利润的主要驱动力。

各社交平台的竞争优势

假设我们确实走向一个社交平台愿意将至少部分数据授权给 LLMs 的未来(没有哪个世界会不这样做),每个平台都会开始确定其独特优势,并着手对这些数据进行细分与定价。例如,Reddit 长期以来是长篇消费者讨论的来源,而 YouTube 则在影响者权威性和教育深度上表现突出。

当 LLMs 在社交平台上大快朵颐

社交数据如何为 LLMs 定价

我们仍处于为 LLMs 定价社交数据的早期阶段,但一些早期模型(有些仍属推测)已经开始浮现。

分层火力水管 API(已上线): 付费数据流,平台按访问量和新鲜度计量,针对高流量或实时内容等级收取更高费用

  • 这种模式将受到 Reddit 和以文本为中心的平台(如 Stack Exchange,可能很快也包括公共 Discord 频道)的欢迎。高度结构化的文本数据非常适合火力水管格式,因为按量和新鲜度计费很容易。随着时间推移,我们可能会看到这种定价逐渐模仿云存储价格,高互动细分领域将以基线价格的数倍出售。Reddit 的 S-1 文件强烈暗示了这里的进一步发展。

按使用计费的转录流(已上线):实验室按他们提取的字幕数据的分钟数(或令牌数)付费。

  • TikTok 和 YouTube 很可能会以这种方式进行变现。由于视频文件体积大且格式多变,按分钟或按 token 收费可以让实验室只为他们实际调用的内容付费。任何带有 SKU 标签的地方随着时间推移很可能会获得溢价(稍后会详细说明!)。YouTube 的字幕已经可以通过数据经纪商获得,TikTok 的开放平台也提供免费转录。

下游收入分成(推测): 社交平台可能不会按 token 收费,而是从使用其数据的任何 LLM 产品所产生的收入中抽取少量分成(可能在 1–3%)。这样,当其数据驱动高价值交易时,平台能获得更多收益。

  • 这可能成为 Twitter 和 Substack 的主要模式。因为原始推文或 Substack 帖子本身就是纯文本(向实验室提供成本低),Twitter 和 Substack 可以承受从代理产生的任何收入中抽取一小部分。由于数据处理成本,YouTube 或 TikTok 的情况很可能不适用。

按代币付费的品牌安全供给(推测性):Meta 与 Scale 的合作为此铺平了道路。Scale 可以过滤有毒内容、知识产权标记和重复内容,从而使 Meta 能出售“已获批准”的文本和图像。对品牌敏感的买家很可能会为保证安全、高质量的代币支付额外费用。

  • 这对 Reels 乃至短期内的 Threads 都是一次重大胜利。随着时间推移,我不会惊讶看到这种定价模式通过其他合作逐步渗入其它平台。

排名提升拍卖(投机性): 类似于 Google AdWords 或 Amazon Sponsored Products,我可以想象未来会发展出一种拍卖系统,品牌可以实时竞价,让他们的图片、帖子、视频片段或链接获得更高的排名。

  • TikTok 和 Reddit 已经使用算法对短帖进行排序,所以这对它们来说是一个自然而然的延伸。它们只需旋转已经用于广告的货币化按钮,就能把内容在代理人列表中提升几个名次。

创业机遇

我一直在思考,鉴于社交数据被出售这一不可避免的转变,创业公司的机会有多大。长话短说——可以打造出无数家规模巨大的公司。不过,为社交构建产品显然比为静态网页更难、更冒险。以下是几个可以展开的方向:

社交平台的“答案引擎优化”(Answer Engine Optimization):这一点可能是最明显的。可以打造一个新的 Profound 或 Bluefish,但把重点放在社交上。品牌无法看到或塑造 TikTok、Reddit、X 内容在 ChatGPT、Claude、Gemini 中被引用的方式——我希望有人能建立这样的解决方案,让他们能够做到这一点。

面向社交动态流的 Snowflake: 我设想这是一个云端仓库层,从多个社交平台的 API(Reddit 全量流、TikTok 转录流、X 推文流等)摄取原始数据,将它们标准化为一个统一的、可查询的模式,然后让 LLM 构建者或分析团队轻松提取任意切片。

类 Doubleclick 的广告路由器: 一个监控每一次排名提升竞价(Amazon sponsored products、TikTok spark ads、未来的 Reddit/TikTok 引文出价)并实时将资金重新分配到边际 ROAS 最高处的平台。未来的数据权限环境可能会使这变得困难,但总会有人做出一个版本。

结语

社交流正快速成为驱动未来 LLMs 的燃料。品牌、投资者和构建者都需要开始把社交帖子当作一等的训练场。社交淘金热才刚刚开始,这需要新的基础设施。那些让社交数据标准化、标注并实现货币化的人,将获得最持久的价值。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读