为 AI 所建的互联网
本文信息来源:contrary
由于自动化流量,开放网络正在迅速变化。到2025年,近50%的互联网流量将由机器人生成,其中大量来自自动化的抓取器和爬虫,这些流量很快将完全超过人类流量。这一变化的影响意味着信息流动方式、价值创造方式以及谁在我们的数字经济中获取这些价值都将被重构。

为 AI 所建的互联网
近四十年来,开放性一直是互联网的基本特征。开放网络建立在开放、去中心化、普及性、不歧视、协同开发、共识与可及性的原则之上。这种开放性在公民参与中发挥着关键作用,并促成了无数社区、创作者和知识共享平台的繁荣。
由于自动化流量,这一格局正在迅速改变。到2025年,几乎50%的互联网流量由机器人生成,其中大部分来自自动抓取器和爬虫,它们很快将完全超过人类流量。这一转变的影响意味着信息流通方式、价值创造方式以及在数字经济中谁能获取这些价值都将被重构。
无形中间人
到2025年,全球网页抓取市场规模将达到13亿美元,人工智能是主要推动力。要理解这一变化,值得回顾抓取技术从起源到现在的发展演变。
JumpStation 是最早的“基于爬虫”的搜索引擎之一,于 1993 年 12 月上线,旨在整理日益增多的互联网网页。早期对爬取机器人的其它用途包括评估互联网规模以及识别服务器上损坏或失效的链接 。爬虫在很大程度上不具破坏性,甚至有益——它们可以把用户从 Google 或 Bing 等搜索引擎带到网站,作为交换收集数据。过去和现在,网站都会使用可被机器读取的文件,称为 robots.txt 文件 ,来指明哪些内容希望爬虫忽略。
网络爬取历来依赖三种方法:HTML 抓取、基于爬虫的抓取和 API 访问。这些构成了早期搜索引擎和数据聚合器的基础。随着新一波人工智能的到来,爬取的重心已从索引转向摄取并生成新输出。像 Perplexity 和 ChatGPT 这样的 AI 工具可以即时总结互联网上的信息并给用户直接答案,产生了相当于无形中间人的效应。ChatGPT 的突出表现将互联网爬取推到了聚光灯下,并使 AI 模型的数据抓取做法受到了广泛审视。

来源:PPC Land
现代 AI 抓取器可以自动从几乎任何网站提取、清洗并组织数据,甚至能适应站点结构或布局的变化。到 2025 年,AI 驱动的抓取工具已如此先进,它们可以模拟人类浏览、 绕过反机器人系统,并适应网站结构的变化,使从几乎任何公共网站提取数据成为常态。这些工具使用机器学习来理解复杂的动态内容,包括大量使用 JavaScript 的页面,并采用如人类行为模拟和动态代理轮换等技术以避免被检测并保持可靠访问。
包括 OpenAI 的 GPT 3.5、Google 的 Gemini 2.0 Flash 和 Meta 的 Llama 2 在内的许多最流行模型,使用网络爬取数据来训练其人工智能系统,其中超过一半的训练数据来自 Common Crawl。Common Crawl 向用户提供“一份互联网的副本”,是最大且最广泛使用的抓取数据存储库之一。Common Crawl 覆盖了 18 年间的 2500 亿 个网页,涵盖从博客和维基百科到新闻文章和代码仓库的各种内容。Llama 2 超过一半 的训练数据来自 Common Crawl,这说明被抓取的网络内容已在 AI 生态系统中占据极其核心的地位。
链接经济的终结
传统上,网络的“ 链接经济 ”意味着人们访问网站,为博主、论坛和小众媒体带来广告收入。如今,越来越多的用户不再愿意浏览链接——他们期望 AI 将网络内容提炼成即时答案 ,这一反馈循环进一步降低了对原始探索的优先级。在旧模式下,注意力流向信息来源;在新模式下,内容流向平台,直接与其数据来源竞争。此种转变如此显著,以至于出版商和网站所有者正看到网站流量大幅下降 ,因为用户越来越多地从 AI 系统获得即时答案,而不是访问原始来源。
谷歌在 2025 年推出的“AI 概览 ”和“AI 模式 ”上线后,新闻媒体的推荐流量立即出现显著下滑,一些出版商报告在数周内流量下降了 50% 或更多。谷歌的 AI 概览现已显示在传统链接之上,显著减少了到出版商网站的点击率。
主要出版商正遭受严重冲击:
The Atlantic 首席执行官 Nicholas Thompson 抓住了更广泛的趋势:“随着 Google 从搜索引擎转向‘ 答案引擎 ’,预计来自 Google 的流量会随着时间推移降至接近零 。”
通过使用公开可得的数据来训练他们的 LLMs,生成式人工智能公司获得了抓取公开数据的直接好处。相反,公众则直接承担这些公司抓取公开数据的负面影响。虽然大型出版商可以封锁或向 AI 公司授权,但独立创作者和小众论坛缺乏资源这样做,使得他们的内容更容易被抓取并被无署名摘要化。
2024 年,AI 爬虫和抓取工具贡献了创纪录的 16% 已知机器人展示次数,夸大了流量指标并使衡量真实参与度更加困难。如果用户不再访问网站,广告展示次数就会下降,从而削弱资助从小众网站到主要媒体的免费内容的收入。随着 AI 工具直接总结并呈现信息,独立创作者失去推荐流量、可见度以及潜在的广告或联盟收入,削弱了他们创作原创作品的动力。
知识共享社区也在崩溃。根据 Stack Overflow 官方数据探索器,2025 年 4 月发布的问题与回答总和较 2024 年 4 月下降了超过 64%90%。开发者正转向 Discord 服务器、利基论坛甚至 TikTok 寻求代码帮助,进一步分裂了传统的开放网络社区。
超越数字层面,这场危机还有时间维度。传统新闻与研究以人类的时间尺度运作。像调查、核实与发布这样的流程需要几天或数周 ,而 AI 系统能在数秒内处理并综合信息。尽管这些系统在实现人类记者所提供的语境理解与实时准确性方面仍有困难,但它们仍然造成了一种不对称竞争,使得人工创作的内容在快速变化的信息周期中难以维持相关性。
这一速度差异尤其影响突发新闻和技术文档领域,在这些领域中,AI 可以即时提供摘要,从而降低对那些原始报道或耗费大量精力制作的详细指南的需求。
退守付费墙与防 AI 化
各网站开始反击,担心 AI 爬虫会助长它们被取代。但问题是:这种反击也在威胁网络的透明性和开放边界,而这些正是非 AI 应用得以繁荣的基础。
互联网公司过去将数据公开,并通过广告获利。然而,当前的商业模式正在转向将数据保护在私人网站上,仅对注册用户或付费用户开放。如今,在欧盟和美国,超过三分之二的主流报纸都在实行某种形式的在线付费墙,这一比例自 2017 年以来稳步上升。仅《纽约时报》就拥有 1080 万数字订阅用户,数字订阅收入接近每年 10 亿美元 。
私人 API 的兴起遵循类似逻辑。尽管私人 API 使企业能够保护知识产权并通过数据获利,但它们也限制了试验、互操作性以及定义早期网络的信息自由流动。自 2023 年中期以来,网站已对超过 25% 的高质量数据设置了爬虫限制。
一些出版商已签署授权协议;另一些则采取法律行动或阻止机器人抓取。主要的授权协议包括 Reddit 与 Google 达成的每年 6000 万美元(2024 年)协议,允许 Google 获取 Reddit 数据用于 AI 训练;以及美联社与 OpenAI 签署的多年期授权协议(2023 年)。《纽约时报》与 Google 达成了一项为期三年、价值 1 亿美元的内容与分发合作协议,但明确禁止其他公司为 AI 训练而抓取其内容。
尽管像 OpenAI 和 Anthropic 等主要人工智能开发者公开承诺尊重网站限制,但有报道显示存在 不一致的遵守情况 。网站运营者记录了案例 ,显示有的爬虫行为过于激进, 压垮服务器或无视乃至规避 robots.txt 指令,尽管这些公司在公开声明中并非如此。由此催生出一条新的防护服务产业;像 TollBit 和 ScalePost 这样的公司提供针对人工智能数据使用的货币化工具,而像 Cloudflare 这样的基础设施提供商则开发了 机器人检测与流量管理系统,帮助网站控制自动化访问。
诉讼案件不断增加。《纽约时报》正在对 OpenAI 和微软提起持续的诉讼 ,指控其在训练人工智能数据集中使用该报文章侵犯版权。超过 88% 的美国顶级新闻媒体现在阻止来自 OpenAI 等公司的 AI 数据收集机器人。
自我吞噬的知识体系
这种被付费墙围困的退缩造成了一个通往知识不平等的螺旋。随着优质内容越来越多地被设为付费,基于免费可得数据训练的 AI 系统随着时间推移可能在专业领域变得不那么准确或全面。与此同时,能负担多重订阅的人获取到的是更高质量的信息,而其他人则依赖可能已退化的 AI 摘要。
此外,随着 AI 生成内容在网络上泛滥,它形成了一个反馈循环, 新模型在之前 AI 系统的合成数据上进行训练。这带来了研究人员所称的“ 模型崩溃 ”风险,即当训练数据越来越人工化、而非人类生成时,输出质量下降。在图像生成中,这表现为越来越明显的模糊和伪影累积。在文本中,则表现为语义漂移和表达上的多样性降低。

来源:Nature
更为关键的是,随着人工智能系统比人类更快地生成内容,互联网有可能主要成为机器的训练场,而非人类创造与发现的空间。
我们正在建设什么样的互联网?
我们正经历从开放知识共享空间向私有化、由人工智能中介的信息生态的转变。打包内容和独家合作变得越来越常见。欧盟和英国正在考虑选择退出的著作权制度用于 AI 训练,要求明确许可才能抓取;加州正在推进立法 ,要求对用于 AI 训练的材料保持透明;美国关于为数字内容提供新版权保护的讨论也在不断升温。
欧盟的 《人工智能法案》 包含了关于训练数据使用透明度的规定,而加利福尼亚州拟议的立法则要求人工智能公司披露其数据来源。然而, 执法仍然具有挑战性,特别是对于国际运营者或那些并非主要在这些司法管辖区运营的公司来说。更根本的是,监管往往会< a id=3>落后于技术变革。在全面的人工智能训练数据法规被制定并执行之时,现有一代模型很可能已完成训练,而新的技术方法可能规避现有规则。尽管立法者承认需要监管,但他们担心过于限制性的规定可能导致美国在人工智能“ 军备竞赛 ”中失去领先地位。试图把网络强行拉回早期状态行不通——那个时代由更慢的工具、不同的激励以及算法尚未占据主导的网络所塑造。
尽管面临挑战,新的内容创作和分发模式正在出现。Substack 等新闻稿平台为创作者与受众提供直接联系, 绕过了传统广告和搜索流量的依赖。Patreon 和 OnlyFans 展示了基于直接付费而非注意力套利的可持续创作者经济。一些出版商,如 Financial Times,正在尝试创作专门为被 AI 系统发现和引用的内容,其商业模式基于署名和回链。
另一种可能的未来是 AI 系统与人类创作者之间的协作而非竞争。像 GitHub Copilot 这样的工具展示了 AI 如何增强而非取代人类创造力。在新闻业和内容创作中采用类似方法,可以在利用 AI 能力的同时保留网络的协作精神。一些平台正在尝试 “人类参与环节” 的 AI 系统,这些系统提供初步内容生成,但在发布前需要人工编辑和核实。这种混合方式可以在降低制作成本的同时保持内容质量 。
归根结底,开放网络并不会“消亡”,而是变成了人工智能公司的训练场:内容日益合成化、由 AI 生成,对人类创作者的经济吸引力减弱,并且对大多数用户而言只能通过 AI 中介访问。开放网络正成为原材料来源,推动从开放与可及这一基本价值的转向,走向封闭系统、付费墙和机器对机器的内容循环。这一转变的速度与规模意味着未来几年将决定互联网是继续作为独立创作者、多元声音与知识共享的开放平台,还是主要沦为机器学习的基础设施。