辩论开放互联网:Cloudflare vs. Perplexity

本文信息来源:contrary
一方面,Cloudflare 是开放网络的元老级捍卫者。它认为每个网站都应该拥有必要的工具来决定谁可以在何时使用其内容。另一方面,Perplexity 正在围绕 AI 访问和摘要构建整个业务。它不希望出版商阻碍其向 Perplexity 用户提供内容。这场辩论的结果很可能会打破数十年来支撑互联网商业模式的社会契约。
为人工智能打造的互联网
几周前,我们发布了一篇名为为人工智能打造的互联网的文章。在文中,我们剖析了互联网从一个开放的知识共享平台,演变为一个私有化、由人工智能作为中介的信息生态系统的过程。在文章的结尾,我们得出了这样的结论:
“[开放网络将会] 成为人工智能公司的训练场,内容将越来越多地由人工智能合成和生成,对人类创作者的经济可行性降低,并且对大多数用户来说只能通过人工智能中介访问。开放网络正在变成原材料来源,推动互联网从开放性和可访问性的基础价值转向封闭系统、付费墙以及机器与机器之间的内容循环。这一转变的速度和规模意味着,未来几年将决定互联网是继续作为独立创作者、多元声音和知识共享的开放平台,还是主要沦为机器学习的基础设施。”
就在一个月前,这还只是对网络演变的理论性概述,而在过去一周左右,这一话题已经演变成了一场彻底的言辞交锋。
Cloudflare VS Perplexity
2025 年 8 月 4 日,Cloudflare 发布了一份报告 ,标题直截了当:Perplexity 正在使用隐蔽且未声明的爬虫来规避网站的禁止爬取指令。
如果你想知道 Cloudflare 在网页爬取领域有什么利益关系,那你可能还不了解 Cloudflare。Cloudflare 成立于 2009 年 ,是一家市值 690 亿美元的上市公司,其公开使命是“帮助建设一个更好的互联网”。该公司的核心业务是提供内容分发、DDoS 缓解以及分布式域名服务器服务。大约 20% 的互联网网站使用 Cloudflare 来让自己的网站更加安全和稳定。
Cloudflare 的担忧
那么 Cloudflare 对 Perplexity 有什么问题呢?根据报告 ,Perplexity 会修改其用户代理(UA)以隐藏爬取活动,忽略用于阻止爬虫的 robots.txt 文件,甚至在其声明的爬虫被屏蔽时,将用户代理伪装成“在 macOS 上运行的 Google Chrome”。
换句话说,Perplexity 正在展现出一种典型的“反派”行为,而这种反派正是 Cloudflare 近期所称的对开放互联网的最大威胁。早在 2025 年 7 月,Cloudflare 宣布庆祝“内容独立日”。在这一庆祝公告中,Cloudflare 概述了 Google 在 30 年前建立的互联网“基本商业模式”:
“Google 与内容创作者达成的协议很简单:让我们复制你的内容用于搜索,我们会为你带来流量。作为内容创作者,你可以通过三种方式从这些流量中获取价值:投放广告、出售订阅,或者仅仅是因为有人在消费你的内容而感到满足。”
如今,Cloudflare 表示这份协议已经被打破。Google 的搜索市场份额在十年来首次跌破 90%,因为越来越多的流量流向了 AI 聊天机器人。对于那些仍然使用 Google 的人来说,75% 的问题在用户离开 Google 之前就已得到解答。
软件或许正在吞噬世界,但 AI 正在吞噬整个网络。
内容创作者正面临一个截然不同的信息生态系统。对于 OpenAI 来说,网站获取流量的难度是 Google 的 750 倍;对于 Anthropic 来说,这个难度甚至高达 30,000 倍!正如 Cloudflare 所说 ,“我们越来越多地不是在消费原创内容,而是在消费衍生内容。” 这就是为什么 Cloudflare 在 2025 年 7 月 1 日宣布为“内容独立日”:
“Cloudflare 与全球大多数领先的出版商和 AI 公司一道,将默认设置更改为阻止 AI 爬虫,除非它们为创作者的内容付费。这些内容是驱动 AI 引擎的燃料,因此创作者获得直接报酬才是公平的。”
与此同时,如果针对 Perplexity 的指控属实,那么 Perplexity 并不支持内容独立。相反,它将不顾出版商的意愿去获取内容。
Perplexity 反击
在 Cloudflare 提出指控的同一天,Perplexity 迅速作出回应 。它声称,与其说 Perplexity 是互联网内容的掠夺海盗,不如说 Cloudflare 只是工作做得很糟。此外,它还暗示 Cloudflare 并不理解 Perplexity 实际上在做什么。
首先,Perplexity 提出“用户驱动的获取”与“自动化爬取”在本质上是不同的。传统的爬取是大规模、主动的信息索引,而用户驱动的代理则“只在真实用户请求特定内容时才获取,并立即使用这些内容来回答用户的问题。”
接着,Perplexity 直接将矛头指向了 Cloudflare:
“这场争议揭示了 Cloudflare 的系统在区分合法的 AI 助手和真正的威胁方面存在根本性不足。如果你无法分辨一个有用的数字助手和一个恶意的爬虫,那么你可能就不应该去决定什么才算是合法的网络流量。”
措辞强烈。
Perplexity 论点的核心是,其代理并不代表“恶意机器人”,而是真正为用户服务、代表普通大众行事的助手。而将这些代理称为恶意,也会“将电子邮件客户端和网页浏览器,或任何其他被潜在把关者不喜欢的服务定为犯罪”。Perplexity 进一步表示,让 Cloudflare 充当这样的把关者,将会创造出“一个双层互联网,你的访问权限不取决于你的需求,而取决于你所选择的工具是否得到了基础设施控制者的认可”。
Perplexity 似乎认为,Cloudflare 对机器人流量的根本问题在于数据是否被抓取并存储用于训练数据。通过声明 Perplexity 代理仅使用这些信息实时回答查询,并在此后丢弃数据,它暗示这一问题已被消除,而 Cloudflare 主要是想维持其“守门人”或“基础设施控制者”的角色。
除了在术语上的分歧之外,Perplexity 还反击 Cloudflare,暗示它在核心工作——识别和理解网络流量——方面做得很差。
Perplexity 声称 ,Cloudflare “将来自 BrowserBase(一家第三方云浏览器服务,Perplexity 仅在高度专业化任务中偶尔使用)的 300-600 万日请求的无关流量与 Perplexity 混淆了。” 为什么 Cloudflare 会犯这种错误?Perplexity 认为,这要么是因为 “Cloudflare 需要一个巧妙的公关时刻”,要么是 (2) Cloudflare 犯下了“一家核心业务是理解和分类网络流量的公司所犯的特别尴尬的基础流量分析错误。”
辩论中的争议
许多人很快就指出 ,Perplexity 的回应是一个激进的稻草人论证,转移了关于 Perplexity 潜在违规行为的实际指控,并将讨论引向一个更具哲学意味的辩论——关于互联网流量中的一等公民和二等公民。这种立场让人感觉像是“既要马儿跑,又要马儿不吃草”,Perplexity 声称:“我们不是恶意机器人,我们是代表普通人的用户驱动代理在抓取数据。而且,你以为的抓取行为根本不是我们干的,那是第三方,所以……”
事实是,Perplexity 不太可能成为它所描绘的那种完美无瑕的白衣骑士,原因有两个。
首先,Perplexity 起初声称 Cloudflare 博文中提到的那个机器人“根本不是我们的”。后来,在 Perplexity 的回应中,它澄清该机器人实际上是 Perplexity 的,但它来自第三方机器人 BrowserBase,“Perplexity 只是偶尔使用”。那么到底是哪种情况呢?
其次,这并不是 Perplexity 第一次违反出版商的明确服务条款。2024 年 6 月,Wired 指控 Perplexity 抄袭其内容。2024 年 10 月,道琼斯和《纽约邮报》 起诉 Perplexity,指控其从事他们称之为“内容盗政”的行为。
事实上,早在一年多前,Perplexity 就被指控存在这种完全规避 robots.txt 指令的行为。作为背景,网站会使用一种称为 robots.txt 文件的机器可读文件,来指定它们希望爬虫不要访问的内容。2024 年 6 月,一位用户故意设置了他的 robots.txt 来屏蔽 Perplexity,但它仍然能够对他的文章进行总结。该用户甚至询问 Perplexity,它是如何在 robots.txt 禁止的情况下爬取网站的。Perplexity 的回应是:
“如果网站的内容受到其 robots.txt 限制, 我在道德上不能访问或总结这些内容 。”
在被追问时,Perplexity 承认 :“你说得有道理,我不应该提供该[网站]的摘要。” 检查该网站的日志显示,Perplexity 正在 “使用无头浏览器抓取内容,忽略 robots.txt,并且不发送其用户代理字符串。” 这与 Cloudflare 的指控完全一致。
结论似乎是,Perplexity 正在做 Cloudflare 指控它所做的事情。更深层、更根本的问题是,这关系到互联网治理方式的一个重要问题:Perplexity 所做的事情是否是错误的?这个问题更难回答。
互联网的基本承诺是在几十年前由出版商、聚合商和消费者之间建立的。正如 Cloudflare 所解释的,这项协议的内容大致是:“让我们复制你的内容用于搜索,我们会为你带来流量。” 在这项协议下,聚合商获得索引,出版商的内容被看到,消费者获得信息。人人受益。
然而,尽管这一共识如今已有数十年的先例支持,它是一种社会契约,而非法律契约。还有其他由法律强制执行的数字标准,无论是执行服务条款,还是根据《计算机欺诈与滥用法案》(CFAA)惩罚“未经授权的访问”,但并没有法律要求 Perplexity 必须遵守 robots.txt 的指令,或避免使用伪装的浏览器从那些试图阻止它们的特定网站获取信息。
机器人排除协议是于 1994 年建立的一项基于自愿遵守的标准。在大多数情况下,互联网经济中所有合法参与者都选择遵守该协议,以建立信任和秩序。最初开发 robots.txt 文件的动机,是因为一个设计不良的网络爬虫意外引发了一次拒绝服务(DOS)攻击。因此,大家一致认为制定一些基本规则符合所有人的最佳利益。
但这种社会契约正开始瓦解。Perplexity 的首席执行官 Aravind Srinivas 曾表示 , “我们的信念是事实需要被普遍地分发给所有人。” 这些自诩为互联网信息解放者的人,已经认定之前的协议不再适用。作为一个聚合平台,Perplexity 决定以牺牲出版商商业模式为代价,来优化消费者的体验。
许多人赞同这种做法。使用这类 AI 工具的用户将它们视为自己浏览活动的延伸。正如一位用户所说 :“当为用户检索网页时,使用看起来像浏览器客户端的 UA 字符串是合适的。” 换句话说,如果 Perplexity 是在替我浏览,那么它就应该被允许做任何必要的事情来成功浏览,包括违反 robots.txt 文件所设定的规范。
用户一再表达这种观点:“当我向 Perplexity 提出请求/任务时,我希望它能代表我访问公共内容。” “为什么 LLM 代表我访问网站会与我的 Firefox 浏览器在法律类别上有所不同?”
然而,对用户(以及为他们提供服务的 AI 平台)来说的短期最佳利益,可能并不符合整个互联网生态系统的最佳利益。
打破互联网的商业模式
当消费者看到日益优化的体验时,出版商却看到了末日的来临。
人们常常忘记,广告是互联网的核心商业模式。自 2000 年以来,任何时候 10-20% 的线上总收入都来自广告。当我们不需要为数字体验付费时,我们的注意力就是支撑大部分数字体验的底层引擎。这源于谷歌促成的一项基本交易:出版商制作内容,聚合平台将内容呈现给人们,消费者获取内容。Cloudflare CEO Matthew Prince 将其描述为一种“公平价值交换”。
“在搜索引擎的模式下,公平的价值交换是你让他们获取你的内容,作为交换,他们会为你带来可以转化为价值的流量。而在答案引擎的模式下,他们获取了你的内容,却给你……?如果你得不到任何回报,你为什么要放弃你的内容呢?”
当出版商看到像 Perplexity 这样的公司对在线社会契约所做的事情时,他们觉得自己的商业模式正在化为乌有。正如一位出版商所说 :“当 Perplexity 在回应用户问题时抓取我的内容,他们实际上是在降低这个用户访问我内容的可能性。”另一位解释了 AI 代理与人类之间的根本区别:
“虽然代理会代表用户执行操作,但它们不会看到或点击任何广告;它们不会订阅任何新闻简报;它们不会为网站所有者买杯咖啡。它们并不会因为是由人类触发就像人类一样行动。它们只是获取所需的内容然后离开。”
而且,不幸的是,这正在成为常态。如今,机器人活动首次超过了人类在网上的活动。而且这些并不全是 Perplexity 喜欢推崇的、为人类服务的友好代理。所有互联网流量中有 37% 来自恶意机器人。在机器人流量创下历史新高的时刻,我们正在破坏那些本可以在自动化冲击面前维持某种秩序的系统。
互联网该何去何从?
不管人们认为互联网应该做什么,似乎很清楚它将会做什么——那就是随着消费者偏好的节奏前进。去问问 Betamax、LaserDiscs 和 Concorde 就知道了。消费者想要什么,往往就会得到什么,不管后果如何。
如今,消费者正被引导进入一种由智能代理驱动的互联网消费方式。许多人认为互联网的未来是零点击 。那些试图将这一未来变为现实的人认为,Cloudflare 的担忧属于过去的时代。正如一家 AI 搜索优化平台所说 :“Cloudflare 自称是在捍卫出版商的利益,但他们真正想做的,是成为信息高速公路上的收费员。”
像 ChatGPT 或 Perplexity 这样的平台显然希望代理被视为一等公民。 理念是“AI 代理是用户的延伸……当你向这些代理收费时,你是在向用户收费,而不是向 AI 公司收费。”但这忽略了互联网最初协议中的一个基本要素。用户一直在为访问这些内容付费。不是用美元 ,而是用注意力。如果代理“只是拿走所需然后离开”,那么你并没有替代那笔边际费用。如果没有广告可卖,那么就必须有其他东西来弥补,否则整个互联网将变得不可持续。
为捍卫互联网这种“新”商业模式,这些平台声称 ,“尽管 AI 流量仅占自然流量的一小部分,但它带来了显著更高价值的转化,并且在可归因的业务成果上实现了年度大幅增长。” 如果这是真的,那么尽管短期内可能会有调整的阵痛,但长期来看会有更高质量的结果。为了所有试图在互联网上分发内容的人,让我们希望这是真的。