生成式人工智能与维基百科编辑：我们在2025年的收获

像许多组织一样，Wiki Education 多年来一直在应对生成式人工智能及其影响、机遇和威胁。作为一家开展大规模项目以为维基百科吸引新编辑的组织（我们负责约 19% 的英文维基百科新增活跃编辑），我们对新内容贡献者在维基百科面临的挑战有深刻理解——以及如何支持他们成功编辑。随着越来越多的人在日常生活中开始使用像 ChatGPT、Gemini 或 Claude 这样的生成式 AI 聊天机器人，人们也会考虑使用这些工具来帮助起草对维基百科的贡献，这并不令人意外。由于 Wiki Education 的项目提供了一个我们可以评估其工作成果的内容贡献者群体，我们已经研究了参与者如何使用生成式 AI 工具。

我们选择通过这篇博客文章分享我们的观点，因为我们希望它能为围绕维基百科上由生成式人工智能创建内容的讨论提供信息。在像维基媒体运动这样的开放环境中，共享你的经验教训非常重要。在本例中，我们相信我们的经验可以帮助那些试图维护百科全书内容完整性的维基百科编辑者、可能有兴趣自己使用生成式 AI 工具的维基人、在全球范围内试图吸引可能有兴趣使用这些工具的新贡献者的其他项目负责人，以及维基媒体基金会——其产品和技术团队开发软件以支持在维基百科上创建高质量内容的工作。

我们关于生成式人工智能的基本结论是：维基百科编辑绝不应将像 ChatGPT 这样的生成式人工智能聊天机器人输出的内容复制粘贴到维基百科条目中。

让我详细说明。

人工智能检测与调查

自从 2022 年 11 月 ChatGPT 上线以来，我们一直密切关注由生成式人工智能创造的内容，以及这些内容与维基百科的关系。我们对来自我们课程的新编辑的工作进行了抽查，主要关注引用，确保它们是真实的而非幻觉生成。我们自己也尝试了相关工具，为项目参与者主持了关于生成式人工智能的视频会，并密切跟踪了维基站内关于生成式人工智能的政策讨论。目前，英文维基百科禁止在条目中使用生成式人工智能来创建图像或在讨论页中使用，并且最近通过了一项反对使用大型语言模型生成新条目的指南。

在 2025 年上半年，随着我们的维基专家 Brianda Felix 和 Ian Ramjohn 与课程参与者合作，他们在条目内容中发现了越来越多带有生成式 AI 特征的文本，比如在奇怪位置出现的加粗词语或项目符号列表。不过，只要内容准确，使用生成式 AI 并不一定有问题。维基百科的开放编辑流程鼓励对事实性文本进行风格性修改，以更好地符合维基百科的风格。

但文本本身 是否事实准确？这个根本性问题促使我们的首席技术官 Sage Ross 调查不同的生成式 AI 检测工具。他最终选择了一个名为 Pangram 的工具，我们发现它对维基百科文本非常准确。Sage 生成了自 2022 年以来通过我们工作创建的所有新条目清单，并将它们全部通过 Pangram 检测。在 3,078 篇文章中共有 178 篇被标记为可能由 AI 生成——在 2022 年底 ChatGPT 推出之前没有一篇被标记，此后各期比例逐步上升。大约一半的工作人员在 2025 年夏季花了一个月时间，逐字逐句地审查这 178 篇文章的文本。

Pangram's detection results showed no signs of AI usage before the launch of ChatGPT, and then a steady rise in usage in the terms following. Courtesy of Manoel Horta Ribeiro and Francesco Salvi. — Pangram 的检测结果显示在 ChatGPT 推出之前没有 AI 使用的迹象，而在随后几个期限内则呈稳步上升。感谢 Manoel Horta Ribeiro 和 Francesco Salvi 提供。

基于围绕人工智能幻觉的讨论，我们原以为这些条目会引用不存在的来源，但事实并非如此：只有7%的条目引用的是虚假来源。其余条目的信息则引用了真实且相关的来源。

更具隐蔽性的是我们发现的另一种情况： 超过三分之二的这些条目未通过核实。 这意味着条目中包含看似合理的一句话，并引用了一个真实且看似相关的来源。但当你去查阅被引用的那个来源时，维基百科上的信息并不存在于该具体来源中。当一项说法无法通过核实时，就无法判断该信息是真还是假。在彭格拉姆（Pangram）标记为由生成式人工智能撰写的大多数条目中，几乎每一句带引用的话都未能通过核实。

这一发现促使我们投入大量工作人员时间来清理这些条目——远远超过这些编辑当初可能用于创建它们的时间。Wiki Education 的核心使命是改进维基百科，当我们发现我们的项目无意中为维基百科上的错误信息做出贡献时，我们会致力于予以清理。在清理过程中，Wiki Education 的工作人员将较新的工作移回沙盒，我们将那些通过显著性但大多未能通过核实的条目改为 stub（条目雏形），并且我们对一些从判定上无法挽救的条目进行了提删（PROD）。所有这些都是应对内容有缺陷的维基百科条目的方法。（尽管关于维基百科删除程序有很多抱怨，但我们发现那些因为完全由生成式 AI 捏造内容而被我们提删的若干条目，后来又被其他编辑取消了提删，这显示了维基百科社区中对生成式 AI 看法的多样性。）

修订我们的指导原则

鉴于我们对以前学期工作调查的发现，以及生成式人工智能使用日益增多，我们希望主动在项目中应对生成式人工智能的使用。多亏了 Pangram 的无偿支持，我们开始将参与者在维基百科上的编辑（包括他们的沙盒）几乎实时地通过 Pangram 进行检测。这得益于 Sage 构建的 Dashboard 课程管理平台，该平台跟踪编辑并根据站内编辑为我们的维基专家生成工单。

我们创建了一个全新的培训模块：在维基百科上使用生成式 AI 工具。该培训强调参与者在工作中可以使用生成式 AI 工具的场景，以及不应使用的场景。此类培训的核心信息是：不要将任何生成式 AI 聊天机器人的内容复制粘贴到维基百科。

我们为 Pangram 检测到添加由生成式 AI 聊天机器人生成文本的参与者制定了多种自动电子邮件。Sage 还录制了一些视频，因为许多年轻人更习惯通过视频而非阅读文本来学习。我们也为项目参与者提供了参与和对话的机会。

我们在2025年下半年的发现

在 2025 年下半年，我们共收到 1,406 条 AI 编辑警报，但其中只有 314 条（即 22%）发生在维基百科的条目命名空间（即对实时条目的编辑）。在大多数情况下，Pangram 在早期练习中检测到参与者在他们的沙箱中使用生成式 AI——这些练习包括让他们选择一篇条目、评估一篇条目、创建参考书目以及概述他们的贡献等。

This graph shows the daily total of Pangram's detected generative AI text our participants added to Wikipedia. Early in the term, the hits were primarily to exercises, with more sandbox and mainspace alerts later in the term. — 该图显示了参与者在维基百科上添加的 Pangram 检测到的生成式人工智能文本的每日总量。学期初，这些命中主要出现在练习页面，学期后期则更多出现在沙盒和主空间警报中。CC BY-SA 4.0 — Wiki Education。

Pangram 在一些沙盒场景中在误报方面遇到了困难：

书目通常由人工撰写的散文（描述来源及其相关性）和非散文文本（以某种标准格式给出的来源引用）混合而成
包含大量非散文内容的提纲（例如项目符号列表、章节标题、文本片段等）

我们也遇到过少数情况：当参与者从现有条目复制一段 AI 撰写的内容作为起点来编辑或扩展时，沙盒会被标记为 AI。（这并不是 Pangram 的缺陷，而是提醒人们：我们的项目之外，编辑们在维基百科上添加了多少 AI 生成的内容！）

总体而言，我们发现 Pangram 非常擅长分析普通散文——那种你会在维基百科条目正文中看到的句子和段落——但有时会被格式、标记和非散文文本绊倒。最初，我们为参与者的参考书目和大纲练习关闭了警报邮件，并在整个 2025 年末不断完善仪表盘的预处理步骤，以在将修订内容发送给 Pangram 之前提取其中的散文部分并将其转换为纯文本。

许多参与者也报告说“只是用 Grammarly 进行复制编辑”。但我们的经验是，用 Grammarly 做的最小修订从不会触发 Pangram 的检测，但如果你使用其更高级的内容创作功能，生成的文本会被判定为 AI 生成。

但总的来说，我们对 Pangram 的结果感到满意。我们对那些在不会进入主命名空间的练习中被标记为使用生成式 AI 的参与者采取的早期干预，似乎阻止了他们日后使用生成式 AI。我们在 2025 年秋季支持了 6,357 名新编辑者，仅有 217 人（或 3%）收到了多次 AI 警报。我们支持的参与者中只有 5%收到过主命名空间的 AI 警报。这意味着数千名参与者在编辑维基百科时没有使用生成式 AI 起草内容并取得了成功。

对于那些确实添加了由生成式人工智能起草文本的人，我们确保这些内容被还原。事实上，一旦参与者收到我们发出的电子邮件，告知他们的贡献被 Pangram 检测为 AI 生成，他们有时会自行还原。教师也会介入进行还原，一些维基百科编辑者在自行发现这些内容后也会这样做。我们的工单系统也会提醒我们的 Wiki 专家人员，他们会尽快还原这些文本。

虽然我们维基百科学生项目中的一些讲师对人工智能检测表示担忧，但我们在将讨论聚焦于可核查性这一概念方面取得了很大成功。如果讲师作为主题专家能够证明信息准确无误，并且能在其所引用的来源中找到具体事实，我们就允许相关文本重新出现在维基百科上。然而，尝试核实学生创作作品的过程（在许多情况下，学生坚称这些作品是他们自己写的）使许多讲师意识到我们在自我评估中所发现的结论：以当前状态来看，基于生成式人工智能的聊天机器人无法为维基百科撰写可核查的事实性准确文本。

我们认为基于泛字母句（Pangram）的检测干预措施减少了参与者向维基百科添加由生成式人工智能创作内容的情况。按照趋势线，我们原以为大约 25%的参与者会向维基百科条目添加生成式人工智能内容；但实际只有 5%，且我们的工作人员能够还原所有有问题的内容。

我深深感谢在本学期促成这一成功的每一位人士：遵循我们建议的参与者、向我们开放检测服务的 Pangram、在处理所有阳性检测时承担主要工作的 Wiki Education 员工，以及维基百科社区——其中一些人在我们的项目参与者之前就发现并处理了有问题的工作。

生成式人工智能如何提供帮助？

到目前为止，我主要关注由生成式人工智能创建内容的问题。但这些工具的功能并不止于此，我们确实发现了一些有用之处。我们的培训课程鼓励编辑——如果其所在机构的政策允许——考虑将生成式人工智能工具用于：

识别条目中的空白
寻找获取来源途径
寻找相关来源

为评估这些使用场景的成效，我们直接与 2025 年秋季在我们的 Wikipedia 学生课程中支持的 7 个班级合作。每当学生在他们的维基百科工作中使用生成式 AI 工具时，我们都会要求他们匿名填写一份调查。我们询问他们使用了哪个工具、使用了什么提示、如何使用生成内容以及他们是否觉得有帮助。有些学生多次填写调查，另一些只填写过一次。我们共收到 102 份在项目不同阶段报告使用情况的回复。在报告使用生成式 AI 的回复中，压倒性地有 87% 表示该工具对完成任务有帮助。最受欢迎的工具远远是 ChatGPT，Grammarly 居于遥远的第二，其他工具的使用比例均为个位数。

学生报告 AI 工具在以下方面非常有帮助：

识别与他们正在参加的课程相关的可编辑条目
突出现有条目中的空白，包括缺失的章节或缺乏的最新信息
找到他们尚未发现的可靠来源
指出某篇期刊文章可在哪个数据库中找到
在提供他们起草的文本和要求清单后，将草稿与这些要求进行评估
识别他们可以添加到所编辑条目的类别
纠正语法和拼写错误

关键是，没有参与者报告在作业中使用 AI 工具来起草文本。一位学生说：“我把我沙盒里的所有写作粘贴进去，然后说‘把这改成随意、不要那么学术的语气’……我想试试，但听起来不像我平常写的风格，也没能传达我想表达的意思，所以我放弃了。”

虽然这只是一个非正式的研究项目，但我们从中收到了足够多的正面反馈，认为如果编辑在研究阶段使用 ChatGPT 和其他工具后对其产出进行批判性评估，而不是盲目接受，它们是有帮助的。即便是觉得 AI 有帮助的参与者也表示并未采用其提供的一切内容，因为有些内容并不相关。毫无疑问，在整个过程中保持人类思考的成分至关重要。

这对 Wiki Education 意味着什么？

我的结论是，至少在目前，像 ChatGPT 这样的生成式 AI 聊天机器人绝不应被用来为 Wikipedia 生成文本；其中太多内容根本无法核实。我们的工作人员核实 AI 生成文章中的事实所花的时间，远超过我们自己进行研究和写作所需的时间。

话虽如此，AI 工具在研究过程中确实可以提供帮助，尤其是在识别内容空白或寻找来源方面，但前提是与仔细评估信息的人类大脑配合使用。编辑绝不应直接采纳聊天机器人给出的建议；相反，如果他们想使用聊天机器人，应该把它当作头脑风暴的伙伴，帮助他们思考文章的写作计划。

迄今为止，Wiki Education 在我们的课程参与者编辑维基百科时所采取的干预措施，显示出有望将无法验证的、由生成式人工智能起草的内容排除在维基百科之外。根据我们在秋季学期的经验，我们对 Pangram 作为 AI 内容检测工具（至少在维基百科条目中）充满信心。我们将在 2026 年继续当前策略（并做更多小幅调整以使系统尽可能可靠）。

更普遍地说，我们发现参与者的人工智能素养低于大众话语所暗示的水平。基于此，我们创建了一个补充的大型语言模型培训，并作为所有参与者的可选模块提供。许多参与者表示，我们关于人工智能的指导在他们试图应对由人工智能工具带来的新复杂性时是受欢迎且有帮助的。

我们也期待对我们的工作有更多研究。一支研究团队——普林斯顿大学的 Francesco Salvi 和 Manoel Horta Ribeiro、密西西比大学的 Robert Cummings，以及 Wiki Education 的 Sage Ross——一直在研究 Wiki Education 的 Wikipedia Student Program 编辑人员随时间使用生成式人工智能的情况。初步结果支持了我们的轶事性认识，同时也揭示了在生成式 AI 聊天机器人出现后，学生创作的文本随时间变化的细微差别。他们还证实了我们对 Pangram 的信心：在通过 Pangram 运行 2015 年起直至 ChatGPT 推出前学生的编辑内容时（未涉及任何日期信息），团队发现 Pangram 正确判断这些内容全部为 100% 人工撰写。该项研究将持续到春季，团队正探讨拆解 AI 对条目质量不同方面影响的方法。

当然，生成式人工智能是一个快速变化的领域。仅因为这些是我们在 2025 年的发现，并不意味着它们在整个 2026 年仍然成立。Wiki Education 将继续致力于监测、评估、迭代并在必要时调整。根本上，我们致力于通过我们的项目向维基百科补充高质量内容。当我们出现偏差时，我们也致力于清理任何造成的损害。

这对维基百科意味着什么？

虽然我在这篇文章中侧重于介绍 Wiki Education 在与我们课程参与者合作中学到的经验教训，但这些经验同样适用于其他维基百科编辑者。已经有全球 10% 的成年人在使用 ChatGPT，而起草文本是其主要用途之一。随着生成式人工智能的使用普及，出于好意用其为维基百科起草内容的情况也会增加。长期每天编辑维基百科的资深编辑通常不会在未经核实所有信息是否出现在其所引用的来源中的情况下，将从生成式 AI 聊天机器人复制粘贴的内容加入条目。但许多偶尔编辑或新手编辑在使用聊天机器人时可能会在不知情的情况下向维基百科添加有问题的内容。毕竟，聊天机器人给出的看起来像是准确的事实，并标注了通常是真实、相关且可靠的来源。我们撤回的大多数编辑在表面审查下似乎是可以接受的；只有在我们尝试核实信息时，才发现了问题。

因为这些无法核实的内容在初看时常常看起来没问题，所以维基百科编辑者必须配备像 Pangram 这样的工具，以便更准确地判断何时应更仔细地审查编辑内容。像维基人多年对侵犯版权文本所做的那样，将文本自动化审查以检测生成式 AI 的使用，有助于保护维基百科内容的完整性。根据 Wiki Education 的经验，Pangram 是一款可以为编辑者提供准确文本评估的工具，我们希望看到我们为评估项目编辑而构建的工具的更大规模版本能够在所有维基百科编辑中部署。目前，编辑者可以添加一个警告横幅，提示该文本可能由 LLM 生成，但这仅基于添加横幅者的判断。我们的经验表明，仅凭语气来判断并不充分；相反，像 Pangram 这样的工具可以标记出那些听起来可能没问题但其实非常成问题、应立即恢复的内容。

我们在为项目参与者设计的培训模块和支持中也取得了成功。提供清晰的指引——以及这些指引存在的原因为何 ——是帮助我们防止生成式 AI 文本被不当使用的关键。我们鼓励维基百科编辑在欢迎信息中考虑修改对新贡献者的指引，强调加入由生成式 AI 起草文本的陷阱。维基媒体基金会面向新贡献者设计的软件应以列出来源并从中提取信息为出发点，使用人类智慧而非生成式 AI 来总结信息。提前提供指引可以帮助出于善意的贡献者避开糟糕的生成式 AI 文本。

维基百科最近庆祝了其 25 周年。为了在未来继续存在，它需要随着周围技术的变化而调整。没有其志愿编辑群体，维基百科将一无所有。维基百科基于共识的决策模式意味着变革不会迅速到来，但我们希望这次深入探讨能激发有关保护维基百科所需变革的讨论。

#AI