返回首页
信息来源:anneliesgamble.substack.com 2026.05.04 01:51 约 7 分钟 AI 1.2万 阅读

在追求认知自主性的过程中构建人工智能

在追求认知自主性的过程中构建人工智能
Stef Druga

每次我上 X,总免不了看到有人谈论:如果开会时没有同时运行 5 个智能体,就会觉得自己效率低下。“Token maxxing”已经成了生产力的代名词,在这种语境下,衡量标准是消耗而非产出。

如今,我们的生产力似乎已经看不到明显上限。这些工具被设计出来,是为了帮助我们执行更多任务。

但这些工具真的是在按照我们的要求构建吗?还是说,它们实际上正在改变我们的要求?AI 执行究竟会在什么时候偏离预定轨道?它是否在弱化我们的判断、影响我们的思考,并改变我们最初想要构建的东西?而当越来越多的执行进入共享工作流时,系统中真正体现的是谁的判断?仍然是我们在进行构建,还是这些工具正在塑造我们,以及我们身边的团队?

本周,我与 Stefania(Stef)Druga 坐下来深入探讨了这一问题。Stef 是东京 Sakana AI 的研究科学家,此前曾在 Google DeepMind 从事多模态 Gemini 应用相关工作。再往前,她曾在 MIT Media Lab 学习,并在 University of Washington 获得哲学博士学位。大约十年来,她一直在研究人类如何学习与 AI 协作,以及这种学习如何塑造——或未能塑造——工作本身。

工具正在改变我们的定义

Natasha Jacques 最近发表的一篇论文开篇提出了这样的洞见:“大型语言模型(LLMs)已被全球超过十亿人使用,最常见的用途是辅助写作。在这项工作中,我们证明,LLMs 不仅会改变人类写作的声音和语气,还会持续改变原本想表达的含义。”

在追求认知自主性的过程中构建人工智能
即使被要求只做最小幅度的修改,LLM 的编辑对文章造成的改变也比人工编辑更大。每一条线都连接着一篇文章在修改前后的状态。人工编辑的改动更小、差异更大,而 LLM 的编辑会将文章推向更远、且方向更一致的位置。来源.

Stef 此前曾与 Jacques 共事。她说得更直白:“当你与 AI 协同写作时,语义漂移会非常大,远超人类编辑。用 AI 给你反馈或帮助你写作,实际上会改变内容的含义和方向。”

你坐下来本想表达一件事,接受了几条听起来更简洁的建议后,起身离开时说出的却已是略有不同的意思,而且你甚至未必察觉到这种偏移。

之所以会出现这种情况,部分原因在于我们大多数人尚未培养出识别它的素养。在我们的对话中,Stef 将 AI 素养定义为“用 AI 进行阅读和写作,并以非常具体的方式培养批判性思维和对 AI 能力的理解的能力”。在她共同撰写的一篇论文中,她与合作者提出了一个家庭 AI 素养框架,围绕四个维度展开:提问、适应、创作和分析。

这种素养的培养方式,与掌握任何一门技艺并无二致:通过尝试解决问题、碰到工具的边界、学会哪些可以信任、哪些不能信任,并逐步形成一种直觉,判断何时将任务交给工具会有帮助,何时反而会损害工作本身。

贯穿这一切的核心技能,是操作层面的自主性:在当下判断,机器究竟是在打磨你的思考,还是把它抹平,变成某种听起来像你、却并非出自你的东西。

我们大多数人还没有培养出这种技能,因为这些工具让这件事变得很难。接受一条建议只需按一下键,而提出质疑则意味着必须放慢下来,真正去思考。

清晰看见你自己的工作

斯特夫认为,大多数人在尚未真正看清自己的工作之前,就先求助于 AI。“我该如何追踪我所参考和正在做的一切,包括输入和输出?一旦我能把这些可视化,我究竟花了多少时间在执行上?比如写代码或运行实验。相比之下,我又花了多少时间在思考上?”

如果你一开始就没有明确自己的含义或意图,你就无法察觉工具正在改变你的含义或意图。如果你看不清自己委托了什么,你也无法判断这种委托是否真的有帮助。让自己的工作变得清晰可读(通过个人维基、结构化的桌面,或任何适合自己的形式),才能让你有一个可供对照的基准。否则,工具版本的你的思维,就会成为你唯一拥有的版本。

“在让最强大的 LLM 替我们做事之前,我们自己先具备清晰的思考、清晰的想法、清晰的方向,以及清晰的问题,这确实有真正的意义和价值。”

Stef 提到了 Andrej Karpathy 对个人知识库这一概念的推广,但指出这实际上是对人机交互和知识组织领域更早期理念的重新发现:让工作可见,构建上下文,再利用机器来帮助梳理和导航。

清晰地看到彼此的工作

如果说个人要对自己保持清晰认知已属不易,那么团队成员彼此保持清晰可辨的状态则要困难成倍增加。

“眼下的瓶颈是我们人类自己,”Stef 说,“我们一直在谈论让模型与人类对齐,但我们却没有在谈论人类自身的对齐。”

当一家公司开始将智能体嵌入共享工作流程时,就必须回答大多数团队都拿不出好答案的问题。流程是什么?各自负责什么?哪些规则优先?当一个人的智能体与另一个人的智能体发生冲突时,又该怎么办?

“假设我们有一个代码库,每个人都有自己的智能体,也有各自智能体的规则,但这些智能体的规则之间会发生冲突。那该如何协调?这就是未来:智能体与智能体之间的协调、智能体与人之间的协调、人与人之间的协调,以及介于其间的一切。”

换句话说,这与个人层面的能动性问题如出一辙,只是被放大了。在个人层面,当你无法足够清晰地看见自身所处的语境,因而察觉不到 AI 正在重塑它时,你就会失去能动性。在团队层面,当没有人能够足够清晰地看见共同的语境,因而察觉不到智能体正在重塑它时,团队就会失去能动性。

而自动化只会进一步放大其底层的不可理解性。

“我们常常试图把自动化手段一股脑儿用到各种事情上,以为这些问题会就此消失,”斯特夫说,“但实际上,它们只会变得更糟。”

思考即工作

执行正变得越来越便宜,因此真正有价值的工作必然在别处。如果自动化会放大你所指向的一切,那么你所指向对象的质量就比以往任何时候都更重要。

Stef 将其比作一座金字塔:“你从一个问题、一个项目说明或一个假设开始,随后下游的很多环节都可以自动化。但如果最初的起点——也就是规格说明、你提出的问题、你的假设——本身就很糟糕,那么层层传递下去的错误和偏见就会呈指数级恶化。”

因此,最具杠杆效应的工作正在向上游转移:界定问题框架、明确任务要求、定义什么才算做好、决定哪些内容可以委派出去,以及保有判断力,知道机器是在提供帮助,还是在扭曲结果。

Stef 说:“这从来都不是时间长短或你投入了多少小时的问题,而更多关乎质量。” 顺带一提,这也是为什么我认为,那些以“996”文化自夸的团队,忽略了关于最佳工作究竟如何完成的一个根本问题。更长时间的执行未必会带来更好的产出。事实上,它们往往只是让错误的事情更快地产生得更多。

“难的是提出正确的问题。具备正确的审美和良好的品味,”Stef 在我们谈话接近尾声时说道。

品味、判断力以及提出好问题的能力,都是需要慢慢养成的技能。它们是在长期工作与持续留意中积累起来的;是在察觉哪里出了问题,并且足够在意、愿意去修正的过程中形成的。这些慢技能无法像执行那样被同等规模化,而如果我们把产出加速误认为制作,就最有可能失去它们。

作者注:本文仅使用了 LLM 进行轻度文字编辑(拼写、语法和清晰度)。内容、含义、语气和结构均未改变。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读