只有三种人工智能产品真正有效
本文信息来源:seangoedecke
第一个基于 LLM 的产品 ChatGPT,1 仅仅是与模型本身对话的能力:换句话说,一个纯粹的聊天机器人。这仍然是迄今为止最受欢迎的 LLM 产品。
事实上,考虑到行业中投入的资金量,令人震惊的是,许多“新 AI 产品”都只是聊天机器人。据我所知,目前只有三种类型的人工智能产品是有效的。
聊天机器人
在人工智能热潮的最初几年里,所有的 LLM 产品都是聊天机器人。它们以各种不同的方式进行品牌推广——也许 LLM 了解你的电子邮件,或者公司的帮助台文章——但其根本的产品只是能够用自然语言与 LLM 对话。
聊天机器人存在的问题是, 最好的聊天机器人产品就是模型本身 。用户想要与 LLM 对话的大部分原因是通用的:他们想提问,或者寻求建议,或者忏悔他们的罪过,或者做一百件与你的特定产品无关的事情。
换句话说,你的用户只会使用 ChatGPT2。人工智能实验室比你拥有两个决定性的优势:首先,他们总能比你更早地接触到最前沿的模型;其次,他们可以与模型本身同步开发他们的聊天机器人框架(就像 Anthropic 专门训练他们的模型用于 Claude Code,或者 OpenAI 训练他们的模型用于 Codex 一样)。
明确的角色扮演
你的聊天机器人产品击败 ChatGPT 的一种方法是做 OpenAI 不会做的事情:例如,乐于扮演 AI 男友或生成色情内容。目前,这类产品有一个非常有利可图的利基市场,它们通常依赖于能力较弱但限制较少的开源模型。
这些产品存在我上面讨论过的问题。但它们的聊天机器人不如 ChatGPT 或 Claude 强大并不重要:如果你正在寻找色情 AI 角色扮演,而 ChatGPT 和 Claude 不会提供,你就会接受你能得到的一切。
我认为这类产品存在严重的伦理问题。但即使从实际角度来看,随着大型 AI 实验室越来越乐于突破成人内容的界限,这个行业领域很可能会被它们吞噬。Grok Companions 已经走上了这条道路,Sam Altman 也表示 OpenAI 模型未来将更开放地生成成人内容。
带工具的聊天机器人
聊天机器人有一个小变种,它为模型提供了工具:因此,您不仅可以与日历聊天,还可以要求聊天机器人预订会议等等。这种产品通常被称为“AI 助手”。
这效果不佳,因为精明的用户可以操纵聊天机器人调用工具。所以你永远不能给支持聊天机器人真正的支持权限,比如“给这位客户退款”,因为一旦你这样做,成千上万的人会立即找到正确的方法来越狱你的聊天机器人,让他们获得金钱。你只能给你的聊天机器人提供用户可以自己完成的工具——在这种情况下,你的聊天机器人正在与你实际产品的可用性竞争,并且很可能会输。
为什么你的聊天机器人会输?因为聊天不是一个好的用户界面。用户根本不想输入“嘿,你能帮我把字体调大吗”,而他们只需按下“Ctrl 加号”或点击一个按钮 3。
我认为这对工程师来说是一个艰难的教训。人们很容易相信,既然聊天机器人已经好了一百倍,它们现在一定是许多任务的最佳用户界面。不幸的是,它们最初比常规用户界面差了两百倍,所以它们仍然差了两倍。
补全
第二款真正的人工智能产品实际上在 ChatGPT 之前就已问世:GitHub Copilot。最初的 Copilot 产品(及其所有模仿者,如 Cursor Tab)背后的理念是,一个快速的 LLM 可以充当智能自动补全工具。通过在你输入代码时将代码输入模型,代码编辑器可以建议自动补全,从而为你编写函数的其余部分(或文件)。
这类产品的精妙之处在于,用户无需与模型对话。正如我上面所说,聊天是一种糟糕的用户界面。LLM 生成的补全功能让用户无需改变当前工作流程的任何部分即可使用 AI 模型的功能:他们只是看到编辑器已经提供的自动补全建议,但功能强大得多。
我有点惊讶,基于补全的产品在编码领域之外没有流行起来(在编码领域,它们立即创造了一个价值数十亿美元的市场)。Google Docs 和 Microsoft Word 都有类似的功能。为什么这方面没有更多的宣传呢?
- 也许答案是,使用这款产品的人不参与在线人工智能领域,只是默默地使用产品?
- 也许普通的专业写作不如代码那样适合自动补全?我对此表示怀疑,因为很多普通的专业写作都是从 ChatGPT 窗口复制出来的。
- 可能是因为代码编辑器已经有了自动补全功能,所以用户对此很熟悉。我敢打赌,自动补全对许多 Word 用户来说是全新的、令人困惑的。
代理
第三种真正有效的 AI 产品是编码代理。人们谈论它已经很多年了,但直到 2025 年,编码代理背后的技术才真正变得可行(随着 Claude Sonnet 3.7 以及后来的 GPT-5-Codex 的出现)。
代理有点像聊天机器人,用户通过输入自然语言文本与它们交互。但它们与聊天机器人的不同之处在于,你只需这样做一次:模型会接收你的初始请求,然后自行去实现和测试。
代理之所以有效而带有工具的聊天机器人无效,区别在于让 LLM 为你按一个按钮和让 LLM 按一百个按钮并按特定顺序执行。尽管每个单独的动作对人类来说都更容易执行,但代理式 LLM 现在已经足够智能,可以接管整个过程。
编码代理之所以与 AI 代理天然契合,原因有二:
- 通过运行测试或检查代码是否编译,可以很容易地验证更改
- 人工智能实验室有动力生产有效的编码模型,以加速他们自己的工作
在我看来,当前价值数十亿美元的问题是,人工智能代理能否用于编码以外的任务? 请记住,Claude Sonnet 3.5 发布至今还不到 九个月。在这段时间里,科技行业已经成功地构建了关于他们自己工作的代理产品。他们才刚刚开始为其他任务构建代理产品。这些产品会有多成功,或者会是什么样子,还有待观察。
研究
还有另一种不涉及编码的智能体:研究型智能体。LLMs 特别擅长“浏览十页搜索结果”或“在庞大数据集中搜索特定主题的任何信息”之类的任务。我经常将此功能用于各种事务。
有一些基于此功能构建的 AI 产品示例,例如 Perplexity。在大型 AI 实验室中,这已被吸收到聊天机器人产品中:例如,OpenAI 的“深度研究”已从一个独立功能变为 GPT-5-Thinking 自动执行的功能。
我认为在特定领域的研究型智能体(例如在医学或法律领域)方面几乎肯定存在潜力。
信息流
如果说智能体是最近成功的 AI 产品,那么 AI 生成的信息流可能就是即将到来的下一个。AI 实验室目前正在尝试为用户生成无限的个性化内容信息流:
- 马克·扎克伯格曾谈到用自动生成的内容填充 Instagram
- OpenAI 最近推出了基于 Sora 的视频生成信息流
- OpenAI 也开始推动用户使用“Pulse”,这是 ChatGPT 产品内的一个个性化每日更新
- xAI 正在努力将无限的图像和视频内容整合到 Twitter 中
到目前为止,这些产品都未能普及。但滚动式信息流已成为用户与技术互动的主要方式,因此这方面的潜力巨大。在我看来,未来五年内,大多数互联网用户将把一天中的大部分时间花在浏览 AI 生成的信息流上,这并非不可能。
与基于补全的产品类似,信息流的优势在于用户无需与聊天机器人互动。模型的输入来自用户与信息流的互动方式(点赞、滚动速度、查看某个项目所花费的时间等)。用户无需改变他们的消费习惯,即可体验 LLM 生成的信息流所带来的好处(如果有的话)。
当前人工生成的无限信息流背后的技术已经是成熟的机器学习应用。当你使用 Twitter 或 LinkedIn 时,你正在与一个模型互动,只不过它生成的是其他人的帖子列表,而不是文本。换句话说,信息流已经维护了你个人喜好和厌恶的复杂嵌入。从“利用该嵌入来呈现相关内容”到“利用该嵌入来生成相关内容”的步骤可能确实非常短。
我相当怀疑 AI 生成的视频无限信息流,但我确实认为其他类型的无限信息流是一种未被充分探索的产品。事实上,我建立了一个基于信息流的个人爱好项目,名为 Autodeck4。其理念是利用 AI 生成的信息流来生成用于学习的间隔重复卡片。它运行得相当好!它仍然从通过我的博客找到它的人(也包括我自己和我的伴侣)那里获得了相当多的使用。
游戏
人们多年来一直在讨论的另一种人工智能生成产品是基于人工智能的视频游戏。这方面最具推测性的尝试是像 DeepMind 的 Genie 这样的完整世界模拟,但人们也探索了使用人工智能生成游戏内容的子集,例如像 AI Dungeon 这样的纯文本游戏,或者这个添加了人工智能生成对话的 Skyrim mod。更多的游戏开发者已将人工智能艺术或音频资产整合到他们的游戏中。
是否有可能出现一种将 LLM 融入视频游戏的变革性产品?我认为《ARC Raiders》不能算作“AI 产品”,仅仅因为它使用了 AI 语音台词,而那些更雄心勃勃的项目尚未真正起步。为什么呢?
一个原因可能是,游戏开发确实需要很长时间。当《星露谷物语》在 2016 年风靡全球时,我曾预料到会涌现大量模仿者,制作舒适的像素艺术农场游戏,但这种情况直到 2018 年和 2019 年才真正开始发生。这就是制作一款游戏所需的时间!所以,即使有人对基于 LLM 的视频游戏有一个非常好的想法,我们可能也还需要一两年才能看到它发布。
另一个原因是,许多玩家确实不喜欢 AI。在游戏中加入生成式 AI 肯定会引发争议(尽管这似乎不是致命的,正如《ARC Raiders》的成功所表明的那样)。如果一些游戏开发者仅仅认为尝试基于 AI 的游戏创意不值得冒险,我也不会感到惊讶 5。
第三个原因可能是,生成式内容根本不适合游戏。当然,ChatGPT 式的对话在大多数视频游戏中都显得格格不入。AI 聊天机器人也不擅长挑战用户:它们的后期训练都是为了让它们立即满足用户 6。不过,我认为这不是一个无法克服的技术问题。你可以简单地将语言模型朝不同的方向进行后期训练(尽管游戏公司可能还没有获得必要的资源)。
总结
在我看来,有三种成功的语言模型产品:
- 像 ChatGPT 这样的聊天机器人,被数亿人用于各种各样的任务
- 像 Copilot 或 Cursor Tab 这样的代码补全产品,它们非常小众,但能立即带来价值
- 像 Claude Code、Codex、Cursor 和 Copilot Agent 模式这样的代理产品,它们在过去六个月才真正开始发挥作用
除此之外,还有两种基于 LLM 的产品目前尚不可行,但可能很快就会实现:
- LLM 生成的信息流
- 基于 AI 生成内容的视频游戏
几乎所有的 AI 产品都只是聊天机器人(例如 AI 驱动的客户支持)。这些产品面临着与 ChatGPT 竞争的困境,ChatGPT 是一款更优秀的通用产品,而且它们无法使用强大的工具,因为用户可以轻易地“越狱”模型。
代理产品是新生事物,并且在编码领域取得了巨大成功。它们在其他领域会是什么样子还有待观察,但我们几乎肯定会在法律等领域看到特定领域的研发代理。编码领域的研发代理也取得了一些成功(例如代码审查或自动化安全扫描产品)。
无限的 AI 生成信息流尚未成功,但目前已有数亿美元投入其中。OpenAI 的 Sora 会成为 Twitter 或 Instagram 的真正竞争对手吗?或者这些公司会发布自己的 AI 生成信息流产品吗?
AI 生成的游戏听起来可能是一个好主意,但目前还没有明确可行的策略来将 LLMs 整合到视频游戏中。纯粹的世界模型——即整个游戏逐帧生成——是很酷的演示,但离成为产品还有很长的路要走。
我还没提到的一点是图像生成。这属于聊天机器人产品的一部分,还是一个独立的工具?坦率地说,我认为 AI 图像生成目前更多的是一个玩具而非产品,但它确实得到了大量的应用。如果它们能成功地与 ChatGPT 内置的图像生成功能区分开来,这里可能存在一些肥沃的产品开发土壤。
总的来说,这感觉就像互联网的早期。LLMs 潜力巨大,但我们目前大多还在重复构建相同的东西。肯定有一些非常简单的产品创意,我们将来回顾时会觉得“这太明显了,我真奇怪他们为什么不立刻去做”。
- 当然,“仅仅”在这里涵盖了训练更强大模型方面的一系列进展,以及围绕 RLHF 的真正创新,这些创新使得与纯粹的 LLMs 对话成为可能。
- 这就是大多数企业人工智能项目失败的一个重要原因。我听说很多人对定制的企业聊天机器人感到非常沮丧。人们只是想用 ChatGPT!
- 如果你不相信,那就拿任何你习惯使用的设备(比如你的手机、你的汽车、你的微波炉)来举例,想象一下你必须输入每一个命令。也许非常好的语音识别技术能解决这个问题,但我对此表示怀疑。
- 我在这里写过,它链接在顶部栏。
- 尽管这可能会被高管们“用 AI 做点什么”的强烈推动所抵消,我确信他们也想参与其中。
- 如果你曾尝试让 ChatGPT 为你扮演地下城主,你就会亲身体验到这一点:模型会立刻试图向你展示一些很酷的东西,跳过了建立紧张感和增加真实感所必需的枯燥部分。