2025 年末的 AI 思考
本文信息来源:antirez
多年来,尽管功能性证据和科学线索不断积累,一些 AI 研究人员仍然声称 LLMs 只是随机鹦鹉:一种概率机器,它们:1. 并不会对提示的含义有任何表示。2. 并不会对自己将要说什么有任何表示。到了 2025 年,几乎所有人终于都不再这么说了。
思维链如今已成为提升 LLM 输出的基本方式。但是,什么是 CoT?它为什么能改善输出?我认为它包含两个方面:1. 在模型表示中的采样(也就是一种内部搜索形式)。当与提示主题相关的信息和概念进入上下文窗口后,模型就能更好地作答。2. 但如果将这与 reinforcement learning 结合起来,模型还会学会如何一个 Token 接一个 Token 地输出(每个 Token 都会改变模型状态),从而收敛到某个有用的回复。
认为规模受限于我们拥有的 Token 数量的观点已不再成立,这是因为有了具备可验证奖励的 reinforcement learning。我们仍然未达到 AlphaGo 第 37 手那样的时刻,但这在未来真的不可能吗? 在某些任务中,例如提升给定程序的速度,从理论上讲,模型可以在很长时间内持续取得进展,因为奖励信号非常清晰。我相信,将 RL 应用于 LLMs 的改进将成为 AI 领域的下一个大事件。
程序员对 AI 辅助编程的抵触情绪已经明显降低。即使 LLMs 会犯错,LLMs 提供有用代码和提示的能力也已经提升到一个程度,使得大多数怀疑者最终还是开始使用 LLMs:如今,投资的回报对更多人来说已经是可以接受的。编程世界仍然在分化,一部分人将 LLMs 视为同事(例如,我的所有交互都是通过 Gemini、Claude 等的 Web 界面完成的),另一部分人则将 LLMs 用作独立的编码代理。
一些知名的 AI 科学家认为,发生在 Transformer 上的事情可能会再次发生,并且效果更好,只是沿着不同的路径,因此已经开始组建团队、创建公司,以研究 Transformer 之外的替代方案,以及具有显式符号表示或世界模型的模型。 我认为 LLMs 是在一个能够近似离散推理步骤的空间上训练的可微机器,即便没有出现根本性的新范式,它们也并非不可能将我们带向 AGI。很可能,AGI 可以通过多种截然不同的架构分别实现。
有人声称「思维链」从根本上改变了 LLMs 的本质,这也是为什么他们过去认为 LLMs 非常受限,而现在又改变了看法。他们说,正是因为 CoT,LLMs 才成了截然不同的东西。他们在撒谎。一切仍然是相同的架构,目标依然是下一个 token,而 CoT 也正是以这种方式生成的,一个 token 接着一个 token。
如今的 ARC 测试看起来已远没有最初设想的那样不可逾越:有针对具体任务进行优化的小模型,在 ARC-AGI-1 上表现得相当不错;而拥有大量 CoT 的超大 LLMs,则在 ARC-AGI-2 上取得了令人印象深刻的成果,尽管在许多人看来,这种架构本不该产生这样的结果。某种意义上,ARC 已经从一个反 LLM 的测试,转变为对 LLMs 的一种验证。
未来 20 年里,AI 面临的根本性挑战是避免灭绝。