2025 LLM 年度回顾
本文信息来源:bearblog.dev

2025 年是 LLMs 取得重大且充满事件性进展的一年。以下是一份我个人认为值得注意且略感意外的“范式转变”清单——这些变化改变了整体格局,并在概念层面给我留下了深刻印象。
1. 来自可验证奖励的强化学习(RLVR)
在 2025 年初,所有实验室中的 LLM 生产技术栈大致如下:
- 预训练(约 2020 年的 GPT-2/3)
- 监督微调(InstructGPT,约 2022 年)以及
- 来自人类反馈的强化学习(RLHF ~2022)
这曾在一段时间内是训练生产级 LLM 的稳定且经过验证的食谱。到 2025 年,来自可验证奖励的强化学习(RLVR)成为加入这一组合中的事实上的新主要阶段。通过在多个环境中(例如数学/代码谜题)针对可自动验证的奖励来训练 LLM,LLMs 会自发地发展出在人类看来像是在“推理”的策略——它们学会将问题解决分解为中间计算,并学习多种来回推敲以弄清问题的解题策略(示例可参考 DeepSeek R1 paper)。在以往的范式中,这些策略很难实现,因为并不清楚对于 LLM 而言最优的推理轨迹和恢复方式应当是什么样子——它必须通过针对奖励进行优化,自己找到对其有效的方法。
与 SFT 和 RLHF 阶段不同,后者都是相对较薄/较短的阶段(在计算上只是轻量的微调),RLVR 涉及针对客观(不可被博弈化)的奖励函数进行训练,这使得可以进行更长时间的优化。实践表明,运行 RLVR 具有很高的能力/美元性价比,这吞噬了原本计划用于预训练的算力。因此,2025 年的大部分能力进展,都是由 LLM 实验室消化这一新阶段的算力积压所定义的;总体来看,我们看到的是规模大致相近的 LLM,但伴随着更长时间的 RL 训练。这个新阶段还带来了一个独特之处:我们获得了一个全新的旋钮(及其相关的尺度律),可以通过在测试时生成更长的推理轨迹、增加“思考时间”,来将能力作为测试时算力的函数加以控制。OpenAI o1(2024 年末)是第一个展示 RLVR 模型的例子,但 o3 的发布(2025 年初)才是明显的拐点,在那里你可以直观地感受到这种差异。
2. 幽灵 vs. 动物 / 锯齿状智能
2025 年是我(我认为业内其他人也是)第一次开始以更直观的方式理解 LLM 智能“形状”的一年。我们并不是在“进化/成长的动物”,而是在“召唤幽灵”。LLM 技术栈的方方面面都不同(神经架构、训练数据、训练算法,尤其是优化压力),因此我们在智能空间中获得的是截然不同的实体,用“动物”的视角来思考它们并不合适。 从监督信号的比特角度看,人类神经网络被优化于在丛林中的部落生存,而 LLM 的神经网络则被优化于模仿人类文本、在数学谜题中收集奖励,以及在 LM Arena 上获得人类的点赞。随着可验证领域允许 RLVR,LLMs 在这些领域附近的能力会“猛然飙升”,整体表现出一种颇为有趣的、锯齿状的性能特征——它们同时既是天才型的博学多才者,又是困惑且存在认知障碍的小学年级学生,距离被一次 jailbreak 骗走并外泄你的数据只有几秒之遥。
(人类智能:蓝色,AI 智能:红色。我很喜欢这个版本的梗图(很抱歉我弄丢了它在 X 上原始帖子的引用),因为它指出人类智能同样以其自身不同的方式呈现出锯齿状。)
与这一切相关的是我在 2025 年对基准测试普遍显现出的冷漠以及信任的流失。核心问题在于,基准测试几乎在构造之初就是可验证的环境,因此立刻就会受到 RLVR 以及通过合成数据生成实现的更弱形式攻击的影响。在典型的 benchmaxxing 过程中,LLM 实验室中的团队不可避免地会围绕基准测试所占据的嵌入空间中的小口袋,构建相邻的环境,并生长出锯齿状能力去覆盖它们。在测试集上训练已经成为一种新的艺术形式。
把所有基准测试都碾压之后,却仍然没有得到 AGI,会是怎样一种情形?
关于本节主题,我在这里写了更多内容:
3. Cursor / LLM 应用的新一层
我认为 Cursor 最值得注意的地方(除了它今年的爆发式崛起)在于,它令人信服地揭示了“LLM app”的一个新层级——人们开始谈论“面向 X 的 Cursor”。正如我今年在 Y Combinator 的演讲中所强调的( 成绩单 和 视频 ),像 Cursor 这样的 LLM 应用会为特定垂直领域打包并编排 LLM 调用:
- 它们负责“上下文工程”
- 它们在幕后编排多个 LLM 调用,将其串联成越来越复杂的 DAG,同时在性能与成本取舍之间进行精心平衡。
- 它们为人类参与者提供应用程序特定的 GUI
- 他们提供了一个“自主性滑块”
2025 年围绕这个新的应用层有多“厚”已经进行了大量讨论。LLM 实验室会捕获所有应用吗,还是说 LLM 应用仍然存在一片绿地?我个人怀疑,LLM 实验室的趋势是培养出具备通用能力的学院学生,而 LLM 应用则会通过提供私有数据、传感器和执行器以及反馈回路,对这些 LLM 进行组织和微调,真正将它们“驱动”为在特定垂直领域中已部署的专业人士团队。
4. Claude Code / 存在于你电脑上的 AI
Claude Code(CC)首次令人信服地展示了 LLM Agent 的样貌——一种以循环方式将工具使用与推理串联起来,用于长期问题求解的系统。此外,CC 令我印象深刻的一点在于,它运行在你的电脑上,并使用你私有的环境、数据和上下文。我认为 OpenAI 在这一点上走错了路,因为他们早期的 codex / agent 努力聚焦于从 ChatGPT 编排、运行在云端容器中的部署,而不是直接使用 localhost。而且,尽管在云端运行的 agent 群看起来像是“AGI Endgame”,但我们身处的是一个能力参差不齐、起飞速度足够缓慢的中间阶段世界,在这种情况下,将 agent 直接运行在开发者的电脑上更为合理。请注意,真正重要的主要区别并不在于“AI ops”恰好运行在哪里(云端、本地或其他),而在于其他一切——已经存在并启动的电脑本身、其安装状态、上下文、数据、密钥、配置,以及低延迟的交互。 Anthropic 把这种优先级顺序把握得非常正确,并将 CC 打包成一种令人愉悦、极简的 CLI 形态,彻底改变了人们对 AI 的认知——它不再只是一个像 Google 那样需要你访问的网站,而是一个“居住”在你电脑里的小精灵/幽灵。这是一种全新的、截然不同的与 AI 互动的范式。
5. 氛围编码
2025 年是 AI 跨越了一个能力阈值的一年,使得仅通过英语就能构建各种令人惊叹的程序,甚至让人忘记代码的存在。好玩的是,我在 这条随想式的推文 中创造了“vibe coding”这个词,当时完全没想到它会发展到如此程度 :)。通过 vibe coding,编程不再严格地只属于高度训练的专业人士,而是任何人都能做的事情。在这种意义上,它又一次印证了我在 《权力归于人民:LLMs 如何颠覆技术扩散的脚本》 中所写的观点:与以往所有技术形成鲜明对比的是,普通人从 LLMs 中获得的好处远多于专业人士、企业和政府。但 vibe coding 不仅赋能普通人走近编程,也让受过训练的专业人士能够编写大量原本永远不会被写出来的(vibe 编写的)软件。在 nanochat 中,我用 vibe coding 在 Rust 里为自己实现了一个高度高效的自定义 BPE tokenizer,而不是不得不采用现有库或在那个层面上去学习 Rust。 今年我以 vibe coding 的方式做了许多项目,作为我希望存在的东西的快速应用演示(例如见 menugen、llm-council、reader3、HN time capsule)。我甚至仅仅为了找出一个 bug 就用 vibe coding 从头写过完整的短暂应用,因为为什么不呢——代码突然变得免费、短暂、可塑,并且在单次使用后即可丢弃。Vibe coding 将重塑软件,并改变岗位描述。
6. 纳米香蕉 / LLM GUI
Google Gemini Nano banana 是 2025 年最令人难以置信、具有范式转移意义的模型之一。在我的世界观中,LLMs 是下一个重大的计算范式,类似于 1970、1980 年代的计算机。因此,我们将会出于本质上相同的原因,看到类似类型的创新。我们会看到个人计算的等价物、微控制器(认知核心)、或互联网(代理的互联网)等各种对应形态。尤其是在 UIUX 方面,与 LLMs“聊天”有点像 1980 年代向计算机控制台下达命令。文本是计算机(以及 LLMs)原始且受青睐的数据表示形式,但它并不是人类偏爱的格式,尤其是在输入层面。人们实际上并不喜欢阅读文本——这既缓慢又费力。相反,人们更喜欢以视觉化和空间化的方式来获取信息,这也是在传统计算中发明 GUI 的原因。 同样,LLMs 也应该用我们偏好的格式与我们交流——例如图像、信息图、幻灯片、白板、动画/视频、Web 应用等。当然,这种形式的早期以及当前版本包括 emoji 和 Markdown,它们都是对文本进行“装扮”和视觉排版的方式,通过标题、加粗、斜体、列表、表格等,让内容更易于理解和消费。但真正的问题是,谁会来构建 LLM 的 GUI?在这种世界观下,nano banana 是对其可能形态的一个早期初步暗示。更重要的是,它的一个显著特点在于,这不仅仅是图像生成本身,而是文本生成、图像生成以及世界知识所共同构成的联合能力,所有这些都纠缠并内化在模型权重之中。
TLDR。2025 年是 LLMs 令人兴奋且略带意外的一年。LLMs 正在显现为一种全新的智能形态:它们在很多方面比我预期的要聪明得多,同时在很多方面又比我预期的要愚笨得多。无论如何,它们都极其有用,而我认为即使在当前的能力水平下,整个行业对其潜力的发掘还远不到 10%。与此同时,还有大量想法可以尝试,从概念上看这个领域依然是一片广阔的开放空间。正如我今年早些时候在 Dwarkesh 播客中提到的那样,我同时(而且表面上看似矛盾地)相信,我们既将看到快速且持续的进步, 同时也仍然有大量工作需要完成。系好安全带。