AI 编程工具正转向一个令人惊讶的领域:终端

多年来,Cursor、Windsurf 和 GitHub Copilot 等代码编辑工具一直是 AI 驱动软件开发的标准配置。但随着自主 AI 能力日益强大以及氛围编码的兴起,AI 系统与软件的交互方式正悄然改变。它们不再局限于处理代码,而是越来越多地直接与所安装系统的终端外壳交互。这种转变深刻改变了 AI 驱动软件开发的模式——尽管低调演进,却可能对这个领域的未来方向产生重大影响。
终端最为人熟知的形象,是 90 年代黑客电影里那种黑白屏幕——一种运行程序和操作数据的复古方式。虽然视觉冲击力不及现代代码编辑器,但对于掌握其使用方法的人来说,这是极其强大的交互界面。基于代码的 AI 代理可以编写和调试程序,但要将书面代码转化为真正可用的软件,往往离不开终端工具。
转向终端的最明显迹象来自各大实验室。自二月以来,Anthropic、DeepMind 和 OpenAI 相继发布了命令行编码工具(分别为 Claude Code、Gemini CLI 和 CLI Codex),这些工具迅速成为各公司最受欢迎的产品之一。这种转变很容易被忽视,因为它们大多沿用了之前编码工具的相同品牌名称。但在底层,智能体与其他计算机的交互方式——无论在线还是离线——已经发生了实质性变化。有人认为这些变化才刚刚开始。
"我们坚信未来 95%的 LLM 与计算机的交互都将通过类终端界面完成,"专注于终端性能评估的领先工具 Terminal-Bench 联合创始人迈克·梅里尔表示。
就在知名代码工具开始显露颓势之际,基于终端的工具正迎来高光时刻。AI 代码编辑器 Windsurf 因竞购战而分崩离析—— 高层被谷歌挖走 ,剩余公司被 Cognition 收购 ,导致其消费级产品的长期前景充满不确定性。
与此同时,新研究表明程序员可能高估了传统工具带来的生产力提升。METR 研究在测试 Cursor Pro(Windsurf 的主要竞争对手)时发现,尽管开发者预估任务完成速度能提高 20-30%,实际观测到的流程却慢了近 20%。简而言之,这款代码助手反而在消耗程序员的时间。
这为 Warp 等公司创造了机会,该公司目前占据 TerminalBench 榜首。Warp 自称是"智能代理开发环境",介于 IDE 程序与 Claude Code 等命令行工具之间。但 Warp 创始人 Zach Lloyd 仍看好终端,认为它能解决 Cursor 这类代码编辑器力所不及的问题。
"终端在开发者技术栈中处于非常底层的位置,因此是运行智能代理最具通用性的平台,"Lloyd 表示。
要理解新方法的不同之处,观察其衡量基准会很有帮助。基于代码生成的工具专注于解决 GitHub 问题,这正是 SWE-Bench 测试的基础。SWE-Bench 上的每个问题都来自 GitHub 的未解决问题——本质上是一段无法运行的代码。模型会不断迭代修改代码,直到找到可行的解决方案。像 Cursor 这样的集成产品虽然采用了更复杂的方法,但 GitHub/SWE-Bench 模式仍是这些工具的核心思路:从有缺陷的代码出发,将其转化为可运行的代码。
基于终端的工具视野更广,不仅关注代码本身,还关注程序运行的整个环境。这包括编码工作,也包括更多偏向 DevOps 的任务,比如配置 Git 服务器或排查脚本无法运行的原因。在 TerminalBench 的一个问题中,指令提供了一个解压程序和目标文本文件,要求智能体逆向推演出匹配的压缩算法。 另一个问题则要求智能体从源代码构建 Linux 内核,却故意不提及需要自行下载源代码这一步骤。解决这些问题需要程序员那种执着的解题能力。
"TerminalBench 的难点不仅在于我们给智能体提出的问题,"该工具另一位创始人亚历克斯·肖指出,"更在于我们为其构建的测试环境。"
关键在于,这种新方法意味着要逐步解决问题——这正是使智能体 AI 如此强大的核心能力。但即便是最先进的智能体模型也无法应对所有环境。Warp 在 TerminalBench 上获得高分仅解决了略超半数的问题——这既体现了基准测试的挑战性,也说明要释放终端的全部潜力仍需大量工作。
尽管如此,Lloyd 认为我们已经达到这样一个阶段:基于终端的工具能可靠处理开发者的大部分非编码工作——这一价值主张令人难以忽视。
"如果你考虑日常工作中搭建新项目、理清依赖关系并使其可运行的流程,Warp 基本能自主完成这些任务,"劳埃德说道,"如果它无法完成,也会告诉你原因。"