AI 编程工具正转向一个令人惊讶的领域：终端

AI 编程工具正转向一个令人惊讶的领域：终端-RecodeX

多年来，Cursor、Windsurf 和 GitHub Copilot 等代码编辑工具一直是 AI 驱动软件开发的标准配置。但随着自主 AI 能力日益强大以及氛围编码的兴起，AI 系统与软件的交互方式正悄然改变。它们不再局限于处理代码，而是越来越多地直接与所安装系统的终端外壳交互。这种转变深刻改变了 AI 驱动软件开发的模式——尽管低调演进，却可能对这个领域的未来方向产生重大影响。

终端最为人熟知的形象，是 90 年代黑客电影里那种黑白屏幕——一种运行程序和操作数据的复古方式。虽然视觉冲击力不及现代代码编辑器，但对于掌握其使用方法的人来说，这是极其强大的交互界面。基于代码的 AI 代理可以编写和调试程序，但要将书面代码转化为真正可用的软件，往往离不开终端工具。

转向终端的最明显迹象来自各大实验室。自二月以来，Anthropic、DeepMind 和 OpenAI 相继发布了命令行编码工具（分别为 Claude Code、Gemini CLI 和 CLI Codex），这些工具迅速成为各公司最受欢迎的产品之一。这种转变很容易被忽视，因为它们大多沿用了之前编码工具的相同品牌名称。但在底层，智能体与其他计算机的交互方式——无论在线还是离线——已经发生了实质性变化。有人认为这些变化才刚刚开始。

"我们坚信未来 95%的 LLM 与计算机的交互都将通过类终端界面完成，"专注于终端性能评估的领先工具 Terminal-Bench 联合创始人迈克·梅里尔表示。

就在知名代码工具开始显露颓势之际，基于终端的工具正迎来高光时刻。AI 代码编辑器 Windsurf 因竞购战而分崩离析—— 高层被谷歌挖走，剩余公司被 Cognition 收购，导致其消费级产品的长期前景充满不确定性。

与此同时，新研究表明程序员可能高估了传统工具带来的生产力提升。METR 研究在测试 Cursor Pro（Windsurf 的主要竞争对手）时发现，尽管开发者预估任务完成速度能提高 20-30%，实际观测到的流程却慢了近 20%。简而言之，这款代码助手反而在消耗程序员的时间。

这为 Warp 等公司创造了机会，该公司目前占据 TerminalBench 榜首。Warp 自称是"智能代理开发环境"，介于 IDE 程序与 Claude Code 等命令行工具之间。但 Warp 创始人 Zach Lloyd 仍看好终端，认为它能解决 Cursor 这类代码编辑器力所不及的问题。

"终端在开发者技术栈中处于非常底层的位置，因此是运行智能代理最具通用性的平台，"Lloyd 表示。

要理解新方法的不同之处，观察其衡量基准会很有帮助。基于代码生成的工具专注于解决 GitHub 问题，这正是 SWE-Bench 测试的基础。SWE-Bench 上的每个问题都来自 GitHub 的未解决问题——本质上是一段无法运行的代码。模型会不断迭代修改代码，直到找到可行的解决方案。像 Cursor 这样的集成产品虽然采用了更复杂的方法，但 GitHub/SWE-Bench 模式仍是这些工具的核心思路：从有缺陷的代码出发，将其转化为可运行的代码。

基于终端的工具视野更广，不仅关注代码本身，还关注程序运行的整个环境。这包括编码工作，也包括更多偏向 DevOps 的任务，比如配置 Git 服务器或排查脚本无法运行的原因。在 TerminalBench 的一个问题中，指令提供了一个解压程序和目标文本文件，要求智能体逆向推演出匹配的压缩算法。另一个问题则要求智能体从源代码构建 Linux 内核，却故意不提及需要自行下载源代码这一步骤。解决这些问题需要程序员那种执着的解题能力。

"TerminalBench 的难点不仅在于我们给智能体提出的问题，"该工具另一位创始人亚历克斯·肖指出，"更在于我们为其构建的测试环境。"

关键在于，这种新方法意味着要逐步解决问题——这正是使智能体 AI 如此强大的核心能力。但即便是最先进的智能体模型也无法应对所有环境。Warp 在 TerminalBench 上获得高分仅解决了略超半数的问题——这既体现了基准测试的挑战性，也说明要释放终端的全部潜力仍需大量工作。

尽管如此，Lloyd 认为我们已经达到这样一个阶段：基于终端的工具能可靠处理开发者的大部分非编码工作——这一价值主张令人难以忽视。

"如果你考虑日常工作中搭建新项目、理清依赖关系并使其可运行的流程，Warp 基本能自主完成这些任务，"劳埃德说道，"如果它无法完成，也会告诉你原因。"

#开源生态 #AI 编程革命 #深度学习

AI 编程工具正转向一个令人惊讶的领域：终端

了解 RecodeX 的更多信息