返回首页
2025.08.07 03:38 约 2 分钟 大模型内核

小型行动模型是 AI 智能体的未来

2025年是智能体的元年,而智能体的核心能力是调用工具。

在使用 Claude Code 时,我可以告诉 AI 梳理一份简报,找出所有初创公司的链接,验证它们是否存在于我们的 CRM 中,这些只需要一个简单的命令。这个过程可能涉及调用两到三个不同的工具。

但这里有个问题:使用大型基础模型来完成这个任务既昂贵,又经常受到频率限制,而且对于选择任务来说过于强大了。

构建具有工具调用功能的智能体系统的最佳方法是什么?

答案在于小型动作模型。NVIDIA 发布了一篇引人注目的论文 ,论证了”小型语言模型(SLM)足够强大,本质上更适合,对于智能体系统中的许多调用来说也更经济。”

我一直在测试不同的本地模型来验证成本削减方案。我从一个 Qwen3:30b 参数模型开始,它虽然有效,但可能相当慢,因为它是一个如此庞大的模型,尽管在任何时候只有 300 亿个参数中的 30 亿个是活跃的。

NVIDIA 论文推荐了 Salesforce 的 xLAM 模型 ——这是一种不同的架构,称为大型动作模型,专门为工具选择而设计。

因此,我进行了自己的测试,让每个模型调用一个工具来列出我的 Asana 任务。

小型行动模型是 AI 智能体的未来

结果令人震惊:xLAM 在 2.61 秒内完成任务,成功率达 100%,而 Qwen 需要 9.82 秒,成功率为 92%——几乎慢了四倍。

benchmark_comparison.png

这个实验展示了速度优势,但存在权衡:智能应该更多地存在于模型中,还是工具本身中。这种有限的

像 Qwen 这样的大型模型,工具可以更简单,因为模型具有更好的容错性,能够应对设计不良的接口。模型通过暴力推理来弥补工具的局限性。

对于较小的模型,模型从错误中恢复的能力较弱,因此工具必须更加稳健,选择逻辑也必须更加精确。这看起来像是一个限制,但实际上这是一个特性。

这种约束消除了 LLM 链式工具的复合错误率。当大型模型进行连续工具调用时, 错误会呈指数级累积 

小型行动模型强制更好的系统设计 ,保留 LLMs 的优势并将其与专门化模型相结合。

这种架构更高效、更快速、更可预测。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读